3. Distribuzione di statistiche campionarie 3. 1. Alcuni concetti introduttivi 3. 1. 1. Parametri di una popolazione e statistiche campionarie Se una statistica è calcolata sulla base dell’intera popolazione sotto osservazione, il valore ottenuto è detto parametro della popolazione stessa. Ad esempio la media , la varianza 2 o la deviazione standard calcolate sulla base dei dati dell’intera popolazione sono parametri dell’intera popolazione. Se ad esempio siamo interessati a conoscere quanti anni hanno dedicato gli italiani di età compresa fra i 50 e i 60 anni alla loro formazione scolastica, dovremmo (il condizionale è d’obbligo) interpellare tutti i soggetti italiani in quella fascia di età, e calcolare poi una media e una varianza. Queste due statistiche sarebbero parametri della popolazione indagata. L’uso del condizionale è dovuto ovviamente alla circostanza che una ricerca cosiffatta nella pratica non è realizzabile (almeno con tempi e costi ragionevoli). In situazioni come quella descritta ora si ricorre all’estrazione di un (piccolo) campione che si ritiene sufficientemente rappresentativo dell’intera popolazione; solo sul campione si calcolano poi le statistiche di interesse (nel nostro caso media e varianza); queste costituiscono delle semplici stime dei parametri della popolazione, mentre i parametri veri e propri rimangono incogniti. Statistiche basate solo su un campione vengono dette statistiche campionarie, a differenza delle statistiche basate sull’intera popolazione che, come già sappiamo, sono dette parametri della popolazione stessa. Per esemplificare quanto detto fino a qui consideriamo una statistica sull’altezza di un assegnato gruppo di ragazzi. Se questo gruppo costituisce l’intera popolazione sotto osservazione la statistica calcolata è un parametro di quella popolazione; se invece il gruppo è un campione estratto da una popolazione più vasta su cui occorre indagare, la statistica calcolata è di tipo campionario e costituisce una semplice stima del corrispondente parametro della popolazione. 3. 1. 2. Convenzioni simboliche I parametri di una popolazione vengono indicati con lettere minuscole dell’alfabeto greco, mentre le statistiche campionarie sono indicate da lettere minuscole dell’alfabeto latino; in particolare, per le principali statistiche fin qui trattate valgono le seguenti convenzioni simboliche: Simbolo Simbolo per Nome della statistica per il la statistica parametro campionaria Media Y Varianza 2 s2 s Deviazione standard In genere le statistiche parametriche e le corrispondenti statistiche campionarie sono rappresentate dalla stessa lettera, facendo però uso dell’alfabeto greco nel primo caso, e di quello latino nel secondo. Come si vede, la media (con poche altre statistiche) fa eccezione a questa convenzione. 3. 1. 3. Campionamento con e senza ripetizione Richiamiamo e precisiamo meglio un concetto già introdotto in § 1.4.3. della Parte metodologica. Quando da una popolazione si estrae un campione, è possibile seguire due modalità: campionamento con ripetizione: ogni elemento può essere estratto più di una volta; campionamento senza ripetizione: ogni elemento può essere estratto una sola volta. In pratica, per visualizzare le due situazioni attraverso una immagine, si pensi di inserire l’identificativo di ogni elemento della popolazione in un bussolotto all’interno di un urna. L’estrazione del campione avvenga attraverso l’estrazione dei bussolotti dall’urna. Le due modalità definite prima equivalgono, con questa immagine, alle seguenti due modalità di estrazione: campionamento con ripetizione: dopo aver estratto un singolo bussolotto dall’urna, questo viene letto e subito riinserito nell’urna, prima dell’estrazione del successivo; in questo modo non è escluso che ogni elemento possa figurare più volte nel campione; campionamento senza ripetizione: una volta estratto un bussolotto, questo non viene riinserito nell’urna fino a che tutto il campione non è stato estratto; in questo caso all’interno di uno stesso campione un elemento non può figurare più volte, cioè non può essere ripetuto. 3.1.4. Distribuzioni campionarie Introduciamo il concetto attraverso un esempio. Consideriamo una popolazione statistica di parametri e . All’interno di questa popolazione estraiamo un campione di dimensione n. Calcoliamo la media del campione estratto, e indichiamola con Y1 . Successivamente procediamo all’estrazione dalla stessa popolazione di un nuovo campione, sempre della dimensione n. Calcoliamo un’altra volta la media, che indichiamo col simbolo Y2 ; nella generalità dei casi, la nuova media attenuta potrà essere diversa dalla precedente. Quindi procediamo all’estrazione di un nuovo campione (sempre di dimensione n), ottenendo una nuova media Y3 . Proseguiamo così fino ad estrarre dalla popolazione tutti i diversi possibili campioni di dimensione n. Otteniamo così un insieme di valori: Y1 , Y2 , Y3 , Y4 , Y5 , Y6 , … ciascuno dei quali rappresenta una stima campionaria della media dell’intera popolazione. I valori delle medie così ottenute costituiscono a loro volta una popolazione statistica, che è caratterizzata da una propria distribuzione: la distribuzione dei valori delle medie campionarie, basate su campioni di dimensione n, detta semplicemente distribuzione campionaria delle medie o distribuzione delle medie campionarie. Analogamente, in ciascuno dei campioni precedentemente estratti potremmo calcolare la deviazione standard s, ottenendo così una serie di valori s1, s2, s3, s4, s5, s6,… Anche questo insieme di valori numerici costituisce una popolazione, caratterizzata da una propria distribuzione, detta distribuzione campionaria delle deviazioni standard. Il concetto di distribuzione campionaria, illustrato attraverso le due statistiche campionarie media e deviazione standard, può essere generalizzato a qualunque altra statistica campionaria (varianza, asimmetria, curtosi, mediana, proporzioni…). In generale possiamo dire che data una popolazione statistica di elementi Y, la distribuzione dei valori della statistica campionaria x calcolati su tutti i possibili campioni di dimensione n estratti dalla popolazione di partenza, è detta distribuzione campionaria della statistica x. Per comprendere correttamente il senso di quanto resta da esaminare nella Parte statistica del manuale, occorre avere ben chiara la distinzione fra la distribuzione dei valori di una popolazione di elementi Y e le distribuzioni campionarie x derivabili da essa. Nelle pagine precedenti ci siamo occupati solo della popolazione di elementi Y. Da qui in avanti ci occuperemo prevalentemente delle distribuzioni campionarie. 3. 2. Medie campionarie 3. 2. 1. Media e deviazione standard delle medie campionarie Torniamo al primo esempio di § 3.1.4., considerando la distribuzione delle medie campionarie tratte dalla popolazione di elementi Y, la quale, ricordiamolo, è caratterizzata dai parametri e . Attraverso semplici calcoli si può dimostrare che la media di tutte le medie campionarie vale come la media della popolazione. In simboli: (3.1) Y dove col simbolo Y intendiamo appunto la media di tutte le medie campionarie Y. Si può inoltre dimostrare che se la popolazione è infinita oppure se è finita ma campionando con ripetizione, la deviazione standard delle medie campionarie è pari alla deviazione standard della popolazione, divisa per la radice del numero n. In simboli: Y dove con il simbolo n (3.2) Y intendiamo la deviazione standard delle medie campionarie Y . Noi non dimostreremo le relazioni (3.1) e (3.2) in generale, ma ci accontenteremo di verificarle in un caso particolare attraverso un esempio. Supponiamo dunque che una popolazione P sia costituita da cinque elementi: P = {4, 7, 5, 2, 3}. Con semplici calcoli si ottengono i valori dei parametri e della popolazione P: 47523 4.2 5 Per il calcolo della varianza 2 utilizziamo la formula (1.3). Quindi: 2 (4 4.2) 2 (7 4.2) 2 (5 4.2) 2 (2 4.2) 2 (3 4.2) 2 2.96 5 da cui 1.720 . Consideriamo ora tutti i campioni con ripetizione di dimensione n = 2. Questi si ottengono combinando ciascun elemento di P con ciascun altro elemento (sé stesso compreso). Quindi abbiamo 5 elementi, ciascuno da combinare con 5 elementi: in tutto fanno 5 × 5 = 25 campioni differenti. I diversi campioni sono riportati nella prima colonna di Tab.3.1. Nella seconda colonna troviamo le medie campionarie Y corrispondenti. La terza colonna riporta le varianze di ciascun campione, calcolate con la (1.3). Queste varianze verranno utilizzate più oltre, in § 3. 3. 1. La quarta e la quinta colonna saranno invece utilizzate in § 3. 3. 2. Campioni 4;4 4;7 4;5 4;2 4;3 7;4 7;7 7;5 7;2 7;3 5;4 5;7 5;5 5;2 5;3 2;4 2;7 2;5 2;2 2;3 3;4 3;7 3;5 3;2 3;3 La media delle medie campionarie vale: Y Y s2 ŝ 2 ŝ 4 5.5 4.5 3 3.5 5.5 7 6 4.5 5 4.5 6 5 3.5 4 3 4.5 3.5 2 2.5 3.5 5 4 2.5 3 0 2.25 0.25 1 0.25 2.25 0 1 6.25 4 0.25 1 0 2.25 1 1 6.25 2.25 0 0.25 0.25 4 1 0.25 0 0 4.5 0.5 2 0.5 4.5 0 2 12.5 8 0.5 2 0 4.5 2 2 12.5 4.5 0 0.5 0.5 8 2 0.5 0 0 2.12 0.71 1.41 0.71 2.12 0 1.41 3.54 2.83 0.71 1.41 0 2.12 1.41 1.41 3.54 2.12 0 0.71 0.71 2.83 1.41 0.71 0 4 5.5 4.5 3 5 4 2.5 3 4.2 25 La (3.1) risulta pertanto verificata. Analogamente calcoliamo la varianza delle medie campionarie: Y 2 (4 4.2) 2 (5.5 4.2) 2 (4.5 4.2) 2 (4 4.2) 2 (2.5 4.2) 2 (3 4.2) 2 1.48 25 e quindi: Y 1.48 1.217 . Se ora riconsideriamo il valore calcolato per e lo dividiamo per la radice di n, che qui vale 2 otteniamo: n 1.720 2 1.217 Y e con ciò risulta verificata anche la (3.2). Torniamo a sottolineare il fatto che la (3.2) vale se la popolazione è infinita ovvero se il campionamento è fatto con ripetizione. Accenniamo solo di sfuggita al fatto che se il campionamento è fatto senza ripetizione la (3.2) deve essere modificata al modo seguente: Y n N n N 1 (3.3) dove con N si indica la numerosità dell’intera popolazione, mentre con n si indica la numerosità del campione. Si dimostra facilmente con un limite che la (3.2) è un caso particolare della (3.3) quando n p . 3. 2. 2. La distribuzione delle medie campionarie e il teorema del limite centrale Supponiamo che la popolazione da cui estraiamo i campioni di dimensione n sia distribuita normalmente, con parametri e . In tal caso si può dimostrare che anche le medie campionarie sono distribuite normalmente e, per quanto visto nel precedente § 3.2.1., i parametri di tale distribuzione campionaria sono e intuitivo. n .Questo risultato è abbastanza Meno intuitiva è una importantissima generalizzazione di questo risultato, nota col nome di teorema del limite centrale, che riguarda la distribuzione delle medie campionarie. Una enunciazione del teorema corretta sotto il profilo formale richiederebbe conoscenze piuttosto approfondite di statistica. Qui ci accontenteremo di evidenziarne il senso attraverso un linguaggio piuttosto informale. In pratica si tratta di questo: supponiamo di avere una popolazione distribuita in un modo qualsiasi (quindi non necessariamente normale). Se da tale popolazione estraiamo tutti i campioni possibili di dimensione n, la distribuzione campionaria delle medie calcolate su tali campioni tende ad essere normale al crescere di n. In altre parole, la distribuzione delle medie campionarie è approssimativamente normale, e al crescere di n l’approssimazione è sempre più stretta; di fatto quando n 30 la distribuzione delle medie campionarie è praticamente normale, anche se la distribuzione della popolazione di partenza non lo è. 3. 2. 3. Una generalizzazione della statistica z Nei paragrafi del precedente § 2.4. abbiamo introdotto il concetto di standardizzazione in una popolazione costituita da singole variate Y , attraverso la formula (2.3). Anche nella popolazione statistica costituita dalle medie campionarie Y è possibile procedere alla standardizzazione, attraverso una formula del tutto analoga. Analizziamo la (2.3): abbiamo una frazione in cui: a numeratore abbiamo la differenza fra gli elementi Y della popolazione e la loro media parametrica ; a denominatore abbiamo la deviazione standard parametrica della popolazione . Procedendo allo stesso modo nella popolazione delle medie campionarie, possiamo standardizzare attraverso una frazione in cui: a numeratore abbiamo la differenza fra i singoli elementi (3.1) vale Y e la loro media parametrica Y che in forza della a denominatore abbiamo la deviazione standard parametrica della popolazione Y che in forza della (3.2) vale n. L’espressione matematica che esprime la standardizzazione delle medie campionarie descritta ora è la seguente: z Y (3.4) n Sappiamo che se la popolazione delle variate Y è normalmente distribuita con parametri e , allorala popolazione delle medie campionarie è distribuita normalmente con parametri e n ; di conseguenza la statistica z definita dalla (3.4) sarà distribuita come una normale standardizzata (con media 0 e deviazione standard 1), e per essa valgono tutte le proprietà di tale distribuzione viste in § 2.4.. In particolare anche per la distribuzione della statistica z definita dalla (3.4) è possibile utilizzare Tavola 1 e Tavola 2 introdotte in § 2.4.3.. Come applicazione di quanto visto fino a qui, nel Box 3.1 la (3.4) è utilizzata per un calcolo probabilistico. Si tratta di questo: di una popolazione si conoscono i parametri e . Da tale popolazione normalmente distribuita si deve estrarre un campione di n elementi e calcolarne la media 1. che probabilità vi è che la media 2. che probabilità vi è che la media Y . Si desidera sapere: Y sia compresa fra due valori u e v assegnati (Box 3.1, Parte a); Y sia maggiore di un valore a assegnato (Box 3.1, Parte b). 3. 3. Varianze e deviazioni standard campionarie 3. 3.1. Stime corrette e stime distorte Fino da quando in § 1.4.1. abbiamo introdotto la distinzione fra parametri e statistiche campionarie siamo abituati a dire che le seconde sono delle semplici stime dei primi. Si dice che una stima campionaria è corretta se il valore medio della sua distribuzione è uguale al corrispondente parametro. Si parla invece di una stima distorta quando il valore medio della sua distribuzione è diverso dal corrispondente parametro. La (3.1) informa ad esempio che la media delle medie campionarie è uguale alla media parametrica; dunque la media campionaria Y è una stima corretta della media parametrica . Invece una varianza campionaria s2 calcolata attraverso la (1.3) o la formula computazionalmente equivalente (1.9) è una stima distorta del parametro 2. Si dimostra infatti che la media delle varianze s2 non è uguale al parametro 2, ma vale la relazione s2 n 1 2 n (3.4) Come per le (3.1) e (3.2) ci accontenteremo di una verifica empirica di quest’ultima relazione: torniamo dunque alla s 2 calcolate attraverso la (1.3). Calcoliamone la media: 0 2.25 0.25 1 4 1 0.25 0 s2 1.48 25 2 2 Si ricordi che la varianza parametrica della popolazione calcolata in § 3. 2. 1. vale 2.96; dunque s è una stima Tab. 3.1 e consideriamo la colonna delle varianze campionarie distorta di 2 . Per di più si ha che: n 1 2 2 1 2.96 1.48 2 s n 2 e con questo risulta verifica anche la (3.4). 3. 3. 2. Correzione della formula per la varianza campionaria La varianza s2 calcolata con la (1.3) è dunque una stima distorta del parametro 2. Si noti che la distorsione è tanto più grande quanto più n è piccolo. Nel caso in cui n sia molto grande la (3.4) informa che il fattore di distorsione (espresso dalla frazione) è sempre più trascurabile. Per ovviare alla distorsione di stima, occorre moltiplicare la varianza s2 calcolata con la (1.3) per il fattore reciproco a quello che dà la distorsione nella (3.4), al modo seguente: n n 2 n s n 1 n 1 (Y i 1 i n Y )2 n (Y i i 1 Y )2 n 1 Una stima non distorta della varianza, calcolata con la formula appena ricavata, è in genere indicata col simbolo ŝ 2 , in 2 cui l’uso della lettera dell’alfabeto latino sta ad indicare che si tratta di una statistica campionaria, il simbolo s indica che si tratta di una varianza, ed il simbolo ^ (detto cappello) indica che si applica la correzione di calcolo ora introdotta. Dunque abbiamo una nuova formula per il calcolo della varianza campionaria: n sˆ 2 (Y i 1 i Y )2 n 1 (3.5) Per verificare l’efficacia della correzione introdotta, cioè per verificare che ŝ 2 è una stima non distorta di 2 , Tab.3.1 ŝ 2 ; ora, calcolandone la media ottengo: 0 4.5 0.5 2 8 2 0.5 0 sˆ2 2.96 2 25 2 2 e con ciò abbiamo verificato che ŝ è una stima non distorta di . riporta, per ciascuno di 25 campioni, il corrispondente valore di Dalla (3.5) estraendo la radice otteniamo una formula corretta per il calcolo della deviazione standard campionaria: n sˆ (Y i 1 i Y )2 n 1 (3.6) In Tab. 3.1 sono calcolati i valori di ŝ per i 25 campioni. Se ne calcoliamo la media otteniamo: 0 2.12 0.71 1.41 2.83 1.14 0.71 0 1.36 25 (si ricordi che in § 3. 2. 1. abbiamo calcolato 1.720 ). Questo evidenzia che ŝ è ancora una stima distorta di , 2 2 nonostante sia calcolato a partire da ŝ che è una stima corretta di . sˆ 3. 3. 3. Convenzioni sul simbolismo e convenzioni di calcolo Come si è potuto constatare da questi primi assaggi, il simbolismo in statistica è poco digeribile dai non matematici, quali si suppone siano i destinatari di questo testo. L’esperienza didattica ed una esigenza di omogeneità rispetto una buona parte della letteratura statistica per non matematici suggeriscono l’opportunità di stipulare una convenzione. Da ora in avanti, e per le ragioni spiegate sopra, varianza e deviazione standard campionarie verranno sempre calcolate attraverso le formule corrette, e per alleggerire il simbolismo ometteremo il cappello ^ nei simboli corrispondenti. Dunque da ora in avanti utilizzeremo le due formule n s2 (Y i 1 i Y )2 (3.7) n 1 e n s (Y i 1 i Y )2 (3.8) n 1 con le relative equivalenti computazionali n Y Yi i i 1 i 1 2 s n 1 n 2 2 n (3.9) e n Y Yi i i 1 i 1 n 1 n s 2 2 n (3.10) Sebbene l’itinerario per arrivare fin qui sia stato piuttosto laborioso, le conclusioni sono molto semplici, in quanto basta ricordare di dividere per n 1 anziché per n nella frazione principale delle corrispondenti formule. Come si vedrà, la quantità n 1 ha grande importanza in statistica e merita pertanto un nome ed un simbolo specifici; da ora in avanti verrà indicata col termine di gradi di libertà della varianza, e verrà indicata col simbolo dell’alfabeto greco (non a caso corrispondente alla lettera n dell’alfabeto latino). Dunque: (3.11) n 1 In letteratura capita talvolta di incontrare simboli alternativi a , come gl (in pubblicazioni italiane) o df (in pubblicazioni in lingua inglese, da degree of freedom). Il Box 3. 2. esemplifica il semplice calcolo di varianza e deviazione standard campionarie utilizzando le (3.9) e (3.10). Box 3. 1. Probabilità di ottenere determinati valori di Y da una popolazione normalmente distribuita con parametri e , attraverso un campione casuale di n elementi. 140 20 n 15 Parte a Probabilità di ottenere una media Y compresa fra i valori u 120 e v 145 . Analogamente a quanto illustrato nel Box 2.2 occorre per prima cosa standardizzare i valori u e v. Trattandosi di valori che limitano una media si utilizza la formula (3.4): zu zv 120 140 20 15 145 140 1.94 0.97 20 15 Nella Tavola 2 trovo i valori delle aree tra –1.94 e 0 (per simmetria cerco il valore corrispondente a 1.94) e tra 0 e 0.97, ottenendo: A1.94 0.4738 A0.97 0.3340 da cui sommando ottengo l’area totale fra –1.94 e 0.97: Atot 0.8078 pari a una probabilità dell’80,78%. Parte b Probabilità di ottenere una media Y maggiore di Standardizziamo il valore u 155 : zu 155 140 u 155 . 2.90 20 15 Nella Tavola 2 trovo l’area fra 0 e 2.90: A2.90 0.4981 L’area sotto la coda della distribuzione a partire da 2.90 si ottiene per differenza da 0.5000, ed è: A 0.5000 0.4981 0.0019 pari ad una probabilità dello 0.19%. Rif.: § 3. 2. 3. Box. 3.2. Calcolo di varianza e deviazione standard campionarie Punteggi grezzi di una prova oggettiva di verifica: 24 25 11 38 34 28 27 22 n 10 Utilizzando le (3.9) e (3.10) otteniamo: n Y i 1 n Y i 1 24 25 11 21 241 i 2 i 24 2 25 2 112 212 6481 SS Yi Yi n 6481 s2 SS 672.9 74.77 n 1 9 s s2 2 Rif.: § 3. 3. 3. 2 74.77 8.65 2412 672.9 10 11 21