Popolazione e Campione POPOLAZIONE: Insieme di tutte le informazioni sul fenomeno oggetto di studio Viene descritta mediante una variabile casuale X: X ~ f x; = costante incognita • Qual è il valore di ? • E’ verosimile un’ipotesi sul valore di ? CAMPIONE: Sottoinsieme della popolazione Come devono essere scelte le unità appartenenti al campione? CAMPIONE CASUALE Ciascuna unità ha probabilità > 0 di essere estratta Il principio di base dell’inferenza Principio del campionamento ripetuto Le conclusioni inferenziali, basate sull’unico campione osservato, devono essere giudicate sulla base della distribuzione di probabilità dei possibili campioni che potevano essere generati e dei quali quello osservato costituisce una realizzazione particolare I 3 elementi dell’inferenza Popolazione Campione casuale Campione osservato X ~ f x; X1, X2 , x1, x2 , , Xn , xn Spazio campionario: insieme di tutti i possibili campioni Prima dell’estrazione, il campione è costituito da una n-pla di variabili casuali Se il campione è formato da n elementi, ogni suo elemento può essere considerato come la realizzazione della variabile casuale Xi, indicando con Xi la i-esima estrazione della v.c. X. Variabili casuali “osservazioni campionarie” Xi ~ f x; i = 1,2, ,n Ciascuna variabile Xi ha la stessa distribuzione della variabile casuale che descrive la popolazione In pratica, data la popolazione: X~f(x, , 2) X=100 Se: X=12 Min(Xi)=50 Max(Xi)=180 C = numero dei possibili campioni estraibili da X n = 8 = ampiezza di ogni campione Si avranno 8 v.c. Xi “osservazione campionaria”: X1 1a oss. X2 2a oss. X3 3a oss. X4 4a oss. X5 5a oss. X6 6a oss. X7 7a oss. X8 8a oss. 1° campione x11 x12 x13 x14 x15 x16 x17 x18 2° campione x21 x22 x23 x24 x25 x26 x27 x28 3° campione : x31 x32 x33 x34 x35 x36 x37 x38 C° campione xC1 xC2 xC3 xC4 xC5 xC6 xC7 xC8 In questo senso: Prima dell’estrazione il campione è una n-pla di variabili casuali (in questo caso n = 8): X1, …, X8 Ciascun campione x1, …, x8 ne costituisce una determinazione Le determinazioni di ogni Xi sono in totale C (pari al numero di possibili campioni) Ciascuna v.c. osservazione campionaria, Xi, ha la stessa distribuzione e gli stessi parametri della variabile X nella popolazione. Se: X~f(x, ) X=100 X=12 Min(Xi)=50 Max(Xi)=180 i si ha: Xi~f(x, ) Xi=100 Xi=12 Min(Xi)=50 Max(Xi)=180 X~f(x, ) X1 1a oss. 1° campione 2° campione 3° campione : C° campione X2 2a oss. X3 3a oss. X4 4a oss. X5 5a oss. X6 6a oss. X7 7a oss. X8 8a oss. Statistiche e parametri Poiché ciascuna osservazione campionaria Xi è una variabile casuale, ogni funzione f(X1, …, Xn) delle osservazioni campionarie sarà essa stessa una variabile casuale ed è detta statistica Esempi: f X1, , Xn = x f X1, , Xn = x f X1, , Xn = 1 1 xi = x1 x2 n i n i i i = x1 x2 = x1 x2 xn xn i xn Quindi, i valori ottenuti attraverso una qualsiasi trasformazione dei valori osservati vengono chiamate statistiche, mentre i rispettivi valori della popolazione, che sono delle costanti, vengono definiti parametri. Esempi: Media campionaria X = 1 x1 x2 n Statistica xn Media della popolazione Parametro Statistiche e statistiche calcolate Si definisce statistica Tn = T(X1, X2, …, Xn) una qualsiasi funzione a valori reali del campione casuale (X1, X2, …, Xn) che non dipende da quantità incognite. Il valore della statistica Tn calcolata sul campione osservato (x1, x2, …, xn) costituisce la statistica calcolata tn = T(x1, x2, …, xn). Tn statistica Variabile casuale tn statistica calcolata Realizzazione della variabile casuale Tn La distribuzione campionaria Ogni statistica è, dunque, una sintesi delle variabili casuali campionarie media campionaria 1 n X = Xi n i=1 varianza campionaria 1 n S = Xi Xn n i=1 varianza campionaria corretta 1 n S = Xi Xn n 1 i=1 2 n 2 n 2 2 Dato un campione casuale (X1, X2, …, Xn), definita la statistica Tn= T(X1, X2, …, Xn), funzione delle osservazioni campionarie, la distribuzione di probabilità della statistica T(X1, X2, …, Xn) al variare del campione viene definita distribuzione campionaria di Tn. La media campionaria La variabile casuale media campionaria, X , è una combinazione lineare delle variabili casuali “osservazioni campionarie” Xi , i=1,..,n. 1 n X = Xi n i=1 Le n variabili casuali X1, X2, …, Xn sono indipendenti e identicamente distribuite alla variabile X nella popolazione, con media e varianza 2. E’ importante definire la distribuzione di X , ma prima ancora determinarne il valore atteso e la varianza. Var X = E X = Identificano il valore centrale e la variabilità di una variabile casuale In generale, data una v.c. X conoscere E(X) e Var(X) significa conoscere due parametri cruciali della distribuzione di X, ossia due caratteristiche fondamentali della v.c. Distribuzione di probabilità di una v.c. X Descrive come varia la probabilità al variare dei possibili valori della X (di tutte le unità statistiche della popolazione) Distribuzione campionaria di una statistica Tn (funzione delle xi) Descrive come varia la probabilità al variare dei possibili risultati di T calcolata (in teoria) su tutti i possibili campioni provenienti dalla popolazione Esempio: distribuzione campionaria della media campionaria Descrive come varia la probabilità al variare dei possibili valori della media calcolata (ipoteticamente) in tutti i possibili campioni estraibili dalla popolazione Somma di n variabili casuali Sn = X E Sn = , Xn E Xi = , i Var Xi = 2 , n i =1 X1, X2 , i = X1 X2 i Xi indipendenti Xn n E X = n i i =1 Var Sn = n Var X = n i =1 2 i Media di n variabili casuali 1 n 1 1 Xn = Xi = X1 X2 n i =1 n n E Xn = Var Xn 2 = n E X = 1 Xn n 1 1 1 1 E X1 E X2 E Xn = n = n n n n 1 1 1 Var X Var X Var Xn = 1 2 n2 n2 n2 1 2 2 = 2 n = n n Var X = Un esempio Estrazione con reintroduzione Popolazione: 7 N=3 5 10 = 7,33 2 = 4,22 Campione: n=2 1 n X = Xi n i=1 campione 1° 2° 3° 4° 5° 6° 7° 8° 9° Media Varianza Media di n variabili casuali E X = 1 1 1 1 E X1 E X2 E Xn = n = n n n n 1 1 1 Var X Var X Var Xn = 1 2 n2 n2 n2 1 2 2 = 2 n = n n Var X = X1 5 5 5 7 7 7 10 10 10 X2 5 7 10 5 7 10 5 7 10 5,0 6,0 7,5 6,0 7,0 8,5 7,5 8,5 10,0 7,33 4,22 7,33 4,22 7,33 2,11 X campione Un esempio 1° Estrazione senza reintroduzione 2° Popolazione: 7 N=3 Campione: 5 3° 10 4° = 7,33 5° 2 = 4,22 6° Media Varianza n=2 1 n X = Xi n i=1 Media di n variabili casuali N n Var X = n N 1 E X = 2 Ma quando N è grande: Nn 1 N 1 2 Var X n X1 5 5 7 7 10 10 7,33 4,22 X2 7 10 5 10 5 7 6,0 7,5 6,0 8,5 7,5 8,5 7,33 4,22 7,33 1,06 X Qualche osservazione… Campionamento con reintroduzione (CCR) E X = ; 2 Var X = n Campionamento senza reintroduzione (CSR) E X = ; 2 Var X = n N n N 1 n=1: i risultati ottenuti con lo schema di CCR coincidono con quelli ottenuti nel CSR; n=N: la varianza della media campionaria nello schema di CSR è nulla. In questo caso, infatti, il campione coincide con la popolazione e non si ha più alcuna incertezza legata al campionamento; n<N: il fattore di correzione utilizzato nello schema di CSR è <1. Questo vuol dire che la varianza della media campionaria nel CSR è minore di quella che si ottiene nel CCR; n molto piccola rispetto alla numerosità della popolazione N: il fattore di correzione per lo schema di CSR è prossimo a 1. La differenza tra i due schemi può quindi essere considerata trascurabile. La distribuzione della media campionaria !!! Se è noto che: X ~ N(, 2) !!! Allora si sa anche: Xi ~ N(, 2) Campionamento con reintroduzione E X = 2 Var X = n X ~ N 0, 1 n 1 n Xi = X ~ N ?, ? n i=1 i Campionamento senza reintroduzione E X = 2 Var X = n X Nn N1 n Ma se non si conosce la distribuzione di X??? N n N 1 ~ N 0,1 Teorema limite centrale Lindeberg-Levy Data una successione Xn di variabili casuali X1, X2, …, Xn, indipendenti e identicamente distribuite con media e varianza 2 costanti, definita la variabile casuale Xn = e la sua standardizzazione Zn = ad una Normale standardizzata) Var X Xn E Xn X1 X2 n Xn , al crescere di n si ha che Zn N(0, 1) (Zn tende n Lindeberg-Cramer Il teorema limite centrale resta valido anche quando la successione Xn è formata da variabili casuali che non sono identicamente distribuite, purché ciascuna v.c. Xi sia indipendente dalle altre e abbia momenti primi e secondi finiti ( e 2 non necessariamente costanti). Inoltre: Sotto condizioni molto generali, la somma di n v.c. indipendenti è asintoticamente Normale, e questo è vero qualunque sia il tipo di distribuzione di ciascuna delle Xi. Zn = In altre parole… Sn E Sn Var Sn N 0, 1 Tutte le volte che un fenomeno reale può essere interpretato come la somma, oppure la media, di un gran numero di cause indipendenti, indipendentemente dai modelli probabilistici che generano le singole variabili casuali è ragionevole attendersi che la distribuzione di probabilità di quel fenomeno possa essere approssimabile mediante la v.c. Normale. Esempio Un produttore di cosmetici ha 1500 venditori porta a porta che, mediamente, nell’ultimo mese hanno realizzato vendite per un valore pari a = 3100 $ e con s.q.m. = 450 $. Si estrae un campione di 64 venditori. Qual è la probabilità che questo gruppo abbia realizzato, in media nell’ultimo mese, vendite per un valore inferiore a 3000 $? Soluzione X = vendite individuali, distribuzione non nota = 3100 $ N = 1500 = 450 $ n = 64 Teorema limite centrale Zn = n P X64 3000 = ? P X64 N 0, 1 Var X Xn E Xn X 3000 3100 64 3000 = P 2 2 450 n 64 3000 3100 =P Z = P Z 1,78 = 202500 64 Esempio Un produttore di cosmetici ha 1500 venditori porta a porta che, mediamente, nell’ultimo mese hanno realizzato vendite per un valore pari a = 3100 $ e con s.q.m. = 450 $. Si estrae un campione di 64 venditori, senza reimmissione. Qual è la probabilità che questo gruppo abbia realizzato, in media nell’ultimo mese, vendite per un valore inferiore a 3000 $? Soluzione X = vendite individuali, distribuzione non nota = 3100 $ N = 1500 = 450 $ n = 64 Teorema limite centrale Zn = N 0, 1 Var X Xn E Xn n P X64 3000 = ? P X64 X64 3000 = P 2 N n n N 1 = P Z 3000 3100 2 450 1500 64 64 1500 1 3000 3100 = P Z 1, 81 = 0, 0351 202500 1436 64 1499 Esempio Le funi di sostegno di un ponte sono formate da cavi di acciaio. La resistenza alla trazione di ogni cavo è una variabile casuale con media = 0,1 tonnellate e s.q.m. = 0,06 tonnellate. Assumendo che una fune abbia una resistenza alla trazione uguale alla somma delle resistenze dei cavi che la compongono, si calcoli: a) La probabilità che una fune costituita da 100 cavi sopporti una trazione di 9 tonnellate; b) Il numero di cavi necessario affinché una fune sopporti un carico di 10 tonnellate con probabilità 0,99. Soluzione Xi = resistenza del cavo i Xi: = 0,1 Teorema limite centrale = 0,06 Xi iid; distribuzione non nota Xn = resistenza della fune composta da n cavi a) X100 = 100 X 1 =1 i X100 = n = 100 0,1 = 10 2 X100 2 = n = 100 0, 0036 = 0,36 P X100 9 = ? 9 10 P X100 9 = P Z100 = P Z100 1,67 = 0,9525 0,6 Zn = Sn E Sn Var Sn X100 N 0, 1 N 10;0.36 b) Cerchiamo quel valore di n tale che: P Xn 10 = 0,99 10 n P Z = 0, 99 2 n 10 n n2 = 10 n n = 10 n 0,1 0,06 n = 10 n 0,1 0,06 n 10 n 0,1 P Z = 0, 99 0, 06 n 10 n 0,1 n = 2,33 0,06 10 n 0,1 n 2,33 = 0 0,06 10 0,1 n n 0,1398 = 0 - 2,33 10 0,1 n 2,33 0,06 = 0 n 10 0,1 n 0,1398 n = 0 y= 0,1398 0,1 y2 0,1398 y 10 = 0 0,1398 4 0,1 10 2 0,1 10 0,1 n n 0,1398 = 0 n y= n b b2 4ac y= 2a - 9,325 2 = + 10,723 n = 10,723 = 115 2 Distribuzioni campionarie di uso frequente Distribuzione 2 (chi quadro) (Somma di n v.c. Normali standardizzate al quadrato) Date n v.c. X1, X2, …, Xn indipendenti e ognuna distribuita secondo una Normale di parametri i e , allora lai2 variabile casuale definita come: 2 X i 2n = i i =1 i n 0.5 f(x;g) = 0.4 0.3 segue una distribuzione 2 con g = n gradi di libertà. 1 x exp x g 2 2 2 g 2 g=2 g 1 2 La variabile 2 è continua, non può essere negativa e varia tra zero e infinito. La sua forma e il suo centro dipendono dal numero di gradi di libertà. Y~ 2n E Y = g ; Var Y = 2g ; 0.2 g=4 Relazione tra 2 e Normale: 0.1 se una v.c. Z segue una distribuzione Normale g=8 standardizzata, la trasformata Y=Z2 si distribuirà 0.0 5 10 15 20 secondo una v.c. 2 con 1 grado di libertà. Distribuzione t di Student (Rapporto tra una v.c. Normale standardizzata e la radice quadrata di una v.c. c2 divisa per i suoi gradi di libertà) Data una v.c. Z, distribuita secondo la legge Normale standardizzata, e la v.c. Y, distribuita secondo un 2 con n gradi di libertà, con Z e Y tra loro indipendenti, la variabile casuale t definita dal rapporto denominata t di Student con n gradi di libertà: g 1 2 f(x;g) = 0.5 g g 2 x 1 g 2 Yn Z Y n g 1 2 ~ t(n) La distribuzione t di Student ha una forma simmetrica che dipende dal valore di n, g= 0.4 Z segue t = una distribuzione parametro che indica i gradi di libertà e che deriva dalla variabile 2, al denominatore della formula. 0.3 Y~t E Y = 0 ; Var Y = 0.2 g=10 n ; n2 Relazione con la Normale: Quando n, la v.c. t converge alla Normale. 0.1 g=3 g=1 0.0 -6 -4 -2 0 2 4 Quindi, quando n è elevato, la f(t) può essere approssimata dalla N(0,1). Distribuzione F di Fisher (Rapporto di due v.c. 2 indipendenti, ciascuna divisa per il proprio numero di gradi di libertà.) Date due v.c. X e Y tra loro indipendenti, ognuna delle quali distribuita secondo un 2 rispettivamente con g1 e g2 gradi di libertà, il rapporto X g1 segue la distribuzione F con g1 e g2 gradi di libertà. f(x;g1, g2 ) = g1 / 2 g1 / 2 1 (g1 / g2 ) x (g1 g2 ) / 2 B(g1 / 2, g2 / 2) g1 x 1 g 2 X g1 ~ Fg1 ,g2 Y g2 La distribuzione F di Fisher è 1.0 0.8 Y g2 continua e, essendo ottenuta come rapporto tra due v.c. 2, è definita g1=20, g2=10 nell’intervallo (0, +). Y~ F 0.6 n n2 2 n2 m n 2 Var Y = 2 m n 2 n 4 E Y = g1=5, g2=5 0.4 0.2 g1=5, g2=1 0.0 1 2 3 4 5