Campionamento La statistica media campionaria e la sua distribuzione Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 1 • Definisco il problema da studiare: es. tempo di percorrenza tra abitazione e università • Carattere: tempo ossia v.s. continua • Popolazione: N studenti che frequentano l’università – È una popolazione finita • Unità statistica: ogni singolo studente • Campione: una parte degli studenti che frequentano l’università (n di N) 1° passo: quantificare il problema ossia rilevare i dati Due strade Rilevazione totale Rilevazione campionaria Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 2 Perché un campione? • Problemi di tempo, costi, difficoltà ad individuare l’intera popolazione • Come faccio a trarre conclusioni dai dati campionari su tutta la popolazione studentesca? Utilizzo le tecniche della statistica inferenziale • Le tecniche della statistica inferenziale ci permettono di estendere le informazioni dedotte dal campione a tutta la popolazione inferenza campione popolazione probabilità Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 3 Ma da che tipo di popolazione campiono? Popolazione finita e suoi parametri Una Popolazione finita è un insieme di unità su cui si può osservare un certo carattere. (es: gli investimenti annui di tutte le aziende di un paese; il numero di figli di ogni famiglia italiana) I parametri della popolazione sono delle costanti che descrivono aspetti caratteristici della distribuzione del carattere nella popolazione stessa. media della popolazione Varianza della popolazione 1 N i 1 xi N 1 N i 1 ( xi ) 2 N Paola Giacomello Dip. Scienze 2 Sociali ed Economiche Uniroma1 4 N=dimensione della popolazione n = dimensione campionaria n/N = frazione di campionamento popolazione campione x1; x2;....xn X1; X2; X3;.......XN Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 5 Abitualmente la regola di selezione del campione è di tipo probabilistico, cosa significa? l’estrazione del campione avviene in accordo con qualche specifica distribuzione di probabilità. In questo caso è necessario individuare: lo spazio campionario S, formato da tutti i possibili campioni estraibili con una medesima tecnica da una popolazione. la probabilità di ogni campione c in S di essere estratto La coppia {S, probabilità dei campioni in S} è detta piano di campionamento. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 6 Campionamento casuale semplice I campioni possono essere estratti casualmente dalla popolazione: • con ripetizione o bernoulliani: una volta estratta un’unità viene rimessa dentro la popolazione e quindi potrebbe essere nuovamente estratta; • senza ripetizione o esaustivi: una volta estratta un’unità questa viene messa da parte e quindi non può essere estratta più di una volta. Al di là del tipo di estrazione si individuano anche i campioni non ordinati da quelli ordinati diversi tra loro se almeno un’unità del primo campione non è contenuta nel secondo campione. conta invece anche l’ordine con cui si presentano le diverse unità. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 7 Esempio disegno campionario Popolazione composta da 4 grandi aziende (N=4);Carattere=“Fatturato annuo”; x1 52 , x2 49 , x3 65, x4 74 Spazio campionario S, costituito dai campioni ordinati di dimensione 2, estratti con ripetizione (questo mi permette di definire la probabilità di ogni campione). C1= 52 52 C5= 49 52 C9= 65 52 C13= 74 52 C2 = 52 49 C6= 49 49 C10= 65 49 C14= 74 49 C3 = 52 65 C7 = 49 65 C11 = 65 65 C15 = 74 65 C4 = 52 74 C8 = 49 74 C12 = 65 74 C16 = 74 74 Ogni campione ha uguale probabilità di essere estratto, pari a 1/16 (insieme a S mi permettePaola di definire il piano Giacomello Dip. Scienze di campionamento 8 Sociali ed Economiche Uniroma1 Popolazione Xi 52 fi 1/4 49 1/4 I Campione Ix Ix II Campione .... .... IIx 1=52 1=52 15° Campione. 15°x1=74 16° Campione 16°x1=74 65 1/4 74 1/4 2=52 IIx 15°x 2=49 2=65 16°x 2=74 X1= 52 49 65 74 P(X1)= 4/16 4/16 4/16 4/16 v.c.campionaria X1 Il primo elemento di ogni campione descrive una v.c. campionaria con la stessa distribuzione di probabilità del carattere X popolazione e così tutti gli altri elementi del campione sino ad Xn Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 9 Popolazione X1, X2...........Xi.......XN I Campione Ix II Campione IIx . . . . .ω Campione 1, 2........ Ix 1, 2..... IIx Ix ......Ix i n IIx .....IIx i n ωx , ωx ..... ωx ..... ωx 1 2 i n X1 X2.......Xi ....... XN Il primo elemento di ogni campione descrive una v.c. campionaria con la stessa distribuzione di probabilità del carattere X popolazione Se il campionamento è bernoulliano le v.c. campionarie sono iid, nel campionamento in blocco sono solo id Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 10 S C1= 52 52 C5= 49 52 C9= 65 52 C13= 74 52 C2 = 52 49 C6= 49 49 C10= 65 49 C14= 74 49 C3 = 52 65 C7 = 49 65 C11 = 65 65 C15 = 74 65 C4 = 52 74 C8 = 49 74 C12 = 65 74 C16 = 74 74 Questi sono tutti i possibili campioni che compongono S Nella realtà io considero uno di questi campioni e lo utilizzo, ad esempio, per stimare μ la media della popolazione Supponiamo di estrarre il campione C15 questo fornisce un valore di media pari a 69,5. Se avessi estratto un altro campione avrei ottenuto un altro valore di stima di μ. Ho tante stime puntuali di μ quanti sono i possibili campioni. Queste stime formano la v.c. X media campionaria dettaPaola statistica media campionaria Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 11 Media Campioni C1= 52 52 C1 52,0 C2 = 52 49 C2 50,5 C3 = 52 65 C3 58,5 C4 = 52 74 C4 63,0 C5= 49 52 C5 50,5 C6= 49 49 C6 C7 = 49 65 Distribuzione dello stimatore media campionaria X P(X) X P(X) X2 P(X) 49,0 0,0625 3,0625 150,063 50,5 0,1250 6,3125 318,781 49,0 52,0 0,0625 3,25 169,000 C7 57,0 57,0 0,1250 7,125 406,125 C8 = 49 74 C8 61,5 58,5 0,1250 7,3125 427,781 C9= 65 52 C9 58,5 61,5 0,1250 7,6875 472,781 C10= 65 49 C10 57,0 63,0 0,1250 7,875 496,125 C11 = 65 65 C11 65,0 65,0 0,0625 4,0625 264,063 C12 = 65 74 C12 69,5 69,5 0,1250 8,6875 603,781 C13= 74 52 C13 63,0 74,0 0,0625 4,625 342,250 C14= 74 49 C14 61,5 1,00 60,00 3650,75 C15 = 74 65 C15 69,5 C16 = 74 74 C16 74,0 Paola GiacomelloVar(X) Dip. Scienze = 3650,75- E(X) =60 Sociali ed Economiche Uniroma1 602 = 50,75 12 Spazio campionario e spazio delle medie S Spazio Popolazione Media µ Varianza 2 campionario R Spazio delle Campione 1 Osservazione 1 Osservazione 2 x1 medie campionarie Osservazione n Campione 2 Osservazione 1 Osservazione 2 x2 Osservazione n Campione 3 Osservazione 1 Osservazione 2 Osservazione n x3 la v.c. media campionaria è generata dall’associazione a ciascun campione dello Insieme di tutti i spazio campionario di un possibili campioni numero reale, dato dalla casuali di ampiezza n media aritmetica dei valori contenuti nel campione Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 stesso X Distribuzione campionaria della media Media Varianza X X2 2/n 13 Distribuzione della popolazione X fi X fi X2 fi 49,0 52,0 65,0 74,0 0,25 0,25 0,25 0,25 1,00 12,25 13,00 16,25 18,50 60,00 600,25 676,00 1056,25 1369,00 3701,50 μ = 60,00 σ2 = 3701,50-602= 101,50 La media della media campionaria coincide con la media della popolazione La varianza della media campionaria coincide con la varianza della popolazione /n Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 E (X ) Var ( X ) 2 n 14 La statistica media campionaria e la sua distribuzione campionaria Una statistica campionaria è una funzione a valori reali delle osservazioni campionarie: T t ( X 1 , X 2 ,, X n ) n 1 media campionaria: X X i n i 1 La statistica campionaria è una variabile casuale a cui è associata una distribuzione di probabilità detta distribuzione campionaria. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 15 Proprietà della v.c. media campionaria E( X ) il valore atteso la varianza Se Var ( X ) 2 n X ~ N ; 2 allora 2 X ~ N ; n Qualunque sia la popolazione, per il Teorema del Limite Centrale X lim P z P Z z n n dove Z è una v.c. Normale standardizzata Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 16 Campionamento casuale semplice senza ripetizione non ordinati Popolazione di N = 4 unità; campioni di n = 2 unità Popolazione X 1 2 3 4 110 120 80 90 Possibili campioni (1; (1; (1; (2; (2; (3; 2) 3) 4) 3) 4) 4) Valori di x 110; 120 110; 80 110; 90 120; 80 120; 90 80; 90 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 x 115 95 100 100 105 85 Popolazione Xi 110 120 80 90 Media campionaria x 115 95 100 105 85 fi 0,25 0,25 0,25 0,25 P( x ) 0,17 0,17 0,33 0,17 0,17 Calcolate μ e σ2 E( x ) e Var(x ) e fate le opportune considerazioni Distribuzione della popolazione (in rosso) e della v.c. media campionaria in blu 0,35 0,3 0,25 0,2 0,15 0,1 60 70 80 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 90 100 110 120 130 18 Esempio di spazio campionario continuo Supponiamo che la durata del periodo di gestazione sia descritto da una v.c. normale con media 265 e deviazione standard 18. Lo spazio campionario dei x1 x2 x3 x4 x5 campioni casuali di ampiezza 5 282,1 270,6 256,5 300,1 276,2 249,4 266,6 303,5 254,4 255,0 estraibili da questa popolazione 258,2 259,5 269,5 316,3 240,0 è composto da infiniti campioni. 253,3 270,6 299,4 250,2 262,7 248,6 291,5 264,3 258,5 265,9 Nella tabella qui accanto ne 269,1 232,2 267,0 252,2 256,6 sono riportati 15 . 257,7 268,4 249,3 284,0 274,2 268,0 278,1 297,7 255,9 252,3 Si tratta di un sottoinsieme 285,1 278,8 263,3 284,1 249,6 dell’infinità di campioni di 272,8 314,1 262,4 285,3 257,0 ampiezza 5 che costituiscono lo 245,2 267,4 274,5 259,5 226,9 271,1 291,7 275,4 282,9 242,3 spazio campionario in 229,1 236,7 243,0 280,9 250,8 questione. 230,9 246,2 262,4 240,6 287,6 246,7 Cap. 15-19 262,2 … … 230,3 … 280,6 291,3 Paola Giacomello Dip. Scienze … … Sociali ed Economiche Uniroma1 Distribuzione campionaria della media e distribuzione campionaria della varianza x1 x2 x3 x4 x5 x 282,1 249,4 258,2 253,3 248,6 269,1 257,7 268,0 285,1 272,8 245,2 271,1 229,1 230,9 246,7 270,6 266,6 259,5 270,6 291,5 232,2 268,4 278,1 278,8 314,1 267,4 291,7 236,7 246,2 262,2 256,5 303,5 269,5 299,4 264,3 267,0 249,3 297,7 263,3 262,4 274,5 275,4 243,0 262,4 230,3 300,1 254,4 316,3 250,2 258,5 252,2 284,0 255,9 284,1 285,3 259,5 282,9 280,9 240,6 280,6 276,2 255,0 240,0 262,7 265,9 256,6 274,2 252,3 249,6 257,0 226,9 242,3 250,8 287,6 291,3 277,1 265,8 268,7 267,2 265,8 255,4 266,7 270,4 272,2 278,3 254,7 272,7 248,1 253,5 262,2 … … … … … s2 255,36 484,37 821,25 387,71 252,97 218,04 185,55 337,05 235,39 Anche la varianza campionaria è una v.c. è generata dall’associazione a ciascun campione dello spazio campionario di un numero reale, dato dalla varianza dei valori contenuti nel campione stesso. 516,85 359,87 349,76 400,03 493,12 610,81 Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 … … 20 Campionamento casuale stratificato Nel campionamento casuale stratificato la popolazione viene suddivisa in strati. Da ogni strato vengono poi estratti, tramite un campionamento casuale semplice, le unità da inserire nel campione. Esempio strati: Regioni; età; sesso. Popolazione Variabile di stratificazione primo strato secondo strato terzo strato estrazione casuale campione Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 21 Campionamento casuale a grappoli Nel campionamento casuale a grappoli la popolazione viene suddivisa in sottoinsiemi detti grappoli. Si selezionano, con un’estrazione casuale senza ripetizione, un certo numero di grappoli e si prendono come unità campionarie tutte le unità appartenenti ai grappoli estratti. Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 22 Campionamento casuale a grappoli e a stadi Nel campionamento casuale a due stadi la popolazione viene suddivisa in un certo numero di grappoli. Al primo stadio si estrae senza ripetizione un certo numero di grappoli. Da ciascuno di questi si estrae con ripetizione (secondo stadio) un certo numero di unità. primo stadio secondo stadio Unità primarie Unità secondarie grappoli unità elementari Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 23 Campionamento casuale a grappoli e a stadi Popolazione Criterio di raggruppamento grappolo 1 grappolo 2 grappolo 3 grappolo k estrazione casuale dei grappoli unità primarie estrazione casuale delle unità dai grappoli unità secondarie campione di unità elementari Paola Giacomello Dip. Scienze Sociali ed Economiche Uniroma1 24