16/10/2011 Inferenza statistica Inferenza parametrica Per fare inferenza statistica si utilizzano le informazioni raccolte su un campione per conoscere parametri incogniti della popolazione Corso di Statistica per l’impresa Popolazione Processo induttivo di stima di un parametro, soggetto a incertezza perché basato su informazione parziale (quella contenuta nel campione) Caratteristiche della popolazione = Parametri incogniti (ad es. il fatturato medio di una categoria di imprese o la proporzione di imprese che hanno ottenuto la certificazione ISO) Prof. A. D’Agostino La stima prodotta è soggetta ad errore (errore campionario) stima = parametro ± errore Camp. Statistiche campionarie media del campione = media della popolazione ± errore proporzione del campione = proporzione della pop. ± errore basate sulle osservazioni del campione Estrazione casuale 1 Estrazione del campione 2 Parametro e statistica Il modo in cui il campione viene estratto è importante per tenere sotto controllo l’errore e per produrre una valida inferenza Popolazione Parametro Popolazione finita: insieme di N unità costante non nota della popolazione, grandezza caratteristica oggetto di inferenza (es.: tutte le aziende italiane produttrici di latte, tutte le famiglie residenti in Campania, tutti i dipendenti di un’azienda, tutti gli studenti di una scuola,…) (media, varianza e proporzione della popolazione) Il campione deve essere rappresentativo della popolazione Se un dato sottogruppo della popolazione è sovra(sotto)rappresentato nel campione, le stime saranno distorte Un campione probabilistico garantisce contro possibili distorsioni Statistica Popolazione infinita: insieme di tutte le funzione delle osservazioni campionarie utilizzata per stimare il parametro incognito unità potenzialmente osservabili (es.: tutti i beni che un processo produttivo è in grado di produrre nel lungo periodo) (media, varianza e proporzione campionarie) 4 3 5 6 1 16/10/2011 Parametri di una popolazione finita Parametri di una popolazione infinita Es. per la popolazione delle aziende produttrici di latte: media μ e varianza σ2 degli investimenti annui, proporzione π di aziende che sono SpA 1 xi N i 1 1 N 2 2 xi N i 1 Campionamento da popolazione finita Il carattere di interesse è rappresentato da una v.c. X (es: si assume che il fatturato di una popolazione di aziende segua una distribuzione Normale) 2 X ~ N; Campionamento casuale semplice Campionamento casuale stratificato N T N Campionamento casuale a grappoli e a stadi I parametri da stimare sono media e varianza di X xi è l’investimento della i-esima azienda K E(X) xf(x)dx 2 V(X) T è il numero di aziende la cui forma giuridica è SpA 2 x f(x)dx Per X v.c. continua E(X) 2 x p(x ) V(X) j j j1 K x j p(x j) j 1 2 Per X v.c. discreta 7 Campionamento casuale semplice • simula l’estrazione casuale di n unità da un’urna (l’intera popolazione) contenente N unità • richiede la conoscenza e la reperibilità delle N unità della popolazione • tutti i campioni di dimensione n hanno uguale probabilità di essere estratti 10 8 9 Estrazione con ripetizione Estrazione senza ripetizione L’elemento estratto viene successivamente reinserito nell’urna e può quindi essere estratto nuovamente Le estrazioni sono indipendenti La composizione dell’urna rimane immutata La probabilità di estrarre un elemento è sempre costante Estrarre un campione con ripetizione da una popolazione finita equivale a campionare da una popolazione infinita (la popolazione è inesauribile) Una volta estratto, un elemento non viene più reinserito nell’urna Le estrazioni successive non sono indipendenti La composizione dell’urna cambia La probabilità di estrarre un elemento si modifica Nella pratica, le indagini campionarie (per esempio su imprese o famiglie) utilizzano sempre uno schema di estrazione senza ripetizione 11 12 2 16/10/2011 Campione casuale (semplice) Statistica campionaria Distribuzione campionaria Nello spazio campionario (prima di osservare il campione), il campionamento casuale semplice di dimensione n produce una collezione di n v.c. X1, X2, …,Xn Le n v.c. sono identicamente distribuite Nel caso di pop. infinita (oppure pop. finita ma estrazione con ripetizione), le n v.c. sono indipendenti Sul campione effettivo, si osservano le determinazioni delle n v.c. ossia i valori x1, x2, …, xn Dato il campione casuale X1, X2, …,Xn , una statistica campionaria è una funzione t(X1,X2,…,Xn) e quindi a sua volta è una v.c. (assume valori diversi a seconda del campione estratto) La distribuzione campionaria indica quali valori la statistica assume (nello spazio campionario al variare dei campioni) e con quali probabilità (calcolate come freq rel dei campioni) Nella pratica, da una popolazione viene estratto casualmente un unico campione di dimensione prestabilita n Ai fini inferenziali, si considerano ipoteticamente tutti i campioni di dimensione n che è possibile estrarre dalla popolazione (spazio campionario o universo dei campioni) Su ogni campione calcoliamo la statistica campionaria L’insieme dei risultati costituisce la distribuzione campionaria (distribuz. di prob. di una statistica) 13 Campionamento con ripetizione da una pop. finita Popolazione di N=4 aziende Parametri di interesse: •media μ e varianza σ2 degli investimenti •proporzione π di SpA Azienda Investimenti 140 150 120 190 150 4 A 140 Campio- Osserv. ni campion. Media degli investim Campioni Osserv. campion. Media degli investim 1 AA 140,140 140 9 CA 120,140 130 SpA 2 AB 140,150 145 10 CB 120,150 135 3 AC 140,120 130 11 CC 120,120 120 4 AD 140,190 165 12 CD 120,190 155 5 BA 150,140 145 13 DA 190,140 165 6 BB 150,150 150 14 DB 190,150 170 7 BC 150,120 135 15 DC 190,120 155 8 BD 150,190 170 16 DD 190,190 190 150 SpA C 120 Srl D 190 SpA 3 0,75 4 Sono i valori distinti della media che osserveremmo se estraessimo tutti i possibili campioni di 2 elementi Per effetto del caso, posso essere particolarmente “fortunato” se estraggo il campione 6, con media pari a 150 (che coincide con il valore della media della popolazione). Con quale probabilità si verifica questo evento? 1 su 16 Posso essere particolarmente “sfortunato” se estraggo il campione 16, con media pari a 190 (che si discosta molto dal valore della media della popolazione). Con quale probabilità si verifica questo evento? 2 650 Si estraggono tutti i campioni ordinati con ripetizione di n=2 unità 16 15 Distribuzione campionaria della media Spazio campionario (N=4;n=2) Forma giuridica B 14 17 Valori della media degli investim Freq rel o probab. 120 1/16=0,062 130 2/16=0,125 135 2/16=0,125 140 1/16=0,062 145 2/16=0,125 150 1/16=0,062 155 2/16=0,125 165 2/16=0,125 170 2/16=0,125 190 1/16=0,062 Totale 16/16=1,000 Indica la freq rel di campioni sui quali il calcolo della media produce come risultato il corrispondente valore sulla prima colonna 18 3 16/10/2011 Distribuzione campionaria della media Distribuzione campionaria Studiare la distribuzione campionaria permette di • valutare il comportamento di una statistica campionaria come stimatore del parametro incognito • tenere sotto controllo l’effetto del “caso” associato all’estrazione del campione Valori della media degli investim Freq rel o probab. 120 0,062 130 0,125 135 0,125 V(X ) 120 150 0,062 ... 140 0,062 190 150 0,062 145 0,125 Sono i valori distinti che la proporzione assume al variare dei campioni Valori della proporzione di SpA Freq rel o probab. 0 1/16=0,062 0,5 6/16=0,375 1 9/16=0,563 Totale 16/16=1,000 150 2 2 325 2 n 150 0,062 155 0,125 165 0,125 Abbiamo verificato che: 170 0,125 E( X ) 190 0,062 Totale 1,000 V( X ) Indica la freq rel di campioni sui quali il calcolo della proporzione produce come risultato il corrispondente valore sulla prima colonna 2 Prop di SpA Campioni Osserv. campion. Prop di SpA 1 AA SpA,SpA 1 9 CA Srl, SpA 0,5 2 AB SpA,SpA 1 10 CB Srl, SpA 0,5 3 AC SpA,Srl 0,5 11 CC Srl, Srl 0 4 AD SpA,SpA 1 12 CD Srl, SpA 0,5 5 BA SpA,SpA 1 13 DA SpA,SpA 1 6 BB SpA,SpA 1 14 DB SpA,SpA 1 7 BC SpA,Srl 0,5 15 DC SpA,Srl 0,5 8 BD SpA,SpA 1 16 DD SpA,SpA 1 2 n 20 Campionamento senza ripetizione da una pop. finita E(P) 0 0,062 0,5 0,375 1 0,563 0,75 2 Campio- Osserv. ni campion. E(X) 120 0,062 ... 190 0,062 19 Distribuzione campionaria della proporzione Spazio campionario (N=4;n=2) E(X) V(X) Campionamento da una pop. infinita – Media campionaria Campione casuale di dimensione n estratto da: 1) Popolazione X qualunque con media μ e varianza σ2 2) Popolazione X ~ N(μ;σ2) 3) Popolazione X qualunque con media μ e varianza σ2, n grande E(P) 2 Nn n N 1 V(P) 21 1 N n n N 1 Alla varianza della distribuzione campionaria si applica un fattore moltiplicativo di correzione 2 V(P) 0 0,75 0,062 0,5 0,75 0,375 1 0,75 0,563 0,09375 1 n Abbiamo verificato che: Qual è la distribuzione (forma, valori caratteristici) della media campionaria? E(P) 1 V(P) n 22 23 24 4 16/10/2011 Campionamento da una pop. infinita – Media campionaria Campionamento da una pop. infinita – Media campionaria 2) Popolazione X ~ N(μ;σ2) 1) Popolazione X qualunque con media μ e varianza σ2 3) Popolazione X qualunque con media μ e varianza σ2, n grande 2 X ~ N ; n E(X) Si applica il Teorema Limite Centrale n Niente si può dire sulla forma della distribuzione della media campionaria 25 Distribuzione della popolazione e della media campionaria N(10,9) 2 X ~ N ; n La media campionaria segue la stessa distribuzione (Normale) della popolazione Il valore medio coincide con la media della popolazione La variabilità della distribuzione campionaria è minore di quella della popolazione ed è inversamente proporzionale a n 2 V(X) Campionamento da una pop. infinita – Media campionaria Il TLC è importante in chiave inferenziale perché permette di stimare la media della popolazione senza dover conoscere la forma specifica della X della popolazione 26 Campionamento da una pop. infinita – Prop. campionaria 27 Distribuzione della popolazione e distribuzione campionaria Esp(3) Popolazione A) Popolazione Popolazione X ~ Bernoulli(π) Campione casuale : X1, X2,…,Xn E(P) 1 V(P) n Media campionaria n=2 X ~ N(4,5;4) rendimenti annui di titoli 1 P ~ Binomiale(n; ) n N(4,5;0,13) B) Campione casuale n=10 X ~ N4,5;0,4 Media campionaria n=5 Se n è grande si applica il Teorema Limite Centrale (1 ) Media campionaria n=30 P ~ N , 28 n N(4,5;0,4) N(4,5;4) C) Campione casuale n=30 X ~ N4,5;0,13 29 30 5 16/10/2011 Distribuzione della popolazione e distribuzione campionaria A) Popolazione X ~ N(4,5;4) Distribuzione della popolazione e distribuzione campionaria C) Campione casuale n=30 X ~ N4,5;0,13 rendimenti annui di titoli 5 4,5 3 4,5 P 3 X 5 P Z 2 2 P 0,75 Z 0,25 0,37 B) Campione casuale n=10 P 3 X 5 ? Ci aspettiamo che 5 4,5 3 4,5 P 3 X 5 P Z P 4,17 Z 1,39 0,92 0,36 0,36 X ~ N4,5;0,4 Ci aspettiamo che P 3 X 5 n30 P 3 X 5 n10 P 3 X 5 P 3 X 5 5 4,5 3 4,5 P 3 X 5 P Z P 2,38 Z 0,79 0,78 0,63 0,63 31 Estraendo un campione di n=30, la probabilità di osservare un valore della media campionaria interno all’intervallo (3;5) è alta (Intervallo di accettazione) Se si verificasse 3 x 5 , saremmo portati a concludere che verosimilmente il campione provenga dalla popolazione con μ=4,5 e σ2=4 32 6