La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E’ necessario però anche aggiungere con quale grado di sicurezza, o di probabilità, riteniamo che la nostra stima o generalizzazione sia corretta Stima dei parametri √ Si cerca di stimare un parametro di una popolazione (ogni caratteristica misurata in una colazione) attraverso una statistica √ Il parametro può corrispondere alla dimensione di un effetto (per esempio, allungamento durata della vita in individui trattati) √ Bisogna però definire l’incertezza della stima. Per questo si usa l’ intervallo di confidenza, o intervallo sfiduciale. Test delle ipotesi √ Definite diverse ipotesi si cerca di identificare qual è l’ipotesi più adatta a spiegare i dati osservati √ In generale, si definisce un’ipotesi nulla e un’ipotesi alternativa. √ I dati sono sempre confrontati con quelli previsti dall’ipotesi nulla. √ Se sono troppo diversi da quelli previsti dall’ipotesi nulla, si favorisce l’ipotesi alternativa. Altrimenti, si conclude che i dati sono compatibili con l’ipotesi nulla. La teoria del campionamento è necessaria per capire la statistica inferenziale Vediamola in forma semplificata con un esempio Popolazione dei lupi scandinavi: 10.512 animali Il peso medio di questa popolazione, µ, è ignoto, ma supponiamo abbia una distribuzione normale Un ricercatore vuole comunque giungere ad una stima di questo parametro avendo anche un’idea anche di quanto buona sia questa stima, e decide quindi di catturare e pesare 6 lupi. La media del peso nel campione risulta pari a x = 20.32 kg. 1 campione di 6 individui 14 16 18 20 22 24 26 Chiaramente la media del campione non sarà pari alla media della popolazione E’ possibile dare qualche indicazione sulla distanza tra la media del campione (che possiamo calcolare) e quella della popolazione (alla quale siamo maggiormente interessati ma che non possiamo calcolare)? Facciamo finta per un momento che sia possibile ripetere il campionamento più volte, per esempio 12 volte 12 campioni di 6 individui ciascuno Sample number 1 2 3 4 5 6 7 8 9 10 11 12 14 16 18 20 22 24 26 A questo punto avrei quindi a disposizione 12 medie, che contengono le informazioni sulla distribuzione di frequenza della media campionaria in campioni di 6 individui Abbiamo cioè una nuova variabile, la media campionaria appunto, in campioni di 6 lupi Se invece di 12 campioni ne avessi un numero molto alto, potrei pensare di costruire la distribuzione di frequenza di questa nuova variabile. Frequenza 14 16 18 20 22 24 26 Media del campione [Al sito http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html è possibile effettuare esperimenti simulati di campionamento a partire da variabili con distribuzioni diverse] Questa distribuzione è fondamentale in statistica inferenziale Mi permette di capire molte cose che riguardano sia i problemi di stima che di verifica delle ipotesi Nel nostro caso dei lupi, ragionare su questa distribuzione mi permette di dire qualcosa di più sulla correttezza e la precisione della stima del peso medio dei lupi in una popolazione a partire da un campione di 6 animali. Frequenza 14 16 18 20 22 24 26 Media del campione La distribuzione delle medie campionarie è normale se la variabile ha una distribuzione normale Per il TLC, la distribuzione delle medie campionarie è normale anche se la variabile non è normale, a patto che n sia abbastanza grande o (la media è una combinazione di fattori…) La distribuzione delle medie campionarie è centrata sulla media nella popolazione o La media campionaria è quindi una stima corretta (non vuol dire necessariamente precisa!) L’ampiezza della distribuzione delle medie campionarie ci dice qualcosa sulla precisione della stima in un singolo campione o Se la distribuzione fosse molto stretta, potrei dire per esempio che la media osservata in un singolo campione sarebbe probabilmente abbastanza vicina alla media della popolazione o Se la distribuzione delle medie fosse larga, un singolo campione potrebbe anche essere molto impreciso Vediamo come questa varianza della media campionaria (non della variabile!) varia al variare della dimensione degli ipotetici campioni. 12 campioni di 24 individui ciascuno Sample number 1 2 3 4 5 6 7 8 9 10 11 12 14 16 18 20 22 24 26 12 campioni di 24 individui ciascuno Sample number 12 campioni di 6 individui ciascuno Sample number 1 1 2 3 4 2 3 4 5 6 7 5 6 7 8 9 8 9 10 11 10 11 12 12 14 16 18 20 22 24 26 14 16 18 20 22 24 26 Frequenza Frequenza (a) n = 6 (b) n = 24 Frequenza (c) n = 100 16 18 20 22 24 26 Media del campione Posso verificare direttamente per simulazione al sito citato in precedenza che la distribuzione della media campionaria 1) ha minore ampiezza al crescere di n, 2) è centrata sulla media della variabile nella popolazione, 3) è normale anche se la variabile non è normale ma n è grande Al crescere di n, la distribuzione della media campionaria tende ad una normale (come la somma del punteggio di più dadi) (b) Quadratic U n=1 n=2 3 2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 3 3 2 2 1 1 0 0.0 0.2 0.4 0.6 0.8 1.0 0 0.0 0.2 3 3 2 2 1 1 0.2 0.4 0.6 0.8 1.0 n = 10 n=4 0 0.0 0.4 0.6 From Chance Encounters by C.J. Wild and G.A.F. Seber, © John Wiley & Sons, 2000. 0.8 1.0 0 0.0 0.2 0.4 0.6 0.8 1.0 Cosa ci insegna la teoria statistica sulla distribuzione della media campionaria? σX = σ n La deviazione standard della media campionaria è pari alla deviazione standard della variabile divisa per la radice della dimensione campionaria. Misura la precisione della stima. La formula è logica: se la variabile nella popolazione è molto “dispersa” (alta σ) o il campione è piccolo (basso n), la precisione della stima della media è bassa. Al contrario, se la variabile nella popolazione ha sempre valori molto vicini alla media, o il campione è molto grande, la media sarà stimata bene. La deviazione standard della media campionaria prende il nome di Errore Standard (ES) Se quindi la distribuzione della media campionaria è normale, centrata su µ e con deviazione standard paria a σ x = σ n , allora La variabile standardizzata z z= x−µ σx segue la distribuzione normale standardizzata Quindi, per esempio, nel 95% dei campioni con una certa dimensione n, la distanza standardizzata tra media campionaria e media della popolazione sarà compresa tra -1.96 e +1.96 x −µ P−1.96 ≤ ≤ 1.96 = 0.95 (in linguaggio matematico) σx che generalizzando diventa x −µ P−zα / 2 ≤ ≤ zα / 2 = 1− α σx Riarrangiando (per α = 0.05) otteniamo qualcosa di molto più utile per il singolo campione: σ σ P x − 1.96 ≤ µ ≤ x + 1.96 = 0.95 = 95% n n Questo significa che nel 95% dei campioni con una certa dimensione n, l’intervallo che calcolo 1.96 aggiungendo e togliendo a ogni media popolazione, µ. σ n conterrà il valore vero della media nella Questo è l’intervallo di confidenza al 95% nel caso la deviazione standard σ sia nota: IC95% = x ± 1.96σ x = x ± 1.96 σ n Generalizzando σ σ P x − zα / 2 ≤ µ ≤ x + z = 1 − α α /2 n n IC1−α = x ± z α / 2 σ x = x ± zα / 2 σ n dove: 1. (1-α) prende il nome di grado di confidenza 2. α è chiamato livello di significatività (in altre parole, la probabilità che l’intervallo di confidenza calcolato non contenga il valore vero della media nella popolazione) 3. zα/2 è il valore di z nella distribuzione normale standardizzata che determina, alla sua destra, un'area corrispondente ad α/2. Attenzione che l’intervallo di confidenza non è l’intervallo in cui cadono i valori della variabile, o la media del campione, ma gli intervalli che con una certa probabilità conterranno la media della popolazione! (Informalmente, anche se non correttamente, si dice anche che la media della popolazione cadrà con una probabilità 1 - α all’interno dell’intervallo di confidenza calcolato. Ma definito un intervallo, la media della popolazione o è interna o è esterna a questo intervallo, non ha senso parlare di probabilità della media vera di cadere o no nell’intervallo calcolato) ESERCIZIO Abbiamo calcolato la media delle altezze in un campione di 10 individui, e la media è risultata pari a 168,2 centimetri. Assumendo che la varianza σ2 dell’altezza nella popolazione sia nota, e sia pari a 110 cm2, determinare gli intervalli di confidenza al 90, al 95 e al 99%. Soluzione 1. Determino i valori di zα/2 per α= 0.1, 0.05, e 0.01 - Per α= 0.1, α/2= 0.05, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari circa a 1.645 - Per α= 0.05, α/2= 0.025, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari a circa a 1.96 - Per α= 0.01, α/2= 0.005, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari circa a 2.575 2. Calcolo l’errore standard (cioè la deviazione standard della media campionaria) σ 110 σx = = = 11 = 3.32 n 10 3. Determino gli intervalli di confidenza - Per α= 0.1, IC = 168.2±5.46 - Per α= 0.05, IC = 168.2±6.51 - Per α= 0.01, IC = 168.2±8.55