La statistica inferenziale Il processo inferenziale consente di

La statistica inferenziale
Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati
ottenuti osservando uno o più campioni
E’ necessario però anche aggiungere con quale grado di sicurezza, o di probabilità, riteniamo
che la nostra stima o generalizzazione sia corretta
Stima dei parametri
√ Si cerca di stimare un parametro di una popolazione (ogni caratteristica misurata in una
colazione) attraverso una statistica
√ Il parametro può corrispondere alla dimensione di un effetto (per esempio, allungamento
durata della vita in individui trattati)
√ Bisogna però definire l’incertezza della stima. Per questo si usa l’ intervallo di confidenza, o
intervallo sfiduciale.
Test delle ipotesi
√ Definite diverse ipotesi si cerca di identificare qual è l’ipotesi più adatta a spiegare i dati
osservati
√ In generale, si definisce un’ipotesi nulla e un’ipotesi alternativa.
√ I dati sono sempre confrontati con quelli previsti dall’ipotesi nulla.
√ Se sono troppo diversi da quelli previsti dall’ipotesi nulla, si favorisce l’ipotesi alternativa.
Altrimenti, si conclude che i dati sono compatibili con l’ipotesi nulla.
La teoria del campionamento è necessaria per capire la statistica inferenziale
Vediamola in forma semplificata con un esempio
Popolazione dei lupi scandinavi: 10.512 animali
Il peso medio di questa popolazione, µ, è ignoto, ma supponiamo abbia una distribuzione
normale
Un ricercatore vuole comunque giungere ad una stima di questo parametro avendo anche
un’idea anche di quanto buona sia questa stima, e decide quindi di catturare e pesare 6 lupi.
La media del peso nel campione risulta pari a
x
= 20.32 kg.
1 campione di 6 individui
14
16
18
20
22
24
26
Chiaramente la media del campione non sarà pari alla media della popolazione
E’ possibile dare qualche indicazione sulla distanza tra la media del campione (che possiamo
calcolare) e quella della popolazione (alla quale siamo maggiormente interessati ma che non
possiamo calcolare)?
Facciamo finta per un momento che sia possibile ripetere il campionamento più volte, per
esempio 12 volte
12 campioni di 6 individui ciascuno
Sample
number
1
2
3
4
5
6
7
8
9
10
11
12
14
16
18
20
22
24
26
A questo punto avrei quindi a disposizione 12 medie, che contengono le informazioni sulla
distribuzione di frequenza della media campionaria in campioni di 6 individui
Abbiamo cioè una nuova variabile, la media campionaria appunto, in campioni di 6 lupi
Se invece di 12 campioni ne avessi un numero molto alto, potrei pensare di costruire la
distribuzione di frequenza di questa nuova variabile.
Frequenza
14
16
18
20
22
24
26
Media del campione
[Al sito http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html è possibile effettuare
esperimenti simulati di campionamento a partire da variabili con distribuzioni diverse]
Questa distribuzione è fondamentale in statistica inferenziale
Mi permette di capire molte cose che riguardano sia i problemi di stima che di verifica delle
ipotesi
Nel nostro caso dei lupi, ragionare su questa distribuzione mi permette di dire qualcosa di più
sulla correttezza e la precisione della stima del peso medio dei lupi in una popolazione a partire
da un campione di 6 animali.
Frequenza
14
16
18
20
22
24
26
Media del campione
La distribuzione delle medie campionarie è normale se la variabile ha una distribuzione normale
Per il TLC, la distribuzione delle medie campionarie è normale anche se la variabile non è
normale, a patto che n sia abbastanza grande
o (la media è una combinazione di fattori…)
La distribuzione delle medie campionarie è centrata sulla media nella popolazione
o La media campionaria è quindi una stima corretta (non vuol dire necessariamente
precisa!)
L’ampiezza della distribuzione delle medie campionarie ci dice qualcosa sulla precisione della
stima in un singolo campione
o Se la distribuzione fosse molto stretta, potrei dire per esempio che la media osservata in
un singolo campione sarebbe probabilmente abbastanza vicina alla media della
popolazione
o Se la distribuzione delle medie fosse larga, un singolo campione potrebbe anche essere
molto impreciso
Vediamo come questa varianza della media campionaria (non della variabile!) varia al variare
della dimensione degli ipotetici campioni.
12 campioni di 24 individui ciascuno
Sample
number
1
2
3
4
5
6
7
8
9
10
11
12
14
16
18
20
22
24
26
12 campioni di 24 individui ciascuno
Sample
number
12 campioni di 6 individui ciascuno
Sample
number
1
1
2
3
4
2
3
4
5
6
7
5
6
7
8
9
8
9
10
11
10
11
12
12
14
16
18
20
22
24
26
14
16
18
20
22
24
26
Frequenza
Frequenza
(a) n = 6
(b) n = 24
Frequenza
(c) n = 100
16
18
20
22
24
26
Media del campione
Posso verificare direttamente per simulazione al sito citato in precedenza che la distribuzione
della media campionaria 1) ha minore ampiezza al crescere di n, 2) è centrata sulla media della
variabile nella popolazione, 3) è normale anche se la variabile non è normale ma n è grande
Al crescere di n, la distribuzione della media campionaria tende ad una normale (come la somma del
punteggio di più dadi)
(b) Quadratic U
n=1
n=2
3
2
1
0
0.0
0.2
0.4
0.6
0.8
1.0
3
3
2
2
1
1
0
0.0
0.2
0.4
0.6
0.8
1.0
0
0.0
0.2
3
3
2
2
1
1
0.2
0.4
0.6
0.8
1.0
n = 10
n=4
0
0.0
0.4
0.6
From Chance Encounters by C.J. Wild and G.A.F. Seber, © John Wiley & Sons, 2000.
0.8
1.0
0
0.0
0.2
0.4
0.6
0.8
1.0
Cosa ci insegna la teoria statistica sulla distribuzione della media campionaria?
σX =
σ
n
La deviazione standard della media campionaria è pari alla deviazione standard della variabile
divisa per la radice della dimensione campionaria. Misura la precisione della stima.
La formula è logica: se la variabile nella popolazione è molto “dispersa” (alta σ) o il campione è
piccolo (basso n), la precisione della stima della media è bassa.
Al contrario, se la variabile nella popolazione ha sempre valori molto vicini alla media, o il
campione è molto grande, la media sarà stimata bene.
La deviazione standard della media campionaria prende il nome di Errore Standard (ES)
Se quindi la distribuzione della media campionaria è normale, centrata su µ e con deviazione
standard paria a σ x =
σ
n , allora
La variabile standardizzata z
z=
x−µ
σx
segue la distribuzione normale standardizzata
Quindi, per esempio, nel 95% dei campioni con una certa dimensione n, la distanza standardizzata
tra media campionaria e media della popolazione sarà compresa tra -1.96 e +1.96


x −µ
P−1.96 ≤
≤ 1.96 = 0.95 (in linguaggio matematico)
σx


che generalizzando diventa


x −µ
P−zα / 2 ≤
≤ zα / 2  = 1− α
σx


Riarrangiando (per α = 0.05) otteniamo qualcosa di molto più utile per il singolo campione:

σ 
σ 

P  x − 1.96
 ≤ µ ≤  x + 1.96
  = 0.95 = 95%
n
n 


Questo significa che nel 95% dei campioni con una certa dimensione n, l’intervallo che calcolo
1.96
aggiungendo e togliendo a ogni media
popolazione, µ.
σ
n conterrà il valore vero della media nella
Questo è l’intervallo di confidenza al 95% nel caso la deviazione standard σ sia nota:
IC95% = x ± 1.96σ x = x ± 1.96
σ
n
Generalizzando

σ 
σ 

P   x − zα / 2
≤
µ
≤
x
+
z


  = 1 − α
α /2
n
n 


IC1−α = x ± z α / 2 σ x = x ± zα / 2
σ
n
dove:
1. (1-α) prende il nome di grado di confidenza
2. α è chiamato livello di significatività (in altre parole, la probabilità che l’intervallo di confidenza
calcolato non contenga il valore vero della media nella popolazione)
3. zα/2 è il valore di z nella distribuzione normale standardizzata che determina, alla sua destra,
un'area corrispondente ad α/2.
Attenzione che l’intervallo di confidenza non è l’intervallo in cui cadono i valori della
variabile, o la media del campione, ma gli intervalli che con una certa probabilità conterranno
la media della popolazione!
(Informalmente, anche se non correttamente, si dice anche che la media della popolazione cadrà
con una probabilità 1 - α all’interno dell’intervallo di confidenza calcolato. Ma definito un intervallo, la
media della popolazione o è interna o è esterna a questo intervallo, non ha senso parlare di
probabilità della media vera di cadere o no nell’intervallo calcolato)
ESERCIZIO
Abbiamo calcolato la media delle altezze in un campione di 10 individui, e la media è risultata pari a
168,2 centimetri. Assumendo che la varianza σ2 dell’altezza nella popolazione sia nota, e sia pari a
110 cm2, determinare gli intervalli di confidenza al 90, al 95 e al 99%.
Soluzione
1. Determino i valori di zα/2 per α= 0.1, 0.05, e 0.01
- Per α= 0.1, α/2= 0.05, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari circa a
1.645
- Per α= 0.05, α/2= 0.025, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari a
circa a 1.96
- Per α= 0.01, α/2= 0.005, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari circa
a 2.575
2. Calcolo l’errore standard (cioè la deviazione standard della media campionaria)
σ
110
σx =
=
= 11 = 3.32
n
10
3. Determino gli intervalli di confidenza
- Per α= 0.1, IC = 168.2±5.46
- Per α= 0.05, IC = 168.2±6.51
- Per α= 0.01, IC = 168.2±8.55