Slides 5 - Sito dei docenti di Unife

COME CALCOLARE L’INTERVALLO DI CONFIDENZA QUANDO E’
NECESSARIO STIMARE LA DEVIAZIONE STANDARD?
(è quasi sempre così!)
Per fortuna le cose non cambiano poi di molto visto che la nuova variabile
x −µ
sx
con sx =
s
NON segue una distribuzione normale standardizzata MA, se la variabile
n
analizzata ha una distribuzione normale,
segue una nuova distribuzione teorica di probabilità chiamata
distribuzione t di Student con n-1 gradi di libertà
Quindi
(
)
P x − tα / 2 ,n −1 ⋅ s / n ≤ µ ≤ x + tα / 2,n −1 ⋅ s / n = 1 − α
e l’intervallo di confidenza della media diventa semplicemente da
IC(1-α) =>
x ± tα / 2 ,n −1 ⋅ s / n
tα/2, n-1 è quindi il valore critico della distribuzioni di t con n-1 gradi di libertà, che identifica, alla sua
destra, un’ area pari a α/2.
E se la variabile non ha una distribuzione gaussiana?
La distribuzione t
Caratteristiche principali
Varia tra – infinito e +infinito
Ha un parametro, i gradi di libertà (la normale standardizzata non ha parametri)
o Per campioni di dimensioni diverse esistono quindi distribuzioni t diverse
Media, moda, e mediana sono uguali
Ha media pari a 0 e varianza maggiore di 1.
o Se k è grande, la varianza tende a 1
Rispetto alla normale standardizzata, ha code più pesanti
o Maggiore concentrazioni di valori agli estremi, a causa della maggiore varianza rispetto
alla normale standardizzata, dovuta all’errore nella stima di σ
Diventa una distribuzione normale standardizzata quando i gradi di libertà (e quindi la
numerosità del campione) tendono a infinito.
Distribuzione t ad una coda.
df\p
0.40
0.25
0.10
0.05
0.025
0.01
0.005
0.0005
1
0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192
2
0.288675 0.816497 1.885618 2.919986 4.30265
6.96456
9.92484
31.5991
3
0.276671 0.764892 1.637744 2.353363 3.18245
4.54070
5.84091
12.9240
4
0.270722 0.740697 1.533206 2.131847 2.77645
3.74695
4.60409
8.6103
5
0.267181 0.726687 1.475884 2.015048 2.57058
3.36493
4.03214
6.8688
11 0.259556 0.697445 1.363430 1.795885 2.20099
2.71808
3.10581
4.4370
12 0.259033 0.695483 1.356217 1.782288 2.17881
2.68100
3.05454
4.3178
13 0.258591 0.693829 1.350171 1.770933 2.16037
2.65031
3.01228
4.2208
inf 0.253347 0.674490 1.281552 1.644854 1.95996
2.32635
2.57583
3.2905
Distribuzione t a due code.
Degrees of Freedom- 2 tails 0.01
0.02
0.05
0.10
0.20
1
63.66 31.82 12.71 6.314 3.078
2
9.925 6.965 4.303 2.920 1.886
3
5.841 4.541 3.182 2.353 1.638
10
3.169 2.764 2.228 1.812 1.372
15
2.947 2.602 2.132 1.753 1.341
25
2.787 2.485 2.060 1.708 1.316
∞
2.575 2.326 1.960 1.645 1.282
I gradi di libertà (GDL o gdl o df)
Hanno chiaramente a che fare con la numerosità dell’informazione che a partire dai dati viene
utilizzata in una analisi statistica.
o Maggiore è il numero delle osservazioni, maggiori saranno i gradi di libertà.
Corrispondono al numero pezzettini di informazione indipendenti che vengono utilizzati per una
stima o un test.
I gdl sono anche pari al numero totale di osservazioni (o punteggi) utilizzati in un test o in una
stima meno il numero di parametri che sono stati stimati
Nel calcolo dell’intervallo di confidenza, se è necessario stimare la deviazione standard si usa una
distribuzione t con n-1 gradi di libertà
Due conclusioni importanti
La statistica inferenziale implica la conoscenza della distribuzione di probabilità della statistica
utilizzata (la media campionaria standardizzata, nel nostro caso). Tale conoscenza non ci può
ovviamente venire dai dati ma deve essere derivata, teoricamente o in altri modi, utilizzando
spesso alcune assunzioni.
I ragionamenti generali visti per l’intervallo di confidenza di una media sono applicabili anche
agli intervalli di confidenza per altri parametri. E’ però importante conoscere la distribuzione di
frequenza della statistica che stiamo utilizzando per stimare il parametro.
ESEMPIO APPLICATIVO
ESERCIZIO
La tabella riporta media e deviazione standard di 4 distribuzioni normali (prime 2 colonne). Calcolare
la probabilità che campioni di 10 o 30 individui estratti da popolazioni con queste 4 distribuzioni
abbiano una media campionaria maggiore del valore indicato nella terza colonna (X*).
Media
14
15
-23
72
Deviazione st.
5
3
4
50
X*
15
15.5
-22
45
P ( x > X *)
P ( x > X *)
(n=10)
(n=30)
0.2643
0.1379
Intervalli di confidenza di una proporzione
Variabile di tipo qualitativo (fumatori/non fumatori; giovani/adulti; maschi/femmine;
mutazioneA/mutazioneB/mutazioneC/assenza di mutazione)
o Calcoliamo la frequenza di individui che possiedono una certa caratteristica
Per esempio, su un campione di 45 individui affetti da una certa patologia, 10 sono fumatori. La
proporzione dei fumatori in questo campione, p, è quindi 10/45 = 0.22.
Come si calcola l’intervallo di confidenza di questa proporzione?
o Intervallo che con una certa probabilità contiene il valore di questa proporzione, π, nella
popolazione
La distribuzione teorica di probabilità della statistica p, è la distribuzione binomiale
o La vedremo presto
Se però nπ e n(1-π) sono entrambi maggiori o uguali a 5, una buona approssimazione della
distribuzione binomiale è la ben nota distribuzione normale.
In questo caso, la gaussiana che approssima la funzione di probabilità di p che ci interessa
avrà la media paria a π e la varianza pari a π(1-π)/n.
L’errore standard di p, sarà quindi
σp =
π (1 − π )
n
Quindi posso utilizzare lo stesso tipo di ragionamenti visti per l’intervallo di confidenza di una
media quando la varianza era nota e arrivare a

π (1 − π )
π (1 − π ) 
 =1−α
P  p − zα / 2 ⋅
≤ π ≤ p + zα / 2 ⋅

n
n


Da cui
IC(1-α) => p ± zα / 2 ⋅
π (1 − π )
n
Anche in questo caso, però, abbiamo un termine, che qui è π, che non è noto
Una buona approssimazione si ottiene semplicemente rimpiazzando π con p
IC(1-α) => p ± zα / 2 ⋅
p (1 − p )
n
A parole: esiste una probabilità pari a 1-α che l’intervallo di confidenza così calcolato contenga
la proporzione vera (cioè, la proporzione nella popolazione)
Questo metodo è valido solo se n è grande e se π non è troppo vicino a 0 o a 1
Esercizio
La frequenza dell’intolleranza al lattosio, in campione di 80 soggetti, è risultata pari al 35%. Calcolare
l’intervallo di confidenza al 99% di questa proporzione.
n = 80
p = 0.35
α = 0.01
α/2 = 0.005
zα/2 = 2.576 (da tabella)
IC(1-α) => p ± zα / 2 ⋅
IC(99%) => 0.35 ± 2.576 ⋅
IC(99%) => 0.21 – 0.49
p (1 − p )
n
0.35(1 − 0.35)
= 0.35 ± 0.14
80
Pianificare la precisione: qualche esempio semplice di disegno sperimentale
L’intervallo di confidenza si riduce all’aumentare della dimensione del campione
Per esempio, se posso applicare z
IC(1-α) => x ± zα / 2 ⋅ σ / n
Definiamo adesso con il termine generico di Errore:
E = Errore = | x –µ |
Linf
x
Lsup
µ
Se per esempio Linf e Lsup definiscono l’intervallo di confidenza al 95%
o L’errore, con una confidenza del 95%, sarà sempre inferiore a
1.96 ⋅ σ / n
La stessa cosa vale ovviamente con diversi valori di α e corrispondenti valori di z
Quindi
o
Emax,(1-α) = zα / 2 ⋅ σ / n
Che mi permette di calcolare
 zα / 2 ⋅ σ 

n=
E

 max, (1−α ) 
2
Questa è ovviamente una dimensione minima
o Con valori di n maggiori saremo ancora più certi di non commettere un errore superiore al
valore di Emax,(1-α) che ci è prefissati.
E se invece siamo in un caso in cui è necessario utilizzare la distribuzione t?
IC(1-α)=> x ± tα / 2,n −1 ⋅ s / n
E quindi
 tα / 2 ,n −1 ⋅ s 

n=
E

 max,(1−α ) 
2
Qui però non conosciamo né la deviazione standard, e nemmeno il valore critico di t, prima di
fare l’esperimento
E’ necessaria una stima preventiva di s e trovare n per prova ed errore.
Esempio
s stimato in precedenti studi o analisi = 4.
Quale sarà la dimensione del campione che garantisce un errore non superiore a 1 con una
confidenza del 95%,
Scegliamo un n iniziale pari a 10:
Con n= 10
t0.025,9 = 2.262 e n ricalcolato = (2.262*4/1)2 = 82 (approssimato per eccesso)
A questo punto utilizzo il valore di n ricalcolato per ripetere l’operazione
t0.025,81 = 1.990 e n ricalcolato = (1.990*4/1)2 = 64 (approssimato per eccesso)
t0.025,63 =1.998 e n ricalcolato = (1.998*4/1)2 = 64 (approssimato per eccesso)
E nel caso di un IC di una proporzione?
IC95% => p ± zα / 2 ⋅
π (1 − π )
n
E quindi
π (1 − π
E max,(1−α ) = zα / 2
n
)
ossia
2
 z

n =  α / 2  π (1 − π )
E

 max,(1−α ) 
Ma π non è noto, e nemmeno una sua stima, prima di fare l’esperimento!
Conviene impostare π = 0.5, ossia la valore di π che rende n massimo.