Capitolo 5 – Confidenza, significatività, test del c2

Capitolo 5 – Confidenza, significatività, test di
Student e del χ2
5.1 L’inferenza
Se conosciamo la legge di probabilità di un evento (a priori o a posteriori)
possiamo fare delle previsioni su come l’evento si verificherà in futuro,
oppure sul risultato di una misura. Il processo con il quale giungiamo alla
previsione prende il nome di inferenza. Esso si basa sostanzialmente sul
calcolo della varianza e sulla conoscenza dei modelli di probabilità.
5.2 La confidenza
La confidenza fornisce una indicazione del livello di certezza che è
possibile associare a una previsione sul risultato di una misura.
Partiamo da un esempio:
Immaginiamo di ripetere moltissime volte il lancio di 10 monete e
costruiamo l’istogramma delle frequenze dell’evento “testa”, ponendo
sull’asse n il numero di risultati “testa” su 10 lanci e sull’asse y la
frequenza dell’evento.
Utilizzando la definizione di decile vista al Capitolo 1, si potrebbe
affermare che l’80% dei risultati sono compresi tra n1 (valore decile
inferiore) e n2 (valore decile superiore). Si preferisce però affermare che,
con una confidenza dell’80%, il risultato cadrà tra n1 e n2.
N.B. Il tratto da n1 a n2 è chiamato intervallo di confidenza. Ad ogni
livello di confidenza (o certezza), detto anche semplicemente livello e
indicato con la lettera α, si può associare un intervallo di confidenza.
⇓
L’intervallo di confidenza stima l’andamento di un parametro non noto
fornendo una indicazione del grado di certezza sulla giustezza della stima.
Esempio:
Calcolare l’intervallo di confidenza in cui cade, a un livello del 99%, il
numero di teste ottenuto con 100 lanci di una moneta.
Soluzione:
Indichiamo con [x1, x2] l’intervallo di confidenza. La probabilità di
ottenere un numero di teste superiore a x2 sarà dello 0.5% e sarà
egualmente dello 0.5% la probabilità di ottenere un numero di teste
inferiore a x1. Per la distribuzione Gaussiana si ha <x> = Np e σ2 =
Np(1−p).
Al fine di usare i dati tabulati passiamo alle variabili standardizzate:
z1 =
x1 − Np
Np (1 − p )
z2 =
x2 − Np
Np (1 − p )
Poiché la Gaussiana è una curva simmetrica, deve essere z2 = −z1. Dalla
Tebella ricaviamo il valore di z2 = 2.575 per cui si ha P(z) = 0.495
(=0.99/2). Sostituendo nelle relazioni delle variabili standardizzate
otteniamo x1 = 37.125 e x2 = 62.875.
Possiamo quindi affermare, con una confidenza del 99%, che il numero di
teste su 100 lanci cadrà tra 37 e 63. Se non è così, è probabile che la
moneta sia truccata.
Commento:
Sono stati ottenuti valori x1, x2 di tipo frazionario, che sono stati
arrotondato all’intero più vicino in quanto il numero di teste può essere
dato soltanto da un intero. Ciò è dovuto al fatto che la Gaussiana è una
approssimazione continua della distribuzione binomiale: ad esempio, la
probabilità di avere esattamente 42 teste è data da B(42) ed è praticamente
uguale all’area della Gaussiana tra 41.5 e 42.5.
5.2.1 Procedura generale per la stima degli intervalli di confidenza
Consideriamo un valore mediato su N casi, ciascuno caratterizzato dallo
stesso valore di aspettazione (=stima) µ e varianza σ2. Si opera nel modo
seguente:
ƒ si fissa il livello di confidenza desiderato α (es.: 0.9, 0.95, 0.99). La
probabilità complessiva di un risultato fuori dall’intervallo è indicata
generalmente con p = 1−α.
ƒ In corrispondenza a tale valore di p si determina il valore dell’area P
sotto la semi-gaussiana da cercare nelle Tabelle. Possono verificarsi
due casi:
o viene richiesto di “determinare l’intervallo attorno al valor
medio in cui cade una frazione α di casi. In questo caso si parla
di test a due code e si ha:
1−α
P = 0.5 −
2
o viene richiesto di determinare il valore di x2 (x1) al di sotto (al
di sopra) del quale cade una frazione α di casi. In questo caso si
parla di test a una coda e si ha:
P = α − 0.5
ƒ Dalla Tabella, in corrispondenza al valore di P, si legge il valore
critico della variabile z. Nel caso di test a due code, l’intervallo di
confidenza sarà dato da
µ±z
σ
N
mentre il valore critico sopra il quale ci si aspetta che cadrà una
frazione p = 1−α di casi (test a una coda) sarà data da
x2 = µ + z
σ
N
N.B. Questo tipo di previsioni può essere fatto sotto due condizioni:
1) la frequenza (probabilità) dell’evento considerato ha un andamento
Gaussiano (per poter usare le tabelle);
2) la varianza dell’evento è nota a priori, o attraverso un numero
elevatissimo di misure.
5.3 La significatività
Supponiamo di conoscere la media di una variabile “locale” (es.: altezza
media dei 35 studenti del 3° anno di chimica di Pavia, h = 180 cm) e di
una variabile globale (es.: altezza media dei maschi italiani di 20 anni, µ =
175 cm). Sappiamo, inoltre, che la varianza delle altezze dei maschi
italiani è σ2 = (15 cm)2. Ci chiediamo se la differenza tra media locale e
media globale è “grande” o “piccola”, in altre parole se e quanto è
significativa.
Procedimento:
ƒ si suppone che non vi sia differenza tra i valori di aspettazione dei
valori medi (ipotesi zero, H0). Spesso si enuncia esplicitamente
anche una ipotesi alternativa, Ha, che viene accettata se si rifiuta
H0;
ƒ si calcola la probabilità p di ottenere, nel caso in cui l’ipotesi H0 sia
vera, un valore medio distante dal valore atteso come o più del
valore osservato (la media locale). Nel caso in esame, p rappresenta
la probabilità che l’altezza media degli studenti pavesi sia maggiore
o uguale a 180 cm solo a causa di fluttuazioni statistiche
(supponendo cioè nulla ogni differenza sistematica tra pavesi e
italiani);
ƒ se p è minore di un valore limite scelto a priori (tipicamente 0.01) si
dice che le due medie sono significativamente diverse nel caso di
test a due code, oppure che un valore medio è significativamente
maggiore (minore) nel caso di test a una coda. Il livello di
significatività si indica con (p < 0.01).
Significatività e confidenza sono due aspetti dello stesso problema. Nel
caso della significatività misuriamo una differenza tra valori medi e ci
chiediamo con che probabilità p possiamo trovare una differenza ancora
maggiore in valore assoluto.
Soluzione:
Si calcola la variabile standardizzata z e, in corrispondenza a questa, si
ricava p dalle tavole. Per gli studenti pavesi:
z=
µ − h 175 − 180
=
= −1.9720
σ
15
N
35
in corrispondenza al quale valore le tavole forniscono P = 0.4757 e p = 0.5
– 0.4757 = 0.0243. Poiché il valore di p è maggiore di 0.01, si può
concludere che gli studenti pavesi non sono significativamente più alti
della media nazionale, intendendo dire che in almeno due casi su cento
potremmo ottenere l’altezza media nazionale, se in realtà non esistesse
alcuna differenza sistematica.
5.4 Il test di Student
Sino ad ora si è supposto di conoscere esattamente (a priori o sull’intera
popolazione) la varianza del singolo evento in modo tale da poter costruire
la media standard
z=
x−µ
σ
(variabile adimensionale Gaussiana)
N
Se la varianza non è conosciuta esattamente, ma solo stimata mediante la
deviazione standard s su N dati, bisogna introdurre una diversa variabile
t=
x−µ
s
N
s
dove
viene chiamato errore standard. La variabile t non ha
N
distribuzione Gaussiana a causa dell’incertezza associata all’errore
standard (tipicamente per il basso valore di N), ed occorre pesare in modo
opportuno la probabilità che l’errore standard assuma valori diversi da
quello atteso.
La densità di probabilità della variabile t è descritta dalla cosiddetta
distribuzione di Student
n +1
⎛ n +1⎞
Γ⎜
⎟ ⎛
2 ⎞− 2
2 ⎠ ⎜ t ⎟
f (t ) = ⎝
1+
n ⎟⎠
⎛ n ⎞ ⎜⎝
nπ Γ⎜ ⎟
⎝2⎠
dove Γ= funzione Gamma (vedi seguito) e n = gradi di libertà (n=N−1). La
f(t) ha media = 0 e varianza n/(n−2), sempre maggiore di 1.
La distribuzione di Student è simmetrica con un massimo a t=0, meno
accentuato rispetto alla Gaussiana e con “code” più alte (vedi Tabella). In
pratica, l’incertezza sul denominatore (cioè l’entità dell’errore standard)
allarga la distribuzione e tale effetto è tanto più sensibile quanto più si è
lontani dal massimo.
La Tabella fornisce, per diversi valori dei gradi di libertà, n, e per le
diverse probabilità, P (area sottesa dalla curva, equivalente al livello di
confidenza), i valori critici, tP, della variabile di Student per cui si ha:
tP
∫ f (t ')dt ' = P
−∞
In particolare, si ha
t0.50 = 0
e
t1−P = tP
Regole per l’uso della t di Student
• Quando la numerosità N (numero di misure/eventi) è minore di 30 è
obbligatorio usare la variabile di Student.
• Per N > 100 le differenze rispetto alla distribuzione Gaussiana sono
trascurabili.
• Per 30 ≤ N ≤ 100 l’errore commesso è spesso accettabile.
Un esempio di uso della t di Student
La densità nominale, dn, della SiO2 nanometrica venduta dalla ditta SigmaAldrich è pari a 2203 kg/m3.
La densità misurata su campioni prelevati da 5 flaconi fornisce un valore
di <d> ± s = 2084 ± 86 kg/m3. Si può affermare con un livello di
significatività dell’1% (p < 0.01) che il valore nominale non è errato in
eccesso?
• Ipotesi zero (H0): il valore medio vero è <d> = 2203 kg/m3.
• Ipotesi alternativa (Ha): il valore medio vero è <d> < 2203 kg/m3
Calcoliamo la variabile t di Student nell’ipotesi che sia vera H0
t = (dn - <d>)/(s/N1/2) = (2203-2084)/(86/51/2) = 3.094
Considerando la Tabella di Student alla riga con n = 5−1 = 4 gradi di
libertà, in corrispondenza di t0.99 otteniamo il valore 3.75, mentre
otteniamo 2.78 in corrispondenza di t0.975.
La probabilità di ottenere <d> = 2084, se è vera l’ipotesi zero, è maggiore
dell’1% e di poco inferiore al 2.5%.
L’ipotesi zero pertanto va accettata con un livello di significatività dell’1%
e si può dire che la densità media dei campioni è in accordo (p <0.01) con
il valore nominale.
La funzione Γ (fonte: Wikipedia)
La funzione Γ (Gamma), nota anche come funzione Gamma di Eulero, è
una funzione continua sui numeri reali positivi, che estende il concetto di
fattoriale ai numeri complessi, nel senso che per ogni numero intero non
negativo n si ha
Γ(n + 1) = n!
dove n! è il fattoriale, cioè il prodotto dei numeri interi da 1 a n: n! = 1 × 2
× 3 × ... × n.
La notazione Γ(z) è dovuta a Adrien-Marie Legendre. Se la parte reale
del numero complesso z è positiva, allora l'integrale
Γ( z ) = ∫0∞ t
z −1 −t
e dt
converge.
Andamento della funzione Gamma sui numeri reali
Il test del χ2
Immaginiamo di misurare una variabile quantitativa su un campione di
numerosità N ottenendo i valori X1, …, XN. Se la variabile è caratterizzata
da una distribuzione normale con varianza σ2, sappiamo che il valor
N X
medio del campione < X >= ∑ i è distribuito attorno al valore medio
i =1 N
vero secondo una Gaussiana con varianza σ2/N. La stima della varianza
operata sul campione vale
N ( X − < X > )2
s = ∑ i
N −1
i =1
2
potrà cadere con uguale probabilità al di sotto o al di sopra di σ2 e tenderà
ad esso solo per N→∞. Anziché studiare come s2 si distribuisce attorno a
σ2, conviene analizzare la distribuzione della quantità
χ
2
N ( X − < X > )2 Nσ 2
(
N − 1)s 2
i
N
= ∑
=
=
2
2
σ
σ
σ2
i =1
La distribuzione del χ2 ha le seguenti proprietà formali (non dimostrate):
1)
2)
3)
valore atteso pari al numero dei gradi di libertà ν = N − 1;
varianza pari a 2ν;
densità di probabilità per χ2 ≥ 0 data da
f (χ 2 ,ν ) =
1
ν
⎛ν ⎞
2 2 Γ⎜ ⎟
⎝2⎠
ν
χ2
(χ 2 )2 −1e− 2
Questa funzione è chiamata distribuzione del χ2. Si tratta di una funzione
non standardizzata, poiché media e varianza dipendono dal numero di
gradi di libertà. La funzione è asimmetrica, con massimo per χ2 ≅ ν. Al
crescere del valor medio la distribuzione tende alla Gaussiana: per ν ≥ 30
la distribuzione assume una forma praticamente normale.
N.B. Per qualunque numero di gradi di libertà l’area della funzione da
zero a infinito vale 1.
La tabella 2 riporta i valori del percentile, P, espressi in %. Tale valore di
norma è indicato nelle Tabelle come χ P2 , dipende dal numero di gradi di
libertà, ν, ed è definito come
2
(
P = ∫0χ P dχ 2 f χ 2 ,ν
)
Le Tabelle vengono utilizzate per determinare gli intervalli di confidenza
e la significatività, in modo simile a quanto fatto per la distribuzione di
Gauss.
Esempio:
Un conduttimetro industriale per la misura della conducibilità ionica
dell’acqua minerale SANT’EGIDIO fornisce, in condizioni di normale
funzionamento, un valore a temperatura ambiente di
µ ± σ = 980 ± 31 mS/cm
Un certo giorno, su 12 bottiglie esaminate, viene riscontrata una
deviazione standard s di 42 mS/cm. Si può dire che la variazione di
conducibilità è significativamente (p < 0.05) aumentata e quindi il
conduttimetro deve essere revisionato?
Utilizzando i valori di N, s e σ calcoliamo il valore di χ2
(
N − 1)s 2
χ =
2
2
σ
=
11× 42 2
2
31
≅ 20.2
dalla Tabella, in corrispondenza della riga con ν = 11 gradi di libertà,
troviamo che il valore ottenuto è superiore (anche se di poco) a
χ .295 = 19.7 .
Possiamo quindi concludere che il comportamento del conduttimetro è
anomalo.
N.B. Se avessimo però richiesto un più stringente livello di significatività,
ad es. p < 0.01 ⇒ χ .299 = 24.7 , avremmo dovuto accettare l’ipotesi zero
che il funzionamento del conduttimetro sia normale e che la elevata
deviazione standard osservata sia dovuta a fluttuazioni casuali (basso
numero di eventi nella statistica).