statistica chi quadrato - INFN

Note sulla probabilità
Maurizio Loreti
Dipartimento di Fisica
Università degli Studi di Padova
Anno Accademico –
1
La distribuzione del χ2
0.6
N=1
N=2
N=3
N=5
N=10
0.5
0.4
0.3
0.2
0.1
0
0
5
10
15
20
Figura 1: la distribuzione del χ2 per alcuni valori del parametro N .
Se x1 , x2 , . . . , xN sono N variabili casuali tra loro statisticamente indipendenti e che seguono tutte

1 - La distribuzione del χ2

la distribuzione normale standardizzata (ovvero la distribuzione di Gauss con media 0 e varianza 1), si
può dimostrare che la nuova variabile casuale
X=
N
X
xi 2
i=1
(ovviamente non negativa) è caratterizzata da una densità di probabilità ben determinata che si chiama distribuzione del chi quadro; il parametro N prende il nome di numero di gradi di libertà della
distribuzione.
Dalla definizione discende immediatamente la cosiddetta regola di somma del χ2 : ovvero, se X ed
Y sono due variabili casuali statisticamente indipendenti entrambe distribuite come il χ2 con N ed M
gradi di libertà rispettivamente, la loro somma Z = X + Y è una variabile casuale ancora distribuita
come il χ2 ; però con N + M gradi di libertà.
Speranza matematica e varianza di una variabile casuale X distribuita come il χ2 ad N gradi di
libertà valgono
(
E(X)
= N
Var(X)
=
2N
Inoltre, come si può supporre osservando la figura 1, anche la distribuzione del χ2 tende ad una distribuzione normale (avente la stessa media N e la stessa varianza 2N ) al crescere di N ; tale approssimazione
si può ritenere in pratica già buona quando N è superiore a 30.
1.1
Verifica delle ipotesi col metodo del χ2
La distribuzione del χ2 viene spesso usata per verificare la bontà dell’accordo tra una ipotesi teorica
e dei dati sperimentali. Come esempio, si pensi ad un campione di misure ripetute {x1 , x2, . . . , xN } che
si ritiene provengano da una distribuzione normale avente media ed errore quadratico medio noti a priori
x∗ e σ ∗ : ammessa per assurdo vera questa ipotesi, la variabile casuale
X=
2
N X
xi − x∗
i=1
σ∗
dovrebbe essere distribuita come il χ2 con N gradi di libertà.
L’ipotesi può essere rigettata se il valore calcolato di X è ritenuto troppo grande per poter essere
ottenuto sulla base della pura casualità: in pratica bisogna fissare arbitrariamente un valore della probabilità ε che segni il confine tra quelle fluttuazioni ritenute accettabili sulla base della pura casualità
e quelle cosí grandi da farci piuttosto ritenere che sia invece falsa l’ipotesi di partenza; normalmente si
sceglie ε = 99.7% oppure ε = 99%. Operata la scelta, si calcola con l’aiuto delle apposite tabelle quel
valore X0 che divide la curva del χ2 ad N gradi di libertà in due parti con area rispettivamente ε (a
sinistra di X0 ) e 1 − ε (a destra); se X > X0 l’ipotesi viene rigettata (ad un livello di confidenza ε), ed
accettata altrimenti.
Un metodo alternativo è quello di calcolare l’area ε sotto la curva del χ2 ad N gradi di libertà
nell’intervallo [X, +∞]: quanto maggiore è questo valore, tanto migliore è l’accordo con l’ipotesi.
Nel caso che media e varianza della distribuzione normale con cui si esegue il confronto non siano
note a priori ma vengano ricavate dal campione stesso attraverso le note formule
x̄ =
N
1 X
xi
N
N
σx 2 =
e
i=1
1 X
2
(xi − x̄)
N −1
i=1
si può dimostrare che la variabile
X=
N
2
X
(xi − x̄)
i=1
σx 2
1.2 - Dati in istogramma

è ancora distribuita come il χ2 : ma il numero di gradi di libertà è in questo caso N − 2. Questo è
conseguenza di una legge generale, secondo la quale:
Il numero di gradi di libertà da associare a variabili che seguono la distribuzione del χ2 è
dato dal numero di contributi indipendenti (ovvero dal numero di termini con distribuzione
normale standardizzata sommati in quadratura: qui N , uno per ogni determinazione xi )
diminuito del numero di parametri che compaiono nella formula e che sono stati ottenuti o
stimati dai dati stessi (qui due: la media della popolazione e la sua varianza).
1.1.1
Esercizi
Esercizio 1.1: si sono misurati gli angoli interni di 100 triangoli; i risultati sono riassunti nella tabella
seguente:
179.3
180.0
180.2
179.9
180.2
180.2
180.4
179.7
180.0
179.0
180.1
179.8
181.3
179.3
179.3
180.1
180.1
179.9
179.7
179.9
179.5
179.6
180.5
180.4
179.8
180.2
179.3
180.3
179.7
180.1
179.7
179.9
180.8
179.9
180.8
180.3
179.7
180.0
180.0
180.7
179.1
180.1
180.2
180.0
181.2
179.5
180.6
180.0
179.6
179.9
179.9
180.2
179.8
179.9
181.0
179.9
180.5
179.4
180.4
180.0
179.7
180.8
180.2
181.2
180.3
181.1
179.4
180.0
179.9
180.0
179.9
180.9
179.8
181.0
180.0
180.1
179.3
180.2
180.3
179.7
179.8
180.5
180.7
180.1
180.1
179.7
180.3
180.0
180.0
179.7
180.4
180.0
180.7
179.6
180.1
180.7
180.7
180.3
181.2
180.0
Si chiede di verificare l’ipotesi che i dati provengano da una popolazione normale.
1.2
Dati in istogramma
Se vogliamo verificare col metodo del χ2 l’ipotesi che dei dati già istogrammati (dopo aver diviso
in classi di frequenza i valori di una variabile casuale x) provengano da una densità di probabilità
corrispondente ad una funzione nota f(x), le cose sono piú complesse. Ammessa per assurdo vera
l’ipotesi:
1. La probabilità che una misura cada nella i-esima classe di frequenza, pi , è data dall’integrale di
f(x) sulla classe stessa.
2. I possibili valori del numero effettivo di misure che cadono in ogni classe si presenteranno secondo la
distribuzione binomiale; quindi il numero medio di eventi atteso nella generica classe vale Ai = N pi
e la sua varianza σi 2 = N pi (1 − pi ).
3. Se è lecito confondere in ogni classe la binomiale con una distribuzione normale, la variabile
X=
2
M X
Ai − Oi
i=1
σi
(1.1)
(M è il numero delle classi, ed Oi il numero di eventi effettivamente osservati in ognuna di esse)
segue la distribuzione del χ2 .
4. Se poi è anche lecito confondere in ogni classe la binomiale con una distribuzione di Poisson (quindi
se pi 1; che implica pi 2 pi e quindi σi 2 ≈ N pi = Ai ), la formula (1.1) diventa
X=
M
2
X
(Ai − Oi )
i=1
Ai
(1.2)
1 - La distribuzione del χ2

5. Il numero di gradi di libertà della distribuzione è M − 1: infatti M sono i contributi normali
indipendenti alla (1.1) e nei valori di tutte le Ai compare N che è ricavato dal campione; o, se
la f(x) dipendesse anche da R parametri ricavati dal campione, il numero di gradi di libertà
diventerebbe M − R − 1.
Il punto 3 è verificato se in ognuna delle classi Ai & 5; se cosí non fosse (e se la definizione delle
classi è lasciata allo sperimentatore) si possono eventualmente accorpare piú classi. Il punto 4 si può
considerare soddisfatto se in ogni classe pi non supera il 10 ÷ 15 per cento.
1.2.1
Esercizi
Esercizio 1.2: nell’esperienza dei pendoli, le 100 misure dirette del periodo sono riassunte (già divise
in classi di frequenza) nella tabella seguente:
t (s)
ni
t (s)
ni
1.750 − 1.775
1.775 − 1.800
1.800 − 1.825
1.825 − 1.850
1.850 − 1.875
1.875 − 1.900
1.900 − 1.925
1.925 − 1.950
1.950 − 1.975
1.975 − 2.000
0
0
2
3
3
5
7
5
6
13
2.000 − 2.025
2.025 − 2.050
2.050 − 2.075
2.075 − 2.100
2.100 − 2.125
2.125 − 2.150
2.150 − 2.175
2.175 − 2.200
2.200 − 2.225
2.225 − 2.250
18
17
11
6
3
1
0
0
0
0
Si chiede di verificare se i dati sono in accordo con l’ipotesi di una distribuzione normale.
Esercizio 1.3: in uno dei suoi esperimenti, l’abate Mendel osservò forma e colore dei frutti di molte
piante di piselli, classificandole in quattro categorie come segue (Oi è qui il numero di piante osservate
in ogni categoria):
i
Tipo
Oi
1
2
3
4
Rotondi e gialli
Rotondi e verdi
Oblunghi e gialli
Oblunghi e verdi
315
108
101
32
Totale
556
Sulla base delle sue teorie Mendel si aspettava un rapporto tra le popolazioni delle quattro categorie
di 9 : 3 : 3 : 1; i risultati sono in accordo con queste previsioni?
Esercizio 1.4: il Bortkewitch studiò il numero di morti per calci di cavallo nell’esercito prussiano,
registrando i decessi verificatisi in 10 corpi d’armata nel corso di 20 anni (per un totale quindi di N = 200
casi). Le frequenze assolute ni del numero di morti per corpo d’armata e per anno i sono riassunte nella
tabella seguente; si chiede di verificare se i dati sono in accordo con la distribuzione di Poisson.
i
ni
0
1
2
3
4
109
65
22
3
1
Totale
200

2
Soluzione degli esercizi
Esercizio 1.1:
media ed errore quadratico medio del campione valgono x̄ = 180.092 e σx = 0.48; inoltre
X=
2
100 X
xi − x̄
i=1
σx
≈ 99
Un valore almeno pari ad X viene ottenuto da una distribuzione del χ2 a 98 gradi di libertà nel 45.3%
dei casi; quindi l’accordo è buono.
Esercizio 1.2:
20
15
10
5
0
1.8
1.9
2
2.1
2.2
Figura 2: misure dirette del periodo con il pendolo.
media ed errore quadratico medio del campione valgono x̄ = 1.9958 e σ = 0.072518; nella figura 2 è disegnato l’istogramma dei dati assieme alla funzione di Gauss “di riferimento” (normalizzata all’istogramma).
Nella tabella seguente vi sono i dati necessari al calcolo del χ2 :
2 - Soluzione degli esercizi

t (s)
pi
Ai
Oi
< 1.900
1.900 − 1.925
1.925 − 1.950
1.950 − 1.975
1.975 − 2.000
2.000 − 2.025
2.025 − 2.050
2.050 − 2.075
2.075 − 2.100
> 2.100
0.093242
0.071213
0.099379
0.12329
0.13597
0.13331
0.11619
0.09003
0.06201
0.075375
9.3242
7.1213
9.9379
12.329
13.597
13.331
11.619
9.003
6.201
7.5375
13
7
5
6
13
18
17
11
6
4
(si sono unite alcune classi in modo da avere Ai & 5 in ogni intervallo). La formula (1.2) ci permette di
calcolare X ≈ 13.42, che va confrontato con la distribuzione del χ2 a 7 gradi di libertà; la probabilità che
per motivi casuali si presenti un valore non inferiore a quello trovato è solo del 6.26%: quindi l’accordo
è assai cattivo.
Esercizio 1.3:
il numero totale di osservazioni è N = 556; secondo la teoria quindi il numero di eventi Ai attesi nelle
varie categorie sarebbe:
i
1
2
3
4
pi
9
16
3
16
3
16
1
16
9
N
16
3
N
16
3
16 N
1
16 N
= 0.5625
= 0.1875
= 0.1875
= 0.0625
Ai
Oi
N pi q i
= 312.75
315
136.83
= 104.25
108
84.70
= 104.25
101
84.70
= 34.75
32
32.58
La variabile casuale
X=
4
2
X
(Ai − Oi )
i=1
Ai
≈ 0.47
dovrebbe essere distribuita come il χ2 a 3 gradi di libertà; in realtà la prima classe contiene il 56.25%
degli eventi attesi, per cui è meglio usare la (1.1) invece della (1.2). Quindi
X=
4
2
X
(Ai − Oi )
i=1
N pi q i
≈ 0.56
Secondo le tabelle, un valore inferiore a quello osservato si presenta casualmente nel 3.26% dei casi (e
quindi nel 96.74% dei casi il valore è almeno pari a quello osservato); quindi i risultati sono in accordo
piú che ottimo con la teoria.
Esercizio 1.4:
il numero medio di morti per corpo d’armata e per anno è
α =
4
1 X
i · ni ≈ 0.61
N i=0
Nella seguente tabella sono riportate le probabilità pi (calcolate dalla distribuzione di Poisson), il numero
atteso Ai = N pi di decessi ed il numero osservato ni ; i dati per i > 1 sono stati poi raggruppati in un’unica
classe:

i
pi
Ai
ni
N pi q i
0
1
0.5434
0.3314
108.67
66.29
109
65
49.62
44.32
2
3
4
0.1011
0.0206
0.0031
20.22
4.11
0.63
22
3
1
18.17
4.03
0.62
>1
0.1252
25.04
26
21.91
100
50
0
-1
0
1
2
3
4
5
Figura 3: i dati sperimentali (istogramma) confrontati con le previsioni della teoria (cerchi), per l’esercizio
1.4; in linea tratteggiata e con un quadrato sono rappresentati, rispettivamente, i dati e le previsioni per
i > 1.
La variabile casuale
X=
(109 − 108.67)2 (65 − 66.29)2 (26 − 25.04)2
+
+
≈ 0.06278
108.67
66.29
25.04
è distribuita come il χ2 a 1 grado di libertà; come nell’esercizio 1.3 le prime due classi corrispondono a
2 - Soluzione degli esercizi

pi elevati, per cui è meglio usare la (1.1) invece della (1.2):
X=
(109 − 108.67)2 (65 − 66.29)2 (26 − 25.04)2
+
+
≈ 0.08165
49.62
44.32
21.91
Quindi la probabilità di ottenere per motivi puramente casuali un valore almeno pari a quello osservato
è del 77.51%, e quindi i dati sono in ottimo accordo con l’ipotesi di una distribuzione di Poisson; nella
figura 3 la distribuzione teorica è confrontata poi coi dati sperimentali.