Esperimentazioni di Fisica 1 Metodi Statistici

Esperimentazioni di Fisica 1 Metodi Statistici
Esperimentazioni di Fisica 1
Metodi Statistici
Università “Roma Tre” - Dipartimento di Matematica e Fisica
9 marzo 2017
Esperimentazioni di Fisica 1 Metodi Statistici
La statistica
I i valori misurati delle grandezze fisiche sono soggetti ad incertezza e quindi
possono essere considerati come variabili aleatorie generate da opportune
distribuzioni di probabilità.
I Lo studio delle proprietà di un numero finito di variabili estratte da distribuzioni
di probabilità è l’oggetto delle discipline statistiche.
I Per questo motivo l’analisi dei dati sperimentali trova nelle discipline statistiche
le giustificazioni razionali, le metodologie e gli strumenti matematici necessari a
stimare i valori delle grandezze che governano i fenomeni aleatori. Infatti la
statistica è la disciplina che studia in modo quantitativo e qualitativo i fenomeni
governati da parametri i cui valori sono soggetti ad incertezza.
I La statistica è la disciplina che studia in modo quantitativo e qualitativo quei
fenomeni governati da parametri i cui valori non sono completamente noti,
ovvero quando questi parametri sono soggetti ad incertezza così come accade nei
processi di misurazione delle grandezze fisiche.
I La statistica basandosi sulla teoria della probabilità ci fornisce una giustificazione
razionale a formule e relazioni già precedentemente introdotte come ad esempio
l’uso della della media aritmetica di misurazioni ripetute e l’aumento della
precisione all’aumentare del numero delle misure, che sono di fondamentale
importanza nell’analisi dei risultati di qualsiasi tipo di esperimento ed in
particolare di quelli di fisica
Esperimentazioni di Fisica 1 Metodi Statistici
Esempi
I Esempio 1. Lanciamo una moneta reale che sappiamo essere non truccata N
volte e supponiamo che k volte sia uscita testa e N − k volte sia uscita croce. Il
“campione” in questo caso è formato dagli N risultati (k croci e N − k teste) e
la popolazione di riferimento è la distribuzione binomiale BN (k, 1/2).
I Esempio 3. Lanciamo una puntina da disegno N volte in modo casuale su di un
piano. La puntina può cadere in due modi: con la punta verso l’alto oppure con
la punta che tocca il piuano. E’ molto difficile stabilire a priori la probabilità dei
due modi. Il campione in questo caso è formato dagli N risultati (k eventi in cui
la punta è verso l’alto e N − k nell’altro modo). La popolazione di riferimento è
la distribuzione binomiale BN (k, p) con il parametro p incognito da stimare.
I Esempio 2. Un contatore di raggi cosmici è acceso per 5 minuti. In questo
intervallo di tempo conta 12 eventi (passaggi di raggi cosmici). In questo caso il
campione consiste nei 12 eventi in 5 minuti e la popolazione di riferimento è una
distribuzione di Poisson il cui parametro, il valore medio, è incognito e deve
essere stimato dai dati misurati.
Esperimentazioni di Fisica 1 Metodi Statistici
Teoremi
Teoremi di teoria della probabilità che giustificano in modo rigoroso alcuni risultati già
enunciati come l’affermazione che il risultato migliore di una misurazione è dato dalla
media aritmetica o che la precisione di una misura migliora all’aumentare della
dimensione del campione.
Percorso logico:
I Con la dimostrazione della disuguaglianza di Chebyshev e tramite la legge dei
grandi numeri si vedrà che la media aritmetica campionaria di n realizzazioni di
un esperimento converge verso il valore atteso della popolazione di riferimento,
qualsiasi sia la distribuzione di probabilità
I Il teorema del limite centrale dimostrerà che, sotto ipotesi molto generali, la
somma di n variabili casuali, qualsiasi siano, le distribuzioni di probabilità delle
singole variabili, converge verso una distribuzione gaussiana al crescere di n
I Il teorema del limite centrale applicato agli errori di misura ha come corollario
che in molti casi, anche se non in tutti, le misure e le loro medie aritmetiche si
distribuiscono in modo gaussiano
Esperimentazioni di Fisica 1 Metodi Statistici
Disuguaglianza di Chebyshev
La Disuguaglianza di Chebyshev dice che, data la variabile aleatoria x con pdf f (x) di
valore atteso µ e varianza σ 2 , si ha:
P (|x − µ| ≥ tσ) ≤
Dimostrazione.
Z +∞
Z
2
2
(x − µ) f (x)dx ≥
σ =
−∞
1
t2
µ−tσ
per ogni t > 0
2
Z
∞
(x − µ) f (x)dx +
−∞
(x − µ)2 f (x)dx
µ+tσ
Poiché nei due intervalli di integrazione risulta (x − µ)2 ≥ t2 σ 2 potremo scrivere a
maggior ragione
Z µ−tσ
Z +∞
σ 2 ≥ t2 σ 2
f (x)dx +
f (x)dx = t2 σ 2 P (|x − µ| ≥ tσ)
−∞
µ+tσ
R µ−tσ
R +∞
dove si è usato che −∞
f (x)dx = P (x ≤ µ − tσ) e µ+tσ
f (x)dx = P (x ≥ µ + tσ).
Osservando che P (|x − µ| ≥ tσ) = P (x ≤ µ − tσ) + P (x ≥ µ + tσ) si dimostra
immediatamente l’enunciato.
Esperimentazioni di Fisica 1 Metodi Statistici
Disuguaglianza di Chebyshev
Confronto tra i limiti della disuguaglianza di Chebyshev e la distribuzione
normale.√ Nella
colonna “Normale” è riportato il valore:
R +t
2
1 − (1/ 2π) −t ez /2 dz.
t
1
2
3
Chebyshev
1.00
0.25
0.11
Normale
0.317
0.045
0.003
Esperimentazioni di Fisica 1 Metodi Statistici
La Legge dei Grandi Numeri
La legge dei grandi numeri nota anche come teorema di J. Bernoulli, dice che in un
campione di dimensione sufficientemente grande, la media aritmetica tende al valore
medio della popolazione di riferimento.
Applichiamo la disuguaglianza di Chebyshev a una media aritmetica di n variabili xi
indipendenti e appartenenti alla stessa distribuzione di√probabilità. Sia σ la deviazione
standard di x la deviazione standard di x è: σx = σ/ n. Per la disuguaglianza di
Chebyshev si ha:
σ
1
P (|x − µ| ≥ t √ ) ≤ 2
n
t
√
√
Poniamo = tσ/ n ovvero t = n/σ per cui la relazione precedente si scrive:
σ2
P (|x − µ| ≥ ) ≤ 2
n
oppure
σ2
P (|x − µ| ≤ ) ≥ 1 − 2
n
Che si legge:
scelto comunque piccolo, la probabilità che la media aritmetica x scarti
dal valore aspettato µ meno di tende ad 1 al crescere di n.
Esperimentazioni di Fisica 1 Metodi Statistici
La Legge empirica del caso
La legge dei grandi numeri o teorema di Bernoulli è spesso confusa e associata con la
legge empirica del caso che diversamente dalle precedente non è un teorema
dimostrabile ma è un’osservazione empirica che permette di valutare il valore ignoto
della probabilità di un evento dalla sua frequenza in un grande numero di prove
ripetute (nelle stesse condizioni). La legge empirica del caso è la base sperimentale
dell’interpretazione frequentista della probabilità.
Frequenza dell’uscita di testa in tre serie di 200 lanci di una moneta non truccata
Esperimentazioni di Fisica 1 Metodi Statistici
Il teorema del limite centrale.
Il teorema limite centrale è uno dei più importanti risultati della statistica e afferma
che se x1 , x2 , . . . , xn sono n variabili casuali indipendenti, con distribuzione di
probabilità qualsiasi ma aventi valori attesi dello stesso ordine di grandezza e
deviazioni standard finite e dello stesso ordine di grandezza allora una qualsiasi
combinazione lineare di queste variabili ha una distribuzione gaussiana. Consideriamo
la variabile y = a1 x1 + a2 x2 + . . . + an xn , con E[xi ] = µ1 e σi2 = Var[xi ], possiamo
valutare valore medio e varianza di y che sono date da:
X
X
2
E[y] ≡ µ =
ai µi
Var[y] ≡ σ =
a2i σi2
Il teorema del limite centrale afferma che la pdf di y è una gaussiana della forma:
f (y) = √
1
2πσ
2
e−(y−µ)
/2σ 2
Esperimentazioni di Fisica 1 Metodi Statistici
Il teorema del limite centrale.
l teorema del limite centrale (TLC) in
azione.
Nella Figura sono mostrati gli
istogrammi che mostrano la rapida
convergenza verso la forma normale di
una somma di variabili aleatorie.
Nell’inserto a) è mostrato
l’istogramma di una singola variabile
con distribuzione uniforme, negli
inserti b), c) e d) sono mostrate le
somma rispettivamente di 2, 4 ,8 e 10
variabili a cui è stato sottratto il valore
medio. distribuite in modo uniforme
(come in a). Le curve continue nelle
figure sono gaussiane con valore medio
e deviazione standard uguali a quelle
calcolate per le variabili istogrammate.
Esperimentazioni di Fisica 1 Metodi Statistici
Formula della stima della varianza campionaria
Partiamo dall’identità:
xi − x = (xi − µ) − (x − µ)
quadrando e sommando sull’indice i fino a n,
X
X
2
(xi − x) =
[(xi − µ) − (x − µ)]2 =
X
X
(xi − µ) + n(x − µ)2 =
=
(xi − µ)2 − 2(x − µ)
X
=
(xi − µ)2 − 2(x − µ)n(x − µ) + n(x − µ)2 =
X
=
(xi − µ)2 − n(x − µ)2
(1)
Dividendo per n e prendendo il valore atteso dei due membri
X
P
X
1
(xi − µ)2
1
2
2
2
E
(xi − x) = E
− (x−µ) = E
(xi − µ) − E (x − µ)2
n
n
n
Tenendo conto che:
X
1X 1X 2
1
1
2
2
(xi − µ) =
E (xi − µ) =
σ = nσ 2 = σ 2
E
n
n
n
n
Esperimentazioni di Fisica 1 Metodi Statistici
Formula della stima della varianza campionaria (cont.)
la varianza della media è σ 2 /n, ovvero:
2
E (x − µ)
σ2
=
n
e quindi
X
1
σ2
n−1 2
2
2
E
(xi − x) = σ −
=
σ
n
n
n
Quindi
"r
E
1
n−1
#
X
(xi − x)2
≡ E[s] = σ
Esperimentazioni di Fisica 1 Metodi Statistici
Intervallo e Livello di confidenza
Consideriamo un campione di N misurazioni ripetute: x1 , . . . , xN che supponiamo
appartengano ad una distribuzione di riferimento con valore medio µ e deviazione
P
xi /N
standard σ. Abbiamo visto che la distribuzione delle medie campionarie x =
delle misurazioni ripetute:
1. è centrata attorno a µ
2. se N è sufficientemente grande ha una distribuzione normale (TLC)
√
3. la deviazione standard della media campionaria è σ/ N ≡ σx
Domanda: Qual è la probabilità che la media campionaria sia contenuta in un certo
intervallo centrato su µ?.
√
L’unità di misura naturale per l’intervallo è la deviazione standard della media σ/ N ;
l’intervallo di confidenza e definito da:
µ − kσx < x < µ + kσx
k è detto fattore di copertura.
oppure
|x − µ|
<k
σx
oppure
|z| < k
Esperimentazioni di Fisica 1 Metodi Statistici
Intervallo e Livello di confidenza -(cont.)
µ e σ noti a priori.(Ipotesi astratta)
In queste condizioni la probabilità che x disti da µ meno di kσx (ovvero
|x − µ| < kσx ) è:
Z +k
2
1
x−µ
P (|x − µ| < kσx ) = √
e−z /2 dz
con z =
σx
2π −k
k=1
k=2
k=3
Esperimentazioni di Fisica 1 Metodi Statistici
Intervallo e Livello di confidenza -(cont. 2)
Caso più realistico
- σ nota a priori
P
Conosciamo solo: x =
xi /N In queste condizioni µ e x si scambiano i ruoli nella:
!
Z +k
2
1
x−µ
√
P (|x − µ| < kσx ) = √
e−z /2 dz
con z =
(2)
2π −k
σ/ N
ma nell’interpretazione frequentista della probabilità µ è un parametro, NON è una
variabile aleatoria e quindi non ha una distribuzione di probabilità.
Per questo motivo si parla di livello di confidenza.
Interpretiamo la (2) in questo modo:
Se ripetessimo l’esperimento ottenendo molte medie campionarie (x) gli intervalli di
confidenza trovati conterrebbero, con il livello di confidenza fissato, il valore vero della
popolazione di riferimento (µ).
La probabilità calcolata in (2), riferita all’intervallo di confidenza definito da k, è detta
livello di confidenza
Esperimentazioni di Fisica 1 Metodi Statistici
Intervallo e Livello di confidenza -(cont. 3)
Caso realistico.
√
La stima della deviazione standard della media s/ N , non è una costante ma una
variabile aleatoria:
s
X
1
s=
(xi − x)2
(N − 1)
Si dimostra che la variabile t definita da
t=
x−µ
√
s/ N
(3)
non è distribuita in modo normale, bensì segue la distribuzione t di Student f (t, ν)
con ν = N − 1 gradi di libertà:
f (t) = √
1
νB(1/2, ν/2)
ν+1
1+
−
2
t2
ν
Esperimentazioni di Fisica 1 Metodi Statistici
t-Student
E[t] = 0 esiste solo per ν > 1;
Var[t] =
ν
esiste solo per ν > 2
ν−2
Esperimentazioni di Fisica 1 Metodi Statistici
t-Student- Intervallo di confidenza al 95%
La seguente tabella fornisce la dimensione
dell’intervallo di confidenza che contiene con il 95%
di livello di confidenza il valore medio
Dimensione del
campione
2
3
4
6
11
31
51
101
∞
gradi di
libertà
1
2
3
5
10
30
50
100
∞
df=2,5,10,100
t0.025
12.706
4.031
3.182
2.571
2.228
2.042
2.009
1.960
1.969
0
-6
-4
-2
0
2
4
6
0
2
4
6
1
0.1
L’ultima riga con df=∞ coincide con la
distribuzione gaussiana.
0.01
0
-6
-4
-2
Esperimentazioni di Fisica 1 Metodi Statistici
t-Student- TABELLE
Esperimentazioni di Fisica 1 Metodi Statistici
t-Student- Esempi
Problema (Fornasini 9.1)
Due misurazioni indipendenti di una grandezza fisica hanno dato i valori 0.363 e
0.362, in opportune unità di misura. Stimare valore medio e varianza della
distribuzione di riferimento supposta gaussiana. calcolare il livello di confidenza per un
fattore di copertura, o intervallo di confidenza, k = 1 e k = 3.
Soluzione
= 0.3625
Stima del valore medio = 0.363+0.362
2
r
2(0.0005)2
Stima della dev. std. del valore medio
= 5.0 × 10−4
2(2−1)
Numero di gradi di libertà: ν = 2 − 1 = 1
Intervallo di confidenza per un fattore di copertura k = 1:
0.3625 − 0.0005 ÷ −0.3625 + 0.0005 (t = 1). Dalle tabelle della t-Student si ricava
che per t = 1 si ha un livello di confidenza = 50%.
Intervallo di confidenza per un fattore di copertura k = 3: 0.361 − 0.364 Dalle tabelle
della t-Student si ricava che per t = 3 si ha un livello di confidenza = 80%
Sono fatte altre 8 misurazioni della stessa grandezza:
0.364, 0.365, 0.365, 0.367, 0.360, 0.363, 0.361, 0.364 . Ripetere il problema.
Esperimentazioni di Fisica 1 Metodi Statistici
t-Student- Esempi
Problema (Fornasini 9.1-cont.)
Stima del valore medio con 10 misure: 0.36340
Stima della dev. std. del valore medio di 10 misure 6.53 × 10−4
Numero di gradi di libertà: ν = 10 − 1 = 9
Intervallo di confidenza per un fattore di copertura k = 1: 0.3627 − 0.3641 (T = 1).
Livello di confidenza = 66%.
Intervallo di confidenza per un fattore di copertura k = 3: 0.3614 − 0.3653 (T = 3).
Livello di confidenza = 98.5%
Esperimentazioni di Fisica 1 Metodi Statistici
Test su media uguale in due campioni
Dati due campioni x1 , x2 , . . . , xN , e y1 , y2 , . . . , yM , si chiede se i due campioni
provengono da una popolazione di riferimento con lo stesso valore medio. Fissiamo un
livello di confidenza del 95%. Calcoliamo x, y, sx e sy
sP
sP
2
(xi − x)
(yi − y)2
sy =
sx =
N −1
M −1
La differenza x − y ha varianza s2x /N + s2y /M e la variabile T , definita come
x−y
T = q
s2x /N + s2y /M
è distribuita come la t-Student con ν = N + M − 2 gradi di libertà. Possiamo quindi
calcolare l’integrale:
Z +T
P =
fν (t)dt e se P < 95% il test è accettato
−T
Oppure confrontiamo |T | con t1−α/2,ν con α = 0.05 ricavato dalle tabelle (vedi
esempio successivo).
Esperimentazioni di Fisica 1 Metodi Statistici
Test su media uguale in due campioni- Esempio
Le auto costruite in U.S.A. consumano come le auto costruite in Giappone?
U.S.A.
Japan
Numero di osservazioni
249
79
Media
20.14458
30.48101
deviazione standard
6.41470
6.10771
dev. stand. media
0.40652
0.68717
s = 0.7984, T = −12.95,
ν = 249 + 79 − 2 = 326 (gaussiana)
dalle tabelle t1−α/2,ν = 1.967 |T | > t1−α/2,ν , con α = 0.05. Ipotesi rigettata.
t0.025= -t0.975
2.5%
t0.975
95%
Intervallo di confideza
2.5%
Se |T|<t
Se |T|>t
0.975
0.975
Ipotesi accettata
Ipotesi rigettata
Esperimentazioni di Fisica 1 Metodi Statistici
Problema Bini n. 1.5 (modificato)
Prendiamo le prime 5 misure sia dal gruppo A sia dal gruppo B, con l’ipotesi che
abbiano la stessa media:
Zona A
Zona B
Numero di osservazioni
5
5
Media
5430
5926
deviazione standard
346
149
dev. stand. media
155
67
496
5926 − 5430
T = √
=
= 2.94
ν = 10 − 2 = 8
168.5
1552 + 672
dalle tabelle per 8 g.d.l. a T = 2.94 corrisponde P = 0.99 (mono-latera). 0.98
(bilatera). Questo risultato si interpreta come:
Se le medie della zona A e della zona B fossero uguali (ipotesi da testare)
ci sarebbe una probabilità 1 − 0.98 = 0.02 che la differenza tra le medie
risulti > 496 (T > 2.94). Inferiore rispetto a 0.05, preso
convenzionalmente come valore minimo standard
L’ipotesi è da scartare.