Esperimentazioni di Fisica 1 Metodi Statistici Esperimentazioni di Fisica 1 Metodi Statistici Università “Roma Tre” - Dipartimento di Matematica e Fisica 9 marzo 2017 Esperimentazioni di Fisica 1 Metodi Statistici La statistica I i valori misurati delle grandezze fisiche sono soggetti ad incertezza e quindi possono essere considerati come variabili aleatorie generate da opportune distribuzioni di probabilità. I Lo studio delle proprietà di un numero finito di variabili estratte da distribuzioni di probabilità è l’oggetto delle discipline statistiche. I Per questo motivo l’analisi dei dati sperimentali trova nelle discipline statistiche le giustificazioni razionali, le metodologie e gli strumenti matematici necessari a stimare i valori delle grandezze che governano i fenomeni aleatori. Infatti la statistica è la disciplina che studia in modo quantitativo e qualitativo i fenomeni governati da parametri i cui valori sono soggetti ad incertezza. I La statistica è la disciplina che studia in modo quantitativo e qualitativo quei fenomeni governati da parametri i cui valori non sono completamente noti, ovvero quando questi parametri sono soggetti ad incertezza così come accade nei processi di misurazione delle grandezze fisiche. I La statistica basandosi sulla teoria della probabilità ci fornisce una giustificazione razionale a formule e relazioni già precedentemente introdotte come ad esempio l’uso della della media aritmetica di misurazioni ripetute e l’aumento della precisione all’aumentare del numero delle misure, che sono di fondamentale importanza nell’analisi dei risultati di qualsiasi tipo di esperimento ed in particolare di quelli di fisica Esperimentazioni di Fisica 1 Metodi Statistici Esempi I Esempio 1. Lanciamo una moneta reale che sappiamo essere non truccata N volte e supponiamo che k volte sia uscita testa e N − k volte sia uscita croce. Il “campione” in questo caso è formato dagli N risultati (k croci e N − k teste) e la popolazione di riferimento è la distribuzione binomiale BN (k, 1/2). I Esempio 3. Lanciamo una puntina da disegno N volte in modo casuale su di un piano. La puntina può cadere in due modi: con la punta verso l’alto oppure con la punta che tocca il piuano. E’ molto difficile stabilire a priori la probabilità dei due modi. Il campione in questo caso è formato dagli N risultati (k eventi in cui la punta è verso l’alto e N − k nell’altro modo). La popolazione di riferimento è la distribuzione binomiale BN (k, p) con il parametro p incognito da stimare. I Esempio 2. Un contatore di raggi cosmici è acceso per 5 minuti. In questo intervallo di tempo conta 12 eventi (passaggi di raggi cosmici). In questo caso il campione consiste nei 12 eventi in 5 minuti e la popolazione di riferimento è una distribuzione di Poisson il cui parametro, il valore medio, è incognito e deve essere stimato dai dati misurati. Esperimentazioni di Fisica 1 Metodi Statistici Teoremi Teoremi di teoria della probabilità che giustificano in modo rigoroso alcuni risultati già enunciati come l’affermazione che il risultato migliore di una misurazione è dato dalla media aritmetica o che la precisione di una misura migliora all’aumentare della dimensione del campione. Percorso logico: I Con la dimostrazione della disuguaglianza di Chebyshev e tramite la legge dei grandi numeri si vedrà che la media aritmetica campionaria di n realizzazioni di un esperimento converge verso il valore atteso della popolazione di riferimento, qualsiasi sia la distribuzione di probabilità I Il teorema del limite centrale dimostrerà che, sotto ipotesi molto generali, la somma di n variabili casuali, qualsiasi siano, le distribuzioni di probabilità delle singole variabili, converge verso una distribuzione gaussiana al crescere di n I Il teorema del limite centrale applicato agli errori di misura ha come corollario che in molti casi, anche se non in tutti, le misure e le loro medie aritmetiche si distribuiscono in modo gaussiano Esperimentazioni di Fisica 1 Metodi Statistici Disuguaglianza di Chebyshev La Disuguaglianza di Chebyshev dice che, data la variabile aleatoria x con pdf f (x) di valore atteso µ e varianza σ 2 , si ha: P (|x − µ| ≥ tσ) ≤ Dimostrazione. Z +∞ Z 2 2 (x − µ) f (x)dx ≥ σ = −∞ 1 t2 µ−tσ per ogni t > 0 2 Z ∞ (x − µ) f (x)dx + −∞ (x − µ)2 f (x)dx µ+tσ Poiché nei due intervalli di integrazione risulta (x − µ)2 ≥ t2 σ 2 potremo scrivere a maggior ragione Z µ−tσ Z +∞ σ 2 ≥ t2 σ 2 f (x)dx + f (x)dx = t2 σ 2 P (|x − µ| ≥ tσ) −∞ µ+tσ R µ−tσ R +∞ dove si è usato che −∞ f (x)dx = P (x ≤ µ − tσ) e µ+tσ f (x)dx = P (x ≥ µ + tσ). Osservando che P (|x − µ| ≥ tσ) = P (x ≤ µ − tσ) + P (x ≥ µ + tσ) si dimostra immediatamente l’enunciato. Esperimentazioni di Fisica 1 Metodi Statistici Disuguaglianza di Chebyshev Confronto tra i limiti della disuguaglianza di Chebyshev e la distribuzione normale.√ Nella colonna “Normale” è riportato il valore: R +t 2 1 − (1/ 2π) −t ez /2 dz. t 1 2 3 Chebyshev 1.00 0.25 0.11 Normale 0.317 0.045 0.003 Esperimentazioni di Fisica 1 Metodi Statistici La Legge dei Grandi Numeri La legge dei grandi numeri nota anche come teorema di J. Bernoulli, dice che in un campione di dimensione sufficientemente grande, la media aritmetica tende al valore medio della popolazione di riferimento. Applichiamo la disuguaglianza di Chebyshev a una media aritmetica di n variabili xi indipendenti e appartenenti alla stessa distribuzione di√probabilità. Sia σ la deviazione standard di x la deviazione standard di x è: σx = σ/ n. Per la disuguaglianza di Chebyshev si ha: σ 1 P (|x − µ| ≥ t √ ) ≤ 2 n t √ √ Poniamo = tσ/ n ovvero t = n/σ per cui la relazione precedente si scrive: σ2 P (|x − µ| ≥ ) ≤ 2 n oppure σ2 P (|x − µ| ≤ ) ≥ 1 − 2 n Che si legge: scelto comunque piccolo, la probabilità che la media aritmetica x scarti dal valore aspettato µ meno di tende ad 1 al crescere di n. Esperimentazioni di Fisica 1 Metodi Statistici La Legge empirica del caso La legge dei grandi numeri o teorema di Bernoulli è spesso confusa e associata con la legge empirica del caso che diversamente dalle precedente non è un teorema dimostrabile ma è un’osservazione empirica che permette di valutare il valore ignoto della probabilità di un evento dalla sua frequenza in un grande numero di prove ripetute (nelle stesse condizioni). La legge empirica del caso è la base sperimentale dell’interpretazione frequentista della probabilità. Frequenza dell’uscita di testa in tre serie di 200 lanci di una moneta non truccata Esperimentazioni di Fisica 1 Metodi Statistici Il teorema del limite centrale. Il teorema limite centrale è uno dei più importanti risultati della statistica e afferma che se x1 , x2 , . . . , xn sono n variabili casuali indipendenti, con distribuzione di probabilità qualsiasi ma aventi valori attesi dello stesso ordine di grandezza e deviazioni standard finite e dello stesso ordine di grandezza allora una qualsiasi combinazione lineare di queste variabili ha una distribuzione gaussiana. Consideriamo la variabile y = a1 x1 + a2 x2 + . . . + an xn , con E[xi ] = µ1 e σi2 = Var[xi ], possiamo valutare valore medio e varianza di y che sono date da: X X 2 E[y] ≡ µ = ai µi Var[y] ≡ σ = a2i σi2 Il teorema del limite centrale afferma che la pdf di y è una gaussiana della forma: f (y) = √ 1 2πσ 2 e−(y−µ) /2σ 2 Esperimentazioni di Fisica 1 Metodi Statistici Il teorema del limite centrale. l teorema del limite centrale (TLC) in azione. Nella Figura sono mostrati gli istogrammi che mostrano la rapida convergenza verso la forma normale di una somma di variabili aleatorie. Nell’inserto a) è mostrato l’istogramma di una singola variabile con distribuzione uniforme, negli inserti b), c) e d) sono mostrate le somma rispettivamente di 2, 4 ,8 e 10 variabili a cui è stato sottratto il valore medio. distribuite in modo uniforme (come in a). Le curve continue nelle figure sono gaussiane con valore medio e deviazione standard uguali a quelle calcolate per le variabili istogrammate. Esperimentazioni di Fisica 1 Metodi Statistici Formula della stima della varianza campionaria Partiamo dall’identità: xi − x = (xi − µ) − (x − µ) quadrando e sommando sull’indice i fino a n, X X 2 (xi − x) = [(xi − µ) − (x − µ)]2 = X X (xi − µ) + n(x − µ)2 = = (xi − µ)2 − 2(x − µ) X = (xi − µ)2 − 2(x − µ)n(x − µ) + n(x − µ)2 = X = (xi − µ)2 − n(x − µ)2 (1) Dividendo per n e prendendo il valore atteso dei due membri X P X 1 (xi − µ)2 1 2 2 2 E (xi − x) = E − (x−µ) = E (xi − µ) − E (x − µ)2 n n n Tenendo conto che: X 1X 1X 2 1 1 2 2 (xi − µ) = E (xi − µ) = σ = nσ 2 = σ 2 E n n n n Esperimentazioni di Fisica 1 Metodi Statistici Formula della stima della varianza campionaria (cont.) la varianza della media è σ 2 /n, ovvero: 2 E (x − µ) σ2 = n e quindi X 1 σ2 n−1 2 2 2 E (xi − x) = σ − = σ n n n Quindi "r E 1 n−1 # X (xi − x)2 ≡ E[s] = σ Esperimentazioni di Fisica 1 Metodi Statistici Intervallo e Livello di confidenza Consideriamo un campione di N misurazioni ripetute: x1 , . . . , xN che supponiamo appartengano ad una distribuzione di riferimento con valore medio µ e deviazione P xi /N standard σ. Abbiamo visto che la distribuzione delle medie campionarie x = delle misurazioni ripetute: 1. è centrata attorno a µ 2. se N è sufficientemente grande ha una distribuzione normale (TLC) √ 3. la deviazione standard della media campionaria è σ/ N ≡ σx Domanda: Qual è la probabilità che la media campionaria sia contenuta in un certo intervallo centrato su µ?. √ L’unità di misura naturale per l’intervallo è la deviazione standard della media σ/ N ; l’intervallo di confidenza e definito da: µ − kσx < x < µ + kσx k è detto fattore di copertura. oppure |x − µ| <k σx oppure |z| < k Esperimentazioni di Fisica 1 Metodi Statistici Intervallo e Livello di confidenza -(cont.) µ e σ noti a priori.(Ipotesi astratta) In queste condizioni la probabilità che x disti da µ meno di kσx (ovvero |x − µ| < kσx ) è: Z +k 2 1 x−µ P (|x − µ| < kσx ) = √ e−z /2 dz con z = σx 2π −k k=1 k=2 k=3 Esperimentazioni di Fisica 1 Metodi Statistici Intervallo e Livello di confidenza -(cont. 2) Caso più realistico - σ nota a priori P Conosciamo solo: x = xi /N In queste condizioni µ e x si scambiano i ruoli nella: ! Z +k 2 1 x−µ √ P (|x − µ| < kσx ) = √ e−z /2 dz con z = (2) 2π −k σ/ N ma nell’interpretazione frequentista della probabilità µ è un parametro, NON è una variabile aleatoria e quindi non ha una distribuzione di probabilità. Per questo motivo si parla di livello di confidenza. Interpretiamo la (2) in questo modo: Se ripetessimo l’esperimento ottenendo molte medie campionarie (x) gli intervalli di confidenza trovati conterrebbero, con il livello di confidenza fissato, il valore vero della popolazione di riferimento (µ). La probabilità calcolata in (2), riferita all’intervallo di confidenza definito da k, è detta livello di confidenza Esperimentazioni di Fisica 1 Metodi Statistici Intervallo e Livello di confidenza -(cont. 3) Caso realistico. √ La stima della deviazione standard della media s/ N , non è una costante ma una variabile aleatoria: s X 1 s= (xi − x)2 (N − 1) Si dimostra che la variabile t definita da t= x−µ √ s/ N (3) non è distribuita in modo normale, bensì segue la distribuzione t di Student f (t, ν) con ν = N − 1 gradi di libertà: f (t) = √ 1 νB(1/2, ν/2) ν+1 1+ − 2 t2 ν Esperimentazioni di Fisica 1 Metodi Statistici t-Student E[t] = 0 esiste solo per ν > 1; Var[t] = ν esiste solo per ν > 2 ν−2 Esperimentazioni di Fisica 1 Metodi Statistici t-Student- Intervallo di confidenza al 95% La seguente tabella fornisce la dimensione dell’intervallo di confidenza che contiene con il 95% di livello di confidenza il valore medio Dimensione del campione 2 3 4 6 11 31 51 101 ∞ gradi di libertà 1 2 3 5 10 30 50 100 ∞ df=2,5,10,100 t0.025 12.706 4.031 3.182 2.571 2.228 2.042 2.009 1.960 1.969 0 -6 -4 -2 0 2 4 6 0 2 4 6 1 0.1 L’ultima riga con df=∞ coincide con la distribuzione gaussiana. 0.01 0 -6 -4 -2 Esperimentazioni di Fisica 1 Metodi Statistici t-Student- TABELLE Esperimentazioni di Fisica 1 Metodi Statistici t-Student- Esempi Problema (Fornasini 9.1) Due misurazioni indipendenti di una grandezza fisica hanno dato i valori 0.363 e 0.362, in opportune unità di misura. Stimare valore medio e varianza della distribuzione di riferimento supposta gaussiana. calcolare il livello di confidenza per un fattore di copertura, o intervallo di confidenza, k = 1 e k = 3. Soluzione = 0.3625 Stima del valore medio = 0.363+0.362 2 r 2(0.0005)2 Stima della dev. std. del valore medio = 5.0 × 10−4 2(2−1) Numero di gradi di libertà: ν = 2 − 1 = 1 Intervallo di confidenza per un fattore di copertura k = 1: 0.3625 − 0.0005 ÷ −0.3625 + 0.0005 (t = 1). Dalle tabelle della t-Student si ricava che per t = 1 si ha un livello di confidenza = 50%. Intervallo di confidenza per un fattore di copertura k = 3: 0.361 − 0.364 Dalle tabelle della t-Student si ricava che per t = 3 si ha un livello di confidenza = 80% Sono fatte altre 8 misurazioni della stessa grandezza: 0.364, 0.365, 0.365, 0.367, 0.360, 0.363, 0.361, 0.364 . Ripetere il problema. Esperimentazioni di Fisica 1 Metodi Statistici t-Student- Esempi Problema (Fornasini 9.1-cont.) Stima del valore medio con 10 misure: 0.36340 Stima della dev. std. del valore medio di 10 misure 6.53 × 10−4 Numero di gradi di libertà: ν = 10 − 1 = 9 Intervallo di confidenza per un fattore di copertura k = 1: 0.3627 − 0.3641 (T = 1). Livello di confidenza = 66%. Intervallo di confidenza per un fattore di copertura k = 3: 0.3614 − 0.3653 (T = 3). Livello di confidenza = 98.5% Esperimentazioni di Fisica 1 Metodi Statistici Test su media uguale in due campioni Dati due campioni x1 , x2 , . . . , xN , e y1 , y2 , . . . , yM , si chiede se i due campioni provengono da una popolazione di riferimento con lo stesso valore medio. Fissiamo un livello di confidenza del 95%. Calcoliamo x, y, sx e sy sP sP 2 (xi − x) (yi − y)2 sy = sx = N −1 M −1 La differenza x − y ha varianza s2x /N + s2y /M e la variabile T , definita come x−y T = q s2x /N + s2y /M è distribuita come la t-Student con ν = N + M − 2 gradi di libertà. Possiamo quindi calcolare l’integrale: Z +T P = fν (t)dt e se P < 95% il test è accettato −T Oppure confrontiamo |T | con t1−α/2,ν con α = 0.05 ricavato dalle tabelle (vedi esempio successivo). Esperimentazioni di Fisica 1 Metodi Statistici Test su media uguale in due campioni- Esempio Le auto costruite in U.S.A. consumano come le auto costruite in Giappone? U.S.A. Japan Numero di osservazioni 249 79 Media 20.14458 30.48101 deviazione standard 6.41470 6.10771 dev. stand. media 0.40652 0.68717 s = 0.7984, T = −12.95, ν = 249 + 79 − 2 = 326 (gaussiana) dalle tabelle t1−α/2,ν = 1.967 |T | > t1−α/2,ν , con α = 0.05. Ipotesi rigettata. t0.025= -t0.975 2.5% t0.975 95% Intervallo di confideza 2.5% Se |T|<t Se |T|>t 0.975 0.975 Ipotesi accettata Ipotesi rigettata Esperimentazioni di Fisica 1 Metodi Statistici Problema Bini n. 1.5 (modificato) Prendiamo le prime 5 misure sia dal gruppo A sia dal gruppo B, con l’ipotesi che abbiano la stessa media: Zona A Zona B Numero di osservazioni 5 5 Media 5430 5926 deviazione standard 346 149 dev. stand. media 155 67 496 5926 − 5430 T = √ = = 2.94 ν = 10 − 2 = 8 168.5 1552 + 672 dalle tabelle per 8 g.d.l. a T = 2.94 corrisponde P = 0.99 (mono-latera). 0.98 (bilatera). Questo risultato si interpreta come: Se le medie della zona A e della zona B fossero uguali (ipotesi da testare) ci sarebbe una probabilità 1 − 0.98 = 0.02 che la differenza tra le medie risulti > 496 (T > 2.94). Inferiore rispetto a 0.05, preso convenzionalmente come valore minimo standard L’ipotesi è da scartare.