Sperimentazioni di Fisica I mod. A – Statistica - Lezione 2 A. Garfagnini M. Mazzocco C. Sada Dipartimento di Fisica “G. Galilei”, Università di Padova AA 2014/2015 Elementi di Statistica Lezione 2: 1. Istogrammi 1 Istogrammi (I) Disponendo di un insieme di misure ripetute di una stessa grandezza fisica (un “campione” di misure), il modo più consueto di rappresentarlo graficamente è con un istogramma. Vi è una corrispondenza biunivoca tra i numeri reali ed i punti di una retta orientata. Le nostre misure possono essere rappresentate da un punto sulla retta orientata. Un istogramma è un diagramma cartesiano con l’asse delle ascisse dedicato a tale rappresentazione. Non tutti i valori della retta reale possono essere il risultato di una misura, perché gli strumenti di misura hanno una sensibilità finita, fornendo un insieme discreto di valori per la misura di una grandezza fisica. Istogrammi (II) Ascisse: tutti i possibili valori che possono essere il risultato della misura di una grandezza fisica. Ordinate: frequenza assoluta con la quale i diversi valori sono stati ottenuti. Si associa ad ogni misura un rettangolo di area unitaria. Se l’asse delle ascisse è diviso in intervalli aventi tutti la stessa ampiezza, l’altezza di una colonna di rettangoli unitari sovrapposti rappresenta la frequenza assoluta con cui una misura è stata ottenuta. 2 Esempio Classi di Frequenza (I) Se le frequenze assolute fossero troppo piccole, può essere opportuno raggruppare le misure in classi di frequenza. Una classe di frequenza corrisponde da un intervallo multiplo del più piccolo intervallo rappresentabile 3 Classi di Frequenza (II) Frequenza Relativa Frequenza Assoluta: Frequenza Relativa: 4 Frequenza Cumulativa Ogni valore dell’ascissa rappresenta la frequenza, assoluta o relativa, per cui il risultato della misura è stato minore o uguale a x. Funzione monotona non decrescente. Elementi di Statistica Lezione 2: 2. Stime di Tendenza Centrale 5 Qual è il miglior algoritmo? In presenza di N valori osservati di una grandezza fisica: quale algoritmo definisce la stima migliore del suo valore vero? Supponiamo di aver eliminato tutti gli errori sistematici. Gli errori casuali avranno eguale probabilità di presentarsi sia in difetto che in eccesso rispetto al valore vero. Se il numero di misure è sufficientemente elevato, ci aspettiamo di osservare una distribuzione effettiva delle frequenze “ragionevolmente” simmetrica rispetto al valore vero. 1. Moda Moda: valore corrispondente al massimo della frequenza (ovvero la media dei valori contigui che presentassero la medesima frequenza): Una distribuzione potrebbe non avere massimo (distribuzioni amodali), averne più d’uno in intervallo non contigui (distribuzioni multimodali). Si definisce amodale anche una distribuzione che presenti un massimo ad uno degli estremi degli intervalli che contengono le misure (in quanto non si tratterrebbe di una stima di tendenza centrale). Non è di uso molto frequente. 6 Esempi di Moda Unimodale Unimodale Amodale Bimodale 2. Mediana La mediana è quel valore che divide l’istogramma in due parti di uguale area: La mediana lascia un egual numero di dati alla propria destra ed alla propria sinistra. La mediana esiste sempre. Si può dimostrare che la mediana minimizza la somma dei valori assoluti degli scarti delle nostre misure xi da x. 7 Esempio di Mediana Nel diagramma della frequenza cumulativa, la mediana è definita dall’ascissa corrispondente all’ordinata del 50%. 3. Media Aritmetica Stima di tendenza centrale di gran lunga più utilizzata. Proprietà 1: la somma degli scarti di un insieme di valori dalla loro media aritmetica è identicamente nulla. 8 Proprietà 2 La media aritmetica di un insieme di dati numerici x1, x2, … xN è quel valore di x rispetto al quale risulta minima la somma dei quadrati degli scarti delle xi; cioè quel numero per il quale è verificata la relazione: Altri Esempi di Media Media Geometrica, g: radice Nesima del prodotto degli N valore rappresentati nel campione: Media Armonica, h: reciproco del valore medio dei reciproci dei dati: Media Quadratica, q: radice quadratica del valor medio dei quadrati dei dati: 9 Esempio Se la distribuzione non è troppo irregolare, media, moda e mediana non sono molto lontane. Una relazione empirica che le lega (valida per distribuzioni non troppo asimmetriche) è: Funzione di frequenza di MaxwellBoltzmann. Legge secondo cui sono distribuiti i moduli delle velocità in un gas perfetto. Quale Stima Scegliere? La migliore! Quella che ha la maggiore probabilità di darci il valor vero della grandezza misurata. Solitamente si usa la media aritmetica (svariati motivi, legati principalmente alle sue proprietà statistiche). In termini non rigorosi: la media aritmetica dovrebbe avere un errore inferiore a quello delle singole misure. Indichiamo con x* il valor vero della grandezza x e con xi (i=1,2,…,N) le N determinazioni sperimentali di x. L’errore assoluto di ogni singola misura sarà εi = xi – x* L’errore assoluto della media sarà dato da 10 Prima Giustificazione della Media Se gli errori sono casuali, saranno ugualmente probabili in difetto e in eccesso rispetto al valor vero. Per misure numerose gli εi tenderanno ad annullarsi a vicenda nella sommatoria, e comunque c’è un fattore moltiplicativo 1/N. Media espressa tramite Frequenze Siano xi, con i = 1,2,…,N, gli N valori del campione di cui vogliamo calcolare la media aritmetica. Supponiamo che qualcuno dei valori ottenuti sia ripetuto, x1 ripetuto n1 volte, x2 ripetuto n2 volte e così via. Indichiamo con xj, con j = 1,2,…,M, gli M valori distinti di x presenti nel campione e con nj la frequenza assoluta con abbiamo ottenuto il valore xj. Sia, infine, fj = nj/N, la frequenza relativa dello stesso evento casuale. 11 Elementi di Statistica Lezione 2: 3. Stime di Dispersione 1. Semidispersione Massima La tendenza centrale di un campione di misure è legata al valore vero della grandezza misurata. La dispersione di un campione di misure, ovvero la valutazione della larghezza dell’intervallo entro cui le misure sono distribuite attorno al valore centrale, è legata agli errori introdotti nell’esecuzione delle misure. La stima più grossolana è la semidispersione massima: Problema 1: viene ignorata la maggior parte dei dati ed in particolare quelli preponderanti, ovvero prossimi al centro. Problema 2: questa stima aumenta all’aumentare delle misure, invece di tendere ad un valore determinato. 12 2. Quantili Generalmente usati in statistica. Quartili, Qi (i = 1,2,3), Decili, Di (i = 1,2,…,9), Percentili, Pi (i = 1,2,…,99). Corrispondono ai valori di x che dividono la distribuzione rispettivamente in 4, 10 e 100 parti di uguale area. Intervallo Semi-Interquartilico, Q = (Q3 – Q1)/2 Differenza D9 – D1 Differenza P90 – P10 Esempio di Quartili 180.3 179.8 Intervallo Semi-Interquartilico. Q = (180.3°-179.2°) / 2 = 0.25° 13 Esempio di Decili/Percentili 180.8 179.5 Differenza D9 – D1 = P90 – P10 = (180.8°-179.5°) = 1.3° 3. Deviazione Media Assoluta La deviazione media assoluta (o errore medio): oppure, meno frequentemente, come Poco comune, anche a causa dell’operazione non lineare costituita dal valore assoluto. 14 4. Deviazione Standard La stima di dispersione più utilizzata è la deviazione standard (oppure scarto o deviazione quadratica media), s, definita come: La deviazione standard è la radice quadrata della varianza s2: Proprietà della Deviazione Standard 15 Elementi di Statistica Lezione 2: 4. Giustificazione della Media Media e Deviazione Standard Il metodo che utilizzeremo per stimare la dispersione di un campione di dati sarà la deviazione standard. La media aritmetica (in assenza di errori sistematici) è la stima di tendenza centrale affetta dal minimo errore casuale, ovvero con la minima deviazione standard. Supponiamo di avere molti campioni analoghi di N misure di una stessa grandezza fisica: 1. l’istogramma delle medie risulterà essere più “stretto” rispetto all’istogramma delle mode, delle mediane o di altre stime di tendenza centrale; 2. un teorema ci permetterà di concludere che l’errore statistico della media aritmetica convergere a zero al crescere indefinito del numero di dati N. 16 Riassumendo 1. Disponendo di più misure ripetute della stessa grandezza fisica, si assume come miglior stima del valor vero di quella grandezza la loro media aritmetica. 2. Questa stima è più precisa (minor errore casuale) di quando non lo siano le singole misure, ed è tanto più attendibile quanto maggiore è il numero delle stesse. 3. Come valutazione dell’errore commesso nelle singole misure si assume il loro scarto quadratico medio. Anzi no… si assume la quantità σ = 1 N (x i − x ) 2 ∑ N −1 i=1 € 17