Elementi di Statistica Sperimentazioni di Fisica I mod. A – Statistica - Lezione 2 Marco Mazzocco Lezione 2: 1. Istogrammi Dipartimento di Fisica “G. Galilei”, Università di Padova 21 novembre 2011 Istogrammi (I) Disponendo di un insieme di misure ripetute di una stessa grandezza fisica (un “campione” di misure), il modo più consueto di rappresentarlo graficamente è con un istogramma. Vi è una corrispondenza biunivoca tra i numeri reali ed i punti di una retta orientata. Le nostre misure possono essere rappresentate da un punto sulla retta orientata. Un istogramma è un diagramma cartesiano con l’asse delle ascisse dedicato a tale rappresentazione. Non tutti i valori della retta reale possono essere il risultato di una misura, perché gli strumenti di misura hanno una sensibilità finita, fornendo un insieme discreto di valori per la misura di una grandezza fisica. Esempio Istogrammi (II) Ascisse: tutti i possibili valori che possono essere il risultato della misura di una grandezza fisica. Ordinate: frequenza assoluta con la quale i diversi valori sono stati ottenuti. Si associa ad ogni misura un rettangolo di area unitaria. Se l’asse delle ascisse è diviso in intervalli aventi tutti la stessa ampiezza, l’altezza di una colonna di rettangoli unitari sovrapposti rappresenta la frequenza assoluta con cui una misura è stata ottenuta. Classi di Frequenza (I) Se le frequenze assolute fossero troppo piccole, può essere opportuno raggruppare le misure in classi di frequenza. Una classe di frequenza corrisponde da un intervallo multiplo del più piccolo intervallo rappresentabile 1 Classi di Frequenza (II) Frequenza Relativa Frequenza Assoluta: Frequenza Cumulativa Frequenza Relativa: Elementi di Statistica Lezione 2: 2. Stime di Tendenza Centrale Ogni valore dell’ascissa rappresenta la frequenza, assoluta o relativa, per cui il risultato della misura è stato minore o uguale a x. Funzione monotona non decrescente. Qual è il miglior algoritmo? In presenza di N valori osservati di una grandezza fisica: quale algoritmo definisce la stima migliore del suo valore vero? Supponiamo di aver eliminato tutti gli errori sistematici. Gli errori casuali avranno eguale probabilità di presentarsi sia in difetto che in eccesso rispetto al valore vero. Se il numero di misure è sufficientemente elevato, ci aspettiamo di osservare una distribuzione effettiva delle frequenze “ragionevolmente” simmetrica rispetto al valore vero. 1. Moda Moda: valore corrispondente al massimo della frequenza (ovvero la media dei valori contigui che presentassero la medesima frequenza): Una distribuzione potrebbe non avere massimo (distribuzioni amodali), averne più d’uno in intervallo non contigui (distribuzioni multimodali). Si definisce amodale anche una distribuzione che presenti un massimo ad uno degli estremi degli intervalli che contengono le misure (in quanto non si tratterrebbe di una stima di tendenza centrale). Non è di uso molto frequente. 2 Esempi di Moda Unimodale 2. Mediana Unimodale Amodale Bimodale Esempio di Mediana Nel diagramma della frequenza cumulativa, la mediana è definita dall’ascissa corrispondente all’ordinata del 50%. La mediana è quel valore che divide l’istogramma in due parti di uguale area: La mediana lascia un egual numero di dati alla propria destra ed alla propria sinistra. La mediana esiste sempre. Si può dimostrare che la mediana minimizza la somma dei valori assoluti degli scarti delle nostre misure xi da x. 3. Media Aritmetica Stima di tendenza centrale di gran lunga più utilizzata. Proprietà 1: la somma degli scarti di un insieme di valori dalla loro media aritmetica è identicamente nulla. Proprietà 2 La media aritmetica di un insieme di dati numerici x1, x2, … xN è quel valore di x rispetto al quale risulta minima la somma dei quadrati degli scarti delle xi; cioè quel numero per il quale è verificata la relazione: Altri Esempi di Media Media Geometrica, g: radice Nesima del prodotto degli N valore rappresentati nel campione: Media Armonica, h: reciproco del valore medio dei reciproci dei dati: Media Quadratica, q: radice quadratica del valor medio dei quadrati dei dati: 3 Esempio Se la distribuzione non è troppo irregolare, media, moda e mediana non sono molto lontane. Una relazione empirica che le lega (valida per distribuzioni non troppo asimmetriche) è: Funzione di frequenza di MaxwellBoltzmann. Legge secondo cui sono distribuiti i moduli delle velocità in un gas perfetto. Prima Giustificazione della Media Quale Stima Scegliere? La migliore! Quella che ha la maggiore probabilità di darci il valor vero della grandezza misurata. Solitamente si usa la media aritmetica (svariati motivi, legati principalmente alle sue proprietà statistiche). In termini non rigorosi: la media aritmetica dovrebbe avere un errore inferiore a quello delle singole misure. Indichiamo con x* il valor vero della grandezza x e con xi (i=1,2,…,N) le N determinazioni sperimentali di x. L’errore assoluto di ogni singola misura sarà εi = xi – x* L’errore assoluto della media sarà dato da Media espressa tramite Frequenze Siano xi, con i = 1,2,…,N, gli N valori del campione di cui vogliamo calcolare la media aritmetica. Supponiamo che qualcuno dei valori ottenuti sia ripetuto, x1 ripetuto n1 volte, x2 ripetuto n2 volte e così via. Se gli errori sono casuali, saranno ugualmente probabili in difetto e in eccesso rispetto al valor vero. Per misure numerose gli εi tenderanno ad annullarsi a vicenda nella sommatoria, e comunque c’è un fattore moltiplicativo 1/N. Elementi di Statistica Lezione 2: 3. Stime di Dispersione Indichiamo con xj, con j = 1,2,…,M, gli M valori distinti di x presenti nel campione e con nj la frequenza assoluta con abbiamo ottenuto il valore xj. Sia, infine, fj = nj/N, la frequenza relativa dello stesso evento casuale. 1. Semidispersione Massima La tendenza centrale di un campione di misure è legata al valore vero della grandezza misurata. La dispersione di un campione di misure, ovvero la valutazione della larghezza dell’intervallo entro cui le misure sono distribuite attorno al valore centrale, è legata agli errori introdotti nell’esecuzione delle misure. La stima più grossolana è la semidispersione massima: Problema 1: viene ignorata la maggior parte dei dati ed in particolare quelli preponderanti, ovvero prossimi al centro. Problema 2: questa stima aumenta all’aumentare delle misure, invece di tendere ad un valore determinato. 4 Esempio di Quartili Intervallo Semi-Interquartilico, Q = (Q3 – Q1)/2 Differenza D9 – D1 Differenza P90 – P10 Esempio di Decili/Percentili Differenza D9 – D1 = P90 – P10 = (180.8°-179.5°) = 1.3° Intervallo Semi-Interquartilico. Q = (180.3°-179.8°) / 2 = 0.25° 180.3 Generalmente usati in statistica. Quartili, Qi (i = 1,2,3), Decili, Di (i = 1,2,…,9), Percentili, Pi (i = 1,2,…,99). Corrispondono ai valori di x che dividono la distribuzione rispettivamente in 4, 10 e 100 parti di uguale area. 179.8 2. Quantili 3. Deviazione Media Assoluta La deviazione media assoluta (o errore medio): 180.8 179.5 oppure, meno frequentemente, come 4. Deviazione Standard Poco comune, anche a causa dell’operazione non lineare costituita dal valore assoluto. Proprietà della Deviazione Standard La stima di dispersione più utilizzata è la deviazione standard (oppure scarto o deviazione quadratica media), s, definita come: La deviazione standard è la radica quadratica della varianza (detta anche varianza campionaria o varianza sperimentale) s2: 5 Elementi di Statistica Lezione 2: 4. Giustificazione della Media Media e Deviazione Standard Il metodo che utilizzeremo per stimare la dispersione di un campione di dati sarà la deviazione standard. La media aritmetica (in assenza di errori sistematici) è la stima di tendenza centrale affetta dal minimo errore casuale, ovvero con la minima deviazione standard. Supponiamo di avere molti campioni analoghi di N misure di una stessa grandezza fisica: 1. l’istogramma delle medie risulterà essere più “stretto” rispetto all’istogramma delle mode, delle mediane o di altre stime di tendenza centrale; 2. un teorema ci permetterà di concludere che l’errore statistico della media aritmetica convergere a zero al crescere indefinito del numero di dati N. Riassumendo 1. Disponendo di più misure ripetute della stessa grandezza fisica, si assume come miglior stima del valor vero di quella grandezza la loro media aritmetica. 2. Questa stima è più precisa (minor errore casuale) di quando non lo siano le singole misure, ed è tanto più attendibile quanto maggiore è il numero delle stesse. 3. Come valutazione dell’errore commesso nelle singole misure si assume il loro scarto quadratico medio. Anzi no… si assume la quantità 6