Elementi di Statistica
Sperimentazioni di Fisica I
mod. A – Statistica - Lezione 2
Marco Mazzocco
Lezione 2:
1. Istogrammi
Dipartimento di Fisica “G. Galilei”, Università di Padova
21 novembre 2011
Istogrammi (I)
Disponendo di un insieme di misure ripetute di una stessa
grandezza fisica (un “campione” di misure), il modo più
consueto di rappresentarlo graficamente è con un istogramma.
Vi è una corrispondenza biunivoca tra i numeri reali ed i punti di
una retta orientata.
Le nostre misure possono essere rappresentate da un punto sulla
retta orientata.
Un istogramma è un diagramma cartesiano con l’asse delle
ascisse dedicato a tale rappresentazione.
Non tutti i valori della retta reale possono essere il risultato di una
misura, perché gli strumenti di misura hanno una sensibilità
finita, fornendo un insieme discreto di valori per la misura di
una grandezza fisica.
Esempio
Istogrammi (II)
Ascisse: tutti i possibili valori che possono essere il
risultato della misura di una grandezza fisica.
Ordinate: frequenza assoluta con la quale i diversi
valori sono stati ottenuti.
Si associa ad ogni misura un rettangolo di area
unitaria.
Se l’asse delle ascisse è diviso in intervalli aventi
tutti la stessa ampiezza, l’altezza di una colonna
di rettangoli unitari sovrapposti rappresenta la
frequenza assoluta con cui una misura è stata
ottenuta.
Classi di Frequenza (I)
Se le frequenze assolute fossero troppo piccole, può essere
opportuno raggruppare le misure in classi di frequenza.
Una classe di frequenza corrisponde da un intervallo
multiplo del più piccolo intervallo rappresentabile
1
Classi di Frequenza (II)
Frequenza Relativa
Frequenza Assoluta:
Frequenza Cumulativa
Frequenza Relativa:
Elementi di Statistica
Lezione 2:
2. Stime di Tendenza Centrale
Ogni valore dell’ascissa rappresenta la frequenza, assoluta o
relativa, per cui il risultato della misura è stato minore o
uguale a x.
Funzione monotona non decrescente.
Qual è il miglior algoritmo?
In presenza di N valori osservati di una grandezza fisica:
quale algoritmo definisce la stima migliore del suo
valore vero?
Supponiamo di aver eliminato tutti gli errori sistematici.
Gli errori casuali avranno eguale probabilità di
presentarsi sia in difetto che in eccesso rispetto al
valore vero.
Se il numero di misure è sufficientemente elevato, ci
aspettiamo di osservare una distribuzione effettiva
delle frequenze “ragionevolmente” simmetrica
rispetto al valore vero.
1. Moda
Moda: valore corrispondente al massimo della
frequenza (ovvero la media dei valori contigui
che presentassero la medesima frequenza):
Una distribuzione potrebbe non avere massimo
(distribuzioni amodali), averne più d’uno in
intervallo non contigui (distribuzioni
multimodali).
Si definisce amodale anche una distribuzione che
presenti un massimo ad uno degli estremi degli
intervalli che contengono le misure (in quanto non
si tratterrebbe di una stima di tendenza centrale).
Non è di uso molto frequente.
2
Esempi di Moda
Unimodale
2. Mediana
Unimodale
Amodale
Bimodale
Esempio di Mediana
Nel diagramma della frequenza cumulativa, la
mediana è definita dall’ascissa corrispondente
all’ordinata del 50%.
La mediana è quel valore che divide l’istogramma
in due parti di uguale area:
La mediana lascia un egual numero di dati alla
propria destra ed alla propria sinistra.
La mediana esiste sempre.
Si può dimostrare che la mediana minimizza la
somma dei valori assoluti degli scarti delle
nostre misure xi da x.
3. Media Aritmetica
Stima di tendenza centrale di gran lunga più utilizzata.
Proprietà 1: la somma degli scarti di un insieme di
valori dalla loro media aritmetica è identicamente
nulla.
Proprietà 2
La media aritmetica di un insieme di dati numerici x1, x2, … xN è
quel valore di x rispetto al quale risulta minima la somma dei
quadrati degli scarti delle xi; cioè quel numero per il quale è
verificata la relazione:
Altri Esempi di Media
Media Geometrica, g: radice Nesima del prodotto degli N valore
rappresentati nel campione:
Media Armonica, h: reciproco del
valore medio dei reciproci dei
dati:
Media Quadratica, q: radice
quadratica del valor medio dei
quadrati dei dati:
3
Esempio
Se la distribuzione non è troppo irregolare, media, moda e
mediana non sono molto lontane. Una relazione empirica che
le lega (valida per distribuzioni non troppo asimmetriche) è:
Funzione di frequenza di MaxwellBoltzmann. Legge secondo cui
sono distribuiti i moduli delle
velocità in un gas perfetto.
Prima Giustificazione della Media
Quale Stima Scegliere?
La migliore!
Quella che ha la maggiore probabilità di darci il valor vero
della grandezza misurata.
Solitamente si usa la media aritmetica (svariati motivi, legati
principalmente alle sue proprietà statistiche).
In termini non rigorosi: la media aritmetica dovrebbe avere un
errore inferiore a quello delle singole misure.
Indichiamo con x* il valor vero della grandezza x e con xi
(i=1,2,…,N) le N determinazioni sperimentali di x.
L’errore assoluto di ogni singola misura sarà
εi = xi – x*
L’errore assoluto della media sarà dato da
Media espressa tramite Frequenze
Siano xi, con i = 1,2,…,N, gli N valori del campione di cui
vogliamo calcolare la media aritmetica. Supponiamo che
qualcuno dei valori ottenuti sia ripetuto, x1 ripetuto n1
volte, x2 ripetuto n2 volte e così via.
Se gli errori sono casuali, saranno ugualmente
probabili in difetto e in eccesso rispetto al valor
vero. Per misure numerose gli εi tenderanno ad
annullarsi a vicenda nella sommatoria, e comunque
c’è un fattore moltiplicativo 1/N.
Elementi di Statistica
Lezione 2:
3. Stime di Dispersione
Indichiamo con xj, con j = 1,2,…,M, gli M valori distinti di x
presenti nel campione e con nj la frequenza assoluta con
abbiamo ottenuto il valore xj. Sia, infine, fj = nj/N, la
frequenza relativa dello stesso evento casuale.
1. Semidispersione Massima
La tendenza centrale di un campione di misure è legata al
valore vero della grandezza misurata.
La dispersione di un campione di misure, ovvero la
valutazione della larghezza dell’intervallo entro cui le
misure sono distribuite attorno al valore centrale, è
legata agli errori introdotti nell’esecuzione delle misure.
La stima più grossolana è la semidispersione massima:
Problema 1: viene ignorata la maggior parte dei dati ed in
particolare quelli preponderanti, ovvero prossimi al centro.
Problema 2: questa stima aumenta all’aumentare delle
misure, invece di tendere ad un valore determinato.
4
Esempio di Quartili
Intervallo Semi-Interquartilico, Q = (Q3 – Q1)/2
Differenza D9 – D1
Differenza P90 – P10
Esempio di Decili/Percentili
Differenza D9 – D1 = P90 – P10 = (180.8°-179.5°) = 1.3°
Intervallo Semi-Interquartilico. Q = (180.3°-179.8°) / 2 = 0.25°
180.3
Generalmente usati in statistica.
Quartili, Qi (i = 1,2,3),
Decili, Di (i = 1,2,…,9),
Percentili, Pi (i = 1,2,…,99).
Corrispondono ai valori di x che dividono la
distribuzione rispettivamente in 4, 10 e 100 parti
di uguale area.
179.8
2. Quantili
3. Deviazione Media Assoluta
La deviazione media assoluta (o errore medio):
180.8
179.5
oppure, meno frequentemente, come
4. Deviazione Standard
Poco comune, anche a causa dell’operazione non lineare
costituita dal valore assoluto.
Proprietà della Deviazione Standard
La stima di dispersione più utilizzata è la deviazione
standard (oppure scarto o deviazione
quadratica media), s, definita come:
La deviazione standard è la radica quadratica della
varianza (detta anche varianza campionaria o
varianza sperimentale) s2:
5
Elementi di Statistica
Lezione 2:
4. Giustificazione della Media
Media e Deviazione Standard
Il metodo che utilizzeremo per stimare la dispersione di un
campione di dati sarà la deviazione standard.
La media aritmetica (in assenza di errori sistematici) è la
stima di tendenza centrale affetta dal minimo errore
casuale, ovvero con la minima deviazione standard.
Supponiamo di avere molti campioni analoghi di N misure
di una stessa grandezza fisica:
1.  l’istogramma delle medie risulterà essere più “stretto”
rispetto all’istogramma delle mode, delle mediane o di
altre stime di tendenza centrale;
2.  un teorema ci permetterà di concludere che l’errore
statistico della media aritmetica convergere a zero al
crescere indefinito del numero di dati N.
Riassumendo
1.  Disponendo di più misure ripetute della stessa
grandezza fisica, si assume come miglior stima del
valor vero di quella grandezza la loro media
aritmetica.
2.  Questa stima è più precisa (minor errore casuale) di
quando non lo siano le singole misure, ed è tanto più
attendibile quanto maggiore è il numero delle stesse.
3.  Come valutazione dell’errore commesso nelle singole
misure si assume il loro scarto quadratico medio.
Anzi no… si assume la quantità
6