Lez2 - INFN - Sezione di Padova

annuncio pubblicitario
Sperimentazioni di Fisica I
mod. A – Statistica - Lezione 2
A. Garfagnini M. Mazzocco C. Sada
Dipartimento di Fisica “G. Galilei”, Università di Padova
AA 2014/2015
Elementi di Statistica
Lezione 2:
1. Istogrammi
1
Istogrammi (I)
Disponendo di un insieme di misure ripetute di una stessa
grandezza fisica (un “campione” di misure), il modo più
consueto di rappresentarlo graficamente è con un istogramma.
Vi è una corrispondenza biunivoca tra i numeri reali ed i punti di
una retta orientata.
Le nostre misure possono essere rappresentate da un punto sulla
retta orientata.
Un istogramma è un diagramma cartesiano con l’asse delle
ascisse dedicato a tale rappresentazione.
Non tutti i valori della retta reale possono essere il risultato di una
misura, perché gli strumenti di misura hanno una sensibilità
finita, fornendo un insieme discreto di valori per la misura di
una grandezza fisica.
Istogrammi (II)
Ascisse: tutti i possibili valori che possono essere il
risultato della misura di una grandezza fisica.
Ordinate: frequenza assoluta con la quale i diversi
valori sono stati ottenuti.
Si associa ad ogni misura un rettangolo di area
unitaria.
Se l’asse delle ascisse è diviso in intervalli aventi
tutti la stessa ampiezza, l’altezza di una colonna
di rettangoli unitari sovrapposti rappresenta la
frequenza assoluta con cui una misura è stata
ottenuta.
2
Esempio
Classi di Frequenza (I)
Se le frequenze assolute fossero troppo piccole, può essere
opportuno raggruppare le misure in classi di frequenza.
Una classe di frequenza corrisponde da un intervallo
multiplo del più piccolo intervallo rappresentabile
3
Classi di Frequenza (II)
Frequenza Relativa
Frequenza Assoluta:
Frequenza Relativa:
4
Frequenza Cumulativa
Ogni valore dell’ascissa rappresenta la frequenza, assoluta o
relativa, per cui il risultato della misura è stato minore o
uguale a x.
Funzione monotona non decrescente.
Elementi di Statistica
Lezione 2:
2. Stime di Tendenza Centrale
5
Qual è il miglior algoritmo?
In presenza di N valori osservati di una grandezza fisica:
quale algoritmo definisce la stima migliore del suo
valore vero?
Supponiamo di aver eliminato tutti gli errori sistematici.
Gli errori casuali avranno eguale probabilità di
presentarsi sia in difetto che in eccesso rispetto al
valore vero.
Se il numero di misure è sufficientemente elevato, ci
aspettiamo di osservare una distribuzione effettiva
delle frequenze “ragionevolmente” simmetrica
rispetto al valore vero.
1. Moda
Moda: valore corrispondente al massimo della
frequenza (ovvero la media dei valori contigui
che presentassero la medesima frequenza):
Una distribuzione potrebbe non avere massimo
(distribuzioni amodali), averne più d’uno in
intervallo non contigui (distribuzioni
multimodali).
Si definisce amodale anche una distribuzione che
presenti un massimo ad uno degli estremi degli
intervalli che contengono le misure (in quanto non
si tratterrebbe di una stima di tendenza centrale).
Non è di uso molto frequente.
6
Esempi di Moda
Unimodale
Unimodale
Amodale
Bimodale
2. Mediana
La mediana è quel valore che divide l’istogramma
in due parti di uguale area:
La mediana lascia un egual numero di dati alla
propria destra ed alla propria sinistra.
La mediana esiste sempre.
Si può dimostrare che la mediana minimizza la
somma dei valori assoluti degli scarti delle
nostre misure xi da x.
7
Esempio di Mediana
Nel diagramma della frequenza cumulativa, la
mediana è definita dall’ascissa corrispondente
all’ordinata del 50%.
3. Media Aritmetica
Stima di tendenza centrale di gran lunga più utilizzata.
Proprietà 1: la somma degli scarti di un insieme di
valori dalla loro media aritmetica è identicamente
nulla.
8
Proprietà 2
La media aritmetica di un insieme di dati numerici x1, x2, … xN è
quel valore di x rispetto al quale risulta minima la somma dei
quadrati degli scarti delle xi; cioè quel numero per il quale è
verificata la relazione:
Altri Esempi di Media
Media Geometrica, g: radice Nesima del prodotto degli N valore
rappresentati nel campione:
Media Armonica, h: reciproco del
valore medio dei reciproci dei
dati:
Media Quadratica, q: radice
quadratica del valor medio dei
quadrati dei dati:
9
Esempio
Se la distribuzione non è troppo irregolare, media, moda e
mediana non sono molto lontane. Una relazione empirica che
le lega (valida per distribuzioni non troppo asimmetriche) è:
Funzione di frequenza di MaxwellBoltzmann. Legge secondo cui
sono distribuiti i moduli delle
velocità in un gas perfetto.
Quale Stima Scegliere?
La migliore!
Quella che ha la maggiore probabilità di darci il valor vero
della grandezza misurata.
Solitamente si usa la media aritmetica (svariati motivi, legati
principalmente alle sue proprietà statistiche).
In termini non rigorosi: la media aritmetica dovrebbe avere un
errore inferiore a quello delle singole misure.
Indichiamo con x* il valor vero della grandezza x e con xi
(i=1,2,…,N) le N determinazioni sperimentali di x.
L’errore assoluto di ogni singola misura sarà
εi = xi – x*
L’errore assoluto della media sarà dato da
10
Prima Giustificazione della Media
Se gli errori sono casuali, saranno ugualmente
probabili in difetto e in eccesso rispetto al valor
vero. Per misure numerose gli εi tenderanno ad
annullarsi a vicenda nella sommatoria, e comunque
c’è un fattore moltiplicativo 1/N.
Media espressa tramite Frequenze
Siano xi, con i = 1,2,…,N, gli N valori del campione di cui
vogliamo calcolare la media aritmetica. Supponiamo che
qualcuno dei valori ottenuti sia ripetuto, x1 ripetuto n1
volte, x2 ripetuto n2 volte e così via.
Indichiamo con xj, con j = 1,2,…,M, gli M valori distinti di x
presenti nel campione e con nj la frequenza assoluta con
abbiamo ottenuto il valore xj. Sia, infine, fj = nj/N, la
frequenza relativa dello stesso evento casuale.
11
Elementi di Statistica
Lezione 2:
3. Stime di Dispersione
1. Semidispersione Massima
La tendenza centrale di un campione di misure è legata al
valore vero della grandezza misurata.
La dispersione di un campione di misure, ovvero la
valutazione della larghezza dell’intervallo entro cui le
misure sono distribuite attorno al valore centrale, è
legata agli errori introdotti nell’esecuzione delle misure.
La stima più grossolana è la semidispersione massima:
Problema 1: viene ignorata la maggior parte dei dati ed in
particolare quelli preponderanti, ovvero prossimi al centro.
Problema 2: questa stima aumenta all’aumentare delle
misure, invece di tendere ad un valore determinato.
12
2. Quantili
Generalmente usati in statistica.
Quartili, Qi (i = 1,2,3),
Decili, Di (i = 1,2,…,9),
Percentili, Pi (i = 1,2,…,99).
Corrispondono ai valori di x che dividono la
distribuzione rispettivamente in 4, 10 e 100 parti
di uguale area.
Intervallo Semi-Interquartilico, Q = (Q3 – Q1)/2
Differenza D9 – D1
Differenza P90 – P10
Esempio di Quartili
180.3
179.8
Intervallo Semi-Interquartilico. Q = (180.3°-179.2°) / 2 = 0.25°
13
Esempio di Decili/Percentili
180.8
179.5
Differenza D9 – D1 = P90 – P10 = (180.8°-179.5°) = 1.3°
3. Deviazione Media Assoluta
La deviazione media assoluta (o errore medio):
oppure, meno frequentemente, come
Poco comune, anche a causa dell’operazione non lineare
costituita dal valore assoluto.
14
4. Deviazione Standard
La stima di dispersione più utilizzata è la deviazione
standard (oppure scarto o deviazione
quadratica media), s, definita come:
La deviazione standard è la radice quadrata della
varianza s2:
Proprietà della Deviazione Standard
15
Elementi di Statistica
Lezione 2:
4. Giustificazione della Media
Media e Deviazione Standard
Il metodo che utilizzeremo per stimare la dispersione di un
campione di dati sarà la deviazione standard.
La media aritmetica (in assenza di errori sistematici) è la
stima di tendenza centrale affetta dal minimo errore
casuale, ovvero con la minima deviazione standard.
Supponiamo di avere molti campioni analoghi di N misure
di una stessa grandezza fisica:
1.  l’istogramma delle medie risulterà essere più “stretto”
rispetto all’istogramma delle mode, delle mediane o di
altre stime di tendenza centrale;
2.  un teorema ci permetterà di concludere che l’errore
statistico della media aritmetica convergere a zero al
crescere indefinito del numero di dati N.
16
Riassumendo
1.  Disponendo di più misure ripetute della stessa
grandezza fisica, si assume come miglior stima del
valor vero di quella grandezza la loro media
aritmetica.
2.  Questa stima è più precisa (minor errore casuale) di
quando non lo siano le singole misure, ed è tanto più
attendibile quanto maggiore è il numero delle stesse.
3.  Come valutazione dell’errore commesso nelle singole
misure si assume il loro scarto quadratico medio.
Anzi no… si assume la quantità σ =
1 N
(x i − x ) 2
∑
N −1 i=1
€
17
Scarica