Introduzione alla elaborazione statistica dei dati sperimentali.

Introduzione
alla
elaborazione
Dott. Stefano Siboni
Programma
dettagliato
delle
statistica
dei
dati
sperimentali.
lezioni.
(1)
Generalità
sulle
misure
sperimentali
Errori di misura.
Errori sistematici e casuali.
Errori assoluti e relativi.
Accuratezza e precisione di una misura.
Postulato della popolazione statistica;
il risultato di una misura come la realizzazione di una variabile casuale.
(2)
Variabili
casuali
Variabili casuali discrete e continue.
Distribuzione teorica cumulativa di frequenza di una variabile casuale.
Distribuzione teorica di frequenza (distribuzione di probabilità) di una
variabile casuale, nel caso continuo e nel caso discreto.
Media, varianza, skewness di una distribuzione di probabilità.
Teorema di Tchebyshev.
Esempi di distribuzioni di probabilità discrete:
di Bernoulli,
binomiale,
di Poisson.
Esempi di distribuzioni di probabilità continue:
uniforme,
normale o gaussiana,
di chi-quadrato a n gradi di libertà (Χ2),
di Student a n gradi di libertà (t),
di Fisher a n1 ed n2 gradi di libertà (F).
Teorema del limite centrale.
Distribuzioni di probabilità in più dimensioni;
variabili casuali (stocasticamente) dipendenti ed indipendenti;
matrice di covarianza;
matrice di correlazione;
variabili casuali non correlate;
l’indipendenza stocastica come condizione sufficiente ma non
alla mancanza di correlazione;
variabili
normali
multidimensionali,
necessaria
l’indipendenza stocastica come condizione equivalente alla mancanza di
correlazione per variabili normali multidimensionali,
teorema di Craig sulla indipendenza stocastica delle forme quadratiche
semidefinite positive di variabili normali standard indipendenti; (9)
teorema di caratterizzazione delle forme quadratiche di variabili normali
standard indipendenti che presentano una distribuzione di chi-quadrato;
(8)
teorema di Fisher-Cochran; (10)
casi notevoli a due variabili.
Funzioni di variabili casuali e misure indirette.
Combinazione lineare di variabili casuali:
calcolo di media e varianza, caso delle variabili scorrelate;
variabili normali, calcolo della distribuzione congiunta (la
lineare è sempre una variabile normale).
combinazione
Propagazione degli errori nelle misure indirette:
legge di propagazione degli errori casuali nelle misure indirette (Gauss);
metodo del differenziale logaritmico,
principio della uguaglianza degli effetti;
propagazione dell'errore nella soluzione di un sistema lineare, numero di
condizionamento;
stima della distribuzione di probabilità per una funzione di variabili
casuali mediante il metodo di Monte-Carlo.
(3) Campioni ridotti
Stima dei parametri della popolazione statistica (media e varianza).
Intervalli di confidenza (per media e varianza). (1)
Test delle ipotesi:
ipotesi nulla, errori del primo tipo, errori del secondo tipo;
test basati sul rigetto dell'ipotesi nulla.
Esempio illustrativo del concetto generale di test. (11)
Esempi di test:
test del chi-quadrato (di adattamento di un campione ridotto ad una
distribuzione preassegnata); (3)
t-test per verificare se la media di una popolazione normale sia
rispettivamente uguale, minore o maggiore di un valore prefissato; (4)
Χ2-test per accertare se la varianza di una popolazione normale sia
rispettivamente uguale, minore o maggiore di un valore assegnato; (5)
F-test per verificare se due popolazioni normali indipendenti hanno o
meno la stessa varianza. (7)
t-test per verificare se due popolazioni normali hanno la stessa media o
meno (nel caso che le varianze delle due popolazioni indipendenti siano
uguali o diverse); (6)
F-test per il confronto di più medie, ANOVA a uno o più fattori.
Criterio di Chauvenet per il rigetto di outliers non appartenenti ad una
popolazione statistica normale. (12)
Coppie di variabili casuali, covarianza e coefficiente di correlazione
lineare r secondo Pearson. (2)
Distribuzioni di probabilità per il coefficiente di correlazione r e test per
verificare l’ipotesi di indipendenza stocastica basati su r.
(4) Modellazione dei dati. Elementi di analisi della regressione
Modelli, parametri aggiustabili (o di fitting).
Aggiustamento dei parametri ai dati del campione ridotto (fitting).
Funzione obiettivo.
Determinazione dei valori ottimali dei parametri (best-fit).
Metodo della massima verosimiglianza (maximum likelihood method)
per la definizione della funzione obiettivo.
Casi notevoli:
metodo dei minimi quadrati (least-squares method);
metodo dei minimi quadrati pesati (weighted least-squares method)
o del chi-quadrato (chi-square method);
metodi robusti (robust fitting methods) per dati non gaussiani,
nozione di outlier.
Regressione lineare con il metodo del chi-quadrato,
regressione lineare con il metodo dei minimi quadrati come caso
particolare del precedente.
Determinazione dei parametri di best-fit mediante l’equazione normale.
Media e matrice di covarianza dei parametri di best-fit.
La somma normalizzata dei quadrati degli scarti attorno alla regressione
(NSSAR) come variabile di chi-quadrato.
Indipendenza stocastica dei parametri stimati.
Goodness of fit Q del modello.
Analisi critica dei casi estremi in cui Q risulta molto piccolo o molto
grande.
Stima delle deviazioni standard sui dati con il metodo del chi-quadrato.
F-test per la Goodness of fit (in presenza di un parametro additivo).
F-test con osservazioni ripetute.
F-test sull’introduzione di un parametro aggiustabile addizionale.
Caso notevole:
fitting di dati ad una retta nella forma y=a+bx e y=m+k(x- x ),
intervalli di confidenza per i parametri,
indipendenza stocastica dalla NSSAR,
discussione della indipendenza stocastica dei parametri di regressione;
intervallo di confidenza per le previsioni, regione di confidenza.
Fitting con il metodo del chi-quadrato mediante la Singular Value
Decomposition (SVD).
SVD di una matrice e sue proprietà notevoli.
Modelli non lineari
Robust fitting
Stima dei parametri di best-fit di un modello mediante M-stime locali
Casi
multidimensionali
(più
variabili
indipendenti
e/o
dipendenti)
Campioni popolosi di dati organizzati in forma matriciale:
Principal Component Analysis (PCA)
(1) C. Capiluppi, D. Postpischl, P. Randi, Introduzione alla elaborazione dei
dati sperimentali, CLUEB, Bologna, 1978, pagg. 89-98 (media) e 100102 (varianza)
(2)W.H. Press, B.P. Flannery, S.A. Teukolsky, W.T.Vetterling, Numerical
Recipes, Cambridge University Press, Cambridge, 1989, pagg. 484-487
e come integrazione per il caso di p diverso da 0 vedi
E. Lloyd Ed., Handbook of applicable mathematics, Volume VI- Part A:
Statistics, John Wiley & Sons, New York, 1984, pagg. 53-54
(3) Numerical Recipes (op. cit.), pagg. 470-471 e
Capiluppi (op. cit.), pagg.115-117
(4) C. Capiluppi (op.cit.), pagg. 120-121
(5) C. Capiluppi (op.cit.), pagg. 121-122
(6) C. Capiluppi (op.cit.), pagg.123-124 (varianze uguali)
e Numerical Recipes (op. cit.), pagg. 466-467 (varianze diverse)
(7) Numerical Recipes (op. cit.), pag. 468, Handbook VI-A, pag. 264
(8) Handbook VI-A (op. cit.), pag. 41
(9) Handbook VI-A (op. cit.), pag. 57
(10) Handbook VI-A (op. cit.), pag. 55
(11) T.H.Wannacott, R.J.Wannacott, Introduzione alla statistica, Franco
Angeli, Milano, 1998, pagg. 205-228
(12)
http://ishtar.df.unibo.it/stat/avan/misure/criteri/chauvenet.html
Referenze
generali:
• John R. Taylor, Introduzione all'analisi degli errori, Zanichelli, Bologna,
1986
• Elena S. Ventsel, Teoria delle probabilità, Ed. MIR, 1983
• http://ishtar.df.unibo.it/stat/avan/temp.html
• http://www.asp.ucar.edu/colloquium/1992/notes/part1/