Introduzione alla elaborazione Dott. Stefano Siboni Programma dettagliato delle statistica dei dati sperimentali. lezioni. (1) Generalità sulle misure sperimentali Errori di misura. Errori sistematici e casuali. Errori assoluti e relativi. Accuratezza e precisione di una misura. Postulato della popolazione statistica; il risultato di una misura come la realizzazione di una variabile casuale. (2) Variabili casuali Variabili casuali discrete e continue. Distribuzione teorica cumulativa di frequenza di una variabile casuale. Distribuzione teorica di frequenza (distribuzione di probabilità) di una variabile casuale, nel caso continuo e nel caso discreto. Media, varianza, skewness di una distribuzione di probabilità. Teorema di Tchebyshev. Esempi di distribuzioni di probabilità discrete: di Bernoulli, binomiale, di Poisson. Esempi di distribuzioni di probabilità continue: uniforme, normale o gaussiana, di chi-quadrato a n gradi di libertà (Χ2), di Student a n gradi di libertà (t), di Fisher a n1 ed n2 gradi di libertà (F). Teorema del limite centrale. Distribuzioni di probabilità in più dimensioni; variabili casuali (stocasticamente) dipendenti ed indipendenti; matrice di covarianza; matrice di correlazione; variabili casuali non correlate; l’indipendenza stocastica come condizione sufficiente ma non alla mancanza di correlazione; variabili normali multidimensionali, necessaria l’indipendenza stocastica come condizione equivalente alla mancanza di correlazione per variabili normali multidimensionali, teorema di Craig sulla indipendenza stocastica delle forme quadratiche semidefinite positive di variabili normali standard indipendenti; (9) teorema di caratterizzazione delle forme quadratiche di variabili normali standard indipendenti che presentano una distribuzione di chi-quadrato; (8) teorema di Fisher-Cochran; (10) casi notevoli a due variabili. Funzioni di variabili casuali e misure indirette. Combinazione lineare di variabili casuali: calcolo di media e varianza, caso delle variabili scorrelate; variabili normali, calcolo della distribuzione congiunta (la lineare è sempre una variabile normale). combinazione Propagazione degli errori nelle misure indirette: legge di propagazione degli errori casuali nelle misure indirette (Gauss); metodo del differenziale logaritmico, principio della uguaglianza degli effetti; propagazione dell'errore nella soluzione di un sistema lineare, numero di condizionamento; stima della distribuzione di probabilità per una funzione di variabili casuali mediante il metodo di Monte-Carlo. (3) Campioni ridotti Stima dei parametri della popolazione statistica (media e varianza). Intervalli di confidenza (per media e varianza). (1) Test delle ipotesi: ipotesi nulla, errori del primo tipo, errori del secondo tipo; test basati sul rigetto dell'ipotesi nulla. Esempio illustrativo del concetto generale di test. (11) Esempi di test: test del chi-quadrato (di adattamento di un campione ridotto ad una distribuzione preassegnata); (3) t-test per verificare se la media di una popolazione normale sia rispettivamente uguale, minore o maggiore di un valore prefissato; (4) Χ2-test per accertare se la varianza di una popolazione normale sia rispettivamente uguale, minore o maggiore di un valore assegnato; (5) F-test per verificare se due popolazioni normali indipendenti hanno o meno la stessa varianza. (7) t-test per verificare se due popolazioni normali hanno la stessa media o meno (nel caso che le varianze delle due popolazioni indipendenti siano uguali o diverse); (6) F-test per il confronto di più medie, ANOVA a uno o più fattori. Criterio di Chauvenet per il rigetto di outliers non appartenenti ad una popolazione statistica normale. (12) Coppie di variabili casuali, covarianza e coefficiente di correlazione lineare r secondo Pearson. (2) Distribuzioni di probabilità per il coefficiente di correlazione r e test per verificare l’ipotesi di indipendenza stocastica basati su r. (4) Modellazione dei dati. Elementi di analisi della regressione Modelli, parametri aggiustabili (o di fitting). Aggiustamento dei parametri ai dati del campione ridotto (fitting). Funzione obiettivo. Determinazione dei valori ottimali dei parametri (best-fit). Metodo della massima verosimiglianza (maximum likelihood method) per la definizione della funzione obiettivo. Casi notevoli: metodo dei minimi quadrati (least-squares method); metodo dei minimi quadrati pesati (weighted least-squares method) o del chi-quadrato (chi-square method); metodi robusti (robust fitting methods) per dati non gaussiani, nozione di outlier. Regressione lineare con il metodo del chi-quadrato, regressione lineare con il metodo dei minimi quadrati come caso particolare del precedente. Determinazione dei parametri di best-fit mediante l’equazione normale. Media e matrice di covarianza dei parametri di best-fit. La somma normalizzata dei quadrati degli scarti attorno alla regressione (NSSAR) come variabile di chi-quadrato. Indipendenza stocastica dei parametri stimati. Goodness of fit Q del modello. Analisi critica dei casi estremi in cui Q risulta molto piccolo o molto grande. Stima delle deviazioni standard sui dati con il metodo del chi-quadrato. F-test per la Goodness of fit (in presenza di un parametro additivo). F-test con osservazioni ripetute. F-test sull’introduzione di un parametro aggiustabile addizionale. Caso notevole: fitting di dati ad una retta nella forma y=a+bx e y=m+k(x- x ), intervalli di confidenza per i parametri, indipendenza stocastica dalla NSSAR, discussione della indipendenza stocastica dei parametri di regressione; intervallo di confidenza per le previsioni, regione di confidenza. Fitting con il metodo del chi-quadrato mediante la Singular Value Decomposition (SVD). SVD di una matrice e sue proprietà notevoli. Modelli non lineari Robust fitting Stima dei parametri di best-fit di un modello mediante M-stime locali Casi multidimensionali (più variabili indipendenti e/o dipendenti) Campioni popolosi di dati organizzati in forma matriciale: Principal Component Analysis (PCA) (1) C. Capiluppi, D. Postpischl, P. Randi, Introduzione alla elaborazione dei dati sperimentali, CLUEB, Bologna, 1978, pagg. 89-98 (media) e 100102 (varianza) (2)W.H. Press, B.P. Flannery, S.A. Teukolsky, W.T.Vetterling, Numerical Recipes, Cambridge University Press, Cambridge, 1989, pagg. 484-487 e come integrazione per il caso di p diverso da 0 vedi E. Lloyd Ed., Handbook of applicable mathematics, Volume VI- Part A: Statistics, John Wiley & Sons, New York, 1984, pagg. 53-54 (3) Numerical Recipes (op. cit.), pagg. 470-471 e Capiluppi (op. cit.), pagg.115-117 (4) C. Capiluppi (op.cit.), pagg. 120-121 (5) C. Capiluppi (op.cit.), pagg. 121-122 (6) C. Capiluppi (op.cit.), pagg.123-124 (varianze uguali) e Numerical Recipes (op. cit.), pagg. 466-467 (varianze diverse) (7) Numerical Recipes (op. cit.), pag. 468, Handbook VI-A, pag. 264 (8) Handbook VI-A (op. cit.), pag. 41 (9) Handbook VI-A (op. cit.), pag. 57 (10) Handbook VI-A (op. cit.), pag. 55 (11) T.H.Wannacott, R.J.Wannacott, Introduzione alla statistica, Franco Angeli, Milano, 1998, pagg. 205-228 (12) http://ishtar.df.unibo.it/stat/avan/misure/criteri/chauvenet.html Referenze generali: • John R. Taylor, Introduzione all'analisi degli errori, Zanichelli, Bologna, 1986 • Elena S. Ventsel, Teoria delle probabilità, Ed. MIR, 1983 • http://ishtar.df.unibo.it/stat/avan/temp.html • http://www.asp.ucar.edu/colloquium/1992/notes/part1/