Elementi di Statistica Sperimentazioni di Fisica I mod. A – Statistica - Lezione 4 Marco Mazzocco Lezione 4: 1. Generalità Dipartimento di Fisica “G. Galilei”, Università di Padova 5 dicembre 2011 Introduzione A causa della presenza degli inevitabili errori, la misura di una grandezza fisica può essere considerata un evento casuale ed il numero reale risultato della misura una variabile casuale definita sullo spazio dei risultati, S. Un insieme finito di operazioni di misura, un campione, può essere pensato come un particolare sottoinsieme formato da elementi estratti a caso dall’insieme di tutte le possibili operazioni di misura, l’universo o la popolazione. Esamineremo i rapporti tra grandezze statistiche relative ad un campione limitato e all’intera popolazione. Definizione Empirica di Probabilità Esempi di Variabili Casuali Lancio di un Dado Possiamo associare ad ogni faccia di un dado il punteggio inciso sulla faccia (numero compreso tra 1 e 6); Lancio di due Monete evento casuale E: apparizione di “testa” al primo lancio evento casuale F: apparizione di “testa” al secondo lancio Variabile casuale x: numero di “teste” osservate Evento Casuale Composto x EF 2 EF 1 EF 1 EF 0 Elementi di Statistica Detta nj, la frequenza assoluta con cui si è presentato il risultato xj nelle N prove complessivamente Indichiamo con fj, la frequenza relativa del risultato xj Lezione 4: 2. Speranza Matematica Se il numero di prove N è molto grande, ciascuna fj tenderà statisticamente al valore pj, probabilità (empirica) di osservare il valore xj. 1 Esempio: N = 30 Valor Medio e Speranza Matematica Dato un campione finito, il valor medio della variabile x è definito dall’equazione: Supponiamo di lanciare 30 volte un dado Definiamo un’analoga quantità, E(x), relativa all’intera popolazione: E(x) si chiama speranza matematica della variabile casuale x ed è una generalizzazione all’intera popolazione del concetto di media aritmetica. E(x) è, impropriamente, chiamata anche valore medio della variabile casuale x sull’intera popolazione. Evento x pi ni fi “1” 1 1/6 5 0.167 “2” 2 1/6 4 0.133 “3” 3 1/6 3 0.100 “4” 4 1/6 4 0.133 “5” 5 1/6 7 0.233 “6” 6 1/6 7 0.233 Esempio: N = 100 Esempio: N = 600 Supponiamo di lanciare 100 volte un dado Supponiamo di lanciare 600 volte un dado Evento x pi ni fi Evento x pi ni fi “1” 1 1/6 16 0.16 “1” 1 1/6 97 0.162 “2” 2 1/6 17 0.17 “2” 2 1/6 106 0.177 “3” 3 1/6 21 0.21 “3” 3 1/6 110 0.183 “4” 4 1/6 18 0.18 “4” 4 1/6 102 0.170 “5” 5 1/6 14 0.14 “5” 5 1/6 91 0.152 “6” 6 1/6 14 0.14 “6” 6 1/6 94 0.157 Esempio: N = 6000 Varianza della Popolazione Supponiamo di lanciare 6000 volte un dado Evento x pi ni fi “1” 1 1/6 1024 0.171 “2” 2 1/6 962 0.160 “3” 3 1/6 994 0.166 “4” 4 1/6 979 0.163 “5” 5 1/6 994 0.166 “6” 6 1/6 1047 0.175 La speranza matematica per la variabile casuale [x - E(x)]2, ovvero la generalizzazione all’intera popolazione della varianza campionaria, s2: si indica con il simbolo Var(x), σx2 e la chiameremo varianza della popolazione della variabile casuale x. 2 Elementi di Statistica Lezione 4: 3. Valore Medio delle Combinazioni Lineari Valor Medio Applicando la legge della probabilità totale: La speranza matematica E(z) della variabile casuale z: Valor Medio delle Combinazioni Lineari Consideriamo due variabili casuali x ed y, di speranza matematica E(x) ed E(y), rispettivamente. Consideriamo una loro qualsiasi combinazione lineare a coefficienti costanti z = ax + by Indichiamo con xj i possibili valori della variabile casuale x e con yk quelli della variabile casuale y. Indichiamo con pj e qk la probabilità di ottenere un determinato valore x = xj e y = yk rispettivamente per le due variabili casuali. Infine chiamiamo Pjk la probabilità che simultaneamente si abbia x = xj ed y = yk. Combinazioni Lineari Per induzione completa, si può estendere il risultato della dimostrazione alla combinazione lineare di un numero qualsiasi di variabili casuali: F = ax + by + cz + … otteniamo E(F) = aE(x) + bE(y) + cE(z) + … Speranza Matematica della Media Aritmetica (I) Speranza Matematica della Media Aritmetica (II) Applichiamo questa equazione alla media aritmetica Supponiamo di prelevare due diversi campioni di N misure dall’intera popolazione. Le medie aritmetiche dei due campioni saranno in generale diverse. Quale sarà la speranza matematica di x, E(x), ovvero il valore medio delle varie medie aritmetiche x su un numero elevato di campioni, ciascuno di N misure, estratti a caso dalla popolazione? Il valore medio della popolazione (speranza matematica) delle medie aritmetiche dei campioni di dimensione finita N estratti da una popolazione coincide con il valore medio della popolazione stessa. 3 Elementi di Statistica Lezione 4: 4. Varianza delle Combinazioni Lineari Varianza di Combinazioni Lineari (I) Consideriamo una combinazione lineare di due variabili statisticamente indipendenti, x e y, che assumiamo (per semplicità) abbiano speranza matematica nulla, E(x) = E(y) = 0. z = ax + by E(z) = E(ax + by) = aE(x) + bE(y) = 0 Indichiamo con σx2, σy2 e σz2 le varianze delle popolazioni delle variabili casuali x, y e z, rispettivamente. Quale relazione legherà σz2 a σx2, σy2? Varianza di Combinazioni Lineari (II) Teorema (I) Due variabili casuali, x e ξ, che differiscano per una costante additiva, ξ = x + k, hanno la stessa varianza. Teorema (II) Teorema della Varianza Date due variabili casuali, x e y, qualsiasi ed una loro generica combinazione lineare, z = ax + by, definiamo altre due variabili casuali ausiliari, ξ e η, aventi speranza matematica nulla. “Una combinazione lineare a coefficienti costanti di due variabili casuali statisticamente indipendenti ha varianza uguale alla combinazione lineare delle rispettive varianze, con coefficienti pari ai quadrati dei coefficienti rispettivi” z = ax + by σz2 = a2σx2 + b2σy2 Per induzione completa possiamo estendere questo teorema ad una combinazione lineare di un numero finito qualsiasi di variabili casuali tutte statisticamente indipendenti tra loro F = ax + by + cz + … σF2 = a2σx2 + b2σy2 + c2σz2 + … Una combinazione lineare di ξ e η, ζ = aξ + bη, che differirà da z per una costante additiva pari a aE (x) + bE(y), avrà varianza pari a Ma x e ξ hanno la stessa varianza, così come y ed η e pertanto anche z e ζ avranno la stessa varianza. 4 Elementi di Statistica Errore della Media (I) Applichiamo il teorema della varianza alla media aritmetica di un campione di N misure indipendenti estratto da una popolazione. Lezione 4: 5. Errore della Media dei Campioni Errore della Media (II) Le medie aritmetiche di campioni di N misure hanno varianza pari alla varianza della popolazione da cui provengono, divisa per la dimensione del campione. L’errore quadratico medio della media di un campione è minore dell’analogo errore (quadratico medio) delle singole misure, e tende a zero al crescere del numero di misure effettuato. Errori Casuali e Sistematici Gli errori casuali possono verificarsi con uguale probabilità in difetto ed in eccesso rispetto al valore vero, ed avranno valor medio nullo. Gli errori sistematici causeranno una differenza tra il valore medio delle misure E(x) ed il valore vero x*. In assenza di errori sistematici, assumiamo che valore medio e valore vero coincidano E(x) ≡ x*. Elementi di Statistica Lezione 4: 6. Valore Medio e Valore Vero Valore Medio Abbiamo postulato che E(x) ≡ x* e sappiamo inoltre che E(x) = E(x) ≡ x*. Non solo x converge ad E(x) all’aumentare della dimensione del campione, ma mediamente x coincide con E(x). Ripetendo varie volte la misura ed ottenendo più campioni con diverse medie aritmetiche, dando come stima di E(x) la media di uno dei nostri campioni, abbiamo la stessa probabilità di sbagliare per difetto o per eccesso. La media di un campione è una stima imparziale del valore medio dell’intera popolazione. 5 Elementi di Statistica Varianza Qual è la relazione tra varianza campionaria, s2, e varianza della popolazione, σ2 ? Lezione 4: 7. Scarto ed Errore Quadratico Medio Varianza della Popolazione (I) Varianza della Popolazione (II) La varianza della popolazione è definita come: La varianza campionaria può essere espressa come: Considerando le speranze matematiche dei 2 membri Stima della Varianza della Popolazione Ricordando che la speranza matematica del quadrato degli scarti di una variabile dal suo valore medio (E (x) = E(x) = x*) è la varianza della variabile stessa: 1. Il valore medio della varianza campionaria s2 è sistematicamente inferiore all’analoga grandezza σ2 riferita all’intera popolazione (stima parziale). 2. La differenza tra la varianza della popolazione e la varianza di un campione di N misure da essa estratto è in media pari alla varianza della media del campione. Esempio: Lancio di un Dado Nel caso del lancio di un dado, conosciamo sia il valore medio della popolazione … Mediamente la varianza di un campione di N misure è inferiore alla varianza dell’intera popolazione di un fattore (N-1)/N. Per una stima imparziale (mediamente corretta) di σ2x si usa la quantità µ2x definita come la cui speranza matematica coincide con σ2x. … che la varianza della popolazione: Consideriamo 100 campioni ciascuno di M = 30, 100, 600 e 6000 lanci. Calcoliamo media, varianza campionaria s2, varianza corretta µ2 e varianza della media per i 4 diversi set di campioni. 6 Analisi Statistica Media dei Campioni Dimensione del Campione (M) Media Varianza Campionaria s2 Varianza Corretta µ2 Varianza della Media 30 3.495 2.795 2.892 0.078 100 3.493 2.869 2.898 0.025 600 3.4910 2.921 2.925 0.0036 6000 3.4970 2.919 2.919 0.0005 Varianza della Media La varianza della media diminuisce all’aumentare della dimensione del campione, M. Elementi di Statistica Lezione 4: 8. Errore Quadratico Medio Il grafico delle medie dei 100 campioni risulta effettivamente più concentrato (cioè ha minore varianza) all’aumentare della dimensione del campione, M. Varianza Campionaria s2 La varianza campionaria fornisce una stima sistematicamente inferiore della varianza della popolazione e la discrepanza diminuisce all’aumentare della dimensione del campione, M. Dimostrazione Alternativa (I) Supponiamo di avere M campioni (indicizzati dall’indice j = 1,2,…,M), ciascuno costituito da N misure ripetute della grandezza x, contrassegnate dall’indice i = 1,2,…,N). Il valore osservato nella misura i-esima del campione j-esimo è indicato dal simbolo xij. Sia x* il valor vero della grandezza x ed xj la media aritmetica del campione j-esimo. 7 Dimostrazione Alternativa (II) Sommiamo su i = 1,2,…,N e dividiamo per N. Indichiamo con sj2 la varianza del campione j-esimo Sommiamo su j = 1,2,…,M e dividiamo per M. Dimostrazione Alternativa (III) Facciamo ora tendere il numero di campioni M → ∞. Il membro a sinistra converge statisticamente alla varianza della variabile casuale x, σx2. Il primo termine a destra converge alla speranza matematica della varianza dei campioni di N misure, E(s2x). Il secondo termine a destra converge alla varianza delle medie dei campioni di N misure, σx2. Dimostrazione Alternativa (IV) Abbiamo già dimostrato che: 8