LABORATORIO 2 (meccanica e Termodinamica) a.a. 2007/2008 F.Balestra. ( Per cortesia segnalatemi punti non chiari o refusi. Grazie e buon studio) Metodo dei Minimi Quadrati . Principio di Massima Verosimiglianza . Test del χ2. c 2 0.95H4L = 0.711 and c 2 0.05H4L = 9.488 density function and distribution function 1.0 0.3 0.8 0.2 0.6 0.1 0.4 0.2 2 10 20 30 40 50 4 6 8 10 12 - 0.1 9 8 7 6 5 4 3 4 5 6 7 8 Metodo dei Minimi Quadrati e Principio di Massima Verosimiglianza. Proprieta’ degli stimatori. Dipendenza della matrice di covarianza e del χ2 dall’errore sulle y. Test del χ2. Ricerca della migliore forma funzionale. Correlazioni tra i coefficienti stimati. Principio di Massima Verosimiglianza. Media pesata. Stima di parametri per la distribuzione di Bernoulli e di Poisson. Stima e proprieta’ degli stimatori. 1 Principio di massima verosimiglianza e metodo dei minimi quadrati. Supponiamo di avere n coppie di dati {xi; yi ± σi} Sia y = f( x; a ) una funzione che fornisce un valore y per ogni x. La forma e’ nota, ma contiene un parametro a ( o piu’ parametri) che vogliamo stimare. Le misure yi hanno come valore vero y = f( xi;a) e sono disperse rispetto ad y a causa dell’errore σi, con distribuzione gaussiana. La probabilita’ di ottenere un particolare valore di yi per un dato valore di xi e’ − [ yi − f ( xi ; a )]2 1 2σ i2 e dyi . σ i 2π La probabilita’ congiunta di ottenere la serie delle n misure indipendenti {yi} realmente ottenute vale P ( yi ; a ) = P = ∏1 P( yi ; a ) = (∏1 n n dyi )•e σ i 2π − n ∑ 1 [ yi − f ( xi ; a )]2 2σ i2 La funzione densita’ di probabilita’ corrispondente,detta a posteriori perche’ costruita con il campione di dati, e’ la funzione di verosimiglianza L per il campione di dati. Essa vale − n ∑ [ yi − f ( xi ; a )]2 1 2σ i2 . L = ∏1 P( yi ; a ) = (∏1 )•e 1 σ i 2π Il Principio di Massima Verosimiglianza assume che il valore piu’ verosimile come stima del parametro a e’ quello che rende massima la funzione L, ossia rende massima la probabilita’ di ottenere la serie di dati del campione . Massimizzare L e’equivalente a rendere massima la funzione logaritmo l = ln L: n n n [ yi − f ( xi ; a )]2 n 1 1 n [ yi − f ( xi ; a )]2 l = ln L = ln ∏1 P ( yi ; a ) = ∑ ln[( )−∑ ] ln[ ( 2 ) σ π = − − ∑ ∑ i 1 21 2σ i2 σ i2 σ i 2π 1 1 n n . Per rendere massima l e’ sufficiente minimizzare la sommatoria: n 2 [ yi − f ( xi ; a )]2 , χ =∑ 2 1 σ i cioe’ minimizzare la somma del quadrato degli scarti, pesati, tra le yi e le f(xi;a) predette. Questo metodo e’ noto come Metoto dei Minimi Quadrati. Il metodo fornisce un mezzo per stimare il parametro a in una funzione f(xi; a) che fornisce i valori veri di y per ogni x. I dati usati sono le {xi} , assunte senza errori, ed i corrispondenti valori {yi} misurati con errore σi. Si costruisce, per tutti i punti, la somma del quadrato delle differenze fra i valori misurati e quelli attesi f(xi; a) opportunamente scalate di σi. n 2 2 [ yi − f ( xi ; a )]2 Questa somma χ = ∑ e’ detta χ . Essa e’ la somma del quadrato di n variabili 2 1 σ i normali standardizzate. Si vuole il valore di a che rende minima questa somma . Se sono note le derivate di f rispetto ad a il problema e’ di trovare la soluzione: 2 n 1 df ( x ; a ) dχ i = 0; ∑ 2 [ yi − f ( xi ; a)] = 0 . 1 σ1 da da Se le σi = σ sono tutte eguali la soluzione si ha risolvendo la : 2 2 n df ( xi ; a) dχ = 0; ∑ [ yi − f ( xi ; a )] = 0 . 1 da da Se non si conoscono gli errori σ , la soluzione per a si ottiene dalla stessa relazione usata per le σi = σ =cost. ^ Il valore stimato di a , indicato con a , sara’ prossimo al valore vero ma non coincidera’ con esso. ^ ^ La stima a e’ funzione delle yi : a = a ( yi ) . Usando la propagazione degli errori, assumendo le yi indipendenti, si ottiene la varianza del valore stimato: n ∂a σ ^2 = ∑ ( ) 2 σ i2 . a ∂yi 1 Se la f contiene N parametri { a1, a2, …, an}, essi si otterranno dalla soluzione di un sistema di N equazioni in N incognite : 2 n df ( xi ; ai ) dχ = 0; ∑ [ yi − f ( xi ; ai )] = 0 ; i = 1 , …, N 1 dai dai Il caso della retta , della interpolazione lineare, e’ il piu’ comune: y = f(xi; a,b)= a + b x. Supposte valide le condizioni descritte sopra e σi = σ = cost, la probabilita’ di ottenere un valore yi per un dato xi e’ data da: P ( yi ; a , b ) = dyi − •e n ∑ [ yi − f ( xi ; a )]2 2σ 2 . 2π La probabilita’ di ottenere l’insieme completo di misure {yi} e’ il prodotto σ 1 P = ∏1 P( yi ; a, b) = (∏1 n − dyi n )•e σ 2π n ∑ 1 [ yi − ( a + bx )]2 2σ 2 =( dyi σ 2π − )n • e n ∑ 1 [ yi − ( a + bx )]2 2σ 2 . La funzione di verosimiglianza e’ espressa come: − 1 )•e σ 2π Il logaritmo di L vale: L = (∏1 n n ∑ 1 [ yi − ( a + bx )]2 2σ 2 n =( l = ln L = ln ∏1 P( yi ; a, b) = ∑ ln[( n 1 n ∑ [ yi − ( a + bx )]2 1 )n • e σ 2π − 1 [ yi − f ( xi ; a)]2 ] = −n ln(σ 2σ 2 σ 2π n )n − ∑ 1 1 2σ 2 1 n [ yi − ( a + bxi )]2 2π ) − ∑ 2 1 σ2 Il Metodo di Massima Verosimiglianza consiste nel fare l’assunto, che la migliore stima di a e b , basata sulle n misure {yi} ottenute, e’ fornita dai valori degli stessi per cui L o l sono massime, e questo equivale a minimizzare : n [ yi − (a + bxi )]2 . χ2 = ∑ 2 σ 1 (Il metodo e’ stato trattato in dettaglio nel corso di Lab. 1) Esempio: Vediamo come esempio il caso semplice in cui y e’ propozionale ad x : y = mx. Questo e’ un semplice esempio di fit con m come unico parametro incognito. La quantita’ da minimizzare in funzione di m, e’ n [ yi − mxi ]2 χ2 = ∑ 2 i =1 σ i Differenziando rispetto ad m si ottiene 3 [ y − mx ] ∂χ 2 n = ∑ − 2 xi i 2 i ∂m i =1 σi Se si assume che tutte le yi abbiano lo stesso errore σ ∂χ 2 2 n 2 n = − 2 ∑ xi [ yi − mxi ] = − 2 ∑ ( xi yi − mxi2 ) ∂m σ i =1 σ i =1 Per la stima di m questa quantita’ e’ zero: n n n 2 n − 2 ∑ ( xi yi − mxi2 ) = 0; ∑ ( xi yi − mxi2 ); ∑ xi yi = m∑ xi2 σ i =1 i =1 i =1 1=1 n ^ La stima di m diventa: m = ∑ xi yi i =1 n ∑ . 2 i x 1=1 La precisione di questa stima , applicando la propagazione degli errori, risulta ^ n ∂m σ ^ = ∑ ( )2σ 2 = ∑ ( m ∂yi 1 1 2 n xi n ∑ 1=1 )2σ 2 = xi2 σ2 n ∑ 1=1 ; σ^ = xi2 m σ n ∑ 1=1 xi2 Proprieta’ degli stimatori . Eseguita la misura di due grandezze fisiche (x,y) e riportati i valori (xi,yi±σi) su di un grafico cartesiano, nasce il problema di stabilire quale sia la relazione funzionale, y = f(xi,a) piu’ adatta per interpolare i dati. Le yi si assumono indipendenti e gaussiane. Il metodo dei minimi quadrati ci permette di determinare una stima dei parametri ma non ci fornisce indicazioni sulla scelta della funzione. Nel caso di una retta, di una relazione lineare : y = a + bx, per valutare i parametri si rende minima la somma n χ =∑ 2 (Δy i ) 2 σ i2 1 n =∑ ( y i − a − bxi ) 2 n = ∑ z i2 . σ i2 1 1 Questo vale sia nel caso che le σi siano eguali, sia in quello in cui siano differenti per ciascuna delle yi. N N [ y − (a + bx)]2 (Δy i ) 2 =∑ Se le σi non sono note si stimano con: S y2 = ∑ i N −2 1 1 N −2 Valutati a e b, nel caso di σi = σy =costante, si ottengono le loro incertezze attraverso le relazioni : N σ = 2 a σ y2 ∑ xi ,σ = 2 b 1 n N N ∑ x − (∑ xi ) 1 2 i 1 2 σ y2 N n N 1 1 N ∑ xi2 − (∑ xi ) 2 Finora la procedura e’ stata semplicemente una determinazione di parametri. Per le stime, a e b, dei parametri valgono le seguenti proprieta’ : • E[a + b x] = E[a] + x E[b] = A + B x. I valori veri A e B sono stimati da a e b che si suppongono distribuiti normalmente, con varianze σ a2 e σ b2 , attorno ai valori veri A e B. La varianza σ y2 si suppone nota. a e b sono detti stimatori corretti di A e B. 4 σ a2 = E[(a – A)2] = minima. σ b2 = E[(b – B)2] = minima. Gli stimatori a e b sono stimatori efficienti e precisi di A e B. n n n (Δy i ) 2 ( y i − a − bxi ) 2 2 • χ =∑ = = z i2 segue la distribuzione χ2 con DF = n -2 . ∑ ∑ 2 2 σi σi 1 1 1 2 Nel caso di n misure dirette {yi ± σ y } della grandezza Y, • 1 n ∑ yi e’ la migliore stima del valore medio della popolazione da cui il n 1 campione e’ ottenuto, che si assume come il valore vero della grandezza . n n n ( Δy i ) 2 ( yi − y) 2 2 la variabile : χ = ∑ = = z i2 segue la distribuzione χ2 con ∑ ∑ 2 2 • il valore medio y = • σy σy 1 1 DF = n – 1 gradi di liberta’. • σ y2 = E[(yi – y )2] = minimo. La media e’ uno stimatore efficiente o preciso. 1 • E[ y ] = μY. La media e’ uno stimatore corretto di Y. Nel caso di n misure dirette {yi± σ i2 } della grandezza , n • la media pesata y = 1 n n 1 • ( Δy i ) 2 σ i2 n =∑ 1 2 i 1 ∑σ 1 χ2 = ∑ yi ∑σ e’ la migliore stima della grandezza , e la variabile : 2 i ( yi − y) 2 σ i2 n = ∑ z i2 segue la distribuzione χ2 con DF = n – 1 gradi di 1 liberta’. σ y2 = E[(yi – y )2] = minimo. • E[ y ] = μY. Se la distribuzione dell’errore non e’ nota la soluzione dei minimi quadrati gode ancora delle proprieta’ : • Le soluzioni sono senza bias , sono corrette; • Fra tutte le soluzioni, che sono stime senza bias della grandezza e combinazioni lineari delle misure yi, le soluzioni dei minimi quadrati hanno varianza minima; n n (Δy i ) 2 ( y i − a − bxi ) 2 • χ2 = M = ∑ , E[M] = n – 2. = ∑ 2 2 1 σi 1 σi TEST del χ2 : raccomandazioni per l’interpretazione e l’uso. Prendendo come esempio il caso di andamento lineare, possiamo vedere quanto bene la curva si adatta ai dati. Il test del χ2 permette di decidere se una relazione funzionale approssima “statisticamente” i punti sperimentali, oppure scegliere tra piu’ relazioni funzionali quella che li approssima meglio. Come primo passo sempre fare e rappresentare il GRAFICO di confronto dei punti misurati con la curva. 5 n Note le σi, se le yi sono normali, allora χ = ∑ 2 1 ( Δy i ) 2 σ i2 n =∑ ( yi − y) 2 1 σ i2 n = ∑ z i2 e’ una variabile χ2 1 con DF = n – 2 gradi di liberta’. Valutato il χ2M , in funzione dei parametri a e b che lo minimizzano, si esegue il test del χ2. • Se χ2Μ >> n -2 occorre controllare bene l’assunto sul quale si basa il calcolo. • Nel caso χ2Μ ≤ DF =n −2 ,P[ χ2DF > χ2Μ] > α: la funzione e' corretta al livello di significativita’ di α. • Se χ2Μ eccede il valore critico del χ2, che corrisponde al livello di significativita’ α e DF = n -2 ,si rigetta il risultato al livello di significativita’ di α. Se P[ χ2DF > χ2Μ] < α : Rigetto. Il rigetto puo’ essere causato da piu’ ragioni: -da un errore di I specie; -la y = f ( xi,a) non e’ corretta e non e’ a applicabile,o perche’ totalmente sbagliata o qualche parametro di essa, che si e’ supposto noto, non e’ corretto. • Se χ2Μ << DF = n -2 : o gli errori sono sovrastimati, o i dati sono stati selezionati in modo speciale, o siamo stati fortunati a selezionare valori di yi molto prossimi a quelli attesi. Se il test fallisce , ( sempre fare come primo passo il GRAFICO), perche’ si trovano modelli migliori, in quanto ci sono evidenti deviazioni sistematiche dai punti della linea retta, si puo’ assumere una forma non lineare. Si possono nuovamente interpolare i dati, confrontandoli col nuovo modello di regressione ESEMPI polynomial degree 1 polynomial degree 1 1.85563 x - 1.44361 2 1 0 0 -1 -1 0.2 0.4 0.6 2.73046 x - 0.894224 2 1 -2 0.0 1 0.8 1.0 Gli ultimi tre punti non sembrano piu’ appartenere alla retta. -2 0.0 0.2 0.4 0.6 0.8 1.0 Il punto centrale devia di piu’ di 3 σ dalla retta. 6 0?21x 0.6 0.4 0.2 ?2.0 polynomial degree 1 1 2.33807 x - 1.64244 2 1 0 -1 -2 0.0 I punti sembrano essere bene interpolati da una parabola polynomial degree 0.2 2 polynomial degree 1.77587 x2 + 0.458199 x - 1.5923 1.0 2 0 0 -1 -1 0.4 0.6 2.7596 x2 - 0.279871 x - 1.5157 2 1 0.2 0.8 2 1 -2 0.0 0.6 mentre la retta non li interpola (successione di scarti tutti positivi poi tutti negativi, poi nuovamente positivi) 2 2 0.4 0.8 -2 0.0 1.0 0.2 0.4 0.6 0.8 1.0 Gli ultimi tre punti non sembrano piu’ appartenere alla parabola. Ecco come cambia il fit escludendoli. polynomial degree polynomial degree 2 12.9256 x2 - 14.4205 x + 2.40084 2 1 0 0 -1 -1 0.2 0.4 0.6 - 8.1193 x3 + 25.7566 x2 - 19.8212 x + 2.86375 2 1 -2 0.0 3 0.8 1.0 -2 0.0 0.2 0.4 0.6 0.8 1.0 L’andamento parabolico non interpola sufficientemente bene i dati; quello cubico interpola bene . 7 polynomial degree 1 polynomial degree 2 - 0.27769 x2 + 3.63093 x - 1.45567 3.37832 x - 1.42167 2 2 1 1 0 0 -1 -1 -2 0.0 0.2 0.4 0.6 0.8 -2 0.0 1.0 0.2 0.4 0.6 0.8 1.0 Non ci sembrano motivi per rigettare l’interpolazione lineare e sceglierne una parabolica(figura di destra). Se il test fallisce , ma non sembrano esistere modelli migliori, perche’ non si riscontrano deviazioni sistematiche dalla linea retta, si devono rivedere le assunzioni fatte sugli errori. Essi possono essere basati su stime troppo rozze o supposizioni non corrette, e possono essere sottostimati o sovrastimati. Infatti, riferendoci per semplicita’ al caso di σ y2 = cost., se la σ y e’ sottostimata di un fattore F, tutti i termini della matrice degli errori ed il χ2 N n χ2 = ∑ 1 ( Δy i ) 2 σ y2 n =∑ 1 ( y i − a − bxi ) 2 σ y2 , σ a2 = σ y2 ∑ xi , σ b2 = 1 n N N ∑ x − (∑ xi ) 1 2 i 1 2 σ y2 N n N N ∑ x − (∑ xi ) 1 2 i , 2 1 sono influenzati. Le varianze σ a2 , σ b2 sono aumentate di F2, mentre il valore del χ2 e’ diminuito di F2. σ a' = σ a • F ; σ b' = σ b • F ; χ '2 = χ2 F2 La matrice degli errori e’ stata calcolata secondo l’errore sulle y. I valori dei parametri , pero’ non vengono modificati poiche’ il punto di minimo del χ2 non dipende da σ y . Al contrario il valore del minimo del χ2 ( che serve per il test) ed i valori della matrice degli errori sono molto influenzati dal valore di σ y . Vedere esempio A. Solo il test del χ2 ( non il valore degli errori sui parametri) indica quando il modello assunto nella regressione , in questo caso una dipendenza lineare, e’ giustificato. Se σ y e’ piccolo , σ a e σ b sono piccoli, ma il χ2 puo’ essere grande ed il test fallisce, anche se gli errori sui parametri sono piccoli. E’ necessario ottenere una attendibile , anche se rozza stima di σ y per potere effettuare il test del χ2. Se le σ y non sono note ( misure fatte con lo stesso strumento, senza sistematici, errore ignoto) il metodo da solo non permette di decidere quando il modello e’ giustificato. Rimane il riscontro qualitativo, derivante dall’analisi critica del grafico y = y(xi,a), per la ricerca di deviazioni sistematiche dei punti dalla linea ipotizzata . Se tali deviazioni sembrano esistere , allora occorre costruire altre forme non lineari e confrontarle con i dati. 8 Per stabilire se per una serie di punti e’ giustificato l’uso di una interpolazione lineare, come gia’ visto in piu’ occasioni, si puo’ fare uso del coefficiente di correlazione lineare ρ. Se le σ y non sono note , il metodo MMQ si puo’ sempre applicare . Si stimano i parametri a e b (Δy i ) 2 . col solito metodo. Gli errori sulle yi si assumono tutti eguali e sono stimati da S = ∑ n−2 1 Gli errori sui parametri si ottengono a partire da S y2 : 2 y n N S a2 = S y2 ∑ xi 1 n N 1 1 N ∑ xi2 − (∑ xi ) 2 S b2 = S y2 N n N 1 1 N ∑ xi2 − (∑ xi ) 2 Il test del χ2 pero’ non si puo’ effettuare. n n S y2 ( Δy i ) 2 ( y i − a − bxi ) 2 La variabile per il test vale: χ 2 = ∑ n = = ( − 2 ) ∑1 σ y2 σ y2 σ y2 1 Se si assumesse σy = Sy allora il valore del χ2 assume il valore atteso χ2 = n - 2 =DF, e non avrebbe piu’ alcun significato statistico. La variabile per il test si puo’ scrivere , come appena visto, ~ 2 ~ 2 S y2 S y2 χ2 2 = . χ = (n − 2) 2 ed il χ come χ = n − 2 σ y2 σy La varianza σy della popolazione e’ una caratteristica della dispersione dei dati dalla distribuzione primaria : y = A + B x e non e’ indicativa della bonta’ del fit. La Sy stimata, e’ invece caratteristica sia della dispersione dei dati sia dell’accuratezza del fit. ~ 2 S y2 La definizione di χ = 2 come rapporto della varianza stimata e la varianza della popolazione σy ~ 2 rende il χ come una misura conveniente della bonta’ del fit. Se la funzione fit fosse una buona approssimazione della funzione vera , allora la varianza stimata ~ 2 S dovrebbe accordarsi bene con la varianza σ ed il valore di χ dovrebbe assumere un valore 2 y 2 y prossimo ad 1. Se la funzione fit non e’ adatta per descrivere i dati, la deviazione sara’ piu’ grande e portera’ a ~ 2 ~ 2 valori di χ > 1 o χ >> 1. ~ 2 Valori di χ < 1 non indicano, necessariamente, un miglioramento del fit, ma la conseguenza del fatto che esiste una incertezza nella determinazione della variabile casuale S y2 , che fluttua, da ~ 2 ~ 2 campione a campione, seguendo una distribuzione χ ;di conseguenza il valore del χ , in prove ripetute, fluttua da esperimento ad esperimento. E’ bene stimare sempre S y2 e confrontarlo con σ y2 (se nota). Se il test fallisce , e si decide di rivalutare gli errori attraverso la S y2 , anche gli errori sulle stime dei parametri devono essere rivalutati. 9 ESEMPIO A Consideriamo la regressione lineare che fa uso delle stesse misure ma in cui si fanno tre differenti assunzioni circa il loro errori. Si esegue una regressione per una serie di dati , che sono riportati in tabella. t 0.5 11.2 19.3 30.7 51.0 y 5.0 8.0 23.0 36.0 43.0 Si fanno tre differenti assunzioni circa le deviazioni standard delle misure y. a) σy = 1; b) σy = 8; c) σy non nota. I risultati sono riportati nelle figure e tabelle che seguono. Per la regressione si assume la forma: y = a + b t. La matrice di covarianza si esprime come: N ⎞ ⎛ N − ∑ ti ⎟ 2 ⎜ ∑ ti 2 2 N N ⎛ σ a σ ab ⎞ σ y ⎜ 1 1 ⎟; Δ = N t 2 − ( t ) 2 , ⎜ 2 ⎟ = ∑ ∑ i 1 N 2 ⎟ ⎜σ ⎟ 1 1 ⎝ ab σ b ⎠ Δ ⎜ − ∑ ti N ⎟ ⎜ ⎠ ⎝ 1 ed il valore del χ2 come: n n S y2 ( Δy i ) 2 ( yi − a − bti ) 2 n = = ( − 2 ) χ2 = ∑ ∑1 σ y2 σ y2 σ y2 1 Il valore interpolato,Y, per un certo valore di t = T vale: Y = a + b T. 2 La varianza di Y vale: σ Y2 = σ a2 + T 2σ b2 + 2Tσ ab . Sebbene i parametri a e b non siano influenzati dalle assunzioni , vi e’ una significativa influenza sulla matrice di covarianza, sul minimo del χ2 e sui limiti di confidenza. • σy = 1. a = 4.35 ± 0.538 b= 0.827± 0.00067 J 0.538383 −0.0150125 N −0.0150125 0.00066604 χ2= 90.42 I limiti di confidenza sono molto piccoli; gli errori sui parametri sono molto piccoli ,tuttavia il valore del χ2 e’ grande cosicche’ il test fallisce ( DF =3; α = 0.01;χ2c = 11.340) • σy = 8. a = 4.35 ± 34.45 b= 0.827± 0.0427 J • 34.4565 − 0.960802 N − 0.960802 0.0426265 χ2=1.41 I limiti di confidenza , gli errori sui parametri sono grandi ma il valore del χ2 e’ piccolo il fit sembra ragionevole. σy = incognita a = 4.35 ± 16.28 B = 0.827± 0.0201 16.2861 − 0.454129 J N − 0.454129 0.0201477 10 1 N ( yi − a − bti ) 2 ; Sy = 5.5 ∑ N −1 1 I limiti di confidenza sono ragionevoli confrontati con le variazioni dei dati. Il test del χ2 non puo’ essere valutato. Sy e’ incognito ed e’ stimato da s y2 = Nelle figure sono riportati, per le tre situazioni, i grafici che confrontano i dati con la retta che meglio li interpola, i valori dei parametri stimati e la matrice di covarianza, i limiti di accettazione e rigetto , fissato α = 5% e 1%, per il test χ2. σy = 1 40 30 20 J 10 10 20 30 40 50 4.35293 0.538383 −0.0150125 NJ N 0.827288 −0.0150125 0.00066604 σy=8 50 40 30 20 10 10 20 30 40 50 J 34.4565 − 0.960802 4.35293 N NJ − 0.960802 0.0426265 0.827288 11 σy = incognito ; Sy = 5.4 40 30 20 10 J 10 20 30 40 50 c 2 0.95H3L = 0.352 and c 2 0.05H3L = 7.815 0.3 0.3 4.35293 16.2861 − 0.454129 NJ N − 0.454129 0.0201477 0.827288 c 2 0.99H3L = 0.115 and c 2 0.01H3L = 11.345 0.2 0.2 0.1 0.1 2 4 6 8 - 0.1 2 4 6 8 - 0.1 Ricerca della migliore forma funzionale. Si supponga di avere 7 coppie di misure , i valori dei quali sono riportati in tabella. yi ± 0.5 5.0 4.5 6.0 7.5 7.5 8.5 8.5 xi 2 3 4 5 6 7 8 Gli errori sulle Xi si ritengono trascurabili. Si vuole determinare la migliore forma funzionale che lega le due grandezze. Si prendono in esame due funzioni: A) y = a + bx ; B) y = k ln (x) Col metodo dei minimi quadrati si determinano i valori dei parametri. Nel caso della funzione A) si ottengono: a = 3.25 ± 0.51 , b = 0.714 ± 0.095 Nel caso della funzione B) si ottiene: k = 4.364 ± 0.023. In figura e’ riportato il confronto tra i dati sperimentali e le due curve “best fit”. Il test del χ2 si puo’ utilizzare per decidere quale delle due funzioni si adatta meglio ai punti sperimentali. Per la curva A) il valore di ottenuto vale :χ2M = 6.6 , i gradi di liberta’ risultano :DF = 7 -2 = 5. 12 Il valore di χ ridotto = χM 2 = 1.3 . La probabilita’ di ottenere un valore pari o maggiore di quello DF ottenuto vale P[ χ2DF > χ2M ] = 0.25. Per la curva B) ) il valore di ottenuto vale :χ2M = 19 , i gradi di liberta’ risultano :DF = 7 -1 = 6. 2 c 2 0.95H6L = 1.635 and c 2 0.05 H6L = 12.592 0.3 0.2 0.2 0.1 0.1 5 10 c 2 0.95H5L = 1.145 and c 2 0.05H5L = 11.070 0.3 2 15 4 6 8 10 12 14 - 0.1 - 0.1 Il valore di χ 2 ridotto = χM 2 = 3.1 . La probabilita’ di ottenere un valore pari o maggiore di quello DF ottenuto vale P[ χ2DF > χ2M ] = 0.005. 9 8 7 6 5 4 3 4 5 6 7 8 L’andamento lineare si adatta molto meglio ai dati sperimentali. La coppia di valori (2. ; 5.0 ± 0.5) nel caso dell’andamento y = k ln(x) è quella che influenza maggiormente il valore del χ2M , infatti la discrepanza tra valore misurato y1 =5.0 e valore atteso k ln(2) = 3. è pari a 4 deviazioni standard. Se si reputasse , per qualche motivo, di eludere questo valore si otterrebbero i nuovi valori : Per la curva A) a = 2.72 ± 0.69 ; b = 0.79 ± 0.12 il valore di ottenuto vale :χ2M = 5.7 , i gradi di liberta’ risultano :DF = 6-2 = 4. Il valore di χ 2 ridotto = χM 2 = 1.4 . La probabilita’ di ottenere un valore pari o maggiore di quello DF ottenuto vale P[ χ2DF > χ2M ] = 0.22. Per la curva B) k = 4.238 ± 0.029 il valore di ottenuto vale :χ2M = 2.5 , i gradi di liberta’ risultano :DF = 6 -1 = 5. Il valore di χ 2 ridotto = χM 2 = 0.5 . La probabilita’ di ottenere un valore pari o maggiore di DF quello ottenuto vale P[ χ2DF > χ2M ] = 0.75. La figura mostra i nuovi andamenti. 13 9 8 7 6 5 4 5 6 7 8 L’esclusione della prima coppia di valori, non cambia in modo apprezzabile i valori dei parametri, ma fa si che questa volta l’andamento logaritmico sembri piu’ adatto a descrivere i dati sperimentali. Il rigettare o meno la prima coppia di valori è cruciale per interpretare i dati. Occorre cautela ed un’analisi accurata degli eventuali sistematici, e se l’analisi non dovesse risultare decisiva, occorre ripetere la misura. Appendice:determinazione, mediante il MMQ, di k . y = k ln(x): determinazione di k ±σk col metodo dei minimi quadrati. Si suppone σyi = σ = cost n ( y − k ln( xi )) 2 χ2 = ∑ i 2 σ 1 ∂χ 2 = − 2 ∑ ( yi − k ln xi ) ln xi = 0 σ 1 ∂k 2 n n n ∑ ( y ln x ) = −k ∑ i i 1 (ln xi ) 2 1 n k= ∑ y (ln x ) i 1 n ∑ i (ln xi ) 2 1 La varianza di k si ottiene propagando gli errori sulle yi 2 σ k2 n ⎞ ⎛ σ 2 ∑ (ln x j ) 2 ⎟ ⎜ n n ln x j ⎟ 2 ∂k 2 2 ) σ = ∑⎜ n σ = n j =1 = = ∑( ⎟ ⎜ ∂y j 2 2 2 j =1 1 [∑ (ln xi ) ] ⎜ ∑ (ln xi ) ⎟ i =1 ⎠ ⎝ i =1 σ2 n ∑ (ln x ) i =1 2 i n k= ∑ y (ln x ) i 1 n ∑ 1 σ i (ln xi ) 2 ± n ∑ (ln x ) i =1 2 i 14 Esempio. Si interpolino , con il MMQ , N = 20 punti ( xi,yi) - Interpolazione lineare : DF = N- 2 = 20 – 2 = 18. Sia χ2M= 36.3 il valore ottenuto. P[ χ218 > 36.3] = 1% - Parabola: DF = N- 3 = 20 – 3 = 17. Sia χ2M= 20.1 il valore ottenuto. P[ χ217 > 20.1] > 20% - Cubica: DF = N- 4 = 20 – 4 = 16. Sia χ2M= 17.6 il valore ottenuto. P[ χ216 > 17.6] > 20% E’ improbabile, nel caso della retta, che per fluttuazioni casuali si ottenga un valore di χ2M= 36.3: la probabilita’ P[ χ218 > 36.3] dell’ 1% e’ moto piccola. La retta e’ improbabile. H0 e’ scartata al livello di significativita’ dell’1%. Rigetto altamente significativo. Per la relazione parabolica la P[ χ216 > 17.6] > 20% e’ elevata, in diversi campionamenti una volta su 5 possiamo trovare un valore grande come quello ottenuto. Se rigettiamo l’ipotesi di accordo incorriamo in un errore di I specie con una probabilita’ del 20 %. Non abbiamo motivo di dubitare, al livello di fiducia del 5 %, dell’accordo tra parabola e dati. Le fluttuazioni sono dovute al caso. Non c’e giustificazione per la relazione cubica. Errori su x non trascurabili: ancora qualche raccomandazione. Nel MMQ gli errori sulle ordinate sono assunti nulli, e tutta la incertezza e’ associata alla variabile dipendente y. Questo equivale ad assumere che la precisione delle x e’ considerevolmente piu’ alta di quella sulle y. Questa condizione puo’ essere considerata valida solo se le incertezze della yi, che possono essere indotte da variazioni della xi prodotte da errori casuali nella misura della xi stessa, sono molto piu’ piccole delle incertezze della yi stessa. Questo e’ equivalente , in prima approssimazione, alla richiesta, che per ogni punto misurato: dy σ x | |<< σ y dove dy/dx e’ la pendenza della curva y = y(x). dx Se le incertezze indotte dalla x non sono trascurabili, la procedura di fit sara’ ancora dy sufficientemente accurata se stimiamo il contributo σ yI = σ x | | , e combiniamo, in quadratura, dx questo contributo con quello diretto σ yD , che e’ l’incertezza di misura di y: 2 σ y2 = σ yI2 + σ yD Con questa assunzione, l’incertezza nei dati si associa solo alla variabile y dipendente, mentre le corrispondenti fluttuazioni possono avere origine sia dall’incertezza sulle x sia da quella sulle y. In quei casi dove l’incertezza nella determinazione della quantita’ indipendente sono considerevolmente piu’ grandi di quelle sulla quantita’ dipendente, e’ piu’ opportuno scambiare i ruoli delle due quantita’. 15 FIT POLINOMIO DI ORDINE m. y = a0 + a1 x + a2 x 2 + ... + am x m Per l’esecuzione del calcolo degli elementi delle matrici e’ opportuno usare un metodo che semplifica la procedura e la riconduce a operazioni di prodotto di matrici, inversione e trasposizione di matrici. 1 K 1 ⎞ ⎛ 1 ⎟ ⎜ ⎜ x1 x2 K xn ⎟ xi: i=1,…,n valori variabile x; m=grado del polinomio H =⎜ M M M ⎟ ⎟ ⎜ m m m⎟ ⎜x x L x n ⎠ 2 ⎝ 1 ⎛1 x1 ⎜ ⎜1 x 2 T H =⎜ ⎜M M ⎜1 x n ⎝ ⎛ 1 2 ⎜ σ1 ⎜ ⎜ 0 C =⎜ ⎜ M ⎜⎜ 0 ⎝ K x1m ⎞ ⎟ K x2m ⎟ M ⎟⎟ L xnm ⎟⎠ 0 1 σ 22 L matrice trasposta 0 ⎞⎟ ⎟ ⎟ ⎟ ⎟ 1 2⎟ σ n ⎟⎠ σi2: varianza del valore yi; i=1,…,n D = H ⋅C ⋅ H T D −1 = ( H ⋅ C ⋅ H T ) −1 16 ⎛ y1 ⎞ ⎜ ⎟ ⎜y ⎟ Inoltre, indicando con: Y = ⎜ 2 ⎟ e con: B = H ⋅ C ⋅ Y M ⎜ ⎟ ⎜y ⎟ ⎝ n⎠ −1 A= D B A = ( H ⋅ C ⋅ H T ) −1 ( H ⋅ C ⋅ Y ) si ottiene: ⎛ a0 ⎞ ⎜ ⎟ ⎜a ⎟ A=⎜ 1 ⎟ M ⎜ ⎟ ⎜a ⎟ ⎝ m⎠ Esempio: yi = a0 + a1 x + a2 x 2 ; ( xi , yi ± σ i ) ; i=1,…,n ⎛1 ⎜ H = ⎜ x1 ⎜ x2 ⎝ 1 1 x2 x22 ⎛1 x1 ⎜ L 1⎞ ⎟ ⎜1 x 2 T L xn ⎟ H = ⎜ ⎜M M L xn2 ⎟⎠ ⎜1 x n ⎝ ⎛ ⎜ x12 ⎞ ⎟ ⎜ x22 ⎟ ⎜ C =⎜ ⎟ M ⎟ ⎜ xn2 ⎟⎠ ⎜⎜ ⎝ 1 σ 12 0 M 0 0 L 1 σ 22 0 L 0 ⎞⎟ ⎛ y1 ⎞ ⎜ ⎟ ⎟ 0 ⎟ ⎜ y2 ⎟ = Y ⎜ M ⎟ ⎟ M ⎟ ⎜ ⎟ ⎜y ⎟ 1 2⎟ ⎝ n⎠ ⎟ σn ⎠ ESEMPI di interpolazione degli stessi dati con polinomi di ordine successivo. 17 T@sD PRIMA PARABOLA ToHdL 2.3 2.2 2.1 2 T@sD 400 600 800 600 800 1000 SECONDA PARABOLA To'HdL 1200 d@mm D 2.1 2.08 2.06 2.04 2.02 400 1000 1200 d@mmD 1.98 18 T@ sD PRIMA CUBICA ToHdL 2.3 2.2 2.1 400 T @sD 600 800 1000 1200 d@mm D SECONDA CUBICA To'HdL 2.3 2.2 2.1 400 600 800 1000 1200 d@mmD 19 T@s D PRIMA QUARTICA ToHdL 2.3 2.2 2.1 2 0 T@sD SECONDA QUARTICA To'HdL 400 600 800 1000 1200 1400 d @mmD 2.15 2.1 2.05 2 0 400 600 800 1000 1200 1400 d@mmD 20 T@sD CURVA DI QUINTO GRADO To 2.6 2.4 2.2 2 0 400 600 800 1000 1200 1400 d@ mmD 21 TEST χ2:Accordo tra una distribuzione teorica ed una sperimentale. Con il test normale e di Student, abbiamo costruito dei test di ipotesi che specificano i valori di uno o piu’ parametri della popolazione. Essi si possono indicare come test parametrici. La procedura consiste nel rigetto o accettazione di una ipotesi sulla base sulla base di un singolo numero determinato dal campione. Un’altra classe di test confronta la funzione di distribuzione del campione direttamente con la distribuzione della popolazione ; quest’ultima puo’ essere basata su alcune ipotesi. Si vuole stabilire se vi e’ accordo tra una distribuzione teorica ed una sperimentale, se l’istogramma delle frequenze sperimentali e’ compatibile con una distribuzione limite attesa , ottenibile solo nel caso di un numero infinito di misurazioni. Negli esempi in figura sono riportati i casi in cui la distribuzione limite attesa sia gaussiana, uniforme ed esponenziale. In tutti e tre i casi ci si aspetta che all’aumentare del numero di prove , all’aumentare della grandezza del campione, la distribuzione sperimentale approssimi sempre meglio quella attesa. Sono mostrate le fluttuazioni statistiche possibili in campioni di grandezza N=100, e come esse diminuiscano all’aumentare della grandezza del campione N=1000 e N=100000 . Se si dispone di campioni di grandezza finita ad esempio N = 100, come si puo’ stabilire se le fluttuazioni tra campione e campione e tra istogramma e distribuzione limite ipotizzata siano solo casuali?. Il test del χ2 puo essere utilizzato per rispondere alla domanda. GAUSSIANA 100 values 100 values -4 -2 0 2 4 -4 -2 0 2 4 100 000 values 1000 values -4 -2 0 2 4 -4 -2 0 2 4 22 UNIFORME 100 values 100 values 0 0.2 0.4 0.6 0.8 0 1 0.2 0.4 0.6 0.8 1 1000 values 100 000 values 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 ESPONENZIALE 100 values 100 values 0 2 4 6 8 0 2 4 1000 values 0 2 4 6 8 100 000 values 6 8 0 2 4 6 8 Si abbia una variabile casuale x. Si disponga di n dati sperimentali xi. Si divida l’intervallo delle eventualita’ di x in k classi tra loro mutuamente esclusive e di ampiezza Δx. Sia pi la probabilita’ che un valore di x cada nella classe i-esima. Si indichino con Oi le frequenze sperimentali osservate,ossia il numero di volte che si sono presentati i valori di x in tale classe (intervallo). Se Oi rappresenta la frequenza assoluta in quella 23 classe, νi = Oi/n rappresenta la frequenza relativa. Si costruisca l’istogramma delle frequenze sperimentali. Si indichino con Ei le frequenze assolute teoriche attese : Ei = n pi. La frequenza relativa teorica attesa coincide con pi . La k k 1 1 ∑ Oi = n ; ∑ pi = 1 Se le variabile x e’ discreta Ej = n pj Se la variabile x e’ continua e f(x) e’ la funzione densita’ di probabilita’, le probabilita’ per valori di x di appartenere alla classe j sono: p j = ∫ xj + Δx xj f ( x)dx ≅ f ( x*j ) • Δx dove f ( x*j ) e’ calcolato nel valore centrale della classe j. Il numero atteso di valori nella classe j vale : Ej = n pj. La distribuzione congiunta delle frequenze in prove ripetute ed indipendenti e’ multinomiale: n! P(O1 , O2 ,..., Ok ) = ( P1 ) O1 ( P2 ) O2 ...( Pk ) Ok . O1!O2 !,..., Ok ! Le deviazioni standard valgono : σ i = npi qi , e se: pi <<1 allora σ i = npi = Ei . In ogni classe la distribuzione delle frequenze Oi si puo’ assumere segua la distribuzione di Poisson di valore medio Ei e varianza σ i2 = Ei . Si usano le frequenze assolute Ei come frequenze vere , come norma, in ogni classe. La quantita’ ( Oi – Ei)2 si puo’ ragionevolmente assumere come una misura della deviazione delle frequenze teoriche Ei dalle sperimentali Oi. Si debbono confrontare tra di loro le deviazioni dalla norma delle varie classi, ed e’ necessario normalizzare tra di loro gli scarti. (O − Ei ) 2 Consideriamo come scala, come misura di ogni deviazione il rapporto i . Ei (Oi − Ei ) 2 , lo possiamo considerare come una misura della deviazione Ei 1 totale. Sostituendo e sviluppando il quadrato si ottiene k k k k k O 2 + Ei2 − 2Oi Ei O2 k O2 (Oi − Ei ) 2 χ '2 = ∑ =∑ i = ∑ i + ∑ Ei − 2∑ Oi = ∑ i − n . Ei Ei 1 1 1 Ei 1 1 1 Ei k Allora il valore χ ' 2 = ∑ k Se consideriamo le frequenze assolute vale inoltre la relazione: k ∑ E = ∑O i 1 i =n. 1 La variabile χ ' 2 e’ distribuita asintoticamente come una variabile χ 2 con DF = (k – 1 )gradi di liberta’. Infatti , a causa del vincolo: k k 1 1 ∑ Ei = ∑ Oi = n , solamente (k – 1 ) variabili Oi sono realmente indipendenti. Se non si stimano parametri della distribuzione teorica ipotizzata f(x) i gradi di liberta’ restano ( k-1). Se si devono stimare h parametri della distribuzione , i gradi di liberta’ si riducono di numero : DF = k – 1 – h, poiche’ si impongono (h + 1) vincoli sui dati. Affinche’ la distribuzione χ ' 2 sia approssimata da quella χ 2 assume importanza il valore della frequenza assoluta attesa Ei in ogni classe. Esse debbono essere in ogni classe : Ei = n pi > 5. Questo potra’ venire realizzato con opportuni raggruppamenti di classi. 24 Se si assume che la variabile i-ma si comporti approssimativamente come una variabile di Poisson (O − Ei ) 2 di valore medio μ = Ei e varianza σ2 = Ei allora il rapporto i rappresenta il quadrato di Ei una variabile standardizzata di Poisson. Per μ > 5 una variabile di Poisson puo’ gia’ essere ben k (Oi − Ei ) 2 2 approssimata da una variabile gaussiana, e la sommatoria: ∑ = χ DF = ∑ zi2 , risulta la Ei 1 somma del quadrato di k variabili normali centrate e ridotte , ossia una variabile χ2 con DF = ( k-1-h) gradi di liberta’. Calcolato il valore χ '2 per applicare il test del χ 2 si deve decidere prima sul valore del livello di fiducia e in base a questo si determinano i limiti della regione critica χα2 tale che ∞ 2 P ( χ DF > χα2 ) = α = ∫ 2 f DF ( χ 2 )dχ 2 (Uso tabelle). χa Le successive decisioni sono fissate avendo scelto la regione di accettabilita’ dell’ipotesi H0. Se il valore χ M2 calcolato cade al di fuori della regione di fiducia ( χ M2 > χα2 ), nella zona di rigetto, allora la distribuzione teorica non si adatta bene ai nostri dati al livello di fiducia di α. c 2 0.95H4L = 0.711 and c 2 0.05H4L = 9.488 0.3 0.2 0.1 2 4 6 8 10 12 - 0.1 Considerazioni La distribuzione limite teorica (Ei) ci dice quanti eventi di un certo tipo sono attesi in una certa classe quando il numero delle prove n e’ molto grande (n → ∞). Ei = n pi: numero medio di conteggi attesi nella classe i. In pratica, se ripetessimo la prova molte volte (se ricavassimo molti campioni di grandezza n) il numero Oi osservato di eventi in ogni classe fluttuerebbe da una prova all’altra: Oi segue 25 approssimativamente una distribuzione di Poisson. I diversi valori Oi dovrebbero avere valori medi μ=Ei e dovrebbero fluttuare intorno ad Ei con σ=√Ei (errore statistico). Cosi’ i numeri da confrontare sono le deviazioni (Oi - Ei) e σ=√Ei. Pertanto la quantita’: (Oi − Ei ) 2 Ei per alcuni dei k intervalli potra’ essere >>1, per altri <<1, in media ≈1. χ χ2 χ2 χ2 (Oi − Ei ) 2 e’ indice dell’accordo: =∑ Ei 1 = 0: accordo perfetto (molto improbabile); ≤ D.F.: accordo; >> D.F.: vi e’ il sospetto che la misura si discosti dal valore atteso. 2 k (Oi − Ei ) 2 e’ la variabile standardizzata al quadrato. Gli intervalli dovrebbero essere scelti in modo Ei che il conteggio atteso Ei in una classe sia ragionevolmente grande (>5). Se i numeri in gioco sono ragionevolmente grandi la distribuzione di Poisson e’ ben rappresentata dalla distribuzione normale, quindi i numeri Oi possono essere trattati come fossero variabili casuali continue, distribuiti attorno al valore medio Ei secondo la gaussiana, anche se nei problemi considerati Oi e’ una variabile discreta distribuita secondo Poisson. k Allora χ '2 = ∑ (variabile normale standardizzata)2 puo’ essere pensata come una variabile χ2 e i =1 seguire la fDF(χ2) distribuzione χ2 con gradi di liberta’ DF=k-h-1 (nel caso di una gaussiana in cui sono stimati 2 parametri μ e σ, occorre che k≥4) La condizione per cui Oi segua Poisson e’: pi<<1. Bisogna quindi impostare un numero opportuno di classi perche’ essa sia verificata. Occorre sottolineare, nel caso di una variabile continua, che il confronto tra le frequenze sperimentali, variabili discrete, e le frequenze teoriche, variabili continue, e’ tanto piu’ attendibile quanto piu’ n e’ grande e l’ampiezza della classe Δx e’ piccola. (fare riferimento anche agli esempi gia’ trattati in Lab. 1) 26 TEST χ2 : Esempio per una distribuzione di Poisson Rutherford e Geiger in una celebre esperienza studiarono le emissioni di particelle a da un preparato radioattivo . Divisero il tempo in N = 2608 intervalli uguali aventi la durata di Δt = 7.5 s ciascuno, e misurarono il numero Xi di particelle emesse in ogni intervallo. Ottennero i risultati dalle prime due colonne della Tab 1. dove: Oi è il numero di intervalli in cui furono emesse Xi particelle. Ei: rappresenta il numero di intervalli in cui ci si aspetta siano emesse Xi particelle se la distribuzione e’ quella di Poisson con valore medio μ = x Xi Oi 0 57 1 203 2 383 3 525 4 532 5 408 6 273 7 139 8 45 9 27 ≥10 νi P(Xi) (Oi -Ei)2/E Ei 54 0,022 211 0.078 407 0.147 525 0.201 508 0.204 394 0.156 254 0.105 140 0.533 68 0.017 29 0.010 0,021 0.081 0.156 0.201 0.194 0.151 0.097 0.054 0.026 0.011 600 0.11 0.298 1.52 0.0 1.1 0.55 1.5 0.01 7.60 0.14 500 400 Serie1 300 Serie2 200 100 0 0 1 2 3 4 5 6 7 8 9 10 La figura riporta l’andamento delle frequenze Oi ed Ei L’accordo e’ buono. Un criterio per valutare l’accordo e’ il test del χ2 TEST χ2 . Ipotesi nulla H0 : la distribuzione e’ poissoniana. Stimiamo i valori attesi Ei= P(Xi)●N secondo tale ipotesi. 10 μ = x= ∑ xi Oi 0 10 ∑O 10 =3.87 ; S 2 = ∑ (xi − x) 0 N − 1 2 = 3.63. i 0 La teoria richiede s2 = μ : l’accordo e’ buono μ xi • e − μ 3.87 xi • e −3.87 νi = Oi / N ; P ( xi ) = = xi ! xi ! Ei = N ●P(Xi) ; N= ∑Oi = 2608 ( 1 vincolo). Stimato il parametro μ ( secondo vincolo) . Numero classi = 11. I valori di P(Xi) e di Ei sono indicati in tabella. Indicare gli errori statistici sull’istogramma delle frequenze. Il valore del χ2M = ∑ (Oi-Ei)2/Ei = 11.3. I gradi di liberta’sono: DF=(11-2)=9. Il valore di χ2M ridotto = χ2M / DF = 1. 2 P(χ2DF=9 ≥χ2M) = 29%. L’ipotesi di distribuzione poissoniana e’ accettata al livello di significativita’ del 29%. 27 I valori di χ2 critici per D.F.= 9 sono , fissato un livello di fiducia del 5%, :limite a sinistra=3.33 limite destro= 16.92. Il valore di χ2M = 11.3 cade entro tali limiti. L’ipotesi Ho si ritiene accettata. Esempio Si ottenga un campione di n = 120 lanci di un dado, che si suppone, non truccato. Nel caso di un dado non truccato, le probabilita’ che si presentino le facce 1,2,3,4,5,6 sono tutte eguali: p1=p2=p3=p4=p5=p6=1/6 . Le corrispondenti frequenze assolute attese Ei sono: np1 = np2 = …= np6= 120 (1/6) = 20. Le frequenze realmente osservate Oi potranno essere diverse. i Oi Ei = n pi Oi - Ei (Oi-Ei)2 1 22 20 2 4 2 11 20 -9 81 3 10 20 -10 100 4 17 20 -3 9 5 35 20 15 225 6 25 20 5 25 Si vuole controllare l’accordo tra l’andamento delle frequenze osservate Oi e l’andamento della distribuzione di quelle teoriche attese, che si postula sia costante e pari a Ei = 20. Se l’accordo non fosse buono, l’ipotesi di dado non truccato potrebbe non essere vera. k k (Oi − npi ) 2 (Oi − Ei ) 2 '2 Si costruisce la variabile χ = ∑ . =∑ npi Ei 1 1 (Oi − npi ) 2 = zi si puo’ supporre In ogni classe il valore atteso Ei = n pi e’ Ei > 5 , e la variabile npi (Oi − npi ) 2 segue una distribuzione una variabile normale centrata e ridotta. La variabile χ = ∑ npi 1 χ2 con DF = k -1 gradi di liberta’. Le probabilita’ pi = 1/6 si suppongono note, e quindi non si k '2 k debbono stimare parametri . Esiste un vincolo, poiche’ ∑O i = n , e le variabili realmente 1 indipendenti non sono k ma (k -1). In questo caso il numero di variabili e k =6 e DF = 6 -1 = 5. 6 6 (Oi − Ei ) 2 (Oi − 20) 2 444 =∑ = = 22.2 Il valore di χ2M vale χ M2 = ∑ 20 20 Ei 1 1 Se si fissa un livello di fiducia α = 5% , per un valore DF =5 , il valore critico risulta χ2c = 11.07. Il valore di χ2M osservato supera il valore critico al livello di significativita’ del 5 %. Si scarta l’ipotesi che le probabilita’ siano eguali e pari a pi = 1/6, e che Ei =n pi = 20. Le frequenze osservate differiscono in maniera significativa da quelle attese e si rigetta l’ipotesi che ci sia accordo tra i valori di frequenza misurati e la forma ipotizzata , che prevede Ei = npi = 20. La discrepanza tra valori osservati e quelli attesi non puo’ essere imputata solamente a fluttuazioni casuali , l’ipotesi che il dado non sia truccato viene rigettata al livello di significativita’ del 5%. Se α = 1% e DF = 5 il valore di χ2c risulta χ2c = 15. L’ipotesi che il dado non sia truccato puo’ venire rigettata anche al livello di significativita’ del 1%. Il rigetto e’ altamente significativo, si puo’ commettere un errore di I tipo con probabilita’ inferiore all’ 1%. 28 c 2 0.95H5L = 1.145 and c 2 0.05H5L = 11.070 0.3 c 2 0.99H5L = 0.554 and c 2 0.01H5L = 15.086 0.3 0.2 0.2 0.1 0.1 2 4 6 8 10 12 2 14 4 6 8 10 12 14 - 0.1 - 0.1 Appendice 2:Esempio del significato delle correlazioni tra i coefficienti stimati col MMQ. 2.05 2.025 -1 -0.5 0.5 1 1.975 1.95 1.925 Fig 1:andamento del periodo attorno al coltello O in funzione del tempo. I punti sono interpolati, previa traslazione dell’asse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica) 2.02 -1 -0.5 0.5 1 1.98 1.96 1.94 Fig2:andamento del periodo attorno al coltello O1 in funzione del tempo. I punti sono interpolati, previa traslazione dell’asse delle ascisse nel baricentro dei valori di , con una parabola (vedi programma di Mathematica) 29 2.05 2.025 -1 -0.5 0.5 1 1.975 1.95 1.925 Fig 3: calcolo del valore del periodo in corrispondenza dell’intersezione delle due parabole 2.02 -1 -0.5 0.5 1 1.98 1.96 1.94 1.92 1.9 scatter ab scatter ac 0.02 0.12 0.015 0.11 0.01 0.005 1.895 1.905 1.91 1.915 0.09 1.895 1.905 scatter 1.91 1.915 bc 0.12 0.11 0.005 0.01 0.015 0.02 0.09 30 60 50 40 30 20 10 1.895 1.9 0 0.005 1.905 1.91 1.915 50 40 30 20 10 0.01 0.015 0.02 60 40 20 0.09 0.1 0.11 0.12 Fig 4: correlazione tra i coefficienti dei parametri di una parabola T=A+ Bd+Cd2 ottenuti col metodo dei minimi quadrati. La figura riporta il coefficiente di correlazione (covarianza) tra i parametri A-B, A-C, B-C. Come si nota i coefficienti di correlazione A-B e B-C sono fra di loro scorrelati, infatti il diagramma mostra un coefficiente di correlazione prossimo a 0 . I coefficienti A e C sono invece correlati come mostrato dal diagramma che indica una correlazione diversa da 0 e negativa. La correlazione pari a 0 tra i coefficienti A e B e tra i coefficienti B e C è ottenuta grazie alla traslazione dell’asse delle ascisse nel baricentro delle di. Presa la serie di punti T(di )± σ i e interpolandoli si ottiene una parabola di coefficienti Ai, Bi, Ci. Facendo variare ogni valore di entro l’errore σ i secondo, una distribuzione gaussiana, si ottiene un’altra serie di dati che interpolati forniscono altri coefficienti Ai, Bi, Ci. Il procedimento si ripete N volte ottenendo una serie del valore degli stessi con i=1…N. Negli istogrammi sono riportati le distribuzioni ottenute dei valori dei coefficienti A, B ,C. I diagrammi riportati sopra si ottengono mettendo in correlazione i vari coefficienti ottenuti. 31 Rapporto di verosimiglianza. Principio di massima verosimiglianza. Si supponga che f(x, λ) sia una funzione densita’ di probabilita’ caratterizzata da k parametri (λ1, λ2, …, λn). Sia x1, x2, …, xn un provino ottenuto da n misurazioni di una data grandezza fisica, il cui comportamento e’ assimilabile a quello della variabile casuale x. L’espressione dPj = f ( x j , λ )dx j e’ la probabilita’ di ottenere il valore x compreso tra xj e xj+dxj. Se gli n risultati xj si suppongono indipendenti, allora la probabilita’ che x1 sia compreso tra x1 e x1+dx1, x2 tra x2 e x2+dx2, …, e’ data dal valore della probabilita’ congiunta: n dP = ∏ f ( x j , λ )dx j funzione di k parametri j =1 n L’espressione produttoria: L = ∏ f ( x j , λ ) e’ detta funzione di verosimiglianza. Essa non deve j =1 essere identificata con una funzione densita’ di probabilita’ in senso stretto, anche se ne ha le caratteristiche. Il termine “verosimiglianza” indica che essa ha il significato di una funzione densita’ di probabilita’ non a priori ma a posteriori, essendo definita sul provino di dati a disposizione. Si supponga, per semplicita’, che la popolazione sia caratterizzata da un solo parametro che puo’ assumere al piu’ due valori λ1 e λ2, distinti tra loro. Si puo’ costruire il rapporto: n ∏ f (x ,λ ) j Q= 1 j =1 n ∏ f (x ,λ ) j rapporto di verosimiglianza 2 j =1 Esempio: λ=parita’ di uno stato; λ1=dispari; λ2=pari Il risultato del processo di campionamento puo’ indicare che l’insieme col parametro λ=λ1 e’ Q volte piu’ probabile dell’insieme allorche’ λ=λ2. Esempio: viene lanciata una moneta asimmetrica. 5 lanci: 1 volta T; 4 volte C Tre ipotesi: A – PT=1/3; PC=2/3 B – PT=2/3; PC=1/3 C – PT=1/2; PC=1/2 A seguito dei risultati dell’esperimento, la funzione di verosimiglianza ha valore: 1⎛ 2⎞ ipotesi A → L A = ⎜ ⎟ 3⎝ 3⎠ 4 2⎛1⎞ ipotesi B → LB = ⎜ ⎟ 3⎝ 3⎠ 4 4 1⎛1⎞ ipotesi C → LC = ⎜ ⎟ 2⎝2⎠ e dunque i rapporti di verosimiglianza risultano: Q AB = LA LB = 8 Q AC = LA LC = 2.1 QBC = LB LC = 1.8 La verosimiglianza dell’ipotesi A e’ la piu’ alta fra tutte; e’ molto probabile che la moneta appartenga alla classe A piuttosto che alla classe B o C. Esempio: π1=0.4 e π2=0.2 rappresentino la proporzione di individui di gruppo sanguigno Rh- in due diverse popolazioni. Si considerino le popolazioni bernoulliane e si osservi un campione di 20 individui: x=6 soggetti presentano questa caratteristica. 32 Ipotesi 1 → il campione proviene dalla popolazione π1 x L( x, π 1 ) = π 1 (1 − π 1 ) n − x = 0.4 6 0.614 = 0.0000032 Ipotesi 2 → il campione proviene dalla popolazione π2 x L( x, π 2 ) = π 2 (1 − π 2 ) n − x = 0.2 6 0.814 = 0.0000028 L ( x, π 2 ) = 0.875 Q= L ( x, π 1 ) La verosimiglianza dell’ipotesi riferita alla popolazione π2=0.2 e’ del 12.5% piu’ bassa. La funzione di verosimiglianza e di massima verosimiglianza. Stima di parametri. n La funzione di verosimiglianza L = ∏ f ( x j , λ ) considerata come funzione di λ puo’ presentare uno j =1 o piu’ massimi. 1) Un solo massimo λ1 con simmetria attorno a λ1: in tal caso λ1 e’ la miglior stima di λ e la σ λ21 puo’ essere presa come errore sulla stima di λ1. 2) Un solo massimo λ1 con asimmetria attorno a λ1: in tal caso λ1 e’ la miglior stima di λ ma la σ λ21 e’ poco significativa. Presentare L(λ) e λ1. 3) Piu’ massimi: e’ preferibile scegliere il λ che corrisponde al massimo dei massimi di L(λ). Riportare L(λ). Determinazione del massimo La ricerca del massimo di L(λ) viene fatta risolvendo l’equazione: dL(λ ) =0 dλ n E’ preferibile dapprima calcolare: l = ln L = ∑ ln f ( x j , λ ) e poi farne la derivata. La posizione dei j =1 massimi di L(λ) e di ln L(λ) e’ la stessa. Se si considera un solo parametro λ, si puo’ risolvere l’equazione: n dl d ln L n d f' n l'= = =∑ ln f ( x j , λ ) = ∑ = ∑ ϕ ( x j , λ ) dλ dλ j =1 dλ j =1 f j =1 Se i paramtri sono k, si dovra’ risolvere il sistema di equazioni: dl = 0 con i=1,2,…,k dλi Stima dell’errore Se il numero delle osservabili e’ grande, L tende ad una gaussiana, almeno in prossimita’ del massimo, e l tende ad una funzione parabolica nella regione in cui la sua derivata si annulla. La miglior stima del parametro λ e’ il valore λ0 che rende massime sia L che l. La precisione con cui si determina λ0 e’ determinata dalla condizione: 2 l (λ0 ± δ λ ) = lmax − 1 che e’ equivalente alla: (δ λ ) = σ 2 ( L) 2 33 −1 / 2 ⎛ ∂ 2l ⎞ Infatti, nel caso in cui L e’ circa gaussiana, si ha: σ ( L) = ⎜⎜ − 2 ⎟⎟ ⎝ ∂λ ⎠ λ0 Nel caso piu’ generale di piu’ parametri , i valori di essi si ottengono risolvendo il sistema: dl = 0 ⇒ λi dλi Se L e’ gaussiana: ⎞ ⎛ σ λ21 ⎟ ⎜ 2 σ ⎟ ⎜ ∂ 2l λ2 H ij = − Eij = (H −1 )ij Eij = ⎜ ⎟ ∂λi ∂λ j O ⎟ ⎜ 2 ⎟ ⎜ σ λk ⎠ ⎝ Stima di μ e media pesata La misura di una grandezza fisica ha un comportamento assimilabile a quello di una variabile casuale normale con madia μ. La generica misura xj abbia varianza sj2. La probabilita’ a posteriori di ottenere un valore di x compreso tra xj e xj+dxj e’ data da: f ( x j , μ )dx j = 1 e 2π s j Se le misure sono n, allora: n L=∏ j =1 ( ⎡ x j −μ −⎢ 2 ⎣⎢ 2 s j ( ⎡ x j −μ ⎢ 2 s 2j − ⎢ 1 e ⎣ 2π s j )2 ⎤⎥ ⎦⎥ dx j )2 ⎤⎥ ⎥⎦ 2 1 1 n ⎧⎪ (x j − μ ) ⎫⎪ n l = ln L = − ∑ ⎨− ⎬ + ∑ ln 2 sj 2 j =1 ⎪⎩ 2π s j ⎪⎭ j =1 Se vogliamo stimare μ, dobbiamo risolvere l’equazione: xj dl 1 n ( x j − μ ) 1 l'= = 2∑ = 0 ⇒ ∑ 2 − μ∑ 2 = 0 2 dμ 2 j =1 s j sj sj xj μ= ∑s 2 j 1 ∑ s2 j valore medio delle misure, ciascuna pesata sull’inverso dell’errore al quadrato Se le sj sono tutte uguali: μ = 1 ∑ xi = x n Errore su μ: 1 ∂ 2l = −∑ 2 2 sj ∂μ ⎛ ∂ 2l ⎞ σ μ = ⎜⎜ − 2 ⎟⎟ ⎝ ∂μ ⎠ −1 / 2 = 1 1 ∑s 2 j Media pesata: esempio. 34 Supponiamo di misurare la tensione di una cella fotovoltaica. n1 = 40 misure V1 = 1.021 V sV1 = 0.010 V Prendiamo piu’ confidenza e impariamo a migliorare lo strumento usandolo meglio, miglioriamo la precisione intrinseca dell’apparato (sv) di 2.5 volte: n2 = 10 misure V2 = 1.019 V sV2 = 0.004 V 0.01 0.004 = 0 . 0016 V σ = = 0.0013 V V 1 2 40 10 Il confronto mostra che il fatto di fare piu’ misure decresce l’errore come 1 / n , ma questo non e’ cosi’ importante come migliorare decisamente la precisione dell’apparato. Combiniamo le due serie di misure: V 40 10 ∑ σ i2 (0.01) 2 (1.021) + (0.004) 2 (1.019) i V = = = 0.39(1.021) + 0.61(1.019) = 1.0196 V 1 40 10 + ∑σ 2 (0.01) 2 (0.004) 2 i σV = σV = 1 1 σ V2 + 1 = 0.0010 V 1 σ V2 2 Sebbene vi siano 40 misure nella prima serie e solo 10 nella seconda, nella valutazione della media il risultato della seconda serie pesa circa il doppio perche’ il suo errore e’ 2.5 volte minore. Stima di σ2(noto μ ) Sia noto μ e incognita σ2 (con le sj tutte uguali). f ( x, μ , σ ) = 1 e 2π σ ⎡ ( x − μ )2 ⎤ ⎥ −⎢ ⎢⎣ 2σ 2 ⎥⎦ n ( x − μ )2 ⎛ 1 ⎞ − ∑ 2i σ 2 L = ∏ f ( xi , μ ,σ ) = ⎜ ⎟ e i =1 ⎝ 2π σ ⎠ n 1 l = ln L = − ln(2πσ 2 ) − ( xi − μ ) 2 2 ∑ 2 2σ ∂l n 2π 1 l'= =− + ( xi − μ ) 2 2 2 2 2 ∑ ∂σ 2 2πσ 2(σ ) 2 Per determinare σ si deve porre: l’=0 n ∑ ( xi − μ ) 2 = 0 ⇒ σˆ 2 = ∑ ( xi − μ ) 2 − + n 2σ 2 2(σ 2 ) 2 n Errore su σ2: ⎤ ⎡ ⎢ 1 ⎥ ⎥ σˆ 2 = ⎢− ∂ 2l ⎥ ⎢ ⎢ ∂ (σ 2 ) 2 ⎥ 2 2 ⎦ σ =σˆ ⎣ 35 ( xi − μ ) 2 ⎛ n ∂ 2l 2 ⎞ ⎜⎜ − 2 3 ⎟⎟ = +∑ 2 2 2 2 ∂ (σ ) 2(σˆ ) 2 ⎝ (σˆ ) ⎠ La l” va calcolata per σ 2 = σˆ 2 = ∑ (x i − μ )2 : n ⎛ ∂ 2l ⎞ n nσˆ 2 ⎛ 2 ⎞ n ⎜⎜ ⎟ = + ⎜− 6 ⎟ = − 4 2 2 ⎟ 4 2 ⎝ σˆ ⎠ 2σˆ ⎝ ∂ (σ ) ⎠σˆ 2 2σˆ Quindi: 2σˆ 4 Var (σˆ ) = n 2 ⇒ σ σˆ 2 = 2 2 σˆ n N.B.: se non conosciamo μ e lo stimiamo con x allora σ2 e’ stimato da s 2 = quindi σ s22 = 1 ( xi − x ) 2 e ∑ n −1 2σ 4 (n − 1) Distribuzione di Bernoulli: stima di p Un evento a di probabilita’ incognita p si e’ presentato x volte in n prove. Qual e’ il valore piu’ probabile di p? Vogliamo fare una stime di p. ⎛n⎞ Distribuzione di Bernoulli: la probabilita’ di ottenere x successi in n prove e’ pari a ⎜⎜ ⎟⎟ p x (1 − p ) n − x ⎝ x⎠ Scegliamo una funzione di verosimiglianza: ⎛n⎞ x! L( x, p ) = ⎜⎜ ⎟⎟ p x (1 − p ) n − x = p x (1 − p ) n − x n!(n − x)! ⎝ x⎠ che va intesa come una funzione della sola p (il nostro parametro). ⎛n⎞ l = ln L = x ln p + (n − x) ln(1 − p) + ln⎜⎜ ⎟⎟ ⎝ x⎠ Per stimare p occorre risolvere: l’=0 dl x n − x x − xp − np + xp x l'= = 0 ⇒ x − np = 0 ⇒ p = = − =0⇒ dp p 1 − p p(1 − p) n x Pertanto la frequenza relativa ν = e’ la stima di massima verosimiglianza del parametro p della n distribuzione binomiale. Per n → ∞ si ha: ν → p (stima consistente) E(ν)=p (stima corretta) Se ripetiamo la serie di n prove r volte, ottenendo r valori {x1, x2, …, xr}, allora: r ⎛n⎞ L( xi , p) = ∏ ⎜⎜ ⎟⎟ p xi (1 − p) n − xi i =1 ⎝ xi ⎠ r r r ⎛n⎞ l = ln L = ∑ xi ln p + ln(1 − p)∑ (n − xi ) + ∑ ln⎜⎜ ⎟⎟ i =1 i =1 i =1 ⎝ xi ⎠ 1 dl 1 = ∑ xi − l'= ∑ (n − xi ) = 0 1− p dp p ∑ xi = 1 xi = 1 ν = ν p= ∑ n r∑ i nr r 36 (frequenza relativa media) Distribuzione di Poisson: stima di λ Sia λ il parametro stimatore del valore medio della distribuzione di Poisson: λx e − λ f ( x, λ ) = x! In n prove otteniamo { x1, x2, …, xn}, con σ i = ± xi e ∑ xi = N . La funzione di verosimiglianza per il dato campione e’: n λ xi e − λ L=∏ xi ! i =1 l = ln L = ∑ {xi ln λ − ln ( xi !) − λ } dl ⎧x ⎫ 1 = ∑ ⎨ i − 1⎬ = ∑ xi − n dλ ⎩λ ⎭ λ La stima di verosimiglianza di λ si ottiene risolvendo: l’=0 1 n ∑ xi = x ⇒ = ⇒λ = λ ∑ xi n x x e’ uno stimatore corretto e ha varianza minima: σ x2 = n ⎞ 1 ⎛ 1⎞ ⎛ ⎟ = 1 =x σ x2 = ⎜ − ⎟ = ⎜⎜ − 2 ⎟ ⎝ l" ⎠ x ⎝ (∑ xi )/ λ ⎠ x nx n x2 Quindi la stima di massima verosimiglianza del valore medio di una variabile di Poisson e’ data da: x λˆ = x σ λˆ = n x σ λˆ n = 1 = 1 = 1 = ˆ x xn λ ∑ xi N l'= In una sola prova: λˆ = xi σ λˆ = xi σ λ2ˆ = xi Se gli intervalli di tempo ti in cui si effettuano i conteggi xi non sono uguali: (λti ) xi e − λti ˆ ∑ xi N σ λˆ 1 P ( xi ) = λ= = = xi ! ∑ ti T λˆ N 37 Stima. Stimatori e loro proprieta’ Uno degli scopi della statistica inferenziale e’ quello di ottenere informazioni circa i parametri della popolazione, che devono essere considerati fissi, a partire dai valori determinati in base al campione, che sono invece variabili casuali. I parametri, infatti, quali μ e σ, sono delle costanti numeriche, mentre i corrispondenti stimatori x e s sono variabili casuali che seguono una distribuzione di probabilita’. Il fine e’ quello di ottenere dai valori campionari indicazioni quanto piu’ precise possibile circa il valore vero delle quantita’ ignote, stime quanto piu’ possibile vicine ai parametri cercati. La metodologia adatta a raggiungere questo scopo costituisce una procedura che viene detta stima; si parla di stima puntuale quando fornisce un singolo valore del parametro in studio, oppure di stima per intervallo se consente di costruire un intervallo (fornisce due numeri) entro cui si puo’ supporre che il parametro sia compreso. La stima dei parametri di una popolazione consiste nel determinare uno stimatore, ossia una funzione t(x1, x2, …, xN) delle N determinazioni sperimentali xi della grandezza x che costituiscono il campione, che fornisce un valore “approssimato” del parametro. Nel caso della media, ad ∑ xi . Il valore di uno stimatore per un dato campione e’ detto esempio, la funzione t vale: x = N stima. Uno stimatore e’ una funzione di variabili casuali e, pertanto, una variabile casuale esso stesso; si puo’ parlare di valore medio e varianza di uno stimatore riferendoci alla popolazione dei possibili valori della stima in corrispondenza di tutti i possibili campioni. Per derivare uno stimatore puntuale, i criteri di stima piu’ usati sono: il metodo di massima verosimiglianza e il metodo dei minimi quadrati. Proprieta’ degli stimatori Ad uno stimatore si possono associare diverse caratteristiche che ne individuano la “bonta’”. Un buon stimatore deve essere: - consistente - corretto - efficiente Indichiamo con a la quantita’ da stimare e con â lo stimatore. Ad es.: a≡μ; â= x L’applicazione di uno stimatore â al campione di dati di N misure porta alla stima di a. Questa potra’ variare dal valore vero, a causa di fluttuazioni statistiche del campione. Pero’ se le misure sono indipendenti e non ci sono errori sistematici, per la legge dei grandi numeri questi effetti diventano sempre piu’ piccoli per N → ∞. Sembra ragionevole richiedere che per un buon stimatore la differenza fra stima e valore vero → 0 per N → ∞. Uno stimatore e’ consistente quando converge (in probabilita’) al valore vero del parametro: lim â = a N →∞ P(â=a) → 1: a mano a mano che la dimensione del campione aumenta, la stima ottenuta tende al valore vero. Condizione sufficiente e’ che la varianza dello stimatore → 0 per N → ∞. Esempio: la media x e’ uno stimatore consistente, infatti: ⎛ σ2 ⎞ ⎛ σ2 ⎞ ⎟ =1 lim P( x − μ < ε ) ≥ lim ⎜⎜1 − x ⎟⎟ = lim ⎜1 − N →∞ N →∞ ε ⎠ N →∞⎜⎝ n ε ⎟⎠ ⎝ 38 (disuguaglianza di Cebycev) La media, il valore medio di un campione, converge in probabilita’ alla media della popolazione: P x⎯ ⎯→ μ Per N finito non possiamo sperare che per un particolare campione di dati â abbia lo stesso valore di a; puo’ essere piu’ grande o piu’ piccolo. Possiamo richiedere che la probabilita’ di sovrastima bilanci quella di sottostima e in media coincida con il valore vero. Lo stimatore e’ corretto, cioe’ non distorto, senza “bias” se: E[â]=a ovvero se mediamente coincide con il valore vero di a. Esempio: la media x e’ uno stimatore corretto, poiche’: E (x ) = μ (la media di tutte le medie campionarie e’ uguale a μ) Il valore di â dipende dal campione, per cui â variera’ da campione a campione. Se la stima deve essere una buona misura del valore vero a, la dispersione dei suoi possibili valori deve essere la piu’ piccola possibile. Uno stimatore e’ detto efficiente quando ha una piccola dispersione misurata dalla σâ2 (piccola varianza). Se â1 e â2 sono ambedue stimatori non distanti di a, ma vale σ12< σ22, e’ da considerarsi preferibile â1 che viene definito piu’ efficiente o piu’ preciso. Esempio: E[ x ] = μ σ x = σx ; m=mediana E[m] = μ N σ m2 > σ x2 ⇒ il valore medio e’ piu’ efficiente di m Approfondimento E’ possibile dimostrare che per ogni stimatore â di a esiste un limite inferiore della varianza dello stimatore σâ2 e quindi un limite superiore per la sua efficienza (teorema di Cramer-Rao). Per uno stimatore corretto non distorto: 1 σ a2ˆ ≥ = k (a) ⎡⎛ ∂ ln L ⎞ 2 ⎤ E ⎢⎜ ⎟ ⎥ ⎢⎣⎝ ∂a ⎠ ⎥⎦ dove L e’ la funzione di verosimiglianza: L( x1 , x2 ,..., xn ) = P ( x1 , a ) P ( x2 , a )...P ( xn , a ) = ∏ P ( xi , a ) Il teorema puo’ essere anche riscritto come: σ a2ˆ ≥ − 1 ⎡⎛ ∂ 2 ln L ⎞⎤ ⎟ E ⎢⎜⎜ 2 ⎟⎥ ⎣⎝ ∂a ⎠⎦ Nota su: σ x2 ,σ x2 , s x2 , s x2 Supponiamo che siano ottenute da un campione di n {x1} normali. s 1 sx = sx = x ( xi − x ) 2 ∑ n −1 n σx σs sx 1 σs ≈ ≈ ≈ s 2(n − 1) 2(n − 1) 2(n − 1) 39 Si voglia misurare σ. A livello di progetto si voglia valutare quante misure occorrono per ottenere una data precisione di σ. Se si vuole raggiungere un errore di circa il 10%; se prevediamo n=50 misure di xi: σs 1 = = 10% s 2(50 − 1) se σ=6 e’ una ragionevole assunzione: 6 ≈ 0.6 σs ≈ 2(50 − 1) sx A livello di analisi, se non conosciamo σ ma vogliamo stimarla: σ s x ≈ 2(n − 1) s x = 6 n = 50 σ s x = 0.6 s x = 6.0 ± 0.6 Vi e’ differenza tra un errore ottenuto dal campione in questo modo e una conoscenza a priori di σx (s → ∞ per n → ∞). Vi e’ differenza tra i due risultati: σ 0.2 = 0.1 1) μ = 10.0 ± 0.1 dove σ x = 0.2 e’ noto, n=4 misure, x = 10.0 e σ x = x = 2 n 2) μ = 10.0 ± 0.1 dove σ x non e’ noto e viene stimato sui 4 valori {xi}: s 1 0.2 s x2 = ( xi − x ) 2 = 0.2 sx = x = = 0.1 x = 10.0 ∑ 2 n −1 n Tale differenza e’ importante per piccoli n (piccoli campioni): x−μ x = x ± s x richiede l’uso di Student t = sx Per grandi campioni (n grande) la stima di σ migliora e la differenza e’ meno importante: x−μ x = x ± σ x richiede z = σx 40