Note di statistica • alcune proprietà della funzione di verosimiglianza (likelihood); • test di d ipotesi; • frequentismo ↔ Bayes; • esempi frequentismo ↔ Bayes : ¾ calcolo di un’efficienza; ¾ limiti di massa; • percorsi di eccellenza. Paolo Bagnaia - note di statistica 1 Alcune proprietà della funzione di verosimiglianza Bibliografia : PDG 2004, 2004 § 32 [la referenza canonica, ottima come sunto, ma incomprensibile come primo approccio]; Eadie et al., Statistical methods in experimental xp physics p y [il mio primo testo da studente, molto “fisico”, ormai introvabile]; Cowan, Statistical data analysis [un buon testo, semplice, moderno]. Paolo Bagnaia - note di statistica 2 definizione Una variabile casuale x segue una funzione di di ib i distribuzione ( df) ƒ(x (pdf) ƒ( |θ | k); ) • i parametri θk ( k = 1,…,M) - talora ignoti allo p – definiscono la funzione ƒ; sperimentatore • misuriamo N volte la variabile x : xj ( j = 1,…,N); • definiamo la funzione di likelihood Λ e il suo logaritmo ℓog (Λ) : Esempio : si osservano N decadimenti di una particella di vita media τ, misurando i tempi propri tj, j = 1,…,N. Paolo Bagnaia - note di statistica N N Λ = ∏ f ( x j | θk ); j =1 N log( Λ ) = ∑ log[f ( x j | θk )]. j =1 N 1 −t / τ 1 − t /τ Λ = ∏ f (t j | τ ) = ∏ e j = N e ∑ j ; τ j =1 j =1 τ N 1 −t j / τ 1 N log( Λ ) = ∑ log[ e ] = −N log( τ) − ∑ t j . τ τ j =1 j =1 3 p p proprietà • se gli eventi A e B sono scorrelati : P (A & B) = P (A) · P (B); • pertanto pertanto, la likelihood Λ rappresenta la probabilità combinata di ottenere le misure xj, data la pdf ƒ(x |θk); • pertanto, la pdf deve essere normalizzata correttamente, indipendentemente da θk (ovvio, ma è la causa più frequente di errori); • dal punto di vista matematico, a seconda dei casi, occorre considerare la likelihood Λ = Λ(xj |θk) come ¾ una funzione dei valori xj, con i parametri θk fissi; - oppure (più frequentemente) ¾ una funzione dei parametri θk, date le misure xj; • il logaritmo ℓog (Λ) ha proprietà matematiche convenienti : ¾ ha h massimi i i / minimi i i i neglili stessi t i punti ti di Λ; Λ +∞ ¾ ha derivata dello stesso segno; cioè ∫ f ( x | θ k )dx = 1, −∞ ¾ è più adatta a calcoli numerici numerici. i di indipendente d t d da θ . k Paolo Bagnaia - note di statistica 4 applicazioni pp • si assume che il “caso reale” (cioè che le N misure abbiano dato i risultati xj realmente l t ottenuti) tt ti) abbia bbi un’alta ’ lt probabilità, b bilità maggiore i di ipotetici i t ti i altri lt i casi, con risultati differenti; • ciò è ((forse)) intuitivo, ma di p per sé non g garantisce che i metodi statistici basati sulla funzione di likelihood abbiano particolari (utili) proprietà statistiche; • la funzione di likelihood è spesso usata per due scopi : ¾ stima dei parametri e degli intervalli di confidenza dei parametri; ¾ test di ipotesi; • in questi casi, si dimostra che la funzione di likelihood gode di importanti proprietà. Paolo Bagnaia - note di statistica 5 stima dei parametri p Dato un parametro θ, un suo estimatore, detto θ* (in letteratura è più comune ^θ), θ) è un algoritmo, l it f funzione i di alcuni l i osservabili, bili che h permetta tt di stimare ti il valore “vero” θv (esempio : la media di misure ripetute di una quantità fisica è un estimatore del valore vero della grandezza misurata); Un buon estimatore è : • consistente : la stima θ* converge a θv quando il ∀ε > 0, lim ℘(| θ * −θ |> ε ) = 0 v n→∞ numero di misure i aumenta; t lim b = lim ( E [θ *] − θv ) = 0 • “no-bias”, i.e. c’è assenza di “bias” b; n →∞ n →∞ • efficiente : l’errore associato ha la varianza V CFR [θ *] φ = =1 lim lim minima (dal limite di Cramér-Frechet-Rao [vedi]) n →∞ n →∞ V [θ *] tra tutti q quelli definibili con le stesse misure); ); • robusto : il risultato θ* è “poco” dipendente da “piccole” variazioni della pdf (ovvero ha la minore dipendenza dalla pdf tra tutti quelli definibili). Paolo Bagnaia - note di statistica NB quando non c’è rischio di equivoci, i fisici tendono a non fare differenza tra (θ θ* θV). Scrivono “θ” e lasciano al lettore la decisione. D’ora in poi faremo così anche noi. 6 massima verosimiglianza Assumiamo di • conoscere la forma funzionale della pdf ƒ(x |θk); • avere misurato un campione di eventi xj; • voler calcolare (tutti o parte dei) i parametri θk. Il metodo della m.l. consiste nel trovare (analiticamente o numericamente) il valore dei p parametri θk* che massimizza la likelihood Λ ((o il suo logaritmo g ℓn Λ)) : ∂Λ ∂An( Λ ) = 0 ⇒ sistema di M equazioni; [oppure] = 0 ⇒ sistema di M equazioni. ∂θk ∂θk N Esempio : si osservano N decadimenti di una particella di vita media τ, misurando i tempi propri tj, j = 1,…,N. 1 N Paolo Bagnaia - note di statistica 1 −t j / τ 1 N An(( Λ ) = ∑ An[[ e ] = −N An(( τ) − ∑ t j ; τ τ j =1 j =1 ∂An( Λ ) N 1 =− + 2 ∂τ τ τ N 1 N t j = 0 ⇒ τ = ∑ t j = 〈t 〉. ∑ N j =1 j =1 7 proprietà della massima likelihood • • • • Il metodo della m.l. ha le seguenti proprietà [no dimostrazioni, cercare bibliografia] : asintoticamente consistente; asintoticamente no-bias; no bias; il risultato θ* è asintoticamente distribuito attorno a θv con varianza data dal limite di Cramér-Frechet-Rao (v. prossima pagina); “invariante” per cambio di parametri : la stima m.l. di una funzione dei parametri è la funzione dei parametri stimati [e.g. (θ2)* = (θ*)2]; tale stima è anche asintoticamente no no-bias. bias. NB. “asintoticamente” significa : esiste un teorema, che dimostra la proprietà considerata, nel limite Nmisure→ ∞; se N è finito, le proprietà non sono più a rigore valide; i fisici talvolta lo dimenticano (i.e. assumono di essere sempre nella regione asintotica). Paolo Bagnaia - note di statistica 8 limite di Cramér - Frechet - Rao Si dimostra (bibliografia) che, per ogni estimatore θ* di un dato parametro θ, affetto da un bias b, b la varianza aspettata ha un limite inferiore dato dalla disuguaglianza di CFR : 2 1 ⎛ ∂b ⎞ V (θ*) = σ2 (θ*) ≥ 1+ , ⎜ ⎟ ℑ(θ) ⎝ ∂θ ⎠ ove la funzione ℑ(θ) è l’informazione di Fisher : caso ad un parametro : θk, k=1; k 1; l’estensione l estensione a M parametri è semplice, ma noiosa. 2 ⎡⎛ ∂ log Λ( x j ; θ) ⎞2 ⎤ ⎡⎛ ∂ ⎞ ⎤ ℑ(θ) = E ⎢⎜ ⎟ ⎥ = E ⎢⎜ ∑ j log f ( x j | θ) ⎟ ⎥ . ∂θ ⎠ ⎥⎦ ⎢⎣⎝ ⎢⎣⎝ ∂θ ⎠ ⎥⎦ La definizione di estimatore efficiente richiede che nella formula precedente valga g il segno g “=” anziché “≥”. Pertanto, l’estimatore della massima likelihood, essendo efficiente e no-bias, ha la varianza aspettata più piccola possibile. ¾ in i termini t i i semplici, li i la l m.l. l è il migliore i li estimatore ti t possile il quando d N è grande. d Paolo Bagnaia - note di statistica 9 esempio : vite medie “limitate” limitate Problema (famoso) : in una regione di spazio limitata e nota, si osservano N decadimenti di particelle provenienti dal punto P. P Per ogni particella si misurano p, m, ℓ, ℓmin, ℓmax (le lunghezze minime e massime osservabili, differenti per ogni evento). Trovare τ. Poniamo t i = A i m / pi c; t = A m / pi c; t = A m / pi c. La pdf, evento per evento, è differente da quella che si avrebbe nel caso “illimitato” (vedi figura). Calcoliamo : min i min i max i max i ⎧se t imin ≤ t i ≤ t imax ⎫ ∫timin f (ti )dti = 1 ⇒ ƒ(ti ) = e −timin τ − e −timax τ ⎨⎩ = 0 altrimenti ⎭⎬; ti ⎡ −timin τ −timax τ ⎤ log g Λ = ∑ i ⎢ − log τ − − log g e −e ⎥; τ ⎣ ⎦ min max ⎛ t imine −ti τ − t imax e −ti τ ⎞ ∂ log Λ N 1 = 0 = − + 2 ∑ i ⎜ ti − ⎟⎟; −timin τ −timax τ ⎜ ∂τ τ τ e −e ⎝ ⎠ 1 ⇒ τ = ∑ i t i − t imin . se t imax = ∞ ⇒ N τ = ∑ i t i − t imin N timax e −t i τ altrimenti, soluzione numerica. Paolo Bagnaia - note di statistica P ℓmax D ℓmin τ ( ( ℓ ƒ(t) ) ) ( intuitivo, ma non ovvio da dimostrare [ [non iin scala] l ] ) tmin tmax t 10 caso “Gaussiano” Gaussiano Nota bene : fino ad ora, NON ci sono state assunzioni sulla pdf. • assumiamo N misure con pdf “gaussiana” di valori µ,σ : ƒ( x | µ, σ) = ⎡ ( x − µ )2 ⎤ exp ⎢ − ⎥; 2 2σ ⎥ 2π σ ⎢⎣ ⎦ 1 2 ⎡ ⎤ − x µ ( ) 1 j ⎥= ln Λ = ∑ j ⎡⎣ln ƒ( x j | µ, σ)⎤⎦ = ∑ j ⎢ − ln 2π − ln σ − 2 2σ ⎢ 2 ⎥ ⎣ ⎦ 2 N 1 = − ln l 2π − N lln σ − 2 ∑ j ( x j − µ ) ; 2 2σ ∂ ln Λ = 0 = 2∑ j x j − 2Nµ; ∂µ 2 ∂ ln Λ N 1 = 0 = − + 3 ∑ j ( x j − µ) . ∂σ σ σ Paolo Bagnaia - note di statistica 1 N 1 σ2 = N µ= ∑ x = 〈 x〉; ∑ (x − µ) . j j 2 j j ok !!! ma … 11 caso “Gaussiano” Gaussiano – caso N finito • ricalcoliamo E[µ*] e E[(σ*)2], (poniamo gj = ƒ(xj|µ,σ)] : ⎛1 ⎞ combi E [µ*] = E [µ * ( x1,...xN )] = ∫ dx1...∫ dxN ⎜ ∑ j x j ⎟ g1,..., N = N ⎝ ⎠ 1 = ∑ j ⎡ ∫ dx j x j g j ∏ m ≠ j ∫ dxm g m ⎤ = ⎣ ⎦ N 1 = ∑ j ⎡⎣( µ ) (1) ⎤⎦ = µ. N ( )( ) quindi, µ quindi µ* è un estimatore “no-bias” del parametro µ. E [( σ * ) ] = E [( σ * ( x1,...xN )) ] = 2 2 2 ⎛1 ⎡ ⎤ 1 ⎧ ⎫ ⎞ combi quindi, per N finito, σ* è un = ∫ dx1...∫ dxN ⎜ ∑ j ⎢ x j − ⎨ ∑ m xm ⎬⎥ ⎟ g1,...,N = ⎜N estimatore “con-bias” del ⎩N ⎭⎦ ⎟⎠ ⎣ ⎝ parametro σ; è meglio usare 2) = [senza dimostrazione, dimostrazione vedi bibliografia] = un altro lt estimatore ti t ( (e.g. s2), N −1 2 = σ. N 2 N 1 2 s2 = x − µ . (σ *) = ( ) ∑ j j N −1 N −1 Paolo Bagnaia - note di statistica 12 stima degli errori Qual è l’errore statistico di una stima m.l. ? ci sono alcune “ricette” : • nei casi semplici (e.g. nel caso di pdf gaussiana o esponenziale) è possibile calcolare analiticamente la varianza; poi V(θ*) → σ(θ*) = [V(θ*) ]½; • nei casi complicati complicati, in cui si possono fare solo analisi numeriche numeriche, si usa un metodo “montecarlo” : molti “gedanken-exp” → distribuzione dei valori stimati → calcolo di errore, intervalli di confidenza, etc. • il caso più iù comune è un metodo t d di ““sviluppo il iin serie” i ”: log Λ( θ) θθ≈θθ* 1 ⎡ ∂ 2 log Λ ⎤ 2 ⎡ ∂ log Λ ⎤ = log Λ(θ*) + ⎢ θ − θ + θ − θ + ... = * * ( ) ( ) ⎢ ⎥ 2 ⎥ 2 ⎣ ∂θ ⎦ θ=θ* ⎣ ∂θ ⎦ θ=θ* 1 1 2 ≅ log Λ max + 0 − θ − θ * ). 2 ( 2 [ σ * ( θ )] definizione di m m.l. l Paolo Bagnaia - note di statistica manipolazioni del limite CFR mel caso di m m.l. l … continua … 13 stima degli errori – caso “grafico” grafico Per N→∞, ℓn Λ (θ) → parabola; nel caso di N finito fi i sii procede d nell seguente modo (v. figura) : AnΛ(θ) θ≈θ* = θ − θ *) ( . ≅ AnΛ max − 2 2 [ σ * ( θ )] 2 a si calcola (in modo numerico a. numerico, analitico analitico, grafico) la curva ℓn Λ (θ); [θ*,ℓn Λmax] b. si trova il massimo → [[θ*,, ℓn Λmax]; c. si decresce di ½ → ℓn Λmax- ½; d si trovano i due valori d. ℓn Λ (θ); θ+, θ- sulla curva e. si definiscono g gli errori statistici σ± = ±(θ± - θ*). ℓn Λ 1/2 σ -(θ) σ+(θ) un misto di matematica matematica, statistica statistica, buon senso Paolo Bagnaia - note di statistica 14 likelihood “binnate” binnate dN/d /dx Si dice comunemente che la m.l. “funziona anche con pochi eventi”. Ci sono problemi ((vedi p prec.), ), p però è vero che il metodo,, in linea di p principio, p , non necessita di un numero minimo di eventi (cfr i fit con il χ2, quando √N e N sono dello stesso ordine di grandezza). Però,, talvolta,, accade il caso contrario : p per motivi numerici ((o di tempo p di CPU,, oppure perché non si hanno più i dati originali) occorre raggruppare i dati. Esempio : fit di un istogramma. Supponiamo di conoscere : • nj : il numero di eventi nel “bin” bin j di centro xj; • ƒ(x|θk) : la pdf aspettata, contenente dei parametri ignoti θk; An Λ = ∑m eventi A n f ( xm ; θk ) ≈ ∑ j n j A n f ( x j ; θk ); ) nj ∂A n Λ bin = 0 = ∑j ∂θk f ( x j ; θk ) bin ∂f ( x j ; θk ) ∂θk . • è come se tutti gli eventi fossero spostati al centro del bin; • per diminuire la sistematica, è meglio avere bin stretti (cfr il caso del χ2); • se si può fare, la likelihood “non-binnata” è meglio. Paolo Bagnaia - note di statistica nj xj x 15 likelihood ↔ χ2 Il metodo della m.l. coincide esattamente con quello del χ2 nel caso speciale di N misure indipendenti xj, ciascuna con distribuzione gaussiana attorno alla media, media e con σj nota. In tale caso : 1 2 ƒ( x j ; µ, σ j ) = exp ⎡ − ( x − µ ) 2σ2j ⎤ ; ⎣ ⎦ 2π σ ( ) j 2 ⎡ ⎤ x − µ ( ) 1 j ⎥; A n Λ = ∑ j A n ƒ( x j ; µ, σ j ) =∑ j ⎢ − A n ( 2π ) − A n σ j − 2 2σ j ⎥ ⎢ 2 ⎣ ⎦ ⎡ xj − µ⎤ ∂A n Λ x x = 0 = ∑ j ⎢ 2 ⎥ = ∑ j σ2j − µ∑ j σ12 ⇒ µ = ∑ j ⎡⎢ σ2j ⎥⎤ ∑ j ⎢⎡ σ12 ⎤⎥ ; j j ⎣ j⎦ ⎣ j⎦ ∂µ ⎢⎣ σ j ⎥⎦ ⎡ ( x − µ )2 ⎤ j ⎥ = −2A n Λ + cost; χ2 = ∑ j ⎢ NB : nel caso generale, generale non esiste 2 ⎢ σj ⎥ nessuna “equivalenza” tra metodo ⎣ ⎦ del χ2 e della m.l.; pertanto i risultati 2 ∂χ ∂A n Λ sono simili, ma non identici; di = 0 = −2 ⇒ stesso risultato per µ. solito, i fisici non se lo ricordano. ∂µ ∂µ Paolo Bagnaia - note di statistica 16 qualità del fit m.l. dN/d Λmax Nel caso m.l. non esiste nessun estimatore della qualità del fit (i.e. non c’è l’analogo d ll “probabilità della “ b bilità di χ2”. ” In I altri lt i termini, t i i il valore l Λmax (oppure ( ℓ Λmax), ℓn ) che, h all parii di χ2min, è una variabile casuale, non ha una pdf definita nel caso generale. I fisici seguono differenti strade; elenchiamo le più comuni : • “gedanken-exp.” : generare esperimenti identici a quello allo studio; usare Λmax per stabilire intervalli Λmax osservata di confidenza ed equivalenti alla P(χ2) [→ figura]. • doppio fit : si calcola il valore del χ2, corrispondente ∫…=1 al fit m.l., e la corrispondente P(χ2); • “modifica della domanda” : anziché chiedersi “qual q è la probabilità di ottenere, in queste condizioni, questo risultato o uno peggiore [→ P(χ2)] ?”, ci si domanda “data una teoria differente, quale spiega meglio i dati ?” [occorre inventarsi una teoria “P(Λmax)” plausibile differente, fare un altro fit m.l. e poi un “test di ipotesi”, vedi avanti]. Λmax [oppure ℓog Λmax] Paolo Bagnaia - note di statistica 17 Test di ipotesi Bibliografia : PDG 2004, 2004 § 32 [la referenza canonica, ottima come sunto, ma incomprensibile come primo approccio]; Eadie et al., Statistical methods in experimental xp physics p y [il mio primo testo da studente, molto “fisico”, ormai introvabile]; Cowan, Statistical data analysis [un buon testo, semplice, moderno]. Paolo Bagnaia - note di statistica 18 test di ipotesi Talvolta le funzioni statistiche vengono utilizzate per un “t t di iipotesi”. “test t i” E Esempio i : ƒ(t) • due teorie (H H0, H1) contrastanti (e.g. Tolomeo vs Copernico); • le due teorie sono calcolabili, e danno “predizioni”; acc. reg. rej. reg. cut ƒ(t|H1) ƒ(t|H0) • si calcola una funzione t (usualmente scalare) delle misure chiamata statistica (e.g. misure, (e g χ2, likelihood) : t = t(x1,x2, x3, ..., xN); • la funzione t è una variabile casuale, che ha p.d.f. diff differente t nelle ll d due tteorie i : ƒ(t|H0) ↔ ƒ(t|H1) ; • si stabilisce (a a priori !!!) un taglio (cut), che divide i valori di t in due regioni : ¾ H0 accettata; ¾ H1 accettata. tt t Paolo Bagnaia - note di statistica t β α caso particolare [comune] : H1 = H0 (→ oltre) 19 efficienza ↔ purezza Esempi, data una certa “t.s.” t : P (errore 1) = sig. level = α = ∫cut ƒ(t|H0) dt; cut P ((errore tipo 2)) = β = ∫-∞∞ ƒ( ƒ(t|H | 1) dt; +∞ ƒ(t) acc. reg. talora β è chiamato “potere discriminante”. In parole povere: ¾ il test ideale (il “t.s.” ideale) è quello che separa completamente H0 e H1; ¾ questo test avrebbe efficienza (φ=1 ⇒ α=0); =0); ¾ … e purezza (β=0); ¾ …p però,, nel caso allo studio,, la t.s. “t” non consente di avere contemporaneamente (α=0) e (β=0); ¾ si può fare meglio meglio, o c’è c è un “limite limite intrinseco intrinseco” ? Paolo Bagnaia - note di statistica rej. reg. cut ƒ(t|H1) ƒ(t|H0) t β α 20 esempio p : IFAE 2010 (Roma), ( ), exp. p ALICE misurare il tempo di volo di una particella di massa ignota in una distanza data; si può identificare la particella : L LE Lc p 2 + m 2c 2 t= = = ≅ 2 2 β c pc pc L ⎛ m 2c 2 ⎞ ≅ ⎜1 + = t (m ) 2 ⎟ 2p ⎠ c⎝ ∆t12 ≡ t (m1 ) − t (m2 ) ≅ Lc 2 2 m − m . 1 2 2 2p ( • impulso i l p + tof t f t → massa m • includere errore di misura σt ) TOF (time of flight) L • se p aumenta, ∆t12 → 0. Paolo Bagnaia - note di statistica 21 IFAE 2010 : osservazioni ∆t12 ≡ t (m1 ) − t (m2 ) ≅ Lc m12 − m22 . 2 2p ( commenti : • a basso p, distribuzioni quasi separate → taglio li ovvio; i • ad alto p, sovrapposizione → privilegiare g decidere se p efficienza oppure purezza; • distribuzioni normalizzate ai flussi reali (molti π, π pochi K, K pochissimi p) → fa molta differenza. Paolo Bagnaia - note di statistica ) TOF (time of flight) L 22 test di ipotesi - definizioni (anche il nome inglese, che serve per la letteratura) • hypotesis (h.) : teoria, che prevede che i dati abbiano una distribuzione (pdf) data; • null h. (H0) : la teoria sotto test; • simple h h. : teoria completamente fissata (e (e.g. g la ricerca di W e Z); • composite h. : teoria fissata funzionalmente, ma con parametri liberi (e.g. Higgs); • alternative h. (H1) : altra teoria, che si esclude reciprocamente con H0 (e.g. “no-H0”); • test statistic (t.s.) : funzione di quantità misurate, utile per accettare H0 (e.g. P(χ2)); • statistical test (cut) : regola di decisione sull’accettazione di H0 (e.g. P(χ2) > 0.01); • rejection j ti region i : la l regione i d dello ll spazio i d dell tt.s. iin cuii H0 è respinta; i t • acceptance region : la regione (…) in cui H0 è accettata (meglio, “non respinta”); • significance g level : la p probabilità che H0 sia respinta, p , se è vera ((cioè l’integrale g della pdf del t.s. nella rej. region); • first kind error : la reiezione di H0, se è vera, perché la sua t.s. è fuori del/i cut(s); • second kind error : l’accettazione di H0, se è falsa falsa, perché la sua tt.s. s è entro il/i cut(s) cut(s). Paolo Bagnaia - note di statistica 23 accettare un’ipotesi un ipotesi Talvolta si cerca soltanto di capire se H0 è accettabile ( (e.g. se il modello d ll “f “funziona”). i ”) E Esempio i : • H0 è la relazione lineare tra due variabili fisiche : ƒ(χ2) acc. reg. y = y( y(x)) = kx;; • la statistica t è il χ2, e ƒ(t|H0) è la distribuzione di χ2; rej. reg. cut ƒ(t|H0) • si stabilisce il taglio, in modo da perdere una frazione α dei casi “corretti” corretti , ma la (quasi) totalità degli “sbagli”; • si misurano N valori xi, yi (e i relativi errori σi); • si “fitta” k dalle misure (o si usa il modello); • si calcola il χ2 nel caso specifico : α χ2 χ2 = Σi (kxi - yi)2 / σi2; • si acccetta o si respinge l’ipotesi a seconda del valore ottenuto. Paolo Bagnaia - note di statistica 24 χ2 ↔ P(χ2) ƒ(χ2) acc. reg. dN dP( 2) dP(χ rej. reg. cut ƒ(t|H0) α ∞ P (χ ) = ∫ 2 f (χ 2 ) d χ 2 2 χ rej. reg. α acc. reg. χ2 0 P(χ2) P( di solito, anziché con la ƒ(χ2), si lavora con la P(χ2). 1. forma nota e facile, se si hanno molti casi si può controllare; Concettualmente nessuna differenza, ma ci sono vantaggi pratici : 2. si possono trattare in modo consistente casi con Ndof differente; Paolo Bagnaia - note di statistica 1 3 il valore di α risulta chiaro, 3. chiaro e non richiede calcoli complicati. 25 Lemma di Neyman Neyman-Pearson Pearson Per un dato un livello di significanza α (oppure un dato livello di [dimostrazione in efficienza φ=1-α), φ=1 α) la regione di accettanza con il più elevato potere bibli bibliografia] fi ] discriminante è data dal cut nel rapporto tra le pdf delle due ipotesi ƒ(t|H0) / ƒ(t|H1) > k la scelta della costante k è determinata dal valore di α [φ] desiderato. Tale scelta è il rapporto delle likelihood per le ipotesi H0 e H1. Osservazioni : rej. reg. acc. reg. ƒ(t)) ƒ( cut il lemma, in pratica, si applica facendo il rapporto tra le likelihood delle due ipotesi e “tagliando” su di esso, cioè su (lnΛ0 - lnΛ1); se le l pdf df (e ( le l corrispondenti i d ti likelihood) lik lih d) hanno h l forma la f consueta (un solo massimo, decrescite “veloci” lontano dal massimo), il taglio sul rapporto si riduce ad un semplice taglio (multi dimensionale) nelle variabili cinematiche “t”; (multi-dimensionale) t ; se le pdf (e/o le likelihood) sono anomale, la cosa va verificata attentamente. ƒ(t|H0) ƒ(t|H1) β t α NB il lemma è dimostrato nel caso in cui sia H0, sia H1 siano ipotesi semplici; nel caso di ipotesi composite non è necessariamente vero [i fisici, al solito, se ne dimenticano]. Paolo Bagnaia - note di statistica 26 test di ipotesi con la likelihood : esempio Problema (un po’ scemo) : misuriamo N volte una grandezza; sappiamo che l’errore statistico t ti ti è gaussiano, i con errore σ0 = σ1 = σ. Abbiamo Abbi d due i t i H0 e H1, che ipotesi, h predicono rispettivamente i valori µ0 e µ1 per la quantità. Come decidere ? Calcoliamo Ca co a o : 2 ⎡ ⎤ x − µ ( 1 0,1 ) ⎥; exp ⎢ − ƒ 0,1( x j | µ0,1, σ) = 2 2σ ⎢ ⎥ 2π σ ⎣ ⎦ 2⎤ ⎡ 1 exp ⎢ − 2 ∑ j ( x − µ1 ) ⎥ Λ ⎣ 2σ ⎦; t= 1 = 2⎤ Λ0 ⎡ 1 exp ⎢ − 2 ∑ j ( x − µ0 ) ⎥ ⎣ 2σ ⎦ 1 ( ) 2σ2 ln t = N µ02 − µ12 + ( µ1 − µ0 ) ∑ j x j ; ln t = 1 ⎛ µ1 − µ0 ⎞ ⎛ 〈 x 〉 − µ0 − µ1 ⎞ ⎜ ⎟⎜ ⎟; 2 ⎝ σ N ⎠⎝ σ N ⎠ Paolo Bagnaia - note di statistica z≡ 〈 x 〉 − µ0 σ N ; a0 ≡ µ0 σ N ; a1 ≡ µ1 σ N ; 2 1 ( a1 − a0 )( z − µ1 ) ; 2 La variabile z è funzione monotona di t ; ln t = inoltre z ha una pdf di Gauss : se H0 ⎧ gauss(media = 0,var = 1) f ( z )= ⎨ ; gauss(media = a − a ,var = 1) H se 1 0 1 ⎩ ⇒ tagliare sulla variabile z, calcolare α, β,... 27 Frequentismo ↔ Bayes Bibliografia : G.Cowan, Statistical data analysis. G.D’Agostini, CERN 99-03 (“Bayesian reasoning …”); Y ll report CERN 2000-005 Yellow 2000 005 (“Confidence limits”); 2008 001 Yellow report CERN 2008-001 (“Stat. issues for LHC”). LA DISCUSSIONE TRA GLI ESPERTI È MOLTO VIVACE. QUI SOLO INTRODUZIONE ED ESEMPI. Paolo Bagnaia - note di statistica 28 Bayesianism versus Frequentism “Bayesians address the question everyone is interested in, in by using assumptions no-one no one believes” “Frequentists Frequentists use impeccable logic to deal with an issue of no interest to anyone” Paolo Bagnaia - note di statistica 29 disclaimer • nelle prossime pagine faremo largo uso del concetto di probabilità e dei suoi derivati (ex. livello di confidenza, limite); • “probabilità” ha più di un significato → le interpretazioni principali sono : ¾ frequentista : probabilità = limite della frequenza per prove → ∞ ; * ¾ credentista : probabilità = fiducia che qualcosa accada; • alcuni concetti (o espressioni calcolate) cambiano significato (o valore) nelle due interpretazioni; • tradizionalmente, i fisici sono stati “frequentisti”, ma recentemente i più esperti sono diventati “bayesiani”; • in queste lezioni, approccio prevalentemente frequentista per due motivi : più familiare agli studenti (… e al docente); generalmente usato nelle pubblicazioni originali (non ( più iù vero negli li ultimi lti i anni) i); _________________________________ * più comunemente chiamata interpretazione bayesiana, per la grande importanza che vi assume il teorema di Bayes : P(A|B) = P(B|A) P(A) / P(B). Paolo Bagnaia - note di statistica 30 disclaimer (cont.) ( ) … tuttavia : • più importanza alla fisica che alla dogmatica della probabilità matematica; • il significato di una misura (o di un limite) non dipende dal linguaggio in cui è espresso; • se la procedura sperimentale è chiara e documentata, un esperto può sempre “tradurre” tradurre la misura in un un’altra altra interpretazione; • due raccomandazioni : ? documentare la procedura sperimentale (non solo il puro risultato); ? evitare le “guerre di religione” su falsi problemi. W Y Paolo Bagnaia - note di statistica 31 gli assiomi di Kolmogorov Andrei Nikolaevich Kolmogorov (1903 – 1987), matematico russo (sovietico), formalizzò nel 1933 il calcolo delle probabilità in modo assiomatico, introducendo lo spazio S degli eventi (A, B, …) e la probabilità di un evento (P(A)) come una misura di A in S. Gli assiomi di K. della probabilità sono : 1 0 ≤ P(A) ≤ 1 ∀ A ∈ S; 1. 2. P(S) = 1; 3 A∩B = Ø ⇒ P(A∪B) = P(A) + P(B). 3. P(B) Alcuni teoremi (facili da dimostrare) : A B • P(Ā) = 1 – P(A); • P(A∪Ā) = 1; • P(Ø) = 0; S • A ⊂ B ⇒ P(A) ≤ P(B); • P(A∪B) = P(A) + P(B) – P(A∩B). P(A∩B) Paolo Bagnaia - note di statistica 32 il “coverage” coverage frequentista [[e.g. g Feldman-Cousins, C , Phys y R Rev. D,, 57,, 3873 ((1998)])] Data una variabile µ, di valore vero µT (ignoto), sii supponga di poter t fi fissare un intervallo i t ll [µ1, µ2], tale che P(µ1 ≤ µ ≤ µ2) = α ƒ(µ) Si dice che l’intervallo [µ1, µ2] ha il “coverage” di [[cioè “ricopre”] p ] µ al livello di confidenza α. NB. I frequentisti q non p parlano mai di P(µ (µT||dati)) o di ƒ(µT), ma solo di P(osservazioni | µ); le variabili casuali nelle affermazioni precedenti sono µ1 e µ2, non µ o µT. Paolo Bagnaia - note di statistica 5% α=90% µ1 5% µ2 µ 33 il teorema di Bayes Thomas Bayes (1702 – 1761) era un ministro presbiteriano inglese. Il suo teorema è valido anche in un’interpretazione frequentista (a rigore, è un teorema di teoria degli insiemi), cioè T.B. non era “bayesiano”. Dimostrazione dagli assiomi di K. : Ai B • P(A∩B) = P(B∩A) = P(B|A) P(A) = P(A|B) P(B); S • Ai tali che Ai ∩ Aj = Ø, Ø UiAi = S; S • B = B∩S = B ∩ (UiAi) = Ui (B ∩ Ai); • P(B) = P [Ui (B ∩ Ai)] = ∑i P(B ∩ Ai); • P(B) = ∑i P(B|Ai) P(Ai). teorema di Bayes (3 formulazioni) Paolo Bagnaia - note di statistica Aj Aj∩B P (B | A)P ( A) ; P (B ) P (B | A)P ( A) P( A | B) = ; ∑ i P (B | Ai )P ( Ai ) P( A | B) = ƒ( y | x ) = g ( x | y )π( y ) . ∫ g ( x | y ′)π( y ′)dy ′ 34 esercizio sul teorema di Bayes Esercizio Cowan). (non politically correct, da Supponiamo che il numero dei malati di aids sia 0.1% della popolazione e che ci sia un test clinico, che dà risultato positivo per il 98% % dei malati e per il 3% % dei sani. Faccio il test e risulto positivo. Ho l’aids ? P (B | A)P ( A) ; P (B ) P (B | A)P ( A) P( A | B) = ; ∑ i P (B | Ai )P ( Ai ) P( A | B) = disclaimer : questi dati NON sono realistici, il test in questione NON esiste, NON preoccupatevi ... … ma cercate di capire quanto è facile ingannarsi in questo tipo di ragionamenti, che possono assumere grande rilevanza mediatica e sociale. Paolo Bagnaia - note di statistica ƒ( y | x ) = g ( x | y )π( y ) . ∫ g ( x | y ′)π( y ′)dy ′ 35 esercizio “aids” P ( + | aids) ⋅ π(aids) = P(+) P ( + | aids) ⋅ π(aids) = = P ( + | aids) ⋅ π(aids) + P ( + | no-aids) ⋅ π(no-aids) 0.98 × 0.001 = ≅ 0. 0 032 0.98 × 0.001 + 0.03 × 0.999 P (aids|+ ) = π(aids) = 0.001; P( | aids) P(+| id ) = 0.98 0 98 P(+| no-aids) = 0.03 Interpretazioni : Domande (buon senso) : positivi • statistica ((3.2 % dei p ha l’aids, 96.8 % no); • soggettiva (ho il 3.2% di probabilità di avere l’Aids) l Aids). • conviene fare q questo test a tutti ? • se rifaccio il test, in modo scorrelato dal primo, e viene ancora +, ho l’aids ? Paolo Bagnaia - note di statistica [R : P2(aids|++) = 52%] 36 interpretazione frequentista del teorema di Bayes Il teorema di Bayes (e ll’esercizio esercizio precedente) non hanno nulla di “bayesiano” : ci dicono come modificare la probabilità P(A) (la distribuzione π(y)) ( )) alla ll luce l di qualche l h nuova informazione. i f i Nel caso specifico, specifico ll’esercizio esercizio consente un’interpretazione “frequentista” perfettamente consistente (come abbiamo visto). Le differenze tra interpretazione “frequentista” e “bayesiana” bayesiana provengono dai casi in cui la probabilità non può essere definita in senso frequentista (e.g. la “probabilità” che domani piova oppure che una affermazione sia vera). vera) Paolo Bagnaia - note di statistica P (B | A)P ( A) ; P (B ) P (B | A)P ( A) P( A | B) = ; ∑ i P (B | Ai )P ( Ai ) P( A | B) = ƒ( y | x ) = g ( x | y )π( y ) . ∫ g ( x | y ′)π( y ′)dy ′ 37 interpretazione p “bayesiana” y del teorema di Bayes y L’interpretazione “bayesiana” sorge quando si considera la probabilità che una teoria ((un’ipotesi) p ) H sia vera,, alla luce di nuovi dati sperimentali p D. prob. dei dati, assumendo che l’ipotesi H sia vera. P (D | H )P (H ) P (H | D ) = . ∑ i P (D | Hi )P (Hi ) “posterior”, cioè prob. dell’ipotesi dell ipotesi H a valle dei dati. dati “prior”, cioè prob. a priori, precedente ai nuovi dati. normalizzazione, somma su tutte le posibili ipotesi ipotesi. • [prob. della teoria dai dati] = [prob. dei dati nella teoria] × [prob. della teoria prima dei dati], [opportunamente normalizzata]. • definibile anche per eventi unici (e.g. domani pioverà ? esiste il bosone di Higgs ?) • il punto debole è la definizione del prior, che talvolta è una libera scelta dell’osservatore; la teoria si occupa solo della modifica della probabilità, causata dai dati (prob. (prob soggettiva, soggettiva criticabile in un un’interpretazione interpretazione ortodossa della scienza). scienza) Paolo Bagnaia - note di statistica 38 Esempio : calcolo di un’efficienza un efficienza Bibliografia : M.Paterno, M Paterno home.fnal.gov/~paterno/images/effic.pdf; G.Cowan, Statistical data analysis + note. note ESEMPIO DI UN CALCOLO MOLTO COMUNE : EVENTI ACCETTATI/GENERATI, EFFICIENZA DEI RIVELATORI V , NUMERO U DI EVENTI V IN UN U BIN, ETC ETC. NON RIGUARDA G SOLO I GIOCHI G D’AZZARDO ! Paolo Bagnaia - note di statistica 39 il paradosso •p prendiamo una moneta nota : P (testa) = 1 - P (croce) ≡ ε = 0.5; TTT ; • lanciamola tre volte : otteniamo “TTT”; • può capitare ? certo : P ((TTT)) = P ((CCC)) = ε3 = 1/8 = 12.5%. • prendiamo invece una moneta ignota : P (testa) = 1 - P (croce) ≡ ε = ignoto; matematicamente non c’è incompatibilità, p perché le due p domande sono differenti, però sembra molto incoerente. per N → ∞ tutto torna, ma talvolta N è piccolo e occorre comunque analizzare i dati. Paolo Bagnaia - note di statistica • lanciamola tre volte : otteniamo “TTT”; • possiamo stimare ε ? certo [→pross.] : ε = successi / tentativi = n/N = 1; σε2 = V(ε) = ε(1-ε)/N ε(1 ε)/N = 0 → σε = 0 (!!!) 40 approccio frequentista • se la l probabilità b bilità di successo nell caso singolo è ε, ne segue che la probabilità di n successi in N tentativi segue la distribuzione binomiale; • è possibile definire la funzione di likelihood Λ Λ=Λ(ε) Λ(ε) e una stima di likelihood per ε e la sua varianza; • tali stime hanno le proprietà asintotiche b ben note t (ma, ( nell caso N piccolo, i l portano al paradosso mostrato). ℘(n | N, ε) = N! ε n (1 − ε )N −n ; n !(N − n )! Λ(ε ) = cost × ε n (1 − ε )N −n ⇒ ln Λ(ε ) = n ln ε + (N − n )ln(1 − ε ) + cost; ∂ ln Λ n N − n n = − = 0 ⇒ εˆ = ; ∂ε N ε 1− ε V (n ) = N ε(1 − ε ) ⇒ n N ε(1 − ε ) εˆ(1 − εˆ ) V (ε) = V ( ) = ; ≅ 2 N N N εˆ(1 − εˆ ) . σε = V (ε ) = N nota bene : tutto il “pasticcio” viene dall’inversione della binomiale : si fissa N, si misura n, e si stima ε (anziché prevedere n, noto ε); in realtà, è quello che fanno sempre i fisici, che sono interessati al valore dei parametri, e non alle vincite al gioco. Paolo Bagnaia - note di statistica 41 approccio bayesiano • dal teorema di Bayes : ℘(n | ε, N )π(ε ) ℘(ε | n, N ) = ; ∫℘(n | ε′, N )π(ε′)d ε′ “principio di ragione insufficiente” insufficiente • scegliere il prior π(ε) : è ragionevole che sia uniforme ( = 1 per 0 < ε < 1, 1 = 0 altrimenti); • ne segue (no dimostrazioni) : ƒ(ε ) = ℘(ε | n, N ) = (N + 1)! n ε (1 − ε )N −n ; n !(N − n )! moda[ε] = n / N; n +1 ; N+2 ε(1 − ε ) V [ε] = σ2ε = ; N +3 E [ ε] = Paolo Bagnaia - note di statistica … e tutto è più ragionevole; nel caso dell’esempio (T T T → N = n = 3), si ha : • ƒ(ε) = 4ε3; • moda(ε) = 1 (come prima); • E [ε] = 4/5 = 0.8; • σε = 1/6 = 0.16; • P (ε ± 1σ) = 71.2 % [non 68% !!!]; • P (0.4 < ε < 0.6) = 10.4 %; … che sembrano risultati sensati. 42 conclusioni Morale : • entrambi gli approcci hanno aspetti corretti (e.g. σ ~ 1/√N); • per N → ∞, i due approcci coincidono; • per N piccolo, l’approccio frequentista può dare da e risultati su tat inconsistenti; co s ste t ; • l’approccio bayesiano contiene elementi arbitrari (il prior), ma per N piccolo è favorito dal buonsenso; item frequentista bayesiano ƒ(ε)) ƒ( ??? (N+1)! εn (1-ε)N-n n!! (N-n)! (N )! E(ε) n N n+1 N+2 σε 2 ε (1 – ε) N ε (1 – ε ) N+3 • inoltre l’approccio bayesiano consente (e.g.) il calcolo di limiti, livelli di confidenza, etc. etc.; • attenzione ad usare correttamente i teoremi sulla funzione di likelihood, validi (e dimostrati) solo nel caso asintotico (N → ∞) !!! • per N = 0, 0, si noti l’eccellente l’eccellente risultato ris ltato ba bayesiano esiano ƒ(ε) = 1, 1, ε = ½, ½, σε2 = 1/12. Paolo Bagnaia - note di statistica 43 dimostrazioni dimostrazioni (facili, noiose), basate sulle ll proprietà i tà d delle ll ffunzioni i i B (beta) (b t ) e Γ (gamma di Eulero) : 1 Γ(n ) = ∫ t n −1e − t dt ; 0 1 B(m, n ) = ∫ t m −1(1 − t )n −1dt = 0 se m,n interi : Γ(n ) = (n − 1)!; (m − 1)!( ) (n − 1)! ) B(m, n ) = . (m + n − 1)! Paolo Bagnaia - note di statistica Γ(m )Γ(n ) ; Γ(m + n ) N! ℘(n | N, ε) = ε n (1 − ε )N −n ; n ! (N − n ))! ℘(n | ε, N )π(ε ) ℘(ε | n, N ) = ; ∫℘(n | ε′, N )π(ε′)d ε′ ∫ 1 0 t n (1 − t )N −n dt = ℘(ε | n, N ) = n ! (N − n )! ; (N + 1)! (N + 1)! 1)! n ε (1 − ε )N −n . n !(N − n )! 44 Esempio : limiti di massa ƒ(m2) ƒ( σm2 5% 2σm2 m2 m*2 0 R.Cousins, Am.J.Phys., 63 (5), 398 (1995). Paolo Bagnaia - note di statistica 45 problema : misurare m2 = E2 – p2 Misurare la massa di una particella nuova, di valore “vero” ignoto mT, da : • E ± σE : misura dell’energia con relativo errore; funzioni di risoluzione gaussiane, scorrelate. • p ± σp : misura dell’impulso con relativo errore. Pertanto (c (c=1) 1) la miglior stima di mT2 è m m*2 ± σm2 : • m*2 = E2 – p2; • σ2m2 = (∂m*2 / ∂E)2 σ2E + (∂m*2 / ∂p)2 σ2p = 4 (E2 σ2E + p2 σ2p). Tre casi : a) m*2 >> σm2 : caso semplice, statistica classica (cfr. N → ∞); b) m*2 << σm2 : niente da fare : rifare l’esperimento; c) m*2 ~ σm2 : caso interessante : discutiamolo. questo caso alcuni esperimenti p troveranno m*2 < 0 ((sottofluttuazione), ), che è In q chiaramente “impossibile”. Si vuole pubblicare un limite : m < mL al 95% CL (cioè “a 2 sigma"). Ch fare Che f per trovare t mL??? Paolo Bagnaia - note di statistica 46 m2 = E2 – p2 : approccio frequentista prendiamo il caso limite della figura : m*2 < 0, m 0 m m*2 + 2σm2 < 0; conclusione frequentista : al 95% CL : mT2 ≤ mL2 = m*2 + 2σm2. (e.g. mX2 ≤ -100 MeV2) NB : “-100” !!! significato : 95% degli esperimenti con la stessa risoluzione i l i e la l stessa t significanza i ifi t troveranno m2 minore di quella del presente esperimento ("coverage"). ƒ(m2) σm2 5% 2σm2 m2 m**2 0 critiche : • che significa ? (anche se m m*2 > 0, come interpretare la coda di ƒ(m2) a m2 < 0 ? ); • NON stiamo usando l’informazione mT ≥ 0 ; • nel caso m*2 < 0, sembra che si usi in modo capzioso la sottofluttuazione per ottenere un limite migliore : è un trucco ? Paolo Bagnaia - note di statistica 47 m2 = E2 – p2 : approccio bayesiano ⎧1 π(m ) = ⎨ ⎩0 2 prior m2 ≥ 0 m <0 2 ;. ƒ(m2) ƒ( posterior, cioè risultato (v. figura) : ƒ(m | m* ,σm2 ) = 2 2 ƒ(m* 2 | m 2 ,σm2 )π(m 2 ) ∫ ƒ(m* | µ ,σm2 )π(µ )d µ 2 2 ⎧⎪norm × Gauss(m 2 |m* 2 ,σm2 ) =⎨ ⎪⎩0 2 2 = m2 ≥ 0 m <0 2 95% 5% . 0 mT2 m2 • cioè si usa solo la “coda” della gaussiana a m2 > 0, normalizzata a 1; • il valore del limite mL2 si può calcolare facilmente in modo numerico (v. figura); • nel presente esempio (ma non necessariamente) il limite “viene peggio” : mL2Bayes > mL2freq. Paolo Bagnaia - note di statistica 48 m2 = E2 – p2 : commenti commenti all’approccio bayesiano : ƒ(m2) • perché scegliere π(m m2) = 1 (m2 > 0) e non, e.g., π(m m) = 1 (m > 0), che darebbe risultati differenti ? • inoltre π(x) ( ) è una distribuzione di probabilità, che deve essere normalizzabile (in questo caso non lo è); • p però il calcolo bayesiano y sembra p più corretto,, perché usa tutta l'informazione fisica, mentre non usa la “sottofluttuazione”; • che ne è del “coverage” coverage ? ma il coverage è una proprietà necessaria ? oppure almeno utile ? 95% 5% 0 mT2 m2 commento conclusivo : le dispute statistiche qui discusse sono tuttora in corso nella comunità scientifica; non c’è una conclusione accettata da tutti, e imho non esiste un metodo esente da difetti; pertanto è bene documentare la procedura seguita it per analizzare li i dati, d ti in i modo d da d consentire ti la l “traduzione” “t d i ” dei d i risultati. i lt ti Paolo Bagnaia - note di statistica 49 Per i percorsi di eccellenza Paolo Bagnaia - note di statistica 50 la parola “probabilità” che significa probabilità ? [lasciamo stare i giochi d’azzardo] : 1. variabili così numerose (o ignote) da non essere sotto controllo [e.g. probabilità di arrivare tardi al treno]; 2 risultati di misure – forse caso particolare di (1) [e.g. 2. [e g x±σx, ma anche probabilità che una teoria sia vera → vedi oltre] g probabilità che domani 3. fenomeni complessi – forse caso paricolare di ((1)) [e.g. piova]; 4. fenomeni veramente statistici [e.g. probabilità di avere un’automobile diesel, oppure di abitare in Piemonte]; 5. fenomeni biologici “mendeliani” → genetica → evoluzionismo → ... [cioè molta della biologia moderna]; 6. fenomeni quantistici [il “risultato” di un calcolo non è un “numero”, ma una “distribuzione”, e.g. Rutherford scattering] → cioè quasi tutta la fisica moderna; Paolo Bagnaia - note di statistica 51 significato della parola “probabilità” in tutti i casi precedenti la parola probabilità ha significati leggermente differenti : frequenza, statistica, valore estratto da una distribuzione nota, opinione soggettiva, precisione sperimentale, etc etc; Lo studio di probabilità e statistica è importante : • nella conoscenza teoretica (e.g. meccanica quantistica); • nella vita pratica : probabilità → decisione → azione. Senza esagerare, quasi tutte le nostre azioni e le nostre conoscenze hanno un aspetto probabilistico. Inoltre, il “senso comune” (i.e. la quasi totalità della popolazione, anche colta) ha scarsa comprensione del problema (→ paradossi paradossi). Paolo Bagnaia - note di statistica 52 Generalità sui test di ipotesi p I fit possono essere usati per (almeno) tre scopi : a) stimare alcuni parametri del fit che hanno significato fisico (e.g. risalire dall’energia alla massa di una particella, vedi figura); b) stimare se viene meglio il fit con un modello o con un altro; c) caso particolare con un solo modello : dire se il fit “viene bene”. I casi (b) e (c) sono noti come “test di ipotesi”. Facciamo un lungo esempio (prossime pagine). mistura ionizzata Paolo Bagnaia - note di statistica ∆V K =½mv2=(n)e∆V (non dipende da m)) ( p L misura T=L/v → m =2K/v2= =2KT2/L2. 53 esempio p /1 Supponiamo di avere un gas, contenente una mistura di molecole differenti. Vogliamo sapere se la molecola “x”, di massa mx è presente. Come fare ? Costruiamo un semplice apparecchio e trattiamo solo il caso (classico, semplificato) di due molecole, “x” (=segnale) e “y” (=fondo) : mistura i t ionizzata K =½mv ½ 2=(n)e∆V ( ) ∆V ∆V (non dipende da m) L misura T=L/v → Tx,y=L[mx,y/2(n)e∆V]½ =cost×√mx,y. Supponiamo di conoscere glili errorii di misura (σ e S i i ( V, σL, vini), ) le l pdf df relative, l ti assumiamo varie abbondanze relative di x e y; alcuni casi possibili : a b c a) facile (no discussione); b) difficile (discutere); T Paolo Bagnaia - note di statistica T T c)) “realistico” “ li ti ” (ohimé). ( hi é) 54 a b c esempio / 2 Come trattiamo i casi precedenti ? T T T ∞ a) caso semplice (ma ...) : esiste un T*, tale che ∫T* pdf(T)dT=0 e, se ci sono eventi con T>T*, allora possiamo dire che la molecola “x” è presente, ); misurare l’abbondanza,, etc etc ((tutto facile); b) la logica è più complicata : facciamo la distribuzione sperimentale b’ e poi confrontiamola con la sola pdf del “fondo” fondo : se non sono b’ statisticamente compatibili (= il “rigonfiamento” è statisticamente significativo), allora la molecola “x” è presente; T c) come nel caso b, però richiede molta più statistica per avere una risposta statisticamente significativa. NB. Una dimostrazione di “esistenza” proviene sempre dal constatare un “assurdo” (e.g. “la distribuzione sperimentale non è compatibile con la sola pdf del fondo al CL del 95%”). Paolo Bagnaia - note di statistica 55 a b c esempio p /3 Supponiamo ora il caso opposto : il T T T “rigonfiamento” rigonfiamento NON è statisticamente significativo (se cc’è è, è troppo piccolo). piccolo) Che fare ? 1. NON si può dire né che la molecola “x” c’è di sicuro, né che la molecola “x” NON è completamente assente; 2. l’affermazione corretta è “se fosse maggiore di un certo valore, l’avremmo vista” → “l’abbondanza l abbondanza della molecola “x” x è minore di un certo valore valore”, cioè si pone un limite limite; 3. come stimare il limite ? se aspettiamo un certo valore x*, il numero trovato segue una distribuzione (di Poisson) con media xx*;; questo ci dà la probabilità P(x|x P(x|x*)) (di trovare x, x se la media è x*); pertanto 4 decidiamo (a priori, 4. priori in modo sensato sensato, ma arbitrario e soggettivo soggettivo) un valore di probabilità (CL CL); assumiamo di non “essere stati sfortunati” più di 1-CL; da ciò ricaviamo il valore x*, che costituisce il limite (“al CL dato, xvero<x*”). → anche in questo caso, siamo riusciti a trovare un assurdo statistico. Paolo Bagnaia - note di statistica 56 a b c esempio / 4 T T T C Commenti ti : 1. in realtà, potrebbe darsi che la teoria in esame preveda che, se x esiste, allora la sua abbondanza sia maggiore di ...; in tal caso la regola precedente implica che la teoria sia completamente “falsificata”; 2. è [più] comune il caso opposto (o una sua variante); in tal caso la misura stabilisce un limite (inferiore/superiore) sull’abbondanza di x (o su qualche parametro,, che ne modifica l’abbondanza); ); suo p 3. di conseguenza i fisici cercano di fare un esperimento migliore (= con più statistica maggiore energia, statistica, energia maggiore precisione ...); ); 4. ... e la storia continua. Paolo Bagnaia - note di statistica fine dell’esempio : torniamo ad una discussione più formale. formale 57 Fine – percorsi eccellenza Paolo Bagnaia - note di statistica 58