Note di statistica
• alcune proprietà della funzione di
verosimiglianza (likelihood);
• test di
d ipotesi;
• frequentismo ↔ Bayes;
• esempi frequentismo ↔ Bayes :
¾ calcolo di un’efficienza;
¾ limiti di massa;
• percorsi di eccellenza.
Paolo Bagnaia - note di statistica
1
Alcune proprietà della funzione di verosimiglianza
Bibliografia :
™ PDG 2004,
2004 § 32
[la referenza canonica, ottima come sunto, ma
incomprensibile come primo approccio];
™
Eadie et al., Statistical methods
in experimental
xp
physics
p y
[il mio primo testo da studente, molto “fisico”,
ormai introvabile];
™
Cowan, Statistical data analysis
[un buon testo, semplice, moderno].
Paolo Bagnaia - note di statistica
2
definizione
Una variabile casuale x segue una funzione di
di ib i
distribuzione
( df) ƒ(x
(pdf)
ƒ( |θ
| k);
)
• i parametri θk ( k = 1,…,M) - talora ignoti allo
p
– definiscono la funzione ƒ;
sperimentatore
• misuriamo N volte la variabile x :
xj ( j = 1,…,N);
• definiamo la funzione di likelihood Λ e il suo
logaritmo ℓog (Λ) :
Esempio : si osservano
N decadimenti di una
particella di vita media τ,
misurando i tempi propri
tj, j = 1,…,N.
Paolo Bagnaia - note di statistica
N
N
Λ = ∏ f ( x j | θk );
j =1
N
log( Λ ) = ∑ log[f ( x j | θk )].
j =1
N
1 −t / τ
1 − t /τ
Λ = ∏ f (t j | τ ) = ∏ e j = N e ∑ j ;
τ
j =1
j =1 τ
N
1 −t j / τ
1 N
log( Λ ) = ∑ log[ e
] = −N log( τ) − ∑ t j .
τ
τ j =1
j =1
3
p p
proprietà
• se gli eventi A e B sono scorrelati : P (A & B) = P (A) · P (B);
• pertanto
pertanto, la likelihood Λ rappresenta la probabilità combinata di ottenere le
misure xj, data la pdf ƒ(x |θk);
• pertanto, la pdf deve essere normalizzata correttamente, indipendentemente da
θk (ovvio, ma è la causa più frequente di errori);
• dal punto di vista matematico, a seconda dei casi, occorre considerare la
likelihood Λ = Λ(xj |θk) come
¾ una funzione dei valori xj, con i parametri θk fissi;
- oppure (più frequentemente) ¾ una funzione dei parametri θk, date le misure xj;
• il logaritmo ℓog (Λ) ha proprietà matematiche convenienti :
¾ ha
h massimi
i i / minimi
i i i neglili stessi
t
i punti
ti di Λ;
Λ
+∞
¾ ha derivata dello stesso segno;
cioè ∫ f ( x | θ k )dx = 1,
−∞
¾ è più adatta a calcoli numerici
numerici.
i di
indipendente
d t d
da θ .
k
Paolo Bagnaia - note di statistica
4
applicazioni
pp
• si assume che il “caso reale” (cioè che le N misure abbiano dato i risultati
xj realmente
l
t ottenuti)
tt
ti) abbia
bbi un’alta
’ lt probabilità,
b bilità maggiore
i
di ipotetici
i t ti i altri
lt i
casi, con risultati differenti;
• ciò è ((forse)) intuitivo, ma di p
per sé non g
garantisce che i metodi statistici
basati sulla funzione di likelihood abbiano particolari (utili) proprietà
statistiche;
• la funzione di likelihood è spesso usata per due scopi :
¾ stima dei parametri e degli intervalli di confidenza dei parametri;
¾ test di ipotesi;
• in questi casi, si dimostra che la funzione di likelihood gode di importanti
proprietà.
Paolo Bagnaia - note di statistica
5
stima dei parametri
p
Dato un parametro θ, un suo estimatore, detto θ* (in letteratura è più comune
^θ),
θ) è un algoritmo,
l it
f
funzione
i
di alcuni
l
i osservabili,
bili che
h permetta
tt di stimare
ti
il
valore “vero” θv (esempio : la media di misure ripetute di una quantità fisica è un
estimatore del valore vero della grandezza misurata);
Un buon estimatore è :
• consistente : la stima θ* converge a θv quando il ∀ε > 0, lim ℘(| θ * −θ |> ε ) = 0
v
n→∞
numero di misure
i
aumenta;
t
lim b = lim ( E [θ *] − θv ) = 0
• “no-bias”, i.e. c’è assenza di “bias” b;
n →∞
n →∞
• efficiente : l’errore associato ha la varianza
V CFR [θ *]
φ
=
=1
lim
lim
minima (dal limite di Cramér-Frechet-Rao [vedi]) n →∞
n →∞ V [θ *]
tra tutti q
quelli definibili con le stesse misure);
);
• robusto : il risultato θ* è “poco” dipendente da
“piccole” variazioni della pdf (ovvero ha la minore
dipendenza dalla pdf tra tutti quelli definibili).
Paolo Bagnaia - note di statistica
NB quando non c’è rischio di
equivoci, i fisici tendono a non fare
differenza tra (θ θ* θV). Scrivono “θ” e
lasciano al lettore la decisione. D’ora
in poi faremo così anche noi.
6
massima verosimiglianza
Assumiamo di
• conoscere la forma funzionale della pdf ƒ(x |θk);
• avere misurato un campione di eventi xj;
• voler calcolare (tutti o parte dei) i parametri θk.
Il metodo della m.l. consiste nel trovare (analiticamente o numericamente) il
valore dei p
parametri θk* che massimizza la likelihood Λ ((o il suo logaritmo
g
ℓn Λ)) :
∂Λ
∂An( Λ )
= 0 ⇒ sistema di M equazioni; [oppure]
= 0 ⇒ sistema di M equazioni.
∂θk
∂θk
N
Esempio : si osservano N
decadimenti di una particella
di vita media τ, misurando i
tempi propri tj, j = 1,…,N.
1
N
Paolo Bagnaia - note di statistica
1 −t j / τ
1 N
An(( Λ ) = ∑ An[[ e
] = −N An(( τ) − ∑ t j ;
τ
τ j =1
j =1
∂An( Λ )
N 1
=− + 2
∂τ
τ τ
N
1 N
t j = 0 ⇒ τ = ∑ t j = ⟨t ⟩.
∑
N j =1
j =1
7
proprietà della massima likelihood
•
•
•
•
Il metodo della m.l. ha le seguenti proprietà [no dimostrazioni, cercare
bibliografia] :
asintoticamente consistente;
asintoticamente no-bias;
no bias;
il risultato θ* è asintoticamente distribuito attorno a θv con varianza data
dal limite di Cramér-Frechet-Rao (v. prossima pagina);
“invariante” per cambio di parametri : la stima m.l. di una funzione dei
parametri è la funzione dei parametri stimati [e.g. (θ2)* = (θ*)2]; tale stima
è anche asintoticamente no
no-bias.
bias.
NB. “asintoticamente” significa : esiste un teorema, che
dimostra la proprietà considerata, nel limite Nmisure→ ∞; se N
è finito, le proprietà non sono più a rigore valide; i fisici
talvolta lo dimenticano (i.e. assumono di essere sempre
nella regione asintotica).
Paolo Bagnaia - note di statistica
8
limite di Cramér - Frechet - Rao
Si dimostra (bibliografia) che, per ogni estimatore θ* di un dato parametro θ,
affetto da un bias b,
b la varianza aspettata ha un limite inferiore dato dalla
disuguaglianza di CFR :
2
1 ⎛ ∂b ⎞
V (θ*) = σ2 (θ*) ≥
1+
,
⎜
⎟
ℑ(θ) ⎝
∂θ ⎠
ove la funzione ℑ(θ) è l’informazione di Fisher :
caso ad un parametro : θk,
k=1;
k
1; l’estensione
l estensione a M
parametri è semplice, ma
noiosa.
2
⎡⎛ ∂ log Λ( x j ; θ) ⎞2 ⎤
⎡⎛ ∂
⎞ ⎤
ℑ(θ) = E ⎢⎜
⎟ ⎥ = E ⎢⎜ ∑ j log f ( x j | θ) ⎟ ⎥ .
∂θ
⎠ ⎥⎦
⎢⎣⎝
⎢⎣⎝ ∂θ
⎠ ⎥⎦
La definizione di estimatore efficiente richiede che nella formula precedente
valga
g il segno
g “=” anziché “≥”.
Pertanto, l’estimatore della massima likelihood, essendo efficiente e no-bias, ha
la varianza aspettata più piccola possibile.
¾ in
i termini
t
i i semplici,
li i la
l m.l.
l è il migliore
i li
estimatore
ti t
possile
il quando
d N è grande.
d
Paolo Bagnaia - note di statistica
9
esempio : vite medie “limitate”
limitate
Problema (famoso) : in una regione di spazio limitata e nota, si
osservano N decadimenti di particelle provenienti dal punto P.
P Per
ogni particella si misurano p, m, ℓ, ℓmin, ℓmax (le lunghezze minime e
massime osservabili, differenti per ogni evento). Trovare τ.
Poniamo t i = A i m / pi c;
t = A m / pi c;
t
= A m / pi c.
La pdf, evento per evento, è differente da quella che si avrebbe nel
caso “illimitato” (vedi figura). Calcoliamo :
min
i
min
i
max
i
max
i
⎧se t imin ≤ t i ≤ t imax ⎫
∫timin f (ti )dti = 1 ⇒ ƒ(ti ) = e −timin τ − e −timax τ ⎨⎩ = 0 altrimenti ⎭⎬;
ti
⎡
−timin τ
−timax τ ⎤
log
g Λ = ∑ i ⎢ − log τ − − log
g e
−e
⎥;
τ
⎣
⎦
min
max
⎛
t imine −ti τ − t imax e −ti τ ⎞
∂ log Λ
N 1
= 0 = − + 2 ∑ i ⎜ ti −
⎟⎟;
−timin τ
−timax τ
⎜
∂τ
τ τ
e
−e
⎝
⎠
1
⇒ τ = ∑ i t i − t imin .
se t imax = ∞ ⇒ N τ = ∑ i t i − t imin
N
timax
e −t i
τ
altrimenti, soluzione numerica.
Paolo Bagnaia - note di statistica
P
ℓmax
D
ℓmin
τ
(
(
ℓ
ƒ(t)
)
)
(
intuitivo, ma non
ovvio da dimostrare
[
[non
iin scala]
l ]
)
tmin
tmax
t
10
caso “Gaussiano”
Gaussiano
Nota bene : fino ad ora, NON ci sono state assunzioni sulla pdf.
• assumiamo N misure con pdf “gaussiana” di valori µ,σ :
ƒ( x | µ, σ) =
⎡ ( x − µ )2 ⎤
exp ⎢ −
⎥;
2
2σ ⎥
2π σ
⎢⎣
⎦
1
2
⎡
⎤
−
x
µ
(
)
1
j
⎥=
ln Λ = ∑ j ⎡⎣ln ƒ( x j | µ, σ)⎤⎦ = ∑ j ⎢ − ln 2π − ln σ −
2
2σ
⎢ 2
⎥
⎣
⎦
2
N
1
= − ln
l 2π − N lln σ − 2 ∑ j ( x j − µ ) ;
2
2σ
∂ ln Λ
= 0 = 2∑ j x j − 2Nµ;
∂µ
2
∂ ln Λ
N 1
= 0 = − + 3 ∑ j ( x j − µ) .
∂σ
σ σ
Paolo Bagnaia - note di statistica
1
N
1
σ2 =
N
µ=
∑ x = ⟨ x⟩;
∑ (x − µ) .
j
j
2
j
j
ok !!! ma …
11
caso “Gaussiano”
Gaussiano – caso N finito
• ricalcoliamo E[µ*] e E[(σ*)2], (poniamo gj = ƒ(xj|µ,σ)] :
⎛1
⎞ combi
E [µ*] = E [µ * ( x1,...xN )] = ∫ dx1...∫ dxN ⎜ ∑ j x j ⎟ g1,...,
N =
N
⎝
⎠
1
= ∑ j ⎡ ∫ dx j x j g j ∏ m ≠ j ∫ dxm g m ⎤ =
⎣
⎦
N
1
= ∑ j ⎡⎣( µ ) (1) ⎤⎦ = µ.
N
(
)(
)
quindi, µ
quindi
µ* è un estimatore
“no-bias” del parametro µ.
E [( σ * ) ] = E [( σ * ( x1,...xN )) ] =
2
2
2
⎛1
⎡
⎤
1
⎧
⎫ ⎞ combi
quindi, per N finito, σ* è un
= ∫ dx1...∫ dxN ⎜ ∑ j ⎢ x j − ⎨ ∑ m xm ⎬⎥ ⎟ g1,...,N =
⎜N
estimatore “con-bias” del
⎩N
⎭⎦ ⎟⎠
⎣
⎝
parametro σ; è meglio usare
2)
= [senza dimostrazione,
dimostrazione vedi bibliografia] =
un altro
lt estimatore
ti t
(
(e.g.
s2),
N −1 2
=
σ.
N
2
N
1
2
s2 =
x
−
µ
.
(σ *) =
(
)
∑
j
j
N −1
N −1
Paolo Bagnaia - note di statistica
12
stima degli errori
Qual è l’errore statistico di una stima m.l. ? ci sono alcune “ricette” :
• nei casi semplici (e.g. nel caso di pdf gaussiana o esponenziale) è possibile
calcolare analiticamente la varianza; poi V(θ*) → σ(θ*) = [V(θ*) ]½;
• nei casi complicati
complicati, in cui si possono fare solo analisi numeriche
numeriche, si usa un
metodo “montecarlo” : molti “gedanken-exp” → distribuzione dei valori stimati
→ calcolo di errore, intervalli di confidenza, etc.
• il caso più
iù comune è un metodo
t d di ““sviluppo
il
iin serie”
i ”:
log Λ( θ) θθ≈θθ*
1 ⎡ ∂ 2 log Λ ⎤
2
⎡ ∂ log Λ ⎤
= log Λ(θ*) + ⎢
θ
−
θ
+
θ
−
θ
+ ... =
*
*
(
)
(
)
⎢
⎥
2
⎥
2 ⎣ ∂θ ⎦ θ=θ*
⎣ ∂θ ⎦ θ=θ*
1
1
2
≅ log Λ max + 0 −
θ
−
θ
*
).
2 (
2 [ σ * ( θ )]
definizione di m
m.l.
l
Paolo Bagnaia - note di statistica
manipolazioni del limite CFR mel caso di m
m.l.
l
…
continua
…
13
stima degli errori – caso “grafico”
grafico
Per N→∞, ℓn Λ (θ) → parabola; nel
caso di N finito
fi i sii procede
d nell seguente
modo (v. figura) :
AnΛ(θ) θ≈θ* =
θ − θ *)
(
.
≅ AnΛ max −
2
2 [ σ * ( θ )]
2
a si calcola (in modo numerico
a.
numerico, analitico
analitico,
grafico) la curva ℓn Λ (θ);
[θ*,ℓn Λmax]
b. si trova il massimo → [[θ*,, ℓn Λmax];
c. si decresce di ½ → ℓn Λmax- ½;
d si trovano i due valori
d.
ℓn Λ (θ);
θ+,
θ-
sulla curva
e. si definiscono g
gli errori statistici
σ± = ±(θ± - θ*).
ℓn Λ
1/2
σ -(θ)
σ+(θ)
un misto di matematica
matematica, statistica
statistica, buon senso
Paolo Bagnaia - note di statistica
14
likelihood “binnate”
binnate
dN/d
/dx
Si dice comunemente che la m.l. “funziona anche con pochi eventi”. Ci sono problemi
((vedi p
prec.),
), p
però è vero che il metodo,, in linea di p
principio,
p , non necessita di un numero
minimo di eventi (cfr i fit con il χ2, quando √N e N sono dello stesso ordine di
grandezza).
Però,, talvolta,, accade il caso contrario : p
per motivi numerici ((o di tempo
p di CPU,,
oppure perché non si hanno più i dati originali) occorre raggruppare i dati.
Esempio : fit di un istogramma. Supponiamo di conoscere :
• nj : il numero di eventi nel “bin”
bin j di centro xj;
• ƒ(x|θk) : la pdf aspettata, contenente dei parametri ignoti θk;
An Λ = ∑m
eventi
A n f ( xm ; θk ) ≈ ∑ j n j A n f ( x j ; θk );
)
nj
∂A n Λ
bin
= 0 = ∑j
∂θk
f ( x j ; θk )
bin
∂f ( x j ; θk )
∂θk
.
• è come se tutti gli eventi fossero spostati al centro del bin;
• per diminuire la sistematica, è meglio avere bin stretti (cfr il caso del χ2);
• se si può fare, la likelihood “non-binnata” è meglio.
Paolo Bagnaia - note di statistica
nj
xj
x
15
likelihood ↔ χ2
Il metodo della m.l. coincide esattamente con quello del χ2 nel caso speciale di N
misure indipendenti xj, ciascuna con distribuzione gaussiana attorno alla media,
media e
con σj nota. In tale caso :
1
2
ƒ( x j ; µ, σ j ) =
exp ⎡ − ( x − µ ) 2σ2j ⎤ ;
⎣
⎦
2π σ
(
)
j
2
⎡
⎤
x
−
µ
(
)
1
j
⎥;
A n Λ = ∑ j A n ƒ( x j ; µ, σ j ) =∑ j ⎢ − A n ( 2π ) − A n σ j −
2
2σ j ⎥
⎢ 2
⎣
⎦
⎡ xj − µ⎤
∂A n Λ
x
x
= 0 = ∑ j ⎢ 2 ⎥ = ∑ j σ2j − µ∑ j σ12 ⇒ µ = ∑ j ⎡⎢ σ2j ⎥⎤ ∑ j ⎢⎡ σ12 ⎤⎥ ;
j
j
⎣ j⎦
⎣ j⎦
∂µ
⎢⎣ σ j ⎥⎦
⎡ ( x − µ )2 ⎤
j
⎥ = −2A n Λ + cost;
χ2 = ∑ j ⎢
NB : nel caso generale,
generale non esiste
2
⎢ σj
⎥
nessuna “equivalenza” tra metodo
⎣
⎦
del χ2 e della m.l.; pertanto i risultati
2
∂χ
∂A n Λ
sono simili, ma non identici; di
= 0 = −2
⇒ stesso risultato per µ.
solito, i fisici non se lo ricordano.
∂µ
∂µ
Paolo Bagnaia - note di statistica
16
qualità del fit m.l.
dN/d Λmax
Nel caso m.l. non esiste nessun estimatore della qualità del fit (i.e. non c’è l’analogo
d ll “probabilità
della
“ b bilità di χ2”.
” In
I altri
lt i termini,
t
i i il valore
l
Λmax (oppure
(
ℓ Λmax),
ℓn
) che,
h all parii di
χ2min, è una variabile casuale, non ha una pdf definita nel caso generale.
I fisici seguono differenti strade; elenchiamo le più comuni :
• “gedanken-exp.” : generare esperimenti identici a
quello allo studio; usare Λmax per stabilire intervalli
Λmax osservata
di confidenza ed equivalenti alla P(χ2) [→ figura].
• doppio fit : si calcola il valore del χ2, corrispondente
∫…=1
al fit m.l., e la corrispondente P(χ2);
• “modifica della domanda” : anziché chiedersi “qual
q
è la probabilità di ottenere, in queste condizioni,
questo risultato o uno peggiore [→ P(χ2)] ?”, ci si
domanda “data una teoria differente, quale spiega
meglio i dati ?” [occorre inventarsi una teoria
“P(Λmax)”
plausibile differente, fare un altro fit m.l. e poi un
“test di ipotesi”, vedi avanti].
Λmax [oppure ℓog Λmax]
Paolo Bagnaia - note di statistica
17
Test di ipotesi
Bibliografia :
™ PDG 2004,
2004 § 32
[la referenza canonica, ottima come sunto, ma
incomprensibile come primo approccio];
™
Eadie et al., Statistical methods
in experimental
xp
physics
p y
[il mio primo testo da studente, molto “fisico”,
ormai introvabile];
™
Cowan, Statistical data analysis
[un buon testo, semplice, moderno].
Paolo Bagnaia - note di statistica
18
test di ipotesi
Talvolta le funzioni statistiche vengono utilizzate per un
“t t di iipotesi”.
“test
t i” E
Esempio
i :
ƒ(t)
• due teorie (H
H0, H1) contrastanti (e.g. Tolomeo vs
Copernico);
• le due teorie sono calcolabili, e danno “predizioni”;
acc. reg.
rej. reg.
cut
ƒ(t|H1)
ƒ(t|H0)
• si calcola una funzione t (usualmente scalare) delle
misure chiamata statistica (e.g.
misure,
(e g χ2, likelihood) :
t = t(x1,x2, x3, ..., xN);
• la funzione t è una variabile casuale, che ha p.d.f.
diff
differente
t nelle
ll d
due tteorie
i :
ƒ(t|H0) ↔ ƒ(t|H1) ;
• si stabilisce (a
a priori !!!) un taglio (cut), che divide i
valori di t in due regioni :
¾ H0 accettata;
¾ H1 accettata.
tt t
Paolo Bagnaia - note di statistica
t
β
α
caso particolare [comune] :
H1 = H0
(→ oltre)
19
efficienza ↔ purezza
Esempi, data una certa “t.s.” t :
™
™
P (errore 1) = sig. level = α = ∫cut ƒ(t|H0) dt;
cut
P ((errore tipo 2)) = β = ∫-∞∞ ƒ(
ƒ(t|H
| 1) dt;
+∞
ƒ(t)
acc. reg.
™ talora β è chiamato “potere discriminante”.
In parole povere:
¾ il test ideale (il “t.s.” ideale) è quello che
separa completamente H0 e H1;
¾ questo test avrebbe efficienza (φ=1 ⇒ α=0);
=0);
¾ … e purezza (β=0);
¾ …p
però,, nel caso allo studio,, la t.s. “t” non
consente di avere contemporaneamente (α=0)
e (β=0);
¾ si può fare meglio
meglio, o c’è
c è un “limite
limite intrinseco
intrinseco” ?
Paolo Bagnaia - note di statistica
rej. reg.
cut
ƒ(t|H1)
ƒ(t|H0)
t
β
α
20
esempio
p : IFAE 2010 (Roma),
(
), exp.
p ALICE
misurare il tempo di volo di
una particella di massa ignota
in una distanza data; si può
identificare la particella :
L
LE Lc p 2 + m 2c 2
t=
=
=
≅
2
2
β c pc
pc
L ⎛ m 2c 2 ⎞
≅ ⎜1 +
= t (m )
2 ⎟
2p ⎠
c⎝
∆t12 ≡ t (m1 ) − t (m2 ) ≅
Lc
2
2
m
−
m
.
1
2
2
2p
(
• impulso
i
l p + tof
t f t → massa m
• includere errore di misura σt
)
TOF
(time of flight)
L
• se p aumenta, ∆t12 → 0.
Paolo Bagnaia - note di statistica
21
IFAE 2010 : osservazioni
∆t12 ≡ t (m1 ) − t (m2 ) ≅
Lc
m12 − m22 .
2
2p
(
commenti :
• a basso p, distribuzioni quasi
separate → taglio
li ovvio;
i
• ad alto p, sovrapposizione →
privilegiare
g
decidere se p
efficienza oppure purezza;
• distribuzioni normalizzate ai
flussi reali (molti π,
π pochi K,
K
pochissimi p) → fa molta
differenza.
Paolo Bagnaia - note di statistica
)
TOF
(time of flight)
L
22
test di ipotesi - definizioni
(anche il nome inglese, che serve per la letteratura)
• hypotesis (h.)
: teoria, che prevede che i dati abbiano una distribuzione (pdf) data;
• null h. (H0)
: la teoria sotto test;
• simple h
h.
: teoria completamente fissata (e
(e.g.
g la ricerca di W e Z);
• composite h.
: teoria fissata funzionalmente, ma con parametri liberi (e.g. Higgs);
• alternative h. (H1) : altra teoria, che si esclude reciprocamente con H0 (e.g. “no-H0”);
• test statistic (t.s.)
: funzione di quantità misurate, utile per accettare H0 (e.g. P(χ2));
• statistical test (cut) : regola di decisione sull’accettazione di H0 (e.g. P(χ2) > 0.01);
• rejection
j ti region
i
: la
l regione
i
d
dello
ll spazio
i d
dell tt.s. iin cuii H0 è respinta;
i t
• acceptance region : la regione (…) in cui H0 è accettata (meglio, “non respinta”);
• significance
g
level
: la p
probabilità che H0 sia respinta,
p
, se è vera ((cioè l’integrale
g
della
pdf del t.s. nella rej. region);
• first kind error
: la reiezione di H0, se è vera, perché la sua t.s. è fuori del/i cut(s);
• second kind error : l’accettazione di H0, se è falsa
falsa, perché la sua tt.s.
s è entro il/i cut(s)
cut(s).
Paolo Bagnaia - note di statistica
23
accettare un’ipotesi
un ipotesi
Talvolta si cerca soltanto di capire se H0 è accettabile
(
(e.g.
se il modello
d ll “f
“funziona”).
i
”) E
Esempio
i :
• H0 è la relazione lineare tra due variabili fisiche :
ƒ(χ2)
acc. reg.
y = y(
y(x)) = kx;;
• la statistica t è il χ2, e ƒ(t|H0) è la distribuzione di χ2;
rej. reg.
cut
ƒ(t|H0)
• si stabilisce il taglio, in modo da perdere una
frazione α dei casi “corretti”
corretti , ma la (quasi) totalità
degli “sbagli”;
• si misurano N valori xi, yi (e i relativi errori σi);
• si “fitta” k dalle misure (o si usa il modello);
• si calcola il χ2 nel caso specifico :
α
χ2
χ2 = Σi (kxi - yi)2 / σi2;
• si acccetta o si respinge l’ipotesi a seconda del
valore ottenuto.
Paolo Bagnaia - note di statistica
24
χ2 ↔ P(χ2)
ƒ(χ2)
acc. reg.
dN
dP( 2)
dP(χ
rej. reg.
cut
ƒ(t|H0)
α
∞
P (χ ) = ∫ 2 f (χ 2 ) d χ 2
2
χ
rej. reg.
α
acc. reg.
χ2
0
P(χ2)
P(
di solito, anziché con la ƒ(χ2), si
lavora con la P(χ2).
1. forma nota e facile, se si hanno molti casi si
può controllare;
Concettualmente nessuna
differenza, ma ci sono vantaggi
pratici :
2. si possono trattare in modo consistente casi
con Ndof differente;
Paolo Bagnaia - note di statistica
1
3 il valore di α risulta chiaro,
3.
chiaro e non richiede
calcoli complicati.
25
Lemma di Neyman
Neyman-Pearson
Pearson
Per un dato un livello di significanza α (oppure un dato livello di [dimostrazione in
efficienza φ=1-α),
φ=1 α) la regione di accettanza con il più elevato potere
bibli
bibliografia]
fi ]
discriminante è data dal cut nel rapporto tra le pdf delle due ipotesi
ƒ(t|H0) / ƒ(t|H1) > k
la scelta della costante k è determinata dal valore di α [φ] desiderato.
Tale scelta è il rapporto delle likelihood per le ipotesi H0 e H1.
Osservazioni :
rej. reg.
acc. reg.
ƒ(t))
ƒ(
cut
™ il lemma, in pratica, si applica facendo il rapporto tra le likelihood
delle due ipotesi e “tagliando” su di esso, cioè su (lnΛ0 - lnΛ1);
™ se le
l pdf
df (e
( le
l corrispondenti
i
d ti likelihood)
lik lih d) hanno
h
l forma
la
f
consueta (un solo massimo, decrescite “veloci” lontano dal
massimo), il taglio sul rapporto si riduce ad un semplice taglio
(multi dimensionale) nelle variabili cinematiche “t”;
(multi-dimensionale)
t ; se le pdf (e/o le
likelihood) sono anomale, la cosa va verificata attentamente.
ƒ(t|H0)
ƒ(t|H1)
β
t
α
NB il lemma è dimostrato nel caso in cui sia H0, sia H1 siano ipotesi semplici; nel caso di
ipotesi composite non è necessariamente vero [i fisici, al solito, se ne dimenticano].
Paolo Bagnaia - note di statistica
26
test di ipotesi con la likelihood : esempio
Problema (un po’ scemo) : misuriamo N volte una grandezza; sappiamo che l’errore
statistico
t ti ti
è gaussiano,
i
con errore σ0 = σ1 = σ. Abbiamo
Abbi
d
due
i t i H0 e H1, che
ipotesi,
h
predicono rispettivamente i valori µ0 e µ1 per la quantità. Come decidere ?
Calcoliamo
Ca
co a o :
2
⎡
⎤
x
−
µ
(
1
0,1 )
⎥;
exp ⎢ −
ƒ 0,1( x j | µ0,1, σ) =
2
2σ
⎢
⎥
2π σ
⎣
⎦
2⎤
⎡ 1
exp ⎢ − 2 ∑ j ( x − µ1 ) ⎥
Λ
⎣ 2σ
⎦;
t= 1 =
2⎤
Λ0
⎡ 1
exp ⎢ − 2 ∑ j ( x − µ0 ) ⎥
⎣ 2σ
⎦
1
(
)
2σ2 ln t = N µ02 − µ12 + ( µ1 − µ0 ) ∑ j x j ;
ln t =
1 ⎛ µ1 − µ0 ⎞ ⎛ ⟨ x ⟩ − µ0 − µ1 ⎞
⎜
⎟⎜
⎟;
2 ⎝ σ N ⎠⎝ σ N
⎠
Paolo Bagnaia - note di statistica
z≡
⟨ x ⟩ − µ0
σ
N
; a0 ≡
µ0
σ
N
; a1 ≡
µ1
σ
N
;
2
1
( a1 − a0 )( z − µ1 ) ;
2
La variabile z è funzione monotona di t ;
ln t =
inoltre z ha una pdf di Gauss :
se H0
⎧ gauss(media = 0,var = 1)
f ( z )= ⎨
;
gauss(media
=
a
−
a
,var
=
1)
H
se
1
0
1
⎩
⇒ tagliare sulla variabile z, calcolare α, β,...
27
Frequentismo ↔ Bayes
Bibliografia :
™ G.Cowan, Statistical data analysis.
™ G.D’Agostini, CERN 99-03
(“Bayesian reasoning …”);
™
Y ll report CERN 2000-005
Yellow
2000 005
(“Confidence limits”);
™
2008 001
Yellow report CERN 2008-001
(“Stat. issues for LHC”).
LA DISCUSSIONE TRA GLI ESPERTI È MOLTO
VIVACE. QUI SOLO INTRODUZIONE ED ESEMPI.
Paolo Bagnaia - note di statistica
28
Bayesianism versus Frequentism
“Bayesians address the question everyone is
interested in,
in by using assumptions no-one
no one
believes”
“Frequentists
Frequentists use impeccable logic to deal
with an issue of no interest to anyone”
Paolo Bagnaia - note di statistica
29
disclaimer
• nelle prossime pagine faremo largo uso del concetto di probabilità e dei suoi
derivati (ex. livello di confidenza, limite);
• “probabilità” ha più di un significato → le interpretazioni principali sono :
¾ frequentista : probabilità = limite della frequenza per prove → ∞ ;
*
¾ credentista
: probabilità = fiducia che qualcosa accada;
• alcuni concetti (o espressioni calcolate) cambiano significato (o valore) nelle
due interpretazioni;
• tradizionalmente, i fisici sono stati “frequentisti”, ma recentemente i più esperti
sono diventati “bayesiani”;
• in queste lezioni, approccio prevalentemente frequentista per due motivi :
™ più familiare agli studenti (… e al docente);
™ generalmente usato nelle pubblicazioni originali (non
(
più
iù vero negli
li ultimi
lti i anni)
i);
_________________________________
*
più comunemente chiamata interpretazione bayesiana, per la grande importanza che vi
assume il teorema di Bayes : P(A|B) = P(B|A) P(A) / P(B).
Paolo Bagnaia - note di statistica
30
disclaimer (cont.)
(
)
… tuttavia :
• più importanza alla fisica che alla dogmatica della probabilità matematica;
• il significato di una misura (o di un limite) non dipende dal linguaggio in cui è
espresso;
• se la procedura sperimentale è chiara e documentata, un esperto può sempre
“tradurre”
tradurre la misura in un
un’altra
altra interpretazione;
• due raccomandazioni :
? documentare la procedura sperimentale (non solo
il puro risultato);
? evitare le “guerre di religione” su falsi problemi.
W Y
Paolo Bagnaia - note di statistica
31
gli assiomi di Kolmogorov
Andrei Nikolaevich Kolmogorov (1903 – 1987), matematico russo (sovietico),
formalizzò nel 1933 il calcolo delle probabilità in modo assiomatico,
introducendo lo spazio S degli eventi (A, B, …) e la probabilità di un evento
(P(A)) come una misura di A in S. Gli assiomi di K. della probabilità sono :
1 0 ≤ P(A) ≤ 1 ∀ A ∈ S;
1.
2. P(S) = 1;
3 A∩B = Ø ⇒ P(A∪B) = P(A) + P(B).
3.
P(B)
Alcuni teoremi (facili da dimostrare) :
A
B
• P(Ā) = 1 – P(A);
• P(A∪Ā) = 1;
• P(Ø) = 0;
S
• A ⊂ B ⇒ P(A) ≤ P(B);
• P(A∪B) = P(A) + P(B) – P(A∩B).
P(A∩B)
Paolo Bagnaia - note di statistica
32
il “coverage”
coverage frequentista
[[e.g.
g Feldman-Cousins,
C
, Phys
y R
Rev. D,, 57,, 3873 ((1998)])]
Data una variabile µ, di valore vero µT (ignoto),
sii supponga di poter
t
fi
fissare
un intervallo
i t
ll
[µ1, µ2], tale che
P(µ1 ≤ µ ≤ µ2) = α
ƒ(µ)
Si dice che l’intervallo [µ1, µ2] ha il “coverage”
di [[cioè “ricopre”]
p ] µ al livello di confidenza α.
NB. I frequentisti
q
non p
parlano mai di P(µ
(µT||dati)) o di
ƒ(µT), ma solo di P(osservazioni | µ); le variabili
casuali nelle affermazioni precedenti sono µ1 e µ2,
non µ o µT.
Paolo Bagnaia - note di statistica
5%
α=90%
µ1
5%
µ2
µ
33
il teorema di Bayes
Thomas Bayes (1702 – 1761) era un ministro
presbiteriano inglese. Il suo teorema è valido anche
in un’interpretazione frequentista (a rigore, è un
teorema di teoria degli insiemi), cioè T.B. non era
“bayesiano”. Dimostrazione dagli assiomi di K. :
Ai
B
• P(A∩B) = P(B∩A) = P(B|A) P(A) = P(A|B) P(B);
S
• Ai tali che Ai ∩ Aj = Ø,
Ø UiAi = S;
S
• B = B∩S = B ∩ (UiAi) = Ui (B ∩ Ai);
• P(B) = P [Ui (B ∩ Ai)] = ∑i P(B ∩ Ai);
• P(B) = ∑i P(B|Ai) P(Ai).
teorema di Bayes
(3 formulazioni)
Paolo Bagnaia - note di statistica
Aj
Aj∩B
P (B | A)P ( A)
;
P (B )
P (B | A)P ( A)
P( A | B) =
;
∑ i P (B | Ai )P ( Ai )
P( A | B) =
ƒ( y | x ) =
g ( x | y )π( y )
.
∫ g ( x | y ′)π( y ′)dy ′
34
esercizio sul teorema di Bayes
Esercizio
Cowan).
(non
politically
correct,
da
Supponiamo che il numero dei malati di
aids sia 0.1% della popolazione e che ci
sia un test clinico, che dà risultato positivo
per il 98%
% dei malati e per il 3%
% dei sani.
Faccio il test e risulto positivo. Ho l’aids ?
P (B | A)P ( A)
;
P (B )
P (B | A)P ( A)
P( A | B) =
;
∑ i P (B | Ai )P ( Ai )
P( A | B) =
disclaimer : questi dati NON sono realistici, il test
in questione NON esiste, NON preoccupatevi ...
… ma cercate di capire quanto è facile ingannarsi
in questo tipo di ragionamenti, che possono
assumere grande rilevanza mediatica e sociale.
Paolo Bagnaia - note di statistica
ƒ( y | x ) =
g ( x | y )π( y )
.
∫ g ( x | y ′)π( y ′)dy ′
35
esercizio “aids”
P ( + | aids) ⋅ π(aids)
=
P(+)
P ( + | aids) ⋅ π(aids)
=
=
P ( + | aids) ⋅ π(aids) + P ( + | no-aids) ⋅ π(no-aids)
0.98 × 0.001
=
≅ 0.
0 032
0.98 × 0.001 + 0.03 × 0.999
P (aids|+ ) =
π(aids) = 0.001;
P( | aids)
P(+|
id ) = 0.98
0 98
P(+| no-aids) = 0.03
Interpretazioni :
Domande (buon senso) :
positivi
• statistica ((3.2 % dei p
ha l’aids, 96.8 % no);
• soggettiva (ho il 3.2% di
probabilità di avere l’Aids)
l Aids).
• conviene fare q
questo test a tutti ?
• se rifaccio il test, in modo scorrelato dal
primo, e viene ancora +, ho l’aids ?
Paolo Bagnaia - note di statistica
[R : P2(aids|++) = 52%]
36
interpretazione frequentista del teorema di Bayes
Il teorema di Bayes (e ll’esercizio
esercizio precedente) non
hanno nulla di “bayesiano” : ci dicono come
modificare la probabilità P(A) (la distribuzione
π(y))
( )) alla
ll luce
l
di qualche
l h nuova informazione.
i f
i
Nel caso specifico,
specifico ll’esercizio
esercizio consente
un’interpretazione “frequentista” perfettamente
consistente (come abbiamo visto).
Le differenze tra interpretazione “frequentista”
e “bayesiana”
bayesiana provengono dai casi in cui la
probabilità non può essere definita in senso
frequentista (e.g. la “probabilità” che domani
piova oppure che una affermazione sia vera).
vera)
Paolo Bagnaia - note di statistica
P (B | A)P ( A)
;
P (B )
P (B | A)P ( A)
P( A | B) =
;
∑ i P (B | Ai )P ( Ai )
P( A | B) =
ƒ( y | x ) =
g ( x | y )π( y )
.
∫ g ( x | y ′)π( y ′)dy ′
37
interpretazione
p
“bayesiana”
y
del teorema di Bayes
y
L’interpretazione “bayesiana” sorge quando si considera la probabilità che una teoria
((un’ipotesi)
p
) H sia vera,, alla luce di nuovi dati sperimentali
p
D.
prob. dei dati, assumendo
che l’ipotesi H sia vera.
P (D | H )P (H )
P (H | D ) =
.
∑ i P (D | Hi )P (Hi )
“posterior”, cioè prob.
dell’ipotesi
dell
ipotesi H a valle dei dati.
dati
“prior”, cioè prob. a priori,
precedente ai nuovi dati.
normalizzazione, somma
su tutte le posibili ipotesi
ipotesi.
• [prob. della teoria dai dati] = [prob. dei dati nella teoria] × [prob. della teoria prima
dei dati], [opportunamente normalizzata].
• definibile anche per eventi unici (e.g. domani pioverà ? esiste il bosone di Higgs ?)
• il punto debole è la definizione del prior, che talvolta è una libera scelta
dell’osservatore; la teoria si occupa solo della modifica della probabilità, causata dai
dati (prob.
(prob soggettiva,
soggettiva criticabile in un
un’interpretazione
interpretazione ortodossa della scienza).
scienza)
Paolo Bagnaia - note di statistica
38
Esempio : calcolo di un’efficienza
un efficienza
Bibliografia :
™ M.Paterno,
M Paterno
home.fnal.gov/~paterno/images/effic.pdf;
™
G.Cowan, Statistical data analysis + note.
note
ESEMPIO DI UN CALCOLO MOLTO COMUNE :
EVENTI ACCETTATI/GENERATI, EFFICIENZA
DEI RIVELATORI
V
, NUMERO
U
DI EVENTI
V
IN UN
U
BIN, ETC ETC.
NON RIGUARDA
G
SOLO I GIOCHI
G
D’AZZARDO !
Paolo Bagnaia - note di statistica
39
il paradosso
•p
prendiamo una moneta nota :
P (testa) = 1 - P (croce) ≡ ε = 0.5;
TTT ;
• lanciamola tre volte : otteniamo “TTT”;
• può capitare ? certo :
P ((TTT)) = P ((CCC)) = ε3 = 1/8 = 12.5%.
• prendiamo invece una moneta ignota :
P (testa) = 1 - P (croce) ≡ ε = ignoto;
matematicamente non c’è
incompatibilità,
p
perché le due
p
domande sono differenti, però
sembra molto incoerente.
per N → ∞ tutto torna, ma talvolta N è piccolo e
occorre comunque analizzare i dati.
Paolo Bagnaia - note di statistica
• lanciamola tre volte : otteniamo “TTT”;
• possiamo stimare ε ? certo [→pross.] :
ε = successi / tentativi = n/N = 1;
σε2 = V(ε) = ε(1-ε)/N
ε(1 ε)/N = 0 → σε = 0 (!!!)
40
approccio frequentista
• se la
l probabilità
b bilità di successo nell caso
singolo è ε, ne segue che la probabilità
di n successi in N tentativi segue la
distribuzione binomiale;
• è possibile definire la funzione di
likelihood Λ
Λ=Λ(ε)
Λ(ε) e una stima di
likelihood per ε e la sua varianza;
• tali stime hanno le proprietà asintotiche
b
ben
note
t (ma,
(
nell caso N piccolo,
i
l
portano al paradosso mostrato).
℘(n | N, ε) =
N!
ε n (1 − ε )N −n ;
n !(N − n )!
Λ(ε ) = cost × ε n (1 − ε )N −n ⇒
ln Λ(ε ) = n ln ε + (N − n )ln(1 − ε ) + cost;
∂ ln Λ n N − n
n
= −
= 0 ⇒ εˆ = ;
∂ε
N
ε 1− ε
V (n ) = N ε(1 − ε ) ⇒
n
N ε(1 − ε ) εˆ(1 − εˆ )
V (ε) = V ( ) =
;
≅
2
N
N
N
εˆ(1 − εˆ )
.
σε = V (ε ) =
N
nota bene : tutto il “pasticcio” viene dall’inversione della binomiale : si fissa N, si
misura n, e si stima ε (anziché prevedere n, noto ε); in realtà, è quello che fanno
sempre i fisici, che sono interessati al valore dei parametri, e non alle vincite al gioco.
Paolo Bagnaia - note di statistica
41
approccio bayesiano
• dal teorema di Bayes :
℘(n | ε, N )π(ε )
℘(ε | n, N ) =
;
∫℘(n | ε′, N )π(ε′)d ε′
“principio di ragione
insufficiente”
insufficiente
• scegliere il prior π(ε) : è ragionevole che sia uniforme ( = 1 per 0 < ε < 1,
1
= 0 altrimenti);
• ne segue (no dimostrazioni) :
ƒ(ε ) = ℘(ε | n, N ) =
(N + 1)! n
ε (1 − ε )N −n ;
n !(N − n )!
moda[ε] = n / N;
n +1
;
N+2
ε(1 − ε )
V [ε] = σ2ε =
;
N +3
E [ ε] =
Paolo Bagnaia - note di statistica
… e tutto è più ragionevole; nel caso
dell’esempio (T T T → N = n = 3), si ha :
• ƒ(ε) = 4ε3;
• moda(ε) = 1 (come prima);
• E [ε] = 4/5 = 0.8;
• σε = 1/6 = 0.16;
• P (ε ± 1σ) = 71.2 % [non 68% !!!];
• P (0.4 < ε < 0.6) = 10.4 %;
… che sembrano risultati sensati.
42
conclusioni
Morale :
• entrambi gli approcci hanno aspetti
corretti (e.g. σ ~ 1/√N);
• per N → ∞, i due approcci coincidono;
• per N piccolo, l’approccio frequentista
può dare
da e risultati
su tat inconsistenti;
co s ste t ;
• l’approccio bayesiano contiene
elementi arbitrari (il prior), ma per N
piccolo è favorito dal buonsenso;
item
frequentista
bayesiano
ƒ(ε))
ƒ(
???
(N+1)! εn (1-ε)N-n
n!! (N-n)!
(N )!
E(ε)
n
N
n+1
N+2
σε 2
ε (1 – ε)
N
ε (1 – ε )
N+3
• inoltre l’approccio bayesiano consente (e.g.) il calcolo di limiti, livelli di
confidenza, etc. etc.;
• attenzione ad usare correttamente i teoremi sulla funzione di likelihood,
validi (e dimostrati) solo nel caso asintotico (N → ∞) !!!
• per N = 0,
0, si noti l’eccellente
l’eccellente risultato
ris ltato ba
bayesiano
esiano ƒ(ε) = 1,
1, ε = ½,
½, σε2 = 1/12.
Paolo Bagnaia - note di statistica
43
dimostrazioni
dimostrazioni (facili, noiose), basate
sulle
ll proprietà
i tà d
delle
ll ffunzioni
i i B (beta)
(b t )
e Γ (gamma di Eulero) :
1
Γ(n ) = ∫ t n −1e − t dt ;
0
1
B(m, n ) = ∫ t m −1(1 − t )n −1dt =
0
se m,n interi :
Γ(n ) = (n − 1)!;
(m − 1)!(
) (n − 1)!
)
B(m, n ) =
.
(m + n − 1)!
Paolo Bagnaia - note di statistica
Γ(m )Γ(n )
;
Γ(m + n )
N!
℘(n | N, ε) =
ε n (1 − ε )N −n ;
n ! (N − n ))!
℘(n | ε, N )π(ε )
℘(ε | n, N ) =
;
∫℘(n | ε′, N )π(ε′)d ε′
∫
1
0
t n (1 − t )N −n dt =
℘(ε | n, N ) =
n ! (N − n )!
;
(N + 1)!
(N + 1)!
1)! n
ε (1 − ε )N −n .
n !(N − n )!
44
Esempio : limiti di massa
ƒ(m2)
ƒ(
σm2
5%
2σm2
m2
m*2
0
R.Cousins, Am.J.Phys., 63 (5), 398 (1995).
Paolo Bagnaia - note di statistica
45
problema : misurare m2 = E2 – p2
Misurare la massa di una particella nuova, di valore “vero” ignoto mT, da :
• E ± σE : misura dell’energia con relativo errore;
funzioni di risoluzione
gaussiane, scorrelate.
• p ± σp : misura dell’impulso con relativo errore.
Pertanto (c
(c=1)
1) la miglior stima di mT2 è m
m*2 ± σm2 :
• m*2 = E2 – p2;
• σ2m2 = (∂m*2 / ∂E)2 σ2E + (∂m*2 / ∂p)2 σ2p = 4 (E2 σ2E + p2 σ2p).
Tre casi : a) m*2 >> σm2 : caso semplice, statistica classica (cfr. N → ∞);
b) m*2 << σm2 : niente da fare : rifare l’esperimento;
c) m*2 ~ σm2 : caso interessante : discutiamolo.
questo caso alcuni esperimenti
p
troveranno m*2 < 0 ((sottofluttuazione),
), che è
In q
chiaramente “impossibile”.
Si vuole pubblicare un limite : m < mL al 95% CL (cioè “a 2 sigma").
Ch fare
Che
f
per trovare
t
mL???
Paolo Bagnaia - note di statistica
46
m2 = E2 – p2 : approccio frequentista
prendiamo il caso limite della figura :
m*2 < 0,
m
0 m
m*2 + 2σm2 < 0;
conclusione frequentista :
al 95% CL : mT2 ≤ mL2 = m*2 + 2σm2.
(e.g. mX2 ≤ -100 MeV2)
NB : “-100” !!!
significato : 95% degli esperimenti con la stessa
risoluzione
i l i
e la
l stessa
t
significanza
i ifi
t
troveranno
m2
minore di quella del presente esperimento
("coverage").
ƒ(m2)
σm2
5%
2σm2
m2
m**2
0
critiche :
• che significa ? (anche se m
m*2 > 0, come interpretare la coda di ƒ(m2) a m2 < 0 ? );
• NON stiamo usando l’informazione mT ≥ 0 ;
• nel caso m*2 < 0, sembra che si usi in modo capzioso la sottofluttuazione
per ottenere un limite migliore : è un trucco ?
Paolo Bagnaia - note di statistica
47
m2 = E2 – p2 : approccio bayesiano
⎧1
π(m ) = ⎨
⎩0
2
prior
m2 ≥ 0
m <0
2
;.
ƒ(m2)
ƒ(
posterior, cioè risultato (v. figura) :
ƒ(m | m* ,σm2 ) =
2
2
ƒ(m* 2 | m 2 ,σm2 )π(m 2 )
∫ ƒ(m* | µ ,σm2 )π(µ )d µ
2
2
⎧⎪norm × Gauss(m 2 |m* 2 ,σm2 )
=⎨
⎪⎩0
2
2
=
m2 ≥ 0
m <0
2
95%
5%
.
0
mT2
m2
• cioè si usa solo la “coda” della gaussiana a m2 > 0, normalizzata a 1;
• il valore del limite mL2 si può calcolare facilmente in modo numerico (v. figura);
• nel presente esempio (ma non necessariamente) il limite “viene peggio” :
mL2Bayes > mL2freq.
Paolo Bagnaia - note di statistica
48
m2 = E2 – p2 : commenti
commenti all’approccio bayesiano :
ƒ(m2)
• perché scegliere π(m
m2) = 1 (m2 > 0) e non, e.g.,
π(m
m) = 1 (m > 0), che darebbe risultati differenti ?
• inoltre π(x)
( ) è una distribuzione di probabilità, che
deve essere normalizzabile (in questo caso non lo è);
• p
però il calcolo bayesiano
y
sembra p
più corretto,,
perché usa tutta l'informazione fisica, mentre non
usa la “sottofluttuazione”;
• che ne è del “coverage”
coverage ? ma il coverage è una
proprietà necessaria ? oppure almeno utile ?
95%
5%
0
mT2
m2
commento conclusivo : le dispute statistiche qui discusse sono tuttora in corso
nella comunità scientifica; non c’è una conclusione accettata da tutti, e imho non
esiste un metodo esente da difetti; pertanto è bene documentare la procedura
seguita
it per analizzare
li
i dati,
d ti in
i modo
d da
d consentire
ti la
l “traduzione”
“t d i
” dei
d i risultati.
i lt ti
Paolo Bagnaia - note di statistica
49
Per i percorsi di eccellenza
Paolo Bagnaia - note di statistica
50
la parola “probabilità”
che significa probabilità ? [lasciamo stare i giochi d’azzardo] :
1. variabili così numerose (o ignote) da non essere sotto controllo [e.g. probabilità
di arrivare tardi al treno];
2 risultati di misure – forse caso particolare di (1) [e.g.
2.
[e g x±σx, ma anche probabilità
che una teoria sia vera → vedi oltre]
g probabilità che domani
3. fenomeni complessi – forse caso paricolare di ((1)) [e.g.
piova];
4. fenomeni veramente statistici [e.g. probabilità di avere un’automobile diesel,
oppure di abitare in Piemonte];
5. fenomeni biologici “mendeliani” → genetica → evoluzionismo → ... [cioè molta
della biologia moderna];
6. fenomeni quantistici [il “risultato” di un calcolo non è un “numero”, ma una
“distribuzione”, e.g. Rutherford scattering] → cioè quasi tutta la fisica
moderna;
Paolo Bagnaia - note di statistica
51
significato della parola “probabilità”
in tutti i casi precedenti la parola probabilità ha significati leggermente
differenti :
frequenza, statistica, valore estratto da una distribuzione nota, opinione
soggettiva, precisione sperimentale, etc etc;
Lo studio di probabilità e statistica è importante :
• nella conoscenza teoretica (e.g. meccanica quantistica);
• nella vita pratica : probabilità → decisione → azione.
Senza esagerare, quasi tutte le nostre azioni e le nostre conoscenze hanno
un aspetto probabilistico.
Inoltre, il “senso comune” (i.e. la quasi totalità della popolazione, anche colta)
ha scarsa comprensione del problema (→ paradossi
paradossi).
Paolo Bagnaia - note di statistica
52
Generalità sui test di ipotesi
p
I fit possono essere usati per (almeno) tre scopi :
a) stimare alcuni parametri del fit che hanno significato fisico (e.g. risalire
dall’energia alla massa di una particella, vedi figura);
b) stimare se viene meglio il fit con un modello o con un altro;
c) caso particolare con un solo modello : dire se il fit “viene bene”.
I casi (b) e (c) sono noti come “test di ipotesi”.
Facciamo un lungo esempio (prossime pagine).
mistura
ionizzata
Paolo Bagnaia - note di statistica
∆V
K =½mv2=(n)e∆V
(non
dipende
da m))
(
p
L
misura T=L/v →
m =2K/v2=
=2KT2/L2.
53
esempio
p /1
Supponiamo di avere un gas, contenente una mistura di molecole differenti.
Vogliamo sapere se la molecola “x”, di massa mx è presente. Come fare ?
Costruiamo un semplice apparecchio e trattiamo solo il caso (classico,
semplificato) di due molecole, “x” (=segnale) e “y” (=fondo) :
mistura
i t
ionizzata
K =½mv
½ 2=(n)e∆V
( ) ∆V
∆V
(non dipende da m)
L
misura T=L/v →
Tx,y=L[mx,y/2(n)e∆V]½
=cost×√mx,y.
Supponiamo
di conoscere glili errorii di misura
(σ
e
S
i
i
( V, σL, vini),
) le
l pdf
df relative,
l ti
assumiamo varie abbondanze relative di x e y; alcuni casi possibili :
a
b
c
a) facile (no discussione);
b) difficile (discutere);
T
Paolo Bagnaia - note di statistica
T
T
c)) “realistico”
“ li ti ” (ohimé).
( hi é)
54
a
b
c
esempio / 2
Come trattiamo i casi precedenti ?
T
T
T
∞
a) caso semplice (ma ...) : esiste un T*, tale che ∫T* pdf(T)dT=0 e, se ci sono
eventi con T>T*, allora possiamo dire che la molecola “x” è presente,
);
misurare l’abbondanza,, etc etc ((tutto facile);
b) la logica è più complicata : facciamo la distribuzione sperimentale b’ e poi
confrontiamola con la sola pdf del “fondo”
fondo : se non sono
b’
statisticamente compatibili (= il “rigonfiamento” è statisticamente significativo), allora la molecola “x” è presente;
T
c) come nel caso b, però richiede molta più statistica per avere una risposta
statisticamente significativa.
NB. Una dimostrazione di “esistenza” proviene sempre dal constatare un
“assurdo” (e.g. “la distribuzione sperimentale non è compatibile con la sola
pdf del fondo al CL del 95%”).
Paolo Bagnaia - note di statistica
55
a
b
c
esempio
p /3
Supponiamo ora il caso opposto : il
T
T
T
“rigonfiamento”
rigonfiamento NON è statisticamente significativo (se cc’è
è, è troppo piccolo).
piccolo) Che fare ?
1. NON si può dire né che la molecola “x” c’è di sicuro, né che la molecola “x” NON è
completamente assente;
2. l’affermazione corretta è “se fosse maggiore di un certo valore, l’avremmo vista” →
“l’abbondanza
l abbondanza della molecola “x”
x è minore di un certo valore
valore”, cioè si pone un limite
limite;
3. come stimare il limite ? se aspettiamo un certo valore x*, il numero trovato segue una
distribuzione (di Poisson) con media xx*;; questo ci dà la probabilità P(x|x
P(x|x*)) (di trovare x,
x
se la media è x*); pertanto
4 decidiamo (a priori,
4.
priori in modo sensato
sensato, ma arbitrario e soggettivo
soggettivo) un valore di
probabilità (CL
CL); assumiamo di non “essere stati sfortunati” più di 1-CL; da ciò
ricaviamo il valore x*, che costituisce il limite (“al CL dato, xvero<x*”).
→
anche in questo caso, siamo riusciti a trovare un assurdo statistico.
Paolo Bagnaia - note di statistica
56
a
b
c
esempio / 4
T
T
T
C
Commenti
ti :
1. in realtà, potrebbe darsi che la teoria in esame preveda che, se x esiste,
allora la sua abbondanza sia maggiore di ...; in tal caso la regola precedente
implica che la teoria sia completamente “falsificata”;
2. è [più] comune il caso opposto (o una sua variante); in tal caso la misura
stabilisce un limite (inferiore/superiore) sull’abbondanza di x (o su qualche
parametro,, che ne modifica l’abbondanza);
);
suo p
3. di conseguenza i fisici cercano di fare un esperimento migliore (= con più
statistica maggiore energia,
statistica,
energia maggiore precisione ...);
);
4. ... e la storia continua.
Paolo Bagnaia - note di statistica
fine dell’esempio : torniamo ad una
discussione più formale.
formale
57
Fine – percorsi eccellenza
Paolo Bagnaia - note di statistica
58