Misura di una grandezza fisica ANALISI STATISTICA DEI DATI

ANALISI STATISTICA DEI DATI
STATISTICA E PROBABILITA'
Misura di una grandezza fisica
Errori
dovuti a:
Strumenti di misura
Parametri non controllabili da sperimentatore
= da valore vero grandezza
varia da misura a misura
La misura è fenomeno casuale e la singola misura sarà evento
casuale.
Evento casuale (o aleatorio): evento ripetibile (infinite volte) che
si manifesta in modo non prevedibile singolarmente
(es. lancio dado/moneta, estrazione carta ...)
AS-1
S: insieme di tutti i modi possibili del
fenomeno casuale
E: generica modalità dell'evento casuale
(generico evento casuale)
S
E
x(E) (numero reale)
in modo univoco
x(E):
variabile casuale definita nell'insieme S.
discrete o continue
Variabili casuali
numero finito o infinito di valori
La misura di una grandezza fisica può essere considerata come
un evento casuale e il numero (che si ottiene) la variabile
casuale associata all'evento.
PROBLEMA DELLA MISURA
insieme di misure della
stessa grandezza fisica
?
valore
vero
Analisi statistica delle misure
che utilizza teoria della probabilità
Definire intervallo di valori della variabile casuale "misura" con
assegnata probabilità di contenere valorevero della grandezza
AS-2
La STATISTICA è un ramo della matematica che studia i
fenomeni casuali utilizzando la TEORIA della PROBABILITA`
PROBABILITA`
1) Definizione "classica"
Probabilità P(E) di un evento casuale E: rapporto fra numero
dei casi "favorevoli" (casi in cui si presenta E) e numero totale
casi possibili, purché tutti i casi possibili sianoequiprobabili
COROLLARIO:
0=P=1
numero reale
PROBLEMA:
Es. 1.
Tautologia (per definire probabilità è
necessario valutare equiprobabilità)
Lotto
P(n) =
Es. 2.
1
90
P(pari) =
45
1
=
90
2
3 figli non dello stesso sesso
MMM MMF MFM FMM MFF FMF FFM FFF
Tot casi possibili = 8
3
P(non stesso sesso)= 6 =
8
4
AS-3
2) Definizione "empirica"
(Frequenzistica)
Frequenza relativa di E : f (E)
f (E) =
n
N
N: numero totale prove
n: numero volte in cui si è presentato E su N prove
Si definisce:
P(E) = lim f (E) = lim
N→8
N→8
n
N
postula che lim f (E) sia numero definito
PROBLEMA:
non è def. operativa
f (E)
1
.5
0
0
1
1
2
2
3
3
4
5
3
5
N
3
6
3
7
4
8
4
9
E: testa su lancio moneta
5 6
10 11
AS-4
2) Definizione "assiomatica"
s
A
S: Insieme di tutti i possibili E
A: Sottoinsieme di S
A tale che:
P(A) E' un numero associato univocamente ad
Unione
P(A) = 0 per ogni A
Intersezione
Contenuto
P(S) = 1
P(A+B) = P(A) + P(B)
se A B = 0
A B
PROBLEMA:
Non ci dice quanto vale P
L'asseganzione di P ad A è un modello matematico
A partire da definizione assiomatica di P si può dimostrare che:
f(E)
P(E)
per N
8
LEGGE DEI GRANDI NUMERI
AS-5
LEGGE DEI GRANDI NUMERI
Dato evento casuale E a cui è associata P(E),
n
se f(E) =
(su N prove), scelti due numeri positivi a piacere
N
ε', ε" è possibile definire un N tale che, per ogni M > N:
P (|f(E) - (E)|>ε’)<ε”
(In analisi: |f(E) - P(E)|<ε)
Si dimostra a partire dalla diseguaglianza
v
v
di BIENAYME' - CEBICEV
AS-6
PROPRIETA` DELLA PROBABILITA`
1) Evento complementare di E : E
N-n = 1 N
f (E) =
n
N
= 1 - f(E)
P(E) = 1 - P(E)
P(E) + P(E) = 1
Se E1... E m : insieme di tutti gli eventi possibili in S, mutuamente
esclusivi:
m
Σ1 i
P(Ei) = 1
Evento complesso = prodotto logico di due eventi casuali
E, F (es.: moneta/carta)
F
F
E
n11 n12
E
n21
Su N prove
n22
4 possibili casi:
EF
EF
EF
EF
AS-7
f (EF) =
n 11 ;
N
f(EF) = n 21 ; f(EF) = n 12 ; f(EF) = n 22 ;
N
N
N
f (E) = n11 + n12 = f (EF) + f (EF)
N
f (F) = n11 + n21 = f (EF) + f (EF)
N
P(E) = P(EF) + P(EF)
P(F) = P(EF) + P(EF)
PROBABILITA` CONDIZIONATA:
Probabilità che si verifichi E se si è verificato F (o viceversa)
P(E|F)
f (E|F) =
n11 =
n11 + n 21
n11 =
f (F|E) =
n11 + n 12
P(F|E)
n11
N
f (EF)
N
.
= f (F)
n11 + n 21
f (EF)
f (E)
P(E|F) =
P(EF)
P(F)
P(EF) = P(F) .P(E|F)
P(F|E) =
P(EF)
P(E)
P(EF) = P(E) .P(F|E)
AS-8
2) LEGGE DELLE PROBABILITA` COMPOSTE
Se E ed F sono statisticamente indipendenti
P(E|F) = P(E)
P(F|E) = P(F)
P(EF) = P(E). P(F)
m
P(E1 . E 2 ... . E m ) =
Π
1 i
P(E i )
La probabilità che avvengano contemporaneamente E ed F
(prodotto logico) è uguale al prodotto delle probabilità
dell'evento E e dell'evento F
se E ed F sono statisticamente indipendenti
Es. 2 dadi - Probabilità che escano due 4
P(4,4) = P(4) . P(4) = 1 . 1 = 1
6 6
36
Se E ed F sono mutuamente esclusivi:
P(E|F) = P(F|E) = 0
P(EF) = 0
AS-9
3) LEGGE DELLE PROBABILITA` TOTALI
f (E + F) : evento
f (E + F) =
E
n 11 + n12 + n 21
N
o evento
F
o ambedue
(n11+ n 12 )+(n 21 + n 11)-n11
=
N
f (E + F) = f (E) + f (F) - f (EF)
P(E + F) = P(E) + P(F) - P(EF)
Se E ed F sono mutuamente esclusivi
P(EF) = 0
P(E + F) = P(E) + P(F)
m
P(E1 ... E m ) =
Σ1 i P(E i )
Dimostrabile anche usando la definizione assiomatica di
probabilità:
C
A = (A - C) + C
A
B
B = (B - C) + C
(A - C),(B - C), C: disgiunti
AS-10
Da III assioma: (P(A + B) = P (A) + (P(B)) se A,B disgiunti;
P(A) = P(A - C) + P(C)
P(A - C) = P(A) - P(C)
P(B) = P(B - C) + P(C)
P(B - C) = P(B) - P(C)
Se ora consideriamo insieme somma A+B :
A + B = (A - C) + (B - C) + C
P(A + B) = P(A - C) + P(B - C) + P(C)
P(A + B) = P(A) - P(C) + P(B) - P(C) + P(C)
P(A + B) = P(A) + P(B) - P(C)
P(A . B)
P(A + B) = P(A) + P(B) - P(A .B)
Se considero 3 eventi casuali :
P(A1 + A2 + A 3) = P(A 1) + P(A 2) + P(A 3) - P(A 1A 2) - P(A 1A 3)
- P(A2.A3 ) + ( P(A1. A 2 . A 3)
A1
A2
1-2
1-3 1-2-3
2-3
A3
AS-11
STATISTICAMENTE INDIPENDENTI
P(E|F) = P(E)
P(F|E) = P(F)
P(EF) = P(E) . P(F)
STATISTICAMENTE DIPENDENTI
MAZZO CON 42 CARTE (solo KQJ fiori)
E estrazione FIORI
F estrazione RE
P(E) = 3
42
P(F) = 4
42
P(E|F) = 1
4
P(F|E) = 1
3
P(E . F) =
3 . 1
42
3
=
P(E) P(F|E)
1
42
# P(E) . P(F)
1 . 4 = 1
126
12
42
3
AS-12
SO M M AR IO
s tatis ticam ente
indipendenti
P(A . B)
P(A) . P(B)
s tatis ticam ente
dipendenti
P(A) . P(B|A)
s tatis ticam ente
e s clu s ivi
=0
P(B) . P(A|B)
P(A+ B) P(A) + P(B) - P(A . B) P(A) + P(B) -P(A.B) P(A) + P(B) -P(A.B)
AS-13
Es.: efficienza di scanning nella ricerca di eventi rari
N : N. di eventi rari presenti nel campione (incognito)
N12 + N1 : N. di eventi trovati nella 1 a ricerca
N + N : N. di eventi trovati nella 2 a ricerca
12
2
N12 : N. di eventi trovati in ambedue
P(1) =
P(2) =
P(1, 2) =
N12 + N1
N
(1) e (2) statisticamente indipendenti
N12 + N2
N
N12
P(1) =
N
= P(1) . P(2)
N12
N12 + N2
N=
P(2) =
(N12 + N1 ). (N12 + N2 )
N12
N12
(N12 + N1 )
Probabilità di trovare un evento nelle due ricerche:
P(1 +2) = P(1) + P(2) - P(1) . P(2) =
(N12 + N1 ) (N12 + N2 ) N12
=
+
N
N
N
N12
. (N1 + N2 + N12 )
=
.
(N12 + N1 ) (N12 + N2 )
AS-14
DISTRIBUZIONE DI PROBABILITA`
E
DENSITA` DI PROBABILITA`
1) Variabile casuale discreta
xi
xi
Pi (xi ) = lim
N "
i = 1, ...
n (xi )
N
Σi Pi (xi ) = 1
S
L'insieme di Pi costituisce la
distribuzione di probabilità della variabile casuale
2) Variabile casuale continuax
∆x
2
∆x
2
x
f (x - ∆x , x + ∆x ) : frequenza in x ± ∆x
2
2
2
n(x ± ∆x 2)
N
Frequenza limite per unità di ∆x:
f (x - ∆x , x + ∆x )
2
2
lim
= f(x)
∆x 0
∆x
N
"
f(x) : DENSITA` DI PROBABILITA` o
FUNZIONE DI DISTRIBUZIONE
AS-15
dP(x, x + dx)
=
dx
dP =
f(x)
f(x) dx
P(a, b) =
∫
a
∫
s
b
probabilità che la
variabile casuale
cada in (a,b)
=
f(x) dx =
+"
∫-"
∫
a
=
b
f(x) dx
f(x) dx = 1
11
12
21
Es.
P(x)
1
P(x)
un dado
6
2 dadi (somma)
13
22
31
.
.
.
36
6
1
1 2 3 4 5 6
36
2
x
7
12
2
3
4
x
Es.
f(x)
f(x)
1
b-a
a
b
x
µ
x
Densità uniforme di probabilità
f(x) = C
∫
a
b
C . dx = C . (b - a) = 1
1
C= b-a
AS-16
CUMULATIVA DI UNA FUNZIONE DI DISTRIBUZIONE
Funzione cumulativa:
F(x) =
x
∫-"
f(x') dx'
PROPRIETA':
F(x) = P (-" < x' < x)
b
P(a < x < b) =
∫ f(x) dx = -"∫
a
b
a
f(x) dx -
∫-" f(x) dx = F(b) - F(a)
f(x)dx = F(x + dx) - F(x) = dF(x)
dF(x)
dx
F(x) è monotona crescente
dato che f(x) " 0 sempre
= f(x)
Se x è definito fra a e b:
F(a) = 0
F(b) = 1
(F(-" ) = 0; F(+" ) = 1)
Es.
f(x)
1
b-a
a
b
x
F(x)
1
1
F(x) =
b-a
0
a
b
x
∫a
x
dx' =
x-a
b-a
AS-17
PARAMETRI CARATTERISTICI
DISTRIBUZIONI DI PROBABILITA`
1) La "posizione" della distribuzione
I
La moda: x per cui la distribuzione ha il massimo
(unimodali, multimodali )
II
La mediana: xM che divide a metà la distribuzione
xM
∫-"
III
+"
f(x) dx =
∫xM f(x) dx =
1
2
La media (o valore aspettato) : (= µ)
+"
E[x] = µ =
∫-" x . f(x) dx
continuo
n
E[x] = µ =
Σ i x i .P i (x i )
discreto
1
In generale si definisce il valore aspettato di una funzione di x, g(x)
(se x variabile casuale g(x) è anche variabile casuale):
+"
E[g(x)] =
∫-"
g(x) . f(x) dx
AS-18
f(x)
0.15
0.1
0.05
5
10
20 x
15
Media (valore aspettato)
Mediana
Moda
f(x)
xo
x
Moda
Mediana
Media (valore aspettato)
AS-19
Proprietà del valore aspettato:
E[Σk ak. gk (x)] = Σk ak .E[gk (x)]
Casi notevoli:
∫ a. f(x) dx = a . ∫ f(x) dx = a
E[a] = a
E[a . g(x)] = a . E[g(x)]
=1
Notare:
E[(x - µ)] = E[x] - µ = 0
2)
La "larghezza" della distribuzione = varianza
= valore aspettato di (x - µ)2
Varianza = σ2
E[(x - µ)2]
σ2 =
+"
∫-"
(x - µ)2 .f(x) dx continuo
n
σ2 = Σi (xi - µ)2 .Pi (xi)
1
discreto
E[(x - µ)2] = E[(x2 + µ2 - 2µx)] =
=µ
E[x2] + µ2 - 2µE[x] = E[x2] - µ2
= E[x2] - (E[x])2
σ = σ2 = deviazione standard
AS-19A
3) La "asimmetria" della distribuzione
(valore aspettato di (x - µ)3)
+"
SKEWNESS
SK =
∫-"
(x- µ)3 f(x) dx
σ3
= 0 per distribuzioni
> 0: coda a destra
< 0: coda a sinistra
rispetto a µ
f(x) simmetriche
E [(x - µ)4 ]
-3
4
σ
> 0 più piccata
= 0 per gaussiana
< 0 meno piccata
In generale la funzione di distribuzione è completamente definita
dall'insieme dei suoi momenti:
+"
Momento k-esimo di f(x) rispetto a xo =
(x - xo)k . f(x) dx
∫
-"
= µk(xo) = E[(x - xo)k]
CURTOSIS
µo(0) = 1
µo(µ) = 1
Σ i (xi - xo)k
Pi(xi)
Si può dimostrare che:
k
µk(xo) =
k . x r . µ (0)
r
.
(-1)
o k -r
Σo r
r
coefficiente binomiale
Funzione simmetrica
momenti dispari rispetto µ = 0
rispetto a µ
VALORE ASPETTATO : µ1(0)= µ = momento primo rispetto a xo = 0
VARIANZA :
µ (µ) = σ2 = momento secondo rispetto a xo = µ
2
SKEWNESS :
µ3(µ/σ3) = momento terzo rispetto a µ σ3
CURTOSIS :
momento quarto rispetto a µ
σ4
AS-20
VALORE ASPETTATO
di f(x) simmetrica rispetto a xo
µ = xo
xo
Infatti:
µ=
x
+8
∫-8
x f(x) dx =
+8
∫-8
(x' + xo ) f(x' + x o) dx' =
x' = x - xo
+8
=
∫-8
x = x' + xo
x'. f(x' + xo) dx' + xo
+8
∫-8
f(x' + xo) dx' = xo
= 0 (f dispari . f pari)
VARIANZA
=1
di una distribuzione uniforme
0
∆
a
µ=
σ
2=
=
∫a
b
∫a
µ
x f(x) dx =
b
f(x) =
b
b
∫a
2
-
(b + a)2
4
σ =
=
1
b-a
∫a
-8
a
b
+8
c= 1
x
(x - µ) f(x) dx =
b3 - a3
3(b-a)
dx = dx'
b-a
x dx =
1
b2 - a2
b-a
2
=
a,b
b+a
2
b
x2 f(x) dx - µ2 =
(b - a) 2
12
(b - a)
12
=
(b - a)
2
1
3
=
D
3
AS-21
FUNZIONE GENERATRICE DEI MOMENTI
Funzione della variabile casuale x :
Gx (t) = E [ext]
Sviluppano in serie ext :
Gx (t) = E [1 + xt +
x2 t2
2
+...
xk tk
k!
+ . . .] =
2
k
= 1 + µ 1 (0)t + µ2 (0) t2 . . . µk (0) t
k!
+...
I coefficienti dello sviluppo della Gx (t) in serie di potenze di t
sono i momenti intorno all'origine.
dk Gx(t)
dtk
dk ext
=E
= E xk . ext
k
dt
dk Gx(0)
= E xk = µ k (0)
k
dt
AS-22
PROPRIETA` NOTEVOLI :
.
I Gcx (t) = E [e c.x. t] = E [e x ct]
= Gx (ct)
.
II Gc+x (t) = E [e (c+x) t] = ect E [ext] = ect .Gx (t)
III Gx (0) = 1
La II ci permette di calcolare i momenti centrali:
Es. σ 2 : momento secondo di (x - µ)
Gx-µ (t) = e-µt Gx (t)
d
dt
Gx-µ (t) = -µ .e-µt .Gx(t) + e-µt .
d
dt
d2
dt2
. x(t) -µ e.-µt
Gx-µ (t) = µ 2e-µt G
. d Gx (t) +
dt
Gx (t)
d
d2
µt
µt
.
.
-µ e
Gx (t) + e . 2 Gx (t)
dt
dt
d
dt
Gx-µ (0) = -µ Gx (0)
+
Gx (0) = 0
=µ
=1
d2
dt2
d
dt
d
dt
Gx (0) = µ
d2
d
2
Gx (0)
G
(0)
+
Gx-µ (0) = µ - µ - µ .
x
2
dt
dt
2
=µ
σ2
σ2=
d2
dt2
Gx (0) - µ 2
AS-23
FUNZIONE DI DISTRIBUZIONE PER FUNZIONE
DELLA VARIABILE CASUALE
x
y = y(x)
f(x)
f(y) ?
corr. biunivoca
dP(x, x + dx) = dP(y, y + dy)
y(x)
f(x) dx = f(y) dy
f(y) =
dx (y)
dy
. f(x(y))
dato che f deve
essere sempre • 0
AS-24
NOTARE :
g(x) . f(x) . dx
E[g(x)] =
g(x) = y
E[y] =
y . f(x) . dx = y . f(y) . dy
Infatti:
f(y) =
dx
dy
. f(x)
E[y] = y f(y) dy =
= y.
dx
f(x) . dy =
dy
= y(x) f(x) . dx
AS-25
Es.
SORGENTE DI PARTICELLE ISOTROPA
r
z
θ
φ
x
y
Isotropa: flusso di particelle emesso (per unità di tempo )
proporzionale ad angolo solido e costante
dS
. dϕ
dSsfera= r2 sinθdθdϕ
dΩ = sfera
=
d(cos
)
θ
r2
Quindi la funzione di distribuzione di cosθ sarà costante
fra -1, +1; f(cosθ) = 1
2
Funzione di distribuzione di θ ?
-1 < x < 1
θ = arcos (cos θ)
p>y>0
y
x
1 sin
dx
1 dcos θ
f(y) = f(x) .
=
θ
=
dy
2
2
dθ
p
0
Es.
1 sin θ d θ = - 1 cos θ
2
2
p
=1
0
F(x) è variabile casuale funzione di x
CUMULATIVA
x
dy
= f(x)
dx
-8
f(x)
dx
Funzione di distribuzione di y : f(y) = f(x)
=1
=
f(x)
dy
uniforme fra 0 e 1
1
AS-26
f(x)
y = F(x) =
f(x') dx'
Dato che F(x) è distribuita uniforme (0, 1) posso ottenere
variabili casuali con funzione di distribuzione qualsiasi a
partire da variabile casuale con distribuzione uniforme fra
0 e 1 (utile nei calcolatori).
Es.
DISTRIBUZIONE ESPONENZIALE
x
1
x
f(x) =
e o
xo
x
x
y = F(x) =
0
x
1 e - xx' dx' = 1 - e- x
o
o
xo
∞
f(x) dx = 1
0
Se y è la cumulativa di f(x), generato y uniforme, x = g(y) sarà
distribuito secondo f(x)
x
y = 1 - e - xo
lge (1 - y) = -
x
xo
x = - xo lge (1 - y)
Per generare gaussiana(µ = 0, σ = 1) :
x = sin (2py1) . - 2 lgey2
y1, y2 : 2 numeri casuali con distribuzione uniforme
AS-27
VALORE ASPETTATO E VARIANZA DI y
y = g(x)
Siano µx e σ 2x valore aspettato e varianza di x.
Sviluppo y(x) in serie di Taylor intorno a µx:
y(x) = y(µx) +
dy .
dx µ (x - µx) +
x
d2y
(x - µx)2 + . . .
2
dx µx
1
2
A
µy = E[y] = y(µx) +
dy .
dx µE [(x - µx)] +
x
=0
1
2
d2y .
E (x - µx)2 + . . .
dx2 µx
Trascurando i termini di ordine più alto:
µy = E [y] ~ y(µx)
E y - y(µx)
2
=
dy 2 .
dalla ~
dy 2
2
E (x - µx)2
E dx (x - µx) = dx
A
µx
µx
σ 2x
µ(y)
σ 2y = E
y - y(µx)
2
=
dy 2 . σ 2
x
dx µ
x
approssimata
AS-28
Se y è funzione lineare di x :
y = g (x)
y = ax + b
µy = aµx + b
σy2 = a2 σ2x
ESATTA
AS-29
DISTRIBUZIONE BINOMIALE
Processo casuale generico
una certa modalità E di presentarsi nel
"successo" :
processo casuale con probabilità p
(evento complementare E, probabilità (1 - p))
Se facciamo n prove, quale è la probabilità che il successo si
presenti k volte?
Pn,p (k)
Da teorema delle probabilità composte (le prove sono
statisticamente indipendenti) :
k successi, n-k insuccessi
pk ( 1 - p )n-k
k volte (SI), (n-k) volte (NO)
p (1 - p)n-k pk-1
SI, (n-k) volte NO, (k-1) SI
.
.
.
Sommare su tutte le possibili combinazioni:
n!
n =
n. di combinazioni n oggetti k a k = k
k! (n - k)!
AS-30
P
PERMUTAZIONI
Dati n oggetti distinti, in quanti modi se ne possono selezionare r?
nPr = n . (n - 1) . . . (n - r + 1)
nPn = n . (n - 1) . . . (n - n + 1) = n!
RICORDARE:
nPr =
COMBINAZIONI
n!
(n - r)!
0! = 1
C
Se non siamo interessati all'ordine in cui compaiono gli r oggetti:
n.(n - 1)...(n - r + 1)
n!
n
nCr = (n - r)! r! = r =
r!
nCr . r! = nPr
nCr =
n!
(n - r)! r!
AS-31
Pn , p (k) = n . pk . (1 - p)n-k
k
k=0→n
DISTRIBUZIONE
BINOMIALE
Distribuzione di probabilità nella variabile casuale k
(n. finito di valori: 0 . . . n)
n
n
n
n
k
n-k
. .
Pn , p (k) =
k p (1 - p) = p + (1 - p) = 1
k
k
0
0
Σ
Σ
Ricordare che:
n
(a+b)n =
Σ0 k
n k n-k
a b
k
Es.
Probabilità di un 2 su 10 lanci di un dado:
1
p=
6
probabilità
evento
favorevole
10! . 1
P10, 1 (1) =
1! (10 - 1)! 6
6
n = 10
1
. 1- 1
6
numero
prove
9
= 0.32
Probabilità di nessun 2 :
1 0. 5
10!
.
P10, 1 (0) =
0! 10! 6
6
6
10
= 0.16
Probabilità di tutti 2:
1
P10, 1 (6) = 10! .
10! 0! 6
6
10
5
6
0
= 1.7 .10-8
AS-32
Probabilità di avere almeno un 2:
10
Σ1
(k) = 1 - P10,1/6 (0) = 1 - 0.16 = 0.84
P
k 10,1/6
Proprietà notevoli della binomiale:
1 Valore aspettato e varianza
n
µ = E[k] =
Σ
n!
. pk . (1 - p)n-k =
k
k! (n - k)!
0
1 dato che k = 0 annulla primo termine
k.
n
= n.p
k' = k - 1
n' = n - 1
Σ
(n -1)!
pk-1 .(1 - p)n-k
k (k -1)! (n - k)!
1
n'
= n.p
Σ
n'!
pk'. (1 - p)n'-k'
k' k'! (n' - k')!
0
=1
µ=n.p
σ2 = E (k - np)2 = E[k2] - (np)2
AS-33
n
E[k2] =
Σ
0
k
n!
pk (1 - p)n-k
k! (n - k)!
k2
n
=np
Σ
1
k' = k - 1
n' = n - 1
k
k
=
(n -1)!
pk-1(1 - p)n-k =
(k -1)! (n - k)!
Σ (k' + 1) P
n'
=np
n',p
(k') =
0
su n-1 prove
= np .E[(k' + 1)] = np . (E[k'] + 1) =
(n - 1) . p
= np . {(n - 1) . p + 1} = n (n - 1) . p2 + n . p
σ2 = n (n - 1) . p2 + n . p -(n . p)2 = np(1 - p)
σ2 = np . (1 - p)
σ = np (1 - p)
Distribuzione binomiale:
pn,p (k) =
µ = np
n k n-k
p q
k
q = (1 - p)
σ = npq
AS-34
µ e σ2 della distribuzione binomiale
usando funzione generatrice dei momenti
µ = µ1 (0)
PN,p (k) = N .pk qN-k
k
σ2 = µ2 (µ)
N
Gk (t) = E [etk] =
N
=
Σ
0
k
Σ
0
k
etk N pk qN-k =
k
N . ( p)k . qN-k =
k
sviluppo di
un binomio
= (et . p + q)N
d G (t) = N .(et . p + q)N-1 . p .et
k
dt
d2 G (t) = N. (et . p + q)N-1 . p .et +
k
dt 2
+ N . (N - 1) . (et . p + q)N-2 p2 . e2t
d G (0)
µ1 (0) = dt
k
2
µ2 (µ) = σ2 = d 2 Ge (0) - µ2
dt
AS-35
d
µ = dt
Gk (0) = N .(p + q)N-1. p = N . p
=1
d2 G (0) = N .(p + q)N-1 . p +
k
dt2
=1
+ N (N - 1) . (p + q)N-2 . p2 =
=1
= N . p + N . (N - 1) . p2
2
σ2 = d 2 Gk (0) - µ2 = Np + N2p2 - Np2 +
dt
-(Np)2 = Np .(1 - p) =
= N . p .q
AS-36
1
Massimo della distribuzione
Massimo in corrispondenza a k ~ np
se np >> 1
N!
PN,p(k + 1)
PN,p(k)
(k + 1)! (N -k -1)! .
=
N!
k! (N - k)!
pk+1 qN-k-1
=
k
N-k
.
p q
p
= N-k . q
k+1
Distribuzione crescente per :
N-k . p
q
k+1
=1
k = Np - q
AS-37
2
Massimo della distribuzione
Massimo in corrispondenza a k ~ np
3
se np >> 1
se p = 0.5
pn,1/2 (k) =
1
2
k
n!
(n - k)! k!
1
2
n!
k! (n - k)!
pn,1/2 (n - k) =
. 1- 1
2
n-k
n-k
. 1- 1
2
k
p(k) = p (n - k)
Se p = 0.5 distribuzione simmetrica intorno a np (intero)
4
n 8 , p = costante
Tende alla distribuzione "normale" (gaussiana) con:
µ = np
5
σ=
np . (1 - p)
n 8 , np = costante
Tende alla distribuzione di Poisson
AS-38
n=5
p=0.2
n=2
p=0.2
0.5
0
0 1 2
n=10
p=0.2
0 1 2 3 4
n=20
p=0.2
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5
P1 (k)
Poisson (m = 1)
Binomiale
n=2
p=0.5
np=1.0
0.1
n=5
p=0.2
np=1.0
n=10
p=0.1
np=1.0
n=20
p=0.05
np=1.0
0.2
0
0
1
2
3
4
0
1
2
3
4
0
1
2
3
4
0
1
2
3
4
AS-39
Es.
Frequenza su n prove
(Evento favorevole con probabilità p)
1
µ = E[ν] = n
k
ν= n
k -p
n
σν2 = E[(ν - µ ν)2] = E
=E
k
n
2
np
=p
n
E[k] =
2
=
vedi
AS-34
- p2 = 12 n(n - 1) p2 + np - p2
n
p . (1 - p)
= 12 . np . (1 - p) =
n
n
σν
0
per n
•
ν
p
per n
•
Vedi anche
Teorema di Bernoulli
Es. Fluttuazioni di densità in un gas
ideale
A
B
V
Date N molecole in V, sia p la probabilità per generica
molecola di essere in A e (1 - p) la probabilità di essere in B.
(Nessuna interazione fra molecole, a parte urti → posizione
molecola indipendente da posizione altre molecole).
AS-40
Probabilità ad un certo istante di avere nA molecole in A?
Ogni molecola è una prova indipendente
e "evento favorevole" = essere in A.
N . pnA . (1 - p )N-n
A
A
nA
A
PN,p (nA) =
A
1 (dato che i volumi sono uguali)
2
se p = (1 - pA) =
A
N!
.
nA! (N -nA)!
PN, 1 (nA) =
2
µ (nA) = N
2
1
2
N
1
σ(nA) = 2 . N
Applicando la formula di Stirling alla variabile x:
x=
nA
N
2
N
2
scarto relativo di
nA dal suo
valore aspettato
2
2 . e-(N-1) . x2
P(x) =
p .N
N . x2
Dato che nell'esponente compare con N molto grande,
2
appena x si scosta da 0, P → 0 (x = 10-8, P ~ 0).
UN GAS HA SEMPRE DENSITA` UNIFORME
AS-41
DISTRIBUZIONI SPERIMENTALI
Variabile casuale discreta
Es. Somma di due dadi
x
2
3
4
. . . 12
P(x)
P2
P3
P4 . . . P12
N Esperimenti ripetuti (lancio dadi)
Risultato: n2
n3
. . . n12
Σn = N
n12
n
n
F2 = N2 F3 = N3 . . . F12 = N
Per il Teorema
N→8
di Bernoulli
...
P2
P3
P12
AS-42
Consideriamo un particolare valore della variabile
casuale (Es. 2):
n2 → NP2
N→8
N finito:
F2 ? P2
n2 ? NP2
Quale è la distribuzione di probabilità di n2?
P N, P2(k) = N P2 k (1 - P2)N-k
k
(binomiale)
Se P2 è probabilità della variabile 2, la probabilità di
k(=n2) successi su N prove si ottiene dalla distribuzione
binomiale
Ripetendo M volte la serie di N lanci (N cost) i valori di n2
che si ottengono saranno distribuiti secondo la P N, P (n2)
2
(0 < n2 < N). [Se N grande e P2 piccolo la distribuzione
tenderà alla poissoniana con m = NP2. Vedi dopo.
V alore aspettato e varianza d in 2 :
µ(n 2)= NP 2
σ2(n2) = N . P2 . (1 - P2)
AS-43
Variabile casuale continua
N prove : x1 . . . . . xN
n1 n2 n3
.
.
.
.
.
.
ni
1
4
5
.
.
.
.
i
2
3
∆x
ni
N
x
ni valori di x in intervallo i
N→8
∆Pi =
xi+∆x
xi
f(x) dx ~ f(xi) .∆x
Per N finito ni ? N∆P.
Ripetendo M volte la serie di N misure il
contenuto ni del generico ∆x avrà distribuzione
binomiale P N,f(x ) ∆.x (ni) [tenderà alla poissoniana
i
con µ(ni) = N .f(xi) . ∆x per N grande e ∆P
piccolo].
Valore aspettato di ni :
µ(ni) = N f(xi) . ∆x
σ2(ni) = N . f(xi) . ∆x . (1 - f(xi) . ∆x)
AS-44
Rappresentazione grafica
(istogrammi )
caso discreto
N prove
*
N eventi
*
10
*
*
aspettato = NPi
* valore
: eventi osservati
*
*
*
5
*
*
*
2
*
4
6
8
10
12
x
caso continuo
N eventi
15
ni valori di x in intervallo i
N . f(xi) .∆x
N prove
10
5
xi
∆x
Area = Σi ni ∆x = ∆x Σi ni = ∆x .N
x
Valore aspettato in intervallo i:
µi = N f(xi) . ∆x
Area = Σi µi ∆x = N . ∆x Σi f(xi) ∆x = ∆x. N
s
f(x) dx = 1
AS-45
QUINCONCE DI GALTON
N : file di perni
∆x : spaziatura perni
N
p : probabilità di deviazione
a destra
1 )
(in genere p =
2
∆x
0
1
2
k
N
3
0
xi
x
Ad ogni urto la pallina subirà spostamento ∆x
2
Coordinata xi finale della pallina :
xi = nD -
N ∆x
2
Infatti:
nD : n. urti con deviazione a destra
nS = (N - nD): n. urti con deviazione a sinistra
x = nD . ∆x - (N - nD) ∆x =
2
2
= (2nD - N) ∆x = (nD - N ) ∆x
2
2
nD = 0, . . . , N
x=- N ,..., N
2
2
Vogliamo valutare la
probabilità che la pallina
abbia alla fine xi
N + 1 valori
(∆x = 1)
P (xi) = P (nD)
AS-46
Evento favorevole : deviazione a destra
Un singolo urto : una prova ogni fila di perni
Dopo N prove (= N di file di perni), la probabilità che evento
favorevole si sia presentato nD volte (essendo p la probabilità di deviazione a destra) :
PN,p (nD) =
N . p nD . (1 - p)N-n D
nD
µ (nD) = N . p
σ2(nD) = N .p . (1 - p)
Se considero ora la variabile x = f(nD):
P(y) = P(z = 1a {y - b})
y = az + b
µ(y) = a . µz + b
µz , σ z2
σ2(y) = a2 . σ 2z
x = (nD - N
2 ) ∆x
N
nD = x + 2
∆x
P(x) = P (nD calcolato in x) =
µ(x) = (N . p -
N
2
N . p nD .(1 - p)N-nD
nD
) . ∆x
σ2(x) = N . p . (1 - p) . ∆x2
La probabilità che la pallina abbia coord. finale x è una
n. prove = n. file chiodi
BINOMIALE con
p = prob. urto a destra
AS-47
LANCI RIPETUTI
Numeriamo caselle di arrivo della pallina da 0 a N
(k (numero della casella) = nD)
xk = (coordinata centro cella) =
k-
N
2
avendo posto:
∆x = 1
P(k) = P(nD) = P(xk)
Se faccio N lanci di palline, quale è la probabilità di trovare
mk palline in cella k?
Se eseguiamo N lanci (N prove) e se P(k) è la probabilità
che la pallina vada nella cella k (evento favorevole), la
distribuzione di probabilità per la variabile casuale mk
(= numero di successi su N prove, cioè numero di palline in
cella k) è una binomiale:
P N ,p(k) (mk) =
N
mk
. P(k)
mk
. Q(k)
N-mk
Q=1-P
0 = mk =
N
con
P(k) = PN,p(k) = N pk . (1 - p)N-k
k
N: numero di file di chiodi
p: probabilità di deviazione a destra
AS-48
La variabile casuale mk avrà valore aspettato e varianza:
µ(mk) = N . P(k)
σ 2 (mk) = N . P(k) .(1 - P (k))
Dove µ(mk) rappresenta il numero aspettato di palline nella
cella k se si eseguono N lanci e σ (= varianza = deviazione
standard) è la larghezza della distribuzione intorno al valore
aspettato. Notare che:
σ (mk)
µ(mk)
=
N . P(k) . 1 - P(k)
N . P(k)
=
1 . 1
-1
P(k)
N
Larghezza relativa distribuzione =
intervallo fluttuazione valori
osservati intorno a valore
aspettato/valore aspettato
Quindi σ
µ decresce come
1
N
per un dato P(k)
NOTARE:
se P(k) << 1, 1 - P(k) & 1
σ2 (mk) ~ µ (mk)
σ =
µ
1
µ
AS-49
TRACCIA SUGGERITA ESPERIENZA
(P = 0.5; X∆ = 1)
1
Verifica valore aspettato e varianza
variabile x
N determinazioni di x con N lanci
Miglior stima di µ e σ :
x=
Σ i xi
N
Σ i xi2 - x2
N
Σ i (xi - x)2 ~
s=
~
( N - 1)
( N - 1) ~ N
Nella generica cella k, mk palline;
osservato mk volte xk = k - N2
N
N
N
N
Σ1 i x i = Σ0 k x k . mk
Σ1
i
x2i =
Σ0
k
(xk . mk ) 2
AS-50
Confronto valori misurati
valori aspettati
(Stime)
µ(x), σ(x)
x, s(x)
Per buon accordo alto numero N di lanci
(N = 30, N = 10. 000)
2
Confronto distribuzione aspettata e
distribuzione osservata variabile mk
Valore aspettato di mk in cella k avendo effettuato N lanci:
µk = µ(mk) = N . P(k)
Confrontare, per ogni cella k, µk con valore osservato mk.
Verificare, utilizzando il test del χ2 (vedi dopo),l'accordo fra
distribuzione aspettata e distribuzione osservata.
Accordo (visivo)migliora con
N
σ ∝
µ
1
N
AS-51
Con stesso valore di N fare due serie
con N piccolo e N grande
N 1 = 100
= 30
N
N 2 = 10000
Confronto distribuzione osservata e
distribuzione aspettata per un
determinato mk
3
Fisso una cella k
M serie di N lanci
jm
k = numero di palline in cella k nella serie
j(j = 1, M)
Distribuzione aspettata per ni,
i
ni = numero di volte che si osserva mk in cella k
ni (mki ) = M. P (mki )
con
P (mik) =
N .
mik .
Q(k)
mik P(k)
N -mik
n
nii(mk)
0
mki
mk
AS-52
DISTRIBUZIONE DI POISSON
Evento casuale E cui è associata variabile casuale t con le
seguenti caratteristiche :
1) Densità di probabilità uniforme f(t) = λ
dP = λ dt
2) Eventi statisticamente indipendenti
3) Probabilità trascurabile di avere più di un evento in dt
Distribuzione di probabilità che in un intervallo (0, t) si
verifichino k eventi:
P (k, t)
dP (1, dt) = λ dt
dP(0, dt) = 1 - λ dt
P(k, t + dt) = P(k -1, t) . dP(1, dt) + P(k,t) dP (0, dt)
= P(k -1, t) . λ dt + P(k, t) . (1 - λ dt)
P(k, t + dt) - P(k, t) = λ . P(k - 1, t) - λ . P(k, t)
dt
dP(k, t)
+ λ . P(k, t) - λ . P(k - 1, t) = 0
dt
AS-53
k=0
P(k - 1, t) = 0
dP(0, t)
= - λ P(0, t)
dt
P(0, t) = e-λt
P(0, 0) = 1
k=1
dP(1, t) + . P(1, t) - e-λt = 0
λ
λ
dt
Sol. : P(1, t) = λt .e-λt
infatti:
λ e-λt - λ2 te-λt + λ2 te-λt - λ e-λt
=0
dP(2, t)
+ λ . P(2, t) - λ2 t . e-λt = 0
dt
k=2
..
.
(λ t)k e-λt
P(k, t) =
k!
k
t : costante; m = λ t costante
mk -m
Pm(k) = k! e
Distribuzione
di
Poisson
(dipende da un solo
parametro: m)
k: variabile casuale discreta fra 0 → + 8
Normalizzazione :
8
Σ
0k
mk e-m = e-m . 8Σ mk = e-m . e+m = 1
0 k k!
k!
sviluppo in serie di em
AS-54
Valore aspettato : 0 = k = 8
8
8
mk-1
mke-m = m .e-m .
Σ1 k (k -1)!
k!
µ = E[k] = Σk k
0
1
k' = k - 1
8
= m . e-m
Σ0 k'
mk' = m .e-m .em
k'!
em
Notare:
m
Pm (k) = Pm (k -1) .
k
crescente fino a
k=m
µ=m
Pm (m) = Pm (m - 1)
Varianza :
σ2 = E (k - m)2 = E k2 - m2
E k2
8
=
Σ0 k
k2
mk e-m = m
k!
8
Σk k
1
mk-1 e-m =
(k - 1)!
1
k' = k - 1
8
mk' e-m =
(k'
+
1)
Σ0 k'
k'!
= m E [k' + 1] = m (m + 1)
=m
σ2 = m(m + 1) - m2
σ2 = m
σ = m
AS-55
La distribuzione di Poisson si può anche ottenere da
distribuzione binomiale per n molto grande, p molto piccolo
(n . p limitato).
Infatti (esempio decadimento radioattivo): per ogni intervallo
di tempo t:
p : probabilità di decadere
1) Si fanno n prove (n nuclei che possono decadere)
2) Si ottengono k "successi" (= k decadimenti)
p : molto piccolo
n : molto grande
n
k
Pn,p(k) = lim
n→8
np=cost.
np : limitato
pk(1 - p)n-k =
1-p~1 se p piccolo
σ 2(k) ~ n p.
µ(k) = n .p
in Poisson
p= m
n
n . (n - 1) . . . (n - k +1) m
= lim
n
k!
n→8
m
k
1 -m
n
n-k
1 -m
n
n
n . (n - 1) . . . (n - k +1) m k
.
= lim
nk
k! 1 - m
n→8
n
= 1 dato che k finito
mk
.
.
= lim 1 1 - 1n 1 - 2n . . . 1 - k-1
n
k!
n→8
k
=
1 -m
n
1 -m
n
n
k
k
= m e-m
k!
c.v.d.
Ricordare che:
lim 1 + ax
x→8
=
x
= ea
lim 1 - m
n
n→8
n
= e-m
AS-56
DIMOSTRAZIONE ALTERNATIVA:
n!
. pk (1 - p)n-k =
n→8 k! (n - k)!
lim
p= m
n
FORMULA DI STIRLING :
n! ~ 2pn . nn . e-n
n>>1
n-k
k
2pn
nn . e-n
.
. m . 1 -m
n
2p (n - k) (n - k)n-k .e-(n-k) n
= lim 1
n→8 k!
n-k
=
=1
= lim 1
n→8 k!
1
1-k
n
n-k
.
ek
mk 1 - m
n
n-k
=
e-m
e-k
Ricordare:
lim 1 + ax
x→8
x
= ea
= 1 mk . e-m
k!
AS-57
Es.
Decadimento nuclei radioattivi :
Se m è numero medio di decadimenti per unità di tempo
(m = media), la probabilità di osservare k dec. nell'unità
di tempo è data dalla :
k
Pm (k) = m e-m
k!
10 dec./U.T. ;
Probabilità di 0 dec.?
100 -10
P10 (0) =
e = 4.5 10-5
0!
1010 -10
P10 (10) =
e = 0.13
10!
µ=m
σ= m
P(m - m = k = m + m )
?
P10 (7 = k = 13) = F10 (13) - F10 (7) = 0.865 - 0.220 = 0.645
Se m = 4:
P4 (2 = k = 6) = F4 (6) - F4 (2) = 0.889 - 0.238 = 0.651
AS-58
Es.
(Esperimento di Rutherford)
Sorgente α su bersaglio
conteggio numero di particelle con angolo di "scattering" θ
2608 conteggi da 7.5 s; 10. 094 particelle in totale.
.
10 094 = in media 3.87 particelle/conteggio = m
2608
Verifica della distribuzione Poisson del numero di particelle
osservate in un conteggio:
Prove fatte: 2608 = N
Probabilità di osservare k particelle in un conteggio :
k
m
Pm (k) =
e-m
k!
Numero aspettato di conteggi in cui osservo k particelle,
avendo fatto N prove (da binomiale) :
nk = N .Pm(k)
k
nk
0
1
2
3
4
5
6
7
8
9
=10
57
203 383 525
532 408 273 139
45
27
11
(aspettato)
54
210 407 526
508 393 254 140
68
29
17
σn k
7
8
5
4
(osservato)
nk
14
20
23
22
20
16
12
AS-59
Es.
Conteggi da rivelatore con ε < 1
numero medio per unità di tempo di particelle nel
rivelatore : ν
(con distribuzione di Poisson)
r: numero di particelle osservate nell'unità di tempo
quale è: P (r) ?
Per avere r conteggi, = r particelle nel rivelatore con
p = probabilità del rivelatore di osservare particella
8
P(r) = Σr n Pν(n) .Bn,p(r) =
8
1
= Σr n n!
.
νn . e-ν
1 .(p )r .e-ν
= r!
ν
.
8
n r.
n-r
r p (1 - p) =
Σr n
1
(n - r)!
.
ν . (1 - p)
n-r
=
sviluppo in serie di ek con
k = ν (1 - p)
1 .(p )r . e-ν . e(1-p)ν =
= r!
ν
= 1 .(pν)r . e-pν = Ppν (r)
r!
Poisson con m = pν
AS-60
DISTRIBUZIONE UNIFORME
F(x) = b - x
b-a
f(x) = 1
b-a
µ = E[x] =?
b
a
x 1 dx = 1
b-a
b-a
x2 b
2 a=
2
2
= 12 bb -- aa = 12 (b + a)
σ 2 = E (x - µ)2 = E x2 - µ2
E
x2
b
=?
x2
a
σ
2=
1 dx = 1
b-a
b-a
b3 - a3
3
b3 - a3 - (b + a)2 = 1 = (b - a)3 = 1 (b - a)2
12
12
b-a
3(b - a)
4
1
µ = 2 (b + a)
(b - a) = 2 .∆x
σ=
σ2 =
1 (b - a)2
12
σ=
1 (b - a)
12
1
∆x
3
P(µ - σ = x = µ + σ) =
2
∆x
3
2 ∆x
= 0.58
AS-61
DISTRIBUZIONE ESPONENZIALE
fβ(x) = 1 e-x/ β
β
∫
8
0
f(x) dx = 1
β
1
µ(x) =
β
∫
0
∫x . e
8
e-x/β dx
-x/ β
0
= - e-x/β
=0
8
8
0
=1
∫e
8
8
dx = - x . e-x/β +
0
-x/ β
dx =
0
integrando per parti :
u=x
v = e-x/ β
dv = − 1 e-x/β dx
β
=β
1
σ2 = β
0=x=8
β>0
∫
0
8
x2 e-x/β dx - β 2 = 1 .2 β 3 - β 2 = β 2
β
∫x
2 eax
dx =
ax
2
2x
= ea x2 - a + a2
fµ(x) = 1 e-x/µ
µ
µ(x) = µ
σ 2 (x) = µ2
AS-62
CUMULATIVA DELLA DISTRIBUZIONE ESPONENZIALE
∫
F(x) =
0
x
1 e-x'/ µ dx' = 1 - e-x/ µ
µ
P(µ - σ = x = µ + σ) = F(2µ) = 1 - e-2 = 0.86
2µ
0
AS-63
Esempio
Distribuzione del ∆t fra due particelle consecutive in
un fascio con distribuzione temporale uniforme.
Ntot particelle
∆t
t1
t
t0
t2
f(t) = cost
f(t)
1
t2 - t1
t1
t2
t
Fissato arbitrariamente t0 :
0 particella in ∆t
1
" dt
"
dP(∆t ) = e-λ∆t .λ dt
dP(1, dt)
P(0, t) (vedi pag. AS-54)
f(∆t ) =
λ=
Ntot
t2 - t1
dP(∆t ) = . e-λ∆t
λ
dt
µ(∆t ) = 1 =
λ
t2 - t1
Ntot
AS-64
DISTRIBUZIONE DI GAUSS
(NORMALE)
∫
(x - xo)2
1
. e- 2a2
f(x) =
;
2π.a
+8
f(x)dx = 1
-8
1 Simmetria intorno a: x = xo
2
3
2f
d
xo - a, xo + a sono i punti di flesso
=0
dx2
a misura la larghezza della distribuzione
1
2π.a
massimo: f(x = xo) =
df
dx = 0
Valore aspettato
1
µ = E[x] =
2 π .a
∫ xe+8
(x - xo)2
-8
cambiando variabile:
x-x
t= a o
dt = a1 dx
1
=
2π
∫
∫
+8
t2
xo
1
. =
a t e 2 dt +
2 π -8
2π
=0
+8
-8
+8
t2
.
(a t + xo) e 2
-8
∫
dx =
2a2
Gauss con
xo = 0
a =1
=1
dt =
∫
+8
-8
t2 dt
e 2
= xo
AS-65
f(x)
xo = - 1
a = 0.5
t2
xo = 3.5
a = 1.5
0.5
t
-2
-1
0
xo = 1.5
a=2
1
2
3
4
5
x
AS-66
Varianza
= xo
1
2π a
σ2 = E (x - µ)2 =
∫
(x - µ)2
(x - µ)2 e 2a2
dx =
-8
t= x-µ
a
∫
+8
+8
dt = 1 dx
a
2
t
a2
2
.
e
2 dt = integrando per parti
=
t
-8
2π
u=t
du = dt
2
t
v = e- 2
t2
2
dt
∫ u . dv = u . v - ∫
+8
=
dv = t . e-
-8
+8
-8
-8
+8
t2
2t
a
. e- 2
=-8
2π
=0
+
+8
vdu =
a2
2π
∫
+8
-8
=1
2
t
e- 2
dt
=
Gauss x = 0
a=1
= a2
(x - µ)2
1
.
f(x)=
e 2 2
σ
2π σ
Distribuzione
di
Gauss
AS-67
F(x) =
∫
(x' - µ)2
1
e 2σ2 dx'
.
2π σ
x
-8
Cumulativa
Variabile ridotta
t=
x-µ
σ
dx
dt = σ
Se x ha funzione di distribuzione f(x) ,
g(t) = dx . f(x = t)
dt
t = t(x)
Funzione universale
g(t) = σ .
t2
1
. e 2
2π σ
Cumulativa
∫
G(t) =
Gaussiana
µ=0
σ=1
t
-8
g(t') dt'
g(t) e G(t) tabulate.
AS-68
~0.4
g(t)
0.3
0.2
0.1
-3
-2
-1
0
1
2
3
t
1.0
G(t)
0.5
-3
-2
-1
0
1
2
t
3
AS-69
Il contenuto probabilistico di un intervallo ∆x per la
funzione di Gauss si ottiene usando G(t):
∫-t
to
Pµ,σ (µ-∆, µ+∆) = P(-to, to) =
to =
g(t) dt = 2
∫
to
g(t) dt =
0
o
xo - µ
σ
Se si ha G(t)
=
tabulata
fra 0 e t
∫
2
to
∫ g(t) dt =
0
g(t) dt -
-8
-8
= 2 G(to) - G(0) = 2G(to) - 1
1
2
g(t)
G(0) = 0.5
G(1) = 0.841345
G(2) = 0.977250
G(3) = 0.998650
G(4) = 0.999968
G(to)
G(0) =
-2
-1
0
to
1
2
1
2
t
P(µ ± 1σ) = 2 . G(1) - 1 = 0.6827
P(µ ± 3σ) = 2 . G(3) - 1 = 0.9973
P(µ ± 2σ) = 2 . G(2) - 1 = 0.9545
P(µ ± 4σ) = 2 . G(4) - 1 = 0.99994
AS-70
P(a = x = b) = G
b- µ
σ
-G
a-µ
σ
Se, fissato P = Po, voglio ricavare (a, b) ?
Po = G
b- µ
σ
a-µ
σ
-G
infinite soluzioni
Se richiedo intervallo simmetrico: (intorno a µ)
Po = 2G
G
Es:
b- µ
σ
b- µ
σ
-1
Po + 1
2
=
Po = 0.9
b-µ
σ
G
= 1.645
b-µ
σ
= 0.95
b - µ = 1.645 . σ
P(x > µ + nσ) = 1 - G(n)
P(µ - nσ = x = µ + nσ) = 2(1 - G(n))
AS-71
Funzione di distribuzione di più variabili casuali
Dato un fenomeno causale che dipende da più variabili casuali
x = (x1, x2, ... xn)
Si può definire una densità di probabilità congiunta
f(x) = f(x1, ... xn)
cn
f(x) dx = 1
E G(x) =
E xi =
G(x) f(x) dx
cn
xi
n
c
f(x) dx = µi
E (xi - µi)2 =
(xi - µi)2 f(x) dx
cn
E (xi - µi) . (xj - µj) =
(xi - µi) (xj - µj) f(x) dx
cn
AS-72
= (xixj + µiµj - xiµj - xjµi) f(x) dx =
cn
= E xixj + µiµj - 2µiµj
= E xixj -E xi .E xj = Vij
Vij : matrice di covarianza
I
è una matrice simmetrica Vij = Vji
II
elementi diagonali Vii = σ2 (xi)
III
i ? j Vij : covarianza (xi, xj)
>0
<0
Coefficiente di correlazione ρ (xi, xj) :
ρ (xi, xj) =
Vij
cov(xi, xj)
=
.
σi . σj
Vii V
jj
-1 = ρ(xi, xj) = 1
ρ = 0 scorrelate
ρ = ± 1 completamente correlate
Infatti : (es)
σ2(x1 +ax2) = σ2(x1) + a2σ2(x2) + 2a. cov(x1x2)
[Vedi dopo combinazioni lineari di variabili casuali]
AS-73
Dato che σ2(x1 +ax2) è per definizione = 0 :
σ2(x1) + a2σ2(x2) + 2a cov(x1x2) = 0
Dividendo per σ2(x1) :
1+
a2
σ2(x2)
σ(x2) . cov(x1x2)
+
2a
=0
σ(x1) σ(x1) . σ(x2)
σ2(x1)
α2
α
1 + α2 + 2αρ = 0
ρ2 = 1
ρ(x1x2)
per ogni α
-1 = ρ = 1
Se le xi sono mutuamente indipendenti:
. 2) ... f(xn)
f(x1 ... xn) = f(x1) f(x
E{xi xj} =
(vedi pag. prec.)
xi xj f(xi) ... f(x n) dx1 ... dxn =
=
xi xj f(xi) . f(x j) dxi dxj =
=
xi f(xi) dxi . xj f(xj) dxj = E{xi} .E{x j}
cov(xixj) = 0 per j ? i
AS-74
x1 e x2 indipendenti
Es.
0 < x1 < 1
0 < x2 < 1
F. di distribuzione
uniforme entro C2
x2
1
C2
f(x1, x2) = 1
0
1
Infatti:
x1
1 1
0 0
µ x1 =
µ x2 =
σ2x = V11 =
1
1 2
x12
1
x22
1
x1f(x1,x2) dx1 dx2 = 2
2
1 2
x2
"
= 2
x12
1
= 2
0
1
= 2
0
)2 . f(x
.
.
1,x2) dx1 dx2 =
(x1-µ x1
=E
V12 =
1
f(x1,x2) dx1 dx2 = 1
1
0
(x1-µ x1)2 dx1 =
x13 1
1
- µ x21 = 13 - 14 = 12
x1 = 3
0
-µ 2
(x1 - µ x1) (x2 - µ x2) f(x 1x2) dx1 dx2 =
= (x1 - µ1) dx1 (x2 - µ2) dx2 = 0
AS-75
x1 e x2 correlati
0 < x1 < 1
0 < x2 < 1
x2
1
x12 + x22 = 1
F. di distribuzione uniforme entro C2
C2
0
0
x1
1
f(x1,x2) = cost.
C2
1
µ x1 = 4p
4
x1 = V11 = p
0
σ2
dx2 = 4p
1-x12
2.
(x1 - µ x1) dx1 .
0
V12 = 4p
0
0
1
0
x1. 1 - x12 . dx1 = 0.42
1
2
4
(x
µ
)
dx2 = p
x1 .
1
0
1-x12
dx1 = 0.07
1-x12
1
0
2
area = pR
4
f(x1,x2) = 4p
1-x12
x1 dx1.
1
f(x1,x2) dx1 dx2 = 1
(x1 - µ x1) dx1
ρ12 =
0
(x2 - µ x2) dx2 = - 0.022
- 0.022
= - 0.31
0.07 . 0.07
AS-76
DISTRIBUZIONE GAUSSIANA MULTIVARIATA
La funzione di distribuzione di n variabili casuali gaussiane
correlate:
T. .
-1/2(x
a)
B (x - a)
.
φ(x) = k e
k=
1
(2p)n/2 . (DET B-1)1/2
Con:
a = (µ1, µ2 . . . µn)
B-1 = C
Matrice delle covarianze di x1, . . . xn
∫ φ(x) . dx = 1
B11 . . . . . B1n
(x1 - µ1, . . . xn - µn) .
.
.
.
.
.
.
.
.
Bn1 . . . . . Bnn
x1 - µ1
.
.
.
.
.
xn - µn
AS-77
DISTRIBUZIONE GAUSSIANA BIDIMENSIONALE
Distribuzione binormale
2
C=
cov (x1 x2)
σ1
2
σ2
cov (x1 x2)
B=
2
1
2
σ1
2
σ2
= B-1
σ2
.
- cov (x1 x2)2
- cov (x1 x2)
2
σ1
- cov (x1 x2)
se (x1 x2) sono scorrelate (cov (x1 x2) = 0):
B=
1/ σ12
0
0
1/ σ 22
(x1 - µ1, x2 - µ2)
1/ σ12
0
0
1/ σ 22
x1 - µ1
.
=
x2 - µ2
x1 - µ1
2
= (x1, µ1, x2 - µ2)
σ1
x2 - µ2
=
(x1 - µ1 )2
2
σ1
2
σ2
1
. e(x
,
x
)
=
φ 1 2
.
2p σ1σ2
2
1 (x1 - µ 1 )
2
2
σ1
. e-
+
1
2
(x2 - µ2 )2
2
σ2
(x2 - µ2 )2
2
σ2
Prodotto di 2 gaussiane
AS-78
Nel caso in cui x1 e x2 sono correlate:
ρ=
moltiplico e
divido per
σ1σ2
cov (x1 x2)
σ1σ2
B può essere scritta:
1
B=
1 - ρ2
f(x1 x2) =
G=
1
1 - ρ2
1
σ1σ2
1
2π σ1σ2
ρ
ρ
σ2
σ1
-ρ
2
σ1
-ρ
C = σ1σ2
σ1 σ
2
1 - ρ2
σ1σ2
1 2
σ2
. e -1/2 G
(x2 - µ2 )2
(x1 - µ 1 )2
+
-2 ρ
2
2
σ1
σ2
x1 - µ 1
σ1
x2 - µ2
σ2
f(x 1, x2)
x2
x1
Probability density of a bivariate Gaussian distribution
AS-79
FUNZIONI LINEARI DI VARIABILI CASUALI
n
y(x1, ... xn) =
i ai xi
1
Valore aspettato:
E[y] = E[Σi ai xi ] = Σi ai E[xi] = Σi ai µi
Dato che E è un operatore lineare
Varianza:
E[(y - µy)2] =
= E Σi ai xi - Σi ai µi
2
=
= E Σi ai (xi - µi) 2 =
= E Σi a2i (xi - µi) 2 + i?j
Σ aiaj (xi - µi) (xj - µj) =
= Σi a2i σi2 + i?j
Σ a iaj . cov (xi , xj)
AS-80
Se le variabili xi sono indipendenti:
N
µy = ? ai . µx i
N
i=1
? ai . xi
y = i=1
σ2y
N
2
2
?
a
=
i . σ xi
i=1
Ma: forma della ƒy, date le ƒx i ?
Difficile in generale ma:
Alcuni casi particolari
a) Distribuzioni gaussiane
b) "Tante" f(xi) qualsiasi
(sotto particolari condizioni)
AS-81
FUNZIONI LINEARI DI VARIABILI CASUALI
CON DISTRIBUZIONE "NORMALE" (GAUSSIANA)
Date n variabili casuali xi con funzione di distribuzione
gaussiana ("normale") f(µi, σi) la funzione :
n
y = ?1 i ai . xi
avrà ancora una funzione di distribuzione "normale"
f(µy, σy)
(si può dimostrare)
con :
µy = ? i ai . µi
σ2y = ? i a2i . σ2i
xi
N
Ne segue che la media x = ?
1
i
N
di un campione di
dimensione N di una variabile "normale" (σx, µx) è ancora
σx
una variabile "normale" con: µx = µx e σx =
N
[Ogni xi può essere considerata una variabile casuale con f.
di distribuzione normale]
AS-82
TEOREMA DEL LIMITE CENTRALE
Date n variabili casuali indipendenti xi con funzioni di
distribuzione qualsiasi (µi, σi finita), la funzione:
n
y = ? i ai . xi
1
nel limite n → 8
avrà distribuzione "normale" con :
µy = ? i ai µi
2
2
σ2y = ? ai σi
Condizioni di validità molto ampie, ma :
è importante che le σ2i siano tutte finite e
paragonabili, cioè nessuna domina le altre.
N.B.
Se le ƒi sono concentrate attorno al valore aspettato
(σi piccole), il teorema è valido già per valori piccoli di
N.
AS-83
Es.:
T
µ=T
µ= 2
T
0
y = x1 + x2 + x3
y = x1 + x2
y = x1
1
T
2T2
σ2 = 12
T2
σ2 = 12
1
T
3
p
T2
σ2 = 4
3 T
2
T
T
2
e-3(x-T) /T
1
T
2
Gaussiana con stessa µ, σ
ES.
µ = 23 T
2
p
2
e-2(x-1.5 T) /T
2
Gaussiana con stessa µ, σ
Generatore di numeri a caso con distribuzione Gauss
G (0, σ): ottenuto con la somma di n numeri a caso
con distribuzione uniforme in (0, 1).
n
y = ? xi
i=1
- n
2
1 - n =0
2
2
1
σ2 = n .
12
µ=n.
Buon accordo con gaussiana per n > 5÷10. Per n = 12 si ottiene
G (0, 1)
N.B.
Il teorema del L.C. ha validità più generale.
AS-84
Il modello di Laplace degli errori di misura
Sia x* il valore vero di una grandezza fisica, x il risultato di una
generica misura.
x = x*
a causa degli errori di misura che assumeremo
puramente casuali
Modello di Laplace : errore di misura = insieme estremamente
grande (→ 8 ) di disturbi contemporanei molto piccoli
(→ infinitesimi)
Ogni disturbo = ± ε (50% + ε, 50% - ε )
Ogni disturbo è statisticamente indipendente
Se N sono i disturbi e k i disturbi +ε :
x = x* + kε -(N -k) ε = x* + (2k - N) ε
PN,p(k) =
con :
N!
pk . qN-k
k! (N - k)!
p = probabilità di disturbo + ε =
1
2
AS-85
σ2 (k) = Npq
µ(k) = N . p
λ : scarto di k dal suo valore aspettato
k - Np = λ
k = Np + λ
N - k = N. q - λ
PN,p(λ) =
0=k=N
-Np = λ = N . q
N!
. pNp + λ . qNq - λ
(Np + λ)! (Nq - λ)!
µ(λ) = E[λ] = E[k] - N . p = 0
σ2(λ) = E[(λ - E(λ))2] =
=0
= E[(k - Np)2] = Npq
Al crescere di N si può utilizzare per N! la formula di Stirling :
N! =~ 2p .NN+1/2 .e-N
I
(Np + λ)! = 2p (Np + λ)Np+λ+1/2 . e-Np-λ =
= 2p (1 + Npλ )Np+λ+1/2 . e-Np-λ .(Np)Np+λ+1/2
AS-86
II
(Nq - λ) =
1
λ Nq - λ + 2
Nq
1-
2p
e-Nq + λ (Nq)Nq - λ +
- Np
I e II valide per λ lontano dai suoi limiti
2p
PN,p(λ) =
λ
1 + Nq
2p
Np+λ+1/2
Nq
1
Nq + 2
N
e-N
.
Np-λ+1/2
N+1
-Nq -Nq . N1/2
2p 1 - λ
e
Nq
=N
pNp + λ
.
. qNq - λ
1
2
pNp + λ +
. qNq - λ +
=
1
2
1
=
1
2p
.
.
1
2
1+
Npq
λ
Nq
-Np-λ- 2
.
1-
λ
1
-Np+λ- 2
Nq
NOTE:
I
PN,p(0) =
1
2p
.
Npq
Valore massimo
Σk P(k) = 1
P(0) → 0 come N ; quindi il numero di valori di λ per cui P(λ) non è
trascurabile rispetto a P(0) deve divergere come N , anche se il numero
totale di valori di λ diverge come N+1.
II La formula approssimata per P(λ) non è valida per λ ~ -Np e λ~ Nq; ma in
questi intorni P(λ) è trascurabile rispetto a P(0).
AS-87
Consideriamo ora:
1
lg =
1+
λ Np - λ - 2
Np
λ
Nq
e
lg (1 + x) = x -
= Np + λ + 1
2
1-
lg 1 + λ
Np
= Np + λ + 1
2
λ
Np
λ
Nq
=
1
lg 1 - Nq − λ +
2
λ
Nq
=
sono << 1 lontano dagli estremi.
3
x2
+ x
2
3
....
2
λ
- λ2 2 + ...
Np
2N p
2
λ
=- λ
2Npq
2N
Np + λ - 12
1
1
p
q
+
λ3
6N2
Np - λ + 1
2
1
1
p2 q2
2
- λ - λ
+ ... =
Nq 2N2q2
+ ...
Per λ ~ N (unici valori non trascurabili) solo I termine
1
1
finito (secondo → 0
, terzo → 0 1 , altri come N ).
N
N
AS-88
lg k ~ -
λ2
k = e 2Npq
λ2
2Npq
1
λ2
e 2
Npq
1
P(λ) ~
2p
Npq
P( λ) ∼
1
2p σλ
.e -
1
2
λ2
σ 2λ
Ma nel modello di Laplace:
p=
1
2
x = λ* + (2k - N) . ε =
Np + λ
= x* + 2 λε
2Np + 2λ - N =
2 . N . 1/2 + 2λ - N
= 2λ
(x - x*) = 2λε
E[x] = E[x* + 2λε] = x* + 2ε E[λ]
=0
E[(x - x*)2 ] = E [(2λε)2] = 4ε2 E[λ2] = 4ε2σ2 λ
AS-89
Per ε → 0 (x da discreta a continua) :
P(x) =
?λ
?x
. P(λ)
λ = λ (x)
1
2ε
1
P(x) =
2ε
1
. e2p σλ
1
2
λ2
σ2λ
x = x* + 2λε
σx = 2εσλ
1
eP(x) =
2p σx
1
2
(x - x*)2
σ2
x
c.v.d
In questo caso P(x) rappresenta una densità di probabilità
La misura di una grandezza fisica è una variabile casuale
con f. di distribuzione gaussiana (normale). Il valore
aspettato di tale variabile casuale è proprio il valore vero
della grandezza.
AS-90
MISURA DI UNA GRANDEZZA FISICA
(Caso generale)
1) Ammettiamo che esista un valore "vero" x* della grandezza.
2) Ammettiamo che esistano molte sorgenti (N) di disturbo
della misura. Queste sorgenti generano degli errori casuali
εi che hanno le seguenti proprietà:
µ(εi) = εi f(εi) d εi = 0
2
σ2(εi) = εi f(εi) d εi
finito
(Nessuna ipotesi sul tipo delle f( εi))
Potremo quindi scrivere per la generica misura di x, xM :
N
xM = x* + ? i εi
xM = x* + ε
1
N
ε = ? i εi
1
Per il teorema del limite centrale la variabile casuale ε, somma
di N variabili casuali a varianza finita, per N → 8 avrà
distribuzione normale con valore aspettato e varianza:
N
µ(ε) = ? i µ(ε i) = 0
1
f(ε) =
1
2p σε
N
σε = ? i σ2(εi)
2
1
e-
ε2
2 σε2
AS-91
Per il teorema della addizione di variabili normali, xM sarà
ancora una variabile normale con :
µx M= x* + µε = x*
2
y = ax + b
2
σx M= σε
µy = aµx + b
σy2 = a2σ 2x
f(xM) =
1
2p σx M
. e-
(xM - x*)2
2 2
σxM
Dimostreremo (vedi prossime lezioni) anche che:
h
se si eseguono N misure xi della grandezza, cioè se si estrae
un campione di dimensione N dalla popolazione (infinita)
della variabile xM (che ha funzione di distribuzione
normale), la miglior stima di µx M (cioè del valore x* della
grandezza fisica) sarà dato da:
N
x=
? i xi
1
N
(media aritmetica delle xi)
AS-92
e che la miglior stima di σx2M :
s2
=
1
N-1
N
?i
1
(xi - x )2
(scarto quadratico medio)
La media x , essendo combinazione di variabili casuali normali,
avrà a sua volta distribuzione normale con :
µ (x) = x*
σ (x) =
2
σx2
N
Indicheremo il risultato di N misure ripetute (con stesso metodo
nelle stesse condizioni) di una grandezza fisica con la notazione:
x = x ± sx = x ±
sx
N
N
x=
sx =
1 ?
i
N 1
xi
? (xi - x)2
N-1
Con questa notazione si intende :
P( x - x* = sx) = 68%
Cioè la probabilità che l'intervallo: x - sx = x* = x + sx
contenga x* è il 68%
Risultato di una singola misura x i (assumendo noto sx) :
x = xi ± sx
AS-93
-8
?
f(x)
f(x) dx = 1
+8
GAUSS σ = 1
0,399
∆
WP
WP
⇓
σ=
0
-3
-2
-1
σ=1
uniforme
0
68,27%
1
1,73 2
2∆
= ∆
12 1,73
3
GAUSS
95,45%
99,73%
57,8%
uniforme
AS-93
bis
PROPAGAZIONE DEGLI ERRORI (STATISTICI)
Misura indiretta di una grandezza fisica:
y = f(x1, . . . xn)
Dove xi sono grandezze fisiche misurate direttamente (xi ± si);
dato che le xi sono variabili casuali, anche la y sarà variabile
casuale.
Se sviluppiamo y in serie di Taylor in un intorno di (µ1, . . . µn)
[valori aspettati delle xi]:
1
?y
y = y(µ1, . . . µn) + ?n i ?x
i
µi
(xi - µi) + . . .
Se trascuriamo i termini di ordine superiore (cioè
assumiamo che le xi siano in un intorno dei loro valori veri
µi)
y è combi nazione lineare di variabili casuali con
distribuzione normale
(quindi)
y ha funzione di distribuzione normale con :
µy = y(µ1, . . . µn)
(dato che (xi - µi) ha valore aspettato = 0)
AS-94
Per la varianza:
2
σy =
)2]
E[(y - µy
n
=E ?i
1
?y
(x ?xi µi i
µi)
2
=
n
n
?y
?y
?
= E 1 i ?1 j ?x µ. ?xj µ . (xi - µi) . (xj - µj) =
i
j
i
n
?y
?y
= ?1 i ? j ?x µ. ?xj µ. E (xi - µi) . (xj - µj) =
i
j
i
Vij
Vij = E (xi - µi) (xj - µj) = E xi xj + µi µj - xi µj - xj µi =
(Vij = Vji )
= E [xi xj] + µi µj - 2 µi µj = E [xi xj] - µi µj
LEGGE
?y .DI PROPAGAZIONE
?y
σy2 = ? i ? j ?x
V
ij
?xj ERRORI
STATISTICI
i
σy2 =
n
?i
1
?y
?xi
2
2
σ xi + ? i ? j ?y
?xi
?y
?xj
. Vij
i?j
Se le xi sono statisticamente indipendenti : (Vij = 0
σy2 =
n
?i
1
?y
?xi
2
i ? j)
LEGGE D IPROPAGAZ IONE
2
σxi
ERROR I STAT IST IC I
(x iscorrelate)
Questa legge di propagazione degli errori è esatta solo se y
è funzione lineare della xi .
AS-95
Nel caso in cui y sia un monomio : y = ? ixαi i
LEGGE D IPROPAGAZ IONE ERROR IRELAT IV I
xi correlate:
σy 2
y =
? i α2i . σx i
n
1
2
i
σ
σj
+ ? i ? j αi . αj . ρij . x i . x
i
j
i=j
xi scorrelate:
σy 2
y =
? i α2i . σx i
n
1
2
i
AS-96
STIMA DEI PARAMETRI DELLE DISTRIBUZIONI
Se distribuzione di probabilità o funzione di distribuzione
non note a priori :
Numero infinito di prove per determinarla
Esperimento con N. finito di prove :
"campione" di dimensione n della popolazione
Analisi statistica dei dati (risultato delle prove) permette una
stima delle proprietà (delle grandezze caratteristiche) della
distribuzione e permette di valutare bontà della stima.
BONTA' : probabilità statistica che il valore vero del
parametro cada in un certo intervallo intorno alla
stima ottenuta (intervallo di confidenza)
Stime con campioni di egual n hanno bontà equivalenti.
Stime con n maggiore hanno intervalli di confidenza più
stretti.
AS-97
CAMPIONAMENTO
Estrazione di n valori della variabile casuale → campione
.
di dimensione n
(1)
.......
x1
m CAMPIONI
(m)
x1
(1)
. . . . . . . . . . xn
..........
x(m)
n
Se considero :
(j)
(j)
x (j) = (x1 . . . xn )
_
x sarà ancora una variabile casuale con
_
f(x) = f(x1 . . . xn)
Il campione sarà casuale se :
I
xi indipendenti
f(x1 . . . xn) = f(x 1) . . . f(xn)
II
xi tutte con la stessa formula di distribuzione:
f(x1) = . . . = f(xn) = f(x)
Una generica funzione di un campione: "statistica"
AS-98
Una "statistica" si usa per stimare i parametri di una
funzione di distribuzione
se a sono i parametri
incogniti:
S(x1 . . . xn)
Estimatore
S è una variabile casuale
^astima
=
a
=S
Un estimatore gode delle seguenti proprietà:
1) ASSENZA DI DISTORSIONE
Per un campione finito, un estimatore è non distorto
se:
^ = a* (per ogni n)
E[S(x1, ... xn)] = E[a]
Se la distorsione tende solo asintoticamente a 0 lo
estimatore si dice asintoticamente non distorto.
2)
CONSISTENZA
Al crescere delle dimensioni del campione l'estimatore
converge al valore vero del parametro :
per n
3)
8
2
σ^a
0
EFFICIENZA
La stima ottenuta da un estimatore avrà una certa
varianza; è più efficiente un estimatore con varianza
minore. (A parità di dimensioni n del campione).
4) INVARIANZA SOTTO TRASFORMAZIONE DEI
PARAMETRI
Se a^ è la stima del parametro a, allora la stima per una
^
generica f(a), è proprio f(a).
AS-99
Estimatore del valore aspettato : media aritmetica
x=
PROPRIETA':
_
E[x] = n1
1
1
n (x1 + . . . xn)
E[x] + . . . E[xn] =
1
n
. nµ = µ(x)
non distorto
2
Per le proprietà di funzioni lineari di variabili casuali: a =
_
σ2 (x) =
1 . . 2
n σ (x) =
n2
è consistente
3
1
n
σ2 (x)
n
σ2 → 0
n→8
Si può dimostrare che la media aritmetica è la stima del
valore aspettato che ha la minima varianza, cioè è la
più efficiente
AS-100
Proprietà della media:
I
_
Somma degli scarti da x = 0
? ixi
_
_
? i (xi - x) = ? ixi - x .n = n .
n
1
n
II
_
_
_
- nx = nx - nx = 0
_
Somma dei quadrati degli scarti da x minima
Infatti, scelto un generico x:
n
? i (xi 1
x)2
_
_
2
= ? i (xi - x) + (x - x) =
n
1
n
_
_
_ _
= ? i (xi - x)2 + (x - x) 2 + 2(xi - x) (x - x) =
1
_
_ 2 . _ 2
_
= ? i (xi - x) + n (x - x) + 2(x - x) ? i(xi - x) =
n
1
_
_ 2
_2
2
= ? i (xi - x) + n(x - x) > ? i(xi - x)
=0
n
1
Estimatore della varianza (scarto quadratico medio)
s2
=
1
n -1
_
? i(xi - x)2
AS-101
Consideriamo inizialmente:
s'2 =
1
n
(x1 - x)2 + . . . (xn - x)2
E[s' 2] =
1
n
_
E ? i (xi - x)2 =
=
1
n
_
2
? i E (xi - µ) - (x - µ)
=
1
n
_
? i E (xi - µ)2 - E (x - µ) 2 =
=
1
n
=
n -1
n
nσ2 - n
1
n
σ2 =
σ2 = (1 -
1
n
=
σ2(x)
) . σ2
E' distorto (solo "asintoticamente non distorto")
s2
=
1
n -1
_
? i(xi - x)2
Sarà invece non distorto
AS-102
LA LEGGE DEI GRANDI NUMERI
(Applicata al caso della media aritmetica)
Data una popolazione di varianza finita σ2, e dati 2 numeri
positivi ε' e ε" , esisterà sempre un numero N tale che, per
ogni campione della popolazione di dimensione M = N, si
avrà:
P( x- µx = ε') = ε"
v
v
DISEGUAGLIANZA DI BIENAYME' - CEBICEV
Data una variabile casuale x con funzione di distribuzione
f(x) e varianza finita σ2 :
P( x - µ = λσ) =
1
2
λ
per λ positivo qualunque.
Infatti:
P( x - µ = λσ) =
dove C* = dominio in cui
x- µ
λσ
f(x) dx
C*
= 1.
AS-103
Graficamente:
± 2σ
± 1σ
λ=2
f(x)
x
µ
σ
Voglio dimostrare che:
= f(x) dx = 1 =
C*
λ2
1
4
f(x)
x
C*
AS-104
In C* sarà anche vero :
(x - µ)2
2
2 =1
λ σ
Quindi:
(x - µ)2
P( x - µ = λσ ) =
2
2 f(x) dx =
C* λ σ
=
C
(x - µ)2
2 2 f(x) dx
λ σ
Dove C è tutto il campo di definizione di x.
P( x - µ = λσ ) =
1
E[(x - µ)2] =
2
2
λ σ
1
2
λ
varianza di x = σ2
c.v.d.
2
Ricordando che x ha varianza =
v
σ , potremo riscrivere
N
la diseguaglianza di B.C. :
P( x - µ = λ σ ) = 1 2
N
λ
ε"
ε'
ε' = λσ
N
ε" = 2 = σ2
ε' N
λ
1
2
AS-105
Fissato ε' ed ε" (quindi λ), si sceglie N tale che :
2
σ
N=
ε' 2 . ε"
Per ogni M = N la diseguaglianza iniziale sarà soddisfatta.
*
Valore di N per cui la probabilità che la media x disti
Es.:
da µ più di 1 σ = 20%.
ε' = 1 . σ
ε " = 0.2
Infatti se ε' = σ, ne segue che
λ =1 ;
N
σ2
N=
0.2 * σ 2
1
N
=
=5
In generale, fissato N, la P(|x - µ| > 1σ) =
N= 1
1
λ2
P( x - µ > 1σ) = 1
1 :
N
0.32
2
1/2
0.20
5
1/5
0.04
10
1/10
0.001
100
1/100
f(x)
qualsiasi
f(x)
gaussiana
σx = σ
N
AS-106
*
Significato dell'argomento :
Data una variabile casuale con distribuzione qualsiasi, fissato
un livello di confidenza richiesto (cioè una probabilità), è
possibile determinare la grandezza minima del campione (cioè
il valore di N) per cui la media è (con probabilità assegnata)
prossima al valore "vero" più di un dato valore (in unità di σ)
σ
popolazione
µ
campione
x
AS-107
TEOREMA DI BERNOULLI
Data distribuzione binomiale: PN,p(k) consideriamo la
variabile casuale :
k
φ= N
PN,p(φ) = PN,p(k = Nφ)
1
E[φ] = N E[k] = Np = p
N
σ2[φ] =
1
N
E[k2] = Npq
=
2
2
N
pq
N
v
Dalla diseguaglianza di B.C. :
P( x - µ = λσ) =
λσ = ε
λ
2
=
ε
λ
2
2
2
σ
P( x - µ = ε) =
P( φ - p = ε) =
Per N → 8
1
P( k - p > ε)
N
frequenza
σ2
ε2
p. q
Nε 2
tende a 0.
AS-108
In altre parole, per N → 8 la probabilità che la
frequenza relativa differisca dalla probabilità per più di
una quantità ε assegnata, tende a 0.
Il teorema di Bernoulli è una giustificazione della
definizione di probabilità in termini della frequenza
relativa.
AS-109
METODO DELLA MASSIMA VEROSIMIGLIANZA
Stima dei parametri di distribuzioni :
data una funzione di distribuzione di una variabile
casuale, con forma funzionale nota, dipendente da
un certo numero di parametri incogniti, si vuole
stimare il valore dei parametri a partire da un
campione limitato della popolazione.
f(x, a)
a : parametri incogniti (a1 . . . an)
x1, x2, x3, . . . xN : misure della variabile casuale
(campione)
Se f è la funzione di distribuzione di x, la probabilità di
osservare l'insieme x1 . . . xN di valori :
N
dP = f(x1, a) dx f(x2, a) dx . . . f(xN , a) dx = ? i f(xi, a) dx
1
AS-110
Se si definisce funzione di verosimiglianza :
L
N
=?
i
i
f(xi , a)
IL PRINCIPIO DELLA MASSIMA VEROSIMIGLIANZA :
La miglior stima dei parametri a è quella che rende
massima la funzione L
L
?
?ai
L
?2
=0
?a2i
<0
Un estimatore di massima verosimiglianza gode delle
seguenti proprietà:
1) ASSENZA DI DISTORSIONE.
E[Estimatore] = valore vero (per ogni N)
Gli estimatori di massima verosimiglianza sono solo
asintoticamente non distorti.
2) CONSISTENZA.
^
(a
a*
per N
8)
2
0
N
8
σ^a
Gli estimatori di massima verosimiglianza sono consistenti
3) EFFICIENZA.
Gli estimatori di massima verosimiglianza sono quelli
con efficienza migliore.
4) INVARIANZA SOTTO TRASFORMAZIONE DEI
PARAMETRI.
Gli estimatori di massima verosimiglianza sono
invarianti sotto trasformazione dei parametri.
AS-111
In generale si preferisce usare, invece della L , il suo logaritmo:
N
w = lnL = ? i lnf(xi , a)
1
e cercare quel valore di a che rende massimo w.
?w
?a
Es.
I
?2 w
? 2a
= 0;
<0
Stima di µ e σ2 per una distribuzione normale
Stima di µ.
L=
(dati: x1 . . . xN)
N
1 N
2p σ
?
w = lnL = - N ln
?w
?µ
i
1
(xi - µ)2
e- 2σ2
2p N
N
= ?i
1
ln(σ
(xi - µ)
σ2
N
2)1/2
?i
1
(xi - µ)2
2σ2
=0
N
N
?i
1
xi - N . µ = 0
^=
µ
? i xi
1
N
Stima di massima verosimiglianza del
parametro µ
? 2w
?µ2
N
= - σ2 < 0
AS-112
II
Stima di σ2.
?w
? σ2
=-
N
2
(x - µ)
+ ? i 2i 4 = 0
1
σ2
N
2
σ
1
N
? i (xi - µ)2
^
σ2 =
1
N
? i xi
N
Ma µ da I , è : ^µ =
Stima di massima verosimiglianza del
parametro σ2 è solo asintoticamente
non distorta
? i (xi - x)2
N
^
σ2 =
=x
^
σ2 = σ2non . N - 1 =
dist.
= σ2non . (1 - N1 )
dist.
Es.
N
Asintoticamente
non distorto
Combinazione di misure con diversa precisione
(Media pesata di misure con diversa σ stesso µ)
x1 x2 . . . xN
σ1 σ2 . . . σN
L=
N
?
1
1
i
2p σi
w = - N ln
(xi - µ)2
e- 2σ2i
N
2p - ? i
1
?w
?µ
N
ln σi -
x -µ
i
= ?1 i σ2
i
(xi - µ)2
?i 2 2
σi
1
N
=0
AS-113
N
N
xi
?i
= µ . ? i 12
σ2i
1
1
N
?i
^
µ =
1
σ2i
N
1
?i
1
Ponendo : pi =
1
σi
xi
σ2i
1
σ2i
MEDIA PESATA
N
? i pi xi
^
µ =
1
N
? i pi
1
Varianza della stima di massima verosimiglianza
Si può dimostrare che per N → 8 la funzione di verosimiglianza
L (che è la funzione di distribuzione per a) tende ad una
distribuzione gaussiana:
L (a) =
1
2p σa
(a - a*)2
e- 2σ2a
Se consideriamo w(a) = ln L (a) e la deriviamo 2 volte
rispetto ad a:
w(a) = -
(a - a*)2
2σ2a
+ cost
AS-114
?w
?a
(a - a*)
σa2
=-
?2w
=
?a2
- σ12
a
1
2
σa = -
?2w
?a2
Se non si ha espressione analitica di w:
w
Fare grafico di w
in funzione di a
wmax
wmax -
1
2
parabola
σa
σa
^
a
wmax = -
a
(a^ - a*)2
2σ2a
+ const. ~ const.
se a^ ~ a*
Se: a^ ~ a* :
^ = σa
In corrispondenza ad: (a - a)
w(a) = wmax -
1
2
Quindi le due intersezioni con wmax -
1
2
: ± σa
AS-115
Es. Varianza sulla media
n
stima di
µ=
= ?i
µ
1
xi
=x
N
Errore sulla stima di µ :
2
σ^µ
?2w
?µ2
2
σx
=
=-
1
=
2
σ^µ
N
σ
=
?2w
?µ2
2
^
σ
=
2
N
^
σ2
N
Es. Varianza sulla varianza
^2
σ
stima di
σ
2
=
? i(xi - x)2
N
AS-116
?w
?σ 2
=-
N
2
1
(xi - µ)2
2 σ4
+?i
σ2
(σ2)2
N
?2w
?(σ2)2
N
2
=+
1
-2
σ4
? i (x - µ)2
1
i
2 . σ6
=
N
N
2
=
1
σ4
? i (x - µ)2
i
1
1
- σ6 N
N
=
^2
σ
N
2
=
σσ^ 2 =
2
1
σ4
N
2
- N σ14 = -
2 σ^ 4
N
1
σ4
σσ^ =
2
dσ
dσ
2
2
2
σσ^ 2 =
2 σ4
4 σ2 N
1
=
σ2
2N
x = σ2
? x
?x
=
1
2
σσ^ =
σ2
2
1
x
^
σσ^ = σ2N
^
2N
Es. Varianza sulla media pesata
1
N
?i
^
µ=
σ2i
N
1
?i
σ2i
1
?2w =
?µ2
2
σ^µ
=
xi
1
-
N
?i 1
1
σ2i
1
N
1
1
σ2i
?i
AS-117
Es. Stima di m in una distribuzione di Poisson
Fatte N prove, sono stati osservati i valori: n1 . . . nN
Ò=?
N
i
1
e-m mn i
ni !
N
-m n i
=
w = ? i lge e nm
i!
1
N
N
= - Nm + ? i ni lge m + ? ilge n1i !
1
1
?w
?m
N
1 =0
= - N + ? i ni m
1
N
n
^
m = ? i Ni
1
N
?2w
?m2
2
σm
^
=
? i ni
1
=-
m2
N
? i ni
m2
=
^2
m
^
Nm
=
^
m
N
1
AS-118
Es. Stima di p in una distribuzione binomiale
Fatte n serie di N prove:
k1 , k2 . . . kn
n
L=?i
1
n, casi favorevoli in ogni serie
N!
ki ! (N - ki ) !
n
n
1
1
. p ki . (1 - p)N- ki
w = ? i ki lge p + ? i (N - ki) .lge (1 - p) + cost
?w
?p
1
n
n
1
= p ? i ki - 1-p ? i (N - ki) = 0
1
1
n
n
(1 - p) ? i ki = p ? i (N - ki)
1
1
n
n
n
? i ki - p ? i ki = Npn - p ? i ki
1
1
1
n
p=
1
? i ki
1
N
=
k
N
^
k
p= N
AS-119
Es. Stima parametri retta
y = ax + b
y1 ± σ1 . . . yn ± σn
(yi : funzione di distribuzione Gauss)
x1 . . . xn
L =?
i
(y - y*)2
i
i
e- 2 σ 2i
1
2p σ i
y*
i =
2
(yi - y*
i )
w = - ? i 2 σ2
i
min ? i 2 σ 2
i
?w
?a
= +? i
(yi - axi - b)
σ 2i
?w
?b
= +? i
(yi - axi - b)
σ 2i
a?i
2
xi
σ 2i
xi
σ 2i
+ cost
2
(yi - y*
i )
max (w)
a ?i
a*xi + b*
+b?i
+b?i
xi
σ 2i
1
σ 2i
. xi = 0
=0
= ?i
= ?i
xi yi
σ 2i
yi
^a e ^
b
σ 2i
AS-120
1
Es. Stima di τ per distribuzione: f(t, τ) = τ
e-
t
τ
8
f(t,τ) dt = 1
0
Osservati i tempi:
t1 . . . tN
in N. prove
Voglio stima di massima verosimiglianza per τ.
N
L =?i
τ
1
ti
e-
1
τ
N
N
1
1
w = - ? i lge τ + ? i - tτi
?w
?τ
N
N
1
=-?i
τ
1
ti
+ ?i
=0
τ2
1
N
^τ =
?2w
?τ 2
N
1
= +? i
τ2
1
? i ti
1
N
N
ti
-2 ? i
τ3
1
=
^
τ
=
N
τ2
-
2N
τ3
σ ^τ =
2
N
? i tNi = 1
N
^
τ2
^
τ2
N
AS-121
IL METODO DEI MINIMI QUADRATI
Date due grandezze x, y legate dalla relazione funzionale:
y = f(x, a)
a : a1, . . . , an
n parametri
Fatte N misure :
y1 ± σ1 . . . yN ± σN
x1 . . . xN
[Errore su x trascurabile; |f(xi + ∆x) - f(xi)| << σyi ]
Voglio stimare i valori dei parametri a1, . . . , an.
Se le yi hanno formula di distribuzione gaussiana, posso
applicare il metodo della massima verosimiglianza.
N
L =?i
1
N
w=-?i
1
1
2p σ i
e- 2 σ 2i
(yi - µi )2
2 σ 2i
(yi - µi )2
+ cost
AS-122
N
w=-?i
(yi - f(xi , a) )2
2 σ2i
1
Max (w)
+ cost
N
(yi - f(xi , a) )2
1
σ 2i
min ? i
Il principio dei minimi quadrati afferma che
la miglior stima dei parametri a è quella che
minimizza la somma:
N
X2
=?i
1
(yi - f(xi , a) )2
2
σi
+ cost
indipendente dalla formula di distribuzione
delle yi.
Notare che il metodo richiede la conoscenza a priori
di tutte le σi; nel caso però in cui le σi siano tutte
uguali il metodo è ancora applicabile anche non
conoscendo σ. (Altro parametro incognito)
AS-123
MINIMI QUADRATI NEL CASO LINEARE
Supponiamo che la dipendenza della y dai parametri sia lineare:
n
y = f(x, a) = ? k ak . fk(x)
1
y1 ± σ1 ... yN ± σN
x1
...
xN
Assumiamo inoltre che la yi siano fra loro statisticamente
indipendenti
2
n
N
X2 = ? i
yi - ? k ak fk (xi)
1
2
σi
1
? X2
=0
? aj
j = 1, ... , n
n equazioni lineari nelle n incognite ak
n
N
fj (xi)
? X2
.
?
.
=0
= 2 ?1 i yi - 1 k ak fk (xi)
2
σ
i
? aj
N
n
1
1
? i ? k ak . fk (xi) fj(xi)
N
σ2i
= ?1 i fj(xi)
yi
2
σi
AS-124
n
N
? k ak ? i fk (xi) fj(xi)
1
1
N
σ2i
= ?1 i fj(xi)
yi
2
σi
n equazioni lineari al variare j = 1, n.
Sistema di n equazioni lineari nelle incognite ak.
k
A11 a1
+
A12 . a2 . . . . . . + A1n an = b1
A12 a1
+
A22 . a2 . . . . . . + A2n an = b2
......
......
A1n a1
j
A2n . a2 . . . . . . + Ann an = bn
+
.
An1 . . . . Ann
b1
=
an
....
....
a1
....
A11 . . . . A1n
bn
N
Ajk = ? i fk (xi) .fj(xi)
2
σi
1
= Akj
matrice simmetrica
N
bj = ? i yi . fj(xi)
1
A.a= b
2
σi
sistema di equazioni lineari
AS-125
SOLUZIONE:
A-1
matrice inversa
(A-1 A = U)
A-1 . A . a = A-1 . b
U .a = a
a = A-1 . b
-1
Akj =
(-1)k+j
.
Akj
A
A = determinante matrice A
Akj = minore kj della matrice A
n
n
-1
a^k = ? j Akj . bj
1
= ?
1
-1
j Akj
N
. ? i yifj(xi)
1
σ2i
Stima ak con minimi quadrati
A-1 : matrice delle covarianze
Infatti si può dimostrare che :
E (ak -
a *k)
.(aj - a *j) = cov (ak, aj) =
-1
Akj
AS-126
-1
2
σk = Akk
Nota la matrice delle covarianze, è possibile calcolare
la varianza su una qualsiasi funzione delle ak. In
particolare:
n
^
y : valore stimato della y
dalla stima a^k
^
ak fk(x)
y=?k ^
1
n
σ ^y2 = ? k,j
1
?y^
?a^k
^
. ?y . cov (ak, aj) =
^
?aj
n
-1
= ? k,j fk(x) .fj(x) . Akj
1
Per verificare se il risultato delle stime degli ak
con i minimi quadrati è compatibile con i dati:
n
2
χ N-n = ? i
1
(yi - y^(xi))2
2
σi
Nel caso di errori
gaussiani sulla yi
Distribuzione normale
^
y, σi
N-n gradi di libertà:
N variabili casuali yi - n parametri estratti dai dati
AS-127
ES.
y = ax
N
? i (yi - axi)2
1
X2 =
?X2
?a
N
?i
1
2
σi
N
(yi - axi)2
=-2?i
1
N
xi - yi
=a?i
2
σi
1
N
?i
x2i
σ 2i
xi . yi
1
N
a=
xi = 0
2
σi
?i
1
σ2i
x 2i
σ 2i
Essendo a una combinazione lineare di variabili casuali yi
con varianza nota (trascuro varianza su xi), la sua
varianza:
N
2
σa
N
= ?i
1
?a 2
.
?yi
2
σi
?i
=
1
N
?i
1
=
x2i
2
σi
x2i
2
σi
2
σi
2
=
1
N
?i
1
x2i
2
σi
AS-128
ES.
y = a1 + a2x
n
y = ?1 k ak . fk(x)
In questo caso:
f1(x) = 1
n=2
f2(x) = x
y1 ± σ1 . . . . yN ± σN
x1 . . . . xN
A:
N
N
A11 = ?1 i f1(xi).f1(xi)
2
σi
= ?1 i
N
N
A12 = ?1 if1(xi).f2(xi)
2
σi
= ?i
1
s
sx
sx
sxx
2
σi
2
σi
xi
2
1
σi
N
xi
N
A22 = ? if2(xi).f2(xi)
1
= ?i
1
=s
= sx
2
2
σi
= sxx
A=
A = det A = s . sxx - sx2 =
N
= ?1 i
1
2
σi
N
.
?i
1
x 2i
2
σi
N
?i
1
xi
2
2
σi
AS-129
b:
N
N
b1 = ? i yi . f1(xi) σ2 = ? i
1
i
N
i
2
= sy
1
σi
N
yi xi
b2 = ? i yi .f2(xi) σ 2 = ? i
1
yi
1
2
σi
= sxy
A-1: (Matrice covarianze)
A-1 =
1
A
.
SOLUZIONE :
sxx
- sx
- sx
s
A =D
a = A-1 . b
a1
a2
=
-1
b1
A11 A-112
.
= -1
=
-1
b2
A21 A22
1
D
sxx
-sx
-sx
s
.
sy
sxy
AS-130
(Sxx . Sy - Sx .Sxy) =
a1 =
1
D
=
1
D
a2 =
1
D
=
1
D
-? i
2
σ a1 =
-1
A11 =
1
D
σ a22 =
-1
A22
1
D
N
?i
1
xi2
σ i2
N
yi
.? i
σi
2
1
N
N
xi
- ?i
1
σi
N
1
. ?i
2
1
x i yi
σi
2
(- Sx . Sy + S .Sxy) =
N
1
=
cov = (a1a2) = -
N
xi
σ i2
yi
.? i
σ i2
1
. Sxx =
1
D
.S
1
D
1
D
=
. Sx = -
+?i
N
. ? i x i y2 i
1
σ i2
N
xi2
?i
1
σi
σ i2
1
N
. ? i 12
σi
1
1
D
N
.?i
1
xi
σ 2i
D = S . Sxx - Sx2
AS-131
ES. Calcolo banda errore intorno a soluzione
2
σ ^y =
n
n
n
n
?y . ?y .
? j ? k ?a
cov (aj, ak) =
?a k
j
1
1
= ?1 j ?1 k fj(x) .fk(x) . cov (aj, ak) =
= f1(x) .f1(x) . cov (a1, a1) + f2(x) .f2(x) . cov (a2, a2) +
y
+ 2f1(x) .f2(x) . cov (a1, a2) =
2
2
= σa1 + x2 σa 2 + 2x cov(a1, a2) =
x
1
= D
Sxx + x2 .S - 2x .Sx
=
N
1
D
?i
1
x 2i
σ i2
N
1
σ 2i
+ x . ?i
2
1
N
2x ? i
1
xi
σ i2
2
Notare: σy^ è funzione della x
Minimo di
2
σy^ :
2
?σ ^y
?x
=0
2xmin .S = 2 .Sx
xmin =
Se σ2 uguali:
xmin = σ 2
Sx
S
? i xi
N
σ2
=x
AS-132
Per vedere che A-1 è la matrice delle covarianze:
^
ak : funzione delle yi (i = 1, N) con varianza
2
σi .
(indipendenti )
Dalla legge di propagazione degli errori:
?aj
?a
k
^
^
.
.
cov (ak, aj) = ?1 k
?y
?yi
i
N
2
σi
Dato che yi indipendenti
?a1 2.
?yi
N
cov (a1, a1) = ? i
1
-1
-1
a1 = A11 . b1 + A12 b2
?a1
.
= A-1
11
?yi
1
2
σi
-1
+ A12 .
N
b1 = ? i
1
xi
2
σi
a2 = A21 . b1 + A22 . b2
?a2
?yi
.
= A-1
21
1
2
σi
-1
+ A22 .
N
b2 = ? i
1
-1
-1
2
σi
yi
2
σi
xi yi
2
σi
xi
2
σi
AS-133
Abbiamo dimostrato che:
y = y(x)
?y
2
σ y = var (y) ~ ? i ? j ?x i
?y
?x j
Vij(x)
se y è un vettore: y(x) = y1(x), y2(x) . . .
Si può dimostrare che:
cov(yl , ym) = Vl, m
~ ? i ? j ?yl
?x i
?ym
?x j
Vij(x)
AS-134
N
cov (a1, a1) = ? i
1
N
= ?i
1
=
=
N
?a1 2 2
σi = ? i
?yi
1
1
2
σi
-1
1
2
σi
-1
(A11 + A12 xi)2 =
-1 2
-1 -1
-1
2
(A11) + (A12)2 . xi +2A11A12 xi =
-1
-1
-1
-1 2
(A11)2 . s + (A12
) sxx + 2A11 A12 sx =
-1
-1
(A11)2 . A22
-1 .
2 A11
D+
. D + (A-1
)
12
vedi pagina precedente
-1
-1
-1 .
+ 2A11 A12
(-A12) . D =
-1
-1
-1
-1 .
= D{A11
[A11 . A22-1+ (A12)2 - 2(A12)2]} =
-1
-1 2
-1
= D{A11 [A-1
.
A
(A
11
22
12) } =
DET (A-1) =
-1
A11
1
D
Analogamente:
-1
cov (a2, a2) = A22
-1
cov (a1, a2) = A12
AS-135
Dipendenza degli errori su a1 e a2 dal N. misure
Assumiamo tutti i σi uguali
N
xi2
D = Sxx . S - (Sx)2 = ? i
1
=
=
2
σa 2 =
1
D
2
σa 1 =
1
D
N
?i
1
1
σ2
N
xi2
?i
1
σ2
=
=
σ2
σ
?i
4
1
N2
σ
2
2
(x2 - x2)
σ4
N
2
2
i
x
N
?i
-
σ2
-
xi
1
σ2
N2
N
σ
4
?i
2
xi
2
=
N
1
. (x2 - x2)
4
σ4
N
.
N
N2
N
N
(x2 - x2)
.
.
N
σ2
N
σ2
=
1
N
. x2 =
σ2
.
(x2 - x2)
1
N
.
2
σ2 x
(x2 - x2)
Gli errori sulla stima dei parametri diminuiscono
all'aumentare del N. dei punti misurati (a parità di
1
.
intervallo in x) come
N
AS-136
Se: tutte σi = σ
Cambio sistema di riferimento:
Σi xi
xo =
N
S=
Sy =
yo =
xi' = xi - xo
yi' = yi - yo
(ATT: b' ? b)
Sx = 0
1
Sxx = 2 Σix'i
σ
N
σ2
1
σ2
Σi yi
N
Σix'i = 0
Sxy = 12 Σixi' yi
σ
Σy i
D = S . Sxx
a=
1
.S.S =
xy
S . Sxx
Sxy
Sxx
Σix'i yi
=
Σix'i 2
b=
1
.S .S =
xx y
S . Sxx
Sy
S
Σiyi
N
1
σa2 = .
S Sxx
S =
1
Sxx
cov (a, b) = -
=
2
1
σb = .
S Sxx
2
1
σ
Sxx =
=
S
N
1
.S =0
x
S . Sxx
AS-137
TEST DI IPOTESI
Confronto di dati sperimentali con predizioni di un modello (o
più modelli) e accettazione del modello (o scelta fra più modelli).
DATI SPERIMENTALI ( estrazione di un campione)
STIMA DEI PARAMETRI DEL MODELLO
TEST DEL MODELLO / SCELTA FRA MODELLI
1
Date due ipotesi H0 e H1 stabilire quale delle due sia
statisticamente più accettabile sulla base dei dati.
2
Data una ipotesi H0 stabilire se è accettabile o no sulla
base dei dati sperimentali.
ESEMPIO:
Campione di monete buone + monete false
buone : peso x1
false: peso x2
Bilancia con errore gauss. (σ)
Una moneta
x
H0 : appartenente a N (x1, σ)
H1 : appartenente a N (x2, σ)
AS-138
H0
x1
H1
xL
x2
Si fissa a priori un valore xL
H0
vera se x = xL
-8 , xL
H1
vera se x > xL
xL, 8
Fissato xL :
α=
∫
β=
∫-8
8
xL
xL
(x - x2)2
1
e- ∫2σ2 dx Probabilità di rigettare H0,
anche se vera
2p σ
(x - x )2
2
1
e2σ2
2p σ
dx
Probabilità di accettare H1,
anche se falsa
α : significatività del test (100 . α = livello di significatività in %).
(confidence level)
1 - β : potenza del test (probabilità di rigettare ipotesi sbagliata).
AS-139
ES. H0 : grandezza fisica ha distribuzione gaussiana N (µo, σo)
Si accetta l'ipotesi H0 se x1 < x < x2
|x1| = |x2| = n σo
α= -1
∫
µo + nσo
µo - nσo
1
2p σο
(x - µ o)2
e- 2σ2 dx
o
In questo caso β non può essere definito
Più in generale, dato un certo test di ipotesi, si definisce:
Statistica di controllo: grandezza, funzione dei dati
sperimentali, sulla base della quale si effettua la
selezione di ipotesi.
Ipotesi accettate se: a = stat. controllo = b
La regione di accettanza (a, b) dovrà avere la
massima potenza di reiezione una volta fissata la
significatività del test.
AS-140
DISTRIBUZIONE DEL χ2 E TEST DEL χ2
Date n variabili gaussiane indipendenti xi(µi, σi),
la variabile:
n
2
(x
µ
)
i
i
χ2 = Σ i
2
σi
1
E' ancora una variabile casuale con:
fn (χ2) =
1
2n/2 Γ( n )
2
n -1
2) 2
e- χ 2 . (χ
2
Funzione Γ: Γ
n
2
n=1
n=2
Γ( 12 ) = p
Γ(1) = 1
n pari
Γ( n2 ) = ( n2 - 1)!
n dispari Γ( n2 ) = ( n2 - 1)( n2 - 2) ...
3
2
.
1
2
.p
n (N. di gradi di libertà) ≡ N. di variabili indipendenti
µ(χ2) = n
σ2(χ2) = 2n
Per n = 1
Per n = 2
f1
f2
diverge per χ2 → 0
0.5 per χ2 = 0
n grande tende alla gaussiana con stesso µ, σ.
AS-141
0,5
f(χ2)
n = 1, 2, 3, 4, 8
3 4
1 2
8
0
0
10
f(χ2)
χ2
n = 16,30
0,05
16
30
0
0
χ2
50
AS-142
TEST DI IPOTESI (statistica di controllo χ2)
Supponiamo di aver estratto un campione di dimensione N
dalla popolazione di una variabile casuale (continua) (cioè
aver fatto N misure di una grandezza fisica) e di voler
verificare se questa variabile segue una certa funzione di
distribuzione f(x) (ipotesi Ho).
.
r intervalli
Neventi
Neventi: N volte che si è
osservato il valore xi ± ∆x/2
0
{
xi
∆xχ
Generico intervallo i:
x
pi = f(xi)∆x
ni : N di eventi in i
r
Σ1 ni = N
ni avrà distribuzione binomiale con:
µi = N .pi
σ2i = N . pi . (1 . p i)
Dato che per N → ∞ la binomiale tende a gaussiana, potremo
dire che la variabile:
r
r
2
(ni - N pi)2
Σ
(n
µ
)
Σ
i
i
i
i
1
1
=
χ2 =
N pi . (1 - pi)
σ2i
r : N. di intervalli considerati
ha come funzione di distribuzione ~ fr-1 ( χ2)
AS-143
Segue la funzione di distribuzione del χ2 con r - 1 gradi di libertà
r
(r -1 dato che: Σ i n i = N; uno degli ni non è indipendente).
1
La variabile casuale:
χ2
sarà la "statistica di controllo"
µi = Npi
sarà il valore aspettato per l'iesimo intervallo.
(pi : probabilità, per la variabile casuale xi , di
trovarsi nell'intervallo i, calcolata sulla base
dell'ipotesi teorica f(x))
Detto µi il N. di eventi aspettati nell'intervallo i, la varianza
σ2i potrà essere ottenuta anche dalla distribuzione di Poisson;
σ2i = µi .
r
χ2 =
Σ1 i
(ni - µi)2
µi
Si fissa a priori il livello di significatività del test, α.
Fissato α, dato che f. di distribuzione della statistica di controllo
è nota, si ottiene χ2LIM .
∫χ28
fr-1 (χ2) dχ2 = α
r-1: n. di gradi di libertà
LIM
AS-144
Se χ2MIS =
χ2LIM
Ho accettata
χ2MIS >
χ2LIM
Ho rigettata
NOTA
Per r = nD >> 1 , f(χ2) → gaussiana.
Quindi la variabile y:
χ2 - nD
y=
2nD
sarà gaussiana con valore aspettato = 0 e varianza 1.
Migliore approssimazione (Fisher): y = 2 χ2 -
2nD - 1
NOTARE:
1) Test valido se variabile casuale ni è gaussiana (→ µi =~ 10).
2) Arbitrarietà del test: scelta ∆x istogramma.
3) Dato che la statistica di controllo opera sui quadrati, non
può evidenziare discrepanze sistematiche di segno.
AS-145
χ2 confidence level vs. χ2 for nD degrees of freedom
1.0
0.6
0.4
0.3
0.2
1
2
3
4 5 6
8 10
20
30 40 50 60 80 100
nD = 1
Confidence Level CL
0.1
0.06
0.04
0.03
0.02
0.01
0.006
0.004
0.003
0.002
0.001
For nD > 30,
1 ?8
2
CL&
exp - x
2
2p y
0.0006
0.0004
0.0003
0.0002
with y =
2χ2 -
dx
2nD - 1
0.0001
1
2
3
4 5 6
8 10
χ2 (or χ2 x 100 for
20
30 40 50 60 80 100
)
AS-146
4) Il test del χ2 potrà essere utilizzato per verificare fit con
minimi quadrati:
x1 y1 ± σ1
y = ax + b
x2 y2 ± σ2
.
.
.... .
.... .
distribzione gaussiana
Np punti misurati
χ2N
p- 2
Σi (yi - {axi + b})2
=
σ i2
se la mia ipotesi (y = ax + b)
è corretta
axi + b = µi :
a, b: stima con il metodo dei minimi quadrati
Il test di compatibilità di N istogrammi sperimentali della
stessa variabile casuale (grandezza fisica) di cui si ignora
funzione di distribuzione
N
r
χ2 = Σ1 j Σ1 i
(nij - p^i Nj)2
^
p N
i
j
r: N. di intervalli
nij: N. eventi, intervallo i istogramma j
nj: N. totale eventi, istogramma j
AS-147
N
^
pi =
nij
Σ1 j
(definzione frequenzistica di probabilità)
N
Σ1 j
Nj
N. di gradi di libertà: (N - 1) (r - 1)
infatti
N. di variabili indipendenti = (N . r - N )
N. di parametri stimati = (r - 1)
Nel caso di egual numero di eventi negli istogrammi
(2 istogrammi)
r
χ2 = Σ1 i
(ni1 - ni2)2
ni1 + ni2
(banale)
AS-148
ES. Errore sull'errore quadratico medio
N
Σ1 i (xi - x )2
N-1
s2 =
La variabile casuale:
Σi (xi - x )2
χ2 (N - 1)
σ2
(N - 1 in quanto la x introduce una correlazione fra le xi).
2
. χ2 (N - 1)
s2 = σ
N-1
u = χ2 (N - 1) = N - 1 . s2
σ2
E[u] µ (u) = N - 1
s2 = f( χ2 (N - 1)
E[(u - µ)2] = σ2 (u) = 2(N - 1)
σ2s2 =
?f
2
? χ2
σ2 2
N-1
2 . (N -1)
2
σs2
2
σ4
. σµ2 =
=
(N - 1)2
σs =
ds
ds2
2
=
2
σs2
=
1
2s
2 . σ4
(N - 1)
1
4 s2
. σ22
χ
=
2 . s4
N-1
2 s4
s2
=
N-1
2(N - 1)
AS-149
σs =
s
(errore sull'errore quadratico medio)
2 (N - 1)
Per l'errore sulla media:
s
sx =
N
L'errore sull'errore sulla media
=
s
:
N
σs x =
s
2 (N - 1)
AS-150