Qualità dell’adattamento di una funzione y=f(x)
ad un insieme di misure (y in funzione di x)
Date N misure di coppie di valori delle grandezze x e y, legate dalla relazione
y=f(x;A,B), nell’ipotesi che le incertezze sulle xi siano trascurabili e yi
abbiano funzione densità di probabilità Gaussiana con varianza s2y ,
i
possiamo determinare la miglior stima di A,B minimizzando la sommatoria:
 yi  f ( x; A, B ) 

   

s
i 1
y


N
2
i
2
 2
0
A
 2
0
B
A=A*
B=B*
Ci domandiamo ora:
Quanto è buono l’accordo tra la funzione determinata e i dati?
E’ valida l’ipotesi fatta? ( che y=f(x) sia la relazione sussistente tra x e y, che
le yi abbiano funzione densità di probabilità Gaussiana con varianza s2y )
i
Marta Calvi 2010
Lezione 8, pag. 1
Possiamo dare una risposta in termini probabilistici.
Per farlo dobbiamo guardare il valore che la variabile 2 assume dopo la
minimizzazione cioè il suo valore calcolato in corrispondenza dei parametri
che abbiamo determinato: A*,B*, e confrontarlo con il valore previsto per
il 2 nel caso in cui l’ipotesi sia valida.
Ci domandiamo allora:
qual è il valore atteso per 2 nel caso in cui l’adattamento sia “buono”?
Si tratta di una variabile casuale. Per rispondere devo conoscere qual è
la funzione densità di probabilità P(2) d2 che descrive la variabile 2 .
Marta Calvi 2010
Lezione 8, pag. 2
Funzione densità di probabilità per il 2
La definizione generale della grandezza 2 è la seguente:
Date d variabili casuali, indipendenti tra loro, ciascuna con funzione densità
di probabilità Gaussiana, con media mi e varianza s2i . La nuova variabile
casuale ( somma quadratica degli scarti standardizzati):
 xi  mi
2
   
si
i 1 
d



2
2 0
è detta “chi quadro” ed è caratterizzata da una specifica funzione densità di
probabilità che ha la seguente forma analitica:
P(  )d   d (  )
2
2
2
d
1
2
e

2
2
d 2
Il parametro d prende il nome di numero di gradi di libertà della distribuzione,
Kd è il coefficiente di normalizzazione, che dipende da d.
Marta Calvi 2010
Lezione 8, pag. 3
Proprietà della funzione:
Valore medio:
P(2)
 2    2 P(  2 )d 2  d

d =1
0
Varianza:

s 2   (  2  d ) 2 P(  2 )d 2  2d
d=2
2
0
d=3
d=5
Sono tante curve, una per
ciascun valore di d.
d =10
0
5
10
15
20
2
Per d grande (≈ 30) la funzione densità di probabilità del 2 è ben
approssimata da una funzione di Gauss con: X=d , s2=2d.
Marta Calvi 2010
Lezione 8, pag. 4
Il coefficiente Kd è definito dalla condizione di normalizzazione:

2
2
P
(

)
d

1

x  2/ 2
0

d
1
2 2
1    d ( )
e

2
2
d 2    d (2 x)
0
 d 2

d
1
2
e  x 2dx 
0
d 
2
 ( x)
0
d
1
2
d
2
d 
d
e dx  d 2 ( )
2
x
1
d
2
d
2 ( )
2

avendo introdotto la funzione Gamma:
( z )   x z 1e  x dx
0
La funzione Gamma è una generalizzazione dei fattoriali.
Per n intero: (n  1)  n!
Marta Calvi 2010
Lezione 8, pag. 5
Test del 2 come verifica di ipotesi
La distribuzione del 2 viene usata per valutare se i dati sperimentali
sostengono una determinata ipotesi.
Se le ipotesi fatte sono valide, per d variabili casuali indipendenti, il valore di
2 osservato (o2 ) dovrebbe essere vicino al valor medio atteso: o2 ≈ d.
Se invece si trova o2 >>d significa che almeno una delle ipotesi fatte non è
valida. Per rendere quantitativo il test, si utilizza l’integrale della funzione
densità di probabilità del 2 e si determinare la probabilità che sia 2 >o2 .
P(2)

2
2
2   2)
P
(

)
d

=
Probabilità(

o

o2
o2
L’integrale di P(2)d2 in intervalli definiti è calcolabile numericamente, si
può ottenere anche consultando opportune tabelle.
Marta Calvi 2010
Lezione 8, pag. 6
Integrali del 2 ridotto
Le tabelle si riferiscono ai valori del
“chi quadro ridotto” definito come:
~ 2 
2
d
con d numero di gradi di libertà.
Il valore medio atteso per il chi
quadro ridotto è:
~ 2 
2
d

d
1
d
Le funzioni d.d.p. del 2 sono tante,
una per ciascun valore di d, ma
~ 2 le tabelle possono essere
usando 
scritte in modo più compatto. Dalla
tabella si ricava il valore di:

Po 
~ 2 )d~ 2
P
(


~o 2
Marta Calvi 2010
Lezione 8, pag. 7
Test del 2 per l’adattamento di una funzione y=f(x) ad un
insieme di misure (x,y)
Date N misure di coppie di valori delle grandezze x e y, legate dalla relazione
y=A+Bx , nell’ipotesi che le incertezze sulle xi siano trascurabili, yi abbiano
funzione densità di probabilità Gaussiana con varianza s2y , possiamo
i
determinare la miglior stima di A,B minimizzando la sommatoria:
N
 
2
i 1
( yi  A  Bxi ) 2
s y2
i
I termini (yi – A* B*xi) rappresentano
le distanze dei punti misurati dalla retta
determinata. Sono detti residui.
Ci si aspetta che siano vicini a zero, circa
una sy
 2
0
A
 2
0
B
A*,B*
yA*B*x
0
x
i
Marta Calvi 2010
Lezione 8, pag. 8
Calcoliamo allora il valore del chi quadro in corrispondenza dei parametri
N
A* e B* trovati (chi quadro al minimo):
( yi  A *  B * xi ) 2
2
o  
2
2
s
i

1

y
2
i
~
o
e quello ridotto:  o  d
~ 2 1

ci aspettiamo che sia: o
Calcoliamo la probabilità di trovare un
~ 2  ~ 2 :
valore maggiore 
o
P(2)

Po 
~ 2 )d~ 2
P
(


~o2
o2
Fissato arbitrariamente un valore limite e (es. e = 5%)
se Po > e
 accettiamo l’ipotesi, l’accordo è buono
se Po < e
 rigettiamo l’ipotesi, l’accordo non è buono.
Marta Calvi 2010
Lezione 8, pag. 9
In questo caso il numero di gradi di libertà è: d = N –v, con N numero delle
misure e v numero dei parametri rispetto ai quali il 2 è stato minimizzato.
Se la funzione è una retta: y=A+Bx, allora v=2 e d = N  2.
Rigettare l’ipotesi significa negare una o più delle affermazioni originali:
- la funzione non è quella adatta a descrivere i dati
- gli scarti non sono di tipo gaussiano,
- i valori delle varianze non sono corretti (ad esempio sono sottostimati).
Marta Calvi 2010
Lezione 8, pag. 10
Esempio
Sono date tre misure di y in corrispondenza di tre valori della grandezza x. Le incertezze
sulle misure di x sono trascurabili, mentre le misure di y sono caratterizzate da funzioni
densità di probabilità Gaussiane con sy=0,2.
1) Supponendo che la relazione tra x e y sia di tipo lineare, determinare la miglior stima
dei parametri A e B che individuano la retta y=A+Bx.
2) Utilizzare il test del 2 per verificare la bontà dell’adattamento della funzione ai dati.
k
xk
yk
x2k
xk yk
fk =A+Bxk
(yk -fk )2/sy2
1
2
5,1
4
10,2
5,17
0,12
2
3
7,2
9
21,6
7,07
0,42
33
4
8,9
16
35,6
8,97
0,12
9
21,2
29
67,4

k 1
1) Con il metodo dei minimi quadrati determino:
0,66
A=1,370,44 B=1,900,14
2) Per la retta trovata calcolo 2 =0,66, d=3-2=1, con Probabilità ≈41%, l’accordo
è buono.
Marta Calvi 2010
Lezione 8, pag. 11
Adattamento di una retta ad un insieme di misure:
stima a posteriori delle incertezze
Se le incertezze sulle misure della grandezza y sono tutte uguali, abbiamo
visto che si possono calcolare i parametri A e B anche senza conoscerle a
priori. Infatti A e B non dipendono, in tal caso da sy. Tuttavia è necessario
conoscere sy se volgliamo calcolare sA, sB, sAB. Il problema si può
risolvere calcolando a posteriori le incertezze sy a partire dalla dispersione
osservata dei punti attorno la retta, cioè dai residui.
Procedimento:
1) Si assume valida l’ipotesi y= f(x) = A+Bx.
2) Si assume che gli errori siano di tipo gaussiano e tutti uguali sy sy
i
 Si calcola la miglior stima di A e B, pur senza conoscere il valore di sy
3) Si calcola il corrispondente valore osservato: o2.
4) Si impone o2 = N2 e si risolve l’equazione in funzione di sy
Marta Calvi 2010
Lezione 8, pag. 12
 yi  A *  B * xi
  

s yi
i 1 
N
2
2

  1
2

s
y

N
sy 
N
2
(
)
y

A
*

B
*
x
 N 2
 i
i
i 1
2
(
)
y

A
*

B
*
x
 i
i
yA*B*x
i 1
N 2
x
E’ importante notare che:
il test del 2 e il calcolo a posteriori delle incertezze sono in alternativa.
Se non si conoscono a priori le incertezze sulle yi NON si può effettuare il
test del 2. Per calcolare le incertezze a posteriori si impone 2= N2
quindi il valore del 2 non è più una incognita!
Marta Calvi 2010
Lezione 8, pag. 13
Compatibilità di un istogramma di misure con
una funzione
Dati N valori della grandezze x, abbiamo visto come costruire un istogramma
che le rappresenti. Ci domandiamo ora quale funzione densità di probabilità
rappresenti la distribuzione limite corrispondente a questo istogramma.
Se si tratta di misure ripetute della stessa grandezza, affette solo da errori
casuali, tale funzione dovrebbe essere una Gaussiana. Se si tratta di
conteggi attesi in un certo intervallo di tempo dovrebbe essere una funzione
di Poisson, ecc..
In ogni caso, fatta un’ipotesi su quale sia la funzione che descrive
l’istogramma delle misure si pongono due questioni:
1) Come determinare la miglior stima dei parametri a che individuano la
funzione adatta a descrivere l’istogramma?
2) Quanto buono è l’accordo fra la funzione così determinata e l’istogramma?
Marta Calvi 2010
Lezione 8, pag. 14
Dati N valori associati alla grandezza x: { xi }i 1, N suddivisi in
M intervalli
M
in ciascuno dei quali cadano Ok misure (frequenza assoluta):  Ok  N
k 1
Sia f(x;a) la funzione densità di probabilità attesa per la grandezza x, con
a =A,B,C… parametri. La probabilità di trovare una misura nel k–esimo
intervallo, di estremi (ak ,bk), è:
b
pk = Probabilit à (ak  x  bk ) 
k
 f ( x;a )dx
ak
Come vedremo successivamente, quando si effettuano N prove, se pk è la
probabilità di ottenere un successo in una prova, la probabilità di ottenere
n successi su N prove è data da una distribuzione Binomiale, che, in
questo caso( pk piccolo ma Npk grande) può essere approssimata con una
Gaussiana con valore medio Ek= N pk e varianza s2k= N pk . Allora:
Il numero medio di misure attese nell’intervallo k–esimo è: Ek= N pk
L’incertezza su tale valore è: s k  Npk
Marta Calvi 2010
Lezione 8, pag. 15
Allora posso scrivere la somma quadratica delle M variabili casuali
2
standardizzate:
2
M
M
 Ok  Npk
  

Npk
k 1 
2

   (Ok  Ek )

Ek
k 1

Possiamo ora rispondere alle domande che ci eravamo posti:
1) Come determinare la miglior stima dei parametri a che individuano la
funzione che descrive l’istogramma? Dovrò minimizzare l’espressione del
2 rispetto i parametri della funzione. Questa operazione si svolge
abitualmente numericamente, con opportuni programmi al calcolatore.
-2)Quanto buono è l’accordo fra una funzione determinata e l’istogramma?
Devo calcolare il valore di o2 che risulta usando i valori di Ek= N pk
corrispondenti alla funzione in questione, calcolare la probabilità:

Po 
2
2
P
(

)
d


e confrontarla con un valore e fissato a piacere.
 o2
Marta Calvi 2010
Lezione 8, pag. 16
se Po > e
se Po < e
l’accordo è buono (accetto l’ipotesi),
l’accordo non è buono (rigetto l’ipotesi).
In questo caso il numero di gradi di libertà è: d = M –v, con M numero degli
intervalli e v numero dei parametri che sono stati (eventualmente) ricavati dai
dati stessi.
Osservazione:
Ok
Nel k–esimo intervallo, in cui cadono
Ok misure, ne sono attese Ek=Npk.
indica la fluttuazione che
ci si aspetta sul numero di misure in
quell’intervallo.
Marta Calvi 2010
Lezione 8, pag. 17
d = numero di gradi di libertà: numero delle variabili casuali indipendenti
sommate.
Se sommo su N variabili casuali che non sono indipendenti perché legate
da v equazioni (es. compaiono v parametri ottenuti risolvendo v equazioni
che legano tra loro tali N variabili) allora d è uguale al numero di variabili
sommate diminuito del numero di vincoli: d = N – v.
Ad esempio, nel caso del confronto tra N misure con un valore atteso, se il
valore atteso non è un valore noto a priori, ma è ottenuto come media
delle stesse N misure, allora d = N – 1.
Marta Calvi 2010
Lezione 8, pag. 18