Corso di biomatematica lezione 6:
la funzione c2
Davide Grandi
Sommario
•Covarianza e correlazione
•Distribuzione del c2:
•Definizione
•Gradi di libertà e c2ridotto
•Tabelle
•Distribuzione t di student
•Distribuzione F di Fisher
Covarianza e correlazione
• Propagazione degli errori
Richiamiamo la formula generale della propagazione degli
errori:
 y


 y  x


 y



.........

 x 


 z
2


 z 

2
E ricordiamo che per un insieme di N misure la deviazione
standard sarà (con N grande)
 x  x 
2
N


i 1
i
N
Davide Grandi - Dottorato in Biologia
Covarianza e correlazione
• Propagazione degli errori
Sia ora q=q(x,y) e supponiamo che tutti gli (x1,y1), (x2,y2),
……. (xN,yN), siano noti con sufficiente accuratezza, per cui
potremo scrivere:
q
q 


q  q x , y   q  x , y   x  x   y  y 
y
x
Da cui


q

q
1
1


q  q  x , y    q   q  x , y   x  x  y  y  y 
N
N
x

ovvero
q
q 
x  x  y  y  y   0
x
i
i
i
i
N
i
N
i
i 1
i
i
i 1
i
Davide Grandi - Dottorato in Biologia
i
Covarianza e correlazione
• Propagazione degli errori
Scrivendo la deviazione standard di q abbiamo:
 q 
 q 
 q  q 

 1

 1


 q    N  x  x     N   y  y   2  
 x 
 y 
 x  y 







2
2
2
2
2
i
i
Dove abbiamo l’ultimo termine che è:
 xy 
1
N
  y  y  x  x 
i
i
E vale dunque
 q
2
 q  
 x





2
 q
2


 x  y





2

2
y
 q

 2
 x

Davide Grandi - Dottorato in Biologia
 q


y



 xy

xy
Covarianza e correlazione
• Propagazione degli errori
Se dunque le misure di x e y sono assolutamente
indipendenti, l’equazione della deviazione standard diventa:
 q
2
 q  
 x





2
 q
2


 x  y





2

2
y
Per cui è nullo il termine
 xy 
1
N
  y  y  x  x 
i
i
Detto covarianza che misura la correlazione tra le misure di
x e y supposte in partenza indipendenti
Davide Grandi - Dottorato in Biologia
Covarianza e correlazione
• Correlazione lineare
Data una distribuzione di misure
(x1,y1), (x2,y2), ……. (xN,yN), è possibile stabilire se tra le
variabili sussiste una relazione del tipo y=a+bx tramite il
coefficiente di correlazione lineare dato da:

r


xy
x
Ovvero
y
r



 xi  x yi  y

 

 xi  x  yi  y
2

2
Che nel caso di dipendenza lineare vale 1
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
• La funzione del c2
Data una distribuzione normale standardizzata, una volta
noti m e  ovvero la relazione Z=(x – m)/, ci permette di
stabilire la probabilità di trovare valori esterni o interni ad
un determinato intervallo (vedi esempio pesci) .
Da questo legame con distribuzione di probabilità normale o
gaussiana e distribuzioni di dati posso ricavare altre
distribuzioni campionare utili per l’inferenza statistica
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
• La funzione del c2
Date n variabili casuali indipendenti normalmente
distribuite, con media m=0 e  =1
Il c2 è dato dalla somma dei loro quadrati.
Si può rappresentare mediante la formula:
cn  
2
n
k 1
x  m 
2
k

2
n
  zk
2
k 1
Dove n sono le osservazioni indipendenti effettuate (il c2
gode della proprietà additiva..)
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
• La funzione del c2
Il c2 si può anche rappresentare mediante la formula:

E 
O
c 
2
2
n
k
k
k 1
E
k
Dove gli Ok sono i valori osservati di una determinata
misura e gli Ek sono i rispettivi valori attesi (supponendo che
le misure vadano a distribuirsi secondo una gaussiana…)
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
• La funzione del c2
Il c2 infine per una distribuzione continua sarà:
y  f x 
2
c 
2
n
k 1
k

k
k
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
• Il c2 ed i gradi di libertà
Il c2 in realtà dipenderà dai gradi di libertà (o numero di
osservazioni indipendenti) che sto effettuando. Questo c2
chiamato c2 ridotto e che indichiamo con c2 è legato al c2
con un solo grado di libertà secondo la formula
c2 =c2/d con d numero di gradi di libertà.
Ad esempio avremo dunque
y  f x 
2
c
2
1 n
 
d k 1
k

k
k
c
2

Davide Grandi - Dottorato in Biologia
n
1

d k 1
x  m 
2
k

k
La distribuzione del c2
• Il c2 ed la probabilità
Assumendo che le mie misure siano governate dalla
distribuzione di probabilità attesa, posso utilizzare il il c2
infine per determinare se il risultato atteso è o meno
probabile (e il livello di probabilità).
Infatti (vedi figura) ad ogni valore di c2 (ad esempio c2 =k)
corrisponde una probabilità di ottenere valori di c2
maggiori, se questo è un numero grande (starò quindi in una
regione in cui ho molta probabilità che il c2 calcolato vada a
finire), la nostra distribuzione segue quella attesa, altrimenti
se è molto piccolo è probabile che debba rigettare la
distribuzione attesa.
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
•
Il c2 ed i gradi di libertà
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
• Il c2 ed i gradi di libertà
Spieghiamoci meglio:
data
c2 =k e
P (c2 >k) = n%
Se ad esempio ho ottenuto con 1 grado di libertà
c2 =1.80 e
P (c2 >1.80) = 18%
Non posso rigettare la distribuzione attesa, mentre se ho
c2 =6 e
P (c2 >6) = 1%
Con l’1% di errore rigetto la mia distribuzione attesa
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
• Il c2 ed i la significatività statistica
Resta da stabilire il livello di significatività in corrispondenza
ad esempio di un determinato valore di c2 (test statistici).
Si è stabilito per convenzione internazionale che un livello di
soglia delle probabilità pari a
P<0.05 (5%)
P<0.01 (1%)
P<0.001 (0.1%)
è statisticamente significativo
è molto significativo
è altamente significativo
Davide Grandi - Dottorato in Biologia
La distribuzione del c2
Davide Grandi - Dottorato in Biologia
Altre distribuzioni
• t di Student
Altra distribuzione campionaria utile per l’inferenza
statistica, viene applicata a campioni di piccole dimensioni.
Se una distribuzione segue la legge normale standardizzata è
possibile 2ricavarne la varianza campionaria t di Student:
t
2

Z
c n
2
dato Z=(x – m)/ e c2 inoltre
n è il numero di gradi di libertà
corrispondente a N–1
(N numero di misure)
Davide Grandi - Dottorato in Biologia
t

x m
 n
Altre distribuzioni
• F di Fisher
Questa distribuzione campionaria corrisponde al rapporto di
due variabili casuali c2 –indipendenti (A e B) divise per i
rispettivi gradi di libertà (m ed n):
A
m
F 
B n
È una generalizzazione della t di Student e vale:
t
2
(n )
 F (1,n )
t
(n )

F
(1,n )
Ovvero il quadrato della t è una F con gradi di libertà 1 e n
Davide Grandi - Dottorato in Biologia