Corso di biomatematica lezione 6: la funzione c2 Davide Grandi Sommario •Covarianza e correlazione •Distribuzione del c2: •Definizione •Gradi di libertà e c2ridotto •Tabelle •Distribuzione t di student •Distribuzione F di Fisher Covarianza e correlazione • Propagazione degli errori Richiamiamo la formula generale della propagazione degli errori:  y    y  x    y    .........   x     z 2    z   2 E ricordiamo che per un insieme di N misure la deviazione standard sarà (con N grande)  x  x  2 N   i 1 i N Davide Grandi - Dottorato in Biologia Covarianza e correlazione • Propagazione degli errori Sia ora q=q(x,y) e supponiamo che tutti gli (x1,y1), (x2,y2), ……. (xN,yN), siano noti con sufficiente accuratezza, per cui potremo scrivere: q q    q  q x , y   q  x , y   x  x   y  y  y x Da cui   q  q 1 1   q  q  x , y    q   q  x , y   x  x  y  y  y  N N x  ovvero q q  x  x  y  y  y   0 x i i i i N i N i i 1 i i i 1 i Davide Grandi - Dottorato in Biologia i Covarianza e correlazione • Propagazione degli errori Scrivendo la deviazione standard di q abbiamo:  q   q   q  q    1   1    q    N  x  x     N   y  y   2    x   y   x  y         2 2 2 2 2 i i Dove abbiamo l’ultimo termine che è:  xy  1 N   y  y  x  x  i i E vale dunque  q 2  q    x      2  q 2    x  y      2  2 y  q   2  x  Davide Grandi - Dottorato in Biologia  q   y     xy  xy Covarianza e correlazione • Propagazione degli errori Se dunque le misure di x e y sono assolutamente indipendenti, l’equazione della deviazione standard diventa:  q 2  q    x      2  q 2    x  y      2  2 y Per cui è nullo il termine  xy  1 N   y  y  x  x  i i Detto covarianza che misura la correlazione tra le misure di x e y supposte in partenza indipendenti Davide Grandi - Dottorato in Biologia Covarianza e correlazione • Correlazione lineare Data una distribuzione di misure (x1,y1), (x2,y2), ……. (xN,yN), è possibile stabilire se tra le variabili sussiste una relazione del tipo y=a+bx tramite il coefficiente di correlazione lineare dato da:  r   xy x Ovvero y r     xi  x yi  y      xi  x  yi  y 2  2 Che nel caso di dipendenza lineare vale 1 Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Data una distribuzione normale standardizzata, una volta noti m e  ovvero la relazione Z=(x – m)/, ci permette di stabilire la probabilità di trovare valori esterni o interni ad un determinato intervallo (vedi esempio pesci) . Da questo legame con distribuzione di probabilità normale o gaussiana e distribuzioni di dati posso ricavare altre distribuzioni campionare utili per l’inferenza statistica Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Date n variabili casuali indipendenti normalmente distribuite, con media m=0 e  =1 Il c2 è dato dalla somma dei loro quadrati. Si può rappresentare mediante la formula: cn   2 n k 1 x  m  2 k  2 n   zk 2 k 1 Dove n sono le osservazioni indipendenti effettuate (il c2 gode della proprietà additiva..) Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Il c2 si può anche rappresentare mediante la formula:  E  O c  2 2 n k k k 1 E k Dove gli Ok sono i valori osservati di una determinata misura e gli Ek sono i rispettivi valori attesi (supponendo che le misure vadano a distribuirsi secondo una gaussiana…) Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Il c2 infine per una distribuzione continua sarà: y  f x  2 c  2 n k 1 k  k k Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i gradi di libertà Il c2 in realtà dipenderà dai gradi di libertà (o numero di osservazioni indipendenti) che sto effettuando. Questo c2 chiamato c2 ridotto e che indichiamo con c2 è legato al c2 con un solo grado di libertà secondo la formula c2 =c2/d con d numero di gradi di libertà. Ad esempio avremo dunque y  f x  2 c 2 1 n   d k 1 k  k k c 2  Davide Grandi - Dottorato in Biologia n 1  d k 1 x  m  2 k  k La distribuzione del c2 • Il c2 ed la probabilità Assumendo che le mie misure siano governate dalla distribuzione di probabilità attesa, posso utilizzare il il c2 infine per determinare se il risultato atteso è o meno probabile (e il livello di probabilità). Infatti (vedi figura) ad ogni valore di c2 (ad esempio c2 =k) corrisponde una probabilità di ottenere valori di c2 maggiori, se questo è un numero grande (starò quindi in una regione in cui ho molta probabilità che il c2 calcolato vada a finire), la nostra distribuzione segue quella attesa, altrimenti se è molto piccolo è probabile che debba rigettare la distribuzione attesa. Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i gradi di libertà Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i gradi di libertà Spieghiamoci meglio: data c2 =k e P (c2 >k) = n% Se ad esempio ho ottenuto con 1 grado di libertà c2 =1.80 e P (c2 >1.80) = 18% Non posso rigettare la distribuzione attesa, mentre se ho c2 =6 e P (c2 >6) = 1% Con l’1% di errore rigetto la mia distribuzione attesa Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i la significatività statistica Resta da stabilire il livello di significatività in corrispondenza ad esempio di un determinato valore di c2 (test statistici). Si è stabilito per convenzione internazionale che un livello di soglia delle probabilità pari a P<0.05 (5%) P<0.01 (1%) P<0.001 (0.1%) è statisticamente significativo è molto significativo è altamente significativo Davide Grandi - Dottorato in Biologia La distribuzione del c2 Davide Grandi - Dottorato in Biologia Altre distribuzioni • t di Student Altra distribuzione campionaria utile per l’inferenza statistica, viene applicata a campioni di piccole dimensioni. Se una distribuzione segue la legge normale standardizzata è possibile 2ricavarne la varianza campionaria t di Student: t 2  Z c n 2 dato Z=(x – m)/ e c2 inoltre n è il numero di gradi di libertà corrispondente a N–1 (N numero di misure) Davide Grandi - Dottorato in Biologia t  x m  n Altre distribuzioni • F di Fisher Questa distribuzione campionaria corrisponde al rapporto di due variabili casuali c2 –indipendenti (A e B) divise per i rispettivi gradi di libertà (m ed n): A m F  B n È una generalizzazione della t di Student e vale: t 2 (n )  F (1,n ) t (n )  F (1,n ) Ovvero il quadrato della t è una F con gradi di libertà 1 e n Davide Grandi - Dottorato in Biologia