Corso di biomatematica lezione 6: la funzione c2 Davide Grandi Sommario •Covarianza e correlazione •Distribuzione del c2: •Definizione •Gradi di libertà e c2ridotto •Tabelle •Distribuzione t di student •Distribuzione F di Fisher Covarianza e correlazione • Propagazione degli errori Richiamiamo la formula generale della propagazione degli errori: y y x y ......... x z 2 z 2 E ricordiamo che per un insieme di N misure la deviazione standard sarà (con N grande) x x 2 N i 1 i N Davide Grandi - Dottorato in Biologia Covarianza e correlazione • Propagazione degli errori Sia ora q=q(x,y) e supponiamo che tutti gli (x1,y1), (x2,y2), ……. (xN,yN), siano noti con sufficiente accuratezza, per cui potremo scrivere: q q q q x , y q x , y x x y y y x Da cui q q 1 1 q q x , y q q x , y x x y y y N N x ovvero q q x x y y y 0 x i i i i N i N i i 1 i i i 1 i Davide Grandi - Dottorato in Biologia i Covarianza e correlazione • Propagazione degli errori Scrivendo la deviazione standard di q abbiamo: q q q q 1 1 q N x x N y y 2 x y x y 2 2 2 2 2 i i Dove abbiamo l’ultimo termine che è: xy 1 N y y x x i i E vale dunque q 2 q x 2 q 2 x y 2 2 y q 2 x Davide Grandi - Dottorato in Biologia q y xy xy Covarianza e correlazione • Propagazione degli errori Se dunque le misure di x e y sono assolutamente indipendenti, l’equazione della deviazione standard diventa: q 2 q x 2 q 2 x y 2 2 y Per cui è nullo il termine xy 1 N y y x x i i Detto covarianza che misura la correlazione tra le misure di x e y supposte in partenza indipendenti Davide Grandi - Dottorato in Biologia Covarianza e correlazione • Correlazione lineare Data una distribuzione di misure (x1,y1), (x2,y2), ……. (xN,yN), è possibile stabilire se tra le variabili sussiste una relazione del tipo y=a+bx tramite il coefficiente di correlazione lineare dato da: r xy x Ovvero y r xi x yi y xi x yi y 2 2 Che nel caso di dipendenza lineare vale 1 Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Data una distribuzione normale standardizzata, una volta noti m e ovvero la relazione Z=(x – m)/, ci permette di stabilire la probabilità di trovare valori esterni o interni ad un determinato intervallo (vedi esempio pesci) . Da questo legame con distribuzione di probabilità normale o gaussiana e distribuzioni di dati posso ricavare altre distribuzioni campionare utili per l’inferenza statistica Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Date n variabili casuali indipendenti normalmente distribuite, con media m=0 e =1 Il c2 è dato dalla somma dei loro quadrati. Si può rappresentare mediante la formula: cn 2 n k 1 x m 2 k 2 n zk 2 k 1 Dove n sono le osservazioni indipendenti effettuate (il c2 gode della proprietà additiva..) Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Il c2 si può anche rappresentare mediante la formula: E O c 2 2 n k k k 1 E k Dove gli Ok sono i valori osservati di una determinata misura e gli Ek sono i rispettivi valori attesi (supponendo che le misure vadano a distribuirsi secondo una gaussiana…) Davide Grandi - Dottorato in Biologia La distribuzione del c2 • La funzione del c2 Il c2 infine per una distribuzione continua sarà: y f x 2 c 2 n k 1 k k k Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i gradi di libertà Il c2 in realtà dipenderà dai gradi di libertà (o numero di osservazioni indipendenti) che sto effettuando. Questo c2 chiamato c2 ridotto e che indichiamo con c2 è legato al c2 con un solo grado di libertà secondo la formula c2 =c2/d con d numero di gradi di libertà. Ad esempio avremo dunque y f x 2 c 2 1 n d k 1 k k k c 2 Davide Grandi - Dottorato in Biologia n 1 d k 1 x m 2 k k La distribuzione del c2 • Il c2 ed la probabilità Assumendo che le mie misure siano governate dalla distribuzione di probabilità attesa, posso utilizzare il il c2 infine per determinare se il risultato atteso è o meno probabile (e il livello di probabilità). Infatti (vedi figura) ad ogni valore di c2 (ad esempio c2 =k) corrisponde una probabilità di ottenere valori di c2 maggiori, se questo è un numero grande (starò quindi in una regione in cui ho molta probabilità che il c2 calcolato vada a finire), la nostra distribuzione segue quella attesa, altrimenti se è molto piccolo è probabile che debba rigettare la distribuzione attesa. Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i gradi di libertà Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i gradi di libertà Spieghiamoci meglio: data c2 =k e P (c2 >k) = n% Se ad esempio ho ottenuto con 1 grado di libertà c2 =1.80 e P (c2 >1.80) = 18% Non posso rigettare la distribuzione attesa, mentre se ho c2 =6 e P (c2 >6) = 1% Con l’1% di errore rigetto la mia distribuzione attesa Davide Grandi - Dottorato in Biologia La distribuzione del c2 • Il c2 ed i la significatività statistica Resta da stabilire il livello di significatività in corrispondenza ad esempio di un determinato valore di c2 (test statistici). Si è stabilito per convenzione internazionale che un livello di soglia delle probabilità pari a P<0.05 (5%) P<0.01 (1%) P<0.001 (0.1%) è statisticamente significativo è molto significativo è altamente significativo Davide Grandi - Dottorato in Biologia La distribuzione del c2 Davide Grandi - Dottorato in Biologia Altre distribuzioni • t di Student Altra distribuzione campionaria utile per l’inferenza statistica, viene applicata a campioni di piccole dimensioni. Se una distribuzione segue la legge normale standardizzata è possibile 2ricavarne la varianza campionaria t di Student: t 2 Z c n 2 dato Z=(x – m)/ e c2 inoltre n è il numero di gradi di libertà corrispondente a N–1 (N numero di misure) Davide Grandi - Dottorato in Biologia t x m n Altre distribuzioni • F di Fisher Questa distribuzione campionaria corrisponde al rapporto di due variabili casuali c2 –indipendenti (A e B) divise per i rispettivi gradi di libertà (m ed n): A m F B n È una generalizzazione della t di Student e vale: t 2 (n ) F (1,n ) t (n ) F (1,n ) Ovvero il quadrato della t è una F con gradi di libertà 1 e n Davide Grandi - Dottorato in Biologia