Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi Materiale del corso: http://telethon.bio.unipd.it/bioinfo/Didattica_2006/HomeStatBioinfo.html V ESERCITAZIONE Seconda parte: Analisi di dati sperimentali (misure di luminescenza) sull'efficienza di diversi costrutti nell'attivazione dell' espressione di un gene reporter in una linea cellulare: ANOVA PER CONFRONTI MULTIPLI. Metodi: Statistiche descrittive, ANOVA Programmi: EXCEL e SPSS. Uno dei metodi sperimentali per lo studio dell’attivita’ di un promotore genico e’ quello delle delezioni progressive. A partire dalla sequenza del promotore si isolano delle regioni di dimensioni diverse e ciascuna di queste sequenze viene clonata in un vettore d’espressione e in uno specifico tipo cellulare, con lo scopo di saggiarne l’attivita’. Se il gene reporter e’ quello per la luciferasi il livello d’espressione viene misurato attraverso la rilevazione dell’intensita’ di luminescenza di un campione di cellule lisate. Dall’intensita’ di luminescenza osservata si cerca cioe’ di risalire al numero di molecole di luciferasi nel campione. Per fare cio’ e’ necessario normalizzare l’intensita’ di luminescenza osservata con quella di un campione di riferimento contenente una quantita’ nota di luciferasi. Inoltre, una volta stimata la quantita’ di luciferasi di ciascun campione, e’ necessario normalizzarla rispetto al numero originale di cellule in esso contenute, per avere un stima dell’attivita’ trascrizionale di ciascun costrutto. Si usa come riferimento la quantita’ totale di proteine del campione, proporzionale al numero di cellule contenute. Questa viene misurata rilevando l’assorbanza allo spettrofotometro alla lunghezza d’onda di 595 nm, dopo lisi cellulare e trattamento con un reagente specifico. Il dato finale e’ quindi espresso come pico grammi di luciferasi per microgrammi di proteine cellulari. Generalmente lo schema sperimentale prevede diverse repliche per ciascun campione. DATI 4 diversi costrutti ottenuti per delezioni progressive (-400/-1, -300/-1, -200/-1, -100/-1) di DNA clonati in associazione con un gene reporter (codificante per la luciferasi) in cellule di mammifero. Per ciascun costrutto, 6 duplicati (24 campioni) e relative misure di luminescenza ottenute al luminometro . Per ciascun campione, stima del contenuto in proteine come assorbanza allo spettrofotometro a lunghezza d’onda 595 nm. Una misura di riferimento della luminescenza di una quantita’ nota di luciferasi (100 pg). 1 Scaricare il file di excel con la tabella originale contenete i dati sperimentali; campione di riferimento -400/-1 -400/-1 -300/-1 -300/-1 -200/-1 -200/-1 -100/-1 -100/-1 lum * 100 intensita' di micro intensita' di micro intensita' di micro intensita' di micro pg luminescenza grammi luminescenza grammi luminescenza grammi luminescenza grammi (LC) proteine (LC) proteine (LC) proteine (LC) proteine cellulari cellulari cellulari cellulari (CP) (CP) (CP) (CP) 1055 200 260 210 230 225 216 5,0 8,0 6,0 6,0 5,5 6,1 400 531 387 423 386 509 7,1 9,0 7,0 7,3 7,3 8,9 376 405 430 461 395 345 8,0 6,5 7,9 8,0 6,3 5,5 18 10 20 13 35 21 6,0 8,0 6,0 5,1 10,5 6,1 Utilizzando Excel: 2 Normalizzare l’intensita’ di luminescenza di ciascun campione (LC) rispetto al campione di riferimento (LR): LN = (LC / LR) * 100 pg Si ottiene una misura in picogrammi. 3 Normalizzare poi la quantita’ di luciferasi di ciascun campione (LN) rispetto al contenuto proteico (CP): LNN = LN / CP Si ottiene una misura dell’attivita’ trascrizionale (LNN) espressa in picogrammi luciferasi su microgrammi proteine cellulari. 4 Ottenuti sei valori di LNN per ciascuno dei quattro campioni, calcolare la media campionaria e la deviazione standard () per ciascun costrutto; 5 Display grafico dei dati con un istogramma con intervallo di confidenza al 95% (media 1.96 N ) 6 Interpretazione descrittiva dei risultati. 7 Preparare il file per SPSS. Utilizzando SPSS: 8 Cut and paste dei dati preparati al punto 7; 9 Controllo dei calcoli precedenti attraverso l’opzione”statistiche descrittive”; 10 ANOVA con il post hoc (statistiche descrittive, test di omogeneita’ delle varianze, ANOVA univariata e test post hoc LSD e Tamhane) 11 12 Interpretazione dei risultati. - Le varianze sono omogenee? - Le differenze osservate tra le medie dei campioni sono significative? - Quale test post hoc e’ applicabile? - Quali sono le medie che differiscono significativamente dalle altre? CONSEGNARE UNA RELAZIONE CONTENENTE: - Riassunto dei contenuti dell’esercitazione (massimo 150 parole). - Risposte ai punti in grassetto. VADEMECUM Analisi della varianza (ANOVA) Il metodo ANOVA permette di investigare l’effetto della variazione dei fattori sulla variabilità dei risultati sperimentali del sistema sotto osservazione, determinando quale variazione è imputabile ai fattori stessi e quale ad effetti casuali. Per ogni “trattamento” si devono eseguire alcune repliche, in modo da poter avere una stima della variabilità del trattamento. Quando il numero di misure replicate è uguale per tutti i trattamenti si ha un esperimento bilanciato (balanced experiment) altrimenti si ha un esperimento sbilanciato (unbalanced experiment). Per effettuare un’analisi one-way ANOVA ci sono due condizioni che debbono essere rispettate: a) le osservazioni per ogni trattamento devono essere distribuite normalmente, b) la varianza globale deve essere costante. Il metodo ANOVA, come il metodo del t di Student, si propone di verificare l’ipotesi nulla, cioè che non ci siano differenze dovute ai trattamenti, sul risultato dell’analisi ovvero, in altre parole, che le differenze osservate siano dovute a fluttuazione casuali. Per effettuare l’analisi si testa l’ipotesi nulla, considerando che la varianza dei dati può esser distribuita in due parti: tra le medie dei trattamenti, nei trattamenti. Si confrontano quindi le varianze con un test F, per verificarne l’uguaglianza. I gradi di libertà totali associati all’analisi sono pari a: I gradi di libertà “between-treatment” sono: I gradi di libertà dell’errore residuo sono: In conclusione si ottiene una tabella come la seguente: Source of variation Between-treatment Residual error Total d.f. k-1 N-k N-1 Sum of Square SA SR Mean of Square SA/(k-1) SR/(N-k) A questo punto abbiamo due valori di varianza da confrontare: si può dire subito che se la varianza dovuta ai trattamenti è molto superiore all’errore residuo, ci sono poche speranze che l’ipotesi nulla possa essere accettata. In generale, per confrontare tra loro le varianze si opera un test-F, facendo il rapporto tra la varianza between-treatment e quella dei residui. Si utilizza la distribuzione ad una coda riferendosi ai gradi di libertà per entrambi i fattori calcolati in precedenza. In sintesi, il test ANOVA ci dice SE vi sono delle differenze significative tra diversi campioni nel gruppo dei campioni considerati. Comparazione multipla tra i trattamenti (post-hoc). Una volta eseguito il test ANOVA ed evidenziata la presenza di disuguaglianze tra i trattamenti, è interessante andare a vedere quali differenze sussistono tra i vari livelli, cioè quali trattamenti sono significativamente diversi dagli altri e quali no. Esistono diversi test che ci aiutano nell’interpretare le k(k-1)/2 combinazioni possibili tre i k trattamenti. La comparazioni sono definite post-hoc, cioè esplorano i dati per scoprire differenze significative, senza limitare l’analisi formulando alcuna teoria a priori. I test post hoc sono concepiti per evitare che il grande numero di confronti necessari comporti un aumento dell’incertezza con la quale si può affermare che l’ipotesi nulla è verificata o meno. Fisher last significance difference (LSD) Confronta tutte le medie, ma va impiegato solamente dopo che il test F dell’ANOVA ha indicato l’effettiva presenza di trattamenti diversi. Può essere impiegato anche nel caso che i trattamenti abbiamo un numero di campioni diversi. E’ il test meno conservativo. Tamhane test Adatto per fare tutti i confronti multipli quando le varianze non sono uguali.