Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B) Docente: Dr. Stefania Bortoluzzi Materiale del corso: http://telethon.bio.unipd.it/bioinfo/Didattica_2006/HomeStatBioinfo.html III ESERCITAZIONE Analisi di dati sperimentali sull'efficacia dell'applicazione di lenti intraoculari in silicone o hydrogel dopo un'operazione della cataratta: STATISTICHE DESCRITTIVE, TEST T PER IL CONFRONTO DELLE MEDIE DI CAMPIONI INDIPENDENTI. Metodi: Statistiche descrittive, test t. Programmi: EXCEL e SPSS. In seguito all’operazione chirurgica per la rimozione della cataratta la migrazione di cellule epiteliali del cristallino provoca frequentemente la deposizione di un “post-cataratta”, che puo’ essere di differente entita’, con conseguenze piu’ o meno pesanti per la vista. Per la prevenzione di questo fenomeno, durante l’operazione vengono impiantate delle lenti intraoculari, che possono essere di materiali diversi. Uno studio ha comparato l’efficacia di lenti in silicone con quella di lenti di hydrogel, in modo che ne’ il paziente ne’ il medico esaminatore conoscessero le caratteristiche del trattamento, su un campione di 50 pazienti . L’entita’ del “post-cataratta” dopo due anni viene quantificata su una scala da 0 a 10. Una volta ottenuti i risultati e’ necessario analizzarli da un punto di vista statistico per cercare di descrivere i dati e capire se vi sono differenze tra i campioni, cioe’ capire se un materiale risulta significativamente migliore dell’altro. DATI 50 pazienti anziani con cataratta, dopo operazione, di cui: 25 pazienti con lenti in hydrogel; 25 pazienti con lenti in silicone; Dopo due anni: 22 pazienti con lenti in hydrogel; 18 pazienti con lenti in silicone; 10 pazienti deceduti; per ciascun paziente viene misurata l’entita’del “post cataratta” (scala da 0 a 10). 1 Scaricare il file di excel con la tabella originale contenete i dati in forma grezza; PAZIENTE TRATTAMENTO GRADO POST-CATARATTA paz1 silicone 2 paz2 hydrogel 3 paz3 hydrogel 5 paz4 hydrogel 6 paz5 silicone 1 paz6 silicone 4 paz7 silicone 2 paz8 silicone 3 paz9 hydrogel 4 paz10 silicone 5 paz11 hydrogel 8 paz12 deceduto paz13 hydrogel 2 paz14 hydrogel 7 paz15 silicone 2 paz16 silicone 2 paz17 silicone 1 paz18 hydrogel 5 paz19 hydrogel 6 paz20 hydrogel 4 paz21 hydrogel 3 paz22 silicone 4 paz23 hydrogel 2 paz24 hydrogel 6 paz25 hydrogel 3 paz26 hydrogel 4 paz27 hydrogel 5 paz28 deceduto paz29 silicone 3 paz30 hydrogel 8 paz31 hydrogel 9 paz32 hydrogel 4 paz33 deceduto paz34 silicone 4 paz35 silicone 3 paz36 deceduto paz37 deceduto paz38 deceduto paz39 silicone 6 paz40 silicone 2 paz41 deceduto paz42 silicone 2 paz43 deceduto paz44 deceduto paz45 hydrogel 4 paz46 deceduto paz47 hydrogel 3 paz48 silicone 2 paz49 hydrogel 5 paz50 silicone 4 Utilizzando Excel: 2 Schematizzare i dati in forma utile alle analisi seguenti, divisione in due campioni.; 3 Calcolare la media campionaria dei valori “post-cataratta” per ciascun campione; 4 Calcolare la mediana e della moda dei valori “post-cataratta” per ciascun campione; 5 Calcolare la deviazione standard dei valori “post-cataratta” per ciascun campione ed utilizzare la media a la deviazione standard per devifinire un intervallo di confidenza al’80% 6 Display grafico dei dati con un istogramma; 7 Interpretazione descrittiva dei risultati. Quale materiale sembra migliore in base ai dati di questo studio ? 8 Preparare il file per SPSS, ovvero con due colonne, una contenente le etichette dei dati (1 per “silicone” o 2 per “hydrogel”) e l’altra contenente i dati: 1 2 1 2 1 3 ... ... 2 1 2 1 ... ... Utilizzando SPSS: 9 Cut and paste dei dati preparati al punto 8; 10 Controllo dei calcoli precedenti attraverso l’opzione”statistiche descrittive”; 11 Test T per il confronto delle medie di campioni indipendenti; 12 Interpretazione dei risultati. La differenza osservata tra le medie dei due campioni e’ significativa ? 13 CONSEGNARE UNA RELAZIONE CONTENENTE: - Riassunto dei contenuti dell’esercitazione (massimo 150 parole). - Risposte ai punti in grassetto. VADEMECUM: Media (media aritmetica, average): la media campionaria permette di stimare la vera media della e’ data da: popolazione. La media campionaria di un set di osservazioni Moda (mode): il valore osservato con maggiore frequenza in un campione. Mediana (median): la mediana di una distribuzione con probabilita’ D(x) e’ il valore di x per cui D(x)=1/2. Per una distribuzione simmetrica e’ il valore al centro della distribuzione. Deviazione standard: e’ una misura che indica quanto i valori si discostino dal valore medio. La deviazione standard di un campione si ottiene come radice quadrata della sommatoria degli scarti elevati al quadrato, divisa per N. La deviazione standard si rivela molto utile per quantificare l'intervallo entro il quale si distribuiscono le varie misure. In particolare se la distribuzione e’ normale, il 68% delle misure dovrebbe trovarsi all'interno dell'intervallo centrato sulla media e di estremi + e - . Si può inoltre assumere la deviazione standard come errore da associare al valore medio della misura. In questo modo siamo sicuri al 68% di aver individuato l'intervallo entro il quale il valore vero della grandezza dovrebbe cadere. La probabilità che la variabile aleatoria cada all'interno di una deviazione standard è di circa il 68%; la probabilità che cada all'interno di due deviazioni standard è 95.4%. Per 3 la probabilità è già del 99.7%, mentre per 4 deviazioni standard si ha una probabilità (99.9%). P 0.800 0.900 0.6826895 0.950 0.9544997 0.990 0.9973002 0.995 0.9999366 0.999 0.9999994 Test T per campioni indipendenti Il test T per campioni indipendenti consente di confrontare le medie relative a due gruppi di casi. Nel test, i soggetti dovrebbero essere assegnati in modo casuale a due gruppi. Statistiche fornite da SPSS. Per ogni variabile: dimensione campione, media, deviazione standard ed errore standard della media. Per le differenze fra le medie: media, errore standard e intervallo di confidenza (è possibile specificare il livello di confidenza). Test: test di Levene di uguaglianza delle varianze e test t di uguaglianza delle medie per la varianza comune e la varianza. Test di Levene di uguaglianza delle varianze F Assumi varianze uguali Non assumere varianze uguali 4,248 Sig. ,057 t Test t di uguaglianza delle medie Differenza Sig. (2Differenza errore code) fra medie standard df Intervallo di confidenza per la differenza al 95% Inferiore Superior e 5,377 15 ,001 4,5139 ,83941 2,72472 6,30306 5,620 10,938 ,001 4,5139 ,80314 2,74497 6,28281 SPSS calcola due test per il confronto della media tra due gruppi, uno nell’assunzione che le varianze dei due gruppi siamo uguali, l’altro nell’assunzione che siano diverse. Il test di Levene valuta l’omogeneita’ delle varianze dei due gruppi. Se ad esempio il livello di significativita’ e’ 0.057, con fissato a 0.05 (5%), la differenza non e’ significativa cioe’ le varianze sono omogenee (consideriamo allora la riga corrispondente ad “assumi varianze uguali”). Le colonne successive mostrano il valore del t di Student, il numero di gradi di liberta’ del confronto (numero di casi meno 2) e la probabilita’ di ottenere un valore assoluto di t superiore o uguale a quello osservato, se la differenza tra i campioni fosse completamente casuale. Se ad esempio la significativita’ del test e’ fissata a 0.05 ed la probabilita’ calcolata e’ 0.001, si puo’ “tranquillamente” concludere che la differenza tra le due medie riflette una differenza reale tra le due popolazioni.