esercitazione

Corso di Laurea Specialistica in Biologia Sanitaria, Universita' di Padova
C.I. di Metodi statistici per la Biologia, Informatica e Laboratorio di Informatica (Mod. B)
Docente: Dr. Stefania Bortoluzzi
Materiale del corso: http://telethon.bio.unipd.it/bioinfo/Didattica_2006/HomeStatBioinfo.html
III ESERCITAZIONE
Analisi di dati sperimentali sull'efficacia dell'applicazione di lenti
intraoculari in silicone o hydrogel dopo un'operazione della cataratta:
STATISTICHE DESCRITTIVE, TEST T PER IL CONFRONTO DELLE
MEDIE DI CAMPIONI INDIPENDENTI.
Metodi: Statistiche descrittive, test t.
Programmi: EXCEL e SPSS.
In seguito all’operazione chirurgica per la rimozione della cataratta la migrazione di cellule
epiteliali del cristallino provoca frequentemente la deposizione di un “post-cataratta”, che puo’
essere di differente entita’, con conseguenze piu’ o meno pesanti per la vista. Per la prevenzione di
questo fenomeno, durante l’operazione vengono impiantate delle lenti intraoculari, che possono
essere di materiali diversi.
Uno studio ha comparato l’efficacia di lenti in silicone con quella di lenti di hydrogel, in modo che
ne’ il paziente ne’ il medico esaminatore conoscessero le caratteristiche del trattamento, su un
campione di 50 pazienti .
L’entita’ del “post-cataratta” dopo due anni viene quantificata su una scala da 0 a 10. Una volta
ottenuti i risultati e’ necessario analizzarli da un punto di vista statistico per cercare di descrivere i
dati e capire se vi sono differenze tra i campioni, cioe’ capire se un materiale risulta
significativamente migliore dell’altro.
DATI
50 pazienti anziani con cataratta, dopo operazione, di cui:
25 pazienti con lenti in hydrogel;
25 pazienti con lenti in silicone;
Dopo due anni:
22 pazienti con lenti in hydrogel;
18 pazienti con lenti in silicone;
10 pazienti deceduti;
per ciascun paziente viene misurata l’entita’del “post cataratta” (scala da 0 a 10).
1
Scaricare il file di excel con la tabella originale contenete i dati in forma grezza;
PAZIENTE TRATTAMENTO GRADO POST-CATARATTA
paz1
silicone
2
paz2
hydrogel
3
paz3
hydrogel
5
paz4
hydrogel
6
paz5
silicone
1
paz6
silicone
4
paz7
silicone
2
paz8
silicone
3
paz9
hydrogel
4
paz10
silicone
5
paz11
hydrogel
8
paz12
deceduto
paz13
hydrogel
2
paz14
hydrogel
7
paz15
silicone
2
paz16
silicone
2
paz17
silicone
1
paz18
hydrogel
5
paz19
hydrogel
6
paz20
hydrogel
4
paz21
hydrogel
3
paz22
silicone
4
paz23
hydrogel
2
paz24
hydrogel
6
paz25
hydrogel
3
paz26
hydrogel
4
paz27
hydrogel
5
paz28
deceduto
paz29
silicone
3
paz30
hydrogel
8
paz31
hydrogel
9
paz32
hydrogel
4
paz33
deceduto
paz34
silicone
4
paz35
silicone
3
paz36
deceduto
paz37
deceduto
paz38
deceduto
paz39
silicone
6
paz40
silicone
2
paz41
deceduto
paz42
silicone
2
paz43
deceduto
paz44
deceduto
paz45
hydrogel
4
paz46
deceduto
paz47
hydrogel
3
paz48
silicone
2
paz49
hydrogel
5
paz50
silicone
4
Utilizzando Excel:
2
Schematizzare i dati in forma utile alle analisi seguenti, divisione in due campioni.;
3
Calcolare la media campionaria dei valori “post-cataratta” per ciascun campione;
4
Calcolare la mediana e della moda dei valori “post-cataratta” per ciascun campione;
5
Calcolare la deviazione standard dei valori “post-cataratta” per ciascun campione ed
utilizzare la media a la deviazione standard per devifinire un intervallo di confidenza
al’80%
6
Display grafico dei dati con un istogramma;
7
Interpretazione descrittiva dei risultati. Quale materiale sembra migliore in base ai
dati di questo studio ?
8
Preparare il file per SPSS, ovvero con due colonne, una contenente le etichette dei dati
(1 per “silicone” o 2 per “hydrogel”) e l’altra contenente i dati:
1
2
1
2
1
3
...
...
2
1
2
1
...
...
Utilizzando SPSS:
9
Cut and paste dei dati preparati al punto 8;
10
Controllo dei calcoli precedenti attraverso l’opzione”statistiche descrittive”;
11
Test T per il confronto delle medie di campioni indipendenti;
12
Interpretazione dei risultati. La differenza osservata tra le medie dei due campioni e’
significativa ?
13
CONSEGNARE UNA RELAZIONE CONTENENTE:
-
Riassunto dei contenuti dell’esercitazione (massimo 150 parole).
-
Risposte ai punti in grassetto.
VADEMECUM:
Media (media aritmetica, average): la media campionaria permette di stimare la vera media della
e’ data da:
popolazione. La media campionaria di un set di osservazioni
Moda (mode): il valore osservato con maggiore frequenza in un campione.
Mediana (median): la mediana di una distribuzione con probabilita’ D(x) e’ il valore di x per cui
D(x)=1/2. Per una distribuzione simmetrica e’ il valore al centro della distribuzione.
Deviazione standard: e’ una misura che indica quanto i valori si discostino dal valore medio.
La deviazione standard di un campione si ottiene come radice quadrata della sommatoria degli
scarti elevati al quadrato, divisa per N.
La deviazione standard si rivela molto utile per quantificare l'intervallo entro il quale si
distribuiscono le varie misure. In particolare se la distribuzione e’ normale, il 68% delle misure
dovrebbe trovarsi all'interno dell'intervallo centrato sulla media e di estremi + e - . Si può inoltre
assumere la deviazione standard come errore da associare al valore medio della misura. In questo
modo siamo sicuri al 68% di aver individuato l'intervallo entro il quale il valore vero della
grandezza dovrebbe cadere. La probabilità che la variabile aleatoria cada all'interno di una
deviazione standard è di circa il 68%; la probabilità che cada all'interno di due deviazioni standard è
95.4%. Per 3 la probabilità è già del 99.7%, mentre per 4 deviazioni standard si ha
una probabilità (99.9%).
P
0.800
0.900
0.6826895
0.950
0.9544997
0.990
0.9973002
0.995
0.9999366
0.999
0.9999994
Test T per campioni indipendenti
Il test T per campioni indipendenti consente di confrontare le medie relative a due gruppi di casi.
Nel test, i soggetti dovrebbero essere assegnati in modo casuale a due gruppi.
Statistiche fornite da SPSS.



Per ogni variabile: dimensione campione, media, deviazione standard ed errore standard
della media.
Per le differenze fra le medie: media, errore standard e intervallo di confidenza (è possibile
specificare il livello di confidenza).
Test: test di Levene di uguaglianza delle varianze e test t di uguaglianza delle medie per la
varianza comune e la varianza.
Test di Levene di
uguaglianza delle
varianze
F
Assumi
varianze uguali
Non assumere
varianze uguali
4,248
Sig.
,057
t
Test t di uguaglianza delle medie
Differenza
Sig. (2Differenza
errore
code)
fra medie
standard
df
Intervallo di
confidenza per la
differenza al 95%
Inferiore
Superior
e
5,377
15
,001
4,5139
,83941
2,72472
6,30306
5,620
10,938
,001
4,5139
,80314
2,74497
6,28281
SPSS calcola due test per il confronto della media tra due gruppi, uno nell’assunzione che le
varianze dei due gruppi siamo uguali, l’altro nell’assunzione che siano diverse. Il test di Levene
valuta l’omogeneita’ delle varianze dei due gruppi. Se ad esempio il livello di significativita’ e’
0.057, con  fissato a 0.05 (5%), la differenza non e’ significativa cioe’ le varianze sono
omogenee (consideriamo allora la riga corrispondente ad “assumi varianze uguali”). Le colonne
successive mostrano il valore del t di Student, il numero di gradi di liberta’ del confronto
(numero di casi meno 2) e la probabilita’ di ottenere un valore assoluto di t superiore o uguale a
quello osservato, se la differenza tra i campioni fosse completamente casuale. Se ad esempio la
significativita’ del test e’ fissata a 0.05 ed la probabilita’ calcolata e’ 0.001, si puo’
“tranquillamente” concludere che la differenza tra le due medie riflette una differenza reale tra
le due popolazioni.