Università degli Studi di Pisa
Facoltà di Scienze matematiche fisiche e naturali
Anno Accademico 2011-12
Biostatistica
(SECS-S/02 )
STATISTICA PER LA RICERCA
SPERIMENTALE E TECNOLOGICA
Incontro 1
10-Ottobre-2011
Luigi Marangi
Biostatistica :
Statistica applicata alla ricerca biologica
• Testo di riferimento:
Metodi Statistici per la
Sperimentazione Biologica
A.Camussi,F.Moller,
E.Ottaviano,M.Sari Gorla
Zanichelli Editore
Biostatistica :
Statistica applicata alla ricerca biologica
• Calcoli elementari possono esser svolti con
normale foglio elettronico(p.e. excel)
• Software di Calcolo(dedicato alla Statistica):
The R Project
for Statistical Computing
http://www.r-project.org/
Biostatistica :
Statistica applicata alla ricerca biologica
•
•
•
•
•
•
•
•
Programma del corso
Statistica descrittiva (Cap.1)
Nozioni del calcolo delle probabilità(Cap. 2 )
Campionamento
Stima di parametri di distribuzioni
Test delle ipotesi
Analisi della varianza
Il modello di regressione lineare
Dati Categoriali
Biostatistica :
Statistica applicata alla ricerca biologica
 Orari Lezioni:
• Lunedi 16.00-18.00 Aula D4 Polo Fibonacci(Lezione
Frontale)
• Giovedi 09.00-11.00 Aula D4 Polo
Fibonacci(Lezione Frontale)
• Venerdi 14.00- 18.00 Aula H-Lab Polo
Fibonacci(Esercitazione)
 Ricevimento studenti: da definire
Progetto di ricerca :Varicella
• Infezione causata dal virus “VZ”, famiglia degli herpes virus
3 (HHV-3).
• Prevalentemente “dell’infanzia”.
• Trasmissione per contatti diretti con soggetti infettivi.
• Durata fase infettiva circa 7 giorni.
• Immunità permanente dopo la guarigione.
• Il virus resta però latente nel corpo e, quando il grado di
immunocompetenza inizia a declinare con l’età, può
riattivarsi “endogenamente” causando l'herpes zoster
(“fuoco di Sant'Antonio”).
Progetto di ricerca :Dati sierologici
Varicella in Italia:
•campione sierologico ESEN 2 (2004)
•n=2446 individui,
•stratificato per classi d’età annuali
DATI SIEROLOGICI IN CLASSI ANNUALI
1
0.9
PROFILI DI SEROPREVALENZA
• Dato più comune per infezioni
con immunità permanente (es.
morbillo, varicella, parotite).
• Dato “current-status”: osserva
lo stato immunologico corrente
dell’individuo campionato
(mediante esame della
titolazione anticorpale IgG nel
sangue)
• VA dicotomica (0=suscettibile
all’infezione,1=immune, come
conseguenza di passata
infezione).
• Campione sierologico: campione
cross-sezionale che stima la
prevalenza di immuni per
classi di età nella popolazione
al tempo t.
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
10
20
30
40
ETA IN CLASSI ANNUALI
50
60
Introduzione 1: Diagnosi Medica e Logica Statistica
 Paziente = Unità di osservazione
 Rilevamento dati
 Temperatura corporea = dato quantitativo
 Presenza/Assenza di una certa sintomatologia = dato qualitativo
 Confronto con valori normali o patologici (parametri di popolazione)
 Relazione con altre caratteristiche rilevate sullo stesso soggetto
 Diagnosi sullo stato di salute del paziente (Decisione)
•



Altri esempi
Effetto del fumo sull’incidenza dei tumori polmonari
Efficacia di un certo dentifricio per la prevenzione della carie
Guarigione del raffreddore ottenuta con l’impiego di un certo prodotto
farmaceutico
Introduzione 2:Considerazioni
Analisi non rigorose
→Affermazioni fuorvianti
Affermazione 1:
“Il prodotto X è particolarmente efficace contro il raffreddore: su 100 pazienti
trattati,ben 95 hanno mostrato completa remissione della malattia dopo una
settimana di cura”
Osservazione:
L’affermazione è poco v erificabile dato che ,dopo una settimana il raffreddore
passa comunemente anche senza nessun trattamento!
Affermazione 2 :
“Il 75% degli intervistati ha dichiarato di essere favorevole ad un certo partito
politico”
Osservazione:
Il risultato non è attendibile se la numerosità del campione è piccola rispetto
alla popolazione degli aventi diritto al voto ed inoltre non sappiamo nulla
sulla composizione del campione (è rappresentativo dell’intera
popolazione?)
Introduzione 3:Biometria - Metodologia Statistica
•
•
•
Definizione del problema
Formulazione ipotesi precisa
Organizzazione dell’esperimento adatto a verificarla
 Il rilevamento deve essere basato su criteri precisi
•
Analisi dei dati ottenuti
 I dati grezzi devono essere sintetizzati per poter essere interpretati
•
Valutazione Errore Sperimentale :insieme delle variazioni dovute a fattori
non controllati
 Gli effetti dell’errore sperimentale si sovrappongono a quello del fattore di studio
Esempio - Studio dell’efficacia di un nuovo farmaco
•L’effetto misurato sul singolo soggetto dipende non soltanto dalle caratteristiche
del principio attivo impiegato ,ma anche dalle condizioni del paziente in
termini di età ,stadio della malattia,malattie pregresse, modalità di
somministrazione (fattori di disturbo) .
•Disegno sperimentale adeguato: valutazione dell’efficacia del
farmaco,indipendentemente da tutti gli altri fattori.
Introduzione 4:Branche della statisitica
• Statistica descrittiva:
Insieme delle tecniche per:
 la rappresentazione grafica dei dati ,
 la sintesi dei dati grezzi in pochi numeri-indice particolarmente informativi,per esempio
una media aritmetica o una mediana
(spesso è la base per condurre un’analisi inferenziale)
• Statistica inferenziale :
Insieme delle tecniche per definire le caratteristiche di una popolazione ,della
quale non si può avere una conoscenza esaustiva ,attraverso lo studio di un
campione da essa estratto.
Esempio: Efficacia di un farmaco ipotensivo
Il farmaco è somministrato ad un campione di soggetti ipertesi : viene misurato la
variazione della pressione arteriosa dopo il trattamento .
La descrizione accurata delle caratteristiche del campione porta a delle
conclusioni che possono essere applicate ad altri soggetti (popolazione
costituita da tutti i soggetti ipertesi),anche se essi non potranno essere
singolarmente studiati
Considerazioni : Il capionamento è necessario(elevato costo)
Campione di controllo a cui è somministrato ‘Placebo’ (Disegno sperimentale CasoControllo)
Statistica Descrittiva 1:Insieme e Variabile
• Descrizione dei fenomeni quantitativi e
qualitativi osservati
• Insieme (‘Popolazione’): collezione di qualsiasi
tipo di oggetti,individui,animali,piante,fenomeni
che presentano almeno una caratteristica
comune
 (Biologia): gli elementi di una categoria tassonomica
,una specie ,un genere .
 (Medicina): gruppi di sintomi che costituiscono una
sindrome o i pazienti ricoverati in un reparto
ospedaliero.
Statistica Descrittiva 2:Insieme e Variabile
• Variabile : entità logica,caratteristica che può
assumere diversi valori,i quali costituiscono quindi
un insieme
• Variabile qualitativa: la caratteristica varia
qualitativamente secondo le modalità con cui può
presentarsi:
 Colore del mantello di un animale,
 Forma della foglia di una pianta
• Variabile quantitativa : la caratteristica è misurabile in
termini quantitativi .
 Discreta se assume valori isolati;
 numero di ammissioni giornaliere in un ospedale;
 numero di colonie batteriche su una piastra
 Continua se assume tutti i possibili valori reali in un certo
intervallo ;
– Peso, Taglia degli individui di una colonia di foche ;
– Età degli individui di una popolazione.
– Temperatura.
Un po’ di esempi
• Gruppi sanguigni in un gruppo di individui di razza
caucasica.
• Valutazione della risposta all’applicazione di un farmaco
ad n pazienti.
• Indici di tendenza centrale e grafici per un campione di
piante di mais di diverse varietà ed altezze.
• Votazione riportata all’esame di genetica di un campione
di studenti .
• Peso di un campione di polli da da allevamento
• Esempio: Gruppi sanguigni del sistema AB0 in un
campione di n=149 individui di una popolazione
caucasica.
Dato: gruppo sanguigno in n=149 soggetti di razza caucasica
Individuo
1
2
3
4
5
6
7
8
9
10
11
12
Gruppo sanguigno
B
A
A
A
0
A
B
0
0
A
A
AB
Dati Qualitativi (Scala di Misura Nominale)
•
Esempio: Gruppi sanguigni del sistema AB0 in un campione di n=149
individui di una popolazione caucasica.
xi
ni
pi*100
A
60
40.3
B
16
10.7
AB
7
4.7
0
66
44.3
4
n
i 1
i
 149
4
 p 100  100
i 1
i
• Scala Nominale: i dati costituiscono delle “etichette”
• Per descrivere i dati si raggrupano in classi, in ognuna delle quali sono
raccolte tutte le osservazioni che presentano la stessa caratteristica .
ottiene la proporzione (o la percentuale ) degli elementi che
presentano l’attributo.
• Altri esempi: il carattere “sesso” in una popolazione sessuata, etc.
Statistica Descrittiva: Frequenze assolute e relative
• Si indica con X la variabile e con x1,
x2, x3,……,xn, i singoli valori assunti
dalla variabile X, dove n è il numero
di osservazioni : un generico
membro del gruppo di osservazioni
è indicato con xi, dove i=1…..n.
• Frequenze Assolute:se in un
campione sono presenti più
elementi con lo stesso
valore(misura),il loro numero è
indicato con ni.
• Frequenze relative(proporzioni)
pi:valore compreso tra 0 e 1 .
 x1 x2 ... xc
X :
n1 n2 ... nc
X  {xi , ni } i  1...c
c
n
n
i
i
ni
pi 
n
c
p
i
1
1
(Dati Qualitativi) Scale di Misura Ordinali
• Scala ordinale: E’ possibile assegnare ad ogni osservazione un valore
numerico,un punteggio arbitrario che dà ordine alla classificazione .
•
Esempio: Valutazione della risposta all’applicazione di un farmaco ad n
pazienti.
Criterio
di
classificazione
Punteggio o
‘SCORES’
xi
Frequenze Ass.
ni
Peggioramento
Nessuna Var.
Lieve Miglior.
Miglioramento
Guarigione
-1
0
1
2
3
3
4
15
52
26
5
n
i 1
i
 100
Freq. Relative.
pi
0.03
0.04
0.15
0.52
0.26
5
p
i 1
i
1
Freq. Perc. (%)
3%
4%
15%
52%
26%
Dati Quantitativi.
• Scala numeriche:Possono essere scale per intervalli oppure per rapporti.
 La scala per intervalli è adatta a descrivere fenomeni in cui l’origine dell’unità di misura
è scelta arbitrariamente (es: temperatura)
 La scala per rapporti è invece riferita a fenomeni che presentano un’origine naturale .
•
Esempio (Scala numerica per intervalli):Temperatura corporea di un
campione di 10 soggetti espressa in gradi centigradi e Fahrenheit.
Soggetto
° Celsius
°F
1
2
3
4
5
6
7
8
9
10
36.2
36.5
36.8
36.4
36.7
36.8
36.5
36.4
37.0
36.1
97.16
97.70
98.24
97.50
98.06
98.24
97.70
97.52
98.60
97.00
Esempio scala numerica per intervalli (temp. °C e °F)
• Per le 2 serie ha senso fare le differenze tra le misurazioni
(consideriamo i soggetti 3,4,9 )
Differenze tra soggetti
°C
°F
9e3
3e4
37.0-36.8=0.2
36.8-36.4=0.4
98.60-98.24=0.36
98.24-97.52=0.72
• La differenza di temperatura tra i soggetti 3 e 4 è il doppio di quella
tra i soggetti 9 e 3 per entrambe le scale , mentre per i rapporti si
nota che tale uguaglianza non sussiste !
Rapporto tra soggetti
°C
°F
9e3
3e4
37.0/36.8=1.005
36.8/36.4=1.010
98.60/98.24=0.9833
98.24/97.52=1.007
Scala numerica continua per rapporti
 Esempio: Valori di glicemia in un campione di 10 soggetti sani ,espressi in mg di
glucosio per 100 ml di sangue.
soggetto
mg/ml
1
2
3
4
5
6
7
8
9
10
65.5
80.0
92.8
90.2
100.5
95.0
98.0
70.3
80.0
105.5
Scala numerica discreta
 Esempio: Numero delle aree di necrosi sulle foglie di 10 piante affette da virosi .
pianta
n. aree=X
1
2
3
4
5
6
7
8
9
10
28
36
19
26
18
20
32
19
8
23
Distribuzioni di frequenza: tabelle e grafici di frequenza
• La frequenza assoluta è il numero degli individui che presentano una
certa misura (per un carattere quantitativo) o una certa modalità (per un
carattere qualitativo).
 Esempio, se su 500 insetti 100 sono eterotteri, 200 sono imenotteri e 150 sono
ortotteri, possiamo concludere che la frequenza assoluta degli eterotteri è pari a
100.
• Con variabili quantitative su scala continua, prima di calcolare le
frequenze è necessario suddividere l’intervallo delle misure in una serie
di classi di frequenza.
 Esempio, se abbiamo considerato 3000 piante di mais ed abbiamo osservato
che 115 hanno altezze comprese tra 150 e 155 cm, possiamo conclude che la
frequenza degli individui della classe 150-155 cm è pari a 115.
• Le frequenze relative, che si calcolano dividendo le frequenze
assolute per il numero totale degli individui del collettivo.
 Esempio,la frequenza relativa degli eterotteri è pari a 100/500, cioè 0.2, mentre
la frequenza relativa degli individui nella classe 150-155 è pari a 115/3000, cioè
0.038.
Distribuzioni di frequenza: tabelle e grafici di frequenza 2
• Con una variabile quantitativa o comunque una variabile nella quale le
modalità o le classi di frequenza possono essere logicamente ordinate,
oltre alle frequenze assolute e relative possiamo prendere in
considerazione le cosiddette frequenze cumulate, che si ottengono
cumulando i valori di tutte le classi di frequenza che precedono quella
considerata.
 Esempio se tra le 3000 piante di mais anzidette 224 hanno altezze comprese
tra 155 e 160 cm, la frequenza cumulata della classe è pari a 224+115 = 339,
che si ottiene sommando alla frequenza assoluta di classe la frequenza
assoluta della classe precedente.
• Aggregare i dati in forma di distribuzioni di frequenza è
estremamente conveniente, perché la lettura delle
informazioni in essi contenute è molto più facile! Il prezzo
da pagare è una lieve perdita di informazione, come sarà
chiaro nell’esempio seguente.
Esempio (Distr. Freq. ,Grafici e Tabelle di Freq.)
•
In un campo di mais sono state rilevate su 20 piante le altezze e la varietà di
ciascuna pianta.
Numero Piante
Varietà
Altezza(cm)
1
N
172
2
S
154
3
V
150
4
V
188
5
C
162
…….
….
…..
……..
……
……
…….
…….
……
16
C
163
17
V
148
18
S
152
19
C
169
20
C
185
Esempio (Distr. Freq.)2
•
•
•
1 - valutare la distribuzione delle frequenze assolute, relative e percentuali degli
individui di ciascuna varietà;
2 - valutare la distribuzione delle frequenze assolute, relative, percentuali assolute
cumulate dell'altezza di tutti gli individui;
3 - Disegnare la torta delle frequenze relative della varietà e l'istogramma delle
frequenze assolute dell'altezza.
Varietà
C
N
S
V
Freq ass
7
6
3
4
Freq rel
0.35
0.30
0.15
0.20
35
30
15
20
Freq perc
Altezza
(140,150]
(150,160]
(160,170]
(170,190]
(190,200]
Freq ass
4
5
4
6
1
Freq rel
0.20
0.25
0.20
0.30
0.05
Freq Perc
20
25
20
30
5
Freq Cum
4
9
13
19
20
5
6
Output:Grafico a torta ed istogramma classi
S
0
V
1
2
N
3
Frequenza
4
C
(140,150]
(150,160]
(160,170]
(170,190]
(190,200]
Densità di frequenza
• Le densità di frequenza rappresentano la frequenza
associata a ciascun punto dell'intervallo della classe. Si
cerca in questo modo di evitare che classi molto ampie
abbiano frequenze più alte di classi più rappresentative,
ma molto strette.
 Esempio, se ho due classi di altezza, la prima da 160 a 165 cm e la
seconda da 165 a 175 cm e ho 5 individui nella prima classe e 5
nella seconda, è chiaro che la seconda classe contiene lo stesso
numero di individui della prima, ma è molto più ampia. Se usiamo le
sole frequenze non riusciamo ad evidenziare questo fatto, ma se
dividiamo la frequenza di classe per l'ampiezza dell'intervallo
otteniamo appunto la densità di frequenza:
d=ni/ai ,dove ai è l’ampiezza della classe i
Nota: In R il comando hist fa riferimento alle frequenze relative
d=pi/ai
Esempio :Campo di Mais(Classi non equispaziate)
• 4 - Calcolare le densità di frequenza per l'altezza delle 20 piante e
disegnarne i relativi istogrammi. Considerare le seguenti classi:
(130-160], (160-170], (170-190].
0.010
0.005
0.000
Density
0.015
0.020
Histogram of Altezza
130
140
150
160
170
Altezza
180
190
200
Distribuzioni o funzione di frequenza per variabili
discrete
pi  P( X  xi )  P( xi )
pi  0
p
i
1
Densità di frequenza(funzione di densità) per variabili
continue
Y  f ( x)
f ( x)  0


f ( x ) dx  1

P ( xi ) 
xi 1

xi
f ( x ) dx
Distribuzioni Cumulative per variabili discrete
• Si definisce funzione cumulativa delle frequenze o semplicemente
funzione di distribuzione (o di ripartizione) la funzione :
P( X  x)  F ( x)
• Per variabili discrete la funzione di ripartizione si ottiene dalla funzione di
frequenza come:
Fi  F ( xi )  P( X  xi ) 
con
0

F ( x)  
1

per
X  x1
per
X  xn
p
X  xi
i
Distribuzioni Cumulative per variabili discrete
x
F ( x)  P( X  x) 
 f (u )du

rappresenta la probabilità che la variabile statistica X cada
nell’intervallo -∞ ,x ; quindi:
0

F ( x)  
1

per
x  
per
x  
Graficamente F(x) rappresenta l’area sottesa alla curva
dall’estremo di sinistra (-∞ )della distribuzione delle
frequenze relative ,fino al valore x.
Esempio(funzione di frequenza e di ripartizione per varable discreta )
• Nel lancio di un dado i possibili valori di x sono: 1,2,3,4,5,6. La
funzione di frequenza :
1.0
0.8
0.6
0.0
0.2
0.4
F(x)
0.6
0.4
0.2
0.0
Frequenza
0.8
1.0
Funzione di ripartizione
1
2
3
4
x
5
6
0
1
2
3
x
4
5
6
Misure di posizione (Indici di tendenza centrale).
•
Moda: valore della variabile cui corrisponde la massima frequenza per
variabili discrete,la massima densità di frequenza per variabili continue.Se
questo valore è unico la distribuzione è unimodale ,bimodale se i picchi sono
2.
•
Mediana: il valore che permette di ripartire la distribuzione in 2 parti ,in
ciascuna delle quali cade il 50% delle osservazioni. Se il numero delle
osservazioni è dispari ci sarà un unico valore mediano ,ovvero il termine che
occupa nella successione ordinata il posto di posizione (n+1)/2 ,se il numero
di oss. è pari ,per convenzione è la media delle 2 oss. centrali.
•
Medie: Le medie si calcolano sulle potenze k-esime delle osservazioni. Per
k=1 si ha la Media Aritmetica .
4
4
19
1
5
20
5
10
21
5
15
22
3
18
23
3
21
24
4
25
25
20
45
26
23
68
27
15
83
28
10
93
29
2
95
30
5
100
15
18
10
Fi
5
ni
freq_ass
xi
20
Esempio (moda e mediana). Votazione riportata in una classe di
100 studenti all’esame di genetica
18
20
22
24
Votazione
26
28
30
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
Funzione di ripartizione
18
20
22
24
x
• Moda=Mediana=26
26
28
30
La Media Aritmetica
 Esempio
E’ assegnato il peso (in Kg) rilevato su un campione di 10 polli di
allevamento: [1.9 , 2.2 , 1.8 , 2.5 , 2.8 , 3.0 , 2.0 , 2.6 , 2.4 , 2.0]
1 n
1
x   xi  (1.9  ....  2.0)  2.32
n i 1
10
Definizioni:
1 n
x   xi (campione)
n i 1
1

N
n
 x ( popolazion e)
i 1
i
insieme
Le Medie(3)
• Se i dati sono raccolti in classi di frequenza la media può essere
calcolata come (media aritmetica ponderata) :
nx

x 
n
i
i

x
i
pi
i
 Esempio: La variabile xi è il numero di colonie per piastra dopo
inoculo con una sospensione batterica :
xi
ni
xini
0
1
2
3
4
5
12
8
6
6
4
3
0
8
12
18
16
15
39
69
Il numero medio di colonie per
piastra è dato dalla media
x=69/39=1.77
Le Medie(4)
• Esempio: I valori relativi al peso di 38 polli vengono raggruppati in
classi di frequenza :
Classi
Valore
Centrale
Freq.
Ass.
(xi)
(ni)
xi*ni
nx

x
n
i i
i
1.5-2.0
2.1-2.5
2.6-3.0
3.1-3.5
1.75
2.25
2.75
3.25
5
12
15
6
8.75
27.00
41.25
19.50
•
•
38
96.50
•
96.50

 2.54
38
Il valore della media risulta
approssimato rispetto ai valori
ottenuti usando le misure originali
Per n abbastanza grande e
distribuzioni tendenzialmente
simmetriche ,gli errori tendono a
bilanciarsi
Se n è piccolo e la distribuzione non è
simmetrica ,è preferibile usare i dati
originali per il calcolo del valor atteso