Università del Piemonte Orientale Corsi di laurea triennale ad

Università del Piemonte Orientale
Corsi di laurea triennale ad indirizzo sanitario
Corso di Statistica Medica
Elementi di calcolo delle probabilità e di inferenza statistica.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
1
Statistica per Ricerca Sperimentale e Tecnologica (10 ore)
Obiettivo generale: acquisire gli elementi di statistica inferenziale e di disegno dello studio necessari per la lettura di articoli
scientifici che comprendono semplici analisi statistiche dei dati.
Articolazione:
1. Probabilità.
2. Il calcolo delle probabilità condizionate applicato al caso della valutazione della sensibilità e della specificità di un test.
3. Variabilità campionaria, con riferimento al caso delle estrazioni ripetute da sistemi casuali semplici (dado, moneta ecc);
Valutazione della probabilità di eventi intuitivamente infrequenti; Discussione sull'uso dei valori di probabilità per trarre
conclusioni.
4. Probabilità della somma di due eventi; probabilità di due eventi indipendenti; applicazione del calcolo della probabilità di
eventi indipendenti al calcolo del numero atteso in tabelle di contingenza 2x2.
5. Misure di associazione nelle tabelle 2 x 2 (Calcolo delle probabilità di successo dopo un trattamento; Odds Ratio).
6. Chi quadrato, con riferimento alle tabelle di contingenza 2 x 2.
7. Nel corso della spiegazione delle misure di associazione e del Chi quadrato vengono illustrati per esempi ed in modo
intuitivo il concetto di potenza di uno studio e la formulazione e la verifica di un'ipotesi statistica.
8. Gli intervalli di confidenza (uso e significato).
9. Accuratezza e precisione (illustrati per esempi ed in modo intuitivo).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
2
Probabilità: valutazione della possibilità che accada (o sia accaduto) un
evento incerto.
Esempi:
1. La probabilità di incontrare una persona conosciuta ieri
2. La probabilità che domani piova
3. La probabilità che la Juventus batta il Perugia alla prima partita di
campionato
4. La probabilità di lanciare una moneta ed ottenere testa
5. La probabilità che un bambino nato oggi viva almeno 80 anni
6. La probabilità che un campione di sangue presenti una concentrazione di
emoglobina di 14,456 g/100ml
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
3
Queste affermazioni appartengono a due categorie diverse:
Le affermazioni 1-3 indicano la propensione soggettiva a valutare la
possibilità che l’evento accada. (giudizio di un esperto). Di solito non è
possibile stimare un valore di probabilità per affermazioni di questo tipo.
Le affermazioni 4-6 consentono la risposta in base alla definizione di uno
spazio campionario ed alla misura della probabilità associata all’evento.
Noi parleremo di probabilità limitatamente a questa seconda accezione.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
4
Inoltre si osservi che:
- la variabile considerata negli esempi 4-5 può assumere solo alcuni valori
in un intervallo, nel caso i valori 1,2,3,4,5,6 (variabile discreta);
- la variabile considerata nell’esempio 5 può assumere due soli valori (vivo,
morto) (variabile binaria);
- la variabile considerata nell’esempio 6 può assumere tutti i valori in un
intervallo (variabile continua).
L’intervallo in cui sono compresi i valori che possono essere assunti da una
variabile è detto ‘dominio della variabile’ o ‘spazio campionario’.
In questo corso approfondiremo solo il caso delle variabili discrete e delle
variabili binarie.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
5
La stima della probabilità:
A priori:
• Simmetria (geometria): lancio di moneta o di dado, estrazione del lotto
• Logica1 ‘se x è vero allora consegue che y deve essere pari a….’
A posteriori
• Frequenza di un evento osservata in un numero molto alto di prove
• Limite della frequenza di un evento osservata per un numero di prove
tendente all’infinito
1
Corrisponde alla stima della probabilità conseguente alla formulazione di un’ipotesi. L’argomento sarà ripreso nelle prossime lezioni
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
6
probabilità di ottenere croce
0,7
0,6
0,5
prob.
0,4
prob.
0,3
0,2
0,1
0
0
20
40
60
80
100
120
n. lanci
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
7
Probabilità di un evento
P = r/N
Dove
r = frequenza dell’evento
N = Numero di possibili eventi
Evento = estrazione di un asso di cuori
r = 1 (c’è un asso di cuori nel mazzo)
N = 40 (il mazzo è di 40 carte)
P=1/40=0,025
Evento = estrazione di un topo maschio dalla gabbia
r = 10 (numero di topi di sesso maschile)
N = 20 (numero totale di topi)
P=10/20=0,5
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
8
Alcune ulteriori definizioni e regole:
Spazio Campionario (S): l’insieme di tutte le possibili evenienze.
P(S) = 1
La probabilità di un evento è compresa nell’intervallo
0 (evento impossibile) -
1 (evento certo)
0 <= P(A) <= 1
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
9
Anche nel caso del lancio di una monetina o del lancio di un dado la
probabilità di un evento può scostarsi rispetto all’ atteso, soprattutto se
abbiamo poche osservazioni.
Esempio:
Nel caso della monetina la probabilità di ottenere testa è 0.5.
Lanciate una monetina 10 volte.
Con quale frequenza avete ottenuto testa?
Ripetete l’esperimento di 10 lanci altre 9 volte.
Annotate ogni volta il risultato.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
10
In questo grafico e nella tabella che lo accompagna troverete tutti i possibili
risultati, ciascuno con sua la probabilità, calcolata attraverso una formula
teorica (formula della probabilità binomiale, la formula è scritta nella tabella
ma non è necessario che la studiate).
Conclusione:
piccoli scostamenti rispetto al valore atteso si possono osservare anche in
situazioni sperimentali ben controllate.
Scostamenti maggiori sono invece poco frequenti.
Impareremo a valutare anche come considerare scostamenti più importanti
dal valore atteso.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
11
Questa tabella riassume i valori di probabilità associati a ciascuno dei
possibili risultati di un esperimento di 10 lanci di moneta.
π=0.5
N
r
10
10
10
10
10
10
10
10
10
10
10
0
1
2
3
4
5
6
7
8
9
10
q
n-r Coefficiente
Binomiale
10
1
9
10
8
45
7
120
6
210
5
252
4
210
3
120
2
45
1
10
0
1
1-π=0,5
π^r
(1-π)^(N-r)
1,0000000000
0,5000000000
0,2500000000
0,1250000000
0,0625000000
0,0312500000
0,0156250000
0,0078125000
0,0039062500
0,0019531250
0,0009765625
0,0009765625
0,0019531250
0,0039062500
0,0078125000
0,0156250000
0,0312500000
0,0625000000
0,1250000000
0,2500000000
0,5000000000
1,0000000000
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
Valore di
probabilità
0,001
0,010
0,044
0,117
0,205
0,246
0,205
0,117
0,044
0,010
0,001
12
Distribuzione binomiale N=10, p=0.5
0,300
0,250
0,200
0,150
prob
0,100
0,050
0,000
0
1
2
3
4
5
6
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
7
8
9
10
13
Alcune regole del calcolo delle probabilità
La probabilità condizionata
La probabilità di due eventi
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
14
Probabilità condizionata
E’ la probabilità calcolata per un sottoinsieme dello spazio campionario,
definito in base al valore di una variabile condizionante.
Tale sottoinsieme è definito in modo da contenere tutti e soltanto i punti che
rappresentano il realizzarsi dell’evento condizionante (valore di una variabile
condizionante).
Ad es. l’insieme dei valori scritti sulle 6 facce di un dado (1,2,3,4,5,6) può
essere suddiviso in due sottoinsiemi:
pari (2,4,6)
dispari (1,3,5)
Osserviamo che:
p(1) = 1/6
P(1|dispari)=1/3
P(1|pari)=0
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
15
Un’applicazione del calcolo delle probabilità condizionate:
La valutazione dei tests diagnostici
In ambito sanitario vengono comunemente utilizzati esami diagnostici (tests
di laboratorio, radiografie, esame obiettivo, altri). Questi esami hanno
l’obbiettivo di riconoscere i soggetti malati e quelli sani, relativamente alla
condizione esaminata.
Esempi: programmi di screening (proposti a tutta la popolazione) che sono in
atto o in corso di sperimentazione in Piemonte per:
- neoplasie della mammella;
- neoplasie della cervice uterina;
- neoplasie del grosso intestino;
- fenilchetonuria (neonati);
- insufficienza tiroidea (neonati).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
16
Nella situazione più semplice un esame diagnostico fornisce un risultato che
può essere espresso come ‘esame positivo’ oppure ‘esame negativo’.
I soggetti sottoposti all’esame sono sottoposti ad ulteriori esami oppure a
sorveglianza clinica e quindi possono essere definiti come sani o malati.
(Questo accade per tutti i soggetti nelle fasi sperimentali del programma, in
fase di implementazione di regola vengono sottoposti ad esami ulteriori i casi
positivi ed a sola sorveglianza clinica o epidemiologica i casi negativi).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
17
I risultati di un esame possono quindi essere riassunti in una tabella di
contingenza con due righe (per il risultato dell’esame) e due colonne (per
indicare se il soggetto era malato o no).
Malattia
Malato
Test
Sano
Totale
Positivo
Negativo
Totale
Il totale delle righe indicherà quanti soggetti hanno esame positivo e quanti
negativo.
Il totale delle colonne indicherà quanti soggetti sono risultati malati e quanti
sani al termine dei controlli e della sorveglianza clinica.
I totali di riga e di colonna sono indicati anche come totali marginali
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
18
E’ esperienza comune che gli esami non sono perfetti e che alcuni soggetti
malati avranno un esame negativo mentre alcuni soggetti sani avranno un
esame positivo.
Le 4 celle della tabella consentono di scrivere il numero dei soggetti
separatamente in base alle seguenti condizioni:
Esame
Malattia
Indicati come:
Lettera
Positivo
Malati
Veri Positivi (VP)
a
Positivo
Sani
Falsi Positivi (FP)
b
Negativo
Malati
Falsi Negativi (FN)
c
Negativo
Sani
Veri negativi (VN)
d
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
19
Malattia
Test
Positivo
Negativo
Totale
Malato
a
c
a+c
Sano
b
d
b+d
Totale
a+b
c+d
N
Sano
FP
VN
Totale
Oppure:
Malattia
Test
Positivo
Negativo
Totale
Malato
VP
FN
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
20
Da questa tabella possiamo calcolare i due indicatori fondamentali per la
valutazione delle capacità di un test:
Sensibilità
probabilità che il test sia positivo se il sogg. è malato
= P(+|malato)
è stimata dalla proporzione di malati con test positivo.
= a / (a+c) = VP / Totale malati
Specificità
probabilità che il test sia negativo se il sogg. non è malato
= P(-| non_malato)
è stimata dalla proporzione di non_malati con test negativo.
= d / (b+d) = VN / Totale sani
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
21
Da questa tabella possiamo calcolare i due indicatori fondamentali per
valutare la probabilità di malattia (o di assenza di malattia) sulla base dei
risultati del test:
Valore predittivo del risultato positivo
probabilità che il sogg. sia malato se il test è positivo
= P(malato|+)
è stimata dalla proporzione di test positivo con sogg malato
= a / (a+b) = VP / Totale positivi al test
Valore predittivo del risultato negativo
probabilità che il sogg. sia non_malato se il test è negativo
= P(non_malato|-)
è stimata dalla proporzione di test negativo con sogg non_malato
= d / (c+d) = VN / Totale negativi al test
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
22
Si noti che il valore predittivo del risultato di un esame dipende dalla
frequenza della malattia (prevalenza) nella popolazione sottoposta ad
esame.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
23
Esempio (costruito con dati ipotetici)
Malattia
Test
Malato
Sano
Totale
Positivo
120
40
160
Negativo
30
210
240
150
250
400
Totale
Sensibilità
= a / (a+c) = 120 / 150 = 80,0%
Specificità
= d / (b+d) = 210 / 250 = 84,0%
Valore predittivo del risultato positivo = a / (a+b) = 120 / 160 = 75,0%
Valore predittivo del risultato negativo = d / (c+d) = 210 /240 = 87.5%
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
24
Esempio / esercizio (costruito con dati ipotetici)
Malattia
Test
Malato
Sano
Totale
Positivo
120
4000
4120
Negativo
30
21000
21030
150
25000
25150
Totale
Gli studenti calcolino i seguenti indici:
Sensibilità
=
Specificità
=
Valore predittivo del risultato positivo =
Valore predittivo del risultato negativo =
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
25
Come calcoliamo la probabilità di più eventi?
La probabilità di uno tra due eventi mutuamente esclusivi è data dalla
somma delle probabilità di ciascuno dei due eventi
P(A o B) = P(A) + P(B)
Es. la probabilità di avere testa o croce ad un lancio di moneta è:
P (testa o croce) = P (testa) + P (croce) = 0,5 + 0,5
La stessa regola si può estendere alla probabilità di uno (o più) tra n eventi
mutuamente esclusivi.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
26
La probabilità del realizzarsi di uno tra due eventi non mutuamente esclusivi
è data dalle somma delle probabilità di ciascuno dei due eventi sottratta
della probabilità che si verifichino entrambi
P(A o B) = P(A) + P(B) – P(A|B)
Infatti, se gli eventi sono mutuamente esclusivi
P(A|B) = 0
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
27
L’area verde è la sovrapposizione dei due insiemi
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
28
Es. la probabilità di estrarre una carta di segno (Cuori) o (figura) da un
mazzo di 40 carte:
P (Cuori o figura) = P(cuori) + P(figura) – P(Cuori e figura)
= 10/40 + 12/40 - 3/40 = 19/40 = 0,475
Es. la probabilità di avere un numero <=3 o un pari ad un lancio di dado è:
P (<=3 o pari) = P (<=3) + P (pari) –P(<=3 e pari) = 3/6 + 3/6 – 1/6 = 5/6
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
29
Verifichiamo queste regole nel caso di uno spazio campionario di dimensioni
limitate e composto da elementi discreti, ad es. dato dal lancio di una moneta
e dal lancio di un dado.
Lo spazio campionario è definito come l’insieme di tutti i possibili risultati. Nel
caso dato N = 12 (cioè complessivamente abbiamo 12 possibili risultati).
DADO
Moneta
1
2
3
4
5
6
T
X
X
X
X
X
X
C
X
X
X
X
X
X
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
30
Es 1. Estrazione di un 3 al lancio del dado
DADO
Moneta
1
2
T
X
C
X
3
4
5
6
X
X
X
X
X
X
X
X
r=2; N=12
P(dado=3) = 2/12 = 1/6
Si noti che in questo caso la probabilità non tiene conto del lancio della
moneta (viene definita ‘probabilità marginale’).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
31
Es 1b. Testa al lancio della moneta
DADO
Moneta
1
2
3
4
5
6
X
X
X
X
X
X
T
C
r=6; N=12
P(testa) = 6/12 = 1/2
Si noti che in questo caso la probabilità non tiene conto del lancio del dado
(probabilità marginale).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
32
Es 2. Estrazione di un 3 o di un 4 al lancio del dado
DADO
Moneta
1
2
T
X
C
X
3
4
5
6
X
X
X
X
X
X
dado=3 -> r=2 ; N=12; P(dado=3) = 2/12 = 1/6
dado=4 -> r=2 ; N=12; P(dado=4) = 2/12 = 1/6
p(dado=3 o dado=4) = 1/6 + 1/6 = 2/6 = 1/3
Si noti che in questo caso la probabilità non tiene conto del lancio della
moneta (somma di probabilità marginali).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
33
Es 2. Estraz. di 3 al lancio del dado o testa al lancio della moneta.
DADO
1
Moneta
2
T
C
3
4
5
6
X
X
X
X
X
X
dado=3 -> r=2 ; N=12; P(dado=3) = 2/12 = 1/6
moneta=testa -> r=6 ; N=12; P(testa) = 6/12 = 1/2
p(dado=3 o testa)
= p(dado=3) +p(testa) - p(dado=3 | testa) =
=1/6 + 1/2 – 1/12 = 7/12
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
34
La probabilità del realizzarsi congiunto di due eventi
è data dal prodotto della probabilità del primo evento per la probabilità del
secondo essendosi verificato il primo:
P(A e B) = P(A) P(B|A)
Se due eventi sono indipendenti
P(B|A) = P(B)
e quindi la probabilità che si verifichino entrambi è data dal prodotto delle
probabilità di ciascuno dei due eventi.
P(A e B) = P(A) P(B)
se P(B|A) = P(B)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
35
Due eventi sono indipendenti quando la probabilità che accada il primo non
cambia la probabilità che accada il secondo.
P(A|B) = P(A|nonB) = P(A)
Esempio: La probabilità che sia estratto un numero del lotto non è
influenzata dal fatto che sia stato estratto la settimana precedente.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
36
Es. Estrazione di 3 al lancio del dado e croce al lancio della moneta
I due eventi sono indipendenti: i due lanci non si influenzano reciprocamente.
DADO
Moneta
Dado
1
2
3
4
5
6
T
X
X
X
X
X
X
C
X
X
X
X
X
X
=3 -> r=2 ; N=12; P(dado=3) = 2/12 = 1/6
moneta=testa -> r=6 ; N=12; P(testa) = 6/12 = 1/2
p(dado=3 e testa)
= p(dado=3) * p(testa|dado=3) =
= p(dado=3) * p(testa) = = 1/6 * 1/2 = 1/12
Si noti che nel caso di eventi indipendenti la probabilità dei due eventi è il
prodotto delle probabilità marginali.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
37
Un metodo per valutare se due variabili sono associate è quello di
confrontare la distribuzione di frequenza osservata con quella che ci si
attenderebbe se le due variabili fossero indipendenti.
Nelle pagine successive impareremo a calcolare il numero di eventi attesi
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
38
Un’applicazione del calcolo della probabilità congiunta di eventi indipendenti:
il calcolo del numero di soggetti attesi per la combinazione di due variabili.
Immaginiamo un esperimento su 300 mele prese a caso al mercato, di cui
150 bianche e 150 rosse. 72 mele hanno un verme e 228 no.
colore
Bianche
Rosse
Con verme
R1
Senza verme
R2
C1
C2
T
Se il colore delle mele e la probabilità di trovare un verme fossero
indipendenti, quale probabilità avremmo di avere una mela rossa con un
verme?
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
39
Bianche
Rosse
Con verme
P=(C1/T*R1/T)
P=(C2/T*R1/T)
R1
Senza verme
P=(C1/T*R2/T)
P=(C2/T*R2/T)
R2
C1
C2
T
P (mela rossa) = C2 / T = 150 / 300 = 0,5
P(verme) = R1 / T = 72 / 300 = 0,24
P(mela rossa | verme) = 0,5 x 0,24 = 0,12
Numero di eventi attesi = probabilità * Totale
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
40
colore
Bianche
Con verme
Rosse
0,24 x 0,5 = 0,12
0,24
Senza verme
0,76
0,5
0,5
1
Quante mele mi aspetto rosse e con verme?
colore
Bianche
Con verme
Rosse
0,12 x 300 = 36
72
Senza verme
228
150
150
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
300
41
Esercizio: completare la tabella
colore
Bianche
Con verme
Rosse
0,12 x 300 = 36
72
Senza verme
228
150
150
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
300
42
Come si può usare un valore di probabilità atteso?
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
43
Questa tabella riassume i valori di probabilità associati a ciascuno dei possibili risultati di
un esperimento di 10 lanci di moneta.
π=0.5
N
r
10
10
10
10
10
10
10
10
10
10
10
0
1
2
3
4
5
6
7
8
9
10
q
n-r Coefficiente
Binomiale
10
1
9
10
8
45
7
120
6
210
5
252
4
210
3
120
2
45
1
10
0
1
1-π=0,5
π^r
(1-π)^(N-r)
1,0000000000
0,5000000000
0,2500000000
0,1250000000
0,0625000000
0,0312500000
0,0156250000
0,0078125000
0,0039062500
0,0019531250
0,0009765625
0,0009765625
0,0019531250
0,0039062500
0,0078125000
0,0156250000
0,0312500000
0,0625000000
0,1250000000
0,2500000000
0,5000000000
1,0000000000
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
Valore di
probabilità
0,001
0,010
0,044
0,117
0,205
0,246
0,205
0,117
0,044
0,010
0,001
44
Distribuzione binomiale N=10, p=0.5
0,300
0,250
0,200
0,150
prob
0,100
0,050
0,000
0
1
2
3
4
5
6
7
8
9
10
Conclusione: se il mio esperimento ha dato un risultato poco probabile è prudente che
io chieda di sostituire la moneta per continuare il gioco.
Sono disposto a giocare con una monetina che ai primi 10 lanci ha dato 1 testa e 9 croci?
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
45
Nelle pagine seguenti impareremo ad confrontare il valore atteso e quello osservato nel
caso in cui i dati siano riassunti in una tabella di contingenza (tabelle 2 x 2).
Questa tecnica di analisi dei dati è molto frequentemente utilizzata.
Confrontate ad esempio le tabelle dell’articolo
(file meropenem_vs_ceftazidime.pdf)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
46
Analisi dei dati in tabelle di contingenza
Spesso il risultato di uno studio è riassunto in tabelle come quella che segue:
La tabella presenta la frequenza di osservazioni, categorizzate secondo due variabili.
Neutropenia febbrile
Farmaco
Curato
Non curato
Totale
Proporzione curati
Meropenem
a
b
a+b
a/(a+b)
Ceftazidime
c
d
c+d
c/(c+d)
a+c
b+d
a+b+c+d
TOTALE
Questa tabella corrisponde alla tabella 2 dell’articolo.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
47
Si noti che i totali marginali della tabella (totali di riga e di colonna) sono definiti dal
disegno dello studio e dai suoi risultati principali.
Lo studio clinico in esempio include 409 pazienti, divisi in due gruppi di 206 e 203
pazienti
Il primo risultato dello studio sarà dato dal numero di pazienti che hanno mostrato un
risultato favorevole del trattamento (201 risultati favorevoli, 208 con risultato non
favorevole).
La tabella completata relativamente ai totali marginali è:
risultato
Farmaco
Curato
Non curato
Totale
Meropenem
a
b
206
Ceftazidime
c
d
203
201
208
409
TOTALE
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
48
Successivamente inserisco i valori delle diverse celle
La tabella completa:
risultato
Farmaco
Curato
Non curato
Totale
Meropenem
112
94
206
Ceftazidime
89
114
203
TOTALE
201
208
409
Si noti che, una volta definito un valore per una delle quattro celle, resta definito anche il
valore delle celle restanti, poiché i totali marginali sono fissati. In una tabella 2*2 una sola
delle celle è libera di assumere qualsiasi valore, le restanti sono fissate dai totali
marginali.
In altri termini, le tabelle 2*2 hanno un grado di libertà.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
49
RIEPILOGO
L’analisi di una tabella di contingenza prevede:
- il calcolo della probabilità di successo separatamente per i due farmaci
- il calcolo di indicatori di associazione tra le due variabili;
- la valutazione della probabilità di osservare la tabella in esame data l’ipotesi nulla (test
di significatività).
Conclusioni
- Se la probabilità è < 0.05 ( 5%), concludiamo che uno dei due farmaci è più efficace
dell’altro
- Se la probabilità è >= 0.05 ( 5%), concludiamo che i due farmaci sono equivalenti
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
50
Probabilità di guarigione:
Neutropenia febbrile
Farmaco
Probabilità
Curato
Non curato
Totale
di essere curati
Meropenem
a
b
a+b
a/(a+b)
Ceftazidime
c
d
c+d
c/(c+d)
a+c
b+d
a+b+c+d
TOTALE
Neutropenia febbrile
Farmaco
Probabilità
Curato
Non curato
Totale
di essere curati
Meropenem
112
94
206
112/206 = 0,54
Ceftazidime
89
114
203
89/203 = 0,44
TOTALE
201
208
409
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
51
Indicatori di associazione:
Neutropenia febbrile
Farmaco
Curato
Non curato
Totale
Meropenem
a
b
a+b
Ceftazidime
c
d
c+d
a+c
b+d
a+b+c+d
TOTALE
La misura di associazione usata più frequentemente è l’ Odds Ratio
(Rapporto Crociato), abbreviato con OR.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
52
Odds Ratio (OR) si calcola con la seguente formula
a×d
OR =
b×c
L’intervallo di valori validi per OR è:
0 <= OR <= ∞
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
53
OR = ( 112 * 114 ) / (89 * 94) = 1,53
Interpretazione:
le due variabili sembrano associate: i pazienti trattati con meropenem mostrarono una
probabilità di essere trattati con successo1,53 volte maggiore di quella dei pazienti trattati
con Ceftazidime.
Dobbiamo considerare questa differenza come
o reale?
o dovuta al caso?
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
54
Test di significatività.
Il test adottato per risolvere il quesito è il Chi-quadro (χ2).
Questo test fornisce la probabilità di osservare una tabella come quella in esame o una
tabella più ‘estrema’ (cioè con un OR maggiore) quando i due farmaci sono equivalenti.
In altri termini ci dice quanto è probabile osservare questi dati solo per effetto del caso
Esamineremo solo la formula approssimata di questo test, che si basa sulla misura della
differenza tra il numero di osservazioni in ciascuna cella della tabella ed il corrispondente
numero di osservazioni attese.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
55
Calcolo del numero di osservazioni attese
H0: Le due variabili non sono associate.
Se due eventi sono indipendenti
P(B|A) = P(B)
Quindi
La probabilità del realizzarsi congiunto di due eventi è data dal prodotto della probabilità
di ciascuno di essi.
P(A e B) = P(A) P(B)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
56
Attesi
Dove
E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T
Neutropenia febbrile
Farmaco
Curato
Non curato
Totale
Meropenem E(a) = (a+b)*(a+c)/T E(b) =(a+b)*(b+d)/T
a+b
Ceftazidime E(c ) =(c+d)*(a+c)/T E(d) =(c+d)*(b+d)/T
c+d
TOTALE
a+c
b+d
T
Neutropenia febbrile
Farmaco
Curato
Non curato
Totale
Meropenem
201 * 206 / 409
208 * 206 / 409
206
Ceftazidime
201 * 203 / 409
208 * 203 / 409
203
201
208
409
TOTALE
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
57
Attesi
Dove
E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T
Neutropenia febbrile
Farmaco
Curato
Non curato
Totale
Meropenem
101,2
104,8
206
Ceftazidime
99,8
103,2
203
TOTALE
201
208
409
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
58
La formula approssimata è valida quando il numero di osservazioni non è troppo piccolo
(in ogni cella Atteso > 5)
χ2= Σ
χ2=
χ2=
(oss-att)2
att
(a-E(a)) 2
E(a)
(b-E(b))2
+
E(b)
(112-102,2) 2
101,2
(c-E(c)) 2
+
E(c)
(94-104,8)2
+
104,8
(d-E(d)) 2
+
E(d)
(89-99,8) 2
+
99,8
(114-103,2) 2
+
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
103,2
59
Il valore atteso delle restanti celle viene calcolato in modo analogo o per differenza dai
totali marginali.
Il risultato:
χ2=4,54
p= 0,033
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
60
Come si usa il valore χ2 ?
Il valore di probabilità corrispondente al valore della statistica χ2 si legge su apposite
tabelle, dato il valore di χ2 ed il numero di gradi di libertà.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
61
Questo è il disegno della curva di probabilità della distribuzione χ2
La probabilità corrisponde all’area annerita.
Se il valore di χ2 sale, la probabilità diminuisce
Attenzione, questa curva è calcolata per condizioni diverse da quelle della tabella che
segue. Non cercate corrispondenza tra i numeri, è solo un esempio grafico.
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
62
Tabella della distribuzione χ2
Questa tabella può essere usata SOLO per il χ2 ottenuto da tabelle 2x2 (con 1 grado di
libertà)!
Analoghe tavole sono presenti in ogni testo di statistica.
Probabilità corrispondente a X2 maggiore dei seguenti valori critici
p=
1 g.l.
Χ2=
0,1
0,05
0,025
0,01
0,001
2,706
3,841
5,024
6,635
10,827
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
63
Probabilità corrispondente a X2 maggiore dei seguenti valori critici
p=
1 g.l.
Χ2=
0,1
0,05
0,025
0,01
0,001
2,706
3,841
5,024
6,635
10,827
Se Χ2> 3,841 la probabilità è inferiore a 0,05
Se Χ2<= 3,841 la probabilità è superiore a 0,05
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
64
Sviluppiamo un secondo esempio
Il livello di probabilità a cui decidiamo di considerare diversi i farmaci si chiama ‘errore di primo tipo’.
L’errore di primo tipo era stato fissato, come di consueto, a 0.05
La tabella dei valori osservati è:
Ulcera Peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
23
7
30
Tritiozina
18
13
31
TOTALE
41
20
61
OR = (23 * 13) / ( 18 * 7) = 2,37
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
65
Il calcolo dei valori attesi porta a questi risultati.
Ulcera Peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
20,16
9,84
30
Tritiozina
20,84
10,16
31
TOTALE
41
20
61
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
66
Il calcolo della statistica χ2
χ2=
(23-20,16)2
20,16
+
(7-9,84)2
9,84
+
(18-20,84) 2
20,84
+
(13-10,16) 2
10,16
=
= 2,40
Interpretazione:
Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di libertà corrisponde ad un valore di
probabilità uguale a 0,12.
Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi nulla.
Posso anche calcolare il valore di probabilità esatto utilizzando una funzione di Excel:
dato χ2 = 2,400635 ed 1 grado di libertà calcolo:
p = 0,121286
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
67
Esercizio: calcolate OR e χ2 sui dati della seguente tabella:
Ulcera Peptica
Farmaco
Curato
Non curato
Totale
Pirenzepina
230
70
300
Tritiozina
180
130
310
TOTALE
410
200
610
Confrontate i risultati con quelli ottenuti dalla tabella precedente.
Commentate le eventuali differenze.
Possiamo definire la Potenza Statistica di uno studio come la capacità di mettere in evidenza come
‘statisticamente significativo’ un risultato.
La potenza statistica è proporzionale alla dimensione dello studio (oltre che ad altri fattori che non
prendiamo adesso in considerazione).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
68
Meropenem versus ceftazidime in the treatment of cancer patients with febrile neutropenia: a randomized, doubleblind trial.
Feld R, DePauw B, Berman S, Keating A, Ho W.
J Clin Oncol. 2000 Nov 1;18(21):3690-8.
Princess Margaret Hospital, University of Toronto, Toronto, Ontario, Canada. [email protected]
PURPOSE: To compare meropenem, a carbapenem antibiotic, with ceftazidime for the empirical treatment of patients with febrile
neutropenia. PATIENTS AND METHODS: A prospective, double-blind, randomized clinical trial was conducted at medical centers in
North America and the Netherlands. A total of 411 cancer patients (196 treated with meropenem and 215 treated with ceftazidime), who had
471 episodes of fever, participated in the trial. For each neutropenic episode, patients were allocated at random to receive intravenous
administration of meropenem (1 g every 8 hours) or ceftazidime (2 g every 8 hours). Treatment could be modified at any time. Key end
points were clinical and bacteriologic outcomes, eradication of infecting organism, and adverse events. RESULTS: The rate of successful
clinical response at the end of therapy was significantly higher for patients treated with meropenem than for those on ceftazidime for all
episodes (54% v 44%, respectively) and for episodes of fever of unknown origin (62% v 46%, respectively), but differences between groups
were not statistically significant for clinically defined or microbiologically defined infections. Meropenem was significantly more effective
than ceftazidime in severely neutropenic (</= 100 cells/microliter) patients (55% v 43%, respectively), bone marrow transplant patients
(73% v 27%, respectively), and patients given antibiotic prophylaxis before study entry (71% v 52%, respectively). Common adverse effects
of meropenem and ceftazidime therapy were rash, diarrhea, and nausea and vomiting. CONCLUSION: Monotherapy with meropenem
represents a suitable choice for initial empirical antibiotic therapy for febrile episodes in neutropenic cancer patients.
Il testo integrale è disponibile sul sito del materiale didattico
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
69
Esempio: studio caso controllo per l’indagine di una epidemia di diarrea di
origine batterica in un ospedale
Diarrea da clostridium difficile
chirurgia
Casi
Controlli
40
40
Totale
addominale
Si
No
TOTALE
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
70
Diarrea da clostridium difficile
chirurgia
Casi
Controlli
Totale
addominale
Si
21
No
59
TOTALE
40
40
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
80
71
Diarrea da clostridium difficile
chirurgia
Casi
Controlli
Totale
Si
16
5
21
No
24
35
59
TOTALE
40
40
80
addominale
OR=
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
72
Tabella con i valori attesi
Diarrea da clostridium difficile
chirurgia
Casi
Controlli
Totale
Si
10,5
10,5
21
No
29,5
29,5
59
40
40
80
addominale
TOTALE
OR= 4,67
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
73
Soglia di significatività statistica fissata al 5%
OR= 4,67
Chi2 = 7,81
Probabilità corrispondente a X2 maggiore dei seguenti valori critici
p=
1 g.l.
Χ2=
0,1
0,05
0,025
0,01
0,001
2,706
3,841
5,024
6,635
10,827
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
74
Soglia di significatività statistica fissata al 5%
OR= 4,67
Chi2 = 7,81
0,001 < p < 0,01
-> (p= 0,0052 se calcolato con Excel)
Conclusione:
l’aumento del rischio di malattia per chi ha subito un intervento di chirurgia
addominale è statisticamente significativo (cioè non può essere attribuito al
caso).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
75
Intervalli di confidenza
Una statistica calcolata su un campione di soggetti (detta statistica campionaria) è
affetta da una imprecisione, detta ‘errore campionario’.
Si osserva facilmente che campioni ripetuti dallo stesso gruppo di soggetti danno medie
campionarie diverse.
L’intervallo di confidenza fornisce una indicazione della precisione della statistica stimata.
‘L’intervallo di confidenza fornisce un’espressione formale dell’incertezza che deve
essere aggiunta alla statistica campionaria a causa del semplice errore di
campionamento.’ (Armitage).
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
76
L’intervallo di confidenza della media campionaria è un intervallo di valori intorno alla
media campionaria;
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
77
Estrazione di 50 campioni di numerosità 20 da distribuzione gaussiana con µ=0 e δ=1.
Le barre rappresentano l’intervallo di confidenza al 95%
1 .0
0 .5
M
D
0 .0
-0 .5
-1 .0
0
10
20
30
40
50
ID
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
78
L’intervallo di confidenza è definito in modo tale da soddisfare la seguente equazione:
[X - Zα/2 *(σ/√n)] < µ < [X + Zα/2 *(σ/√n)].
Dove:
X: media campionaria
µ: media della popolazione
(σ/√n): errore standard della media (cioè deviazione standard della media campionaria)
Zα/2= valore della deviata normale standardizzata corrispondente all’errore di 1° tipo
scelto.
Limite fiduciale superiore = X + Zα/2 *(σ/√n).
Limite fiduciale inferiore = X - Zα/2 *(σ/√n).
Di solito l’intervallo di confidenza intorno alla media viene indicato come: X ± Zα/2 *(σ/√n)
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
79
Intervallo di confidenza = X ± Zα/2 *(σ/√n).
Statistica
(es. media)
‘sicurezza’
dell’intervallo
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
Variabilità del
campione (Errore
Standard)
80
Esempio: calcolo dell’intervallo di confidenza:
N
15
Media campionaria
149.133 mmHg (calcolo omesso)
µ=145 mmHg
δ=2,53 mmHg
Limite superiore = 149.133 + 1.960 *(2,53/√15) = 147,85
Limite inferiore = 149.133 – 1.960 *(2,53/√15) = 150,41
147,85 <= µ <=150,41
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
81
Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente
formula:
IC (log(OR)) = log(OR) ± Zα/2 * ES(log(OR))
log(OR) = logaritmo dell’ Odds Ratio
ES (log(OR)) =
1 1 1 1
+ + +
a b c d
OR ±
IC (OR ) = e
Ζα2 *ES (log(OR ))
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
82
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
83
Accuratezza: stima senza errore sistematico
Precisione: stima senza errore casuale
una stima precisa ha un intervallo di confidenza più ristretto di una stima imprecisa
Corso di laurea triennale ad indirizzo sanitario - Corso di Statistica Medica Elementi di calcolo delle probabilità ed inferenza statistica
84