Interpretazione dei fenomeni in ambito sanitario

Regione del Veneto - Azienda Ospedaliera di Padova
STRUTTURA INTERAZIENDALE DI FORMAZIONE E PROGETTI
INTERNAZIONALI
RESPONSABILE DOTT. GIOVANNI PUTOTO
Interpretazione dei fenomeni in
ambito sanitario: dal
campione alla popolazione
Brugnaro Luca - Boscaro Gianni
Una vostra amica, laureanda in Medicina e Chirurgia, vi fa
leggere la sua tesi di laurea per verificare le analisi dei
dati da lei condotte.
Nella tesi, tra le altre cose, viene raccontato che 35
persone sane hanno seguito per 4 settimane una certa
dieta.
A queste persone è stato dosato il colesterolo prima
dell’inizio e alla fine della dieta.
La vostra amica presenta i risultati in questo modo:
“Dato che la media delle 35 misurazioni di colesterolo
effettuate prima dell’inizio della dieta è risultata uguale a
230,4 mg/dl mentre la media dopo quattro settimane di
dieta è risultata uguale a 203,6 mg/dl possiamo
concludere che la dieta considerata è efficace (almeno in
media) per ridurre il colesterolo”
Domande
• Ci sono altri modi ragionevoli per valutare l’effetto della
dieta sul colesterolo?
• Se ripeto la dieta a soggetti diversi o agli stessi in
momenti diversi il risultato e lo stesso?
• Vi è un intervallo dove è plausibile supporre si trovi la
differenza tra le due medie di colesterolo?
• Se al posto di 35 persone ne avessimo prese 350 o
3500 la differenza sarebbe stata la stessa?
• Se fosse anche uguale la differenza è chiaro che un
campione di 350 o 3500 persone da più informazioni ma
questo non si evince dalla differenza delle medie
• …
Inferenza
Da un punto di vista filosofico, si tratta di tecniche
matematiche per quantificare il processo di
apprendimento tramite l'esperienza.
Procedimento per cui si inducono le
caratteristiche di una popolazione
dall'osservazione di una parte di essa,
detta campione, selezionata solitamente
mediante un esperimento casuale (aleatorio).
Cos’è inferenza?
Informazioni fornite dell’esperienza
[indizi]
popolazione
Formulazione di ipotesi
“a priori”
Test di verifica d’ipotesi
“statistica inferenziale”
Informazione
“risultato del test”
Evidenza/Conoscenza
campione
popolazione
Ragionevoli
congetture
Esempio
Data una popolazione di una stanza composta da:
6 uomini e 4 donne, utilizzando le regole del
calcolo delle probabilità possiamo dedurre che
se scegliamo una persona a caso dalla stanza,
la probabilità che essa sia donna è …
Si ha invece un problema di inferenza statistica se
abbiamo in una stanza N persone di cui non
conosciamo la composizione per sesso e ne
scegliamo n (n<N) e da queste n vogliamo
indurre (inferire) sulla composizione del sesso
delle persone presenti nella stanza
Esempio
Valutare il quantitativo di principio attivo
contenuto all’interno delle copresse del
farmaco X
Stimare la risposta ipotensiva del farmaco Y
nella popolazione Ɵ
Confrontare differenze significative tra due
popolazioni in termini di peso, altezza,…
…
Stima intervallare
Supponiamo di voler stimare un parametro
incognito θ che caratterizza la
distribuzione in popolazione del carattere
X:
• nella stima puntuale, dal campione
osservato s ∈S si ottiene una stima t del
parametro θ,
• ossia un singolo valore , che, tuttavia, può
differire in modo rilevante da θ stesso
Stima intervallare
Per rappresentare l’incertezza legata alla stima, è
opportuno accompagnare la stima puntuale con
una misura di variabilità dello stimatore nello
spazio dei campioni (la sua varianza) ⇒ tale
obiettivo si può ottenere attraverso la stima
intervallare
• La stima intervallare consiste nel calcolare, sulla
base dei dati di un campione, un intervallo di
valori [Lim Inf, Lim Sup], per cui si può affermare
sotto determinate ipotersi che il valore del
parametro cade al suo interno, con una
confidenza pari a 1−α (assegnato)
Media (stima intervallare)
• Le medie campionarie Xn sono stime dei
possibili valori della media della popolazione (µ)
• Dal calcolo delle probabilità sappiamo che le
medie campionarie sono variabili casuali
gaussiane con media µ e varianza σ2/n
• La gaussiana è una curva simmetrica
allora…
Standardizzazione
Una procedura statistica attraverso la quale è possibile
rendere confrontabili variabili identiche appartenenti a
distribuzioni diverse, ma anche variabili diverse, o
variabili espresse in unità di misura diverse.
Consiste nel togliere ad ogni osservazione la media e
dividerla per la deviazione standard.
Un dato così trasformato si chiama punto standard o punto
z.
Quanto vale la media della nuova distribuzione e la
devizione standard ?
Media (stima intervallare)
• P( a < (Xn- µ) *√n /σ < b) = 1 – α
• P( a < Z < b) = 1 – α con Z ~ N(0,1)
A questo punto scelto α: a= Z α/2 e b=Z1-α/2
• µ ͼ Xn ± Z1-α/2 σ / √n
Media (stima intervallare) con
varianza ignota
• sn2 stimatore di σ2
• µ ͼ Xn ± t1-α/2 (n-1) sn / √n
Lunghezza dell’intervallo di
confidenza
• L(n, α) = 2 Z1-α/2 σ / √n
Come allora calcolare la numerosità del
campione per avere intervalli inferiori ad
valore prefissato C
• n > 4 (Z1-α/2 σ / C)2
Esercizio
• In un esame di psicologia vengono
misurati i tempi di reazione di n=125
soggetti e si rileva un tempo medio di 1,1
secondi. Sappiamo da studi precedenti
che σ = 0,04 secondi.
• Quante devono essere le osservazioni per
avere un’ampiezza dell’intervallo pari a
0,01 secondi con una confidenza pari al
99% ?
IC per le proporzioni
• Xi distribuzioni bernouliane di parametro p
incognito
• Σ Xi ~ Bin(n,p) e Bin(n,p) si approssima ad
una normale per n grande (n>30)
Allora possiamo scrivere:
• p ͼ pn ± z1-α/2 √((pn)(1-pn)/n)
Esempio
Benjamin Spock è stato uno dei più famosi pediatri del secondo dopo guerra. In particolare i suoi libri ed articoli hanno
contribuito notevolmente allo sviluppo di una pediatria e pedagogia meno autoritaria, più orientata verso i bisogni
dei bambini che verso le regole da rispettare.
Nel 1969 il dott. Spock fu processato da un tribunale federale statunitense per cospirazione contro il Military Service Act
(la legge sul servizio di leva). Il processo, era la conseguenza della partecipazione di B. Spock al movimento
contro la guerra nel Vietnam.
La formazione delle giurie negli Stati Uniti era, ed è, un operazione complicata.
In particolare nel caso in esame, prima dovevano essere estratti da una lista contenente centinaia di migliaia di
eleggibili 350 possibili giurati. La legge prevedeva che l'estrazione doveva essere casuale e fatta in maniera tale
da garantire a ciascun eleggibile la stessa probabilità di estrazione. Poi, sia l'accusa che la difesa potevano
ricusare parte di questi potenziali giurati e la giuria effettiva veniva poi estratta tra i giurati non eliminati.
Il processo fu a dato ad un giudice federale di nome Ford i cui compiti comprendevano l'estrazione dei 350 potenziali
giurati.
Era convinzione comune che giurati femminili avrebbero avvantaggiato la difesa. Sia per un atteggiamento, in media,
meno militarista delle donne sia per il prestigio del dott. Spock tra il pubblico femminile.
Il 53% della popolazione degli eleggibili era composto di donne. Destò sorpresa e polemica il fatto che solo 102 su 350
potenziali giurati risultarono donne. Il giudice Ford si difese affermando che il fatto che 102 donne erano state
estratte dimostrava che non c'era stato nessun tentativo di escludere i possibili giurati di sesso femminile.
È plausibile che il giudice Ford abbia seguito la legge ed estratto solo 102 donne?
I dati: N = 300:000 e D = 159:000
(Tratto dalle lezioni di inferenza del Prof. Masarotto Guido)
Verifica ipotesi di indipendenza per
tabelle a doppia entrata
Nel corso di uno studio sulla determinazione di possibili fattori
prognostici (predittivi) per alcune malattia otorino-laringoiatriche su
1398 bimbi o ragazzi sono state rilevate le seguenti due variabili:
• presenza (in un tampone nasale) di Streptococcus pyogenes;
variabile dicotomica con modalità “portatore”e “non portatore”
• stato delle tonsille rilevato utilizzando la scala qualitativa ordinata:
– (i) normali (abbreviato in +),
– (ii) leggermente ingrossate (++) e
– (iii) ingrossate (+++).
I bimbi erano stati scelti casualmente tra tutti gli individui tra i 3 e i 15 di
età residenti in un ampia e popolosa regione inglese.
Esiste o no una qualche forma di associazione tra le due variabili?
Test di verifica d’ipotesi
Determinare test e
livello di significatività (α)
Calcolo della statistica test (Tteo)
Calcolare la statistica (Toss)
dai dati osservati
(campione)
TEST
Tteo :: Toss
Accetto l’ipotesi H0
Rifiuto l’ipotesi H0
Tabelle di contingenza - esempio
Esito Infartuati
Non
infartuati
Farmaco
Placebo
239
10795
Aspirina
139
10898
Vi è indipendenza tra l’impiego dell’aspirina nella prevenzione degli infarti cardiaci?
Errori, errori … errori
Rifiuto H0
Non rifiuto H0
È vera H0
Errore di I°tipo
α
Nessun errore
(1- α)
È falsa H0
Nessun errore
(1- α)
Errore di II°tipo
ϐ
C’è un prezzo da pagare
• Indipendenza delle osservazioni
• Distribuzione normale dei dati
In assenza del secondo criterio si possono
adottare statistiche di tipo non parametrico
che analizzano i dati per ranghi (vedi
Wilcoxon-Mann-Whitney)