Regione del Veneto - Azienda Ospedaliera di Padova STRUTTURA INTERAZIENDALE DI FORMAZIONE E PROGETTI INTERNAZIONALI RESPONSABILE DOTT. GIOVANNI PUTOTO Interpretazione dei fenomeni in ambito sanitario: dal campione alla popolazione Brugnaro Luca - Boscaro Gianni Una vostra amica, laureanda in Medicina e Chirurgia, vi fa leggere la sua tesi di laurea per verificare le analisi dei dati da lei condotte. Nella tesi, tra le altre cose, viene raccontato che 35 persone sane hanno seguito per 4 settimane una certa dieta. A queste persone è stato dosato il colesterolo prima dell’inizio e alla fine della dieta. La vostra amica presenta i risultati in questo modo: “Dato che la media delle 35 misurazioni di colesterolo effettuate prima dell’inizio della dieta è risultata uguale a 230,4 mg/dl mentre la media dopo quattro settimane di dieta è risultata uguale a 203,6 mg/dl possiamo concludere che la dieta considerata è efficace (almeno in media) per ridurre il colesterolo” Domande • Ci sono altri modi ragionevoli per valutare l’effetto della dieta sul colesterolo? • Se ripeto la dieta a soggetti diversi o agli stessi in momenti diversi il risultato e lo stesso? • Vi è un intervallo dove è plausibile supporre si trovi la differenza tra le due medie di colesterolo? • Se al posto di 35 persone ne avessimo prese 350 o 3500 la differenza sarebbe stata la stessa? • Se fosse anche uguale la differenza è chiaro che un campione di 350 o 3500 persone da più informazioni ma questo non si evince dalla differenza delle medie • … Inferenza Da un punto di vista filosofico, si tratta di tecniche matematiche per quantificare il processo di apprendimento tramite l'esperienza. Procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di una parte di essa, detta campione, selezionata solitamente mediante un esperimento casuale (aleatorio). Cos’è inferenza? Informazioni fornite dell’esperienza [indizi] popolazione Formulazione di ipotesi “a priori” Test di verifica d’ipotesi “statistica inferenziale” Informazione “risultato del test” Evidenza/Conoscenza campione popolazione Ragionevoli congetture Esempio Data una popolazione di una stanza composta da: 6 uomini e 4 donne, utilizzando le regole del calcolo delle probabilità possiamo dedurre che se scegliamo una persona a caso dalla stanza, la probabilità che essa sia donna è … Si ha invece un problema di inferenza statistica se abbiamo in una stanza N persone di cui non conosciamo la composizione per sesso e ne scegliamo n (n<N) e da queste n vogliamo indurre (inferire) sulla composizione del sesso delle persone presenti nella stanza Esempio Valutare il quantitativo di principio attivo contenuto all’interno delle copresse del farmaco X Stimare la risposta ipotensiva del farmaco Y nella popolazione Ɵ Confrontare differenze significative tra due popolazioni in termini di peso, altezza,… … Stima intervallare Supponiamo di voler stimare un parametro incognito θ che caratterizza la distribuzione in popolazione del carattere X: • nella stima puntuale, dal campione osservato s ∈S si ottiene una stima t del parametro θ, • ossia un singolo valore , che, tuttavia, può differire in modo rilevante da θ stesso Stima intervallare Per rappresentare l’incertezza legata alla stima, è opportuno accompagnare la stima puntuale con una misura di variabilità dello stimatore nello spazio dei campioni (la sua varianza) ⇒ tale obiettivo si può ottenere attraverso la stima intervallare • La stima intervallare consiste nel calcolare, sulla base dei dati di un campione, un intervallo di valori [Lim Inf, Lim Sup], per cui si può affermare sotto determinate ipotersi che il valore del parametro cade al suo interno, con una confidenza pari a 1−α (assegnato) Media (stima intervallare) • Le medie campionarie Xn sono stime dei possibili valori della media della popolazione (µ) • Dal calcolo delle probabilità sappiamo che le medie campionarie sono variabili casuali gaussiane con media µ e varianza σ2/n • La gaussiana è una curva simmetrica allora… Standardizzazione Una procedura statistica attraverso la quale è possibile rendere confrontabili variabili identiche appartenenti a distribuzioni diverse, ma anche variabili diverse, o variabili espresse in unità di misura diverse. Consiste nel togliere ad ogni osservazione la media e dividerla per la deviazione standard. Un dato così trasformato si chiama punto standard o punto z. Quanto vale la media della nuova distribuzione e la devizione standard ? Media (stima intervallare) • P( a < (Xn- µ) *√n /σ < b) = 1 – α • P( a < Z < b) = 1 – α con Z ~ N(0,1) A questo punto scelto α: a= Z α/2 e b=Z1-α/2 • µ ͼ Xn ± Z1-α/2 σ / √n Media (stima intervallare) con varianza ignota • sn2 stimatore di σ2 • µ ͼ Xn ± t1-α/2 (n-1) sn / √n Lunghezza dell’intervallo di confidenza • L(n, α) = 2 Z1-α/2 σ / √n Come allora calcolare la numerosità del campione per avere intervalli inferiori ad valore prefissato C • n > 4 (Z1-α/2 σ / C)2 Esercizio • In un esame di psicologia vengono misurati i tempi di reazione di n=125 soggetti e si rileva un tempo medio di 1,1 secondi. Sappiamo da studi precedenti che σ = 0,04 secondi. • Quante devono essere le osservazioni per avere un’ampiezza dell’intervallo pari a 0,01 secondi con una confidenza pari al 99% ? IC per le proporzioni • Xi distribuzioni bernouliane di parametro p incognito • Σ Xi ~ Bin(n,p) e Bin(n,p) si approssima ad una normale per n grande (n>30) Allora possiamo scrivere: • p ͼ pn ± z1-α/2 √((pn)(1-pn)/n) Esempio Benjamin Spock è stato uno dei più famosi pediatri del secondo dopo guerra. In particolare i suoi libri ed articoli hanno contribuito notevolmente allo sviluppo di una pediatria e pedagogia meno autoritaria, più orientata verso i bisogni dei bambini che verso le regole da rispettare. Nel 1969 il dott. Spock fu processato da un tribunale federale statunitense per cospirazione contro il Military Service Act (la legge sul servizio di leva). Il processo, era la conseguenza della partecipazione di B. Spock al movimento contro la guerra nel Vietnam. La formazione delle giurie negli Stati Uniti era, ed è, un operazione complicata. In particolare nel caso in esame, prima dovevano essere estratti da una lista contenente centinaia di migliaia di eleggibili 350 possibili giurati. La legge prevedeva che l'estrazione doveva essere casuale e fatta in maniera tale da garantire a ciascun eleggibile la stessa probabilità di estrazione. Poi, sia l'accusa che la difesa potevano ricusare parte di questi potenziali giurati e la giuria effettiva veniva poi estratta tra i giurati non eliminati. Il processo fu a dato ad un giudice federale di nome Ford i cui compiti comprendevano l'estrazione dei 350 potenziali giurati. Era convinzione comune che giurati femminili avrebbero avvantaggiato la difesa. Sia per un atteggiamento, in media, meno militarista delle donne sia per il prestigio del dott. Spock tra il pubblico femminile. Il 53% della popolazione degli eleggibili era composto di donne. Destò sorpresa e polemica il fatto che solo 102 su 350 potenziali giurati risultarono donne. Il giudice Ford si difese affermando che il fatto che 102 donne erano state estratte dimostrava che non c'era stato nessun tentativo di escludere i possibili giurati di sesso femminile. È plausibile che il giudice Ford abbia seguito la legge ed estratto solo 102 donne? I dati: N = 300:000 e D = 159:000 (Tratto dalle lezioni di inferenza del Prof. Masarotto Guido) Verifica ipotesi di indipendenza per tabelle a doppia entrata Nel corso di uno studio sulla determinazione di possibili fattori prognostici (predittivi) per alcune malattia otorino-laringoiatriche su 1398 bimbi o ragazzi sono state rilevate le seguenti due variabili: • presenza (in un tampone nasale) di Streptococcus pyogenes; variabile dicotomica con modalità “portatore”e “non portatore” • stato delle tonsille rilevato utilizzando la scala qualitativa ordinata: – (i) normali (abbreviato in +), – (ii) leggermente ingrossate (++) e – (iii) ingrossate (+++). I bimbi erano stati scelti casualmente tra tutti gli individui tra i 3 e i 15 di età residenti in un ampia e popolosa regione inglese. Esiste o no una qualche forma di associazione tra le due variabili? Test di verifica d’ipotesi Determinare test e livello di significatività (α) Calcolo della statistica test (Tteo) Calcolare la statistica (Toss) dai dati osservati (campione) TEST Tteo :: Toss Accetto l’ipotesi H0 Rifiuto l’ipotesi H0 Tabelle di contingenza - esempio Esito Infartuati Non infartuati Farmaco Placebo 239 10795 Aspirina 139 10898 Vi è indipendenza tra l’impiego dell’aspirina nella prevenzione degli infarti cardiaci? Errori, errori … errori Rifiuto H0 Non rifiuto H0 È vera H0 Errore di I°tipo α Nessun errore (1- α) È falsa H0 Nessun errore (1- α) Errore di II°tipo ϐ C’è un prezzo da pagare • Indipendenza delle osservazioni • Distribuzione normale dei dati In assenza del secondo criterio si possono adottare statistiche di tipo non parametrico che analizzano i dati per ranghi (vedi Wilcoxon-Mann-Whitney)