Appunti di statistica medica AA 2016 Contents TEOREMA DEL LIMITE CENTRALE ED ERRORE STANDARD . . . . . . . . . . . . . . 1 INTERVALLO DI CONFIDENZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 IL TEST DI IPOTESI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 L’IPOTESI NULLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Un esempio: il test t di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Un esempio di test di ipotesi con dati nominali: il test del χ2 . . . . . . . . . . . . . . 9 TEOREMA DEL LIMITE CENTRALE ED ERRORE STANDARD Supponiamo di avere una popolazione composta da 100.000 individui e di aver rilevato l’altezza di tutte le unità statistiche. Questa è la distribuzione delle altezze. 15000 10000 5000 0 Frequenza assoluta 20000 Distribuzione della frequenza delle altezze nella popolazione 120 140 160 180 200 220 Altezza (cm) La media e la deviazione standard della popolazione sono 169±10 cm. Estraiamo casualmente 100 campioni dalla popolazione, ciascuno composto da 16 unità, e raggruppiamo i dati individuali in una tabella. Vediamo i primi 10 campioni ottenuti. In ogni riga ci sono i valori individuali dei soggetti di ciascuno dei campioni. 1 ## ## ## ## ## ## ## ## ## ## ## 1 2 3 4 5 6 7 8 9 10 1 181 171 166 185 171 175 171 171 160 187 2 173 163 170 160 159 162 166 189 171 146 3 160 143 162 180 165 167 154 157 181 153 4 162 156 158 177 168 182 167 171 166 178 5 169 169 169 144 180 154 162 180 165 176 6 171 159 155 165 178 167 169 183 180 169 7 176 180 160 179 169 172 159 186 170 181 8 161 175 173 173 163 182 180 168 172 164 9 168 185 181 161 180 175 160 174 172 164 10 164 154 172 168 188 174 176 164 167 175 11 154 157 164 155 181 158 179 170 172 161 12 162 175 180 171 163 169 191 165 161 176 13 158 172 162 171 177 189 176 156 158 171 14 179 151 189 162 167 173 183 157 169 171 15 171 174 169 186 173 170 163 166 152 183 16 160 161 169 156 174 174 159 171 163 178 Facciamo ora la media delle altezze in ciascun campione ed aggiungiamola come ultima colonna alla tabella. ## ## ## ## ## ## ## ## ## ## ## 1 2 3 4 5 6 7 8 9 10 1 181 171 166 185 171 175 171 171 160 187 2 173 163 170 160 159 162 166 189 171 146 3 160 143 162 180 165 167 154 157 181 153 4 162 156 158 177 168 182 167 171 166 178 5 169 169 169 144 180 154 162 180 165 176 6 171 159 155 165 178 167 169 183 180 169 7 176 180 160 179 169 172 159 186 170 181 8 161 175 173 173 163 182 180 168 172 164 9 168 185 181 161 180 175 160 174 172 164 10 164 154 172 168 188 174 176 164 167 175 11 154 157 164 155 181 158 179 170 172 161 12 162 175 180 171 163 169 191 165 161 176 13 158 172 162 171 177 189 176 156 158 171 14 179 151 189 162 167 173 183 157 169 171 15 171 174 169 186 173 170 163 166 152 183 16 media 160 167 161 165 169 169 156 168 174 172 174 171 159 170 171 170 163 167 178 171 Possiamo osservare che la media delle altezze nei primi 10 campioni è 169 cm (cioè ugualealla media della popolazione) solo una volta, ma che comunque tutti i valori sono vicini alla media della popolazione. Per avere una visione di insieme dei risultati vediamo la distribuzione di frequenza delle medie dei campioni. 15 10 5 0 Frequenza assoluta 20 Distribuzione della frequenza delle altezze della media dei campioni 160 165 170 Altezza (cm) 2 175 180 La media e la deviazione standard delle 100 medie campionarie (cioè dei campioni) è 169±2.5 cm: la media delle medie campionarie tende quindi ad essere uguale alla media della popolazione, con una deviazione standard campionaria è molto più stretta della deviazione standard della popolazione. In linea generale possiamo affermare che con l’aumentare del numero di campioni, la media delle medie campionarie tende a coincidere con quella della popolazione. Questa proprietà è definita “TEOREMA DEL LIMITE CENTRALE”. La variabilità delle medie campionarie è invece nettamente ridotta rispetto alla variabilità della popolazione. In altri termini gli individui della popolazione possono differire tra loro molto di più di quanto possano essere diverse tra loro le medie di campioni estratti della medesima popolazione. La variabilità delle medie della popolazione è espressa come deviazione standard. La variabilità delle medie √ campionarie è invece definita ERRORE STANDARD, che può essere calcolato come sd/ n, dove ‘sd’ è la devizione standard della popolazione ed ‘n’ è il numero di soggetti inclusi in ciascun campione. Nel nostro √ esempio, la deviazione standard della popolazione è 10, il numero di soggetti della popolazione 16. La 16 è 4, quindi ci possiamo aspettare un errore standard di 10/4=2.5. Esattamente quello che osserviamo con i nostri dati. Con un numero sufficientemnte elevato di campioni (e/o con campioni sufficientemente grandi) si potrà sempre avere la conferma sperimentale del TEOREMA DEL LIMITE CENTRALE e del calcolo dell’errore standard (come è avvenuto nel nostro esempio). INTERVALLO DI CONFIDENZA Riprendiamo i dati sull’altezza delle popolazioni e ipotizziamo di ottenere 1000 campioni di 16 soggetti ciascuno. La distribuzione delle medie campionarie è presentata nella figura. ## ## ## ## ## ## ## ## ## ## ## 1 2 3 4 5 6 7 8 9 10 1 174 160 184 174 191 161 163 173 170 184 2 165 161 166 147 161 165 169 172 174 175 3 172 155 161 157 168 163 173 177 177 187 4 168 173 176 152 171 177 193 169 169 167 5 163 181 184 156 175 182 166 185 173 164 6 171 172 182 181 155 155 170 194 182 174 7 154 164 176 171 176 190 199 178 145 171 8 178 172 190 164 173 156 180 161 156 178 9 180 164 183 173 165 163 175 187 169 175 10 160 177 195 164 181 175 183 162 167 184 3 11 170 170 175 173 176 161 164 143 181 187 12 180 169 178 143 155 153 176 162 165 169 13 161 151 152 173 177 158 164 165 185 161 14 159 154 154 165 172 169 158 171 175 174 15 173 169 163 171 149 164 156 172 182 154 16 media 181 169 167 166 183 175 170 165 144 168 159 166 173 173 160 171 162 171 159 173 0.10 0.00 0.05 Densità 0.15 Distribuzione della frequenza delle altezze della media dei campioni 160 165 170 175 Altezza (cm) 0.10 0.05 Densità 0.15 Distribuzione della frequenza delle altezze della media dei campioni 1.96 SD 0.00 1.96 SD 160 165 170 175 180 Altezza (cm) Sull’asse verticale c’è la probabilità di ottenere una determinata media media campionaria. L’area sotto la curva dipinta in blu è compresa tra la media meno 1.96 deviazioni standard dalla media (cioè 1.96 volte l’errore standard ) e la media più 1.96 deviazioni standard dalla media. Lo strano numero “1.96” moltiplicato per la deviazione standard ha una proprietà particolare nelle distribuzioni normali: il 95% delle osservazioni sono comprese tra la media-1.96 · sd e la media + 1.96 · sd. Quando estraiamo un campione dalla popolazione, 4 pertanto possiamo aspettarci che nel 95% dei casi (cioè nel 95% dei possibili campioni) la vera media della popolazione sia più vicina di 1.96 · sd dalla media del campione, in eccesso o in difetto. Possiamo pertanto affermare che l’intervallo ottenuto da una media campionaria ± 1.96 · sd contenga la media della popolazione nel 95% dei campioni di quella popolazione. Questo intervallo viene definito INTERVALLO DI CONFIDENZA AL 95% perchè ci consente di avere fiducia (al 95%) di sapere l’intervallo in cui viene compresa la media della popolazione, a noi sconosciuta. La deviazione standard utilizzata per l’intervallo di confidenza è quella della popolazione delle medie campionarie, a noi sconosciuta allo stesso modo della media delle medie campionarie. Si utilizza quindi un valore superiore a 1.96, che dipende dalla numerosità del campione, calcolato per le distribuzioni t di Student. 5 6 IL TEST DI IPOTESI I test di ipotesi sono probabilmente la modalità più frequente di statistica inferenziale. Esistono moltissimi test diversi tra loro, ma tutti hanno in comune lo stesso ragionamento sottostante. Si fa una ipotesi teorica e si verifica quanto possa essere probabile osservare i dati che abbiamo rilevato qualora l’ipotesi fosse vera. Ad esempio potremmo fare l’ipotesi che l’altezza media di una popolazione sia 180 cm. Potremmo poi scegliere un campione della popolazione e fare la media delle altezze delle unità del campione. Ipotizziamo che l’altezza media campionaria sia 170 cm: nel test di ipotesi cerchiamo di calcolare la probabilità di ottenre un campione con l’altezza media di 170 cm quando l’altezza media della popolazione è 180 cm. Questa probabilità si espirme con la lettera p e può assumere un valore tra 0 (assolutamente impossibile ottenere questo campione quando l’ipotesi iniziale è vera) a 1 (è certo che questo sia un campione della popolazione quando è vera l’ipotesi iniziale). Spesso il test di ipotesi ha come obiettivo il confronto di 2 o più campioni tra loro. Ad esempio potrei misurare la pressione del sangue in soggetti ipertesi che assumono un placebo ed in soggetti che assumono un farmaco anti-ipertensivo. Se la pressione rilevata fosse diversa nei due gruppi, dovrei concludere che il farmaco anti-ipertensivo è efficace, viceversa dovrei abbandonare l’utilizzo di quel farmaco nella pratica clinica. Ad esempio ipotizziamo di rilevare la pressione arteriosa diastolica in 20 pazienti che anno assunto il placebo ed in 20 che hanno assunto il farmaco tutti i giorni nell’ultimo mese. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 media±sd Placebo Farmaco 96 98 107 108 99 116 97 102 112 93 99 103 87 111 88 116 101 88 84 93 100±10 95 90 90 96 89 88 90 93 82 76 91 97 101 85 99 82 88 98 92 103 91±7 Media e deviazione standard sono 100 ± 10 mmHg nel gruppo ‘Placebo’ e 91 ± 7 mmHg nel gruppo ‘Farmaco’. E’ sufficiente questo per concludere che il farmaco è più efficace del placebo? Ricordiamo che stiamo studiando il risultato su campioni. Se a noi interessa la risposta su questi particolari 40 pazienti, possiamo accontentarci di valutare la differenza tra le medie. Ma se siamo interessati a generalizzare il risultato per tutti i pazienti ipertesi, dobbiamo essere consapevoli che abbiamo rilevato dati da campioni per stimare l’effetto sulle popopazioni. In realtà noi siamo interessati a sapere se la POPOLAZIONE dei pazienti che assume il farmaco ha una pressione arteriosa diversa dalla POPOLAZIONE dei soggetti che assumono il placebo. I prossimi pazienti a cui eventualmente somministreremo il farmaco antiipertensivo infatti faranno parte della POPOLAZIONE dei pazienti ipertesi e non del campione che abbiamo già studiato. 7 L’IPOTESI NULLA Per affrontare il confronto tra placebo e farmaco anti-ipertensivo con il test di ipotesi, dobbiamo prima di tutto formulare una ipotesi e quindi verificare se i nostri dati sono con essa compatibili. La maggior parte delle volte, l’ipotesi di partenza è una ipotesi di uguaglianza. In questo caso l’ipotesi iniziale quindi può essere: la media della pressione diastolica della popolazione dei pazienti che assumo il placebo è uguale alla media della pressione diastolica nei pazienti che assumo il farmaco. Questa ipotesi di uguaglianza è detta IPOTESI NULLA ed indicata con H0 . Formalmente si può scrivere: H0 : µplac = µf arm , dove µ è la media della popolazione. Sappiamo che le medie dei nostri campioni sono probabilmente un po’ diverse dalle medie delle rispettive popolazioni. Possiamo però calcolare la probabilità di ottenere proprio queste due medie campionarie quando le medie delle due popolazioni sono uguali. Da considerare che due popolazioni con la stessa media (e la stessa deviazione standard) per il carattere osservato sono da considerarsi un’unica popolazione. Per questo motivo possiamo vedere il test ipotesi come la definizione della probabilità che i due campioni (nel nostro esempio i soggetti che anno assunto il placebo e quelli che hanno assunto il farmaco) siano campioni casuali estratti dalla stessa popolazione. Un esempio: il test t di Student Il test appropriato per il caso in esempio è il test t di Student. In questo test si fa la differenza tra le medie (m) e la si divide per l’errore standard (se), che ricordiamo essere uguale alla deviazione standard (sd) divisa per la radice quadrata del numero di osservazioni: mplac − mf arm se che può essere scritta più in dettaglio, per campioni di pari numerosità, come segue mplac − mf arm q 2 sdplac /nplac + sd2f arm /nf arm Il senso di questo test è che il valore diventa tanto più grande quando più è grande la differenza tra le medie e quando più è piccoloa la variabilità nei campioni (cioè l’errore standard). Quindi, a parità di errore standard, un valore elevato del test significa una grande differenza tra le medie. Abbiamo già capito quindi che un valore elevato nel test t farà propendere per l’improbabilità che le medie delle popolazioni di origine siano uguali. Il valore del test può risultare elevato, a parità di differenza delle medie, anche se la variabilità delle misure è ridotta. Il senso è che una differenza tra le medie ha un diverso valore se la variabilità della misura è grande o piccola. Infatti una data differenza tra le medie può essere casuale se le misure sono molto variabili tra loro, mentre va presa molto sul serio se le singole misurazioni sono molto simili tra loro. A titolo di esempio calcoliamo il test t per i nostri campioni, ricordando che l’ipotesi nulla è che la media della popolazione a cui appartiene il gruppo ‘Placebo’ è uguale alla media della popolazione a cui appartiene il gruppo ‘Farmaco’. 100 − 91 t= p = 3.3 100/20 + 49/20 Il dr. Gosset (in arte “student”) ha calcolato pazientemente agli inizi del 1900 la probabilità che “t” assuma un certo valore quando è vera l’ipotesi nulla. “t” ha un significato diverso con numerosità diverse dei campioni (dato che determina i “gradi di libertà”), pertanto sono stati fatti i calcoli delle probabilità per diversi gradi di libertà. In questo esempio i gradi di libertà sono nplac − 1 + nf arm − 1, quindi 38. Nella tabella sopra riprodotta utilizziamo la riga con il numero di gradi di libertà più vicino (ed inferiore) ai nostri 38, quindi quella con 30 gradi di libertà: vediamo che 3.3 è compreso tra gli ultimi due numeri, 2.75 e 3.646, i quali a loro volta corrispondono ad una p di 0.01 e 0.001. Quindi la probabilità di ottenere in nostri dati quando l’ipotesi nulla è vera è compresa tra 0.01 (1%) e 0.001 (0.1%). E’ quindi molto poco probabile che i nostri dati siano compatibili con l’ipotesi nulla, che quindi rifiutiamo e di conseguenza rifiutiamo anche che la pressione diastolica dei pazienti che assumo il placebo sia uguale alla pressione diastolica dei pazienti che assumo il farmaco. La conclusione è che il farmaco testato è più efficaced del placebo. 8 Un esempio di test di ipotesi con dati nominali: il test del χ2 Spesso si è interessati a confrontare i dati che derivano da due set di dati nominali. Ad esempio potremmo essere interessati a sapere se un corso di fromazione del personale sanitario sulla relazione di aiuto ha avuto come conseguenza una maggior soddisfazione dei pazienti di una Unità Operativa. A tale scopo si sono raccolti i dati di Soddisfazione dell’utente in un periodo precedente ed in uno successivo allo svolgimento del corso di formazione. In questo caso abbiamo due variabili nominali: * il periodo di rilevazione dei dati può essere codificato come “prima” e “dopo” il corso; * la soddisfazione dei pazienti può essere espressa come “1” (soddisfatto) o “0” (non soddisfatto). Di seguito l’elenco dei primi 10 e degli ultimi 10 soggetti intervistati. ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## 1 2 3 4 5 6 7 8 9 10 1161 1162 1163 1164 1165 1166 1167 1168 1169 1170 soddisfazione periodo 1 prima 1 prima 0 prima 1 prima 1 prima 0 prima 0 prima 1 prima 1 prima 1 prima 1 dopo 1 dopo 1 dopo 1 dopo 1 dopo 0 dopo 1 dopo 1 dopo 1 dopo 1 dopo I dati di questo tipo si possono rappresentare efficacemente in una tabella di contingenza. Nel caso più semplice, come nel nostro esempio, ci sono due variabili nominali, i cui esiti sono espressi nelle righe per una variabile e nelle colonne per l’altra. Table 2: Tabella frequenze (assolute) osservate insoddisfatti soddisfatti Totale prima dopo Totale 113 407 520 106 544 650 219 951 1170 Da questa tabella desumiamo che sono stati rilevate le opinini di 520 e 650 pazienti rispettivamente prima e dopo lo svolgimento del corso. Le informazioni che possiamo trarre da questa modalità di presentazione sono però scarse se esprimiamo i dati come frequenza assoluta. Vediamo quindi la stessa tabella con le freqhenze percentuali. 9 Table 3: Tabella frequenze (percentuali) osservate prima dopo 22 % 78 % 16 % 84 % insoddisfatti soddisfatti Questo dato è molto più leggibile. Possiamo infatti vedere che dopo il corso di formazione la percentuale di insoddisfatti (rispetto al totale dei pareri ricevuti in ciascun periodo) è scesa dal 22% al 16%. Come sempre dobbiamo cercare di prevedere se il risultato ottenuto in questo campione può essere considerato valido per tutta la popolazione dei pazienti che saranno ricoverati in questa Unità Operativa. In altre parole, la riduzione degli insoddisfatti è proprio legata all’effetto del corso oppure può essere spiegata anche dalla casualità? Quanto è probabile che il corso sia stato di per sè inefficace e che, per puro caso, nel periodo ‘prima’ abbiamo intervistato un campione di pazienti con molti “criticoni”, mentre nel periodo “dopo”, sempre per puro caso, abbiamo intervistato un campione con molti soggetti “accomodanti” e quindi più facili da accontentare? L’analisi statistica ci aiuta a rispondere a questa domanda. Per prima cosa formuliamo la nostra IPOTESI NULLA: la percentuale degli insoddisfatti prima e dopo il corso di formazione è uguale. Espressa formalmente l’ipotesi nulla è: H0 : probabilitàinsoddisf atti−prima = probabilitàinsoddisf atti−dopo . Nella tabella di contigenza con le frequenze assolute, possiamo vedere che il totale degli insoddisfatti totale (che comprende cioè entrambi i periodi) è di 219 soggetti su 1170, cioè il 18.72%. Se fosse vera l’ipotesi nulla, questa percentuale dovrebbe essere uguale prima e dopo il corso di formazione. Per cui, sotto ipotesi nulla, ci dovremmo aspettare che siano insoddisfatti il 18.72% dei 520 soggetti intervistati prima ed il 18.72% dei 650 pazienti intervistati dopo il corso. Se questa fosse la verità, dovremmo ridisegnare la tabella di contingenza con le frequenze attese se in entrambi i periodi i soggetti avessero la stessa percentuale di insoddisfazione (pari a quella totale). Table 4: Tabella frequenze (assolute) attese insoddisfatti soddisfatti prima dopo 97.3 422.7 121.7 528.3 Il confronto tra le celle corrispondenti delle due tabelle (frequenze osservate ed attese) mostra valori differenti. Ad esempio abbiamo contato 113 insoddisfatti prima del corso mentre ce ne saremmo aspettati 97.3 sotto ipotesi nulla. Dopo il corso gli insoddisfatti erano 106, ma sotto ipotesi nulla ce ne raremmo aspettati 121.7. Per conoscere la probabilità che queste differenze siano dovute alla casualità del campionamento, possiamo fare un test statistico. In questo caso un test appropriato è il test del χ2 (si legge “chi quadrato”). In questo test si calcola per ciascuna cella della tabella di contingenza il quadrato delle differenze tra i valori osservati e 2 quelli attesi, e lo si divide per il valore atteso ( (osservato−atteso) ), come si vede nella prossima tabella. atteso insoddisfatti soddisfatti prima dopo 2.5332991 0.5831322 2.025390 0.466572 Il valore del test chi2 è dato dalla somma di tutti questi valori presenti nella tabella: χ2 = rc X (osservato − atteso)2 atteso i=1 Nel nostro esempio la somma è 5.61. A questo punto dobbiamo vedere quanto è probabile ottenere questo 10 valore quando è vera l’ipotesi nulla. Fortunatamente anche per la distribuzione del χ2 sono state calcolate le probabilità che i differenti valori possono assumere quando è vera l’ipotesi nulla. Nel nostro esempio abbiamo un grado di libertà, quindi cerchiamo di associare una probabilità al risultato ottenuto cercando nella prima riga. Il nostro valore di 5.61 è compreso tra 5.41 e 6.63, i quali sono associati rispettivamente probabilità di 0.01 (cioè 1 su 100=1%) e di 0.02 (cioè 1 su 200=0.5%). Ciò vuol dire che la probabilità di osservare i nostri dati (o dati ancor più diversi da quelli definiti nell’ipotesi nulla) è compresa tra 0.5% e 1% quando è vera l’ipotesi nulla. Una probabilità molto bassa, che ci porta a rifiutare H0 . Quindi concluderemo che è molto improbabile che le differenze che osserviamo nella tabella dei dati osservati siano dovute alla casualità. Pertanto dobbiamo ragionevolmente ritenere che il corso di formazione abbia funzionato. 11