Alcune informazioni pratiche Testi di riferimento Norman GR, Streiner DL, Biostatistica: quello che avreste voluto sapere, Casa Editrice Ambrosiana, Milano, 2000 Edizione originale: Biostatistics, The bare essentials, BC Decker, Hamilton Pagano M, Gavreau K, Fondamenti di Biostatistica, Gnocchi Ed. 1994 Edizione originale: Principles of Biostatistics, Duxbury La natura dei dati e della statistica Statistica descrittiva ed inferenziale Prof. Giovanni Capelli Cattedra di Igiene Dipartimento di Scienze Umane, Sociali e della Salute Università di Cassino e L.M. Recapiti [email protected] Blackboard Natura della Statistica What is Statistics? Statistica descrittiva ha a che fare con la presentazione, organizzazione e sintesi dei dati Tabelle, grafici, indici di sintesi Statistica Inferenziale ci L. Gonick, W. Smith, “The cartoon guide to statistics”, Harper Perennial, 1993 permette di generalizzare i risultati ottenuti dai dati raccolti in un piccolo campione ad una popolazione più ampia Stima di parametri Test di ipotesi 1 Obiettivi della analisi statistica (1) Descrivere i dati Obiettivi della analisi statistica (2) stabilire quanto è verosimile che esista una relazione tra le variabili cioè, fare inferenze sulla popolazione da cui i dati sono tratti condensare anche un gran numero di dati rilevati in pochi valori riassuntivi, capaci di indicare importanti proprietà della popolazione oggetto di indagine Classificare descrivere ed analizzare gruppi definiti sulla base di caratteristiche comuni misurate dalle variabili rilevate Esplorare le relazioni definire rilevate i dati raccolti per prevedere i valori che ci si aspetta di trovare nella popolazione oggetto di indagine in particolari condizioni e descrivere le relazioni tra le variabili Tutti gli obiettivi elencati sono sistemi differenti per affrontare lo stesso problema: LA VARIABILITA Infatti: le caratteristiche d interesse variano della popolazione studiata le relazioni tra variabili variano nella popolazione studiata Il tutto varia da popolazione a popolazione, e nella stessa popolazione, nel tempo es. età, presenza di malattie croniche, durata della degenza, ecc. Fare previsioni utilizzare Generare ipotesi grazie alle 5 fasi precedentemente descritte le variabili divengono meglio comprensibili, ed è possibile che questo porti a proporre nuove idee a proposito della popolazione indagata Obiettivi della analisi statistica (3) Valutare ipotesi Obiettivi della analisi statistica (4) L obiettivo primario di pressochè tutti i metodi statistici è: i d e n t i f i c a r e e comprendere la presenza e il ruolo di comportamenti sistematici tenendo conto degli effetti di questa variabilità es. età ->presenza di malattie croniche e tutta questa variabilità porta un certo grado di incertezza in ogni analisi 2 Dati Elementari Dati sintetici il DATO è una descrizione originaria e non interpretata di un evento è la materia prima del processo di costruzione delle informazioni è costituito da gruppi di simboli (lettere, numeri, caratteri speciali) che rappresentano quantità, azioni, cose, ecc. il DATO INIZIALE o ELEMENTARE è la rappresentazione oggettiva di fenomeni o eventi reali i dati sintetici si possono considerare equivalenti ad un “prodotto semilavorato intermedio” di un processo produttivo il processo di sintesi che permette di generare un dato sintetico a partire da più dati elementari modifica il potenziale informativo iniziale Informazioni E’ INFORMAZIONE tutto ciò che produce variazione nel patrimonio conoscitivo di un soggetto Il concetto di informazione fa riferimento al suo percettore, al suo utilizzatore L’ INFORMAZIONE è un dato che è stato sottoposto ad un processo che lo ha reso significativo per il destinatario e realmente importante per il suo processo decisionale presente o futuro L’ INFORMAZIONE è relativa: sussiste solo se destinata a qualcuno per qualche scopo Decisioni Definizione: una particolare classe di INFORMAZIONI che ha lo scopo di provocare AZIONI determinate; Perchè ciò avvenga, si richiede: la definizione di una SITUAZIONE FINALE da raggiungere la definizione di una SITUAZIONE PRESENTE, che è quella riferita dal sistema informativo L’identificazione delle AZIONI DA COMPIERSI in conformità ad una “politica” prestabilita L’uso delle informazioni appare finalizzato all’attività decisionale; 3 Statistica: nomenclatura Statistica Descrittiva: Inquadramento delle tipologie di dati e analisi esplorativa Modalità o valore o dato (es. azzurro) Unità statistica (es. 1 persona) CAMPIONE (es. alcuni impiegati) Carattere statistico o variabile (es. colore del vestito) Proprietà di un campione casuale Ogni unità della popolazione ha la stessa probabilità di essere scelta La scelta di una unità non influenza la selezione delle altre POPOLAZIONE (es. tutti gli impiegati) Statistica: nomenclatura La rappresentazione interna dei dati Modalità o valore o dato Unità statistica (es. 1 regione) CAMPIONE (es. 1 anno) Carattere statistico, Variabile Modalità, Dato (es. 3,5 milioni) 3 500 000 Unità statistica, Record Carattere statistico o variabile (es. numero abitanti) POPOLAZIONE (es. Italia in diversi anni) Dati aggregati 4 Un esempio: tipo di intervento in cardiochirugia infantile e danno cerebrale Una grandezza fisica può essere definita come l insieme delle operazioni che servono a realizzare una misura . describe Contains data from circarrest2.dta obs: 171 vars: 8 17 May 2002 15:35 size: 6,156 (99.2% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------vsd float %9.0g Ventricular Septal Defect (1=yes; 0=no) dhca float %9.0g Deep Hypothermic Circulatory Arrest (1=yes; 0=low-flow bypass) minutes float %9.0g Duration of circulatory arrest (minutes) birthwt float %9.0g Birth weight (grams) age float %9.0g Age at surgery (days) clinseiz float %9.0g Clinical Seizures within 7 postoperative days eegseiz float %9.0g EEG seizure activity within 48 postoperative hours pdi float %9.0g Psychomotor Development Index at age 1 ------------------------------------------------------------------------------- Da: Stevens, 1951 Una importante causa di instabilità dei dati epidemiologici è la incapacità degli operatori sul campo a seguire protocolli standardizzati di misura. Un metodo di misura può essere considerato protocollo standardizzato soltanto se sono soddisfatte due condizioni: devono esistere istruzioni per l uso del metodo comprensibili anche ad altri ricercatori che intendano seguirlo deve esistere una dimostrazione (quanto meno uno studio pilota) che le misure che risultano dal metodo sono riproducibili Definiamo misura il processo di collegare CONCETTI ASTRATTI ad INDICATORI EMPIRICI questa definizione pone enfasi sulla componente teorica del processo di misura e pone l accento sul fatto che ciò che si misura non è la variabile di reale interesse ma un suo qualche indiretto indicatore La variabile di reale interesse non può essere misurata direttamente o è impossibile da definire • Amstrong, White, Saracci, 1992 Concetti astratti ed indicatori empirici: LE REGOLE Anderson e Mantel, 1983 La misura è l assegnazione di NUMERI ad oggetti ed eventi in conformità a REGOLE definite Zeller e Carmines, 1980 1) “A comparison of the perioperative neurologic effects of hypothermic circulatory arrest versus low-flow cardiopulmonary bypass in infant heart surgery” J.W.Newburger and coll. NEJM 329:1057-1064 (October 7),1993 2) “Developmental and neurologic status of children after heart surgery with Hypothermic Circulatory Arrest or Low-Flow Cardiopulmonary By-pass” D.C. Bellinger and coll. NEJM 332: 549-555 (March 2), 1995 MISURA segni/sintomi, diagnosi, codifica Segni, sintomi e reperti di laboratorio sono indicatori empirici dell’ esistenza di uno stato di malattia il medico li sintetizza in una “diagnosi” astratta ma il suo fine è in genere clinico definire una possibile terapia nel singolo paziente: a questo scopo l’eccessiva categorizzazione può essere controproducente ai fini epidemiologici la “diagnosi” astratta deve diventare “codice” il fine è contare eventi “operativamente equivalenti” la definizione di categorie e criteri di codifica è obbligatoria: senza codifica non c’è equivalenza, e senza equivalenza non c’è conta 5 Il ruolo delle variabili indagate Esposizione Un momento chiave nella analisi dei dati è la formulazione di una IPOTESI ESPLICATIVA Situazione in cui sono presenti insieme agente (o fattore di rischio) e ospite: sono possibili l’incontro e l’interazione tra essi. un modello concettuale dei possibili legami tra le entità o i fenomeni misurati Questo richiede la definizione di: Una (o più) variabili di risultato Effetto (outcome), variabili dipendenti Le possibili variabili “causali” Esposizioni, variabili indipendenti (esplicative) Le possibili variabili “di confondimento” Effetto Un esempio: tipo di intervento in cardiochirugia infantile e danno cerebrale . describe Un esempio: tipo di intervento in cardiochirugia infantile e danno cerebrale . describe Esposizione Contains data from circarrest2.dta obs: 171 vars: 8 17 May 2002 15:35 size: 6,156 (99.2% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------vsd float %9.0g Ventricular Septal Defect (1=yes; 0=no) dhca float %9.0g Deep Hypothermic Circulatory Arrest (1=yes; 0=low-flow bypass) minutes float %9.0g Duration of circulatory arrest (minutes) birthwt float %9.0g Birth weight (grams) age float %9.0g Age at surgery (days) clinseiz float %9.0g Clinical Seizures within 7 postoperative days eegseiz float %9.0g EEG seizure activity within 48 postoperative hours pdi float %9.0g Psychomotor Development Index at age 1 ------------------------------------------------------------------------------- Risultato della interazione tra agente (o fattore di rischio) e ospite Effetto A priori A posteriori Contains data from circarrest2.dta obs: 171 vars: 8 17 May 2002 15:35 size: 6,156 (99.2% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------vsd float %9.0g Ventricular Septal Defect (1=yes; 0=no) dhca float %9.0g Deep Hypothermic Circulatory Arrest (1=yes; 0=low-flow bypass) minutes float %9.0g Duration of circulatory arrest (minutes) birthwt float %9.0g Birth weight (grams) age float %9.0g Age at surgery (days) clinseiz float %9.0g Clinical Seizures within 7 postoperative days eegseiz float %9.0g EEG seizure activity within 48 postoperative hours pdi float %9.0g Psychomotor Development Index at age 1 ------------------------------------------------------------------------------- Precoce Tardivo 6 Il confondimento Proprietà formali dei dati In ambito epidemiologico e di sanità pubblica siamo interessati alla associazione tra esposizione ed effetto Relazione di equivalenza (=, ≠) i membri di una stessa sottoclasse devono essere equivalenti rispetto alla proprietà misurata Capita spesso di dover verificare che la nostra analisi di associazione non sia distorta da una terza variabile correlata sia alla esposizione che all’ effetto Definiremo questa variabile di confondimento se si tratta di una variabile estranea che soddisfa entrambe le seguenti condizioni: E’ fattore di rischio per l’ effetto E’ associata all’esposizione, ma non ne è una conseguenza Relazione di posizione (<, >) è possibile ordinare logicamente le modalità Relazioni aritmetiche (+, -, *, /) sono ed definite le distanze relative (+, -) i rapporti tra le osservazioni (*, /) Tipologie dei dati : esempi Tipologie dei dati Categorici dicotomici DATI Categorici nominali Categorici ordinali Numerici discreti Numerici continui Relazione di equivalenza (=, ≠) Qualità Categorici Le modalità esprimono Quantità Relazione di posizione (<, >) Numerici Relazioni aritmetiche Sesso 2 Quante modalità sono possibili? No >2 Sì Le modalità sono solo numeri interi? Lavoro Medico, M/F Malattia No Si/No Evento Avvocato, ... Gruppo sanguigno 0,A,B,AB Le modalità sono ordinabili? Vero/Falso Sì Scommessa Nazionalità Italiana,... Categorici dicotomici Categorici nominali Categorici ordinali Classi Numerici discreti Numerici continui Vinta/Persa Stato Civile Libero, Coniugato,... Titolo di studio Elementari, Medie,... Gravità stadi tumorali Classi di esposizione MISURE TECNICHE n° temperatura n° altezza decessi figli abitanti n° esami svolti n° piastrine n° (lunghezza) peso durata tempo nel Non fuma, lieve fum., medio fum., forte fum. Patologia Approssimazione codici standard Valore soglia (cutoff) CONTE DI EVENTI (+, -, *, /) Trasformazione E’ necessario definire dei CODICI L ’unità di misura NON E’ frazionabile L ’unità di misura E’ frazionabile 7 Tipologie dei dati : proprietà e caratteristiche Variabili e Valori Significato Dipendenti (Misure di: Effetto, Outcome, Risultato) Variabili Indipendenti (Caratteri statistici) (Esposizione, Esplicative, di Raggruppamento) Caratteristiche formali assumono Discreti Categorie Numeri discreti Continui Numeri continui Di Intervallo Le misure sono attendibili? Numerici discreti Numerici continui Relazioni aritmetiche (+, -, *, /) 2 Di Rapporto (infinite alternative) Categorici ordinali Relazione di posizione (<, >) Multinomiali (Modalità, Dati) Categorici nominali Relazione di equivalenza (=, ≠) Dicotomici Ordinali (alternative definite) Valori Nominali Categorici dicotomici Prima di tutto, l effetto è stato concettualizzato, portando a diverse possibili misure: cerebrale a breve termine aumento attività elettrica (poligrafia EEG) enzimi necrosi convulsioni cliniche alterazioni macroscopiche (ECO cerebrale) Numero di modalità assumibili dal carattere ∞ Potenziale informativo aggregativo del carattere Potenziale informativo discriminativo del carattere Visibilità di un indicatore da misurare Alterazioni Anatomiche (Eco) Convulsioni cliniche Sofferenza scartato poi perché 0 positivi • sensibilità nulla Aumento Enzimi segno di necrosi dei tessuti (CK) Convulsioni EEG Sofferenza cerebrale a lungo termine deficit intellettivo PDI (Psychomotor Developmental Index), il QI ad 1 anno 8 Attendibilità di una misura Tipi di dati: variabili categoriche vsd= Convulsioni EEG Diagnosi: 1= Difetto del Setto Ventricolare; 0= Setto Ventricolare intatto dhca= Arresto circolatorio: 1=Arresto Circolatorio Profondo Ipotermico; 0=By-pass a basso flusso minutes= Durata dell'arresto circolatorio: Minuti, variabile continua (di rapporto) birthwt= Convulsioni Cliniche Peso alla nascita: Grammi, variabile continua (di rapporto) agesurg= Età all'intervento: Giorni, variabile continua (di rapporto) clinseiz= Deficit psicomotorio a 1 anno 1=Sì; 0=No eegseiz= Specificità pdi= Arresto circolatorio: 1=Arresto Circolatorio Profondo Ipotermico; 0=By-pass a basso flusso minutes= Il calcolo dei ranghi Per trasformare, ad es., dati continui in ranghi Durata dell'arresto circolatorio: Minuti, variabile continua (di rapporto) birthwt= Peso alla nascita: Grammi, variabile continua (di rapporto) agesurg= Età all'intervento: Giorni, variabile continua (di rapporto) clinseiz= Convulsioni clinicamente manifeste entro 7 giorni dall’intervento: 1=Sì; 0=No eegseiz= Attività convulsiva EEG entro 48 ore dall'intervento: 1= Sì; 0= No pdi= Indice di Sviluppo Psicomotorio a 1 anno: Punteggio standard (media normale=100), variabile continua (di intervallo) Indice di Sviluppo Psicomotorio a 1 anno: Punteggio standard (media normale=100), variabile continua (di intervallo) Diagnosi: 1= Difetto del Setto Ventricolare; 0= Setto Ventricolare intatto dhca= Attività convulsiva EEG entro 48 ore dall'intervento: 1= Sì; 0= No Sensibilità Tipi di dati: variabili numeriche vsd= Convulsioni clinicamente manifeste entro 7 giorni dall’intervento: le unità statistiche vanno ordinate in ordine crescente secondo le modalità assunte dal carattere che si intende trasformare (es X) si definisce un nuovo carattere statistico (rango di x) ogni unità statistica assume per il carattere “rango di x” (Rx) un valore che incrementa di 1 unità se due unità hanno lo stesso valore nella variabile originaria mantengono lo stesso rango è conservata la posizione relativa delle osservazioni X: 20, 15,9,3,4,1,6, 15 X: 1,3,4,6,9, 15, 15,20 X: 1,3,4,6,9, 15, 15,20 Rx: X: 1,3,4,6,9, 15, 15,20 Rx: 1,2,3,4,5, X: ?, ?, 8 1,3,4,6,9, 15, 15,20 Rx: 1,2,3,4,5,6.5,6.5, 8 9 Il calcolo dei ranghi Mostra Ordina . list minutes +---------+ | minutes | |---------| 1. | 2. | 8 | 6 | 3. | 4. | 61 | 51 | Calcola (attento ai pari!) . sort minutes . list id minutes 1. 2. 3. 4. 5. 5. | 12 | |---------| 6. | 7. | 31 | 51 | 6. 7. 8. | 9. | 5 | 68 | 8. | 23 9. | 22 10. | 22 | |---------| . egen rank=rank( minutes) . list rank id minutes +--------------+ | id minutes | |--------------| | 8 5 | | 2 6 | | 20 8 | | 1 8 | | 13 8 | |--------------| | 15 9 | | 5 12 | +---------------------+ | rank id minutes | |---------------------| | 1 8 5 | | 2 2 6 | | 4 20 8 | | 4 1 8 | | 4 13 8 | |---------------------| 6. | 6 15 9 | 7. | 7 5 12 | 1. 2. 3. 4. 5. 18 | 20 | 8. | 9. | 8 9 23 22 11. | 44 | 10. | 10 22 | |--------------| 11. | 19 25 | 10. | 10 10 22 | |---------------------| 11. | 11 19 25 | 12. | 13. | 62 | 8 | 12. | 6 13. | 17 31 | 31 | 12. | 12.5 13. | 12.5 6 17 31 | 31 | 14. | 15. | 51 | 9 | 14. | 21 15. | 25 35 | 43 | 14. | 15. | 21 25 35 | 43 | 14 15 |---------| 16. | 61 | |--------------| 16. | 11 44 | |---------------------| 16. | 16 11 44 | 17. | 18. | 31 | 45 | 17. | 18 18. | 7 45 | 51 | 17. | 18. | 17 19 18 7 45 | 51 | 19. | 20. | 25 | 8 | 19. | 14 20. | 4 51 | 51 | 19. | 20. | 19 19 14 4 51 | 51 | |---------| 21. | 35 | |--------------| 21. | 16 61 | |---------------------| 21. | 21.5 16 61 | 22. | 23. | 20 | 18 | 22. | 3 23. | 12 61 | 62 | 22. | 21.5 23. | 23 3 12 61 | 62 | 24. | 25. | 63 | 43 | 24. | 24 25. | 9 63 | 68 | 24. | 25. | 24 9 63 | 68 | +---------+ +--------------+ 24 25 Statistica Descrittiva: Analisi esplorativa univariata 18 | 20 | +---------------------+ Tabelle e Grafici TABELLE Organizzazione spazio righe e colonne GRAFICI discreto Organizzazione spazio piano “cartesiano” (piani angolari) continui Elementi testo, numeri Elementi grafici 2 dimensioni punto, linea, area testo, numeri Quantità posizione area Vantaggi immediatezza Quantità numeri Vantaggi comparazioni simultanee Graphical excellence Una buona rappresentazione dei dati dovrà: mostrare i dati indurre chi guarda a riflettere sulla sostanza piuttosto che sui metodi, il disegno grafico, la tecnologia di produzione grafica evitare di distorcere ciò che i dati hanno da dire presentare molti numeri in poco spazio rendere coerenti grandi set di dati incoraggiare l’occhio a comparare diversi aspetti dei dati presentare i dati a diversi livelli di dettaglio da una visione d’insieme fino alla struttura fine servire un obiettivo ragionevole: descrivere, esplorare, tabulare, decorare essere fortemente integrata con le descrizioni verbali e statistiche dei dati Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983 10 Elting LS, Martin CG, Cantor SB, et al., Influence of data display formats on physician investigator’s decisions to stop clinical trials: prospective trial with repeated measures - BMJ 1999, 318:1527-1531 Graphical elegance is often found in simplicity of design and complexity of data Rappresentazioni di dati statistici attraenti: sono realizzate con schema e formato appropriati utilizzano parole, numeri e disegni insieme sono il risultato di un bilanciamento, una valutazione delle proporzioni, una riflessione sulla scala dei fenomeni mostrano un dettaglio di complessità accessibile hanno spesso qualità narrativa hanno una storia da raccontare sui dati sono realizzati in maniera professionale con attenzione e cura ai dettagli tecnici evitano la decorazione fine a sè stessa inclusa la “spazzatura grafica” di retinati, colori sgargianti, ecc. Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983 Le Tabelle di sintesi dei dati Tabelle a singola entrata Generalità presentano i dati in forma analitica o sintetica, organizzati secondo righe e colonne presentata la distribuzione di frequenza di UN SOLO carattere statistico possibili Tassi Soggetti classificati in una categoria nel tempo t (eventi)/Media soggetti studiati nel tempo t conta PDI<100 / ((conta Reclutati + conta PDI misurati a 1 anno)/2) Soggetti classificati in una categoria nel tempo t (eventi)/Totale tempopersona osservato in periodo t conta EEG seizures / (48h*conta poligrafie) di tutte le modalità Dato numerici discreti e continui Dati Proporzioni (Percentuali) Soggetti classificati in una categoria/Totale soggetti studiati conta Clinical Seizures / numero Soggetti in studio Dati nominali ed ordinali Rappresentazione Conte di soggetti classificati nella stessa categoria Relative A seconda dei tipi di dati Frequenze Assolute Numero di Clinical Seizures osservate è aggregati per classi Rapporti Soggetti classificati in una categoria non binomiale/soggetti classificati in un altra categoria non binomiale conta PDI>116 / conta PDI<84 Odds Soggetti classificati in una categoria binomiale/soggetti classificati nell altra categoria conta Clinical Seizures SI / conta Clinical Seizures NO 11 Conte di soggetti classificati nella stessa categoria Numero di Clinical Seizures osservate = 11 Relative Proporzioni (Percentuali) Soggetti classificati in una categoria/Totale soggetti studiati conta Clinical Seizures / numero Soggetti studiati = 11 / 170 = 0.0647 = 6.47% Partendo da questi dati grezzi: Id Sesso Età 35 lieve fumatore italiana F 40 non fumatore francese M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga Rapporti Soggetti classificati in una categoria non binomiale/soggetti classificati in un altra categoria non binomiale 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca F 24 non fumatore francese 0012 F 28 forte fumatore italiana Odds Soggetti classificati in una categoria binomiale/soggetti classificati nell altra categoria 0013 M 36 non fumatore italiana conta EEG seizures / (48h*conta poligrafie) = 27/(48*136) = 27/6528 = 0.00413 eventi/ ora-persona conta PDI>116 / conta PDI<84 = 13/30 = 0.433 conta Clinical Seizures SI / conta Clinical Seizures NO = 11/(170-11) = 11/159 = 0.0692 0011 STATA: Raggruppare in classi Come sono costituite le classi? Valori predefiniti (logica, letteratura) Liberi es. classi età (0-14, 15-29, 30-65, >65) classi tempo (<7gg, 7-14, 15-30, 31-60, >60) A larghezza costante es classi quinquennali di età Suddivisioni statistiche (quantili) quartili, quintili, decili (a numerosità costante) si usa quando non ci sono valori di cut-off noti aumenta la potenza statistica Classi dicotomiche o classi ordinali? Le classi dicotomiche (0-1) ottenute con 1 solo cut-off hanno alcune proprietà notevoli la media è la proporzione si possono utilizzare nei modelli statistici Modalità Freq. assoluta Freq. relativa M 7 7/13 F 6 6/13 Carattere Tot. 13 Conta dei soggetti che nel campione presentano quella specifica modalità tabulate sesso Tabelle: Indice rappresentato Nazionalità M Soggetti classificati in una categoria nel tempo t (eventi)/Totale tempopersona osservato in periodo t 0001 Classe di esposizione 0003 Singola entrata, Variabile Dicotomica 0002 Tassi Soggetti classificati in una categoria nel tempo t (eventi)/Media soggetti studiati nel tempo t conta PDI<100 / ((conta Reclutati + conta PDI misurati a 1 anno)/2) = 97/((171+142)/2) = 97/156.5 = 0.619 = 61.9% Tabelle: Sesso Frequenze Assolute Singola entrata, Variabile Numerica Partendo da questi dati grezzi: Id 0001 Sesso Età Classe di esposizione M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana STATA: In questo caso, ha senso la frequenza cumulativa ! Indice rappresentato Nazionalità Classi di Modalità Carattere Età Freq. assoluta Freq. Freq. relativa cumulativa 10-29 6 6/13 6/13 30-39 4 4/13 10/13 >39 3 3/13 13/13 generate eta2=eta recode eta2 10/29=1 30/39=2 40/max=3 tab eta2 Tot. 13 Conta dei soggetti che nel campione presentano quella specifica modalità 12 1 sola variabile, dato dicotomico DIAGRAMMI A TORTA . tabulate eegseiz graph pie, over(eegseiz) angle(90) pie( 1, color(ltblue))pie( 2, color(blue)) title(EEG seizure activity) subtitle(within 48 hours since surgery) legend(rows(2)) legend (position(3) region(lcolor(none))) graphregion(fcolor(white)) EEG seizure | activity | within 48 | postoperati | ve hours | Freq. Percent Cum. ------------+----------------------------------0 | 109 80.15 80.15 1 | 27 19.85 100.00 ------------+----------------------------------Total | 136 100.00 STATA 7: graph <5 5_17 18_64 >65, pie STATA 8: graph pie <5 5_17 18_64 >65 Può essere rappresentato un solo carattere Le modalità sono rappresentate da spicchi della torta L area della torta è proporzionale alla frequenza relativa della modalità DIAGRAMMI A BARRE Torte 2D e torte 3D n Frequenza delle osservazioni Le modalità qualitative sono riportate in ascissa asse X qualitativo Per ogni gruppo si costruisce un rettangolo: il nome della modalità è centrato sulla base del rettangolo, di larghezza costante e arbitraria (0->∞) l area del rettangolo è proporzionale alla frequenza rilevata per il gruppo 0 ma siccome le basi sono A B C D uguali per definizione, Modalità qualitatitive sarà l altezza a fare la STATA: graph bar (count) idvar, over(variable) differenza La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi STATA: graph hbar I rettangoli non devono essere (count) idvar, adiacenti (tranne nel caso di over(variable) variabili ordinali…) 13 1 variabile continua: istogramma 7 5.5 4 1 0 0 n Frequenza delle osservazioni 0 0 1 4 5.5 7 13 I dati vengono divisi in classi 16 Modalità numeriche in questo caso 6 classi con un intervallo non costante Per ogni gruppo si costruisce un rettangolo: la posizione della base del rettangolo corrisponde ai margini dell intervallo (è quantitativa) l area del rettangolo è proporzionale alla frequenza rilevata per il gruppo La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi .3 .2 Fraction 13 Modalità numeriche 16 .1 0 45 55 STATA:graph twoway (histogram eta) 25 1 variabile continua: istogramma con Stata 8 65 75 85 95 105 115 125 Psychomotor Development Index at 135 145 155 Distribuzioni di frequenza Se la numerosità del campione che stiamo studiando aumenta costruire un istogramma con classi di ampiezza via via più piccola fino a poter pensare ad una curva continua che descrive la distribuzione della frequenza delle osservazioni 5 10 Percent 15 20 possiamo 0 Frequenza delle osservazioni ISTOGRAMMI n 0 10 20 30 40 50 60 70 80 Duration of circulatory arrest (minutes) 90 100 110 histogram minutes, width(10) start(0) percent bfcolor(yellow) blcolor(gold) normal normopts( clcolor(red) clpat(dot) ) kdensity kdenopts( clcolor(blue) ) xlabel( 0 (10) 110) plotregion(margin(zero)) 14 Valutare una distribuzione di frequenza Distribuzioni Simmetrica Unimodale Asimmetrica a destra dhca==0 .6 Simmetrica Bimodale Simmetrica dhca==1 .4 Asimmetrica a destra a sinistra Fraction .2 0 0 20 40 60 80 100 120 0 20 40 60 80 100 120 Durata dell intervento chirurgico (minuti) Duration of circulatory arrest ( Fare un istogramma in 6 passi 1) Ordinare i dati 2) Calcolare l ampiezza del l intervallo dei valori (minmax) 3) Scegliere un ampiezza di classi di valori tale da sintetizzare i dati in un numero di classi compreso tra 10 e 20 4) Realizzare una tabella di sintesi che presenti -> le classi, i valori al centro di ciascuna classe, la frequenza assoluta di osservazioni rilevate per classe e la frequenza cumulativa 5) Trasformare la tabella in un istogramma 6) Accettare la perdita di dettaglio informativo dovuta al raggruppamento Histograms by Deep Hypothermic Circulatory Arrest (1=yes; 2=low- Lo Stem & leaf plot Tukey (1977) ha proposto una tecnica che permette di saltare le fasi 1 e 6 e combinare le fasi 4 e 5 in una sola Il diagramma che ne deriva, chiamato Stem (ramo) & leaf (foglia) plot, si costruisce in soli 3 passi: 1) Calcola ampiezza intervallo valori (max-min) 2) Scegliere un ampiezza di classi di valori tale da sintetizzare i dati in un numero di classi compreso tra 10 e 20 3) Realizzare una tabella che ha l aspetto di un istogramma, e mantiene il dettaglio dei dati originali 15 Stem and leaf plot stem Poligoni di frequenza pdi Stem-and-leaf plot for pdi (Psychomotor Development Index at age 1) Invece di una barra a coprire ogni intervallo mettiamo un punto in corrispondenza del centro di ogni classe e connettiamo i punti con linee rette ma attenzione: 5* 5. 6* 6. 7* 7. 8* 8. 9* | | | | | | | | | 2 9. 10* 10. 11* 11. 12* 12. 13* | | | | | | | | 8888888888888888888888899999 4444 555555555559 000111111114 555577788 022224 00333 67 0001 55678 0000000000022 6666666666777777 02222222222222222223333 negli istogrammi si esprime una distribuzione uniforme all interno della classe definita nei poligoni di frequenza, invece, assumiamo e rappresentiamo tutte le osservazioni nel punto centrale della classe • tranne per i poligoni di frequenza cumulativa, che presentano la somma di tutte le osservazioni fino alla fine di ciascuna delle classi presentate 04 Poligoni di Frequenza Poligoni di frequenza Deep Hypothermic Circulatory Ar 50 Low Flow Bypass 30 (count) pdi 40 20 30 20 10 10 0 0 50 60 70 80 90 PDI a 1 anno 100 110 120 130 50 60 70 80 90 PDI a 1 anno 100 110 120 130 16 Poligoni di frequenza cumulativa Deep Hypothermic Circulatory Ar Low Flow Bypass 70 Statistica Descrittiva: 60 Analisi esplorativa bi- e multivariata 50 40 30 20 10 0 50 60 70 80 90 100 PDI a 1 anno 110 120 130 140 Il ruolo delle variabili indagate Un momento chiave nella analisi dei dati è la formulazione di una IPOTESI ESPLICATIVA un modello concettuale dei possibili legami tra le entità o i fenomeni misurati Questo richiede la definizione di: Una (o più) variabili di risultato Effetto (outcome), variabili dipendenti Le possibili variabili “causali” Esposizioni, variabili indipendenti (esplicative) Le possibili variabili “di confondimento” Un esempio: tipo di intervento in cardiochirugia infantile e danno cerebrale . describe Esposizione Contains data from circarrest2.dta obs: 171 vars: 8 17 May 2002 15:35 size: 6,156 (99.2% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------vsd float %9.0g Ventricular Septal Defect (1=yes; 0=no) dhca float %9.0g Deep Hypothermic Circulatory Arrest (1=yes; 0=low-flow bypass) minutes float %9.0g Duration of circulatory arrest (minutes) birthwt float %9.0g Birth weight (grams) age float %9.0g Age at surgery (days) clinseiz float %9.0g Clinical Seizures within 7 postoperative days eegseiz float %9.0g EEG seizure activity within 48 postoperative hours pdi float %9.0g Psychomotor Development Index at age 1 ------------------------------------------------------------------------------- A priori A posteriori 17 Un esempio: tipo di intervento in cardiochirugia infantile e danno cerebrale Tabelle: . describe 6 10 seizure | activity | within 48 |Deep Hypothermic Circulatory Arrest (1=yes; 2=low-flow bypass) and postopera | Ventricular Septal Defect (1=yes; 0=no) tive | -------- 0 --------------- 1 ------------- Total -----hours | 0 1 Total 0 1 Total 0 1 Total ----------+-----------------------------------------------------------------0 | 43 11 54 49 6 55 92 17 109 2 8 italiana 0004 M 29 lieve fumatore 0005 M 27 medio fumatore italiana Carattere 1 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore 0013 M 36 non fumatore belga 9 M Sesso F Tot. non 2 4 6 lieve 3 0 3 medio 1 0 1 italiana forte 1 2 3 italiana Tot. 7 6 13 Tardivo Conta dei soggetti nel campione che presentano la combinazione di entrambe le modalità tab classe sesso Barre affiancate 10 19 15 12 27 Total | 49 13 62 58 16 74 107 29 136 ----------------------------------------------------------------------------- | | | 11.4 63 12.6 66 22.5 129 1 | | 33.0 16.4 54.8 8.2 43.9 16.9 | | Total | 21 21 42 18.7 52.6 36.0 | | 15.2 84 11.7 87 21.7 171 ------------------------------- 40 | Deep Hypothermic | Circulatory Arrest | (1=yes; 0=low-flow | bypass) | 0 1 Total ----------+-------------------0 | 13.9 52.0 33.4 ----------------------------------------------------------------------------EEG | 6 francese forte fumatore 20 49 9 eegseiz vsd dhca, row col scol 1 | | italiana non fumatore 60 table vsd dhca, c(mean minutes sd minutes count minutes) row col f(%4.1f) Ventricul ar Septal Defect (1=yes; 0=no) -----------------------------------. table lieve fumatore 40 M 0 11 2 35 F 0003 ------------------------------- Septal Defect (1=yes; 0=no) tive | ---- 0 ------ 1 --hours | 0 1 0 1 ----------+------------------------43 6 Modalità del carattere 1 M 0002 STATA: Modalità del carattere 2 Carattere 2 Nazionalità 60 . | Circulatory Arrest | (1=yes; 0=low-flow | bypass) and Ventricular 0 | 1 | Precoce Classe di esposizione EEG seizure activity within 48 h since surgery -----------------------------------| Deep Hypothermic within 48 | postopera | 0001 Sesso Età Tabelle a n entrate eegseiz vsd dhca EEG seizure activity Id Number of children . table Partendo da questi dati grezzi: Esposizione Effetto Contains data from circarrest2.dta obs: 171 vars: 8 17 May 2002 15:35 size: 6,156 (99.2% of memory free) ------------------------------------------------------------------------------storage display value variable name type format label variable label ------------------------------------------------------------------------------vsd float %9.0g Ventricular Septal Defect (1=yes; 0=no) dhca float %9.0g Deep Hypothermic Circulatory Arrest (1=yes; 0=low-flow bypass) minutes float %9.0g Duration of circulatory arrest (minutes) birthwt float %9.0g Birth weight (grams) age float %9.0g Age at surgery (days) clinseiz float %9.0g Clinical Seizures within 7 postoperative days eegseiz float %9.0g EEG seizure activity within 48 postoperative hours pdi float %9.0g Psychomotor Development Index at age 1 ------------------------------------------------------------------------------- Doppia entrata, Variabile Ordinale Low Flow By-Pass EEG seizures Deep Hypothermic Circulatory Arrest No EEG seizures graph bar (sum) eegseiz noeegseiz, over(dhca, relabel(1 "Low Flow ByPass" 2 "Deep Hypothermic Circulatory Arrest")) bar(2, bfcolor (ltblue) blcolor(ltblue)) ytitle(Number of children) title(EEG seizure activity within 48 h since surgery) legend(order(1 "EEG seizures" 2 "No EEG seizures")) 18 Barre sovrapposte Torte affiancate EEG seizure activity within 48 h since surgery Deep Hypothermic Circulatory Arrest 0 20 40 Number of children 60 80 Low Flow By-pass Low Flow By-Pass Deep Hypothermic Circulatory Arrest EEG seizures No EEG seizures EEG seizure activity within 48 postoperative hours noeegseiz Graphs by Deep Hypothermic Circulatory Arrest (1=yes; 2=low-flow bypass) graph bar (sum) eegseiz noeegseiz, over(dhca, relabel(1 "Low Flow ByPass" 2 "Deep Hypothermic Circulatory Arrest")) bar(2, bfcolor (ltblue) blcolor(ltblue)) ytitle(Number of children) title(EEG seizure activity within 48 h since surgery) legend(order(1 "EEG seizures" 2 "No EEG seizures")) stack graph pie eegseiz noeegseiz, angle(90) by(dhca) pie( 2, color (ltblue)) DIAGRAMMI DI DISPERSIONE DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI STATA: !twoway (scatter marriage pop, , xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))! 200,000 150,000 100,000 00 0 00 ,0 25 0, ,0 0 20 ,0 00 0 ,00 15 ,0 00 ,0 00 ,0 10 0, 00 00 0 50,000 Georgia Virginia Tennessee Indiana New Jersey Missouri S. Carolina Alabama Washington Oklahoma Maryland Massachusetts N. Carolina Louisiana Wisconsin Minnesota Colorado Kentucky Arizona Mississippi Iowa Arkansas Connecticut Kansas Oregon W.Mex Virginia New Utah ico Idaho Nebraska Hawaii Maine New S. Montana DakHampshire ota Rhode Island Wyoming N. Dakota Alaska Vermont Delaware 00 ,0 00 ,0 25 Se i due caratteri non sono correlati, i punti si distribuiscono casualmente su tutto il piano cartesiano msize(medium))! Florida Il linois Ohio Pennsylvania Michigan 5, 00 00 ,0 00 ,0 20 00 ,0 15 10 ,0 00 ,0 ,00 0 00 00 5, 00 0 ,0 0 Population 1980 U.S. census data la scala per un carattere è riportata nell asse x e la scala per l altro nell asse y New York Nevada 0 California Tex as 0 50,000 Sono utili per illustrare la relazione tra due diversi caratteri che assumono modalità numeriche Ogni punto del grafico rappresenta una unità statistica Number of marriages 100,000 150,000 0 Number of marriages 200,000 A DUE DIMENSIONI Population 1980 U.S. census data STATA: !twoway (scatter marriage pop, msize(small) mlabel(state) mlabsize(small) mlabcolor(red)), xlabel(, angle(forty_five)) caption(1980 U.S. census data, size(small))! 19 DIAGRAMMI DI DISPERSIONE DIAGRAMMI DI DISPERSIONE A DUE DIMENSIONI 50,000100,000150,000200,000 A DUE DIMENSIONI 200000 Trend Outliers Clustering West 0 50,000 South 50,000100,000150,000200,000 100000 N C ntrl 0 Number of marriages Number of marriages 150000 NE 0 0 0 !gr7 1.0e+07 Population 1.5e+07 2.0e+07 Ginec.Ostet.2 3 Nido Ginec.Ostet.2 Rianimaz. Oculistica ICP ---> Oculistica Cardio Em Urologia Litotrissia Em atologi a Cardiochirurgia Ginec.Ostet.1 Ch.G enerale2 Neurochir. Neonatol. Ch.GCh.Urgenza enerale1 Psic hiatr ia Endocrino Mal .Infett. Ortopedia odinam. Nefr ologia Cardio Medica UTICMed.Generale Pneumologia Geriatria ORL Ch.G enerale1 Em atologi a Cardiochirurgia Ginec.Ostet.1 Ch.G enerale2 Endocrino Cardio Medica Neurologia UTIC Mal .Infett. 1 Oncologia Med. Pediatria Nido ORL Cardio Em odinam. Geriatria 20,000,000 30,000,000 Psic hiatr ia Med.Generale 1 ∞ Tranquilla Complessità Quadrante PROBLEMATICO Neurologia Pediatria 1 ICP ---> 2 10,000,000 Complessità della casistica (ICM) 0 Rianimaz. Neonatol. Neurochir. Ch.Urgenza Pneumologia Nefr ologia Urologia Ortopedia 3 30,000,0000 !twoway (scatter marriage pop), by( region) STATA: 1997 2 20,000, 000 Graphs by Census region marriage pop, oneway twoway xlab(0 (0.5e+07) 2.5e+07) ylab(0 (50000) 200000)! 1996 10,000,000 Population 2.5e+07 ∞ STATA: 5.0e+06 Litotrissia .5 .33 .33 .5 1 ICM ---> 3 .33 1998 3 2 Rianimaz. Urologia Cardiochirurgia 3 Ginec.Ostet.2 Ch.G enerale2 Neurochir. Ch.Urgenza ICP ---> Ginec.Ostet.1 Mal .Infett. Pneumologia Med.Generale Ginec.Ostet.2 Neurologia Ortopedia Nefr ologia Geriatria UTIC Oculistica Cardio Medica Cardio Em odinam. Oncologia Med. Nido 2 Rianimaz. Ch.Urgenza Endocrino Ch.G enerale2 Ch.G enerale1 Em atologi a Pediatria ORL 1 1 ICM ---> Neonatol. Neurochir. Neonatol. Urologia .5 1999 3 2 Mal .Infett. Ch.G enerale1 Oculistica Nefr ologia Med.Generale Endocrino Geriatria 1 Pediatria Cardio Em odinam. Litotrissia .5 .33 .5 1 ICM ---> 2 3 Efficiente Semplicità Standard di riferimento Complessità: Efficienza: ELEVATA SCARSA Quadrante VIRTUOSO Cardiochirurgia NidoOncologia Med. Litotrissia .33 .33 SCARSA SCARSA UTIC Ortopedia Neurologia Em atologi a Ginec.Ostet.1 ORL Psic hiatr ia Cardio Medica Pneumologia Psic hiatr ia .5 Complessità: Efficienza: .33 .5 1 ICM ---> 2 3 0 ICP ---> 2 1 .33 Efficienza (ICP) .5 Complessità: Efficienza: SCARSA ELEVATA Complessità: Efficienza: ELEVATA ELEVATA 20 Cardio Emodinam. Neurochir. Cardio Medica Neurologia 19 98 2 2 19 96 19 97 1.5 1.5 1 9 96 19 99 1 9 96 19 97 1919 9896 1 9 97 1 1 .66 1 9 99 .66 .5 Cardiochirurgia 2 .66 1 1.5 2 ICP .5 .5 ICP 19 99 11999989 1 9 19 7 9 98 ORL 1.5 Oculistica 2 1 9 96 19 96 1.5 1 9 97 1 9 98 1 .66 .66 19 99 19 97 19 99 19 98 .5 .5 .5 .66 1 1.5 .5 2 graph twoway (connect anno eventi), sort è così possibile seguire il comportamento del carattere riportato in y in un determinato periodo .5 Pert osse " - ROMA" .66 1 1.5 2 Pert osse " - Di strett o A" Tasso per 100.000 ab. Tasso per 100.000 ab. 15 10 5 0 10 5 0 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94De c94 Jun 95 De c95 Jun 96De c96 Jun 97De c97 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94 De c94 Jun 95De c95 Jun 96De c96 Jun 97De c97 Pert osse " - ASL RME" Pert osse " - Di strett o B" 15 15 Tasso per 100.000 ab. 2 15 Tasso per 100.000 ab. 1.5 Pertosse - RM/E (1991-1997) DIAGRAMMI LINEARI Ciascun punto sul grafico rappresenta una coppia di modalità A Ciascun valore sull asse x ha un solo valore sull asse y I punti adiacenti sono collegati da linee rette In genere, la scala sull asse x rappresenta il tempo 1 Graphs by Reparto Graphs by Reparto .66 ICM ICM STATA: 19 97 19 96 19 98 1 9 99 1 10 5 0 10 5 0 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94De c94 Jun 95 De c95 Jun 96De c96 Jun 97De c97 Jan 91 Jul 91 Jan 92 Jul 92 Jan 93 Jul 93 De c93 Jun 94 De c94 Jun 95De c95 Jun 96De c96 Jun 97De c97 21 Mortalita' grezza Trend lineare (p=0.07) Mortalita' grezza Media mobile a 5 mesi Media mobile a 5 mesi .15 .15 .1 .1 .05 .05 0 0 2/96 1/96 7/96 1/97 7/97 1/98 7/98 Mese 1/99 7/99 1/00 7/00 1/01 2/97 Infettiv e Tumori Leucemie Circ XVII Circ XVIII Circ XIX Circ XX Diabete M. Circolator Ipertensione IMA Cirrosi Traumatismi Infarto Rapporti standardizzati di mortalita' - per causa - 1996 gr7 c17 c18 c19 c20, star label(causa) Il diverso sviluppo delle braccia per raggruppamenti diversi fa risaltare le caratteristiche distintive 2/00 2/01 Primario 1 (valori indice=100) da usare per piu variabili o per rappresentare andamenti temporali ciclici A ciascun braccio della stella corrisponde un diverso carattere numerico Le braccia adiacenti sono collegate da linee rette La forma generale delle stelle vuole evidenziare a prima vista deviazioni dalla regolarità STATA: 2/99 Sono grafici multivariati Tutte Mese Starplot multivariato DIAGRAMMI POLARI o A STELLA 2/98 Cardiochirurgia Ospedale San Carlo - Potenza N. medio dimessi/die 140 % altre provincie (>1 gg) 120 100 Primario 2 Primario 3 % DRG Chirurgici 80 60 40 % da prov. confine (>1gg) 20 % DRG Specialistici 0 % da regione, altra prov. (>1gg) % da provincia (>1gg) ICM (solo ricoveri >1 gg) ICP (solo ricoveri >1 gg) 22 Starplot multivariato MAPPE Primario 1 (valori indice=100) Primario 2 Primario 3 % DRG Chirurgici % altre provincie (>1 gg) % da altre provincie (tutti) 160 % DRG Specialistici 140 120 La distribuzione spaziale di una variabile può essere rappresentata ICM (anche ricoveri 0-1 gg) 100 80 60 % da prov. confine (>1gg) ICM (solo ricoveri >1 gg) 40 20 0 % da prov. confine (tutti) ICP (anche ricoveri 0-1 gg) % da regione, altra prov. (>1gg) ICP (solo ricoveri >1 gg) % da regione, altra prov. (tutti) N. medio dimessi/die % da provincia (>1gg) % da provincia (tutti) Grafici famosi del passato 1137 d.C., Cina 1686 d.C., Inghilterra 1801 d.C. Inghilterra William Playfair, economista, pubblica il Commercial e Political Atlas, che contiene 44 grafici, per lo più grafici lineari (serie temporali), o grafici a barre William Playfair pubblica il primo grafico a torta Snow, medico, costruisce la famosa mappa per punti dei morti per colera a Londra A.M. Guerry in Essai sur la Statistique morale de la France pubblica un istogramma STATA (add-on!): tmap Proprietà formali dei dati e strumenti utilizzabili per descriverli equivalenza (=, ≠) 1857 d.C., Inghilterra Florence Nightingale, infermiera, usa i “coxcombs”, oggi chiamati grafici polari, nella sua campagna di miglioramento delle condizioni sanitarie dell’esercito Pearson conia il termine Istogramma 1952 d.C. Mary Eleanor Spear propone la “range bar”, prina versione orizzontale del box plot 1977 d.C. John Tukey propone il box plot posizione (<, >) aritmetiche (+, -, *, /) Frequenza (conte) • Freq. assoluta • Freq. relativa • Freq. percentuale • Freq. cumulativa Tendenza centrale (sintesi) • Moda • Mediana • Media aritmetica • Media geometrica • Massimo e minimo • Percentili • Varianza • Deviaz. standard • Errore standard • Coeff. di variazione 1895 d.C. Karl 1833 d.C., Francia 1854 d.C., Inghilterra John 1785 d.C., Inghilterra coordinate cartesiane nella mappa delle strade di Yu il grande Edmund Halley, astronomo, misura l’altezza del mercurio in un barometro a diverse altezze s.l.m. e deriva una relazione tra pressione e altezza attraverso un grafico a dispersione assegnando lo stesso colore alle aree delimitate dai loro confini geografici che presentano la stessa modalità o appartengano alla stessa classe di modalità rispetto ad una tabella, è mantenuto il potere informativo della contiguità utilizzando come delimitatore delle curve isolivello del carattere numerico in uso curve isolivello Variabilità (precisione) 23 Indici (Statistiche) Gran parte della analisi statistica consiste nel condensare complessi pattern di osservazioni in un indicatore che sia capace di riassumere una specifica caratteristica di tutte le rilevazioni in un singolo numero In statistica descrittiva distinguiamo: Indici di tendenza centrale che esprimono il valore tipico Indici di dispersione che esprimono quanto i dati si raggruppano strettamente intorno al valore tipico Indici di forma che esprimono le caratteristiche di simmetria e curvatura della distribuzione dei dati Indici di sintesi numerica . summ pesonasc, detail Peso alla nascita (grammi) ------------------------------------------------------------Percentiles Smallest 1% 2268 1497 5% 2631 1769 10% 2767 1996 Obs 680 25% 3084 1996 Sum of Wgt. 680 50% 75% 90% 95% 99% Il Valore atteso: indici di tendenza centrale Media aritmetica La somma di tutti i valori rilevati in un campione divisa per la numerosità Utilizza le proprietà delle relazioni aritmetiche (quantità, operazioni) Esiste solo per i dati numerici continui e discreti 3447 3719 4037 4173 4627 Mean Std. Dev. 3409.396 495.4868 Variance Skewness Kurtosis 245507.1 -.025685 3.402766 Il Valore atteso: indici di tendenza centrale Media aritmetica La somma di tutti i valori rilevati in un campione divisa per la numerosità Esempio: Il volume espiratorio forzato in 13 adolescenti asmatici (in litri) 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 Sintetizza tutti i dati: è il valore più vicino a tutte le singole osservazioni E invariante per trasformazioni affini Somma dei 13 valori xi Divisione per n=13 2.3+2.1+3.5+2.6+2.8+2.8+4.0+2.2+2.6+3.0+4.0+2.8+3.3= 38 +k, - k, *k, /k sui dati • spostano nello stesso senso la media E valida soprattutto per i dati che seguono una distribuzione di frequenza normale E sensibile ai valori estremi Largest 4763 4808 4989 5171 38 / 13 = 2.9 n ∑x i STATA: summarize fev x= i =1 n 24 Il Valore atteso: indici di tendenza centrale Significato: La Media aritmetica Moda, media e mediana Quanto sarebbero alti i soggetti che abbiamo studiato, se fossero tutti uguali? n ∑x i x= xi n i =1 n ∑x i i =1 x1 x2 Mediana x3 x x x Il Valore atteso: indici di tendenza centrale Il valore, che, dopo aver posto le osservazioni in ordine crescente, divide il campione in due gruppi di eguale numerosità Come si determina? Nelle serie dispari è il valore al centro della distribuzione ordinata (valore nella (n+1)/2 esima posizione) Nelle serie pari è la media dei due valori al centro della distribuzione ordinata (media tra il valore nella n/2 esima e il valore nella (n/2)+1 esima posizione) Mediana Il valore, che, dopo aver posto le osservazioni in ordine crescente, divide il campione in due gruppi di eguale numerosità Esempio: Il volume espiratorio forzato in 13 adolescenti asmatici (in litri) 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 Non è sensibile ai valori estremi E il migliore indice di sintesi nelle distribuzioni asimmetriche Ordina i 13 valori xi Calcolo: Nelle serie dispari (N=13 è dispari) è il valore al centro della distribuzione ordinata • valore nella (n+1)/2 esima posizione = 7a posizione 2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0 Esiste per i dati numerici continui e discreti e per i dati categorici ordinali 2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0 E detta anche 50° percentile Utilizza le relazioni di posizione dei dati (>,<) Il Valore atteso: indici di tendenza centrale 6 osservazioni < o = STATA: 6 osservazioni > o = centile fev, centile(50) oppure summarize fev, detail 25 Moda Il Valore atteso: indici di tendenza centrale Valutare una distribuzione di frequenza Il valore, che si presenta più frequentemente nella popolazione o nel campione Si determina contando la frequenza delle modalità Utilizza soltanto la relazione di identità dei dati (=, ≠) Esiste per i dati categorici binomiali, nominali e ordinali e per i dati numerici discreti (quando le modalità osservate siano poche) Per i dati numerici continui, è necessario prima raggruppare in classi le osservazioni Non tiene conto di tutte le altre modalità E utile per sospettare la copresenza di più popolazioni Simmetrica Unimodale Media Simmetrica Bimodale Moda1 < Media = Mediana < Moda2 Asimmetrica a destra Moda = Mediana = Moda < Mediana < Media Asimmetrica a sinistra Media < Mediana < Moda La variabilità (precisione): indici di dispersione Varianza E un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione Idealmente, la distanza media delle osservazioni dalla media artimetica del campione si potrebbe studiare calcolando la media aritmetica dei semplici scarti. Tuttavia, per la stessa definizione della media artimetica, la somma degli scarti è pari a zero Allora, per evitare l azzeramento della somma degli scarti, si calcola la media dei quadratin degli scarti per la varianza di una popolazione: ∑ ( xi − µ )2 σ 2 = i =1 n per la varianza in un campione • si tende ad essere più conservativi: n s2 = ∑ ( x − x) 2 i i =1 n −1 26 La variabilità (precisione): indici di dispersione Varianza La variabilità (precisione): indici di dispersione E un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione si calcolano gli scarti E un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione Utilizza le proprietà delle relazioni aritmetiche (quantità, operazioni) 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 2.3-2.9, 2.1-2.9, 3.5-2.9, … -0.6, -0.8, +0.6, -0.3, -0.1, -0.1, +1.1, -0.7, -0.3, +0.1, +1.1, -0.1, +0.4 si calcolano i quadrati degli scarti Si calcola la media dei quadrati degli scarti (con i gradi di libertà) Varianza Esiste solo per i dati numerici continui e discreti Trasformazioni E invariante per +k, - k, Si modifica per *k, /k 0.36, 0.64, 0.36, 0.09, 0.01, 0.01, 1.21, 0.49, 0.09, 0.01, 1.21, 0.01, 0.16 E valida soprattutto per i dati che seguono una distribuzione di frequenza normale E sensibile ai valori estremi La sua unità di misura non è quella della media 0.36+0.64+0.36+0.09+0.01+0.01+1.21+0.49+0.09+0.01+1.21+0.01+0.16 n 4.65/(13-1) = 0.3875 2 • attenzione: è in una scala al quadrato ! STATA: summarize fev, detail s2 = ∑ ( x − x) i i =1 n −1 è al quadrato! La variabilità (precisione): indici di dispersione Deviazione standard E un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione E la radice quadrata della varianza, e ne ha le stesse proprietà Riporta l indice di precisione alla stessa scala della media aritmetica Coefficiente di variazione E un indice che rapporta il valore della deviazione standard alla media del corrispondente campione E detto anche Deviazione Standard Relativa E utile per confrontare tra loro la precisione di metodi diversi La variabilità (precisione): indici di dispersione Quantili, Percentili Per QUANTILI si intende la suddivisione di una distribuzione in gruppi ordinati e di eguale numerosità Decili: dieci gruppi Quintili: cinque gruppi Quartili: quattro gruppi Centili (o percentili): cento gruppi Per PERCENTILE si intende la suddivisione in 100 parti uguali di una serie di valori continui ad esempio pesi o altezze di bambini Un bambino che superi il 90% percentile avrà dunque un valore (es. di altezza) superiore al 90% di tutti i bambini considerati 27 La variabilità (precisione): indici di dispersione Calcolo del p-esimo Percentile La variabilità (precisione): indici di dispersione Calcolo del p-esimo Percentile 75° Considerando n osservazioni ordinate ed intendendo calcolare il valore del pesimo percentile valutiamo l espressione (n*p)/100 se NON è un intero • il p-esimo percentile sarà l osservazione che si trova alla posizione data da np/100 approssimato per eccesso se è un intero • il p-esimo percentile sarà la media tra l osservazione che si trova nella posizione np/100 e l osservazione che si trova nella posizione successiva DIAGRAMMI A SCATOLA percentile nel nostro esempio di 13 osservazioni valutiamo l espressione (n*p)/100 75*13/100 = 9.75 è NON è un intero • il p-esimo percentile sarà l osservazione che si trova alla posizione data da np/100 approssimato per eccesso • e cioè la 10a osservazione dopo aver ordinato i dati 2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0 STATA: centile fev, centile(75) oppure summarize fev, detail 1 variabile continua & 1 variabile di raggruppamento Peso alla nascita (grammi) STATA: graph eta, box by(reparto) Sono utili per verificare la asimmetria delle distribuzioni di frequenza La scatola centrale si estende dal 25° percentile al 75° percentile (i quartili dei dati) La linea dentro la scatola rappresenta la mediana Le linee al di fuori della scatola si estendono ai valori adiacenti, osservazioni più estreme che non superano più di 1,5 volte l altezza della scatola esternamente ad ognuno dei quartili 5000 42 41 43 41 4000 3000 2000 33 29 1000 0 1 28 1 variabile continua & 1 variabile di raggruppamento mosmoke==0 Valutare la distribuzione mosmoke==1 100 Frequency 50 0 1000 2000 3000 4000 5000 1000 2000 3000 4000 5000 . by mosmoke: summarize pesonasc -> mosmoke= 0 -> (figli di non fumatrice) Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------------------------pesonasc | 381 3507.535 477.3541 1497 5171 -> mosmoke= 1 -> (figli di fumatrice) Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------------------------pesonasc | 299 3284.341 490.7343 1996 4536 Molte analisi statistiche applicabili ai dati continui sono basate sull assunzione che i dati disponibili siano un campione estratto casualmente da una popolazione a distribuzione normale prima di svolgere questi test, è dunque necessario verificare se tale assunzione è lecita sui dati grezzi su una loro trasformazione (es. Logaritmica) Peso alla nascita (grammi) STATA: Histograms by Madri fumatrici ladder variabile e/o gladder variabile La normalità si valuta con la posizione relativa di media e mediana la forma dell istogramma il 10%, 50%, 90% percentile o il box plot il normal plot l indice di skewness (simmetria) 100 50 1000 0 l indice di kurtosi 3 = ok, > 3= dati concentrati intorno alla media, < 3= dati molto dispersi alle code test statistici (Shapiro-Wilk, Shapiro-Francia, Kolmogorov-Smirnov) 0.75 0.50 0.25 0.00 0 Normal F[(etapadre-m)/s] = curva simmetrica, +1 = asimmetria a destra, -1 = asimmetria a sinistra Normal F[(pesonasc-m)/s] sovrapponibili la distribuzione sarà simmetrica 2000 3000 4000 Peso alla nascita (grammi) 0.00 5000 1.00 200 0.75 150 Frequency se 1.00 150 Frequency Valutare la normalità 0.50 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 100 50 0.25 0 0.00 0.00 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 20 30 40 Eta' del padre (anni) 50 29 Statistica Inferenziale I metodi della statistica inferenziale hanno l obiettivo di quantificare la probabilità che una deduzione basata sui dati raccolti per un campione e riferita alla popolazione sia vera Il campione Statistica inferenziale: Elementi generali, test di ipotesi e intervalli di confidenza descrive gli individui sotto osservazione La popolazione descrive gli ipotetici (e, di solito) infiniti soggetti a cui volete generalizzare ciò che avete dedotto dal campione Segnale e rumore EVENTO “ALEATORIO” Definizione Praticamente tutti i test statistici sono basati sul calcolo di un rapporto SEGNALE/RUMORE dove il segnale è il fenomeno di interesse ed il rumore la variabilità individuale L’ evento è l’ elemento di base al quale può essere applicata la probabilità è il risultato di una osservazione o di un esperimento è la descrizione di un potenziale risultato è lo “stato” preso da un “sistema” L’ evento è una proposizione logica suscettibile di essere verificata o no a seconda del risultato dell’ “esperimento” 30 Probabilità Se un “esperimento” Definizione Frequentista viene ripetuto n volte in condizioni sostanzialmente identiche e se l’ evento A si verifica m volte all’ aumentare di n la proporzione m/n si avvicina ad un limite fisso che è la probabilità di A P (A) = m / n lim n⇒∞ (m / n) = P (A) La probabilità di un evento è dunque definita come la frequenza relativa con cui l’ evento si verifica in una lunga serie di esperimenti condotti in condizioni virtualmente identiche Il valore di una probabilità è un numero compreso tra 0 e1 Se un particolare evento si verifica con certezza, allora n/n =1 Come aiutare a percepire le misure di probabilità e rischio ? Calman e Royston (BMJ, 1997), hanno portato un contributo interessante al problema della comunicazione e comprensibilità delle misure di rischio spesso è difficile proporre, stime di probabilità o di aumento relativo di probabilità non solo ai pazienti, ma anche agli operatori sanitari ed hanno proposto di fare riferimento a scale legaritmiche (come quella Richter per i terremoti) a riferimenti in termini di distanza chilometrica a riferimenti qualitativi verbali a riferimenti delle dimensioni di comunità crescenti . tabulate mosmoke Madri | fumatrici | (si'=1,no=0)| Freq. Percent ------------+-------------------------0 | 381 56.03 1 | 299 43.97 ------------+-------------------------Total | 680 100.00 2 eventi mutuamente esclusivi . tab scolapad Anni di | scolarita' | del padre | Freq. Percent Cum. ------------+----------------------------------6 | 5 0.74 0.74 10 | 92 13.53 14.26 12 | 224 32.94 47.21 14 | 142 20.88 68.09 16 | 217 31.91 100.00 ------------+----------------------------------Total | 680 100.00 Pr(fumatrice)=0.4397 Pr(non fum)=1-0.4397 5 eventi mutuamente esclusivi Pr(16 anni)=0.3191 Pr(14 anni)=0.2088 Pr(12 anni)=0.3294 Pr(10 anni)=0.1353 Pr(6anni)=0.0074 Community cluster classification da Calman KC, Royston G, Personal paper: Risk language and dialects, BMJ, 1997, 315: 939,-942 Grouping Approximate size Individual Family Street Village Small town Large town City Province or country Large country Continent World 1 10 100 1000 10000 100000 1000000 10000000 100000000 1000000000 10000000000 Logarithm of size 0 1 2 3 4 5 6 7 8 9 10 31 Proprietà additiva - eventi esclusivi . tab scolapad Anni di | scolarita' | del padre | Freq. Percent Cum. ------------+----------------------------------6 | 5 0.74 0.74 10 | 92 13.53 14.26 12 | 224 32.94 47.21 14 | 142 20.88 68.09 16 | 217 31.91 100.00 ------------+----------------------------------Total | 680 100.00 5 eventi mutuamente esclusivi Pr(16 anni)=0.3191 Pr(14 anni)=0.2088 Pr(12 anni)=0.3294 Pr(10 anni)=0.1353 Pr(6anni)=0.0074 Pr(12 anni OR 14 anni)= Pr(14 anni) + Pr(12 anni) = 0.2088 + 0.3294 = 0.5382 Proprietà additiva - eventi non esclusivi . tabulate mosmoke Madri fumatrici (si'=1,no=0)| Freq. Percent ------------+-------------------------0 | 381 56.03 1 | 299 43.97 ------------+-------------------------Total | 680 100.00 . tab fatsmoke Padri fumatori (si'=1,no=0)| Freq. Percent ------------+------------------------0 | 214 31.47 1 | 466 68.53 ------------+------------------------Total | 680 100.00 . tab fatsmoke mosmoke, cell Padri | fumatori | Madri fumatrici (si'=1,no=0)| 0 1 | Total ------------+----------------------+---------0 | 159 55 | 214 | 23.38 8.09 | 31.47 ------------+----------------------+---------1 | 222 244 | 466 | 32.65 35.88 | 68.53 ------------+----------------------+---------Total | 381 299 | 680 | 56.03 43.97 | 100.00 Proprietà additiva - eventi non esclusivi . tab fatsmoke mosmoke, cell Padri | fumatori | Madri fumatrici (si'=1,no=0)| 0 1 | Total ------------+----------------------+---------0 | 159 55 | 214 | 23.38 8.09 | 31.47 ------------+----------------------+---------1 | 222 244 | 466 | 32.65 35.88 | 68.53 ------------+----------------------+---------Total | 381 299 | 680 | 56.03 43.97 | 100.00 2 eventi NON mutuamente esclusivi -> 4 eventi! Pr(P0 AND M0)=0.2338 Pr(P0 AND M1)=0.0809 Pr(P1 AND M0)=0.3265 Pr(P1 AND M1)=0.3588 2 eventi mutuamente esclusivi Pr(fumatrice)=0.4397 Pr(non fum)=1-0.4397 2 eventi mutuamente esclusivi Pr(fumatore)=0.6853 Pr(non fum)=1-0.6853 2 eventi NON mutuamente esclusivi -> 4 eventi ! Pr(P0 AND M0)=0.2338 Pr(P0 AND M1)=0.0809 Pr(P1 AND M0)=0.3265 Pr(P1 AND M1)=0.3588 La proprietà moltiplicativa Prendiamo in esame 1 evento aleatorio esposizione ed 1 effetto: ad esempio esposizione al fumo ed la presenza di Basso peso alla nascita Se i due eventi non fossero associati, si combinerebbero casualmente, seguendo la proprietà moltiplicativa della probabilità 1.6% 3.68% Pr(Padre fuma OR Madre fuma)= 43.6% x = Pr(P1)+Pr(M1)-Pr(P1 AND M1) = 0.6853+0.4397-0.3588 = 0.7662 P(A AND B ) = P(A) x P(B) P(A AND B ) < P(A); P(A AND B ) < P(B) 32 La probabilità condizionata Eventi indipedenti e dipendenti • L’ Epidemiologia costruttiva utilizza le misure di frequenza allo scopo di stimare se i due eventi si associano solo casualmente, o se l’esposizione aumenta il RISCHIO di malattia: se l’ esposizione e la malattia sono tra loro indipendenti (non esiste dunque alcuna associazione) se l’ esposizione e la malattia sono tra loro dipendenti L’ esposizione e la malattia potrebbero essere distribuite nella popolazione come nel seguente schema: Malati (l’esposizione modifica la probabilità di malattia) 0,2 0,5 Non malati 0,8 La probabilità di essere Fumatore AND Malato è il prodotto delle probabilità elementari La probabilità di essere Fumatore AND Malato è MAGGIORE del prodotto delle probabilità elementari Eventi indipendenti se l’ esposizione e la malattia sono tra loro indipendenti la conoscenza dello stato di malattia non influenza la probabilità che un soggetto sia esposto 0,5 0,2 0,8 Malati 0,5 Non malati 0,5 Esposti Non esp. Esposti 0,1 0,5*0,2= 0,1 se l’ esposizione e la malattia sono tra loro dipendenti la conoscenza dello stato di malattia modifica la stima della probabilità che un soggetto sia esposto 0,95 0,2 Non esp. 0,5*0,8= Malati 0,05 0,39 0,4 0,8 0,5 0,4 Non esposti Eventi dipendenti 0,5*0,2= 0,5*0,8= 0,5 Esposti 0,05*0,2= 0,19 0,01 Esposti 0,39*0,8= 0,31 Non esp. 0,61*0,8= 0,49 Esposti Non esp. 0,95*0,2= Non malati 0,61 33 La probabilità condizionata se l’ esposizione e la malattia sono tra loro dipendenti la conoscenza dello stato di malattia modifica la stima della probabilità che un soggetto sia esposto Esposti Malati Non esp. Esposti Non malati Il teorema di Bayes (1) La conoscenza dello stato assunto da uno dei due eventi condiziona la stima della probabilità che si verifichi l’ALTRO evento: a partire dai prodotti marginali e dalle probabilità nelle singole diramazioni, è possibile “rovesciare” l’ albero delle probabilità B P(B∩A) ∪ P(B∩Ac) = P(BANDA) OR P(BANDAc) = P(B) P(A)* P(B|A) + P(Ac)* P(B|Ac) = P(B) B PROBABILITA’ CONDIZIONATA (0,95*0,2) + (0,39*0,8 ) = 0,19 Bc P(Bc∩A) ∪ P(Bc∩Ac) = P(BcANDA) OR P(BcANDAc) = P(Bc) Non esp. Bc P(A)* P(Bc|A) + P(Ac)* P(Bc |Ac) = P(Bc) (0,05*0,2) + (0,61*0,8) = 0,01 In questo modo è possibile modificare la stima della probabilità che un soggetto sia malato sulla base della conoscenza dello stato di esposizione 0,19/0,5= 0,38 0,19+0,31= 0,5 Esposti 0,31/0,5= 0,62 0,01/0,5= 0,01+0,49= 0,5 Non esposti 0,02 0,49/0,5= 0,98 Malati 0,5*0,38= 0,19 Non malati 0,5*0,61= 0,31 Malati 0,5*0,02= 0,01 Non malati 0,49 Il teorema di Bayes viene utilizzato spesso nella valutazione di test diagnostici o screening Test Diagnostici: hanno come obiettivo di consentire una diagnosi di malattia Test di Screening: utilizzati su soggetti che non presentano alcuna sintomatologia clinica, permettono di classificare tali individui sulla base della probabilità di essere affetti da una particolare patologia 0,5*0,98= + 0,49 = 0,50 Il teorema di Bayes ed i test Il teorema di Bayes (2) + 0,31 = 0,50 Il teorema di Bayes consente di utilizzare la probabilità per valutare le incertezze associate ai risultati 34 Misure di qualità di un test Qualità del test ed alberi di probabilità SENSIBILITA’: la percentuale di soggetti malati che il test classifica come positivi = Veri positivi / (Veri positivi + Falsi negativi) Sensibilità Prevalenza P(B|A) Test + Malati P(A) Test- esprime la probabilità che il test sia positivo nei soggetti malati SPECIFICITA’: la percentuale di soggetti sani che il test identifica come negativi = Veri negativi / (Veri negativi + Falsi positivi) 1- P(A) Test- esprime la probabilità che il test sia negativo nei soggetti sani Misure di qualità di un test VALORE PREDITTIVO DEL TEST POSITIVO (VPP): probabilità di essere malati dei soggetti risultati positivi al test = Veri positivi / (Veri positivi + Falsi positivi) Specificità probabilità di essere sani dei soggetti risultati negativi al test = Veri negativi / (Veri negativi + Falsi negativi) Falsi positivi Veri negativi P(Bc|Ac) Valore predittivo test + P(B) P(A|B) Test + Malati Non malati VALORE PREDITTIVO DEL TEST NEGATIVO (VPN): la Falsi negativi Qualità del test ed alberi di probabilità la Test + Non malati Veri positivi Malati Test- Valore predittivo test - Non malati Veri positivi Falsi positivi Falsi negativi Veri negativi P(Ac|Bc) 35 Qualità del test ed alberi di probabilità P(A|B) = P(A)* P(B|A) P(A)* P(B|A) + P(Ac)* P(B|Ac) Prevalenza Veri positivi = (Preval. * Sensib.) + (1-Preval.)*(1-Specif.) Veri positivi Malati Non malati Malati Test- Falsi negativi Falsi positivi Non malati Test + Falsi positivi Falsi negativi Malati Test- Veri negativi Non malati Specificità P(Ac|Bc)= P(Ac)* P(Bc|Ac) P(A)* P(Bc|A) + Valore predittivo del test + P(Ac)* P(Bc|Ac) = Valore predittivo del test - (1-Preval. )* Specif. Prevalenza Malati P(B|A) =0.75 P(A)=0.01 Test + 1-0.75=0.25 1-0.01 =0.99 1-0.93=0.07 Specificità Falsi negativi =0.01*0.25 =0.0025 Test + Falsi positivi =0.99*0.07 =0.0693 TestP(Bc|Ac) =0.93 Reagan (OMS) Normale Atipia Displasia lieve Papanicolau I II Displasia Carcinoma Carcinoma grave III in situ invasivo IV V da: Nanda K, et al., Ann Intern Med 2000; 132:810-819 Il Pap-test Stime di frequenza 10:1000 (p=0.01) 3:1000 (p=0.003) da: CNR - Basi scientifiche per la definizione di linee guida da: Loiudice et al, Eur J Cancer Prev, 1998; 7:295-304 80:1000 10:1000 (p=0.01) (p=0.08) 0.40 0.96 0.75 0.93 Sensibilità Specificità 10:100000 (p=0.0001) Qualità del test ed alberi di probabilità P(A)* P(B|A) P(A)* P(B|A) + P(Ac)* P(B|Ac) Preval. * Sensib. = (Preval. * Sensib.) + (1-Preval.)*(1-Specif.) Valore predittivo del test + Sensibilità 0.75 Prevalenza 0.0075 0.01 0.25 0.07 0,999917 Non malati 0.93 0.0075 Veri positivi Test + Veri positivi 0.0025 0.0693 Test- Falsi negativi Falsi positivi Test + Falsi positivi Falsi negativi 0.0025 Malati Veri negativi =0.99*0.93 =0.9207 Displasia Moderata Veri positivi =0.01*0.75 =0.0075 Neoplasia Intraepitaeliale della Cervice CIN I CIN II CIN III Condiloma P(A|B) = Test- Non malati Richart Preval. * (1-Sensib.) + (1-Preval.)*Specif. Un esempio: il pap-test Sensibilità Lesione Intraepiteliale Squamosa (SIL) ASCUS Basso Grado (LSIL) Alto Grado (HSIL) riparative Test + TestVeri negativi Classificazione citologica Infezione Reazioni Preval. * Sensib. Sensibilità Test + Sistema di Classificazione Bethesda Test- 0.0693 P(Ac|Bc)= Non malati 0.0976 Test + 0.0768 0.9023 0.0027 Veri negativi Veri negativi 0.9207 0.9207 Specificità P(Ac)* Malati P(Bc|Ac) P(A)* P(Bc|A) + P(Ac)* P(Bc|Ac) = Malati TestNon malati 0.9232 0.9973 Valore predittivo del test - (1-Preval. )* Specif. Preval. * (1-Sensib.) + (1-Preval.)*Specif. 36 Qualità del test ed alberi di probabilità 0.0075/0.0768 0.0075 +0.0693 =0.0768 Malati Veri positivi 1.2 =0.0075 =0.0976 Test + Prevalenza della malattia e valori predittivi Non malati 0.0693/0.0768 Probabilità di malattia post-test Valore predittivo test + Falsi positivi =0.0693 =0.9023 0.0025/0.9232 =0.0027 0.0025 +0.9207 Malati =0.0025 Test- =0.9232 0.9207/0.9232 =0.9973 Falsi negativi Non malati Veri negativi Probabilità di malattia post-test Sensibilità = 0.99 Specificità = 0.99 0.6 Sensibilità = 0.50 Specificità = 0.50 0.4 0.2 Risultato negativo (normale) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 Probabilità di malattia pre-test (prevalenza) Teorema di Bayes ed assistenza al singolo paziente Prevalenza della malattia e valori predittivi Il valore predittivo del test negativo risente in modo critico della SENSIBILITA’ 1 0.8 Supponiamo che un medico di base osservi in un suo studio un paziente maschio che lamenta facile stancabilità ed una storia di calcoli renali, ma senza segni di patologia alle paratiroidi Test positivo (0.80,0.99) Test positivo (0.70,0.99) Test positivo (0.70,0.95) 0.6 Test negativo (0.70,0.95) 0.4 Test negativo (0.70,0.99) 0.2 Test negativo (0.80,0.99) 0 0 Risultato positivo (alterato) 0.8 0 =0.9207 Valore predittivo test - Il valore predittivo del test positivo risente in modo critico della SPECIFICITA’ Sensibilità = 0.99 Specificità = 0.99 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Probabilità di malattia pre-test (prevalenza) Nel processo diagnostico, il medico considera la probabilità che il paziente sia affetto da iperparatiroidismo, e decide di stimarla nello 0,02 (su 100 simili pazienti, si aspetta che solo 2 ne siano affetti) Ha definito una probabilità a priori in termini soggettivi e bayesiani Per meglio valutare la situazione, decide comunque di prescrivere un test del calcio sierico per “escludere” la diagnosi Con sua sorpresa, il risultato del test è positivo Qual è adesso la probabilità che il paziente sia affetto da iperparatiroidismo? Si può calcolare sulla base del teorema di Bayes, conoscendo la sensibilità e specificità del test (in questo caso rispettivamente stimabili a 0,90 e 0,95) e dando alla prevalenza il valore di probabilità a priori precedentemente definito 37 Assistenza al singolo paziente: valutazione del I test Teorema di Bayes ed assistenza al singolo paziente Valutazione del risultato di un test su un singolo paziente soglia "diagnostica" Probabilità post-test (val. predittivo) 1,000 0,900 0,800 0,700 0,600 Test + 0,500 Test - 0,400 0,300 0,200 0,100 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Probabilità Pre-test (prevalenza) Come abbiamo osservato nel grafico precedente, la stima della probabilità che il paziente sia affetto da iperparatiroidismo dopo l’ esecuzione del test è salita a 0,27 (su 100 simili pazienti, ci si aspetta che 27 ne siano affetti) Possiamo considerare questa la probabilità a priori per valutare i risultati di un test di conferma Il medico decide di ordinare un test che prevede il dosaggio radioiimunologico dell’ ormone paratiroideo con la misura simultanea del calcio sierico, test molto più costoso del precedente 0,000 Considerando per questo test una sensibilità di 0,95 ed una specificità di 0,98, se il risultato del test è positivo L a p r o b a b i l i t à c h e i l p a z i e n t e s i a a f f e t t o d a iperparatiroidismo sale a 0,94, cioè al 94% Ed il medico è giunto ad una diagnosi Il nostro paziente La tabella di contingenza Assistenza al singolo paziente: valutazione del II test Valutazione del risultato di un test su un singolo paziente soglia "diagnostica" 1,000 Probabilità post-test (val. predittivo) Il teorema di Bayes permette di calcolare una probabilità che il soggetto sia malato dato il risultato del test (valore predittivo del test postivo) 0,900 Se esposizione e malattia sono indipendenti (cioè non c’è una relazione tra loro) ci attendiamo che la probabilità degli eventi intersezione sia: Esposti 0,800 Non esposti 0,700 0,600 Test + 0,500 Test - 0,400 Malati P(B ∩ A) = 0,10 P(Bc ∩ A) = 0,10 0,2 Non malati P(B ∩ Ac) = 0,40 P(Bc ∩ Ac) = 0,40 0,8 0,5 0,5 0,300 0,200 0,100 0,000 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 Probabilità Pre-test (prevalenza) Il nostro paziente 0,8 0,9 1 38 La tabella di contingenza Questa prende il nome di Se stiamo studiando “Tabella delle frequenze attese” ad“Expected” esempio, ci ( o soggetti, E, dall’inglese una popolazione di 100 aspetteremmo che: La tabella di contingenza Questa prende il nome di Ed invece nel campione di 100 soggetti da noi “Tabella delle frequenze osservate” raccolto ( o O, dall’ingleseabbiamo “Observed” osservato queste frequenze assolute: Esposti Non esposti Malati 10 10 20 Malati 16 4 20 Non malati 40 40 80 Non malati 34 46 80 50 100 50 100 50 Eventi dipendenti ed indipendenti . tabulate sottopes Sottopeso | (<2500 g) | Freq. Percent ------------+--------------------------0 | 655 96.32 1 | 25 3.68 ------------+--------------------------Total | 680 100.00 SE Eventi indipendenti: . tabulate mosmoke sottopes, cell Madri | Sottopeso (<2500 g) fumatrici | 0 1 | Total -----------+----------------------+---------0 | 372 9 | 381 | 54.71 1.32 | 56.03 -----------+----------------------+---------1 | 283 16 | 299 | 41.62 2.35 | 43.97 -----------+----------------------+---------Total | 655 25 | 680 | 96.32 3.68 | 100.00 Pr(M1 AND sottopeso)= Pr(M1)* Pr(sottopeso) = 0.4397 * 0.0368 = 0.0162 <- valore ATTESO MA Valore osservato: 0.0235 Probabilità condizionate Pr(sottopeso) != Pr(sottopeso|M1) != Pr(sottopeso|M0) Pr(sottopeso | fumatrice) = 16/299 = 0.0535<- probabilità SE madre fumatrice (Rischio assoluto per gli esposti…) Pr(sottopeso | non fumatrice) = 9/381 = 0.0236 <- probabilità SE non fumatrice (Rischio assoluto per i non esposti…) La densità di probabilità Nel caso delle variabili aleatorie continue, i valori che possono essere assunti come modalità sono infiniti quindi, la probabilità di assumere un singolo specifico valore P(X=x) è uguale a 0 ma è evidente che valori appartenenti ad alcuni range sono più probabili di altri se si procede a raggruppare i dati in classi E allora, la funzione cui la probabilità è sottesa prende il nome di densità di probabilità P( 1 8 0 < X < 1 8 5 ) 0,07 • e la probabilità che X assuma un valore nell’ intervallo compreso tra i risultati x1 e x2 è uguale all’ area che giace tra questi due valori 0,06 P(180< X< 185) P(X= dx) 0,05 P(X= dx) . tabulate mosmoke Madri fumatrici (si'=1,no=0)| Freq. Percent ------------+-------------------------0 | 381 56.03 1 | 299 43.97 ------------+-------------------------Total | 680 100.00 Non esposti 0,04 0,03 0,02 0,01 0 15 150 151 152 153 154 155 156 157 158 169 160 161 162 163 164 165 166 167 168 179 170 171 172 173 174 175 176 177 178 189 180 181 182 183 184 185 186 187 188 199 190 191 192 193 194 195 196 197 198 9 50 Esposti A ltezza (cm) 39 La distribuzione normale E’ la distribuzione continua più comune, ed è nota anche come introducendo il carattere statistico Z evento aleatorio con E(X)=µ=0 e σ=1 che è calcolato come: La sua densità di probabilità è data dall’equazione: 1 ⎛ x − µ ⎞ ⎟ σ ⎠ − ⎜ 1 e 2⎝ 2πσ Z= Traslazione: -µ σ Schiacciamento: /σ µ la media della popolazione (il valore atteso) σ la deviazione standard della popolazione sono costanti π=3,14159 ed e =2.71828 -2 -1 0 1 2 -2 -1 0 1 2 -2 -1 0 1 2 La distribuzione normale standard La distribuzione normale standard X −µ 2 dove i parametri µ e σ, che definiscono completamente la densità di probabilità, rappresentano: Qualsiasi distribuzione normale può essere riportata alla distribuzione standardizzata operando una semplice trasformazione sui dati distribuzione Gaussiana da Karl Frederich Gauss, professore di astronomia nell’ Università di Gottingen dal 1807 al 1855 curva “a campana” per la sua forma unimodale e simmetrica intorno alla media µ f (x) = La distribuzione normale standardizzata Valori più estremi di un certo z presentano una densità probabilità pari all’ area sottesa alla curva da quel valore fino all’ infinito Per differenza, è possibile calcolare anche la probabilità che un valore cada tra multipli della deviazione standard σ e cioè tra valori interi di z 0-1 p=0.341 0.5 1-2 p=0.136 0.4 0.3 2-3 p=0.022 0.2 3-4 p=0.0009 >4 p<0.0001 0.1 0 z>1 è p=0.159 z>2 è p=0.023 -5 -4 -3 -2 -1 0 1 2 3 4 5 40 mosmoke==0 Probabilità di una classe di eventi numerici mosmoke==1 100 Mosmoke=0 Media: mosmoke==0 3507 standard: 477 Deviazione 50 0 2000 3000 4000 5000 1000 2000 3000 4000 0 1000 2000 3000 4000 5000 1000 2000 3000 4000 5000 2500 − 3507 = = −2.11 477 smosmoke0 Peso alla nascita (grammi) Pr(peso<2500 | mosmoke0) = Pr(Z<-2.11) = 0.0174 5000 . by mosmoke: summarize pesonasc -> mosmoke= 0 -> (figli di non fumatrice) Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------------------------pesonasc | 381 3507.535 477.3541 1497 5171 -> mosmoke= 1 -> (figli di fumatrice) Variable | Obs Mean Std. Dev. Min Max ---------+----------------------------------------------------pesonasc | 299 3284.341 490.7343 1996 4536 Z sottopes = Distribuzioni di popolazione si riferiscono alla distribuzione di caratteristiche in popolazioni definite Distribuzioni campionarie d e r i v a t e dalle distribuzioni di popolazione attraverso l’ osservazione di più campioni tratti da una popolazione mosmoke==0 mosmoke==1 100 3284 standard: 491 50 Deviazione 0 1000 2000 xsottopes − xmosmoke0 smosmoke0 3000 4000 5000 1000 2000 3000 4000 5000 2500 − 3284 = = −1.59 491 Peso alla nascita (grammi) Histograms by Madri fumatrici Pr(peso<2500 | mosmoke1) = Pr(Z<-1.59) = 0.0559 Histograms by Madri fumatrici Distribuzioni in statistica Mosmoke=1 Media: Peso alla nascita (grammi) 50 Histograms by Madri fumatrici 1000 xsottopes − xmosmoke0 Frequency Frequency Z sottopes = mosmoke==1 100 Frequency Probabilità di una classe di eventi numerici Distribuzione campionaria della media Si prende in considerazione un campione di n soggetti estratti a caso dalla popolazione di riferimento e se ne calcola la media Si prende in considerazione un secondo campione di n soggetti estratti a caso dalla popolazione di riferimento e se ne calcola la media si ripete l’ operazione un numero m di volte il risultato è una serie di m medie ottenute da campioni di n soggetti a questo punto, si considera ogni media come una osservazione individuale e si studia la distribuzione di frequenza di queste medie 41 200 Frequency Distribuzione campionaria della media Una distribuzione campionaria 150 100 50 0 0 0 7 1 2 3 4 5 6 7 14 8 21 28 35 42 49 56 63 70 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 18.89 la conoscenza delle proprietà delle distribuzioni campionarie permette di trarre delle conclusioni (inferenza statistica) a partire da un solo campione Media vera Campioni casuali di 4 osservazioni 18 Medie del campione 11 13 15 33 16.75 11 15 21 25 24.25 5 21 29 42 22.75 11 21 25 34 22 14 21 25 28 19.25 21 19 16 14 15 in termini di evento aleatorio la media delle n osservazioni raccolte per una serie di m campionamenti sulla popolazione di riferimento ha un proprio valore atteso (una media) ed una propria varianza 46 16.5 17 9 19 21 22.5 12 16 28 34 28.75 18 E’ detta anche soltanto “distribuzione campionaria” Esprime 20.75 8 Ovviamente, non è necessario realizzare ogni volta campioni multipli da una popolazione 22 21.15 31 44 Media campionaria (media delle medie) La deviata normale e le distribuzioni campionarie La distribuzione delle medie campionarie Ha tre importanti proprietà: La sua media è uguale alla media µ della popolazione generale σ La sua deviazione standard è uguale a n nota come errore standard della media all’ aumentare di n si riduce la variabilità La forma della distribuzione campionaria è approssimativamente normale, posto che n sia sufficientemente grande anche quando la distribuzione originaria non era normale teorema del limite centrale la trasformazione in deviata normale era stata definita come: X −µ Z = σ poiché in questo caso ci troviamo di fronte ad una distribuzione campionaria di medie, avremo che: la media è la media della popolazione (µ’ = µ) la deviazione standard è l’ errore standard (σ’ = σ/ √ n) µ’=µ X − µ' Z = σ' Z = X −µ σ/ n σ/ n 42 Cosa cambia tra distribuzione del campione e distribuzione campionaria? Gli intervalli di confidenza Supponiamo di considerare una variabile per la quale la media della popolazione è 140 Se non è noto il valore vero di µ, come si può stimare a partire da un singolo campione? Stima “puntuale” a sinistra vediamo la distribuzione del campione e l’area rossa corrisponde alla probabilità di trovare per caso un VALORE pari a 138 o minore (più estremo verso sinistra) a destra vediamo la distribuzione campionaria e l’area corrisponde alla probabilità di trovare per caso una MEDIA pari a 138 o minore (più estremo verso sinistra) in un campione casuale di 25 soggetti la media x.bar per un singolo campione è utilizzata per stimare µ ma non ci sono informazioni sulla variabilità di questa stima CAMPIONARIA (medie di campioni) CAMPIONE (valori) Stima “intervallare” Intervallo di confidenza Un intervallo tale da essere sicuro (confidente) al 95% (o al 90%, o al 99%) che esso includa il valore del parametro. Gli intervalli di confidenza Definizione frequentista Ovvero: Sulla base delle osservazioni campionarie definisco un intervallo (CLInf, CLSup) tale che, se: il valore del parametro fosse minore di CLInf io estraessi dalla popolazione un grande numero di campioni della stessa numerosità • non più del 2.5% delle stime campionarie sarebbe uguale o maggiore del valore effettivamente osservato Analogamente, se il valore del parametro fosse maggiore di CLSup, non più del 2.5% delle stime campionarie sarebbe uguale o minore del valore effettivamente osservato Intervallo di confidenza al 95% (o al 90%, o al 99%) Stima “intervallare” Un intervallo di valori entro i quali si ritiene sia compreso il parametro in esame (µ) con un certo grado di “confidenza” L’ intervallo di confidenza al 95% NON esprime una probabilità del 95% che µ sia compresa nel range perché µ ha un suo valore, che già esiste piuttosto possiamo affermare che, ripetendo gli esperimenti, degli n intervalli calcolati, il 95% comprenderà effettivamente µ 43 Come interpretare gli Intervalli di Confidenza Gli intervalli di confidenza N=20 Va tenuto presente che lo stimatore X.bar è una variabile aleatoria, mentre il parametro µ è una COSTANTE. Perciò, l intervallo: ( X − 1.96 ⋅ N=100 N=5 Intervalli di confidenza al 95%, 90% 99% n σ , X + 1.96 ⋅ n ) è casuale ed ha un 95% di probabilità di comprendere µ PRIMA che il campione venga scelto. Visto che µ è una costante, una volta che il campione è scelto e sono stati calcolati gli intervalli di confidenza (utilizzando x.bar, la media calcolata, e non lo stimatore teorico): ( x − 1.96 ⋅ σ σ n , x + 1.96 ⋅ σ n ) µ fa parte dell intervallo oppure no. Non ci sono più probabilità: l evento è certo o impossibile. CI 95% - Media, N=20 -1.96 2.5% 2.5% -4 SE -3 SE -2 SE -1 SE -1.645 -1.645 SE mean 90% mean 1 SE 2 SE 3 SE +1.645 1.645 SE 4 SE -1.96 -1.96 SE -2.32 -2.32 SE 95% mean 99% mean +1.96 -1.96 SE 95% mean +1.96 1.96 SE 1.96 SE +2.32 2.32 SE 44 CI 95% - Media, N=100 -1.96 -1.96 SE 95% mean +1.96 1.96 SE CI 99% - Media, N=100 -2.32 99% +2.32 CI 90% - Media, N=100 -1.645 -1.645 SE mean mean +1.645 1.645 SE CI 90% - Media, N=20 -1.645 -1.645 SE -2.32 SE 90% 90% mean +1.645 1.645 SE 2.32 SE 45 CI 99% - Media, N=20 -2.32 -2.32 SE 99% mean La distribuzione t di Student +2.32 2.32 SE Se la deviazione standard σ della popolazione non è nota, non sempre è corretto utilizzare la distribuzione normale standard per il calcolo degli intervalli di confidenza si utilizza allora la deviazione standard del campione, s, e un’ altra distribuzione di probabilità continua, la distribuzione t di Student Introdotta dal matematico inglese William Sealy Gosset (1876-1937), che pubblicava articoli di statistica con lo pseudonimo di “Student” La distribuzione t di Student Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire l'immagine oppure l'immagine potrebbe essere danneggiata. Riavviare il computer e aprire di nuovo il file. Se viene visualizzata di nuovo la x rossa, potrebbe essere necessario eliminare l'immagine e inserirla di nuovo. La distribuzione t di Student Partendo dall assunto che la popolazione originaria da cui vengono i dati presenti una distribuzione normale o quasi normale, e sulla base di una serie di simulazioni e calcoli, Gosset osserva: Che l utilizzo di s (deviazione standard del campione) per stimare sigma (deviazione standard della popolazione) introduce una quantità aggiuntiva di incertezza Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire l'immagine oppure l'immagine potrebbe essere danneggiata. Riavviare il computer e aprire di nuovo il file. Se viene visualizzata di nuovo la x rossa, Motivo per cui t è più schiacciata di Z e ha code più alte L imprecisione dipende dalle dimensioni del campione All aumentare di N, t si avvicinerà a Z, visto che la stima di sigma diventa via via più precisa se il campione è più grande 46 Intervallo di confidenza con la distribuzione t di Student La distribuzione t di Student in questo caso la trasformazione si modifica come segue: Z= X −µ σ/ n t Z -3 SE -2 SE -1 SE 0 1 SE 2 SE 3 SE 4 SE -4 SE -3 SE -2 SE -1 SE 0 1 SE 2 SE 3 SE 4 SE -4 SE -3 SE -2 SE -1 SE 0 1 SE 2 SE 3 SE σ n ) ( x − Z (1−α / 2) ⋅ σ n , x + Z (1−α / 2) ⋅ σ n ) s s , x + t( n−1,1−α / 2) ⋅ ) n n 4 SE Applichiamo la distribuzione t di una media (7) L intervallo calcolato da STATA in ci è calcolato utilizzando la opportuna distribuzione t invece di Z n , x + 1.96 ⋅ ( x − t( n−1,1−α / 2) ⋅ Intervallo di confidenza σ generalizzando t Z t Z L intervallo del 95% di probabilità dovrà essere calcolato per la specifica distribuzione t di riferimento, che sarà quella con N-1 gradi di libertà ( x − 1.96 ⋅ N=100 è gl=99 N=10 è gl=9 Come si calcola allora un intervallo di confidenza utilizzando la distribuzione t? Per un campione casuale di dimensione n selezionato dalla popolazione normale originaria, la distribuzione della variabile aleatoria t è nota come distribuzione t di Student con n-1 gradi di libertà N=3 è gl=2 -4 SE X −µ t= s/ n E quindi per i dati visti in precedenza avremo: N: 100, Media campione: 123.4, Deviazione standard campione: 14 Gradi di Libertà: 100-1= 99 Un campione davvero piccolo… Immaginiamo di voler stimare la durata media (in minuti) di un intervento chirurgico piuttosto inconsueto in un determinato ospedale. sono state: 200, 240, 300, 410, 450, e 600 minuti. Cerchiamo l intervallo di confidenza al 95% La stima puntuale della media è: La stima campionaria della deviazione standard è: X = 366.6667 s = 149.3542 Distribuzione t N=100, g.l.=99, C.I.=95% . display invttail(99,.025) 1.984217 . display 123.4-1.984*(14/sqrt(100)) 120.6224 . display 123.4+1.984*(14/sqrt(100)) 126.1776 -1.984 95% +1.984 -1.984 SE 0 1.984 SE La stima dell errore standard è: ES = s/√n = 149.3542/√6 = 60.9736 I gradi di libertà sono: gl = 6-1 = 5 Il valore della t è: t(5,97.5%) = 2.571 Quindi, il limite inferiore è: X - (t) (ES) = 209.904 e il limite superiore è: X + (t) (ES) = 523.430 L intervallo di confidenza al 95% è: 209.904 ≤ m ≤ 523.430 Saremo pertanto confidenti al 95% che la durata media dell intervento è tra i 210 e i 523 minuti non che il 95% degli interventi dura tra i 210 e i 523 minuti! 47 Il test statistico di ipotesi Applichiamo la distribuzione t Un campione davvero piccolo… Durata interventi chirurgici 200, 240, 300, 410, 450, e 600 minuti. La stima puntuale della media è: X = 366.6667 La stima campionaria della deviazione standard è: s = 149.3542 Il valore della t è: t(5,97.5%) = 2.571 L intervallo di confidenza al 95% è: 209.904 ≤ m ≤ 523.430 Se avessi usato Z, il C.I. 95% avrebbe usato 1.96 Il principio del “rasoio di Occam”, secondo cui: E l intervallo sarebbe stato: 247.1606 ≤ m ≤ 486.1728 Distribuzione Z Distribuzione t -2.57 -2.57 SE 95% 0 è necessario adottare sempre la spiegazione più semplice tra quelle coerenti con i fatti noti e solo quando sono presenti incoerenze è giustificata l’ introduzione di una spiegazione più elaborata e complessa N=6, C.I.=95% N=6, g.l.=5, C.I.=95% +2.57 2.57 SE -1.96 -1.96 SE 95% 0 +1.96 1.96 SE Ipotesi nulla ed ipotesi alternativa Il test statistico di ipotesi L’ immaginazione umana non ha limiti nella capacità di creare teorie e modelli per descrivere la realtà ma quale principio si segue nel decidere il modello che meglio si attiene ai dati? E’ esattamente questo principio che viene applicato nel test di ipotesi in statistica: definisce la spiegazione più semplice “Ipotesi nulla” si verifica se i dati raccolti nel campione disponibile sono compatibili con essa si calcola, cioè, quanto sarebbe stato probabile ottenere quei dati nel caso che l'ipotesi nulla fosse vera Si segue dunque, in statistica, il principio della “dimostrazione inversa”: se si intende proporre che due popolazioni siano diverse non potendosi dimostrare in via diretta la diversità si si propone come ipotesi la loro uguaglianza e si dimostra che tale ipotesi cade in contraddizione, è incompatibile con i dati, rende i dati estremamente improbabili definita come “Ipotesi nulla” o H0 è allora necessario accettare l’ “ipotesi alternativa” HA che altro non è che il reciproco di H0 • e cioè l’ ipotesi che le due popolazioni NON siano uguali, cioè siano diverse 48 Un suggerimento per interpretare i valori di p presentati in letteratura Il livello di significatività In quali casi riteniamo che le incongruenze tra l’ ipotesi nulla ed i dati siano sufficienti a rifiutare l’ ipotesi nulla? Per significatività statistica si intende una soglia arbitraria, stabilita a priori, di probabilità che i dati derivino da una realizzazione casuale dell’ Ipotesi nulla dobbiamo introdurre il concetto di significatività statistica che non necessariamente è sinonimo di significatività ad esempio, clinica se la probabilità che i dati derivino dall’ ipotesi nulla è inferiore alla soglia possiamo rifiutare l’ ipotesi nulla e accettare l’ ipotesi alternativa La soglia di significatività definisce dunque il limite sotto al quale riteniamo accettabile la probabilità di commettere un errore rifiutando l’ ipotesi nulla 1.0 Valore di p Prove contrarie all ipotesi nulla deboli 0.1 Il valore di p si riduce: le prove contro l ipotesi nulla si rafforzano 0.01 0.001 Prove schiaccianti contrarie all ipotesi nulla 0.0001 Da: Sterne JAC, Smith GD, Sifting the evidence-what s wrong with significance tests? , BMJ, 322:226-231,2001 Logica del test di ipotesi Il test di ipotesi può esser paragonato ad un processo penale la giuria ha a disposizione delle “prove” sulla base delle quali valutare che l’ innocenza dell’ imputato non è compatibile con i dati a disposizione perché in assenza di sufficienti prove l’ imputato è da considerarsi innocente La stessa situazione si verifica per l’ ipotesi che µ = µ0 Non colpevole Giusto Colpevole Errato Colpevole Errato Giusto µ = µ0 µ ≠ µ0 H0 non rifiutata Giusto Errato H0 rifiutata Errato Giusto µ ≠ µ0 H0 non rifiutata Giusto Errato H0 rifiutata Errato Giusto L’ errore α esprime la probabilità di rifiutare l’ ipotesi nulla quando questa è vera α = P(rifiutare H0 |H0 è vera) è un errore di sovrastima delle differenze tra il campione e la popolazione di riferimento Popolazione Test Innocente Popolazione µ = µ0 che vengono comunemente distinti come Errore α (Errore di I tipo) ed errore β (Errore di II tipo) Ed il campione costituisce gli elementi di prova Imputato Giuria w Abbiamo visto che si possono verificare due situazioni di errore nei test di ipotesi: Test Tipi di errore ed è il livello di significatività L’ errore β esprime la probabilità di non rifiutare l’ ipotesi nulla quando questa è falsa β = P(non rifiutare H0 | H0 è falsa) è un errore di sottostima delle differenze esistenti 49 La Regione critica o Zona di rifiuto Per ogni test statistico è possibile costruire una distribuzione campionaria della probabilità (o densità di probabilità) di osservare valori in un certo range nel caso che l’ ipotesi nulla H0 sia vera Zone di rifiuto Bilaterali e Unilaterali H0 e HA Definito il limite sotto al quale riteniamo accettabile la probabilità di commettere un errore rifiutando l’ ipotesi nulla H0 : µ1 = µ0 HA : µ1 ≠ µ0 Il range di valori estremi che presentano una densità di probabilità definita come accettabile (es. p<0.05) definito regione critica o zona di rifiuto p=0.05 P(z<Zs1)+P(z>Zs2) = α P(z>Zs) = α Quanti gruppi distinguiamo? La potenza è definita come 1-β es µ0 variazione nei parametri attesi nel campione es. Diff.= µ1-µ0 Siamo interessati al comportamento di quanti caratteri statistici ? 1 H0 | H0 è falsa) è dunque la probabilità complemento dell’ errore di tipo II e come β dipende da: numerosità del campione errore α parametri della popolazione di riferimento Scegliere un test statistico Partenza La potenza è la probabilità di rifiutare l’ ipotesi nulla H0 quando essa è falsa ed Zs=+1.645 Zs2=+1.96 Zs1=-1.96 1 coda p=0.025 p=0.025 La “potenza” di un test potenza=P(rifiutare H0 : µ1 ≤ µ0 HA : µ1 > µ0 p=0.05 2 code è es. esposizione al fumo aumenta gli addotti es. durata di degenza in due ospedali è diversa la soglia di significatività Indicano una direzione: Non indicano una direzione: >2 2 1 binomiale 1 numerico o ordinale 1 nominale 1 numerico o ordinale 1 2 Il carattere che vogliamo prevedere assume modalità... Che modalità assumono ? 2 categorici nominali o binomiali • Z- test • T-test 2 numerici numeriche 1 numerico o ordinale 1 ordinale • T-test 2 camp. • Wilcoxon • ANOVA • Kruskal-Wallis >2 NO Correlazione di Spearman Test del Chi quadro Sono distribuiti normalmente? SI Correlazione di Pearson Regressione multipla binomiali Regressione logistica 50 Test di ipotesi: 1 solo campione e standard SI 2 code H0 : µ1 = µ0 HA : µ1 ≠ µ0 Confronto tra 1 campione ed uno standard NO Qual è l ipotesi nulla ? H0 : µ1 ≤ µ0 HA : µ1 > µ0 σ/ n X − µ0 t = s/ n X − µ0 Conosco σ? Test per 1 campione Z = SI Z = σ/ n X − µ0 t = s/ n X − µ0 Conosco σ? 1 coda NO Test z 2 code p= P(z < -Zs)+P(z > Zs) Test t 2 code p= P(tn-1 < -ts)+P(tn-1 > ts) Test z 1 coda p = P(z > Zs) Test t 1 coda P = P(tn-1 > ts) NB: X barrato è stimatore di µ1 Esempio n.1 La distribuzione delle pressioni diastoliche della popolazione di donne diabetiche di età compresa tra 30 e 34 anni ha una media µd non nota ed una deviazione standard σd = 9.1 mmHg. Può essere utile ai medici sapere se la media di questa popolazione è uguale alla pressione diastolica media di 74.4 mmHg della popolazione generale di donne di questa fascia di età (µ0). Qual è l’ipotesi nulla del test ? Qual è l’ ipotesi alternativa ? Si seleziona un campione casuale di 10 donne diabetiche; la loro pressione diastolica media è x.barratod=84 mmHg. Utilizzando questo dato, eseguite un test bilaterale ad un livello di significatività α = 0.05. Qual è il valore p del test ? Quale conclusione si può trarre dai risultati del test ? La conclusione sarebbe stata diversa con α = 0.01 invece di α = 0.05 ? Esempio n.1 La distribuzione delle pressioni diastoliche della popolazione di donne diabetiche di età compresa tra 30 e 34 anni ha una media µd non nota ed una deviazione standard σd = 9.1 mmHg. Può essere utile ai medici sapere se la media di questa popolazione è uguale alla pressione diastolica media di 74.4 mmHg della popolazione generale di donne di questa fascia di età (µ0). uguale Qual è l’ipotesi nulla del test ? Qual è l’ ipotesi alternativa ? Si seleziona un campione casuale di 10 donne diabetiche; la loro pressione diastolica media è x.barratod=84 mmHg. Utilizzando questo dato, eseguite un test bilaterale ad un livello di significatività α = 0.05. Qual è il valore p del test ? Quale conclusione si può trarre dai risultati del test ? La conclusione sarebbe stata diversa con α = 0.01 invece di α = 0.05 ? bilaterale Test di ipotesi: 1 solo campione e standard DATI σdσd== 9.1 9.1mmHg mmHg n = 10 µ0 = 74.4 mmHg x.barratod=84 mmHg α(1) = 0.05 α(2) = 0.01 H0 : µ1 = µ0 HA : µ1 ≠ µ0 Qual è l’ipotesi nulla ? Ho ; Ha p(1), p(2) H0 : µ1 ≤ µ0 HA : µ1 > µ0 1 coda SI X − µ0 σ/ n p= P(z < -Zs )+P(z > Zs ) t = X − µ0 s/ n p= P(t n-1 < -t s)+P(t n- 1 > t s ) Test t 2 code Test z 1 coda Z = X − µ0 σ/ n p = P(z > Zs ) t = X − µ0 s/ n P = P(t n-1 > ts ) Conosco σ? NO 2 code Z = Conosco σ? NO QUESITI Test z SI 2 code Test t 1 coda NB: X barrato è stimatore di µ1 51 σd = 9.1 mmHg σ = 9.1 mmHg dn = 10 µ0 = 74.4 mmHg x.barratod=84 mmHg α(1) = 0.05 α(2) = 0.01 uguale bilaterale Esempio n. 2 Esempio n.1 DATI Dunque, dobbiamo eseguire: un test Z a due code Qual è la zona di rifiuto? QUESITI Ho ; Ha p(1), p(2) Z = α(2)=0.01 α(1)=0.05 σ/ n X −µ <-1.96 Z = 9.1 / 10 = 84 − 74.4 +3.33 > +1.96 <-2.57 > +2.57 Ho rifiutata L’ infezione da Echinococcus canis è una malattia parassitaria dei cani che talvolta viene contratta dagli uomini. Tra gli uomini infetti, la distribuzione dei valori dei globuli bianchi ha una media µ ed una deviazione standard σ non note. Nella popolazione generale, i globuli bianchi sono in media 7’250/mm3. Si ritiene che i soggetti infetti abbiano, in media, un numero minore di globuli bianchi. Quali sono le ipotesi nulla ed alternativa per un test unilaterale ? Per un campione casuale di 15 soggetti infetti, il numero medio di globuli bianchi è x.barrato=4’767/ mm3 e la deviazione standard è s=3’204/ mm3. Eseguire il test ad α=0.05. Che cosa si può concludere? Ho rifiutata Esempio n. 2 L’ infezione da Echinococcus canis è una malattia parassitaria dei cani che talvolta viene contratta dagli uomini. Tra gli uomini infetti, la distribuzione dei valori dei globuli bianchi ha una media µ ed una deviazione standard σ non note. Nella popolazione generale, i globuli bianchi sono in media 7’250/mm3. Si ritiene che i soggetti infetti abbiano, in media, un numero minore minore di globuli bianchi. Test di ipotesi: 1 solo campione e standard DATI Quali sono le ipotesi nulla ed alternativa per un testunilaterale unilaterale ? Per un campione casuale di 15 soggetti infetti, il numero medio di globuli bianchi è x.barrato=4’767/ mm3 e la deviazione standard è s=3’204/ mm3. Eseguire il test ad α=0.05. Che cosa si può concludere? µ0 = 7250/mmc n = 15 σσdd ==? ? x.barratod=4767 s=3204 α = 0.05 H0 : µ1 = µ0 HA : µ1 ≠ µ0 Qual è l’ipotesi nulla ? Ho ; Ha p H0 : µ1 ≤ µ0 HA : µ1 > µ0 1 coda X − µ0 σ/ n Z = Conosco σ? NO QUESITI Test z SI 2 code SI X − µ0 s/ n Z = X − µ0 σ/ n Conosco σ? NO t = X − µ0 s/ n minore unilaterale 2 code p= P(t n-1 < -t s)+P(t n- 1 > t s ) Test z 1 coda p = P(z > Zs ) Test t 1 coda P = P(t n-1 > ts ) µ0 = 7250/mmc n = 15 σσdd ==? ? Dunque, dobbiamo eseguire: x.barratod=4767 s=3204 α = 0.05 QUESITI Esempio n. 2 DATI un test t ad una coda Qual è la zona di rifiuto? H0 : µ1 ≥ µ0 HA : µ1 < µ0 Ho ; Ha p p= P(z < -Zs )+P(z > Zs ) Test t t = 2 code t = s/ n X −µ t = α=0.05 3240 / 15 = 4767 − 7250 Gradi di libertà = n-1 =14 -2.95 <-1.761 Ho rifiutata NB: X barrato è stimatore di µ1 52 Vantaggi dei test non parametrici Test parametrici e non parametrici In statistica inferenziale, il confronto tra i dati di un campione con una popolazione di riferimento o tra i dati di due o più campioni possono essere realizzati per mezzo di tecniche diverse, a seconda della tipologia dei dati e di alcune assunzioni generali: Se è ragionevole assumere che la distribuzione originaria dei dati sia normale o possa comunque essere approssimata alla normale (teorema del limite centrale) Si realizza il confronto sui parametri che riassumono le caratteristiche delle popolazioni o dei campioni (medie, varianze) TEST PARAMETRICI • test basati sulle distribuzioni z e t Se tale assunzione non è ragionevole, o non è corroborata dai risultati di test preliminari di valutazione della distribuzione Il confronto tra i gruppi si realizza indipendentemente dai parametri della distribuzione TEST NON PARAMETRICI • test basati sulle intere distribuzioni, sul segno delle differenze o sulle proprietà ordinali dei dati (ranghi) Non implicano tutte le assunzioni restrittive dei test parametrici non richiedono che le popolazioni originarie siano normalmente distribuite L utilizzo dei ranghi rende queste tecniche meno sensibili ad errori di misurazione rispetto ai test tradizionali e permette anche l utilizzo di misurazioni ordinali piuttosto che continue poiché non ha senso, su tali dati, calcolare una media ed una deviazione standard, i test parametrici non sono di solito appropriati Svantaggi dei test non parametrici Se le assunzioni per il corrispondente test parametrico sono soddisfatte il test non parametrico è meno potente di quello parametrico se H0 è falsa, il test non parametrico richiede un campione più ampio per rifiutarla Le ipotesi testate con un test non parametrico tendono ad essere meno specifiche di quelle testate con i metodi tradizionali poichè si basano sui ranghi invece che sui valori reali Esposizioni quali-quantitative ed effetti quantitativi: Correlazione e Regressione lineare singola e multipla e quindi non utilizzano tutte le informazioni note di una distribuzione 53 Esposizioni ed Effetti Esposizioni ed Effetti esempi Esposizione categorica ed effetto categorico metodi Esposizione categorica ed effetto categorico Fumatore vs Non fumatore & BPCO vs Non BPCO Uso contraccettivo & Infarto 2x2: RA, RR, OR, RD, AR, Combined OR (tabelle stratificate) Regressione logistica: Adjusted OR (esposti/non esposti) Esposizione numerica ed effetto categorico Numero di sigarette fumate & BPCO vs Non BPCO Durata arresto cardiocircolatorio & Convulsioni vs Non convulsioni Tabelle Esposizione categorica ed effetto numerico Fumatrice Esposizione numerica ed effetto categorico Regressione logistica: Adjusted OR (per incrementi di 1 unità nella “dose” di esposizione) Esposizione categorica ed effetto numerico vs Non fumatrice & peso feto alla nascita a GnRH analogo & durata intervento Esposizione Esposizione numerica ed effetto numerico Numero di sigarette fumate & peso feto alla nascita Numero di esami effettuati & durata degenza Durata arresto cardiocircolatorio & punteggio indice PDI Regressione lineare: Coefficienti angolari “adjusted” (Incremento della media esposti/non esposti) equivalente a ttest o ANOVA Esposizione numerica ed effetto numerico Regressione lineare: Coefficienti angolari “adjusted” (Incremento della media per incrementi di 1 unità nella “dose” di esposizione) Il coefficiente di correlazione di Pearson Il coefficiente di correlazione di Pearson Lo stimatore utilizzato per ρ è noto come: coefficiente ed di correlazione di Pearson (r) è calcolato come: r= La correlazione tra due variabili continue X e Y rappresentate negli assi è indicata con ρ r r che può essere intesa come la media del prodotto delle deviate normali standardizzate di X e Y STATA: y ⎞ ⎟ ⎠ non ha una unità di misura può assumere valori da -1 a +1 ⎡( X − µ x ) (Y − µ y )⎤ ρ = media ⎢ ⎥ σ y ⎦ ⎣ σ x 1 n ⎛ x i − x ⎞ ⎛ y i − ⎟ ⎜ ∑ ⎜ n − 1 i =1 ⎝ sx ⎠ ⎝ s y |1| 0 + - = correlazione massima = correlazione minima = correlazione positiva (proporzionali) = correlazione negativa (inv. proporz.) correlate var_1 var_2 … var_n oppure pwcorr var_1 var_2 … var_n 54 Il coefficente di correlazione ha alcune limitazioni Matrice correlazione Lunghezza (cm) 5171 Peso alla nascita (grammi) 1497 Eta' gestazionale (settimane) Quantifica solo la forza della relazione lineare tra due variabili se la relazione non è lineare, non fornisce una valida misura dell’ associazione 42 Eta' della madre (anni) 15 Altezza della madre (cm) 43.2 58.4 29 48 145 prodotto 180 | lunghezz pesonasc settiman etamadre altmadre ----------+--------------------------------------------lunghezz | 1.0000 pesonasc | 0.7114* 1.0000 settiman | 0.3310* 0.4258* 1.0000 etamadre | 0.0049 0.0013 0.0034 1.0000 altmadre | 0.1779* 0.2051* 0.0485 0.0187 1.0000 Coefficiente di correlazione dei ranghi di Spearman Coefficiente di correlazione dei ranghi di Spearman Il coefficiente di correlazione di Pearson, come altre tecniche parametriche è molto sensibile alle osservazioni atipiche Per ottenere una misura di correlazione meno sensibile ad esse è possibile utilizzare un suo analogo non parametrico , che invece dei valori assoluti delle osservazioni considera i STATA: ranghi delle osservazioni spearman var_1 var_2 … var_n delle deviate normali standard! Non può essere estrapolato oltre i valori osservati per le variabili Una forte correlazione non implica una relazione di causa-effetto . pwcorr lunghezz pesonasc settiman etamadre altmadre, star(0.01) E’ molto sensibile ai valori estremi Si procede come segue: i dati vengono ordinati per ciascuna variabile X,Y e viene definito un rango di ogni osservazione secondo l una o l altra delle variabili considerate (xr, yr) si calcola una r di Pearson per i ranghi di xr e yr che si indica con rs rs si valuta secondo gli stessi riferimenti dell r di Pearson 55 La regressione lineare semplice Un modello di relazione lineare semplice implica 4 assunzioni fondamentali: La regressione lineare semplice si usa per valutare la relazione tra due variabili continue L’ analisi di regressione e’ migliore perchè: La media di Y è una funzione ignota, ma lineare, di x La variabilità di Y intorno alla sua media è la stessa per tutti i valori di x (omoscedasticità della varianza) La distribuzione di Y intorno alla sua media segue la distribuzione normale Tutte le risposte sono indipendenti ci permette di studiare il valore previsto di una variabile (variabile di outcome o di risultato) per ogni livello dell’ altra variabile (variabile esplicativa o predittiva o ”covariata”) ci permette di stimare la variazione prevista nella variabile di risultato c o r r i s p o n d e n t e a d u n a d e t e r m i n a t a variazione nella variabile esplicativa Il modello regressione lineare Un modello di regressione lineare semplice µ viene indicato come segue: 100 y|x µy|x= β0 + β1x y β1 δx=1 Laddove siano: x µy|x il valore medio di Y per un soggetto in studio con una covariata pari a x β0 e β1 i coefficienti dell’ equazione della retta: β0 l’ intercetta (o costante), è il valore medio della risposta Y per x=0 β1 la pendenza della retta, è la variazione in Y che corrisponde ad una variazione di 1 unità in x β0 systolic blood pressure 80 60 40 20 20 25 gestational age 30 35 56 Regressione lineare multipla Invece di considerare 1 variabile di risultato, 1 variabile esplicativa Consideriamo 1 Se mi interessa considerare nel modello variabili categoriche, come mi comporto? Non posso certo assegnare dei codici numerici alle categorie ed inserirle nel modello sola variabile di risultato, più variabili esplicative µy|x= β0 + β1x1+ β2x2 + β3x3 …+ βqxq Covariate categoriche (“Dummy variables”) L’ intercetta β0 sarà in questo caso il valore medio di Y quando tutte le variabili esplicative sono a 0 Ogni pendenza βj sarà la variazione in Y per un aumento di 1 unità della corrispondente variabile xj, posto che tutte le altre variabili siano costanti Devo costruire delle “Dummy variables” o “Variabili indicatrici” variabili binomiali possono esser inserite in un modello di regressione lineare = = = = = 680 92.53 0.0000 0.2147 0.2124 439.74 se x=0, il coeffiente è annullato se x=1, il coefficente va a modificare l’ intercetta Rappresentazione grafica di un modello di regressione lineare Un esempio di regressione lineare Number of obs = F( 2, 677) Prob > F R-squared Adj R-squared Root MSE cioè devo trasformare, ad es., una variabile nominale che assuma 3 diverse modalità in 2 variabili indicatrici che assumono solo modalità binomiali Le “Aggiustamento” per le covariate . regress pesonasc settiman mosmoke Source | SS df MS ---------+-----------------------------Model | 35786558.0 2 17893279.0 Residual | 130912791 677 193371.921 ---------+-----------------------------Total | 166699349 679 245507.141 neppure nel caso di categorie ordinali, perchè non c’è costanza nell’ intervallo di rapporti pesnasns pesnassm 5000 4000 -----------------------------------------------------------------------------pesonasc | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------settiman | 107.7179 9.042413 11.913 0.000 89.96336 125.4725 mosmoke | -183.0683 34.14107 -5.362 0.000 -250.1034 -116.0332 _cons | -794.1128 361.8053 -2.195 0.029 -1504.508 -83.71746 ------------------------------------------------------------------------------ 3000 2000 In questo semplice modello, noi stimiamo che: Pesonasc= -794.1128 + 107.7179*settiman -183.0683*mosmoke E cioè stimiamo che il valore del peso alla nascita aumenti di circa 108 grammi per ogni settimana in più (a parità di stato di fumatore), e che l essere fumatrice della madre riduca il peso del nascituro di circa 183 grammi (a parità di settimana di gestazione). 1000 30 35 40 45 Eta' gestazionale (settimane) 50 57 Interazioni Può capitare che due variabili x1 e x2 si influenzino reciprocamente è necessario valutare nel modello un nuovo componente il prodotto di x1*x2 potrà essere testato nel modello ed assumere un suo coefficiente µy|x= β0 + β1x1+ β2x2 + β3(x1*x2) …+ βqxq Un altro esempio di regressione lineare . gen interact =age*sex . regress fev age sex interact Source | SS df MS ---------+-----------------------------Model | 315.410417 3 105.136806 Number of obs = F( 3, 650) = Prob > F = 654 389.37 0.0000 Residual | 175.509416 650 .270014487 ---------+-----------------------------Total | 490.919833 653 .751791475 R-squared = Adj R-squared = Root MSE = 0.6425 0.6408 .51963 -----------------------------------------------------------------------------fev | Coef. Std. Err. t P>|t| [95% Conf. Interval] ---------+-------------------------------------------------------------------age | .1627289 .0099522 16.351 0.000 .1431865 .1822713 sex | -.7758666 .1427455 -5.435 0.000 -1.056164 -.4955686 interact | .1107487 .013786 8.033 0.000 .0836782 .1378193 _cons | .8494671 .1021995 8.312 0.000 .6487862 1.050148 ------------------------------------------------------------------------------ FEV, età e sesso model for males, model for f emales 6 Esposizioni quali-quantitative ed effetti qualitativo: 4 Analisi dei dati categorici - Chi-quadro, Mantel-Haenszel, Regressione logistica 2 0 0 5 10 age 15 20 58 La tabella di contingenza Se esposizione e malattia sono indipendenti (cioè non c’è una relazione tra loro) ci attendiamo che la probabilità degli eventi intersezione sia: Esposti La tabella di contingenza Questa prende il nome di Se stiamo studiando “Tabella delle frequenze attese” ad“Expected” esempio, ci ( o soggetti, E, dall’inglese Non esposti una popolazione di 100 aspetteremmo che: Esposti Non esposti Malati P(B ∩ A) = 0,10 P(Bc ∩ A) = 0,10 0,2 Malati 10 10 20 Non malati P(B ∩ Ac) = 0,40 P(Bc ∩ Ac) = 0,40 0,8 Non malati 40 40 80 0,5 0,5 50 100 50 La tabella di contingenza Questa prende il nome di Ed invece nel campione di 100 soggetti da noi “Tabella delle frequenze osservate” raccolto ( o O, dall’ingleseabbiamo “Observed” osservato queste frequenze assolute: Esposti Malati 16 Test del Chi quadrato (χ2) Non esposti 4 20 Potremmo formulare una ipotesi nulla ed una ipotesi alternativa come segue: H0: p(B ∩ A) = p(B)*p(A) e cioè P(A|B) = p(A) Ha: p(B ∩ A) ≠ p(B)*p(A) e cioè P(A|B) ≠ p(A) Come decidere se l’ipotesi nulla sia da rifiutare? Si Non malati 34 50 46 80 50 100 utilizza il test del Chi-quadrato che ha l’obiettivo di stabilire se le differenze tra le frequenze osservate e quelle attese sono troppo grandi per essere attribuite al caso le differenze nelle diverse celle vanno combinate ed il valore ottenuto va confrontato con una distribuzione di probabilità apposita, la distribuzione del χ2 59 Test del Chi quadrato (χ2) Caselle nella tabella = r*c (Oi − Ei ) 2 χ =∑ Ei i =1 2 Test del Chi quadrato (χ2) rc Differenze tra Osservati ed Attesi in ogni casella rc χ2 = ∑ i =1 Attesi in ogni casella χ2 = La distribuzione di probabilità di questa sommatoria è approssimata da una distribuzione detta del Chi-quadrato (χ2) con (r-1)*(c-1) gradi di libertà Test del Chi quadrato (χ2) E se abbiamo solo la tabella a doppia entrata delle frequenze osservate Oi ? come ricalcolare rapidamente la tabella delle frequenze attese Ei? E’ sufficiente moltiplicare il totale di riga corrispondente per il totale di colonna corrispondente e dividere per il totale generale come nell’ esempio: Osservato Osservato Ecco un altro esempio, relativo a traumi cranici Trauma e protezione dovuta al casco: Cranico Si No Atteso Carattere 1 Carattere 2 Si No Si (C1*R1)/T (C2*R1)/T No (C1*R2)/T (C2*R2)/T Totale di colonna a+c b+d C1 C2 a+b R1 c+d R2 Si No a b a+b R1 R2 c d c+d a+c b+d a+b+c+d C1 C2 No No 17 218 235 130 428 558 147 646 793 Si Trauma Cranico T Totale di riga chi-quadrato p Totale generale Si Si Casco protettivo a+b+c+d T Casco protettivo Atteso Carattere 1 Carattere 2 = 8.1 + 8.1 + 2.025 + 2.025 = 20.25 p < 0.0001 Test del Chi quadrato (χ2) (19 − 10) 2 (1 − 10) 2 (31 − 40) 2 (49 − 40) 2 + + + 10 10 40 40 χ2 esempio in questo caso r*c = 2*2 = 4 Gradi di libertà della χ2 = (2-1) * (2-1) = 1 (O1 − E1 ) 2 (O2 − E2 ) 2 (O3 − E3 ) 2 (O4 − E4 ) 2 + + + E1 E2 E3 E4 χ2 = ad (Oi − Ei ) 2 Ei STATA: No Si 43,56 191,44 235 No 103,44 454,56 558 147 646 793 28,2555 1,1E-07 tabulate trauma casco, chi2 60 Test del Chi quadrato (χ2) La tabella 2 x 2 Osservato Il test può essere svolto anche se i caratteri assumono più di due modalità: Risposta Scarso Gruppo Suffic. A 35 78 140 253 B 23 95 120 238 58 173 260 491 Atteso Malati Risposta Scarso Gruppo Suffic. 89,14 133,97 253 B 28,11 83,86 126,03 238 58 173 260 491 Non malati 5,238 Fattore protettivo 20 46 80 50 100 La tabella 2 x 2 Ma possiamo anche considerare gli ODDs, rapporti tra eventi tra loro esclusivi: Esposti Non esposti 16 4 0 0 =0- campo esistenza: 0-1 16/50 = 0.32 Rischio Relativo 4/50 = 0.08 Proporzioni Rischio assoluto per gli esposti 0.32/0.08 = 4 Malati Rapporto 20 Malati esposti / Malati non esposti = Odds per i malati campo esistenza: 0-∞ Non malati 0 0 1 0 34 50 Rischio Assoluto per gli esposti Rischio Assoluto per i non esposti 4 Esposti malati / Esposti = 0,073 Il Rischio relativo (RR) 0-1 16 Rischio assoluto per i non esposti Gradi di libertà = (2-1)*(3-1) = 2 0-1 Non esposti Buono 29,89 p= Esposti Non esposti malati / non esposti = A chi-quadrato Se consideriamo un campione di 100 soggetti : Buono 34 50 46 80 50 100 Non malati esposti / Non malati non esposti = Fattore di rischio Odds per i non malati 34/46 = 0.74 16/4 = 4 Rapporti campo esistenza: 0-∞ 61 L’ Odds Ratio (OR) Qualcos’altro su OR Odds Ratio 0-∞ 0-∞ Odds per i non malati =04/0.74 = 5.4 Fattore protettivo Gli esposti hanno 5.4 volte (4/0.74) il rischio dei non esposti I non esposti hanno 0.18 volte (0.74/4) il rischio degli esposti Qulache volta, conviene utilizzare il log odds ratio invece dell’odds ratio. Rapporto campo esistenza: 0-∞ -4 -2 0 2 4 0 5 1 1 0 2 5 0 Lo g O dd O dds R a tio 0 0 1 0 0 0 Odds per i malati Gli OR tendono ad essere asimmetrici Il log OR che confronta esposti e non esposti è log(1.44) = 1.68 Il log OR che confronta non esposti ed esposti è log(0.69) = -1.68 log OR > 0: Rischio aumentato (fattore di rischio) log OR = 0: Nessuna differenza di rischio log OR < 0: Rischio ridotto (fattore protettivo) Fattore di rischio Il confondimento In ambito epidemiologico e di sanità pubblica siamo interessati alla associazione tra esposizone ed effetto spesso di dover verificare che la nostra analisi di associazione non sia distorta da una terza variabile correlata sia alla esposizione che all’ effetto Definiremo questa variabile di confondimento se si tratta di una variabile estranea che soddisfa entrambe le seguenti condizioni: E’ fattore di rischio per l’ effetto E’ associata alla’esposizione, ma non ne è una conseguenza La stratificazione Per controllare per i fattori di confondimento possiamo utilizzare la stratificazione. L’idea di base è: Suddividiamo il campione in strati confronti all’interno degli strati confrontando similia cum similibus Ricombiniamo per una stima complessiva (overall) Capita Facciamo Spesso la decisione se trattare o no una variabile come confondente è legata a considerazione non statistiche, quali la conoscenza della storia naturale di malattia il giudizio soggettivo una revisione della letteratura 62 Confondimento: Confondimento: esempio una definizione operativa Se una analisi “cruda” ( “unadjusted”) Shapiro et al. (Lancet, 1979) hanno realizzato uno studio caso-controllo su utilizzo fornisce una risposta sostanzialmente diversa da una analisi stratificata che controlli per la variabile X, X è un fattore di confondimento e Il confondimento non è tutto o nulla è un bias (distorsione) e le distorsioni possono essere grandi o piccole di contraccettivi orali (OC) infarto del miocardio stratificando per età Età 30-39 Età 40-49 Infarto Controlli Infarto Controlli Uso recente di SI 13 59 72 Uso recente di SI 12 14 26 contraccettivi NO 45 720 765 contraccettivi NO 158 663 821 58 779 837 orali 170 677 847 orali ^OR1= 3.53 C’è associazione tra uso di OC e Infarto, controllando per classi di età? Confondimento: esempio Età 30-39 Età 40-49 Infarto Controlli Infarto Controlli Confondimento: esempio Uso recente di SI 13 59 72 Uso recente di SI 12 14 contraccettivi NO 45 720 765 contraccettivi NO 158 663 821 58 779 837 orali 170 677 847 orali ^OR1= 3.53 26 valore (13 + 12) * (720 + 663) = 2.33 (59 + 14) * (45 + 158) ben inferiore agli ^OR strato-specifici il che suggerisce, secondo la nostra defizione operativa, che l’età sia un confondente Infatti, l’età è associata sia con l’effetto che con l’esposizione nel gruppo più anziano ci sono PIU’ infarti 170/847=0.201 contro 58/837=0.069 nel gruppo più anziano c’è MENO uso di OC 26/847=0.031 contro 72/837=0.086 ma l’età più avanzata non è una conseguenza dell’ uso di OC ^OR2= 3.60 La stima dell’ OR “cruda” (unadjusted) è: ORˆ = ^OR2= 3.60 Perciò, concluderemo che l’età è fattore di confondimento della associazione tra uso di OC e infarto del miocardio 63 Stratificazione Immaginiamo di suddividere la popolazione in studio in strati ogni strato considereremo una associazione esposizione-effetto avremo dunque numerose tabelle 2x2, una per strato Stratificazione Se gli OR negli strati sono più o meno gli stessi OR1~OR2~OR3~ORk~ OR* stima di OR*m sarà una utiule misura della associazione tra esposizione ed effetto nella intera popolazione Una per Se invece i valori di OR differiscono sostanzialmente tra gli strati parleremo di modificazione di effetto (in epidemiologia) o di interazione (in statistica) non sarà possibile stimare un valore riassuntivo per tutta la popolazione perchè l’effetto cambia nei doversi strati! Se non c’è relazione tra esposizione ed effetto gli OR calcolati per ogni strato saranno tutti =1 L’ipotesi nulla di non associazione è dunque H0: OR1=OR2=OR3=Ork=1 La stratificazione può essere usata per: controllare Se c’è associazione positiva (fattore di rischio) costante in ogni strato descrivere OR1>1, OR2>1, OR3>1, ORk>1 Una strategia per l’analisi di tabelle 2x2 stratificate (1) Confondimento ed interazione Confondimento E’ una distorsione sistematica della associazione esposizioneeffetto dovuta ad una terza variabile X, il fattore di confondimento Può talvolta essere controllato con una analisi appropriata (analisi stratificata) con un disegno apposito (matching) E’ un bias e quindi va EVITATO! Determinare i potenziali fattori di confondimento o le variabili categoriche per le quali il campione è stato stratificato s u l l a base delle conoscenze mediche ed epidemiologiche Dare un’occhiata agli ^ORi per avere una idea della situazione se si ha un piccolo numero di strati con numerosi soggetti ciascuno, Modificazione di effetto (interazione) la variazione della associazione esposizione-effetto per livelli di una terza variabile, X, il modificatore di effetto E’ una proprietà intrinseca del fenomeno esposizione-effetto e non c’è disegno che la possa evitare se c’è E’ un fenomeno interessante, e quindi va DESCRITTO! per i fattori di confondimento l’interazione (modificatori di effetto) E’ Svolgere il test di non associazione di Mantel-Haenszel se non sono evidenti interazioni qualitative (alcuni ^ORi >1 ed altri < 1) 64 Una strategia per l’analisi di tabelle 2x2 stratificate (2) Svolgere un test di omogeneità per valutare se si può ritenere comune l’OR tra gli strati esempio il test di Woolf per l’omogeneità di un piccolo numero di strati numerosi Stima dell’OR combinato secondo M-H Se non ci sono elementi per rifiutare l’assunzione di un OR comune può essere in pratica considerato una media ponderata degli OR strato-specifici stimarlo con lo stimatore di Mantel-Haenszel, e stimare i relativi intervalli di confidenza Lo stimatore di Mantel-Haenszel Lo stimatore di Mantel-Haenszel dell’ OR combinato lavora bene sia per un piccolo numero (K) di strati numerosi per un grande numero di strati piccoli che Se invece si rifiuta l’assunzione di omogeneità degli OR è necessario riportare OR e intervalli di confidenza separati per ogni strato La regressione logistica La regressione logistica Se la variabile che misura l’effetto, è binomiale, possiamo estendere i metodi della regressione per “prevederla”? Se applichiamo la regressione lineare abbiamo un problema il valore previsto può essere inferiore a 0 o maggiore di 1 Ci serve allora un’altra funzione, che sia vincolata a non oltrepassare 0 e 1 Ma cosa possiamo prevedere? Non tanto il valore della variabile di effetto, quanto la probabilità che essa assuma uno dei due valori possibili (1-> l’effetto verificato) Potremmo prendere in considerazione una quantità L che sia una funzione lineare del valori assunto dal fattore di rischio considerato: L=β0+ β1 x1 Ed operare su di essa una trasformazione che produca una quantità obbligata a non assumere valori esterni all’intervallo 0-1 un trasformazione logistica: y = Pr(effetto | L) = 1 1 + e−L 65 La regressione logistica Infatti, se L=0, avremo: y = Pr(effetto | L) = y = Pr(effetto | L) = 1 1 = = 0.5 1 + e0 1 + 1 Se L va ad ∞, avremo: E con alcuni passaggi, arriviamo facilamente a: y = Pr(effetto | L) = 1 1 + e−L 1 1 + e−L 1 1 = =1 1 + e −∞ 1 y = Pr(effetto | L) = (1 − y ) = e −( β0 + β1x1 ) y 1 1 + e −( β0 + β1x1 ) p/(1-p)=odds! E se L va a - ∞, avremo: y = Pr(effetto | L) = 1 1 = =0 1 + e∞ 1 + ∞ La regressione logistica La regressione logistica si utilizza per costruire un modello della probabilità che si verifichi una certo risultato binario in funzione di una serie di variabili che si ritiene siano collegate al fenomeno (covariate) Regressione logistica semplice: exp(β0 + β1 x) px = 1 + exp(β0 + β1 x) La regressione logistica Regressione logistica multipla: px = exp(β0 + β1 x1 + β 2 x2 + ... + β q xq ) 1 + exp(β0 + β1 x1 + β 2 x2 + ... + β q xq ) ⎡ y ⎤ log⎢ ⎥ = β 0 + β1 x1 ⎣ (1 − y ) ⎦ ⎡ Pr(eff | L) ⎤ log⎢ ⎥ = β 0 + β1 x1 ⎣ (1 − Pr(eff | L)) ⎦ I parametri nella regressione logistica Calcolo La stima avviene attraverso un procedimento matematico ricorsivo (maximum likelihood), non può essere fatto a mano Significato I coefficenti β corrispondono al logaritmo degli Odds Ratio che confrontano i soggetti esposti con i non esposti (o l’esposizione “baseline”) e dunque: OR = exp(β) 66 Odds Ratio: problemi Gli OR sono difficili da comprendere direttamente e sono solitamente interpretati come equivalenti del Rischio Relativo Vantaggi della regressione logistica Deeks J, Letters to the Editor, BMJ, 317: 1155, 1998 Si può operare un aggiustamento per più fattori di confondimento contemporaneamente Si possono considerare sia covariate qualitative che quantitative Si possono testare direttamente le interazioni (modificatori di effetto) Si possono valutare i possibili fattori di confondimento Si ottengono stime puntuali ed intervalli di confidenza degli OR Matematicamente conveniente se si ha un software adatto Svantaggi della regressione logistica Un esempio di regressione logistica Tuttavia, va ricordato che gli OR non approssimano bene il RR quando il rischio iniziale (la prevalenza o l’incidenza del fenomeno di interesse) è alto sovrastimano la dimensione del rischio, sia in senso negativo che protettivo Davies HTO, Crombie IK, Tavakoli M, When can odds ratios mislead?, BMJ, 316: 989-991, 1998 Le uniche situazione sicure in cui utilizzare gli OR sono gli studi caso-controllo e le regressioni logistiche, situazioni in cui essi consentono le migliori stime possibili del Rischio Relativo E’ astratta e matematica Può creare una barriera tra il ricercatore ed i dati ci si potrebbe trovare a migliore agio valutando i risultati di un metodo classico (es. Mantel-Haenszel) Fa assunzioni implicite, delle quali può esser difficile verificare l’applicabilità Molti modelli potrebbero “fittare” bene, e non è facile scegliere Possibilità di troppa fiducia nei risultati “Ho fatto una analisi estensiva sul computer: allora le mie conclusioni sono corrette” . logistic lowbwt gestwks Logit Estimates Log Likelihood = -123.84356 mothsmok Number of obs chi2(2) Prob > chi2 Pseudo R2 = 680 = 62.09 = 0.0000 = 0.2004 -----------------------------------------------------------------------------lowbwt | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------gestwks | .5432452 .0508903 -6.514 0.000 .4521233 .6527322 mothsmok | 2.697852 1.005295 2.663 0.008 1.29968 5.600151 -----------------------------------------------------------------------------. logit Logit Estimates Log Likelihood = -123.84356 Number of obs chi2(2) Prob > chi2 Pseudo R2 = 680 = 62.09 = 0.0000 = 0.2004 -----------------------------------------------------------------------------lowbwt | Coef. Std. Err. z P>|z| [95% Conf. Interval] ---------+-------------------------------------------------------------------gestwks | -.6101944 .0936783 -6.514 0.000 -.7938004 -.4265884 mothsmok | .9924558 .3726281 2.663 0.008 .262118 1.722794 _cons | 20.41724 3.588344 5.690 0.000 13.38421 27.45026 ------------------------------------------------------------------------------ 67 Regressione lineare e logistica: Rappresentazione grafica del modello probsmo2 alcuni suggerimenti probnsm2 1 Non sempre conviene utilizzare una variabile numerica come tale se il suo comportamento non è lineare, spezzarla in classi (ed analizzarla come più variabili “dummy”) aiuta ad avere risultati più attendibili Come decidere le classi? .5 Valori rilevanti di letteratura Classi di eguale ampiezza Gruppi di eguale numerosità • quartili, quintili 0 30 35 40 Gestational age (weeks) 45 50 Regressione lineare e logistica: Regressione lineare e logistica: scelta del modello Valutare modelli di regressione è una operazione complicata Può essere necessario considerare molte covariate e le interazioni tra loro per avere risultati attendibili bisogna avere almeno 10 osservazioni per ogni variabile considerata nel modello (ogni interazione è una nuova variabile…) scelta del modello modelli ricordate, E’ talvolta necessario considerare trasformazioni dei dati, relazioni non lineari Bisogna partire da strutture semplici e poi complicare via via facendosi guidare dalle conoscenze sull’argomento, dal buon senso e dai risultati dei test formali Il primo passo utile è fare uno “screening” attraverso una analisi “univariata” che considerano 1 sola covariata Hosmer e Lemeshow consigliano di prendere in considerazione le variabili che in questa fase hanno un coefficiente con un p<0.25 E poi costruire un modello multivariato che includono tutte le variabili considerate rilevanto nella IPOTESI formulata e le variabili che hanno superato lo “screening” univariato Quando ci sembra di essere vicini ad un modello finale cominciamo a testare le interazioni, le trasformate, i termini “quadratici”, ecc. 68 Regressione lineare e logistica: scelta del modello NON esiste UN SOLO modello finale! Si può arrivare a più soluzioni logiche, plausibili e supportate dai dati Bisgna usare attenzione, logica, buon senso e plausibilità biologica nel costruire un modello ma bisogna anche saper essere “creativi” la scelta dei modelli è altrettanto “arte” quanto “scienza” La significatività statistica non è l’unica ragione per la quale vale la pena di mantenere una variabile nei modelli definitivi le variabili “essenziali” (l’esposizione “principale”, i confondenti noti, ecc.) vanno mantunuti nel modello comunque! N. Agabiti, C. Ancona, S. Ferro, G. Cesaroni, V. De Pascali, C. Saitto, M. Arcà, F. Forastiere, C.A. Perucci DIFFERENCES OF INHOSPITAL MORTALITY ASSOCIATED WITH CORONARY ARTERY BYPASS GRAFT SURGERY, ROME 1996 Epidemiologia e Prevenzione, 23: 17-26, 1999 N. Agabiti, C. Ancona, S. Ferro, G. Cesaroni, V. De Pascali, C. Saitto, M. Arcà, F. Forastiere, C.A. Perucci DIFFERENCES OF IN-HOSPITAL MORTALITY ASSOCIATED WITH CORONARY ARTERY BYPASS GRAFT SURGERY, ROME 1996 Epidemiologia e Prevenzione, 23: 17-26, 1999 N. Agabiti, C. Ancona, S. Ferro, G. Cesaroni, V. De Pascali, C. Saitto, M. Arcà, F. Forastiere, C.A. Perucci DIFFERENCES OF IN-HOSPITAL MORTALITY ASSOCIATED WITH CORONARY ARTERY BYPASS GRAFT SURGERY, ROME 1996 Epidemiologia e Prevenzione, 23: 17-26, 1999 69 N. Agabiti, C. Ancona, S. Ferro, G. Cesaroni, V. De Pascali, C. Saitto, M. Arcà, F. Forastiere, C.A. Perucci DIFFERENCES OF IN-HOSPITAL MORTALITY ASSOCIATED WITH CORONARY ARTERY BYPASS GRAFT SURGERY, ROME 1996 N. Agabiti, C. Ancona, S. Ferro, G. Cesaroni, V. De Pascali, C. Saitto, M. Arcà, F. Forastiere, C.A. Perucci Epidemiologia e Prevenzione, 23: 17-26, 1999 DIFFERENCES OF IN-HOSPITAL MORTALITY ASSOCIATED WITH CORONARY ARTERY BYPASS GRAFT SURGERY, ROME 1996 Epidemiologia e Prevenzione, 23: 17-26, 1999 70