Progetto Formativo Aziendale “Il controllo delle infezioni correlate all’assistenza” Dott. Antonello Antonelli Cagliari, 25-26.01.2011 wPianificazione e Controllo Strategico wQualità e Risk Management Progetto Formativo Aziendale “Il controllo delle ICA” (Infezioni Correlate all’Assistenza) Antonello Antonelli Principi di statistica ed epidemiologia applicati alle scienze biomediche STATISTICA Comunicare l’un l’altro, scambiarsi informazioni è natura. Tener conto delle informazioni che ci vengono date, è cultura. J. W. Goethe Da: M. Nonis L. Lorenzoni “Guida alla versione 19.0 del sistema DRG” Il Pensiero Scientifico Editore BIO STATISTICA Concetti, metodologia . . . applicati alle e strumenti della discipline bio-mediche: 1. Biologia; 2. Medicina; 3. Scienze naturali; 4. Psicologia; 5. . . . statistica . . . STATISTICA “Strumento per governare l’incertezza” 1. Statistica descrittiva: ha a che fare con la presentazione, organizzazione e sintesi dei dati (tabelle, grafici, indici di sintesi). 2. Statistica Inferenziale: ci permette di generalizzare i risultati ottenuti dai dati raccolti da un campione ad una popolazione più ampia (Stima di parametri, Test di ipotesi). OBIETTIVI 1. Descrivere i dati Î condensare anche un gran numero di dati rilevati in pochi valori riassuntivi, capaci di indicare importanti proprietà del fenomeno oggetto di indagine. 2. Classificare Î descrivere ed analizzare gruppi definiti di popolazione sulla base di caratteristiche comuni misurate dalle variabili rilevate. 3. Esplorare le relazioni Î definire e descrivere le relazioni tra le variabili rilevate. 4. Valutare ipotesi Î stabilire quanto è verosimile che esista una relazione tra le variabili (cioè, fare inferenze sulla popolazione da cui i dati sono tratti). 5. Fare previsioni Î utilizzare i dati raccolti per prevedere i valori che ci si aspetta di trovare nella popolazione oggetto di indagine in particolari condizioni. 6. Generare ipotesi Î le fasi precedentemente descritte permettono di avere una maggior comprensione del fenomeno in studio ed è possibile avanzare proposte o ambiti di indagine. Tutti questi obiettivi hanno lo stesso problema: la variabilità, che è la fonte principale dell’incertezza che abbiamo nell’osservare, indagare i fenomeni di nostro interesse. Infatti, le caratteristiche d’interesse della popolazione variano (es. età, presenza di malattie croniche, durata della degenza, ecc.) e variano le relazioni tra le variabili nella popolazione studiata (es. età -> presenza di malattie croniche). Il tutto varia da popolazione a popolazione e nella stessa popolazione, nel tempo. Tutta questa variabilità comporta un certo grado di incertezza in ogni analisi. Punto di partenza i dati Î definizione: Rappresentazione, in formati e secondo criteri predefiniti, di un fenomeno di interesse. Lo stesso fenomeno può essere rappresentato in formati e criteri diversi dando origine a dati diversi! Sintetici Generali Analitici Specifici Formati Criteri ESEMPIO: La condizione diabete può essere rappresentata: 1. in un formato dicotomico: presente vs assente (1 – 0) 2. secondo scale categoriche di gravità: assente → valore ennesimo di massima gravità 3. attraverso codici descrittivi di modalità specifiche di presentazione (la ICD9-CM descrive il diabete attraverso 40 codici diversi e tra loro combinabili). Anche fenomeni variabili, direttamente misurabili, possono essere rappresentati da dati diversi! Ad esempio l’età può essere rappresentata: - In giorni; - In anni compiuti; - In classi pluriennali. In ogni caso, per ciascun formato devono essere espliciti i criteri utilizzati per attribuire ciascuno dei valori previsti Æ CLASSIFICAZIONE. Quali i dati di interesse? 1. Caratteristiche anagrafiche; 2. Caratteristiche socio-demografiche; 3. Esposizioni ambientali e/o occupazionali; 4. Condizioni cliniche; 5. Processi assistenziali; 6. Trattamenti; 7. Esiti; 8. Abitudini e stili di vita; 9. Costi; 10.Struttura; 11.Attività; . . . . . . . . . . I dati sono definiti sulla base dei fenomeni che rappresentano e dalla loro capacità di rappresentarli. I dati compongono l’informazione, ma non equivalgono all’informazione! I dati sono solo su qualcosa, l’informazione invece è sempre per qualcosa o per qualcuno! Proprietà formali dei dati 1. 2. 3. Relazione di equivalenza (=,≠): i membri di una stessa sottoclasse devono essere equivalenti rispetto alla proprietà misurata. Relazione di posizione (<,>): è ordinare logicamente le modalità; possibile Relazioni aritmetiche (+,-,x, :): sono definite le distanze relative (+, -); ed i rapporti tra le osservazioni (*, /); Tipologie dei dati Qualità Le modalità Quantità Categorici 2 esprimono Quante modalità sono possibili? No Categorici dicotomici DATI > 2 Categorici nominali Le modalità sono solo numeri interi? Sì Le modalità sono ordinabili? Numerici No Sì Categorici ordinali Numerici discreti Numerici continui Numerici discreti Numerici continui Tipologie dei dati: Categorici dicotomici Categorici nominali Categorici ordinali Relazione di equivalenza (=, ≠) Relazione di posizione (<, >) Relazioni aritmetiche (+, -, *, /) Sesso M/F Malattia Si/No Evento Vero/Falso Scommessa Vinta/Persa Lavoro Medico, Avvocato, ... Gruppo sanguigno 0,A,B,AB Nazionalità Italiana,... Stato Civile Libero, Coniugato,... Patologia codici standard Titolo di studio Elementari, Medie,... Gravità stadi tumorali Classi di esposizione Non fuma, lieve, medio, forte. CONTE DI EVENTI n° decessi n° figli n° abitanti n° esami svolti n° piastrine L ’unità di misura NON E’ frazionabile MISURE TECNICHE temperatura altezza (lunghezza) peso durata nel tempo L ’unità di misura E’ frazionabile GERGO (®): Una pluralità di elementi, tutti portatori di un dato carattere, costituisce un INSIEME STATISTICO rispetto a quel carattere se, in almeno due degli elementi dell’insieme, il carattere si presenta con modalità differenti. Gli elementi che compongono un insieme statistico si dicono UNITA’ STATISTICHE. Un carattere rispetto al quale è definito un insieme statistico è una VARIABILE STATISTICA. PROTOCOLLO ELEMENTARE La successione dei valori di un dato carattere (ad esempio l’età), senza alcun ordinamento è definita come protocollo elementare: 19, 25, 30, … …, n. La variabile rappresentante il carattere si indica con la lettera latina maiuscola (X, Y, Z … ); Il valore della variabile con la lettera latina minuscola (x, y, z …); La numerosità del campione con n. Il protocollo elementare si può schematizzare come: x1 , x2 , x3 … , xj …, xn ovvero {Xj} j=1, 2, 3, …, n. LA RAPPRESENTAZIONE DEI DATI Le tabelle di sintesi dei dati - tabelle a singola entrata z z Generalità presentano i dati in forma analitica o sintetica, organizzati secondo righe e colonne è presentata la distribuzione di frequenza di UN SOLO carattere statistico A seconda dei tipi di dati Î Dati nominali ed ordinali Rappresentazione di tutte le modalità possibili Î Dato numerici discreti e continui Dati aggregati per classi Età (in anni) Frequenze assolute Frequenze relative Frequenze relative % Cum. ≤25 4 0.08 8 8 25-35| 13 0.26 26 34 35-45| 6 0.12 12 46 45-55| 11 0.22 22 68 55-65| 5 0.10 10 78 65-75| 5 0.10 10 88 75-85| 5 0.10 10 98 >85| 1 0.02 2 100 Totale 50 1.00 100 Distribuzione per Genere 30 27 Frequenze assolute 25 23 20 15 10 5 0 M F Genere Distribuzione per Genere F; 23 M; 27 Distribuzione per titolo di studio 25 Frequenze assolute 20 15 10 5 0 nessuno licenza elementare scuola media inferiore scuola media superiore laurea Titolo di studio Distribuzione per stato civile 25 Frequenze assolute 20 15 10 5 0 celibe/nubile coniugato/a vedovo/a divorziato/a Distribuzione altezza Frequenze assolute 15 10 5 0 152 155 156 158 160 162 163 164 165 166 168 170 172 174 175 176 178 180 183 187 190 Distribuzione altezza Frequenze relative 0.3 0.2 0.1 0 152 155 156 158 160 162 163 164 165 166 168 170 172 174 175 176 178 180 183 187 190 0 .01 Density .02 .03 .04 Come sintetizzare i dati? 40 60 80 esempio_media_75_ds_10 100 120 Con l’analisi statistica possiamo sintetizzare il risultato delle osservazioni in uno, o più, indicatori: capaci di riassumere, in un singolo valore, una specifica caratteristica delle osservazioni stesse. In statistica descrittiva distinguiamo: Î Indici di tendenza centrale che esprimono il valore “tipico” Î Indici di dispersione che esprimono quanto strettamente i dati si raggruppano intorno al valore ”tipico” Î Indici di forma (!) . . . Un’altra volta! che esprimono le caratteristiche di “simmetria” e “curvatura” della distribuzione dei dati Indici di tendenza centrale MODA ÎIl valore, che si presenta più frequentemente nella popolazione o nel campione; Per i dati numerici continui, è necessario prima raggruppare in classi le osservazioni; Si determina contando le frequenza delle modalità; Non tiene conto di tutte le altre modalità; Utile per sospettare la co-presenza di più popolazioni. MEDIANA ÎIl valore, che, dopo aver posto le osservazioni in ordine crescente, divide la distribuzione in due gruppi di eguale numerosità; Nelle serie dispari è il valore al centro della distribuzione ordinata - (n+1)/2esima posizione; Nelle serie pari è la media dei due valori al centro della distribuzione ordinata - media tra n/2 esima e (n/2)+1 esima; E’ detta anche 50° percentile; Non è sensibile ai valori estremi; E’ l’indice di sintesi nelle distribuzioni asimmetriche. MEDIA ARITMETICA ÎLa somma di tutti i valori rilevati divisa per la numerosità Esiste solo per i dati numerici continui e discreti; Sintetizza tutti i dati: è il valore “più vicino” a tutte le singole osservazioni; Minimizza la somma degli scarti quadratici; E’ valida soprattutto per i dati che seguono una distribuzione di frequenza normale; E’ sensibile ai valori estremi. MEDIA ARITMETICA - esempio Il volume espiratorio forzato in 13 adolescenti asmatici (in litri): 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 Somma dei 13 valori xi: 2.3+2.1+3.5+2.6+2.8+2.8+4.0+2.2+2.6+3.0+4.0+2.8+3.3= 38 n Divisione per n=13. xi 38 / 13 = 2.9 x= Quanto sarebbe FEV dei soggetti che ∑ i =1 n abbiamo studiato, se fossero tutti uguali! Indici di dispersione RANGE (ampiezza dell’intervallo min - max) Î E’ un indice sintetico dato dalla differenza tra il valore più grande e il valore più piccolo di una distribuzione. E’ l’ampiezza del più piccolo intervallo contenente tutte le osservazioni. Si applica solo alle variabili numeriche; Misura la dispersione; E’ molto poco “stabile”, perché dipende solo dai valori estremi. Per renderlo arbitrariamente grande basta modificare un singolo dato. QUANTILI, PERCENTILI Î Per QUANTILI si intendono i valori (compresi nell’intervallo min-max) che suddividono la distribuzione di una variabile numerica in gruppi ordinati e di eguale numerosità (non di uguale ampiezza): Decili -> dieci gruppi Quintili -> cinque gruppi Quartili -> quattro gruppi Centili (o percentili) -> cento gruppi; sono chiamati anche PERCENTILI e suddividono la distribuzione in 100 gruppi di uguale numerosità, ad esempio pesi o altezze di bambini - Un bambino che superi il 90% percentile avrà dunque un valore (es. di altezza) superiore al 90% di tutti i bambini considerati. DIFFERENZA INTERQUARTILE Î E’ la differenza tra il quartile superiore (75° percentile) e il quartile inferiore (25° percentile). E’ l’ampiezza dell’intervallo che contiene il 50% centrale dei dati; Misura la dispersione; Non è influenzata dai valori estremi; E’ stabile - la modifica di un solo dato produce un effetto limitato su di essa; NB: sia il range che la differenza interquartile sono singoli numeri, non intervalli. Diagrammi a scatola (box & whiskers plot) z z z z Sono utili per sintetizzare le distribuzioni di frequenza e valutarne l’asimmetria La scatola centrale si estende dal 25° percentile al 75° percentile (i “quartili” dei dati) La linea dentro la scatola rappresenta la mediana Le linee al di fuori della scatola si estendono ai valori adiacenti, osservazioni più estreme che non superano più di 1,5 volte l’ altezza della scatola esternamente ad ognuno dei quartili VARIANZA Î E’ un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione: Idealmente, la distanza media delle osservazioni dalla media artimetica del campione si potrebbe studiare calcolando la media aritmetica dei semplici scarti. Tuttavia, per la stessa definizione della; media artimetica, la somma degli scarti è pari a zero Allora, per evitare l’ azzeramento della somma degli scarti, si calcola la media dei quadrati degli scarti. VARIANZA n σ = 2 ∑ (x − μ) i =1 2 i n Esiste solo per i dati numerici continui e discreti; E’ valida soprattutto per i dati che seguono una distribuzione di frequenza normale; w E’ piuttosto sensibile ai valori estremi; La sua unità di misura non è quella delle osservazioni quadrato! e della media . . . è al QUALE DENOMINATORE PER LA VARIANZA? Î La formula della varianza che abbiamo visto prima (media aritmetica degli scarti quadratici) è quella giusta se vogliamo semplicemente descrivere le nostre osservazioni. n ∑ (x i - μ ) 2 σ 2 = i =1 n Î Tuttavia, se passiamo dalla statistica descrittiva a quella inferenziale, le cose cambiano leggermente. Î Molto spesso avremo bisogno di stimare la varianza di una variabile in una popolazione sulla base delle osservazioni fatte su un campione. Î Se nella formula sostituiamo la media osservata nel campione alla media “vera” (ma ignota) della popolazione sottostimiamo sistematicamente la varianza (la media “vera” rende minima la somma degli scarti quadratici). Î Questo problema viene risolto riducendo di un’unità il denominatore, dividendo quindi per (n-1) anziché per n. n ∑ (x i - x ) 2 σ 2 = i =1 n -1 Î Alcuni programmi (e.g. Excel) permettono di scegliere il denominatore, altri (e.g. Stata) usano n-1. “Se vi dovete preoccupare della differenza tra n ed n-1, allora probabilmente siete già fuori strada, perché state cercando di sostanziare la vostra ipotesi con dati insufficienti” La variabilità: indici di dispersione DEVIAZIONE STANDARD Î E’ un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione E’ la radice quadrata della varianza, e ne ha le stesse proprietà. Riporta l’indice di precisione alla stessa scala della media aritmetica. COEFFICIENTE DI VARIAZIONE Î E’ un indice che rapporta il valore della deviazione standard alla media del corrispondente campione E’ detto anche “Deviazione Standard Relativa”. E’ utile per confrontare tra loro la precisione di metodi diversi. LA DISTRIBUZIONE NORMALE (Curva Gaussiana) Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di casi infinitamente grande. L’istogramma che ne deriva è rappresentato da curve continue esprimibili attraverso equazioni matematiche. La distribuzione normale è una di queste curve. Carl Friedrich Gauss 30 aprile 1777 – 23 febbraio 1855 p(x)= 1 σ 2π (x − μ) − e 2σ2 2 LA FORMA DELLA DISTRIBUZIONE NORMALE L’area di ogni rettangolo rappresenta la proporzione di casi che ricade nella classe. L’area compresa sotto la curva continua all’interno di ogni classe data può essere uguagliata all’area del rettangolo corrispondente. Con l’aumentare del numero dei rettangoli la somma delle aree dei rettangoli stessi si avvicina sempre di più all’area sottesa alla curva continua completa. Considerato che la somma delle aree dei rettangoli corrisponde ad una unità questo sarà vero anche per l’area sottesa alla curva continua costruita. Spesso è necessario determinare la proporzione di casi che ricadono entro un dato intervallo ed è importante sfruttare una proprietà della curva normale: L’area sottesa alla porzione di curva che vi è tra le media e una ordinata posta a una distanza data, determinata in termini di unità di deviazione standard, è costante. Si consideri ad esempio la statura media di una popolazione di sesso maschile e di età adulta di 170 cm. Con deviazione standard di 10 cm. La legge di Gauss mi dice che il 95% circa di questa popolazione avrà una statura compresa entro i limiti 170 ± 20, cioè 150 e 190 cm. Ne deriva che nel 5% della stessa popolazione la statura sarà inferiore o superiore a tali limiti. Essendo la curva simmetrica il 2,5% della popolazione avrà una statura inferiore a 150 cm e il 2,5% avrà una statura superiore a 190 cm. Quale distribuzione normale dobbiamo considerare? DISTRIBUZIONE GAUSSIANA STANDARDIZZATA Per agevolare il ricercatore la variabile x viene trasformata in una nuova variabile: x -x z = σ La distribuzione standardizzata presenta il vantaggio di consentire la predisposizione di tabelle che permettono di calcolare porzioni di area della distribuzione in relazione a determinati valori z. STANDARDIZZAZIONE DELLA NORMALE Non è necessario che le distanze dalla media siano sempre multipli esatti della deviazione standard. E’ sempre possibile determinare l’area sottesa alla porzione di curva delimitata da due ordinate. Infatti, è possibile trasformare ogni curva normale in modo da permettere di calcolare il numero di casi sottostante ogni porzione della curva mediante l’uso di una tabella. Quale frazione di casi ricade nell’intervallo 50 e 65? Una distribuzione normale, media 0 e σ 1 viene indicata come curva standardizzata e Z è il valore standardizzato. Una z di valore 1,5 indica che la distanza tra l’ordinata è a 1,5 σ dalla media. Esistono tabelle che riportano per tutti le ordinate della curva standardizzata sottesa. qual’è la proporzione − x − x z = s z= di area 65 − 50 = 1,5 10 I valori di z sono riportati nella prima colonna a sinistra e nella riga posta in alto Le prime due cifre di z si leggono sulla colonna, l’ultima sulla prima riga. I vari numeri riportati nella tabella individuano la proporzione dell’area che è sottesa alla curva delimitate da un lato dalla media e dall’altro dall’ordinata z. Esempio precedente Uno z di valore 1,5 indica che l’ordinata è a 1,5 σ dalla media. L’area delimitata dai punti (z = 1,5) è 0,4332. ANALISI DI UN FENOMENO Statistica inferenziale Statistica descrittiva Popolazione ? Campione Una variabile numerica sappiamo si distribuisce nella popolazione generale di riferimento con media μ e deviazione standard σ . . . . . ma μ e σ non sono noti! (x − μ) 1 − p(x)= e 2σ2 σ 2π 2 Gli intervalli di confidenza Se non è noto il valore vero di μ, come si può stimare a partire da un singolo campione? 1. Stima “puntuale”. la media x.bar per un singolo campione è utilizzata per stimare μ ma non ci sono informazioni sulla variabilità di questa stima 2. Stima “intervallare”. Stime per intervalli Fino a questo punto abbiamo trattato l’analisi delle caratteristiche di una popolazione, calcolando media, varianza ecc. ossia quantità chiamate genericamente parametri. Quando l’osservazione dei dati riguarda solo un sottoinsieme della popolazione, ovvero si svolge un’indagine campionaria, l’analisi riguarderà solo i dati osservati. Quando un parametro della popolazione è stimato attraverso un singolo valore, tale valore è chiamato stima puntuale del parametro. Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono stabilire dei limiti entro i quali si ha una certa confidenza (1-α) che vi sia compreso il vero valore del parametro nella popolazione: LIMITI FIDUCIALI Limiti di affidabilità della stima L’intervallo che definiscono si chiama INTERVALLO FIDUCIALE INTERVALLO DI CONFIDENZA. n x= ∑x i =1 n i Infatti, ci chiediamo se xbar è una buona stima di μ. Purtroppo, essendo μ ignoto ciò è impossibile. Le proprietà della media campionaria si ricavano teoricamente ipotizzando di poter estrarre da una popolazione tutti i possibili campioni distinti di una determinata dimensione. Calcolata la media su ciascuno di questi, si ricava la sua distribuzione, che è detta: distribuzione campionaria delle medie. Se il campionamento è casuale semplice, la media di questa distribuzione è uguale a μ ovvero la media campionaria è uno stimatore corretto o non distorto della media della popolazione. (Teorema Limite Centrale) Se la distribuzione non è centrata, lo stimatore si dice distorto. Le medie campionarie avranno una variabilità più o meno elevata intorno al valore della media μ della popolazione. Il grado di addensamento della distribuzione campionaria intorno alla propria media si esprime con il termine efficienza e si misura con l’errore standard (nota σ): ES = σ n Se σ è stimato con numerosità campionaria >60 allora: s ES ≈ n Intervallo di confidenza di una media Avendo stimato l'errore standard della media è possibile costruire un intervallo di confidenza centrato su di essa, cioè individuare due valori, gli estremi dell'intervallo, che hanno una prestabilita probabilità di contenere al loro interno la vera media della popolazione. L’intervallo di confidenza per la media della popolazione nel caso di campionamento casuale semplice è definito dalla seguente espressione: P (x σ σ zα × < μ < x + zα × ) =1 α n n 2 2 Intervallo di confidenza 0.45 0.4 0.35 0.3 0.25 Stima campionaria 0.2 0.15 0.1 2.5% 2.5% 0.05 0 Valore del parametro 1.96 • ES 1.96 • ES Intervallo di confidenza al 95% Valore del parametro Intervallo di confidenza di una media In generale la varianza della popolazione non è nota quindi è necessario sostituirla con la sua stima. Se la numerosità campionaria è elevata (n>60) allora vale l’approssimazione alla normale con la varianza stimata sulla base di quella calcolata sul campione. Ma se abbiamo numerosità inferiori, allora l’intervallo di confidenza per la media della popolazione diviene: s s P (x t α × < μ < x + tα × ) =1 α n n 2 2 dove t è il quantile della distribuzione t di student con (n-1) gradi di libertà ed s è la varianza campionaria corretta (n-1 al denominatore). La distribuzione t di Student Se la deviazione standard σ della popolazione non è nota, non sempre è corretto utilizzare la distribuzione normale standard per il calcolo degli intervalli di confidenza (n sufficientemente grande - >60)! Si utilizza allora la deviazione standard del campione (s) ed un’altra distribuzione di probabilità continua, la distribuzione t di Student. Introdotta dal matematico inglese William Sealy Gosset (1876-1937), che pubblicava articoli di statistica con lo pseudonimo di “Student” Per un campione casuale di dimensione n selezionato dalla popolazione normale originaria, la distribuzione della variabile aleatoria t è nota come distribuzione t di Student con n-1 gradi di libertà: Stima “intervallare” Si ricostruisce un intervallo di valori entro i quali si ritiene sia compreso il parametro in esame (μ) con un certo grado di “confidenza”: Intervallo di confidenza per il quale si utilizzano la media del campione, l’ errore standard e una distribuzione di riferimento (distribuzione normale o t) L’intervallo di confidenza al 95% NON esprime una probabilità del 95% che μ sia compresa nel range perché μ ha un suo valore, che già esiste. Piuttosto possiamo affermare che, ripetendo n volte lo stesso campionamento, degli n intervalli calcolati, il 95% comprenderà effettivamente μ. ESEMPIO Ho misurato la pressione sistolica a 100 studenti, che considero rappresentativi di una popolazione (reale o teorica) molto più ampia. b. Nel campione la media è 123.4 mmHg e la deviazione standard (calcolata con n-1) è 14.0 mmHg Cosa posso dire sul valore medio della pressione sistolica nella popolazione? a. La prima considerazione, che non ha a che fare con l’inferenza statistica, dovrà essere sulla qualità delle misure fatte! La seconda considerazione, che non ha a che fare con l’inferenza statistica, dovrà essere sulla possibilità di selection bias nel campione osservato! Supponiamo che questi problemi non ci siano. La stima puntuale del parametro ignoto sarà, ovviamente, uguale alla media campionaria: Xbar = 123.4 mmHg Per costruire un intervallo di confidenza dovrò considerare la distribuzione campionaria del mio stimatore, che è, per ogni valore μ del parametro, una distribuzione normale se: La distribuzione della pressione nella popolazione è, almeno approssimativamente, normale. oppure La distribuzione non è normale, ma il campione è sufficientemente grande (teorema del limite centrale). La deviazione standard della distribuzione campionaria della media, chiamata errore standard della media, è dato da ES(x) = σ/√n. Per trovare dei valori del parametro che darebbero luogo, in caso di campionamento ripetuto, a meno del 5% dei campioni caratterizzati da valori dello stimatore uguali, o più estremi, di quello osservato, sfrutto la conoscenza dei percentili della distribuzione normale standardizzata. Infatti, so che se il parametro fosse maggiore di Xbar + 1.96 • σ/√n la coda della distribuzione campionaria a sinistra di X conterrebbe meno del 2.5% di probabilità. Analogamente, se il parametro fosse minore di Xbar - 1.96 • σ/√n la coda della distribuzione campionaria a destra di X conterrebbe meno del 2.5% di probabilità. Ne concludo che: Xbar ± 1.96 • σ/√n è un intervallo di confidenza al 95% per la media osservata. Purtroppo, non conosco σ! La formula precedente si può usare: nella (improbabile) ipotesi di conoscere la varianza della variabile nella popolazione per campioni grandi (n>60), utilizzando la varianza campionaria (calcolata con n-1) come stimatore della varianza della popolazione Nel nostro caso (n=100), l’intervallo di confidenza al 95% sarà: 123.4 ± 1.96 • 14/√100 = (120.66, 126.14) wPianificazione e Controllo Strategico wQualità e Risk Management Progetto Formativo Aziendale “Il controllo delle ICA” (Infezioni Correlate all’Assistenza) Antonello Antonelli Principi di statistica ed epidemiologia applicati alle scienze biomediche EPIDEMIOLOGIA DEFINIZIONE DI EPIDEMIOLOGIA Dal punto di vista etimologico, epidemiologia è una parola composita di origine greca, che letteralmente significa «discorso riguardo alla popolazione» A parte il chiaro riferimento all’infettivologia (su cui si è mossa primariamente) la definizione più consona è, forse: LO STUDIO DELLA FREQUENZA, DISTRIBUZIONE E DETERMINANTI DI SALUTE/MALATTIA (e non solo) NELLE POPOLAZIONI. . . . cioè l’analisi di tutti quei fenomeni in un certo qual modo correlati con lo stato di salute/malattia . . . 1° occorre sottolineare che l’attività non è sul singolo individuo ma si studia un dato fenomeno collettivamente in più individui, evidentemente organizzati o classificati in popolazioni. Infatti, l'epidemiologia “attuale” è disciplina che si occupa di valutare tanti fenomeni +/- correlati con la salute (sia umana, sia veterinaria) esclusivamente a livello di popolazione, piuttosto che di individuo (esemplare). Il singolo è importante solo in quanto parte di un collettivo Lo studio dei fenomeni correlati con la salute in senso esteso comporta chiarire alcune parole chiave: ¾ ¾ ¾ ¾ ¾ FREQUENZA – “quanto” il fenomeno compare; DISTRIBUZIONE – “dove” e “quando” il fenomeno compare; DETERMINANTI – “fattori” che se mutano producono una variazione della frequenza o distribuzione del fenomeno di interesse; SALUTE/MALATTIA – oggetto delle analisi e valutazioni sono sia gli individui malati, sia sani; POPOLAZIONI – gruppi di individui “raggruppabili” in base ad alcuni fattori in comune (classificazione naturale e/o logicamente indotta). L’EPIDEMIOLOGIA è una disciplina che ha delle specifiche sue proprie ed integra metodi e strumenti di altre (matematica, statistica, biologia, medicina,. . . ): questo aspetto la configura come estremamente MULTIDISCIPLINARE Disciplina che studia lo stato Salute/Malattia fenomeni ad esse correlati attraverso: e i 9 l’osservazione della distribuzione e dell’andamento della Salute/Malattia nelle popolazioni; 9 l’individuazione dei fattori influenzanti; 9 la programmazione di azioni preventive o curative (epidemiologia sperimentale ed epidemiologia dei servizi) AMBITI DI APPLICAZIONE: • studio dei fenomeni epidemici; • ricostruzione della storia naturale delle malattie e della loro diffusione – nesso di causalità; • identificazione protettivi; • valutazione degli interventi diagnostici e terapeutici; • definizione delle priorità in sanità pubblica • valutazione di efficacia, efficienza e qualità dei servizi sanitari; • evidence per la soluzione di problemi legali; • . . . . . . fattori di rischio e di sanitari fattori preventivi, Storia dell’epidemiologia Il primo RCT dell’umanità La Sacra Bibbia: Libro di Daniele - Capitolo 1 (3-16) I RAGAZZI EBREI ALLA CORTE DI NABUCODONOSOR, re di Babilonia (…) Il re ordinò ad Asfenàz, capo dei suoi funzionari di corte, di condurgli giovani israeliti di stirpe reale o di famiglia nobile, senza difetti, di bell'aspetto, dotati di ogni scienza, educati, intelligenti e tali da poter stare nella reggia, per essere istruiti nella scrittura e nella lingua dei Caldei. Il re assegnò loro una razione giornaliera di vivande e di vino della sua tavola; dovevano esser educati per tre anni, al termine dei quali sarebbero entrati al servizio del re. (…) Ma Daniele decise in cuor suo di non contaminarsi con le vivande del re e con il vino dei suoi banchetti e chiese al capo dei funzionari di non farlo contaminare. Dio fece sì che Daniele incontrasse la benevolenza e la simpatia del capo dei funzionari. Però Asfenàz disse a Daniele: "Io temo che il re mio signore, che ha stabilito quello che dovete mangiare e bere, trovi le vostre facce più magre di quelle degli altri giovani della vostra età e io così mi renda colpevole davanti al re". Ma Daniele disse al custode, al quale il capo dei funzionari aveva affidato Daniele, Anania, Misaele e Azaria: "Mettici alla prova per dieci giorni, dandoci da mangiare legumi e da bere acqua, poi si confrontino, alla tua presenza, le nostre facce con quelle dei giovani che mangiano le vivande del re; quindi deciderai di fare con noi tuoi servi come avrai constatato". Egli acconsentì e fece la prova per dieci giorni; terminati questi, si vide che le loro facce erano più belle e più floride di quelle di tutti gli altri giovani che mangiavano le vivande del re. Da allora in poi il sovrintendente fece togliere l'assegnazione delle vivande e del vino e diede loro soltanto legumi. MISURE DI FREQUENZA DEI FENOMENI Attività fondamentale in epidemiologia è la quantificazione dei fenomeni di interesse e dei fattori ad essi correlati. La conoscenza del numero di individui portatori di una data malattia o a cui carico è erogata una data prestazione in una popolazione, è funzionale a dimensionare e prevedere l'evoluzione del fenomeno nel tempo. Contare i singoli casi, senza fornire alcun significativo riferimento, è raramente utile in epidemiologia. Dati utilizzabili ed interpretabili debbono essere espressi in FORMATI ADEGUATI. MISURE DI FREQUENZA: Intro • PROPORZIONE (proportion) • TASSO (rate) • RAPPORTO (ratio) PROPORZIONE (proportion) ⇒ È una frazione; ⇒ il numeratore è compreso nel denominatore; ⇒ adimensionale; ⇒ 0 - 1 (0 – 100%). Ad esempio la % di maschi in una popolazione. TASSO (rate) ⇒ Variazione di una grandezza per ogni variazione unitaria di un’altra (generalmente tempo); ⇒ i valori possono variare da 0 Ö + ∞; ⇒ istantaneo o medio; ⇒ dimensionale. Ad esempio la velocità in km/h. RAPPORTO (ratio) ⇒ Frazione; ⇒ il numeratore non è parte del denominatore; ⇒ dimensionale. Ad esempio il rapporto M/F. INCIDENZA E PREVALENZA Le misure di frequenza delle malattie possono descrivere: 1. L'insieme di tutti i casi esistenti in un determinato momento e in una determinata popolazione; 2. il verificarsi di nuovi casi. A questo scopo si usano quindi due misure fondamentali: prevalenza e incidenza. Caso Ö unità statistica in osservazione interessata dal modificarsi del fenomeno in studio. • INCIDENZA n° di nuovi casi/popolazione (in un determinato periodo) • PREVALENZA n° di casi presenti/popolazione (in un determinato periodo) Relazione tra incidenza e prevalenza MISURE DI INCIDENZA • Rischio (risk) • Tasso (rate) Rischio (Incidenza Cumulativa) È la probabilità per un individuo di una data popolazione e senza il fenomeno in studio di sviluppare lo stesso in un intervallo di tempo definito. È adimensionale (senza unità di misura)! Ha un valore nell’intervallo 0 – 1! IC = n° nuovi casi / T popolazione all’inizio del periodo di analisi in un dato Δt. Proporzione della popolazione in studio che in un determinato periodo di tempo manifesta il fenomeno di interesse (Rischio individuale / P di manifestare il fenomeno). Tasso (rate) (Densità di Incidenza) Potenziale istantaneo di manifestare il fenomeno (divenire caso) per unità di tempo, al tempo definito, in rapporto alla dimensione della popolazione a “rischio” al tempo definito. Ha la dimensione 1/tempo! Riferito alla popolazione. Riferito ad un punto nel tempo. I = n° casi / Σ persone – tempo. È una misura istantanea della “forza” di manifestarsi di un dato fenomeno! Normalmente si utilizza un moltiplicatore (x 10, x100). (esempio di Tasso Medio) MISURE DI PREVALENZA • Prevalenza puntuale Probabilità che un individuo sia caso al tempo definito t. • Prevalenza di periodo Probabilità che un individuo sia caso nell’intervallo Δt. Si parla anche di TASSO di PREVALENZA puntuale o di periodo come: P = n° di individui che manifestano il fenomeno in un dato momento / n° complessivo di individui nella popolazione in quel dato momento. Relazione Incidenza - Prevalenza Se Incidenza e Durata sono stabili, la Prevalenza si può approssimare al prodotto dell’incidenza per la durata: P = I x D Ad esempio: I = 10 casi per 10.000 individui l’anno D = 2 anni P = 20/10.000. L’ODDS Il rapporto tra la probabilità di un evento e la probabilità di un non evento: ODDS di Incidenza: I / 1-I ODD di prevalenza: P/ 1-P Le tabelle di contingenza Casi Non casi Exp+ a b a+b Exp- c d c+d a+c b+d n (a+b+c+d) Casi Non casi Exp+ 40 80 120 Exp- 60 320 380 100 400 500 Misure di associazione: il RR Lo scopo di uno studio epidemiologico è quantificare l’associazione tra esposizione ed esito di interesse. Per raggiungere tale obiettivo, si deve confrontare l’incidenza di malattia in un gruppo di individui esposti al fattore di rischio di interesse con l’incidenza in un gruppo di persone non esposte. Il rapporto tra incidenza negli esposti e incidenza nei non esposti allo stesso fattore di rischio è definito RISCHIO RELATIVO (RR) e rappresenta l’eccedenza di rischio degli esposti rispetto ai non esposti: RR = IE + a/(a + b) = IE c/(c + d) Il Rischio Relativo (Risk Ratio) costituisce una misura della forza dell’associazione tra fattore di rischio e malattia e dovrebbe risultare pari a 1 (o un valore molto vicino, considerando la fluttuazione dovuta al caso) se il fattore non ha influenza nello sviluppo della malattia. Esso risulta, invece, tanto più elevato quanto più l’esposizione è associata alla malattia. Se il RR ha un valore inferiore a 1, il fattore considerato esplica un’azione protettiva nei confronti dell’insorgenza della malattia. Se RR=1 (il valore è compreso all’interno dell’IC) questo significa che non c’è eccesso di rischio nel gruppo degli esposti. Quindi non c’è una relazione dimostrata tra la malattia e l’esposizione. Se RR >>1 questo significa che esiste un eccesso di rischio nel gruppo degli esposti. Quindi esiste una relazione tra l’esposizione al fattore studiato e la presenza della malattia. Il fattore può essere considerato come un fattore di rischio. Si conclude affermando che se un individuo è esposto, il rischio di contrarre la malattia è RR volte superiore rispetto a chi non è esposto. RR<1 Fattore protettivo RR=1 Assenza Rischio RR>1 Fattore di Rischio 0 1 ∞ Casi Non casi Exp+ 40 80 120 Exp- 60 320 380 100 400 500 R Exp+ = 40/120 = 0.33 R Exp- = 60/380 = 0.16 RR E+ vs E- Ö RE+/RE- = 0.33/0.16 = 2.0 Allo stesso modo, ma con specifiche di calcolo differenti si calcolano: Rapporto tra Tassi (Rate Ratio) Rapporto tra Odds (Odds Ratio) Rapporto tra Prevalenze (Prevalence Ratio) NB: in inglese Rapporto tra Rischi e Rapporto tra Tassi ha lo stesso acronimo Ö RR! INTRODUZIONE AL DISEGNO DEGLI STUDI EPIDEMIOLOGICI Studio epidemiologico - Processo; - Documentato dal disegno . . . alla realizzazione; - Finalizzato a produrre “prove (evidence) empiriche” su un argomento dato. Studio epidemiologico 1° Obiettivo dello studio Ipotesi di ricerca; 2° Disegno Ö identificare il disegno di studio che valuta con maggiore validità ed efficienza l’ipotesi di ricerca (.doc). Studio epidemiologico Esperienza in una popolazione dell’occorrenza di stati/eventi di salute in rapporto a caratteristiche/esposizioni. Studio epidemiologico “Catturata” da uno studio epidemiologico è l’occorrenza di outcome in funzione di un determinante, tenendo conto di confondenti e modificatori di effetto! Per “fare inferenza” Studio epidemiologico Obiettivo generale: Massimizzare VALIDITÀ (capacità di “misurare” quello che “veramente” accade nella popolazione) Al costo (dello studio) più basso possibile. Studio epidemiologico SEMPLIFICAZIONE DELLA REALTA’ (nessuno studio potrà mai specificare tutti i possibili confondenti e modificatori di effetto) IMPOSSIBILE RAPPRESENTARE LA COMPLESSITA’ DELLA NATURA Unità di osservazione - INDIVIDUI-EVENTI - GRUPPI DI INDIVIDUI-EVENTI cd studi ecologici Tipologia dei dati - PRIMARI raccolti per lo scopo dello studio (ad hoc); - SECONDARI raccolti originariamente per altri scopi (ad es. sistemi informativi). Tipologie di Studio epidemiologico osservazionali/analitici sperimentali/osservazionali retrospettivi/prospettici … … … … studio epidemiologico assegnazione controllata assegnazione non controllata studi sperimentali studi osservazionali non randomizzati trial comunità randomizzati RCT nessun campionamento studi ecologici correlazionali “serie di casi” campionamento basato sulla malattia (o effetto) campionamento basato su esposizione, “causa” studi trasversali e/o caso-controllo studi con componente temporale esposizione contestuale esposizione precedente trasversali caso-controllo studi di coorte follow-up 1. Casi clinici e serie di casi Descrivono l'esperienza di un solo paziente (o di un gruppo di pazienti con la stessa diagnosi). Infatti, osservazioni mediche insolite possono essere il primo indizio di una nuova malattia, di effetti nocivi di una esposizione o di efficacia di un trattamento. L’analisi delle caratteristiche dei casi osservati può portare alla formulazione di una nuova ipotesi. Ad es: 3 casi angiosarcoma epatico (Cloruro di Vinile Monomero) 5 casi polmonite da Pneumocystis Carinii (AIDS) Abbiamo interesse ad indagare sulla plausibile relazione tra PESO ALLA NASCITA dei neonati e CONSUMO DI PESCE 2. Studi ecologici e serie temporali Disponibili: - dati di popolazione sul peso alla nascita; - dati di popolazione su consumo di pesce Possiamo affrontare uno STUDIO DI CORRELAZIONE / ECOLOGICO peso medio alla nascita (gr.) 4000 3500 3000 2500 2000 0 100 200 300 400 500 consumo pesce pro-capite (gr./giorno) Studio di correlazione, ecologico → alcune indicazioni: • Il peso alla nascita aumenta in relazione al consumo di pesce, . . . E ciò si osserva in più popolazioni! Ma: 1.Non sappiamo se sono le persone che mangiano più pesce ad avere bambini di più alto peso alla nascita! 2.Le popolazioni con più alto consumo di pesce potrebbero essere diverse per: • caratteristiche genetiche; • fumo; • altri comportamenti alimentari; • caratteristiche gestazionali; 3.Direzione dell’associazione (?). Studio di correlazione, ecologico: Mostra una associazione tra caratteristiche (peso alla nascita e consumo di pesce) della popolazione; popolazione Ma poiché le “Unità di osservazione” sono “popolazioni” e non individui >>>> >>>> nulla possiamo dire sull’associazione tra consumo di pesce degli individui (esposizione) e peso alla nascita (esito) dei bambini che nascono da questi individui. Gli studi ecologici e le serie temporali . . . Vantaggi: usano informazione già disponibile, veloci, poco costosi → "primo passo“! Svantaggi: • impossibile collegare esposizione e malattia nei singoli • individui componenti la popolazione; • mancanza di controllo dei fattori di confondimento; • incapacità di definire direzione dell'associazione. Inoltre: la mancanza di correlazione non esclude la presenza dell'associazione e presentano difficoltà ad indentificare relazioni non lineari. morti per malattia coronarica Studi ecologici e serie temporali: esempi . . . sigarette vendute (procapite) Negli studi ecologici si usano misure che rappresentano caratteristiche di intere popolazioni per descrivere una malattia in relazione a un fattore di interesse! Frequenza dell’utilizzo di cinture di sicurezza e numero di casi di infortunio in Gran Bretagna 4000 80 3000 60 2000 40 1000 20 0 0 G F M A M G L A S 1982 O N D G F M A M G L A S O N D 1983 Legge sulle cinture di sicurezza in vigore No di infortuni Uso delle cinture di sicurezza (%) 100 3. Studi trasversali (cross-sectional) Indagine campionaria di popolazione (ad un dato t) • Campione di madri; • Raccolta informazioni “retrospettiva” e “concorrente”: → su esposizioni (comportamenti alimentari in gravidanza) ed altri possibili confondenti; → esito (peso alla nascita del bambino)! Problemi: Dimensioni del campione, rispetto a: → Distribuzione attesa dell’esposizione - consumo pesce → Distribuzione attesa dell’esito - peso alla nascita → Effetto (RR) che si vuole stimare. Funzionalmente al livello di precisione (significatività statistica che voglio utilizzare) . . . il valore di alfa! Misura contemporanea e retrospettiva di esito, esposizione e confondenti; Impossibile valutare la “Direzione” delle eventuali associazioni osservate. STUDI TRASVERSALI STIMARE LA PREVALENZA DI UNA CONDIZIONE/MALATTIA/EVENTO/ESPOSIZIONE A UN TEMPO DEFINITO IN UNA SPECIFICA POPOLAZIONE CAMPIONE CASUALE DELLA POPOLAZIONE “PARTICOLARISTICI” I RISULTATI SI APPLICANO ALLA POPOLAZIONE ED AL TEMPO DELLO STUDIO Il problema dell’uovo e della gallina Poiché l'esposizione e la presenza di malattia sono rilevati nello stesso punto del tempo in molti casi non è possibile stabilire se l'esposizione è precedente (o susseguente) l'insorgere della malattia. Cautela nell'interpretazione! Inoltre: poiché sono studiati i casi prevalenti (e non gli incidenti), i dati ottenuti rifletteranno sempre i determinanti della sopravvivenza (oltre agli eventuali fattori causali). STUDI TRASVERSALI (fotografia della realtà) Misura contemporanea di esposizioni ed esito! STUDI LONGITUDINALI (film della realtà) Misura longitudinale di esposizioni ed esito! STUDI LONGITUDINALI CASI: BAMBINI CON ALTO PESO ALLA NASCITA ESITO: ALTO PESO ALLA NASCITA ESPOSIZIONE: CONSUMO DI PESCE (DELLE MADRI) Studiamo i comportamenti alimentari, particolarmente il consumo di pesce, durante la gravidanza delle madri dei bambini con alto peso alla nascita per valutare una possibile associazione causale. Cerchiamo di misurare anche possibili “confondenti”! STUDIO ESPOSIZIONE Misura Casi t Quale confronto? Occorrono i Controlli. Non Casi: bambini con peso alla nascita normale! Su cui indagare la medesima esposizione (Madri di bambini NON con alto peso alla nascita; madri dalla stessa popolazione delle madri da cui avrebbero potuto nascere/essere osservati i casi. STUDIO ESPOSIZIONE Misura Controlli t Definizione concettuale di Studio CASO - CONTROLLO Si indaga contestualmente sull’esposizione dei casi e di un certo numero di controlli rappresentativi della stessa popolazione da cui sono originati i casi. In tal modo si ottengono informazioni da confrontare sugli eventuali differenti livelli di esposizione tra casi e controlli (consumo di pesce in gravidanza delle madri). Manifestazione del caso ed esposizione sono longitudinali! (l’indagine è retrospettiva) Selezionati . . . . casi e controlli Per ogni individuo è accertata l’eventuale esposizione al fattore di rischio in studio: casi E+ controlli E- E+ E- Quale misura di associazione ? Casi Controlli Exp+ a b ? Exp- c d ? a+c b+d ? Il rapporto tra ODDS (OR) Casi Controlli Exp+ 5 15 ? Exp- 2 25 ? 7 40 ? Casi Controlli Exp+ 5 15 ? Exp- 2 25 ? 7 40 ? Odds Casi = (5/7):((1-(5/7)) = (5/7):(2/7) = 2.5 Odds Cont = (15/40):((1-(15/40)) = (15/40):(25/40) = 0.6 OR Casi vs Cont Ö O_Casi/O_Cont = 2.5/0.6 = 4.2 • limiti nella misura dei confondenti • distorsioni nella misura “retrospettiva” di esposizione e confondenti • selezione dei controlli • no stima incidenza STUDIO E+ n casi/non casi E- n casi/non casi Osservazione Coorte t Arruoliamo una coorte di donne di donne gravide e sulla base della misura dell’esposizione (comportamento alimentare Ö consumo di pesce) classifichiamo ESPOSTI e NON ESPOSTI (gruppo di confronto). • Rileviamo e misuriamo potenziali confondenti • Follow-up gravidanza • Misura esito Ö peso alla nascita. Definizione concettuale di Studio COORTE Metodo di studio epidemiologico in cui possa essere identificato un sottoinsieme di una popolazione definita che è, è stato, o può essere nel futuro esposto o non esposto, o esposto in misura diversa, ad uno o più fattori che si ipotizza possano influenzare la probabilità di verificarsi di una data malattia o di un altro evento d'interesse. COORTE: gruppo di persone che condividono una esperienza comune entro un intervallo di tempo definito. Si indaga su un campione rappresentativo della popolazione d’interesse per un dato Δt, raccogliendo informazioni su esposizione ed altre variabili d’interesse. L’esposizione o meno al fattore indagato discrimina la classificazione di esposti/controlli. Il follow-up della coorte permette di valutare l’insorgenza dei casi (incidenza) ed alla fine del Δt si potranno esprimere le misure di associazione. Esposizione e manifestazione casi sono longitudinali! (la relazione esposizione - esito è prospettica) Studi di coorte sinonimi: • follow -up • studi longitudinali • studi prospettici • studi d'incidenza • concurrent studies ... terminologia varia e incongruente perchè riferita a: diversi elementi del disegno diverse relazioni temporali Studi di coorte popolazione in studio COORTE “CHIUSA” - Ingresso definito dal verificarsi di un evento/ condizione - Uscita impossibile POPOLAZIONE DINAMICA - Ingresso definito da uno stato - Uscita definita dal cessare dello stato RETROSPETTIVI / PROSPETTICI In uno studio di coorte l'esperienza della popolazione osservata è caratterizzata da una sequenza temporale definita. Questa sequenza temporale, pur non modificando la sua direzione, può essere allocata nel presente o nel passato rispetto allo spazio temporale in cui l'osservatore si trova. STUDIO DI COORTE e . . . il tempo! esposizione esito t studio studio “prospettico” studio “retrospettivo” RETROSPETTIVI / PROSPETTICI La definizione è relativa al tempo di calendario di conduzione dello studio vs il tempo di calendario cui si riferiscono gli eventi (esposizioni ed esiti) ; Riferisce alla direzione dell’accertamento dell’esposizione e dell’esito; Nel senso dell’inferenza causale non cambia la logica, semmai è differente l’accuratezza nell’accertamento di un qualcosa che è avvenuto in passato! STUDIO DI COORTE Nell’esempio della relazione tra consumo di pesce gravidanza ed alto peso alla nascita, il gruppo confronto fornisce una stima dell’occorrenza attesa esito (alto peso nascita) nel gruppo degli esposti assenza dell’esposizione! in di di in In ogni caso esposti e non esposti sono selezionati in modo non casuale. Evoluzione successiva nella definizione del protocollo di studio comporta che: Î sarebbe necessario assegnare la popolazione in studio all’esposizione in modo CASUALE. Cioe’ . . . Î Fare in modo che esposti (trattati) e non esposti (controlli) differiscano tra di loro solamente per l’esposizione (trattamento) e per “caso” “RANDOMIZZAZIONE” STUDIO RANDOMIZZATO CONTROLLATO RANDOMIZED CONTROLLED TRIAL (RCT) • Randomizzazione = confrontabilità all’inizio dello studio, no confondimento • Cecità (Blinding) = compliance e misura dell’esito confrontabili, no misclassificazione differenziale Isolamento dell’effetto dell’esposizione allo studio Gli RCT sono fondamentalmente degli studi di coorte in cui l’assegnazione all’esposizione non è casuale ma predefinita dallo sperimentatore su individui confrontabili (ossia provenienti dalla stessa popolazione di riferimento)! Nell’esempio dell’alto peso e consumo di pesce: Esposizione/trattamento = dieta ad alto contenuto di pesce o ω3 acidi grassi Randomizzazione = donne gravide assegnate casualmente al trattamento Cecità (Blinding) = le persone arruolate non sanno se sono trattate/esposte – non sanno cosa mangiano ( x ω3 acidi grassi) Isolamento = ai non-esposti/non-trattati alimento simile ai trattati ma senza ω3 acidi grassi Se si osserva una differenza di occorrenza dell’esito tra esposti e non esposti . . . 1. EFFETTO DELL’ESPOSIZIONE 2. ALTRE ETEROGENEITA’ TRA GRUPPI (difetti di randomizzazione) 3. CASO "Uno dei maggiori disordini dello spirito è vedere ciò che si vuole vedere“ . e, conseguentemente, ancor più NON vedere ciò che NON si vuol VEDERE! A5.1 La distorsione dei risultati negli STUDI EPIDEMIOLOGICI BIAS e Modificazione d’effetto Cosa è il Bias? Qualsiasi tendenza nella raccolta, l'analisi, l'interpretazione, la pubblicazione o la revisione dei dati, che possa portare a conclusioni che sono sistematicamente diverse dalla verità (Last, 2001). Un processo a qualsiasi stato di inferenza che tende a produrre risultati che si discostano sistematicamente dai veri valori (Fletcher et al, 1988). Errore sistematico nella progettazione o conduzione di uno studio (Szklo et al, 2000). Il Bias è l’errore sistematico Gli Errori possono essere differenziali (sistematici) o non differenziale (casuali). Errore Casuale uso di misure non valide che incide in modo analogo per casi e non casi Errore Differenziale uso di misure non valide che incide in modo diverso per casi e non casi Il termine “bias” dovrebbe essere riservato per gli errori differenziali o sistematici. Errore casuale 14 12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 Errore sistematico 14 12 10 8 6 4 2 0 0 5 10 15 20 25 30 Caso o Bias Il Caso provoca un errore casuale (errore di misura)! Il Bias provoca un errore sistematico (staratura)! Gli errori casuali tenderanno ad annullarsi l'un l'altro proporzionalmente all’aumento della dimensione del campione! Gli errori sistematici non si annulleranno a vicenda qualunque sia la dimensione del campione! Il Caso determina l’inevitabile imprecisione dei risultati. Il Bias genera risultati inesatti! Il caso è un elemento delle nostre osservazioni, misure o determinazioni assolutamente inevitabile, imprescindibile! Il bias, la distorsione sistematica, è un elemento assolutamente arginabile, controllabile o evitabile! Classificazione • Bias di selezione Natura del campione non rappresentativa • Bias di Informazione (misclassificazione) Errori nella misurazione di esposizione o malattia • Bias di confondimento Distorsione della relazione esposizione - malattia da parte di altri fattori. Bias differenti non si escludono a vicenda Bias di selezione: Differenze selettive tra i gruppi in confronto che alterano il rapporto tra esposizione e esito Ad esempio in uno Studio caso-controllo . . . I controlli hanno meno probabilità di esposizione vs casi. Esito: tumore al cervello; Esposizione: linee elettriche ad alta tensione Casi scelti in aree dove non vi sono linee elettriche Controlli scelti in aree dove vi sono linee elettriche Differenze sistematiche tra i casi ed i controlli Self-bias di selezione: Ad esempio, si desidera determinare la prevalenza di infezione da HIV Arruolamento di volontari per la fase di test É questa una popolazione adeguata per trarre delle conclusioni? Healthy worker effect (effetto lavoratore sano) È un'altra forma di auto-bias di selezione cioè un processo di "Auto-screening“ per cui (ad esempio in coorti lavorative) le persone che sono malate si autoeliminano dalla popolazione lavorativa attiva Bias di selezione (altro esempio) Bias Diagnostico (o di workup): La diagnosi (selezione dei casi) può essere influenzata dalla conoscenza sull’esposizione. Ad esempio in uno Studio caso-controllo dove l’esito è la malattia polmonare e l’esposizione è l’abitudine al fumo! Il radiologo, consapevole che il soggetto fuma, durante la lettura dell’esame può essere indotto ad osservare con maggiore attenzione una radiografia o ad ipervalutare determinate evidenze diagnostiche. Bias di Informazione Fonti: • Soggetto • Osservatore • Strumenti Recall bias: I soggetti esposti hanno una maggiore probabilità di ricordare l'esposizione ed i casi tendono a valutare con più attenzione la loro storia passata alla ricerca di spiegazioni della loro malattia. I controlli, di contro, non avendo percezione della malattia, possono esaminare meno attentamente la loro storia passata. In particolare si verifica: - in studi caso-controllo; - negli studi retrospettivi (o a posteriori). Individui con grave malattia tendono ad avere ricordi più completi quindi più informazioni sull’esposizione. Persone che sono consapevoli di essere i partecipanti di uno studio si comportano in maniera diversa (effetto Hawthorne). Come controllare il Bias di Informazione - Cecità (Blinding) Impedisce a intervistatori e investigatori di conoscere quali sono i casi e quali i controlli o chi è esposto e chi no! - Uso di questionari Utilizzare più domande che chiedono le stesse informazioni (agisce come doppio-check) - Precisione Diagnosi formulata in base a raccolta di dati provenienti da varie fonti o con strumentazione più precisa. Bias di Confondimento o Fattore di confondimento o . . . CONFONDENTE Un terzo fattore, ASSOCIATO sia all’esposizione, sia all’esito, e che determina, parzialmente o completamente, l’associazione tra i due. . . . in una relazione E+ vs Esito Esposizione Esito CONFONDENTE Un confondente, per essere tale deve: 1. Essere associato con l’esposizione senza esserne una conseguenza; 2. Essere associato all’esito indipendentemente dall’esposizione; 3. Non entrare nel nesso di causalità tra E+ ed esito. Un esempio Caffè K polm. FUMO Dall’analisi dei dati scopriamo che l’assunzione di caffè (ed il dosaggio) è associata alla comparsa di K polmonare. C’è confondimento? 1. Chi beve caffè è spesso fumatore; 2. Il fumo è associato al K polmonare; Il fumo è un confondente dell’associazione (falsa) tra assunzione di caffè e K polmonare. Come controllare i fattori di confondimento? Nello fase di progettazione dello studio 1. RESTRIZIONE di soggetti in base al potenziale fattore di confondimento; 2. ASSEGNAZIONE RANDOM di soggetti ai gruppi di studio; 3. MATCHING i soggetti per potenziali fattori di confondimento assicurando così la distribuzione tra i gruppi di studio. Nell’analisi dei dati ANALISI STRATIFICATE: analisi della varianza a più fattori, analisi con tecniche di regressione (es. della covarianza), modellizzazione. Un esempio di Confondimento T Casi mesi persona Exp+ 40 1100 Exp- 101 1100 RT = 0.4 Giovani Casi Mesi persona Anziani Casi Mesi persona Exp+ 20 1000 Exp+ 20 100 Exp- 1 100 Exp- 100 1000 RT = 2.0 RT = 2.0 40 1100 0.036 101 1100 0.092 0.4 20 1000 0.020 1 100 0.010 2.0 20 100 0.200 100 1000 0.100 2.0 Modificazione di effetto (interazione) E’ la variazione della associazione esposizione-effetto relativamente ai livelli di una terza variabile - il modificatore di effetto, appunto. E’ una proprietà intrinseca del fenomeno esposizioneeffetto. Non c’è disegno che la possa evitare se c’è. Matematicamente si può quantificare e pertanto, poiché è un fenomeno interessante . . . . . . occorre sia DESCRITTO!