Prefazione I precedenti capitoli rispondono a domande che spesso possono esser formulate da operatori sanitari che intendano avere una conoscenza di tipo scientifico e razionale dei fenomeni che stanno studiando o della gestione dei reparti che stanno conducendo. Si puo’ dire che nei precedenti capitoli si trovano le risposte a domande di questo tipo: come posso descrivere lo stato di fatto dell’ambiente nel quale sto operando in modo rapidamente comprensibile e comunicabile a qualunque altro operatore? Es: l’età media dei degenti di un reparto, la frequenza delle varie patologie in un reparto o in una popolazione… Sapendo che un certo esame di laboratorio è indice di malattia quando si altera, per fare diagnosi di malattia c’è bisogno di conoscere i valori che tale esame assume nella popolazione sana (o per lo meno nel 95% della popolazione sana. Come determinarli? Sapendo che in un reparto è inevitabile un certo numero di infezioni ospedaliere, come valutare se quelle verificatesi nel reparto che gestisco sono eccessivamente numerose (dovrò rivedere le mie tecniche di asepsi) o molto meno numerose di quelle che in media si verificano (dovrò esaminare in dettaglio le mie tecniche di asepsi e magari suggerire ad altri di adottarle). In ogni caso c’è bisogno di conoscere i valori di frequenza con i quali tale spiacevole evento si presenta nella generalità dei reparti, almeno nel 95% dei casi. Come si fa? Capitolo 1°, statistica descrittiva Capitolo 2°, procedimenti di stima Es.: come fu valutato a suo tempo che i valori normali di emoglobinemia sono variabili da 14 a 16 g/cc nell’uomo? Come verificare che un nosocomi abbia le infezioni ospedaliere “sotto controllo”? A fianco di tutti gli esami di laboratorio vi sono sempre dei valori di riferimento che indicano che chiunque presenti valori inferiori o superiori a quelli puo’ esser considerato malato. Quanto posso fidarmi di questi esami? Come ridurre i possibili errori diagnostici? Come vengono scelti, in alcuni casi, i valori di “cut-off” fra valori normali e non normali? Capitolo 3° affidabilità dei test diagnostici Es.: se un test viene negativo, qual è l’effettiva probabilità che il paziente sia sono? Analogamente, se una radiografia segnala una qualche anomalia, qual è l’effettiva probabilità che il paziente sia malato? Quanto è frequente una malattia nella popolazione, dato che malattie rare sono poco probabili e malattie frequenti sono molto probabili? Tale informazione mi aiuterebbe nel formulare una diagnosi. Come dimostrare che certi comportamenti di vita, certi tipi di lavoro possono esser nocivi alla salute, mentre altri comportamenti allontanano il rischio di malattia? Quanto in fretta si diffonde una infezione ? Quanto è importante ridurre un fattore di rischio in una popolazione esposta? Quanto sono validi gli studi di epidemiologia? Capitolo 4° elementi basilari di epidemiologia Es.: è corretto dire ai pazienti che frutta e verdura riducono il rischio oncologico o si tratta di una vecchia diceria? 1 Si tratta quindi di un primo nucleo di informazioni che doverosamente debbono far parte delle competenze di tutti coloro che si occupano di salute. Certamente queste informazioni non esauriscono la statistica medica né l’epidemiologia. Molte altre sono le domande che un medico, giovane o anziano che sia, potrà porsi durante la sua carriera, sia che si occupi di ricerca (e tutti i medici dovrebbero essere anche ricercatori almeno come atteggiamento mentale, altrimenti si corre il rischio di diventare aridi burocrati) sia che si limiti a aggiornare le proprie competenze sulla letteratura scientifica (che deve esser sempre letta non con un atteggiamento acritico e fideistico nella carta stampata ma con l’occhio critico e attento di un “addetto ai lavori”). Nei capitoli che seguono si troverà l’aiuto per rispondere ad altre, non meno importanti domande: Come esser ragionevolmente sicuri (almeno al 95%) del fatto che una terapia riesca a salvare più pazienti di un’altra? Come esser ragionevolmente sicuri (almeno al 95%) del fatto che una popolazione esposta a certi rischi si ammali più di un’altra? Come esser ragionevolmente sicuri (almeno al 95%) del fatto che una terapia sia miglior di altre due o tre terapie possibili? Es.: L’antibiotico A fa guarire più spesso dalla polmonite batterica rispetto all’antibiotico B? In epidemiologia si studia spesso l’OR tra esposti e non esposti per comprendere quanto un fattore di rischio sia patogeno. L’esito della malattia però spesso non dipende soltanto da quel solo fattore di rischio ma anche dalle condizioni del paziente (età giovane, media o avanzata… lavoro sedentario o lavoro di fatica…) Tavole di contingenza (oltre che OR, RR, Rattribuibile, tassi, già esaminati al capitolo 4) OR secondo Mantel Haenszel Es.: Come depurare l’OR “grezzo” da questi fattori confondenti? Come esser ragionevolmente sicuri (almeno al 95%) che la differenza di variazioni di un certo esame di laboratorio indice di malattia che si hanno con due terapie diverse siano imputabili ai diversi effetti terapeutici e non al campionamento? Come confrontare gli effetti positivi o gli effetti collaterali più di due terapie? Es.: l’antidiabetico X in media fa diminuire la glicemia di 30 mg%cc, mentre l’antidiabetico Y la fa diminuire in media di 10. Pertanto X va usato nei diabetici più gravi e Y in quelli lievi? Come esser ragionevolmente sicuri (almeno al 95%) che la differenza di variazioni di un certo esame di laboratorio indice di malattia che si hanno con una terapia nel corso di due controlli in tempi diversi siano dovuti alla terapia e non al caso? Come fare più di due confronti nel tempo? Es.: la diminuzione di glicemia ottenibile con il farmaco Y è totalmente imputabile alla maggiore efficacia del farmaco o, per errore, durante la precedente sperimentazione Y fu somministrato ai diabetici meno gravi e più reattivi a una qualsiasi terapia? Dimostrata l’efficacia di un farmaco, come si deve modulare la posologia in funzione della gravità della malattia? Es. quali dosaggi dare per ottenere un aumento di Hb di 2 gr: quali invece sono consigliati se è necessario un aumento di 4 gr… Spesso l’effetto di un farmaco non dipende soltanto dalla posologia ma T di student per dati non appaiati o anova fattoriale Mann Witney U test o Kruskall Wallis test T di student per dati appaiati o anova per misure ripetute Wilcoxon test Friedman test Correlazione di Pearson Correlazioni non parametriche regressione lineare semplice Correlazione e 2 anche da altre variabili (ad es. l’età del paziente, il livello di linfociti, ….). Questa situazione si verifica sempre nella realtà in medicina. Occorre valutare come si modifica l’effetto del farmaco anche in presenza di variabili indipendenti dalla malattia. regressione lineare multipla Correlazione multipla di Kendall Es.: il tempo di guarigione da una malattia dipende dal dosaggio del farmaco, ma anche dall’età del paziente, dalla misura della sua clearance renale, dal dosaggio degli enzimi epatici….? Ci sono malattie non guaribili ma curabili. Tante volte in medicina il successo è semplicemente un prolungamento della sopravvivenza o un miglioramento della qualità di vita (più lunghi spazi di tempo liberi dal dolore o dalle metastasi). Sotto questo importante aspetto, come paragonare tra loro gli effetti di due o più diverse terapie? Come depurare tali risultati da effetti confondenti quali età, funzionalità epatica o renale ecc.? Analisi di sopravvivenza Regressione di Cox Es.: nonostante due antiblastici differenti si verifica comunque una mortalità del 20%. Il fatto che con l’antiblastico W la morte si verifichi dopo 3 anni di terapia e con l’antiblastico Z si verifichi dopo 6 dipende soltanto dal tipo di tumore o dalla stadiazione o dall’età del paziente? Nella realtà la presenza di una malattia o la sua assenza dipendono da moltissimi fattori (alcuni si esprimono con scale di misura, altri con scale ordinali e altri ancora con semplici modalità) Come capire quale dei vari fattori è il più importante nel determinismo della malattia? (significherebbe capire la eziopatogenesi della malattia nella sua interezza!!!!) Regressione logistica Es.: per prevenire, in un certo paziente, la cardiopatia ischemica è più importante abolire il fumo o abbassare il livello di colesterolo? Le variabili che possono influire su un evento clinico sono veramente troppo numerose. Molte di loro interagiscono (esempio: consumo di fumo e alcol spesso vanno di pari passo) Come sintetizzare alcuni di questi fenomeni (esempio: eccesso di fumo + eccesso di alcool = errato stile di vita)? Analisi fattoriale Es.: come comprendere meglio le interazioni tra i vari determinanti delle malattie? Spesso gli studi clinici su nuovi farmaci portano a risultati contradditori (questo è dovuto al fatto che raramente i nuovi farmaci sono così potenti quanto lo fu all’epoca la penicillina e per scoprire piccole differenze di esito occorrono enormi numerosità campionarie. Resta il fatto che magari per una decina di anni i medici devono decidere se utilizzare o meno un dato farmaco e spesso sono nel dubbio né possono passare tutto il loro tempo a leggere tutti i lavori sull’argomento (ivi inclusi quelli scritti in giapponese, in tedesco, in spagnolo, in cinese….). Esiste il modo di avere una sorta di “riassunto” dei dati della letteratura che serva almeno temporaneamente a non perdere la bussola… ovviamente senza avere una fede cieca nei risultati e accettandoli salvo prova contraria? Metanalisi Es.: Il grande clinico Tizio asserisce che il farmaco Q è inutile. L’altrettanto illustre clinico Caio asserisce il contrario. Come si deve comportare un meno illustre ma altrettanto importante (per i suoi pazienti) medico di base? Naturalmente non si esaurisce con questo lo strumentario possibile in statistica medica ed epidemiologia! Tanti altri strumenti verranno messi a punto nei prossimi anni. Ci si augura che questo testo possa essere almeno propedeutico a comprendere anche tutti gli altri metodi che verranno o che sono attualmente impiegati. 3 Capitolo 1: Test di ipotesi tra informazioni in scala nominale o ordinale Uno dei problemi che più facilmente il medico si trova a dover affrontare è valutare se un certo trattamento migliora le condizioni dei malati che vi si sottopongono in maniera statisticamente significativa. È importante che tale differenza sia basata sull'evidenza (evidence based), cioè sull'esperienza effettuata da altri e valutata in base all'esame sistematico della letteratura scientifica o in base alla propria esperienza parimenti valutata in maniera statisticamente ineccepibile. A tale problema si puo' trovare soluzione impostando una sperimentazione sui pazienti ammalati di una data patologia trattati con diverse tecniche terapeutiche (qualsiasi esse siano: chirurgiche, farmacologiche, psicologiche) o sottoposti a diversi iter diagnostici (per verificare quale di essi dia risultati più soddisfacenti) o a diversi programmi di follow up (per verificare in quale caso si abbiano minor recidive). Generalmente si paragonano una nuova e una vecchia tecnica o una nuova tecnica e un placebo, quando è eticamente possibile. Un esempio pratico puo' essere dato dalla comparazione dell'effetto di un antibiotico nuovo (A) rispetto a un vecchio farmaco (B) su pazienti ammalati di broncopolmonite di origine batterica Ecco i passi principali da compiere: trovare un campione sufficientemente numeroso di pazienti disponibili a dare il loro consenso informato alla sperimentazione stabilire a priori con chiarezza l'obiettivo della sperimentazione: ottenere la guarigione clinica (guariti/non guariti), ottenere un miglioramento (ottimo, buono, discreto, lieve, sufficiente, invariato), ottenere la risoluzione radiologica della broncopolmonite (sì/no)….. stabilire la probabilità ritenuta accettabile di sbagliare dicendo che A non è uguale a B (ma è migliore o peggiore). Questo tipo di errore viene detto errore alfa e di solito lo si accetta al 5%=0,05 di probabilità. stabilire la probabilità ritenuta accettabile di sbagliare dicendo che A non è né migliore né peggiore di B nel particolare contesto. Questo tipo di errore viene detto errore beta e di solito lo si accetta al 10%=0,10. Un errore beta di 0,10 corrisponde a una potenza dello studio del 90%=0,9. Potenza dello studio o del test è la probabilità di rilevare differenze quando vi sono. nell'ambito del campione che ha dato il consenso informato si deve assegnare in modo probabilistico (casualmente) il trattamento con il nuovo antibiotico (A) o con il vecchio antibiotico (B) a due gruppi più o meno equivalenti di pazienti. nell'essere umano sono spesso molto sfumati i confini tra reazioni biologiche e psichiche, per tale motivo, al fine di evitare influenze inconsce sugli esiti del trattamento, si applica il trattamento in modo che né il medico né il paziente sappiano con esattezza si sta usando il farmaco A o il B: le scatole dei farmaci infatti sono contrassegnate soltanto da un numero di codice. Questo metodo viene detto "in doppio cieco". In un apposito registro, che né il medico né il paziente devono vedere fino alla fine dell'esperimento, è indicato il tipo di farmaco che corrisponde a quel numero, il momento in cui è stato prodotto, la scadenza ecc. Si effettua la terapia per il tempo prescritto 4 Si constata l'effetto avuto nei vari pazienti e soltanto a questo punto si puo' consultare il registro e sapere quale paziente ha preso il farmaco A e quale ha preso il farmaco B Verosimilmente sia con il farmaco A che con il B alcuni pazienti saranno guariti e altri no. Si costruisce una tabella di contingenza. In italiano contingenza significa possibilità di essere o di non essere (Devoto Oli). Quando si parla di quota contingente in termini giuridici si intende la quota spettante (senza ingiustizie, cioè senza differenze) a ciascun individuo o gruppo … Uno schema di questo tipo: due trattamenti con due diversi possibili esiti puo’ esser raffigurato in questa maniera: A C B D Se non vi fosse differenza tra i due trattamenti riguardo i loro risultati, dovremmo aspettarci che i pazienti fossero quasi equidistribuiti nei vari gruppi in questo modo (tutti grigi): A C B D Se invece uno dei due trattamenti fosse notevolmente più efficace dell’altro. dovremmo aspettarci che i pazienti non fossero affatto equidistribuiti, così come schematizzato qui sotto (una casella nero intenso e per compensazione, una bianca): A C B D Perché i due trattamenti si possano definire “non uguali” occorre: 1. che vi sia differenza 2. che tale differenza sia tanto grande da divenire statisticamente significativa Per prima cosa si riporta la situazione effettivamente accaduta, cioè le quote osservate. Trattamento A B Totale Non guariti 60 40 100 Guariti 40 60 100 Totale 100 100 200 I termini del problema devono esser posti in maniera chiara e univoca a priori (prima ancora di iniziare la ricerca). 5 Sono possibili teoricamente due situazioni: effetti di A = effetti di B effetti di A<effetti di B in modo non significativo effetti di B<effetti di A in modo non significativo effetti di A<effetti di B in modo significativo effetti di B<effetti di A in modo significativo quindi quindi ipotesi nulla molto probabile ipotesi alternativa poco probabile ipotesi alternativa molto probabile ipotesi nulla poco probabile Differenza non significativa sta per differenza che puo' essersi verificata anche soltanto per effetto del campionamento e che erroneamente possa venire attribuita all'effetto del farmaco. TUTTI I PIÙ COMUNI TEST STATISTICI MISURANO IL LIVELLO DI PROBABILITÀ DELL'IPOTESI NULLA. QUANTO TALE PROBABILITÀ SIA BASSA (p<0,05), ALLORA SI è AUTORIZZATI AD ACCETTARE L’IPOTESI ALTERNATIVA Osservando i dati raccolti nell’esempio, la prima impressione è che il trattamento B sia il migliore, ma la statistica richiede una valutazione non impression based, ma evidence based. Nell'assegnare random i trattamenti, potrebbe esser capitato per caso che abbiano preso il farmaco A tutte le persone più gravi o più defedate. In altri termini, potrebbe esser stato soltanto il caso a dare l'impressione di una maggior efficacia dell'antibiotico B. 6 Chi quadro di Pearson Come misurare la probabilità che la differenza osservata sia dovuta soltanto al caso, cioè la p(H0)? Con un test inventato da Pearson a metà del secolo scorso e che è alla base di numerosissime altre valutazioni statistiche: il chi quadro (2). Data questa situazione osservata sperimentalmente: Trattamento A B Totale Non guariti 60 40 100 Guariti 40 60 100 Totale 100 100 200 Se i due farmaci fossero equivalenti, le quote contingenti dovrebbero essere ripartite in modo equivalente! Nell'esperimento sopradescritto la probabilità di esser ancora malato dopo aver preso l'antibiotico (qualunque esso sia) è: Pmalato 60 40 100 0,5 200 200 La frequenza, cioè la probabilità empirica di aver preso l'antibiotico A è: PA 60 40 100 0,5 200 200 La probabilità di essere e non guarito e trattato con antibiotico A è pari alla intersezione delle due probabilità: Pmalato PtrattatoA 0,5 0,5 0,25 La quota contingente (spettante quando non vi sono differenze) per i non guariti trattati con antibiotico A dovrebbe essere pari al 25%=0,25 del campione di 200 persone esaminate. Analogo procedimento per: guariti con antibiotico A non guariti trattati con antibiotico B guariti con antibiotico B. Le quote contingenti attese sotto ipotesi che i due farmaci non siano diversi tra loro sono: 7 Trattamento A B Totale Non guariti 50 50 100 Guariti 50 50 100 Totale 100 100 200 Quanto è grande la differenza tra le due tabelle di contingenza, quella osservata nell'esperimento e quella ipotizzata sotto condizione che i due farmaci non abbiano diversi effetti? Secondo Pearson si puo' misurare tale differenza con questa formula: 2 ( f osservat e fattese )2 f attese Ove per frequenze (assolute) attese e osservate si intendono le frequenze (assolute) contingenti osservate e attese nelle 4 caselle corrispondenti a: ancora malati trattati con antibiotico A guariti con antibiotico A ancora malati trattati con antibiotico B guariti con antibiotico B. Nel nostro caso: 2 60 502 50 40 502 50 60 502 50 40 502 50 4 100 8 50 2=8 che è secondo Pearson la misura della differenza tra la tavola di contingenza ‘osservata’ e quella ‘attesa’ se i due farmaci sono equivalenti. Puo' ritenersi una grande differenza o no? Si puo' stabilire se è grande o no soltanto se si ha una misura di riferimento. In questo caso la misura di riferimento è la distribuzione di probabilità del chi quadro di seguito riportata: 8 La curva tende asintoticamente sia all'asse delle y che all’asse delle x. Sono riportati tutti i possibili valori che il chi quadro puo' assumere per caso in un disegno di ricerca analogo a quello sopra indicato (due trattamenti e due esiti). L'area sottesa dalla curva, ovviamente, vale 1=100% di probabilità, perché comprende tutti i valori che teoricamente si posson verificare per caso. Vale la pena di notare che il massimo di probabilità si ha per 2=0, quando i valori osservati siano identici ai valori attesi. Man mano che il valore del chi quadro cresce, la probabilità che quel valore si verifichi per caso (ipotesi nulla) diminuisce. Il valore 3,84 del 2 viene detto valore critico della funzione discriminante, perché in un disegno sperimentale come quello sopra descritto, un valore di chi quadro > 3,84 ha una probabilità di verificarsi per puro caso < 5% che è come dire: p <0,05. Un valore di chi quadro >6,63 si ottiene per caso in un disegno di quel tipo con una probabilità inferiore all'1%, come dire p <0,01 In questo studio, avendo scelto un livello di probabilità di errore alfa = 0,05 si puo' dire che il farmaco B è migliore di A in modo s.s. (=statisticamente significativo), con p<0,05, cioè probabilità di affermare il falso inferiore al 5%. 9 Tavole di contingenza Non sempre gli studi sono così semplici: molte volte si cerca di paragonare 3 diversi farmaci (A, B e C) e,magari, di considerare 3 diversi esiti (guarito, migliorato, invariato). Non cambia però l’intimo meccanismo del test: uno schema di questo tipo: due trattamenti con tre diversi possibili esiti puo’ esser raffigurato in questa maniera: A D G B E H C F I Se non vi fosse differenza tra i due trattamenti riguardo i loro risultati, dovremmo aspettarci che i pazienti fossero quasi equidistribuiti nei vari gruppi in questo modo: A D G B E H C F I Se invece uno dei due trattamenti fosse notevolmente più efficace dell’altro. dovremmo aspettarci che i pazienti non fossero affatto equidistribuiti, così come schematizzato qui sotto: A D G B E H C F I Per dire che i trattamenti non sono uguali occorre: che vi sia differenza in almeno un trattamento che tale differenza sia tanto grande da divenire statisticamente significativa Siano, ad esempio, queste le quote contingenti osservate: Trattamento A B C Totale Invariati 100 50 75 225 Migliorati 150 200 200 550 Guariti 50 50 25 125 Totale 300 300 300 900 Il modello è più complesso del precedente, ma il metodo è identico. Si calcolino: 300 0, 3 900 225 0,25 Probabilità di esser rimasti invariati dopo una qualsiasi terapia: pin variati 900 550 0,61 Probabilità di esser migliorati dopo una qualsiasi terapia: pmi gl iorat i 900 125 0,138 Probabilità di esser guariti dopo una qualsiasi terapia: pguari ti 900 Probabilità di aver effettuato il trattamento A o B o C: p A p B pC 10 Con le opportune intersezioni, si riempiano le caselle del disegno dello studio: Trattamento Invariati Migliorati Guariti A 0, 3 0,25 0, 3 0,6 1 0, 3 0,138 B 0, 3 0,25 0, 3 0,6 1 0, 3 0,138 C 0, 3 0,25 0, 3 0,6 1 0, 3 0,138 Basta moltiplicare i prodotti delle probabilità qui sopra indicate per 900 e si ottengono le quote contingenti attese sotto ipotesi che i tre farmaci non agiscano in modo diverso (le cifre sono approssimate per via dei decimali): Trattamento A B C Totale Invariati 75,0 75,0 75,0 225 Migliorati 183,2 183,2 183,2 549,6 550 Guariti 41,8 41,8 41,8 125,4 125 Totale 300 300 300 900 Si applica la solita formula, ma gli addendi non sono più 4 come nell'esempio precedente, sono tanti quante le caselle, cioè 9. 2 75 100 2 75 183,2 1502 183,2 41,8 502 41,8 75 50 2 75 75 752 183,2 2002 183,2 41,8 50 2 41,8 75 183,2 2002 183,2 41,8 252 41,8 8, 3 8,3 0 6,02 1,5 1,5 0,4 0,4 6,8 33,22 Il tipo di studio appena descritto è differente dal primo illustrato in questo capitolo. Nel primo, avevamo 2 trattamenti e 2 esiti: si trattava quindi di una tabella di contingenza cosiddetta 2 2 ; nel secondo studio, abbiamo a confronto 3 trattamenti con 3 possibili esiti: si tratta di una tabella di contingenza cosiddetta 3 3 . Il valore 33,22 di chi quadro va confrontato con una distribuzione leggermente diversa (non deve meravigliare più di tanto che si utilizzi uno strumento di misura: il peso dei neonati, degli adulti, dei carichi dei camion o dei carichi delle navi non si valutano certamente con le stesse bilance!). Questa sotto indicata è una curva distributiva del chi quadro adatta a una tavola di contingenza 3 3 . 11 In un disegno 3 esiti e 3 trattamenti, infatti, i possibili valori del chi quadro che si verificano per caso sono differenti da quelli che si hanno nel modello due esiti e due trattamenti. La curva della probabilità cumulativa si modifica e diventa sempre più gaussiana man mano che aumentano i trattamenti e i possibili esiti. La forma della curva distributiva e i valori critici della funzione discriminante (chi quadro) cambiano a seconda dei gradi di libertà. Nell'esempio appena citato (tre trattamenti e tre esiti) i gradi di libertà sono 3 1 3 1 4 . 12 I gradi di libertà sono il numero di variazioni indipendenti che puo' avere un insieme di misure o di modalità. Il motivo non è banale, ma si puo’ dare la seguente spiegazione intuitiva: Trattamento Invariati Migliorati Guariti A 0, 3 B 0, 3 C ????? 0,25 0,61 ????? Nelle nove caselle qui sopra, i casi si possono disporre in moltissimi modi diversi, fintanto che non si utilizzano i valori osservati per fare una stima della probabilità di subire il trattamento A o B o C. Dato che si stima che il trattamento A abbia probabilità di essere applicato = 0, 3 e il Soltanto 0, 3 … trattamento B = 0, 3 , quale sarà la probabilità di subire il trattamento C? altrimenti la somma non farebbe 1. La libertà di variazioni indipendenti tra i tre trattamenti, quindi non è 3, ma 2! Analogo il discorso per gli esiti: avendo stimato gli invariati al 25%, cioè 0,25 di probabilità, che per i migliorati sale allo 0,61 , quale potrà mai essere la probabilità di guarire, se non il complemento a 1 della somma di queste due? Anche in questo caso la libertà di variazioni indipendenti fra i tre esiti non è 3, ma 2. In generali, i gradi di libertà (GL) di un test del chi quadro sono sempre così calcolati: GL = (N° colonne tabella di contingenza -1) (N° righe tabella di contingenza 1) Il motivo di quel segno di moltiplicazione, invece, non dovrebbe esser difficile da ricordare: essere trattato con un certo farmaco e, contemporaneamente, ottenere un certo esito, non dà forse luogo a una intersezione di probabilità (regola del prodotto)? Il test ci permette di stabilire che non vi è una uguaglianza tra i tre trattamenti riguardo l'esito. Più complesso è stabilire quale sia il trattamento migliore: per individuarlo, bisogna considerare quale è la casella che ha la massima differenza tra valori osservati e valori attesi. Nel caso in esame, il farmaco C appare il meno soddisfacente, infatti fa guarire soltanto 25 pazienti contro i 42 attesi. I farmaci A e B fanno guarire molti più pazienti di quanti ci si aspetterebbe, infatti sono 50 pazienti ognuno rispetto ai 42 attesi Tra A e B pare migliore il B, perché fa migliorare 200 pazienti contro i 183 attesi (contrariamente al farmaco A che fa migliorare meno persone di quante ci si aspetterebbe, cioè 150 contro 183) Di seguito sono riportati alcuni valori critici della funzione discriminante del chi quadro per p<0,05 e p<0,01 a seconda dei gradi di libertà: 13 Gradi di libertà P<0,05 P<0,01 1 3,84 6,63 2 5,99 9,21 3 7,81 11,34 4 9,49 13,28 5 11,07 15,09 6 12,57 16,81 CONTROINDICAZIONI ALL’USO Vi sono alcune avvertenze da tener presente per l’utilizzo del test 2, legate soprattutto alla numerosità campionaria. Quando n<20, e GL <2, è opportuno applicare la correzione di Yates. 2 ( f osservate f attese 0,5) 2 f attese Da un punto di vista strettamente matematico non sarebbe corretto indicare il valore assoluto f osservate f attese , perché il teorema di Yates prevede una correzione fissa (sia che le frequenze osservate siano maggiori delle attese sia che siano inferiori alle attese). In biologia e in medicina, però, si preferisce utilizzare questo accorgimento , che è un banale accorgimento per rendere più conservativo (meno facilmente s.s.) il test, proprio in considerazione della scarsa numerosità: riducendo il numeratore in tutti gli addendi logicamente il valore del chi quadro si abbassa. Quando in una casella vi è anche un solo valore atteso <5, conviene usare un test ben più difficile da spiegare, il test esatto di Fisher. Generalmente i software statistici riportano la correzione di Yates ed il calcolo del test di Fisher in modo automatico in caso di tabelle 2x2. 14 Test esatto di Fisher Il test di Fisher si basa sulla distribuzione binomiale e sulla probabilità condizionata di avere una certa situazione di frequenze osservate "dati costanti i valori marginali di una tavola di contingenza", secondo questa formula: P R1!R2 !C1!C2 ! N!a!b!c!d! Gli elementi della formula sono indicati nella tavola di contingenza qui sotto riportata. Evento + Evento - Trattamento + a c C1 Trattamento B D C2 R1 R2 N Eseguire manualmente il test esatto di Fisher non è proprio cosa semplice, comunque: Si calcola una volta per tutte R1!R2 !C1 !C2 ! , che è costante. N! Sperando di non complicare inutilmente il discorso, si ricorda che il numero di combinazioni (cioè dei gruppi di n elementi che si possono combinare in modo che siano diversi almeno per un elemento considerando che ci debbano esser determinati marginali di riga e di colonna) sarebbe N! R1 ! R2 !C1!C2 ! Si sceglie la casella con la numerosità minore (poniamo sia a) Si considerano tante tavole di contingenza: con a = 0 con a = 1 ……….. con a = a, valore osservato nella realtà con a sempre crescente, fino a che diventi a=C1 , che è il massimo valore possibile (visto che C1 deve essere costante, per a = C1 si avrà c=0) Per ogni tavola di contingenza si calcola la probabilità che si verifichi casualmente la situazione osservata in funzione delle possibili variazioni di a (che puo’ esser al minimo =0 e, al massimo = C1, quando c sia =0) Per ogni combinazione si calcola il corrispondente valore di probabilità La somma delle varie probabilità deve fare ovviamente 1, se si sono considerati tutti i valori di a teoricamente possibili. 15 Poniamo siano questi i valori di probabilità ritrovati con C1=9, “a” potrà variare tra 0 e 9 e nei vari casi l’ipotesi nulla avrà questa probabilità: possibili valori di a Probabilità della combinazione Probabilità cumulativa code a=0, quindi c= C1 0,0046 a=1 0,0339 a=2 0,1110 a=3 0,2119 a=4 0,2600 a=5 0,2128 a=6 0,1160 a=7 0,0407 a=8 0,0083 a=9, quindi c=0 0,0008 Probabilità cumulativa 1 0,0385 0,0091 0,0476 Si valuta, per tentativi (fatti dal calcolatore) il limite delle due code con p cumulativa simile a 0,05 (area grigia) Se la nostra particolare combinazione si trova all'esterno dei limiti, è significativa, altrimenti no Per semplificare ulteriormente, di potrà accettare l’ipotesi alternativa quando: a=0, a=1, a=8 o a=9 Questo tipo di test è più conservativo del chi quadro, ma è il solo idoneo a piccoli campioni. 0,3 0,25 0,2 0,15 0,1 0,05 0 a=0 a=1 a=2 a=3 a=4 a=5 a=6 a=7 a=8 a=9 16 Calcolo della numerosità campionaria richiesta Vale la pena di soffermarsi un momento su questa situazione generale, che vale per tutti i test statistici. I test statistici sono un tentativo di misura della probabilità di eventi, non danno certezze. Sono sempre possibili teoricamente due situazioni: NEL CASO CHE L’IPOTESI ALTERNATIVA SI RIVELI FALSA test con p<0,05 test con p>0,05 Errore di 1° tipo o errore alfa accettato con p<0,05 e lo si commette Errore di 1° tipo o errore Confidenza nell'ipotesi alfa accettato con p<0,05 e alternativa p<0,95 non lo si commette Ipotesi alternativa Confidenza nell'ipotesi accettata alternativa p>0,95 Ipotesi nulla accettata L'errore alfa o errore di primo tipo è quello che si commette credendo vera l'ipotesi alternativa, che invece è falsa NEL CASO CHE L’IPOTESI ALTERNATIVA SI RIVELI VERA test con p<0,05 test con p>0,05 Errore di 1° tipo o Confidenza nell'ipotesi errore alfa accettato Ipotesi alternativa accettata alternativa p>0,95 <0,05 e non lo si commette Errore di 1° tipo non si commette, Confidenza nell'ipotesi Ipotesi nulla accettata ma si commette alternativa p<0,95 l'errore di 2° tipo o errore beta n L'errore beta o errore di secondo tipo è quello che si commette credendo vera l'ipotesi nulla, che invece è falsa Qualsiasi decisione si prenda, dunque, si puo' sempre sbagliare. Gli errori più frequenti sono imputabili a un campione scelto in maniera "viziata" un campione non sufficientemente numeroso La numerosità minima indispensabile del campione va valutata di volta in volta e stabilita in funzione: a. del tipo di fenomeno che si valuta 17 b. c. d. e. della minima differenza che abbia una qualche rilevanza clinica della variabilità del fenomeno in relazione ad eventuali errori di stima dell'errore di 1° tipo che si accetta in funzione dell'importanza della ricerca dell'errore di 2° tipo che si accetta in funzione dell'importanza della ricerca Si devono fare le seguenti considerazioni, punto per punto: a. Il tipo di fenomeno che si valuta in un chi quadro è sempre una modalità o categoria (guarito/non guarito). b. Se finora con i vecchi trattamenti guarivano circa il 40% delle persone, quando ci si dichiara soddisfatti della differenza con nuovi trattamenti? Per una guarigione di almeno il 50% dei trattati, di almeno il 51%, di almeno il 55% dei trattati? È il ricercatore medico a stabilire questo sulla base delle sue competenze. Poniamo che si consideri significativo un miglioramento in termini di guarigioni del 2%=0,02 c. Quanto puo' essere imprecisa la stima del fenomeno? Dipende dall'errore standard della stima della frequenza media. Se finora erano guariti circa il 40% dei pazienti (limiti di confidenza compresi tra 35% e 45%). Questo significa che l'errore standard di tale frequenza (dal 35 al 45%) sarà: e.s. f d. e. LCS 95% LCI 95% 0,45 0,35 2 1,96 2 1,96 0,1 0,0255 2 1,96 L'errore alfa che si accetta ha di solito p=0,05, ma puo' variare a giudizio del ricercatore medico L'errore beta che si accetta ha di solito p=0,1, che corrisponde a una potenza dello studio di 0,9, cioè del 90%, ma puo' variare a giudizio del ricercatore medico. Se una ricerca fosse molto costosa o anche pericolosa (a volte si prevede per tutti i pazienti arruolati una angiografia o una biopsia!), occorrerebbe prevedere una potenza molto alta. A questo punto si è in grado di prevedere il numero minimo indispensabile di persone da coinvolgere nello studio utilizzando questi valori fissi in funzione di alfa e beta scelti: f , 10,8 13,5 15,8 17,8 8,6 10,5 13 14,9 6,2 7,9 10 11,7 2,7 3,8 5,4 6,6 Basta applicare questa formula: e.s.2f 0,0255 2 n 2 2 f , 2 10,5 2 1,6255 10,5 34,1355 36 0,02 2 Con circa 36 persone suddivise tra due gruppi, si è certi di avere una numerosità sufficiente per prendere una decisione utilizzando il minor numero di dosi di farmaco, di risorse umane e strumentali. 18 Volendo discriminare una differenza di effetto più piccola, ad esempio dell'1%, si avrebbe: n 2 e.s.2f 2 f , 2 0,0255 2 10,5 2 6.502 10,5 136,542 138 0,012 Volendo discriminare una differenza di effetto più grande, ad esempio del 4%, si avrebbe: n 2 e.s.2f 2 f , 2 0,0225 2 10,5 2 0,406 10,5 8,53 10 0,04 2 In fondo è logico: è più facile vedere una montagna che un sassolino! Da tale impostazione si puo’ rilevare a priori il numero minimo di soggetti da inserire nello studio (ed è importantissimo per motivi di economia di tempo, denaro, risorse umane, stress ai pazienti). Esistono comunque programmi o siti internet che consentono di calcolare il numero minimo indispensabile fornendo le informazioni predette. I soggetti dovranno poi esser scelti in modo da non inficiare la ricerca, specificando quali criteri hanno portato alla loro inclusione nello studio e evitando di poter influire sui risultati dello studio stesso, ad esempio assegnando i farmaci in doppio cieco. Generalmente i programmi di statistica in commercio applicano automaticamente la correzione di Yates se necessaria e avvertono se in una delle caselle della tavola di contingenza si ha un valore atteso <5. Qualora ciò accadesse, se biologicamente, clinicamente razionalmente possibile senza modificare gli scopi e l’impostazione della ricerca, conviene raggruppare i casi in modo meno dettagliato, aumentando così la loro numerosità (gli statistici puri non sarebbero d’accordo: ogni decisione presa a posteriori è un arbitrio) applicare il test esatto di Fisher 19 Riassumendo, quando si debba verificare il diverso effetto di due o più terapie (dati non appaiati) su parametri espressi in scala nominale o ordinale, occorre: A PRIORI Impostare il quesito (ipotesi nulla e ipotesi alternativa) Valutare la differenza (di frequenza di guarigioni, ad esempio) definita come clinicamente significativa, l’errore alfa e l’errore beta che si accetta (potenza dello studio) Calcolare il numero minimo di soggetti da campionare Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione clinica, età…) Ottenere il consenso informato dai pazienti selezionati Assegnare in modo randomizzato e, ove possibile, in doppio cieco, i vari trattamenti Effettuare le misure A POSTERIORI Verificare se, dati i valori marginali osservati, anche in una sola casella della tavola di contingenza si abbia una frequenza attesa <5 Studio per dati non appaiati Modalità o valutazione ordinale Con frequenze assolute >5 nelle varie caselle 2 di Pearson Modalità o valutazione ordinale Con frequenze assolute < 5 anche in una sola casella Test esatto di Fisher 20 Chi quadro di Mc Nemar Meno frequentemente puo’ capitare di effettuare valutazioni di modalità o valutazioni ordinali per dati appaiati. Immaginiamo ad esempio di effettuare un intervento di educazione sanitaria in una popolazione con determinate abitudini di vita (ad esempio con un 25% di fumatori cronici). Dopo qualche tempo dall’intervento potranno accadere le seguenti situazioni: alcuni fumatori continueranno a fumare nonostante l’intervento alcuni fumatori smetteranno di fumare (segno di grande successo dell’intervento) alcuni non fumatori, disturbati da un intervento espresso in termini poco accattivanti potranno iniziare a fumare (segno di grande insuccesso dell’intervento) alcuni non fumatori continueranno a non fumare. L’efficacia o meno dell’intervento effettuato non va misurata su coloro che non hanno mutato le proprie abitudini, ma sulle persone che dopo il nostro intervento si sono comportati diversamente da come facevano prima (proprio per verificare se siano di più coloro che hanno seguito i buoni consigli rispetto a quelli che, per reazioni, hanno iniziato ad avere comportamenti nocivi alla propria salute). Della tavola di contingenza che si puo’ costruire con i dati osservati, quindi, interessano soltanto due caselle su quattro: PRIMA DOPO Non fumatori Fumatori Fumatori 18000 2000 20000 Non fumatori 7000 73000 75000 80000 100000 25000 E precisamente le caselle che indicano che 7000 persone delle 250000 che prima fumavano hanno smesso di fumare, mentre 2000 che precedentemente non fumavano si sono messe a fumare. Pare che si sia avuto un guadagno verso le buone abitudini di vita… ma è un guadagno sufficientemente grande per poter dire che il cambiamento di abitudini sia imputabile all’intervento e non rientri nella variabilità del caso? Se l’intervento fosse stato del tutto inutile (non efficace né in positivo né in negativo), le 9000 persone che hanno cambiato abitudine dovrebbero esser distribuite equamente nei due gruppi (9000/2=4500). Il che significa che i valori attesi sotto ipotesi nulla sono in questo caso: PRIMA Fumatori DOPO 4500 Fumatori Non fumatori Non fumatori 4500 A questo punto si applica la solita formula del chi quadro (con correzione di Yates) soltanto alle caselle delle coppie “discordi” (coloro che hanno cambiato abitudine): 21 2 McNemar 2 2 2000 4500 0,5 7000 4500 0,5 1388,9 1388,9 2777,8 4500 4500 Per un grado di libertà, la distribuzione del chi quadro indica una significatività elevatissima. Qualora i controlli fossero più di 2, è possibile con alcuni software calcolare il cosiddetto chi quadro per trend, che consente di valutare se in più tempi diversi la variazione della prevalenza di determinate abitudini o di certe malattia cambi in modo statisticamente significativo. Il test per trend è una applicazione dell’OR secondo Mantel Haenszel e si puo’ trovare qui l’occasione per approfondire questo argomento a completamento del capitolo 4° della prima parte del testo. L’OR secondo Mantel Haenszel è stato studiato per “depurare” un OR grezzo da eventuali fattori confondenti Pare accertato che il rischio di cardiopatia ischemica sia maggiore in chi abbia un livello sierico di catecolamine superiore alla norma. Immaginiamo dei dati di fantasia: Cardiopatia ischemica Non cardiopatia ischemica Catecolamine alte Catecolamine basse 27 44 71 95 443 538 122 487 609 Una simile situazione prevede: OR=2,86 e 2=14,98 con p<0,001 È verosimile che tale rischio non sia influenzato anche dall’età del paziente (superiore o inferiore a 55 anni, ad esempio) o dalla presenza di una qualche alterazione della ripolarizzazione verificabile all’ECG? Il sospetto che l’età e pregresse alterazioni dell’ECG influenzino il rischio è del tutto giustificato e verosimile. La tecnica di Mantel Haenszel consiste nel valutare l’OR grezzo nei 4 possibili sottogruppi: età <55 a.; ECG normale età < 55 a.; ECG alterato età >=55 a.; ECG normale età >= 55 a.; ECG alterato Nel gruppo teoricamente più “a rischio”, quello con età >= 55 a. ed ECG alterato immaginiamo che si abbia una numerosità ovviamente inferiore e una situazione di questo tipo: Catecolamine alte Catecolamine basse Cardiopatia ischemica 14 5 19 Non cardiopatia ischemica 44 27 71 58 32 90 Una simile situazione prevede: OR=1,72 e 2=0,46 con p<0,5 quindi non significativo (probabilmente per errore beta da ridotta numerosità campionaria) Qualora i 4 OR grezzi fossero molto diversi tra loro, si puo’ supporre che età e ECG pregresso siano fattori confondenti molto importanti e la tecnica di Mantel Haenszel si imporrebbe… ma la si puo’ comunque adottare per amore di precisione e per evitare errori alfa e beta. L’aggiustamento dei dati secondo Mantel Haenszel si ottiene con una modifica del 2di Pearson. Mentre nel Pearson si fa lo somma di tanti rapporti fra scarti quadratici tra valori osservati e valori attesi sotto ipotesi nulla rapportati ai valori attesi quante sono le caselle della tavola di contingenza, nel Mantel Haenszel ci si focalizza sui casi patologici osservati negli esposti al rischio, cioè sulla sola casella A così come si presenta nei vari strati considerati (nel nostro esempio g=4) 22 2 Pearson O A2 A g 2 MantelHaen szel O AA 2 A 1 g var A 1 Immaginando di costruire una tavola di contingenza per ognuno dei g possibili strati, si otterrebbe per ogni strato questa tabella: Non esposti Bg Dg n0g Esposti Malati Non malati Ag Cg n1g m1g m0g ng Il chi quadro verrebbe calcolato dallo strato 1 allo strato G in questo modo: g 2 MantelHaen szel O A AA 1 g var A 2 n1g m1g A 1 g n g g n1g n0 g m1g m0 g g 2 1 n g2 n g 1 1 Il denominatore rispecchia le leggi della distribuzione di probabilità binomiale, mentre a numeratore la frazione n1g m1g ng non è altro che il modo per calcolare i valori attesi della casella esposti e malati nei vari strati possibili. Il vantaggio di procedere in questo modo è l’ottenere un chi quadro aggiustato per fattori confondenti. In modo analogo è stato possibile aggiustare anche l’odd ratio, ottenendo un valore che è depurato da eventuali fattori confondenti. OR ad cb g OR MantelHaenszel 1 g 1 ag d g ng c g bg ng Ovviamente anche l’OR secondo Mantel Haenszel prevede i soliti limiti di confidenza (calcolati in modo ancora più complesso, con l’ausilio degli esponenziali). Vale sempre la regola che un tale OR è significativo se i due limiti di confidenza sono entrambe maggiori o minori dell’unità. Il test del chi quadro per trend prevede di seguire una coorte di persone esposte per un certo periodo di tempo a intervalli regolari. Questo gruppo si dividerà “eventi” e “non eventi”, cioè in malati e non malati. Al tempo 0 si ha ovviamente la condizione basale che, per convenzione, ha un OR = 1. Gli altri OR vengono calcolati come segue: 23 tempo 0 1 2 3 4 5 Malati a c e g i m Non malati b d f h l n OR 1 per convenzione ad/bc af/eb ah/gb al/ib an/mb Dopo di che si valuta se gli OR vanno calando o crescendo regolarmente in funzione lineare con il passare del tempo. Se hanno variazioni irregolari, sopra e sotto l’unità, il fenomeno appare del tutto casuale e non statisticamente significativo. Non si puo’ in tal caso rifiutare l’ipotesi nulla. 24 Riassumendo, quando si debba verificare nel tempo l’effetto di una terapia (dati appaiati) parametri espressi in scala nominale, occorre: su A PRIORI Impostare il quesito (ipotesi nulla e ipotesi alternativa) Valutare la differenza (di frequenza di guarigioni, ad esempio) definita come clinicamente significativa, l’errore alfa e l’errore beta che si accetta (potenza dello studio) Calcolare il numero minimo di soggetti da campionare Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione clinica, età…) Ottenere il consenso informato dai pazienti selezionati Effettuare le valutazioni Studio per dati appaiati 2 valutazioni 2 di Mc Nemar >2 valutazioni 2 per trend 25 Capitolo 2: I test di ipotesi per misure non appaiate Spesso in medicina ci si pone il problema di valutare “di quanto” un trattamento sia in grado di modificare uno dei tanti parametri che si utilizzano per valutare lo stato di salute o di malattia dei pazienti. In questo caso non si utilizzano più le categorie “guarito, migliorato, ammalato, deceduto…”, ma ci si porta ad un più sofisticato livello di conoscenza utilizzando misure che servono quali indicatori di esito (ad esempio tutte le valutazioni laboratoristiche, le misure antropometriche, gli esiti valutati considerando il tempo di guarigione o di ricaduta…) Lo schema intuitivo di questo tipo di studi puo’ essere così rappresentato, essendo il gruppo A studiato e valutato contemporaneamente al gruppo B e, ove i test statistici lo consentano, al gruppo C o D… I 2 o 3 o più gruppi, costituiti da campioni provenienti dal medesimo universo vengono sottoposti a trattamenti diversi. 26 A trattamento concluso, si verificano i risultati nei tre campioni. È possibile trarre conclusioni sull’efficacia dei diversi trattamenti utilizzando ad esempio le variazioni di altezza di un certo parametro clinico come indicatore di esito della terapia (nelle figure rappresentato come altezza dei vari ometti). Se poi l’indicatore scelto sia il più adatto per valutare l’esito della terapia… è problema più medico che statistico! Certo che la scelta di un indicatore inadatto inficia tutto il lavoro statistico. 27 t di Student per dati non appaiati Differenze s.s. tra misure di due popolazioni differenti secondo Gosset La sperimentazione si può impostare nel modo già visto precedentemente. Se dosiamo la clearance renale a un campione numeroso (500 persone con lievi problemi renali) che seguono però una dieta appropriata, otteniamo questa curva di distribuzione dei valori del test: Valutando la clearance renale a 500 nefropatici che seguono una dieta squilibrata e troppo ricca di proteine, otteniamo questa curva spostata verso i valori più bassi: Riportandole insieme sugli assi cartesiani si puo’ verificare se vi è differenza tra i 500 nefropatici che seguono una dieta corretta e gli altri 500. 28 dieta scorretta dieta corretta Confrontando le medie, cioè i vertici delle due curve pare certamente che la dieta corretta sia efficace nel migliorare la clearance, ma se si osservano le basi, possono sorgere dei dubbi. Alcuni pazienti che seguono dieta incongrua hanno valori superiori (più “normali”) rispetto ad alcuni pazienti che si alimentano in maniera corretta!!! Per rispondere al quesito: "la dieta prescritta fa migliorare la clearance dei nefropatici?” è assolutamente importante vedere il fenomeno nel suo insieme: rappresentando le due curve contemporaneamente sugli assi cartesiani tenendo presenti i limiti di confidenza al 95% delle due popolazioni, che sono 90-110 cc. per chi segue la dieta corretta e 25-95 cc. per gli altri. I limiti si intersecano, anche se la differenza tra le medie è rilevante (100cc.-60cc.=40cc.). La situazione è qui schematizzata in modo diverso: i punti centrali più scuri sono le medie e appaiono ben distanti le aree grigie comprendono i limiti di confidenza al 95%, quelle bianche i limiti di confidenza al 99% Le aree bianche si intersecano e si sovrappongono, quindi la differenza puo’ esser più apparente che reale A B Poniamo che 29 l’obiettivo dello studio sia valutare se vi è una differenza tra le misure della clearance di chi segue una dieta appropriata e quelle di chi segue una dieta incongrua si sia precedentemente valutata la differenza minima clinicamente significativa (ad es. una clearance che sia superiore di almeno 15 cc/minuto) per cui la numerosità dei due gruppi sia congrua a quanto si va cercando si accetti di sbagliare affermando che la dieta è efficace con una probabilità pari a 0,05 (errore alfa) si accetti di sbagliare affermando che la dieta è inefficace con una probabilità pari a 0,10 (errore beta), quindi una potenza della studio di 0.9=90% Per rispondere alla domanda sull’efficacia della dieta è necessario: misurare la differenza tra le clearance dei pazienti dei due gruppi valutare se la misura di tale differenza è tanto grande da rendere improbabile (p<0,05) il fatto che si sia potuta verificare per caso. La differenza tra le clearances dei due gruppi si puo’ calcolare dalla differenza tra i valori medi, come 100-60=40. E’ o dovrebbe esser noto dai precedenti capitoli che anche per pura casualità si possono verificare delle differenze anche cospicue tra due diversi campioni del medesimo insieme (pazienti nefropatici). In altre parole la differenza di 40, pur notevole, potrebbe esser dovuta agli effetti del campionamento, non a quelli della dieta. Per valutare la probabilità che una simile differenza si verifichi per caso occorre rapportarla ad un qualche valore di riferimento (il concetto non dovrebbe risultare particolarmente ostico agli operatori sanitari: per decidere se una persona è o meno ipertesa, si fa riferimento al valore desiderabile di pressione arteriosa diastolica, che non dovrebbe superare gli 80 mm. Hg). Lo strumento per misurare la casualità di fenomeni questo tipo è stato inventato quasi un secolo fa da William Gosset e si tratta della statistica "t di Student per dati non appaiati". A molti verrebbe istintivo valutare semplicemente la differenza fra le medie. A Gosset venne in mente un concetto più approfondito: che tale differenza poteva essere grande o piccola a seconda della "variabilità del fenomeno". Mai intuizione fu più corretta e condivisibile: una cifra di 10 euro è elevata per chi abbia un reddito giornaliero di 50 euro, mentre puo’ esser risibile per chi abbia un reddito di 300 euro al giorno! A questa intuizione è seguita una ricerca scientifica (di tipo matematico) che ha portato poi a valutare la variabilità del fenomeno "differenza fra misure di popolazioni" e a dimostrare che l'errore standard della differenza tra due medie campionarie è uguale alla radice quadrata della somma delle varianze delle due popolazioni divisa per il rispettivo effettivo. Di primo acchito non tutti comprendono perché l’errore standard di una differenza tra medie… si calcoli con una somma, né questa è la sede per complesse dimostrazioni matematiche. Intuitivamente, però, si puo’ comprendere perchè la variabilità del fenomeno “differenza tra coppie di misure” è maggiore della variabilità delle misure di una singola popolazione. Si veda questo esempio esplicativo: Popolazione A (range di 20) 110 90 100 95 Popolazione B (range di 20) 50 70 60 55 30 105 65 Se si calcola la differenza di tutte le misure di A con le misure della popolazione B, i valori assoluti delle misure sono: 60 40 50 45 35 40 20 30 35 45 50 30 40 40 50 55 35 45 30 40 45 45 35 55 Il range della differenza tra due popolazioni di misure è 40 (contro il range di 20 delle singole popolazioni A e B): del resto sottraendo dalla misura più grande la più piccola, è ovvio che si ottenga un numero grande e sottraendo dalla più piccola la più grande, invece, un numero molto piccolo. Il “funzionamento” del test puo’ esser così schematizzato, con le due popolazioni a confronto inserite nella reale variabilità o errore standard del fenomeno “differenza tra le misure delle popolazioni”. B A Gosset decise di valutare la probabilità che una certa differenza tra medie di due popolazioni fosse puramente casuale rapportandola (cioè misurandola) sulla base dell’errore standard del fenomeno secondo questa formula: t mA mB sA2 s2A nA nB ove a numeratore si ha la differenza tra le medie delle due popolazioni (dieta corretta e dieta non corretta) a denominatore la radice quadrata della somma di due frazioni costituite dal rapporto fra le varianze e gli effettivi di dette popolazioni Dalla formula suindicata uscirà un certo valore di t. A tale valore di t corrisponderà una probabilità di essersi verificato per caso che si ricava dalla distribuzione di student (già precalcolata da Gosset stesso). Nell’esempio presentato, si avrebbe la seguente situazione: Dieta corretta Dieta scorretta m=100 m=30 s=5 s=4 n=500 n=500 Differenza tra le medie=+70 t=243.414 G.L.=998 P<0.0001 31 La distribuzione di student qui sotto raffigurata è ottenuta dalle distribuzioni di frequenza dei valori di t che si possono avere estraendo a caso due campioni di misure da un medesimo universo. È una curva a campana che assomiglia moltissimo alla curva di Gauss, ma è leggermente più bassa e larga (più platicurtica). Come la curva di Gauss tende asintoticamente all’asse y ed è simmetrica I valori di t possibili sono infiniti, alcuni positivi e alcuni negativi, come si puo' immaginare vedendo la formula: t mA mB sA2 s2A nA nB quando mA<mB, allora t <0, mentre quando mA>mB, allora t >0. Quanto più "t" è grande (o piccolo, se negativo), tanto meno diviene probabile che la differenza fra le medie sia avvenuta per caso, infatti ci si avvicina a valori di che corrispondono a livelli di probabilità bassissimi sull’asse delle ordinate. Simmetricamente rispetto allo 0 si distinguono due punti che sono i valori critici della funzione discriminante, cioè quelli che delimitano una area sottesa dalla curva uguale al 95% del totale. Valori di t superiori o inferiori (se negativi) si verificheranno quindi con p<0,05. Bisogna tenere presente che: all'inizio dello studio non si puo’ sempre sapere se mA<mB o mA=mB o mA<mBi. Per questo si considera come valore critico quello che delimita a destra e a sinistra dell'asse y una p=0,025. La somma di queste due "code" fa appunto p=0,05. I valori critici della funzione discriminante variano a seconda della numerosità dei gruppi in esame, in funzione dei gradi di libertà 32 I gradi di libertà del t di student per dati non appaiati si calcolano tenendo presente che si fanno in pratica 2 stime campionarie: una della popolazione A, con nA pazienti, i GL saranno quindi in questo settore na-1 una della popolazione B, con nB pazienti, i GL saranno quindi in questo settore nB-1 i casi possono appartenere o alla popolazione A o alla popolazione B (unione di probabilità). I GL del test risultano essere quindi nA-1+nB-1= nA+nB-2 Quando i GL sono molto grandi, la curva di student diventa assolutamente sovrapponibile alla curva di Gauss standardizzata. Quando i gradi di libertà sono molti la curva di Student si fa sempre meno platicurtica, finchè, per effettivi intorno a 200, diventa sovrapponibile alla curva di Gauss normalizzata. In questo caso, ovviamente, utilizzando il test a due code saranno sufficienti valori di t<-1,96 o >+1,96 per ottenere la significatività statistica. Il t di Student puo’ esser utilizzato, eccezionalmente, a una sola coda. Questo è possibile farlo soltanto quando sia matematicamente certo che il valore di t possa esser soltanto o negativo o positivo (occorre sapere che un certo fenomeno determina sicuramente o un aumento o una diminuzione della media e in pratica questo lo si sa con certezza ben di rado). Ad es., se studiassimo due gruppi di emorragici ciascuno con Hb variabile da 6 a 7 g%cc e somministrassimo al gruppo A emazie concentrate ed al gruppo B del plasma… beh, è certo che in media il gruppo A presenterà livelli di emoglobina superiori a quelli del gruppo B! In tal caso la significatività statistica si puo’ raggiungere anche con valori di t<0 ma inferiori a quelli solitamente richiesti nel test a due code, perché essendo ovvio che la media di A sia superiore, occorre identificare il punto che racchiuda una superficie del 5% da una sola parte della curva invece che dalle due parti. Se ogni gruppo di emorragici comprendesse 100 pazienti, sarebbe sufficiente un t>+1,64 ed è ovvio che 1,64<1,96. Altrettanto ovvio è o dovrebbe essere che situazioni simili si presentano eccezionalmente 33 CONTROINDICAZIONI ALL’IMPIEGO DEL TEST: t mA mB sA2 s2A nA nB Eteroschedasticità dei due campioni: in presenza di varianze molto dissimili, il test puo’ esser inaffidabile. Intuitivamente, 1. osservando il denominatore, che è in termini statistici, il "metro" di misura del fenomeno, si rileva che il fenomeno stesso viene misurato sulla base della varianza dei due campioni. Sarebbe auspicabile che tale varianza fosse ben determinata e fissa (è il metro di misura!) 2. osservando il numeratore, che rappresenta il fenomeno da misurare, si rileva che esso è definito sulla base di due medie stimate, sarebbe auspicabile che fossero stimate con errori standard (e quindi limiti di confidenza) non troppo diversi tra loro Anormalità distributiva delle misure dei due campioni, particolarmente per distribuzioni estremamente asimmetriche f. Osservando il numeratore, si rileva che esso misura la differenza tra due medie. È ormai noto che soltanto per distribuzioni di tipo normale, non troppo asimmetriche , la media è un indicatore di tendenza centrale migliore della mediana. Se la distribuzione fosse troppo asimmetrica, la nostra stima sarebbe molto poco affidabile. Come sarebbe poi la stima della differenza tra queste due medie poco affidabili? g. È stato dimostrato su base matematica con simulazioni che quando la numerosità dei campioni è almeno >30 (secondo altri autori >100), il vincolo della normalità diventa meno importante. Numerosità insufficiente puo’ esser causa di errore beta. Anche in questo, come in tutti i test statistici, la numerosità minima indispensabile andrebbe calcolata a priori, in base: alla differenza minima tra le medie che si ritiene clinicamente significativa (per intendersi, una variazione di 1 nella clearance sarebbe matematicamente significativa, ma clinicamente irrilevante alla variabilità presentata in natura dalla misura che si sta considerando, identificabile nell’errore standard di quella misura. Non è certo un problema conoscerlo! Basta: o considerare i “valori normali” che vengono riportati a fianco di ogni determinazione e che altro non sono che i limiti di confidenza al 95% di tale test nella popolazione sana. Generalmente si tratta di valutazioni effettuate su vastissimi campioni, quindi si possono applicare i concetti della normale standardizzata e dei suoi valori notevoli. o dividere l’intervallo di confidenza, cioè la differenza tra il valore maggiore e il minore per il doppio di 1,96 o si ottiene l’errore standard e.s. LSC95% LIC 95% 2 1,96 al livello di errore alfa e beta che si accetta applicare la seguente formula: n 2 e.s.2 mA mB 2 f , ove f , è un fattore moltiplicativo che varia a seconda dell'errore alfa e beta che si sceglie: 34 f , 10,8 13,5 15,8 17,8 8,6 10,5 13 14,9 6,2 7,9 10 11,7 2,7 3,8 5,4 6,6 Lo si individua dall'incrocio degli errori alfa e beta accettati. 35 Analisi della varianza monofattoriale Differenze s.s. tra misure non appaiate secondo Fisher Einstein ha scritto che la massima aspirazione che puo' avere uno scienziato moderno è quella di fare una scoperta che sopravviva nel tempo come caso particolare di un’ altra scoperta più valida ed efficace. E' esattamente quello che è successo a William Gosset, il cui t di Student ha ispirato, ma è stato superato dalla analisi della varianza di Fisher (uno statistico degli anni '50). Attualmente qualsiasi farmaco che debba esser introdotto nella farmacopea ufficiale deve contemporaneamente dimostrare di esser migliore del vecchio farmaco migliore e migliore del placebo: sono quindi necessari almeno tre confronti. Il problema che puo’ nascere dall’utilizzo del t di Student per confronti multipli è detto “inflazione dell’errore alfa” e rappresenta un problema che puo’ verificarsi in generale in caso di applicazione non corretta delle tecniche statistiche. Nel caso specifico, dovendo confrontare tra loro tre gruppi, accadrebbe quanto sintetizzato nella figura seguente: A p=0,05 p=0,05 B p=0,05 C Confrontanto A e B si accetta un errore alfa con p=0,05….idem nel confronto fra B e C e in quello fra C ed A. l’errore alfa totale diventa così con p=0,15!!! Teoricamente si potrebbe adottare il t di Student applicando una teoria geniale nella sua semplicità che deriva dal teorema di Bonferroni (un professore universitario italiano: 1892-1960). Tale applicazione consente di rimediare al problema accettando per ogni confronto un livello di probabilità di errore alfa pari a p 0,05 . Semplice come l’uovo di Colombo! Nel caso su nconfronti riportato la correzione di Bonferroni consiste nell’accettare per ogni confronto un errore alfa con p< 0,016 36 A p< 0,016 B p< 0,016 p< 0,016 C In tal caso l’errore alfa totale è pari a 0,016 0,016 0,016 0,05 Se i gruppi fossero più numerosi, questo modo di procedere potrebbe esser molto disagevole, perché i test da eseguire diventerebbero troppo numerosi. 5 Se i gruppi fossero anche solo 5, i confronti sarebbero: 2 5 5 2 1 10 . 2 Per evitare l'inflazione dell'errore di prima specie ogni test sarebbe accettato solo per 0,05 0,005 , in modo che l'errore totale sia ≤0,05. Si finirebbe per accettare un errore alfa 10 molto piccolo e questo potrebbe portare al rischio di un errore beta che tende ad aumentare ogni volta che si richiede un errore alfa molti piccolo! Il test di Bonferroni viene solitamente applicato subito dopo l’analisi della varianza (che puo’ arrivare a dimostrare che è altamente improbabile che tre o più gruppi siano uguali tra loro) per indagare tra quali di questi gruppi si trovi la differenza (o meglio la non-uguaglianza) maggiore. Quando i gruppi siano maggiori di 10, il test di Bonferroni diventa troppo conservativo e si utilizza allora il test di Tuckey che è analogo, ma è formulato in modo tale da risentire meno della numerosità dei gruppi considerati. Per questo per confronti fra più di due gruppi di valori in scala di misure è opportuno utilizzare l’ANOVA di Fisher. L’anova di Fisher rapporta fra loro due misure di variabilità o dispersione: – La varianza delle medie campionarie dalla stima dell’universale (TRA) – La variabilità totale dei campioni considerata all’interno dei singoli gruppi (INTRA). La formula di questo test è ben più complicata di quella del t di Student, ma per fortuna il calcolo è affidato ai computer e qui si cercherà soltanto di comprendere il concetto che sta alla base del test. Intanto si osservi un fatto certamente già noto dagli studi liceali: la distanza tra due punti si calcola facilmente: 37 , basta fare la differenza fra la posizione di un soggetto e quella del secondo. Non è per nulla immediato, invece, dire quanto siano distanti quei tre soggetti sotto indicati! Occorre prendere un punto di riferimento (la bandierina) e calcolare la distanza di ognuno dei tre soggetti dalla bandierina, sommare le tre distanze e, volendo conoscere una distanza media, si divide per tre. Immaginiamo che i tre ometti rappresentino il valore medio di un certo indicatore in soggetti trattati con terapia A (valore = 130), con terapia B (valore = 170), e con placebo (valore = 120), la bandierina sia la media delle tre medie (la media delle medie dei soggetti trattati con terapia A, con terapia B e con placebo) Il ragionamento di Fisher è stato il seguente: • I tre campioni sono costituiti da esseri umani provenienti dal medesimo universo. • Le differenze sono soltanto imputabili al fenomeno del campionamento, non ai farmaci (ipotesi nulla). • 130+170+120/3=140 si potrebbe considerare una stima della media universale. Una qualunque misura xa=36, quindi, se viene rispettato quanto sopra detto avrà una distanza dalla media universale pari alla sua distanza dalla media di gruppo (120) sommata alla distanza della media di gruppo (120) dalla media delle medie ~ xa m xa 120 120 140 36 120 20 104 120 xa=36 130 140 170 Se sono vere le considerazioni di Fisher (sotto ipotesi nulla) la distanza così calcolata non puo’ esser molto diversa da un semplice 140-36=104 38 xa=36 130 120 170 140 120 Ogni elemento dei tre campioni disterà dalla media universale di un intervallo calcolabile in due diversi modi (somma di distanza intra e distanza tra oppure distanza totale): Campioni Distanza INTRA Distanza TRA Distanza totale A (xA - 130) + (130-140) = xA - 140 B (xB - 170) + (170-140) = xB - 140 C (xC - 120) + (120-140) = xC - 140 Trasformiamo le distanze o scarti in devianze, così come si è fatto già nelle prime pagine del capitolo 1° 39 Campioni Devianza INTRA Devianza TRA (xA - 130)2 (130-140) 2 A B C (xB - 170) (xC - 120) 2 2 (170-140) 2 (120-140) 2 Trasformiamo le devianze in varianze, dividendo la somma delle devianze intra per i gradi di libertà, che, avendo effettuato tre stime delle tre medie di A, B e C, saranno pari a n A 1 nB 1 nc 1 la somma delle devianze tra per i gradi di libertà, che avendo effettuato la sola stima della media delle medie saranno pari a 3-1. La formula della F di Fisher, quindi è, per 3 confronti: m A m 2 m B m 2 mC m 2 F x A mA 2 var ianza spiegata var ianza TRA 3 1 2 2 var ianza INTRA var ianza residua x B m B x C mC n A n B nc 3 Il numeratore della frazione indica le differenze eventualmente imputabili ai diversi trattamenti. Più grande è il numeratore, più è probabile che l’ipotesi nulla sia falsa Il denominatore indica invece la variabilità del fenomeno influenzata dal campionamento. Più grande è il denominatore più probabile è che l’ipotesi nulla sia falsa, a meno che il numeratore abbia un valore molto molto grande. Per F intorno a 1, è praticamente sicura l’ipotesi nulla!!! Anche Fisher, come Gosset prima di lui, ha predisposto uno “strumento di misura” che è la distribuzione di probabilità F di Fisher, qui sotto disegnata per 1 grado di libertà 40 Anche l’F di Fisher ha infiniti valori, tutti positivi, però. Per tale motivo lo si definisce “test a una coda”. La curva è stata costruita calcolando con simulazioni matematiche tutti i possibili valori di F che si possono ottenere dalla formula estraendo da un insieme k campioni in modo assolutamente casuale, per cui eventuali apparenti differenze siano imputabili al campionamento, non al trattamento. È intuitivo che più grandi sono i valori di F meno probabile è che si siano verificati per caso. Nella curva di distribuzione di F bisogna ricordare che: interseca l'asse delle ordinate (quando le k medie coincidono) ha un massimo per F=1 (quando varianza TRA=varianza INTRA) sottende un'area di valore 1=100% esiste un “valore critico della funzione discriminante” dal quale, innalzando la perpendicolare, si delimita una coda che ha area uguale al 5% del totale se dalla formula esce un F>punto critico della funzione discriminante, il test è significativo. Il che significa che la probabilità che i k campioni non siano uguali soltanto per effetto del campionamento è < 0,05 cambia a seconda dei gradi di libertà della varianza intra e della varianza tra, quindi cambia anche il valore critico nei vari tipi di studio che possono esser fatti. Esistono delle tavole cartacee che danno i valori critici, ma il computer in genere le ha memorizzate nel proprio algoritmo. La curva di distribuzione cambia a seconda dei gradi di libertà del numeratore e del denominatore e come si vede tende ad assomigliare alla curva di distribuzione delle medie campionarie quando i gradi di libertà siano >100. 41 Ricordando che: varianza totale = varianza tra gruppi + varianza intra gruppi se F=1, significa che VARIANZA TRA = VARIANZA INTRA, quindi la varianza tra gruppi concorre soltanto per il 50% a formare la varianza totale del fenomeno (poco per poter affermare che i k gruppi non sono uguali tra loro se non per caso, cioè per effetto del campionamento). Se F<1, significa che VARIANZA TRA < VARIANZA INTRA, quindi la varianza tra gruppi concorre soltanto per meno del 50% a formare la varianza totale del fenomeno (è quindi decisamente poco influente rispetto alla variabilità casuale del fenomeno). Se F>1, significa che VARIANZA TRA > VARIANZA INTRA, quindi la varianza tra gruppi concorre soltanto per più del 50% a formare la varianza totale del fenomeno (è quindi decisamente più importante rispetto alla variabilità casuale del fenomeno). Quanto più grande è il valore di F, tanto più questo è vero. Quanto più grande è il valore di F, tanto più improbabile è che le differenze riscontrate siano imputabili al caso, cioè che siano effetto del campionamento, più che del trattamento. CONTROINDICAZIONI ALL’IMPIEGO DEL TEST: F var spiegat a varTRA var INTRA varresidua Eteroschedasticità dei campioni, cioè presenza di varianze molto dissimili, il test puo’ esser inaffidabile. Intuitivamente, 3. osservando la formula, il "metro" di misura del fenomeno sono proprio le varianze. Sarebbe auspicabile fossero dei valori stabili (sono il metro di misura!) Anormalità distributiva delle misure dei campioni, cioè distribuzioni estremamente asimmetriche h. per calcolare le varianze, bisogna prima calcolare le medie. È ormai noto che soltanto per distribuzioni di tipo normale, non troppo asimmetriche , la media è un indicatore di tendenza centrale migliore della mediana. Se la distribuzione fosse troppo asimmetrica, la nostra stima sarebbe molto poco affidabile. Come sarebbe poi la stima della media di queste medie poco affidabili? 42 i. È stato dimostrato su base matematica con simulazioni che quando la numerosità dei campioni è almeno >30 (secondo altri autori >100), il vincolo della normalità diventa meno importante. Numerosità insufficiente, che puo’ esser causa di errore beta. Anche in questo, come in tutti i test statistici, la numerosità minima indispensabile andrebbe calcolata a priori, in base: alla differenza tra le medie minima che si ritiene clinicamente significativa (per intendersi, una variazione di 1 nella clearance sarebbe matematicamente significativa, ma clinicamente irrilevante o alla variabilità presentata in natura dalla misura che si sta considerando, identificabile nell’errore standard di quella misura. o al livello di errore alfa e beta che si accetta 43 Differenze s.s. tra misure di due popolazioni differenti secondo Mann-Whitney In alcuni casi (malattie rare, sperimentazione di farmaci o di trattamenti) non è possibile avere campioni sufficientemente numerosi per evitare errori beta di notevole entità In tali casi trovano indicazione i test di ipotesi non parametrici, come il test di MannWhitney. Nulla cambia nella fase iniziale di preparazione allo studio, ma al momento di valutare i risultati ottenuti, vengono applicati ragionamenti totalmente diversi e solo apparentemente grossolani. Siano questi i valori di clearance renale in 5 nefropatici a dieta corretta e in 5 nefropatici a dieta scorretta: Dieta corretta 110 90 100 95 105 Dieta scorretta 50 70 60 55 65 Con solamente 5 misure, certamente le due distribuzioni non sono Gaussiane. Il ragionamento di Mann-Whitney è stato molto semplice: Ipotesi da valutare: “i valori delle clearance nei pazienti con diete diverse sono differenti?” Se sì, si accetta l’ipotesi alternativa. In tal caso ci si aspetta che nel gruppo a dieta scorretta si registrino tutti i valori più bassi Se no, si accetta l’ipotesi nulla. In tal caso ci si aspetta che nel gruppo a dieta scorretta si registrino sia valori bassi che valori alti, in modo, appunto, del tutto disordinato e casuale. Nella figura sottostante è schematizzato il “meccanismo del test”: Se tra i due gruppi vi è una differenza ed è s.s. è verosimile che nel gruppo A si trovino tutte le misure più grandi e nel B le più piccole o viceversa A B Se invece vi fosse una differenza, ma tanto piccola da non esser significativa, si potrebbe avere una situazione di questo tipo, con misure grandi e piccole distribuite a caso nei due gruppi: A B 44 Per eseguire il test si valuta quali siano le misure maggiori mettendole tutte in fila in ordine crescente 110 105 100 95 90 70 65 60 55 50 Misura massima Appena più piccola E così via…… Rango 1 Rango 2 Rango 3 Rango 4 Rango 5 Rango 6 Rango 7 Rango 8 Rango 9 Rango 10 Misura minima Si verifica il rango delle misure appartenenti ai due gruppi Ranghi dieta corretta Dieta corretta Dieta scorretta Ranghi dieta scorretta 1 5 3 4 2 110 90 100 95 105 10 6 8 9 7 50 70 60 55 65 Effettivamente le diete scorrette sono quelle che hanno i ranghi di più basso ordine (da 6 a 10), quindi si ha l’impressione che la dieta scorretta sia nociva. Occorre ora trovare uno “strumento di misura” per valutare se tale differenza sia dovuta al campionamento con probabilità>0.05. L’Autore ha risolto il problema con questo test che viene detto anche “test della somma dei ranghi”, sommando tra loro i ranghi osservati nei due gruppi in esame. Somma dei ranghi Ranghi dieta corretta 1 5 3 4 2 15 Dieta corretta Dieta scorretta 110 90 100 95 105 50 70 60 55 65 Ranghi dieta scorretta 10 6 8 9 7 40 Questa è la situazione osservata del nostro esempio. Quante diverse combinazioni di questi 10 ranghi sarebbero teoricamente possibili (situazione attesa)? È sufficiente valutare i possibili ranghi di uno dei due gruppi (se gli effettivi sono diversi, si sceglie il gruppo meno numeroso) 45 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ……. 6 Possibili ranghi dei componenti di un gruppo 2 3 4 5 2 3 4 6 2 3 4 7 2 3 4 8 2 3 4 9 2 3 4 10 2 3 5 6 2 3 5 7 2 3 5 8 2 3 5 9 2 3 5 10 2 4 5 6 2 4 5 7 2 4 5 8 2 4 5 9 2 4 5 10 ……. ……. ……. ……. 7 8 9 10 E così via per tutte le possibili combinazioni, che saranno Somma dei ranghi 15 16 17 18 19 20 17 18 19 20 21 18 19 20 21 22 ……. 40 10! 232 5!5! I possibili valori di somma dei ranghi si distribuiscono in questo modo. 46 Ovviamente l’area dell’istogramma comprende il 100% dei possibili valori di somma dei ranghi e vale 1=100% di probabilità. Si identificano due valori critici della funzione discriminante, che sono i 2 punti (simmetrici rispetto alla media) dai quali si possono innalzare le perpendicolari all’asse delle x per delimitare un’area di istogramma pari al 95% del totale. Se la somma dei ranghi ottenuta è superiore o inferiore ai valori critici, la probabilità che una tale combinazione si verifichi per caso è < 0,05, quindi si puo’ accettare l’ipotesi alternativa. Ovviamente nei computer i valori critici sono già memorizzati per tutti i vari effettivi dei due campioni. Questo metodo non è da considerarsi grossolano o meno valido dei test parametrici per vari motivi: per campioni di effettivo >8, la distribuzione sopra indicata approssima molto bene a una curva di Gauss standardizzata in cui il valore di z si calcola nel modo seguente: zT T n A nA nB 1/ 2 nA nB nA nB 1 12 per cui il test è s.s. quando zT>1,96 o zT <-1,96. non spaventi la formula: è calcolata in base ai possibili valori dei ranghi per due gruppi di nA e di nB misure… ed è comunque un algoritmo inserito nei comuni software, non va certo calcolata di volta in volta!!! il test in sé è abbastanza conservativo, quindi riduce il rischio di errore alfa spesso le misure di cui si dispone in medicina sono di base un po’ grossolane e approssimative, scarsamente riproducibili… è forse errore più grossolano partire da misure di questo approssimative per arrampicarsi su complessi modelli matematici, che non utilizzare un test non parametrico. CONTROINDICAZIONI ALL’IMPIEGO DEL TEST Numerosità veramente risibile, cioè <7 misure divise in due gruppi Presenza di molte misure uguali tra loro nei gruppi, per cui diventa problematica l’assegnazione di tanti ranghi uguali tra loro (il test si basa su una statistica semiqualitativa) 47 test non parametrico per confronti di >2 gruppi di misure non appaiate: test di Kruskall-Wallis. Consente di rimediare ai problemi che sorgono quando non è possibile avere campioni numerosi. Immaginiamo di avere tre gruppi di misure di pazienti sottoposti a tre tipi di ipoglicemizzanti e di dosare l’emoglobina glicosilata: Gruppo A 6 7,1 8 8,5 9 GRUPPO B 7,2 7,9 8,2 8,8 7 Gruppo C 10 9,8 9,9 8,9 8,7 Al solito, si assegna un rango al pool delle misure. Misure 6 7 7,1 7,2 7,9 8 8,2 8,5 8,7 8,8 8,9 9 9,8 9,9 10 Ranghi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 48 Si inseriscono i ranghi al posto della misure osservazionali nei rispettivi gruppi, se ne fa la somma e poi la media aritmetica. Gruppo A Misure Ranghi 6 1 7,1 3 8 6 8,5 8 9 12 Media dei ranghi =30/5=6 GRUPPO B Misure Ranghi 7,2 4 7,9 5 8,2 7 8,8 10 7 2 Media dei ranghi =28/5=4,67 Gruppo C Misure Ranghi 10 15 9,8 13 9,9 14 8,9 11 8,7 9 Media dei ranghi =62/5=12,4 Si calcola il rango medio generale, che sarà: 1+2+3+4+5+6+7+8+9+10+11+12+13+14+15/15=8 Mimando un po’ quanto si fa nel calcolo della devianza TRA nell’ANOVA, si calcola la somma delle devianze di ogni gruppo dal rango medio generale calcolando gli scarti al quadrato del rango medio di gruppo dal rango medio generale moltiplicando tali scarti per gli effettivi di gruppo. D=5(6-8)2+5(4,67-8)2+5(12,4-8)2=20+33,3+96,8=150,1 Tale valore di D puo’ esser considerato grande o piccolo: dipende da quante misure sono state effettuate in tutto. Se si trattasse di 1000 misure (quindi con 1000 diversi ranghi) un valore di 150.1 potrebbe esser considerato piccolo. Nel caso in esame, con 15 ranghi in tutto…appare una grande differenza. Kruskall Wallis individuò il sistema per rendere misurabile tale valore D, correggendolo in funzione del numero di misure effettuate secondo la formula sotto indicata, ove N è il numero totale di misure: H= D/N(N+1)/12 Nell’esempio presentato, H = 150,1 / 20 = 7,505 L’altra grande intuizione dell’autore consiste nell’essersi reso conto che, così modificato, il 2 valore D segue la distrib per un numero di gradi di libertà = k-1, cioè al numero di gruppi meno uno. 2 uguali. tabulato, si potrà dire che i tre gruppi non sono Il test, analogamente all’ANOVA, dice soltanto che la differenza fra i 3 o più gruppi di pazienti è improbabile che si sia verificata per caso. Se, come sempre accade, si vuole verificare tra quali gruppi vi è la differenza maggiormente significativa, si puo’ applicare il Mann-Witeny per confronti multipli con correzione di Bonferroni. CONTROINDICAZIONI ALL’IMPIEGO DEL TEST 49 Quando si verificano troppe misure simili per problemi di assegnazione dei ranghi Quando la numerosità totale sia inferiore a 15 per tre gruppi. 50 Riassumendo, quando si debba verificare il diverso effetto di due o più terapie (dati non appaiati) su parametri espressi in scala di misura, occorre: A PRIORI Impostare il quesito (ipotesi nulla e ipotesi alternativa) Valutare la differenza definita come clinicamente significativa, l’errore alfa e l’errore beta che si accetta (potenza dello studio) Calcolare il numero minimo di soggetti da campionare Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione clinica, età…) Ottenere il consenso informato dai pazienti selezionati Assegnare in modo randomizzato e, ove possibile, in doppio cieco, i vari trattamenti Effettuare le misure A POSTERIORI Verificare se le misure seguano o meno una distribuzione simil-gaussiana Verificare se le varianze dei gruppi di misure sonoo meno omoschedastiche Studio per dati non appaiati 2 gruppi >2 gruppi Misure in distribuzione similgaussiana omoschedastiche t di student per dati non appaiati Anova fattoriale Misure in distribuzione non similgaussiana eteroschedastiche Mann-Witney U test Kruskall-Wallis H test 51 Capitolo 3: Differenze s.s. tra misure nella stessa popolazione in tempi differenti (appaiate) Molto spesso in medicina si devono risolvere problemi di questo tipo: valutare se dopo un qualsiasi trattamento (farmacologico, chirurgico, psicologico…) le condizioni di un paziente, misurate con certi indicatori di esito (giorni di convalescenza, riduzione della glicemia…) migliorano o no. Qualora migliorino occorre misurare con quale probabilità questo possa essersi verificato per puro caso, dato che solo con p<0.05 ci si potrà azzardare a imputare il miglioramento al trattamento eseguito. Viene qui schematizzato il tipo di studio: Tempo 0 Fine trattamento In questo caso si potrebbe prendere come indicatore di effetto della terapia la riduzione in altezza di un qualche indicatore (qui simboleggiata come riduzione in altezza degli ometti) e verificare se quel singolo ometto che si trova in fila al n°6 e che è stato dipinto di bianco sia diminuito o meno dopo trattamento. Lo stesso si fa per i 5 ometti che precedono nella fila e per tutti quelli che seguono. In questo senso di parla di “appaiamento”. 52 T di Student per dati appaiati In questo tipo di studi anche in perfetta buonafede il ricercatore potrebbe scegliere per il trattamento persone che sarebbero comunque guarite (o migliorate), anche senza alcuna terapia. Lo schema di studio per dati appaiati, peraltro, è sotto certi aspetti più corretto di quello per dati non appaiati, perché il test viene eseguito sulla medesima popolazione a distanza di tempo ( quindi si rimedia al problema di eventuali eteroschedasticità). Non si puo’ pensare che sia immune dal rischio che eventuali differenze vengano riscontrate per puro caso a seguito del campionamento. In questo tipo di studio i 500 pazienti misurati sono sempre gli stessi, ma vengono misurati in due tempi diversi: prima e dopo la cura. Immaginiamo che somministrando un farmaco supposto diuretico a 500 pazienti si verifichi quanto indicato nella figura sottostante. La curva continua indica la distribuzione delle diuresi prima dell’assunzione del farmaco, la curva tratteggiata indica le diuresi degli stessi 500 pazienti dopo aver assunto il farmaco. Prima Dopo Guardando i valori medi (apici delle curve), il farmaco pare efficace, ma se si osserva la base delle due curve, sorgono alcuni dubbi. Alcune diuresi registrate prima di prendere il diuretico sono superiori a quelle registrate il giorno seguente, dopo aver assunto il diuretico. Non si deve dimenticare che le 500 persone sono sempre le stesse: quello che conta è soprattutto se i vari individui hanno visto aumentare la loro diuresi. Nella figura seguente la misura segnata con asterisco*, appartenente ad un qualunque paziente, potrebbe appartenere alla popolazione “prima” o “dopo” la cura, ma non significa che il diuretico non funziona: quello che si deve valutare è se quella misura * il giorno dopo si è spostata nella posizione con due asterischi**. Nel caso sottoindicato, vorrebbe dire che la diuresi è aumentata, se 53 il doppio asterisco** coincidesse con l’asterisco semplice* sarebbe invariata, se fosse addirittura più vicino all’asse delle y sarebbe diminuita. Prima Dopo * ** Ciò che si deve valutare è la differenza (lo scarto, la distanza…) tra le misure prima e dopo in ogni paziente, definita come d. Dall'insieme delle 500 differenze si puo' stimare una media campionaria della differenza di diuresi indotta dal farmaco. Poniamo che tale media sia 600cc., con errore standard di 30cc. Valori registrati prima Valori registrati dopo Differenze tra i valori prima e dopo caso per caso Media = 500 Media = 1200 Media = 600 Errore standard = 30 Teoricamente: se il farmaco non funzionasse tale media degli scarti “d” dovrebbe tendere a 0 (alcuni urinerebbero di più, altri di meno in modo del tutto casuale). se il farmaco funzionasse (in senso diuretico o antidiuretico) tale media di d dovrebbe esse ben diverso a 0 (tutti o quasi urinerebbero di più o tutti di meno) La media delle differenze potrebbe ugualmente esser diversa da 0 se si fosse scelto per caso un campione di 500 persone che comunque avrebbero urinato un po’ di più il giorno seguente. Per ovviare a tale errore si sottrae alla media di d la differenza tra le medie delle diuresi prima e dopo l’assunzione del farmaco. Tale valore deve restare diverso da 0. Per decidere se una differenza è s.s. è necessario per prima cosa: misurare questa differenza, il che significa 54 calcolarla considerando che se la differenza è<0 il farmaco riduce la diuresi , mentre se è >0 il farmaco aumenta la diuresi paragonarla, rapportarla ad una unità di misura. Il metro utilizzato per tale rapporto non è altro che l'errore standard della predetta media stimata delle differenze di diuresi nei vari casi. t d mp md d.s.d n valutare se la misura di tale differenza è tanto grande da rendere improbabile(p<0,05) il fatto che si sia potuta verificare per caso. Per questo motivo si utilizza la curva di student. Come al solito, si paragona il valore uscito dalla formula con i valori critici della funzione discriminante, cioè quei valori che si verificano per caso con una probabilità <0,05 (anche per dati appaiati, il test va usato nella stragrande maggioranza dei casi a due “code”). I valori di t sono diversi a seconda dei gradi di libertà. Non è difficile calcolarli: si è lavorato sulla stima della media di 500 differenze. I dati sono stati utilizzati per una sola stima, quindi i gradi di libertà saranno n-1=499 CONTROINDICAZIONI ALL’UTILIZZO DEL TEST Anormalità distributiva delle misure, soprattutto per distribuzioni estremamente asimmetriche j. Osservando il numeratore, si rileva che si va a misurare la differenza tra due medie. È ormai noto che soltanto per distribuzioni di tipo normale, non troppo asimmetriche , la media è un indicatore di tendenza centrale migliore della mediana. Se la distribuzione fosse troppo asimmetrica, la nostra stima sarebbe molto poco affidabile. Come sarebbe poi la stima della differenza tra queste due medie poco affidabili? k. È stato dimostrato su base matematica con simulazioni che quando la numerosità dei campioni è almeno >30 (secondo altri autori >100), il vincolo della normalità diventa meno importante. Numerosità insufficiente puo’ esser causa di errore beta. Anche in questo, come precedentemente visto, la numerosità minima indispensabile è calcolabile a priori con il solito metodo. 55 ANOVA per misure ripetute Quando i confronti siano più di due non è opportuno utilizzare il t di student per i soliti problemi di inflazione dell’errore alfa e conviene usare l’anova per misure ripetute. PRIMA DELLA CURA DOPO 6 MESI DOPO 1 MESE Occorre rispettare l’appaiamento dei dati, quindi seguire, soggetto per soggetto, (ad es. l’ometto grigio, l’ ometto bianco e l’ometto pendente) i vari cambiamenti. Non avrebbe senso in questo tipo di studio valutare semplicemente la distanza tra le medie dei tre tempi nei quali si fa la rilevazione, perché quello che interessa è come mutino i valori dei singoli individui, analogamente a quanto si fa nel t di student per dati appaiati: non si calcola la differenza fra le medie delle due rilevazioni, ma si fa la media delle differenze riscontrate soggetto per soggetto. Nell’anova il confronto non viene effettuato tra le medie ma tra le varianze e nell’anova per dati appaiati non si valuta il rapporto tra varianza intra e varianza tra ma il rapporto esistente tra la varianza spiegabile con il trattamento e la varianza residua (nell’ambito della varianza intra totale. Varianza intra, perché in questo disegno di studio vi è un solo gruppo). Quanto più la varianza spiegabile con il trattamento diventa maggiore della varianza residua, tanto più ci si avvicina alla significatività statistica dell’efficacia del trattamento. Sarebbe bello poter dare una spiegazione almeno a livello intuitivo di come funziona questo test. I matematici sconsigliano di farlo perché in questo caso lo sforzo di semplificare le cose potrebbe portare a scrivere delle corbellerie. Ricordiamo che ad Einstein venne chiesto di spiegare la teoria della relatività con parole semplici (ed Einstein la conosceva bene questa teoria). Egli rispose che non poteva farlo 56 adducendo questa giustificazione: una cosa semplice, come la ricetta per la torta di mele, è possibile spiegarla soltanto a una persona che già conosca le mele, la farina, le uova, il lievito e lo zucchero…. Ci si limita come F qui soltanto a dire che in questo test la F di Fisher si calcola var ianza spiegata var ianzaINTRAtrattamento var ianzaINTRAresidua var ianza nonspiegata se F=1, significa che VARIANZA TRATTAMENTO = VARIANZA RESIDUA, quindi la varianza nel tempo concorre soltanto per il 50% a formare la varianza totale del fenomeno (troppo poco per poter affermare che le misure non sono uguali tra loro soltanto per effetto del trattamento). Se F<1, significa che VARIANZA TRATTAMENTO < VARIANZA RESIDUA, quindi la varianza nel tempo concorre soltanto per meno del 50% a formare la varianza totale del fenomeno (è quindi decisamente poco influente rispetto alla variabilità casuale del fenomeno). Se F>1, significa che VARIANZA TRATTAMENTO > VARIANZA RESIDUA, quindi la varianza nel tempo concorre per più del 50% a formare la varianza totale del fenomeno (quindi l’efficacia del trattamento è decisamente più importante rispetto alla variabilità casuale del fenomeno). Quanto più grande è il valore di F, tanto più questo è vero. Quanto più grande è il valore di F, tanto più improbabile è che le differenze riscontrate siano imputabili al caso, cioè che siano effetto del campionamento, più che del trattamento. Anche Fisher, come Gosset prima di lui, ha predisposto uno “strumento di misura” che è la distribuzione di probabilità F di Fisher, da questo punto in poi, tutto segue la via già precedentemente descritta. 57 Test di Wilcoxon o della somma dei ranghi con segno La numerosità dei campioni è uno dei fattori decisivi per l’attendibilità di un test statistico. Spesso sorge il problema di non avere possibilità di casistiche sufficientemente numerose, ad esempio nel caso di malattie o di esposizioni poco frequenti, di terapie a livello di iniziale sperimentazione ecc. In tale caso trovano applicazione i test non parametrici. Il test di Wilcoxon è l’equivalente non parametrico del test di student per dati appaiati. Immaginiamo di aver somministrato un nuovo tipo di blando diuretico (o supposto tale) a sei pazienti e di verificare dopo terapia i suoi effetti sulla diuresi degli stessi soggetti. Ecco i risultati: Rossi Neri Bianchi Verdi Viola Grigioni Prima della terapia 1000 1380 1200 900 1000 890 Dopo la terapia 1400 1600 1180 1220 1000 1900 In modo analogo al t di student o all’anova per misure ripetute, l’attenzione va puntata paziente per paziente sulle modificazioni indotte della terapia, indicate nella colonna (differenze) Rossi Neri Bianchi Verdi Viola Grigioni Prima della terapia 1000 1380 1200 900 1000 890 Dopo la terapia 1400 1600 1180 1220 1000 1900 +400 +220 -20 +320 0 +1010 Ci si trova di fronte a delle variazioni che posson avere due caratteristiche: esser positive o negative esser grandi o piccole è importante valutare se un paziente ha urinato di più o di meno, ma è altrettanto importante valutare se ha urinato molto o poco di più. Per salvare ambedue le informazioni nel sistema dei ranghi, si assegna il rango al valore assoluto di , poi si rimette il segno di competenza e si fa la somma algebrica dei ranghi di Rossi Neri Bianchi Verdi Viola Grigioni Rango in valore assoluto +400 5 +220 6 -20 1 +320 4 0 2 +1010 3 Somma algebrica dei ranghi con segno Rango finale con segno +5 +6 -1 +4 -2 +3 +15 58 Ci si pone poi il quesito dei valori teoricamente possibili: tutti potevano urinare di più, questo darebbe conferma che il farmaco è effettivamente diuretico; in tal caso la somma dei ranghi con segno sarebbe stata +18. Tutti potevano urinare di meno, questo darebbe conferma che il farmaco è efficace, ma come antidiuretico; in tal caso la somma dei ranghi con segno sarebbe stata -18. Entro tali estremi, tutte le combinazioni sono possibili (ad es. che un paziente urini di più e 5 urinino di meno: somma dei ranghi con segno =-17…. Si calcolano via via tutte le possibili e prevedibili somme dei ranghi con segno): Rango 1 + + + … Rango 2 + + … Rango 3 + … Rango 4 + … Rango 5 + … Rango 6 + … Somma algebrica +18 -18 -17 -15 … - - - - - - -18 Riportando i valori su di un asse cartesiano di ottiene la seguente distribuzione di frequenza. Ovviamente l’area dell’istogramma sottostante rappresenta il 100% dei valori possibili. 6 5 4 3 2 1 0 0 ,0 19 0 ,0 15 0 ,0 11 00 7, 00 3, 0 ,0 -1 0 ,0 -5 0 ,0 -9 00 3, -1 00 7, -1 00 1, -2 somme dei ranghi con segno Al solito si individuano i due punti critici che delimitano alle estremità il 2,5% di tale area. Se la somma dei ranghi con segno è, in valore assoluto, superiore a tali valori, la probabilità che l’evento si sia verificato per caso è piccola, <0,05, tanto piccola da poter accettare l’ipotesi alternativa salvo errore alfa <0,05. 59 Anche in questo caso, per campioni numerosi la spezzata di cui sopra assomiglia a una curva di Gauss standardizzata avente i seguenti valori: zW Ove: W nn 12n 1/ 6 W è la somma dei ranghi con segno n è il numero di soggetti esaminati E il test segue la normale standardizzata diventando s.s. quando zW<-1,96 e zW >1,96 CONTROINDICAZIONI ALL’USO DEL TEST Numerosità veramente piccola, cioè <6 coppie di dati Molte misure uguali tra loro nei gruppi, per cui diventa problematica l’assegnazione di tanti ranghi uguali tra loro (il test si basa su una statistica semiqualitativa) test di Friedman Qualora si ponesse il problema di confronti multipli in tempi diversi, si utilizza l’equivalente dell’ANOVA per misure ripetute, cioè il 2 di Friedman: Supponiamo di seguire 5 pazienti affetti da obesità grave controllandone il peso ogni tre mesi. Rossi Bianchi Verdi Neri Viola Prima della cura 120 180 190 160 150 Tre mesi dopo 110 150 170 140 135 Sei mesi dopo 100 120 180 135 110 Ciò che interessa è valutare l’andamento del peso nei singoli pazienti nel tempo. Pertanto, riga per riga, si valutano i ranghi delle misure nel tempo per ogni singolo paziente : Rossi Bianchi Verdi Neri Viola Prima della Misure 120 180 190 160 150 cura Ranghi 3 3 3 3 3 Tre mesi dopo Misure Ranghi 110 2 150 2 170 1 140 2 135 2 Sei mesi dopo Misure Ranghi 100 1 120 1 180 2 135 1 110 1 Quasi tutti i pazienti sono dimagriti nel tempo, tranne Verdi che dopo n iniziale calo ha ripreso peso. Si procede quindi a sommare i ranghi registrati nei vari momenti. Se la terapia dimagrante funzionasse sempre, al tempo 0 dovremmo avere la somma maggiore e poi, via via, somme sempre minori, di pari passo con la diminuzione dei pesi dei pazienti. 60 Rossi Bianchi Verdi Neri Viola SOMME DEI RANGHI Ranghi prima della cura 3 3 3 3 3 15 Ranghi tre mesi dopo 2 2 1 2 2 9 Ranghi sei mesi dopo 1 1 2 1 1 6 Se invece la terapia non avesse nessun effetto, le somme dei ranghi dovrebbero esser tutte simili, non ci dovrebbe esser variazione di peso nei tre tempi, quindi i ranghi assegnati nel caso che Rossi fosse sempre 120 Kg., 120 Kg. e 120 Kg. sarebbe sempre 1… da dividere tra 3 misurazioni. In ogni casella verrebbe quindi assegnato rango 1/3 = 0,3333. e lo stesso dovrebbe accadere per gli altri pazienti. La somma dei ranghi nelle varie colonne sarebbe pertanto sempre uguale a 1,667 (1,667=0,33 5). Si costruisce a questo punto una tabella simile a una tavola di contingenza. Ranghi prima della cura Ranghi tre mesi dopo Ranghi sei mesi dopo 15 9 6 1,667 1,667 1,667 Somma dei ranghi osservati Somma dei ranghi osservati se il trattamento non avesse il minimo effetto Si effettua la sommatoria delle differenze tra valori osservati e valori attesi al quadrato dei 3 diversi tempi (qualcosa di simile al 2 di Pearson). Si ottiene questo valore D: D=(15-1,667) 2+(9-1,667) 2+(6-1,667) 2=177,769+53,773+18,775=250,1689 Si ripete il discorso già visto per il Kruskall-Wallis. Per rendere paragonabile il valore di “D”, bisogna dividere per un fattore di correzione, come illustrato nella formula sottoscritta. Il numero dei pazienti è n, mentre k è il numero delle osservazioni. 2 Friedman D n k k 1 12 Nel nostro esempio, quindi, si avrebbe un 2Friedman =250,1689/5=50,033 A questo punto, in modo del tutto analogo a quanto già visto per il test di Kruskall Wallis, si confronta il valore ottenuto con una distribuzione del 2 per k-1 gradi di libertà (ove k è il numero di misurazioni effettuate nel tempo). Se, come sempre accade, si vuole verificare tra quali momenti vi è la differenza maggiormente significativa, si puo’ applicare il Wilcoxon per confronti multipli con correzione di Bonferroni. CONTROINDICAZIONI AL’IMPIEGO DEL TEST Le stesse del test di Kruskall Wallis. 61 Riassumendo, quando si debba verificare l’effetto di una terapia in momenti diversi (dati appaiati) su parametri espressi in scala di misura, occorre: A PRIORI Impostare il quesito (ipotesi nulla e ipotesi alternativa) Valutare la differenza definita come clinicamente significativa, l’errore alfa e l’errore beta che si accetta (potenza dello studio) Calcolare il numero minimo di soggetti da campionare Decidere i criteri di inclusione e di esclusione dallo studio (eccessiva gravità della situazione clinica, età…) Ottenere il consenso informato dai pazienti selezionati Effettuare le misure prima e dopo la terapia A POSTERIORI Verificare se le misure seguano o meno una distribuzione simil-gaussiana Verificare se le varianze dei gruppi di misure sono o meno omoschedastiche Studio per dati appaiati 2 gruppi >2 gruppi Misure in distribuzione similgaussiana omoschedastiche t di student per dati appaiati Anova per misure ripetute Misure in distribuzione non similgaussiana eteroschedastiche Wilcoxon W test 2 di Friedmann 62 RIASSUMENDO Ogni volta che un medico voglia verificare se due o più popolazioni sono uguali o diverse, se due o più trattamenti hanno uguale o diversa efficacia occorre esaminare con attenzione Il tipo di studio Il numero di gruppi considerati La natura dei dati considerati La distribuzione dei dati di misura considerati Dati appaiati Dati non appaiati =2 >2 Scala nominale o ordinale Scala di misura Simil-gaussiana Non gaussiana Quindi si puo’ utilizzare questo schema riassuntivo: Natura dei dati Tipo di studio Scala nominale o ordinale Non appaiato Distribuzione Appaiato Similgaussiana Non appaiato Scala di misura Non gaussiana Similgaussiana Appaiato Non gaussiana 1. 2. 3. 4. Numero gruppi 2 >2 Chi quadro Pearson Tavola di Test esatto Fisher 3 contingenza Chi quadro per Chi quadro Mc Nemar trend T di student dati non Anova fattoriale appaiati Mann Witney1 T di student dati appaitai Wilcoxon 2 Kruskall Wallis 4 Anova per misure ripetute Chi quadro di Friedman 4 Almeno 7 misure almeno 6 coppie di dati quando vi siano valori attesi <5 sono test molto liberali: le conclusioni vanno valutate con attenzione. Il problema più grande e pressocchè irrisolvibile resta quello della numerosità dei campioni. Esistono ora una serie di test della statistica con parametrica che consentono di ottenere delle significatività anche con numeri relativamente bassi. In alcuni casi le loro formule sono calibrate in modo da risultare più restrittivi (Mann-Witney e Wilcoxon), in altri casi questo non si è ancora riusciti ad ottnerlo (Friedman e Kruskall-Wallis). Occorre sapere queste cose per evitare di essere sviati da informazioni che si rivelino poi fallaci. Tutti i medici tendono a dire che vi sono malattie tanto rare che non raggiungeranno mai la numerosità necessaria per la distribuzione di Gauss e che non per questo la ricerca si puo’ fermare. Tutti i matematici diranno che piuttosto che informazioni false… meglio nessuna informazione. Sarebbe il caso di dire: ai posteri l’ardua sentenza. Per ora è forse giusto compromesso: sforzarsi di misurare fenomeni non semplici perché questo spesso vuole dire arrivare a conoscerli meglio (chissà quanti errori nei primi dosaggi delle glicemia…. Però la cura del diabete ha fatto passi da gigante) 63 saper riconoscere il reale valore dei test statistici usati, la loro condizione di applicabilità, la loro liberalità in modo da saper dare il giusto peso alle informazioni provenienti dalla letteratura medica (il lato “negativo” di questo sta nel fatto che è necessario studiare oltre alla medicina anche i principi basilari della statistica medica)! 64 CAPITOLO 4 - I TEST DI RELAZIONE Rispondono alle domande “che rapporto c’è fra la dose di farmaco somministrato (es. insulina)…e un certo risultato clinico espresso co una misura (es. glicemia)? “che rapporto c’è fra la concentrazione di colesterolo ematico di un paziente …e la quantità d grassi che introduce con la dieta?” Si possono utilizzare in studi trasversali Le risposte stanno nei test che valutano l’associazione tra due o più misure di una stessa popolazione i uno stesso momento. Tali test sono: • Test di Correlazione si utilizza per verificare che esista una relazione matematica tra l’insiem di alcune misure e l’insieme di altre misure prese nei medesimi soggetti (salvo errori alfa beta) • Test di Regressione si usa per stabilire se tra due grandezze misurate nei medesimi soggetti esiste una relazione matematica lineare in modo da poter calcolare come varia una grandezza (variabile dipendente) al variare unitario dell’altra (variabile indipendente). Unitario significa che si valuta di quanto aumenta o diminuisce una variabile per ogni variazione di una unità dell’altra: es. 1 mg.di un composto a base di ferro iniettato endovena di quanti grammi fa aumentare l’Hbemia nel paziente? I due test sono differenti ma strettamente collegati l’uno all’altro: è impossibile o comunque concettualment sbagliato tracciare una retta di regressione tra variabili che non siano tra loro correlate. Per semplificare le cose, si consideri un caso di correlazione-regressione lineare tra la dose di diuretico assunta il n° di cc. di urina prodotti in un giorno. Dato un campione di persone abbia fornito il consenso informato a sperimentare il farmaco, • si somministrano dosi diverse di farmaco diuretico (sempre sotto la dose tossica) a divers persone • si dosa dopo un giorno la diuresi (volume di urina prodotto in un giorno) a tutti i pazienti. In un asse cartesiano si disegna una serie di punti aventi per coordinate • x i dosaggi del farmaco (variabile indipendente) • y si riportano i valori di diuresi (variabile indipendente) Si otterrà una serie di punti “sperimentali” con coordinate (x,y= dosaggio,diuresi) chiamato diagramma d dispersione. Per semplicità di rappresentazione, vengono riportati qui di seguito soltanto 9 casi (ma sarebbe corretto avern molti molti di più) 65 Diuresi . . . 0 . . . . . . . Dosaggi Con la sola eccezione del punto in fondo a destra, pare verosimile che al crescere dei dosaggi d farmaco cresca la diuresi. Verrebbe istintivo interpolare una retta tra quei punti sperimentali. quello che si fa effettuando una regressione. Il termine regressione fu coniato da Sir Francis Galton (1822-1911) che rilevò in ampi campioni di popolazione londinese dell’epoca che l’altezza dei figli non era direttamente proporzionale all’altezza dei padri, come si sarebbe aspettato. Capitava che padri più alti della media della popolazione avessero figli maschi più bassi della media e viceversa. Pertanto dimostrò (o meglio cercò di dimostrare) che le altezze dei figli regredivano verso la media delle altezze dei patri. Alla luce delle conoscenze di oggi, questo studio non ha senso (non si teneva contro tra l’altro del contributo del DNA femminile!), resta però valido il concetto che la regressione verso la media si basa su principi matematici di “restrizione” della media universale tra una media a priori e una stima di massima verosimiglianza delle varie possibili medie campionarie, che puo' esser spiegato in modo intuitivo così: Si immagini per assurdo di conoscere la vera media universale dell’altezza di tutti i 10000 maschi adulti di una città (poniamo che tale media sia cm. 170) • Misurando un campione piccolo, di sole 50 persone, per i noti fenomeni di possibile errore di stima, la media del campione potrebbe esser anche molto diversa (poniamo uguale a 150 cm.) • Misurando man mano una, due, tre…. persone in più, la nuova media è probabile che cresca, cioè si avvicini sempre più a cm. 170. Sicuramente una volta che si siano misurati tutti i 1000 soggetti, annullandosi l’errore di stima, la nuova media coinciderà con la media universale di 170 cm. • Si potrebbe dire che la media campionaria, man mano che aumenta il campione, tende a “regredire” verso 170 (che è la media universale), invece di dire che tende ad “avvicinarsi” a 170. 66 Il concetto che resta valido di tutto lo studio di Galton è il fatto che, aumentando la numerosità campionaria, relazioni ipotizzate come valide possono non verificarsi e viceversa. Occorre quindi sempre confrontare la retta che si pensa identifichi una certa relazione (ipotesi alternativa) con la retta di regressione verso la media (ipotesi nulla). In altre parole occorre chiedersi se la relazione che dai dati sperimentali sembra ipotizzabile nel campione studiato è tanto stretta che è improbabile che si sia verificata soltanto per caso e soltanto in quel particolare campione. Attualmente il computer utilizzando un metodo matematico di largo impiego in varie problematiche (il metodo dei minimi quadrati), consente di interpolare fra i punti sperimentali dello studio la miglior retta interpolabile: Diuresi y . . . 0 . . . . . . . Dosaggi x La formula che rappresenta la retta, come si sa dagli studi liceali, è y=a+bx. In tutti i suoi punti la retta punteggiata obbedisce a questa funzione y=a-bx. Per miglior retta interpolabile si intende una retta tracciata in modo tale che la somma delle distanze (al quadrato) dei singoli punti sperimentali dalla retta interpolata y=a+bx sia la più piccola possibile (minima) I minimi quadrati vengono calcolati: Tracciando da ogni punto A, B, C, D…. le parallele all’asse y La misura dei segmenti ottenuti tra i punti A, B, C, D…. e l’intersezione con la retta viene elevata al quadrato Si calcola la somma dei vari quadrati (se non si elevassero le misure al quadrato… la somma al solito farebbe sempre 0 per la legge fondamentale della media) 67 Con questo metodo viene scelta sempre una retta, in modo tale che la somma dei quadrati delle distanze dei singoli punti dalla retta interpolata sia la più bassa possibile Il metodo tende a escludere i dati simili al punto L, che sembrano non obbedire alla funzione sopra indicata. Il metodo dei minimi quadrati è una funzione matematica che nulla conosce di medicina!!! Potrebbe accadere che la retta che meglio rappresenterebbe la realtà del fenomeno da un punto di vista biologico fosse una retta diversa da quella tracciata. Il fenomeno potrebbe esser meglio rappresentato da una retta che passa molto vicino a quel punto L che viene sottovalutato soltanto perché “matematicamente” disturba la relazione di una funzione lineare. Per questo motivo la regressione va sempre valutata con grandissima cautela e accertandosi sia della plausibilità biologica della ipotesi alternativa accettata sia dell’effetto di eventuali fattori confondenti. Diuresi y . A . . 0 F H . . . . . B D . C E G . I L Dosaggi x In medicina, dove si desidera conoscere il tipo di relazione reale esistente tra due o più variabili, è quasi più importante dell’andamento della retta il procedimento di fitting, necessario a capire se un certo modello matematico si adatta (it fits) a un fenomeno. Se la retta scelta non “fitta” con la realtà del fenomeno….tutto il lavoro successivo sarebbe perfettamente inutiile. Si consideri per ora la sola regressione lineare semplice, che sugli assi cartesiani si rappresenta con una retta. Ci si propone di capire quali siano i meccanismi più importanti tra quelli che possono regolare la variabilità di y al variare di x. Possono essere: errore statistico regressione verso la media rapporto di funzione lineare tra x e y. L'errore statistico esiste sempre…e per ora lo trascuriamo Il termine “regressione verso la media” significa che al crescere della numerosità campionaria le y tendono a regredire verso la loro media. Per verificare alla luce di questo dato di fatto se è possibile accettare l’ipotesi alternativa di una relazione matematica lineare tra le due variabili occorre procedere a una serie di calcoli sotto indicati. 68 Nella figura seguente la retta di regressione verso la media (quella parallela all’asse delle x rappresenta, semplicemente, l’ipotesi nulla: l’ipotesi che non vi siano relazioni matematiche della x in funzione di y… anzi per y medio qualunque valore di x è possibile, da + infinito a – infinito. diuresi . Ipotesi . . alternativa . . . . . . . . Ipotesi nulla .. . 0 dose farmaco Vi sono vari modi per decidere se è possibile rigettare l’ipotesi nulla e accettare invece l’ipotesi alternativa. Per verificare il modello di regressione-correlazione ben si adatti (it fits) ai nostri dati. Occorre considerare: l. distanza dei punti sperimentali dalla retta di regressione verso la media. Va misurata come somma degli scarti al quadrato dei punti dalla retta di regressione verso la media. Tali scarti vengono detti "deviazioni dalla media". La somma delle deviazioni dalla media elevate al quadrato rappresenta la devianza totale diuresi . . . . . . . deviazione . . 0 . . Ipotesi nulla .. . dose farmaco m. distanza dei punti sperimentali dalla retta della regressione (punteggiata) Va misurata come somma degli scarti al quadrato dei punti sperimentali dalla retta di regressione (punteggiata). Tali scarti vengono detti "residui". La somma di tali residui elevati al quadrato rappresenta la devianza non spiegabile con la relazione tra x e y. Come si è detto, il computer sceglie automaticamente di interpolare la retta che ha la somma di residui al quadrato minore, con il metodo dei "minimi quadrati" Ipotesi alternativa 69 diuresi . . . . . . residuo .. . . . . . . 0 dose farmaco La distanza dei punti della retta di regressione calcolata con i metodi dei minimi quadrati dalla retta di regressione verso la media (devianza spiegabile con la relazione tra x e y) Diuresi regressione verso media 0 Si puo’ valutare se il modello "fitta" Dosaggi deviazioni deviazioni residui 2 con il rapporto: 2 2 >0 e più vicino possibile a 1 Quanto più piccoli sono i residui e quindi la sommatoria dei loro quadrati, tanto più il rapporto si avvicina a 1 e il modello "fitta". D’altro canto le deviazioni devono essere >0, perché se fossero =0 la retta sarebbe parallela all’asse delle x e quindi si accetterebbe l’ipotesi nulla (<0, trattandosi di quadrati, non posson essere) Con il rapporto tra: var ianza spiegata var ianza inspiegata che deve essere superiore, in funzione dei gradi di libertà,al valore tabulato per il 95% della distribuzione di F di Fisher (le varianze si ottengono dalle rispettive devianze dividendo per i gradi di libertà). Quando questo rapporto ha una probabilità di verificarsi per caso p<0,05, di puo’ affermare che esista una correlazione salvo errore alfa<0,05. Per completezza, si citano qui anche altri due metodi il cui significato verrà meglio chiarito in seguito: 70 Con il rapporto tra : b e.s.b che deve essere compreso, in funzione dei gradi di libertà, entro i valori tabulati per il 95% della distribuzione di t di Student (b è il coefficiente angolare diviso per il suo errore standard) Con l’r2 opportunamente corretto per i fattori confondenti (e si vedrà in seguito cosa significa). Uno dei motivi più banali per i quali il fitting non riesce puo' essere che la variabile indipendente, invece di obbedire al modello: y a bx obbedisca al modello y a bx 2 , dando quindi origine a una parabola a , dando quindi origine a una iperbole x y Ecc. Nella retta di regressione y=a+bx si distingue: Diuresi y . A . . . . D . . F H 0 . C B . E G . I L Dosaggi x a, che è l'intercetta, cioè il valore che assume y quando x=0. Spesso in medicina l'intercetta è di secondario interesse, perché un medico non ha di solito alcun interesse a conoscere la diuresi media quando il dosaggio del farmaco è 0. b, che è il coefficiente angolare, cioè il seno dell'angolo che la retta forma con l'asse delle x e determina quindi l'inclinazione della retta rispetto all'asse delle ascisse. In medicina il coefficiente angolare è importantissimo, perché indica quanto rapidamente aumenta la diuresi all'incremento unitario di dosaggio del farmaco (indica quindi quanto è potente un farmaco). 71 Le rette di regressione in medicina sono soprattutto utilizzate come modelli matematici che si adattano più o meno bene a descrivere l'andamento dei fenomeni, non hanno il valore assoluto che possono avere in altre discipline. Per esempio: una retta interpolata tra punti sperimentali matematicamente indicherebbe che a dosaggio infinito di farmaco, corrisponde una diuresi infinita. Un dosaggio infinito di farmaco non è utilizzabile in medicina: invece che aumentare la diuresi farebbe morire il paziente per fenomeni tossici. Se anche non determinasse fenomeni tossici, si puo’ ipotizzare che oltre certi dosaggi, la diuresi non aumenti più con lo stesso coefficiente angolare o che addirittura diventi costante: Le rette di regressione non posson esser utilizzate per prevedere l’andamento di fenomeni oltre il campo dell’esplorato sperimentalmente. L’importanza di b, coefficiente angolare, la si comprende bene costruendo una retta di regressione tra calorie introdotte con la dieta e BMI negli esseri umani: BMI Calorie Se quella sopra-indicata è la pendenza corretta, significa che ogni centinaio di calorie in più introdotte con la dieta il BMI subisce un certo incremento. Se la pendenza fosse questa: BMI 72 Calorie Significherebbe che basta veramente introdurre una decina di calorie in più per avere discreti aumenti del BMI Con questa pendenza si desume che occorrono almeno 3000, 4000 calorie in più per avere un modico aumento di BMI: BMI Calorie Indipendentemente dalla vicinanza dei punti sperimentali alla retta tracciata (p<0,05) cambia molto il significato clinico della scoperta! Per un medico nelle rette di regressione interessa molto di più il coefficiente angolare che non l’intercetta (che a volte si puo’ anche escludere dal calcolo). Occorre inoltre osservare che: La retta prevederebbe una altezza per peso = 0 Kg., ma nessuno pesa 0 Kg. La retta prevederebbe una altezza per peso infinito, ma nessuno pesa infiniti Kg. La regressione, quindi è in medicina soprattutto un modello approsimato che serve a chiarire l'andamento dei fenomeni e, analogamente alla curva di Gauss, vien utilizzata nella parte centrale, ben lontana da . In Medicina è anche importantissimo il coefficiente di correlazione, che indica la relazione matematica (direttamente o inversamente proporzionale) esistente fra due variabili. È certamente vero che se la variabile x è legata da funzione matematica con la variabile y, anche y deve esser legato da funzione matematica con x! Se si considera la relazione di y in funzione di x, la formula per calcolare il fitting diventa: n deviazioni deviazioni residui y 2 2 2 y 2 i 1 n n 1 1 2 2 yi y yi a bx Mentre questa è la rappresentazione grafica: 73 Dosi y . . . . . . . . . . 0 Diuresi x Se si considera la relazione di x in funzione di y, la formula per il fitting diventerà: n deviazioni x 2 deviazioni residui 2 2 x 2 i 1 n n 1 1 2 2 xi x xi a by E la rappresentazione grafica sarà sicuramente un po’ diversa, così come il coefficiente angolare, perché non si tratta di una dipendenza diretta e univoca caso per caso, ma di una dipendenza “in media”: Dosi y . . . . . . . 0 . . . Diuresi x Il modo per indicare contemporaneamente la relazione dosi di farmaco-diuresi e diuresi-dosi di farmaco è il calcolo del coefficiente di correlazione di Pearson, detto r La formula classica del coefficiente di correlazione di Pearson è r codevianza : x y devianzatotale x x y y x x y y i i 2 i 2 , i che consente di rapportare il numeratore: cioè la sommatoria della codevianza di x e di y dalla retta di regressione calcolata il denominatore: che contiene la radice quadrata del prodotto delle devianze di x e di y dalle rispettive rette di regressione (devianze che si verificano contemporaneamente, ma disgiuntamente per le due variabili) Tutte le volte che si puo' tracciare una regressione lineare, si ha anche una correlazione lineare tra le due variabili. L’r di Pearson è utile per definire il verso della eventuale dipendenza 0>r>-1, indica una relazione inversamente proporzionale 0>r>+1, indica una relazione direttamente proporzionale. 74 Un altro indicatore estremamente importante è il coefficiente o indice di determinazione, che non è altro che il quadrato di r (se ne è parlato come di un metodo per valutare il fitting) r 2 x x yi y , xi x 2 yi y 2 2 i che esprime quanta parte della variabilità di y è spiegata dalla relazione lineare tra x e y. Ad es., r2=0,70 indica che il 70% della variabilità è dovuta al fatto che y varia in funzione di x, cioè y=f(x). Come si era accennato precedentemente, è uno dei più importanti indicatori della bontà del modello (fitting). Dal punto di vista di un medico una regressione che abbia una probabilità di ipotesi nulla <0,05, ma un r2<0,5 pone dei problemi interpretativi, perché indica che una relazione matematica c’è, ma che meno della metà della variabilità di y dipende da x. Un r2 basso pur con p<0,05 dà indicazione di una certa relazione, da valutare con cautela ed anche autocritica (non si sarà proceduto ad una selezione del campione con bias o non si starà valutando un campione troppo poco numeroso?) Se uno studio stabilisse che l’ipercolesterolemia dipende, con p<0,05, dal consumo di caffè e tale studio avesse un r2=0,15… indicherebbe che il caffè puo’ spiegare il 15% della variabilità della colesterolemia. E il restante 85%, da cosa verrebbe spiegato? La prima cosa da fare sarebbe chiedere ad uno statistico di correggere la formula per gli eventuali fattori di confondimento. In realtà è stato pubblicato uno studio di questo tipo in passato e le piantagioni di caffè stavano per andare in crisi. Il confondimento nacque dal fatto che gli Autori erano originari di paesi nordici e nei loro paesi bere caffè significava obbligatoriamente “correggerlo” con la panna. Si verificò successivamente che non il poco grasso vegetale del caffè, bensì il molto grasso animale della panna era il responsabile della “strana regressione”. Occorre sempre ricordare che, anche quando sia dimostrata una stretta correlazione tra due variabili, si tratta pur sempre di una relazione matematica, non si puo’ affermare con il solo ausilio della statistica che vi sia una relazione causa-effetto. Per affermare la relazione causa-effetto (che è responsabilità del ricercatore medico o biologo, non dello statistico, occorrono prove in vitro o in cavia, concordanza con altri studi, plausibilità biologica ecc. Numericamente r2 è semplicemente il quadrato del coefficiente di correlazione di Pearson, ma puo’ venire considerato anche da un altro punto di vista (che ricorda le osservazioni che stanno alla base del calcolo dell’ANOVA per misure ripetute). Questo calcolo si ritrova solitamente nei software più utilizzati. La variabilità complessiva della Y può essere spiegata in parte dall’andamento lineare (accostamento alla retta di regressione teoricamente ipotizzata) e in parte dalla variabilità residua (corrispondente agli errori di regressione). Dato che l’effettivo è costante, si considerino le semplici devianze e si scomponga la devianza totale in questo modo: Devianza totale di ogni valore Y dalla media di tutte le Y: somma degli scarti quadratici tra i valori osservati “A=yi” e la media della variabile Y Devianza di regressione o spiegata: somma degli scarti quadratici tra i valori teorici “Ateorico=Ŷ” , punto che giace sulla retta teorica ipotizzata e la media della variabile 75 Devianza residua: somma degli scarti quadratici tra i valori teorici “Ateorico=Ŷ” e i corrispondenti valori “A retta regressione media =Ŷ”, che giace sulla retta di regressione verso la media (ipotesi nulla) y y i yˆi 2 A yi yˆi y 2 Ateorico yˆi y DEVIANZA ERRORE y i y 2 DEVIANZA TOTALE A retta regressione media x xi Si puo’ quindi dire: DEVIANZA SPIEGATA devtotale dev spiegata deverrore n n n 1 1 1 2 2 2 yi y yi yˆ i yˆ i y L’indice o coefficiente di determinazione determina quanta parte della variabilità di y dipenda dalla correlazione in questo modo, che tiene conto del rapporto fra la devianza spiegata e la devianza residua in maniera del tutto analoga allla determinazione dell rischio attribuibile già visto nei capitoli precedenti: r2 devtotale devresidua devtotale Ovviamente si puo’ scrivere anche: r2 dev spiegata devtotale Non dovrebbe esser difficile comprendere che: r 2 1 indicherebbe che tutta la variabilità di y è imputabile alla correlazione (massimo di validità dell’ipotesi alternativa r 2 0,5 indicherebbe che la variabilità dovuta alla correlazione concorre solo per il 50% a determinare la variabilità totale (e occorre vedere i fattori confondenti) r 2 0 indicherebbe che la variabilità dovuta alla correlazione non concorre per nulla a determinare la variabilità totale (massimo di validità dell’ipotesi nulla) 76 il denominatore: devianza della regressione o de devianza della Quando si sia poi costruita una retta di regressione, non si deve dimenticare che i punti sperimentali, anche se molto numerosi, sono sempre un campione dell'universo. Ritorna qui il concetto di errore della stima. Esistono pertanto: 4. Errore standard di a 5. Errore standard di b 6. Errore standard di r Sia a che b che r devono esser calcolati con i loro limiti di confidenza al 95% o al 99%, che solitamente vengono forniti dai software statistici. Particolarmente importante per un medico è il coefficiente angolare b (che indica la pendenza della retta e, quindi, mostra quanto intensa sia la dipendenza di una variabile da quell’altra) e il suo errore standard. Quando quest’ultimo fosse troppo grande si inficerebbe la validità del modello (uno degli indicatori del fitting del modello è proprio il rapporto fra b e il suo errore standard). Alcuni software garantiscono anche la possibilità di “saggiare” funzioni matematiche diverse da quella lineare. In tal caso occorre osservare molto bene quale dei due modelli garantisca intervalli di confidenza più stretti GRAFICI ADA (F. LINEARE E F. CUBICA) CONTROINDICAZIONI ALL’USO Il test di correlazione ed ancor più la regressione sono basati su codevianze e devianze, quindi su medie. Non sono correttamente utilizzabili se la variabili allo studio non hanno distribuzione normale Inoltre verrebbe richiesto anche che ad ogni variazione unitaria di x la popolazione di possibili valori di y fosse in distribuzione normale ed omoschedastica con le popolazioni corrispondenti ai valori di x precedenti e successivi Numerosità minima indispensabile è calcolabile in funzione del valore di r che si ritiene necessario clinicamente. È sufficiente trovare che una variabile (aumento Hb) spiega la variabilità del 64% dell’altra variabile (terapia con ferro)? Significa che si richiede un r almeno uguale a 0.64 0.8 Qualcuno ha scoperto che la seguente formula, contenente il coefficiente r, è distribuita normalmente in una curva di Gauss con media 0= e Z 1 n3 1 1 r ln 2 1 r E consente di calcolare il numero minimo indispensabile grazie a questa formula: z z 1 n 1 ln 1 r 2 1 r 2 3 77 ponendo a priori un valore di r che si ritiene accettabile e considerando il fatto che per numeratore si utilizzerà: 2.3 con errore alfa =0.01 e beta =0.1 1.7 con errore alfa =0.05 e beta =0.1. Risulta evidente che le numerosità dipende fortemente dal valore di r: con un r elevatissimo, come puo’ esser 0.8 posson esser sufficienti poco più di una decina di casi. Con un r di 0.5 ne occorrono più del doppio. Si è detto infatti che è più semplice trovare le differenze o le correlazioni grandi che non le piccole! Outlier: sono i valori "strani", come il punto in basso a sin; tenendone conto la inclinazione della retta dobrebbe cambiare molto. Non sarebbe giusto, d'altro canto, decidere a priori di non considerarlo solo perché "disturba". Proprio quell'outlier potrebbe essere una informazione importante che segnala come il nostro campione sia insufficente. Vi sono vari metodi per valutare se un caso è o meno un outlier. Alcuni si basano sul valore dei residui. L’importante è che la scelta di tenere o meno un outlier non sia una scelta di comodo, ma giustificata da colcoli obiettivi. Eteroschedasticità. Si verifica quando la varianza della y attorno alla retta non è costante. Si è detto che esistono limiti di confidenza per le rette di regressione, che dovrebbero essere di questo tipo: Diuresi . . . . . . 0 . . Dosaggi Se invece sono simili alla figura seguente, si corre il rischio di avere una varianza che cresce o cala in funzione della media y (chiaramente il modello non fitta) Diuresi . . 0 . . . . . . Dosaggi Dipendenza della media y tra i diversi valori che assume in funzione dei diversi valori delle variabili indipendenti: i limiti di confidenza diventano poco attendibili. 78 Non normalità delle distribuzioni di x e di y. Se il campione è abbastanza numeroso, sono di secondaria impotanza. 79 I test di correlazione per misure poco numerose non in distribuzione simil-gaussiana di Spearman e di Kendall) Quando le misure sono scarse (e in medicina vi sono dei casi nei quali non possono che essere scarse, quando si parla di malattie rare) si puo’ ricorrere a un test non parametrico. Viene qui indicato il test di Spearman, il test di Kendall è simile e consente anche delle correlazioni multiple. Valutando il peso e l’altezza 7 persone cui riportate. Persone Tizio Caio Sempronio Tiziano Carlo Augusto Secondo Peso osservato 80 75 55 70 58 97 85 Altezza osservata 180 150 181 170 190 182 192 Si assegna ad ogni gruppo di misure il rango Persone Peso osservato Altezza osservata Ranghi altezza 180 150 181 170 190 182 192 3 1 4 2 6 5 7 Ranghi del peso Tizio Caio Sempronio Tiziano Carlo Augusto Secondo 5 4 1 3 2 7 6 80 75 55 70 58 97 85 Se vi fosse una correlazione lineare perfetta tra peso e altezza, occorrerebbe che soggetti con rango di peso 2 avessero anche altezza con rango 2 (bisognerebbe che sempre i piccolini di statura pesassero poco e i tutti quelli alti pesassero molto). Non sempre questo si verifica, come si puo’ osservare in Caio, decisamente soprappeso o in Carlo, un po’ troppo longilineo. Si va quindi a valutare una differenza tra i ranghi soggetto per soggetto (in presenza di perfette correlazioni le differenze di rango dovrebbero esser tutte =0) Persone Ranghi altezza Differenza tra i ranghi d 3 1 4 2 6 5 7 -2 +3 -3 +1 -4 +2 -1 Ranghi del peso Tizio Caio Sempronio Tiziano Carlo Augusto Secondo 5 4 1 3 2 7 6 80 Non sembra che in questa popolazione peso e altezza correlino perfettamente! Spearman ha trovato il modo di dare una misura univoca a questa “impressione” grazie a questa formula. n 1 6 d 2 1 n3 n che nel caso in esame diventa. 1 6 4 9 9 1 16 4 1 6 44 264 1 1 1 0.898 0.102 343 49 294 294 Scarsina come correlazione, visto che nella distribuzione di probabilità calcolata da Spearman, per 7 coppie di valori occorre un 0.786 per poter affermare che vi è correlazione salvo errore alfa che ha valore di probabilità <0,05. Inutile scervellarsi sul tipo di formula individuata: è basata su calcoli matematici ormai “sicuri”! CONTROINDICAZIONI ALL’USO DEL TEST Le solite: numerosità inferiore a 6 coppie di valori e quantità eccessiva di misure osservazionali uguali tra loro 81 Correlazioni multiple. Molti effetti delle più comuni malattie sono oggi provocate da più fattori di rischio, che posson essere inseriti in una correlazione multipla. Studiando statisticamente queste patologie, ovviamente la faccenda si complica un pochino. Nelle correlazioni multiple il computer calcola i soliti coefficienti di correlazione e di determinazione, variabile per variabile La PA ad esempio, puo' dipendere dal peso, dal fumo e dal consumo di sale. • I Kg di peso posson variare da 40 a 90 e oltre • il consumo di sigarette varia da 0 a 90 • il consumo giornaliero di sale varia da 0 a 10 g Per queste tre variabili, però le unità di misura, gli errori standard saranno tutti diversi e lasciando le misure grezze, le variabili che hanno range più ampi sembrerebbero le maggiori responsabili dell’ipertensione, ma soltanto per effetto dal range più ampio! Per tale motivo il computer, automaticamente, standardizza i coefficienti e in questo modo si possono confrontare l’importanza di sigarette, peso corporeo, uso di sale nel favorire l’ipertensione Il modo migliore è farlo lavorare step-wise, cioè passo-passo, guidandolo noi e non lasciandosi guidare dal software, cioè dai numeri, ma dalle conoscenze mediche. • È risaputo dalla letteratura medica che il peso influisce sulla pressione. Per prima si introduce la variabile peso. • Per seconda introduco la variabile fumo, che è meno sicura (secondo la letteratura). I casi sono due: – r2 aumenta, allora mantengo questa variabile – r2 non aumenta, allora escludo dal modello questa variabile • Il consumo di sale potrebbe influire anche lui. Inserendolo, però – r2 non aumenta, allora escludo dal modello questa variabile Stranamente, però, in certi studi la correlazione pressione - consumo di sale è fortissima: questo effetto si spiega perché evidentemente vi è un confondimento: pare 82 che gli obesi fumatori di solito mangino più salato, perché il fumo riduce la percezione dei gusti! La regressione multipla • Va fatta in modo gerarchico (stepwise) • Puo’ esser fatta forward o backward • Le variabili devono esser poche e ben significative • Consente di svelare multicollinearità che posson esser oggetto di studi successivi CONTROINDICAZIONI ALL’USO DEL TEST Multicollinearità: si verifica quando due o più variabili inserite in un modello di correlazione multipla sono tra loro strettamente dipendenti. Un esempio: si voglia calcolare lo sforzo compiuto da un paziente in funzione della sua frequenza cardiaca misurata al polso e della frequenza dei complessi QRS del suo ECG (come si sa il QRS corrisponde alla sistole ventricolare, che in periferia si rileva con l’onda sfigmica. Salvo casi veramente eccezionali le due frequenze coincidono). Chiamando y lo sforzo la formula sarebbe: y a b1 frequenza polso b2 frequenzaQRS dove a è una costante formata dalla somma della frequenza del poso e della frequenza del QRS a riposo. I medici sanno che di solito le due frequenze sono identiche. Le equazioni non lo sanno, invece. Questo comporta che i valori dei coefficienti b, che sono quelli che più interessano in medicina possono "impazzire" in una simile formula. Se si vuole calcolare uno sforzo di k erg, tutte le equazioni sono valide: k 140 0 100 2 100 k 140 1 100 1 100 k 140 3 100 1 100 k 140 2,5 100 0,5 100 ................................... Le equazioni, tutte formalmente corrette indicano rispettivamente: che lo sforzo non dipende dalla frequenza del polso, mentre dipende moltissimo dalla frequenza del QRS che lo sforzo dipende in modo uguale dalla frequenza del polso e dalla frequenza del QRS che lo sforzo dipende moltissimo dalla frequenza del polso, mentre è inversamente proporzionale alla frequenza del QRS che lo sforzo dipende moltissimo dalla frequenza del polso, mentre è inversamente proporzionale alla frequenza del QRS 83 Evidente l’inutilità del tutto ai fini della ricerca della relazione tra sforzo e incremento del polso e della frequenza dei QRS! Appare chiaro come questo tipo di test richieda molta cautela nell’impiego e, forse, un livello culturale e di esperienza superiore rispetto ai testi di ipotesi tra misure o tra modalità. 84 Regressioni lineari multiple Raramente in medicina un determinato parametro (es. il BMI) dipende da una sola variabile indipendente. È indubbio che chi introduce una dieta ipercalorica si ritroverà con un BMI elevato. BMI Calorie dieta Altrettanto indubbio è il fatto che all’aumentare delle ore di esercizio fisico fatte quotidianamenteil BMI diminuisca BMI Ore esercizio fisico È altresì indubbio che uno stesso individuo puo’ compensare una iperalimentazione con uòn esercizio fisico intenso (o viceversa). Questa situazione che è ben più reale, clinicamente plausibile e completa di un esperimento che preveda le variazioni del BMI in funzione unicamente dell’apporto calorico, potrebbe esser espressa da una equazione di questo tipo: BMI a b1 x1 b2 x 2 E potrebbe venire rappresentata graficamente con un disegno di questo tipo: 85 Cioè con un piano di regressione che taglia un angolo solido diedro avente per spigoli: asse y = variabile dipendente (BMI) asse x =1^ variabile indipendente (calorie della dieta) asse z = 2^ variabile indipendente (ore di esercizio fisico). In questo modo si puo’ individuare la relazione tra il BMI e due o più variabili contemporaneamente. Talvolta le variabili indipendenti da inserire in un modello di questo tipo, che spiega come funzionano certi fenomeni, ad esempio il determinarsi di un certo BMI invece che di un altro possono essere più di due. Oltre all’esercizio fisico e all’introito calorico si potrebbero inserire i valori di metabolismo basale dei vari individui testati. È verosimile che chi ha metabolismo basale più veloce abbia anche un BMI meno alto a parità di introito calorico e di esercizio fisico fatto. Nulla vieta di introdurre più di due variabili indipendenti… ma in questo caso non sarebbe più possibile la rappresentazione grafica (non riusciamo a concepire e tanto meno a rappresentare la quarta dimensione!) Potrebbe però esser prodotta una “matrice di correlazione multipla” che indichi per ogni variabile i coefficienti di correlazione con le altre e la significatività statistica verificata con il test F o il test t. Il risultato sarebbe di questo tipo: BMI BMI Calorie Esercizio fisico Metabolismo basale +b1 p=…. -b2 p=…. -b3 p=…. Calorie Esercizio fisico +b1 p=…. -b2 p=…. +/-c1 p=… +/-c1 p=… +/-c2 p=… Metabolismo basale -b3 p=…. +/-c2 p=… +/-c2 p=… +/-c3 p=… Ovviamente i valori di p>0,05 sarebbero da considerare come correlazioni non significative. Dato che scientificamente è il BMI che dipende da calorie esercizio e metabolismo, gli indici di correlazione potrebbero esser utili per verificare l’equazione: BMI a b1 x1 b2 x2 b3 x3 Anche gli indici di correlazione c1, c2 e c3 sarebbero tutt’altro che inutili. Infatti se in qualche confronto si avesse un valore di p<0,05, significherebbe, ad esempio, che chi fa meno esercizio fisico tende anche a mangiare troppo ed in modo statisticamente significativo. Vi sarebbe pertanto una collinearità tra queste due variabili che, se non opportunamente considerata, rischierebbe di dare una impressione falsata dei veri coefficienti angolari e quindi della vera relazione tra BMI, calorie, esercizio fisico e metabolismo basale. È possibile in alcuni software controllare tale col linearità effettuando una correlazione multipla “controllata per una variabile” di cui si sospetta la collinearità. Il computer restituisce gli indici di correlazione che si avrebbero se la variabile controllata fosse costante. Ovviamente anche in questo caso si ha a che fare con campioni di dati e si impone l’attenta osservazione dei limiti di confidenza del piano di regressione, quando sia possibile tracciarlo. 86 Capitolo 5 - LA REGRESSIONE LOGISTICA Risponde alle domande: quali sono i fattori che aumentano o riducono la probabilità di insorgenza di un determinato evento patogeno? quali di questi fattori sono più importanti nell’aumentare o ridurre la probabilità di insorgenza di un determinato evento patogeno? Puo’ esser utilizzata in studi longitudinali prospettici su popolazioni free-living Le informazioni che possono portare a una definizione accurata dei diversi fattori di rischio (o protettivi) e del peso che possono avere i nel determinismo (nella presenza o nell’assenza)di una malattia sono di tipo spesso diverso tra loro. Occorre tenere presente che per un clinico, spesso, non è tanto importante conoscere l’esatto valore della PA (differenze di 5 mm. di mercurio sono irrilevanti), quanto sapere se un paziente è catalogabile come • Iperteso • Non iperteso secondo i valori di cut-off stabiliti dalle associazioni internazionali di ipertensivologi. Per fare un esempio, i fattori che influiscono su una delle più comuni sindromi, l’ipertensione arteriosa, possono essere: genere (scala nominale) età (scala di misura) BMI (scala di misura) Colesterolemia e colesterolo HDL (scala di misura) Condizione di non fumatore o fumatore occasionale o fumatore cronico di meno di 7 sigarette/die o fumatore cronico di meno di 8-20 sigarette/die o fumatore cronico di più di 20 sigarette/die (scala ordinale) Utilizzo di alcool variabile dalla condizione di astemio a quella di occasionale o medio o forte bevitore (scala ordinale) Moto e sport praticato occasionalmente o a livello amatoriale o dilettantistico o professionistico (scala ordinale) Dieta quantitativamente valutata in calorie come assunzione media giornaliera(scala di misura) Dieta qualitativamente considerata (uso o non uso di grassi animali: scala nominale….) ……………. 87 GENERE ETA’ Apo A _____ ApoB SALE BMI IPERTESO MOTO COLESTEROLO CALORIE FUMO ALCOOL Tutte queste variabili coesistono nel medesimo individuo e ne determinano (tutte insieme con le varie interazioni tra l’una e l’altra) il maggiore o minor rischio di avere una ipertensione arteriosa. Ad esempio le interazioni tra eccessivo apporto calorico e riduzione del moto praticato sono innegabili: molto spesso chi mangia troppo si muove di meno… e ben volentieri puo’ indulgere a qualche bicchiere di vino di troppo. Le tre cose aggravano il rischio di ipertensione, ma quale delle tre è la più “forte” nel determinismo della patologia? Non sarebbe corretto considerare l’ipertensione quale evento che puo’ verificarsi in funzione del rischio legato al fumo isolatamente preso… perché spesso chi fuma beve anche caffè e beve alcool, chi fuma fa meno sport perché ha il fiato corto, tende a salare di più gli alimenti perché il fumo deprime il senso del gusto… Quindi il fenomeno “fumo” coesiste con altri fattori che lo possono potenziare (o, più raramente, possono ridurre la sua forza). Questa situazione si ripete per moltissime patologie degenerative ma non solo. Ad es., Anche il rischio di contrarre una polmonite batterica dipende certamente dalla presenza/assenza del batterio ma anche dalla carica batterica, dalla coesistenza o meno di basse temperature ambientali, dalle condizioni immunologiche del paziente, dal vivere o meno in comunità…. Il modello matematico capace di rappresentare una tale situazione non potrebbe essere una regressione lineare multipla, perché in questo modello viene richiesto di utilizzare soltanto misure continue in distribuzione similgaussiana (quindi non potrebbero entrare nel modello le informazioni in scala nominale né ordinale) perché in questo modello la variabile indipendente è a sua volta una misura continua, non una misura di rischio Volendo costruire un diagramma di dispersione di dati che riguardino uno studio su come l’età influenzi la presenza di cardiopatia ischemica con i dati di questa tabella (essendo 0= assenza di malattia e 1= presenza di malattia) 88 Età CHD Età CHD Età CHD 22 23 24 27 28 30 30 32 33 35 38 0 0 0 0 0 0 0 0 0 1 0 40 41 46 47 48 49 49 50 51 51 52 0 1 0 0 0 1 0 1 0 1 0 54 55 58 60 60 62 65 67 71 77 81 0 1 1 1 0 1 1 1 1 1 1 Si otterrebbe una rappresentazione di questo tipo: che indicherebbe una frequenza di CHD elevata dai 45 anni in su, ma guardando in basso nel diagramma si nota che vi sono anche molti cinquantenni senza CHD! Certamente sarebbe difficile tracciare una retta interpolata tra i punti del diagramma. Eppure è indubbio che l’età avanzata favorisca la presenza (cioè aumenti la prevalenza di cardiopatia ischemica). Malati Classe d’età Effettivo di classe d’età n prevalenza% 20 -29 30 - 39 40 - 49 5 6 7 0 1 2 0 17 29 50 - 59 60 - 69 70 - 79 7 5 2 4 4 2 57 80 100 80 - 89 1 1 100 89 Con la divisione in classi di età sopraindicata e la trasformazione del numero di malati in prevalenza per classe di età si otterrebbe un diagramma di dispersione di questo tipo: 100 80 60 NO! 40 20 0 0 2 4 6 8 Tra i punti sperimentali del diagramma sovrastante, non sarebbe corretto inserire una retta per il semplice motivo che vi è una funzione non rettilinea che molto meglio rispecchierebbe la realtà di quanto accade: tra I giovani non vi è quasi cardiopatia ischemica, mentre dopo I 70 anni la prevalenza di questa patologia sale al 100%... e poi resta costante, raggiunge un suo massimo plateau al di sopra del quale non sale (non si puo’ andare oltre il 100% di prevalenza!) 1,0 0,8 SI’! 0,6 0,4 0,2 0,0 Il miglior modello finora individuato per studiare l’influenza dei vari fattori di rischio sulla presenza di molte malattie è la regressione logistica graficamente rappresentata dalla figura sovrastante È quindi un modello matematico che misura la probabilità essere affetto da ipertensione arteriosa sistemica: 90 Pipertensio nearteriosa a b1 colesterolemia b2 calorie b3 età ........ Ove la y (variabile dipendente) è di tipo dicotomico (sì/no= avere/non avere l’ipertenzione). Le variabili indipendenti potranno essere in scala nominale, ordinale o di misura. I fenomeni di tipo dicotomico seguono la legge di probabilità di Bernoulli, non quella di Gauss (che invece viene seguita dalle variabili in scala di misura, di tipo continuo). La y, intesa come probabilità di esser iperteso in funzione dei diversi fattori di rischio in un singolo individuo, puo’ assumere soltanto due valori: y=1 individuo iperteso y=0 individuo non iperteso. Nell’utilizzo pratico della regressione logistica, infatti, si valuta il valore che dovrebbero avere i coefficienti angolari delle varie x (variabili indipendenti) nel caso che y (variabile dipendente) fosse uguale a 1. Questo consente di comprendere l’importanza dei vari possibili fattori di rischio nel determinismo dell’ipertensione. L’equazione della regressione logistica, quindi potrebbe esser scritta: Pipertensionearteriosa y Py 1 x a b1 colesterolemia b2 calorie b3 età ........ P y 1 x si legge: la probabilità che y sia uguale a 1 dato un certo valore di x, assumendo per certo che y varia in funzione di x: y P y 1 x f bx La regressione logistica, quindi si basa su una probabilità condizionata di tipo Bayesiano. Cioè che la probabilità di avere y=1 (cioè di esser iperteso) sia una funzione di x (cioè dipenda dalle variabili x che sono considerate fattore di rischio) e che quindi muti al variare del coefficiente angolare b delle varie variabili indipendenti. Ovviamente tale coefficiente che sarà differente e peculiare per ognuna delle variabili considerate Pipertensionearteriosa y Py 1 x a b1 colesterolemia b2 calorie b3 età ........ La differenza sostanziale tra la regressione logistica e la regressione lineare multipla è che Nella logistica il primo membro dell’uguaglianza è una misura di probabilità calcolata come un odd (rapporto fra la probabilità di esser iperteso e al probabilità di non esserlo), mentre nella lineare multipla il primo membro dell’uguaglianza è il valore esatto della pressione arteriosa, stimato in media È poi possibile, nella logistica ma non nella lineare multipla, inserire nel secondo membro dell’equazione variabili in scala nominale o in scala ordinale accanto a eventuali variabili in scala di misura. Pipertensio nearteriosa a b1 colesterol emia b2 calorie b3 età b4 sesso b5 fumatore fortelievemediononfumatore ..... La regressione logistica è un modello simile a questo sopraindicato ove Pipertensio nearteriosa è la probabilità di esser iperteso intesa come odd ipertesi/normotesi 91 a è l’intercetta, la probabilità di esser iperteso pur non avendo alcuno dei fattori di rischio finora conosciuti (cioè quando tali fattori abbiano valore 0) b1 , b2 , b3 ,....bn sono i coefficienti angolari delle varie variabili inserite Colesterolemia, calorie, età, sesso, livello di dipendenza dalla nicotina… sono la diverse variabili sia in scala di misura che ordinale o nominale. La regressione logistica non è un modello di immediata comprensione, quindi occorre cercare di procedere per piccoli passi, affrontando un problema per volta. 1. Il primo membro dell’uguaglianza: Pipertensio nearteriosa è la misura della probabilità di esser iperteso. Come tutte le probabilità deve esser compresa tra 0 (impossibile) e 1 (certo), ovviamente deve sempre esser positiva. Ai matematici era ed è ben nota questa funzione, detta funzione logistica: Nella quale la variabile dipendente puo’ assumere valori compresi tra 0 e 1 ma soltanto all’infinito raggiunge valore = 1 (evento certo) e soltanto a -infinito raggiunge valore 0, cioè nullo o negativo (evento impossibile). La formula sottostante alla funzione rappresentata nel grafico e che soddisfa la necessità che 0 Py 1 x 1 è la seguente: e a bx....... P 1 e a bx....... Questa formula, negli esponenti del numero “ e“ ,ricorda la formula della regressione lineare y a bx . Si avvale dell’utilizzo degli esponenziali in base naturale (cioè che hanno come base non 10, come forse si è più abituati a vedere, ma il numero irrazionale e =2,71828183………). Dalla formula si deduce che: P non potrà mai esser negativo perché elevando il numero e , come qualunque altro numero, a esponenti piccolissimi, cioè negativi e molto grandi in valore assoluto… si avrebbe comunque un valore positivo, anche se molto piccolo, dato che e 10000000000 0,000000000012 0 P non potrà mai esser superiore a 1, perché il numeratore viene sempre diviso per un denominatore a lui superiore, anche se soltanto di una unità. Per questi motivi tra le tante funzioni matematiche si è privilegiata questa per costruire il modello di regressione logistica. 2. Come studiare la probabilità di esser iperteso (avere y=1) in soggetti sottoposti a certi fattori di rischio (alta colesterolemia, fumo attivo, sesso maschile, età avanzata….)? 92 2a. si consideri dapprima il caso di variabili indipendenti di tipo dicotomico. Si sa che l’odd è il rapporto tra la probabilità di avere una malattia e la probabilità di non averla. In una tavola di contingenza: Esposti Non esposti Patologia presente A C a+c L’odd negli esposti sarebbe: odd esposti Patologia assente b d b+d a+b c+d a+b+c+d a P pato log ia P pato log ia b Pno _ pato log ia 1 P pato log ia Se la probabilità di contrarre la patologia viene espressa con P esposti puo’ diventare: e a bx , allora l’odd negli 1 e a bx e a bx e a bx a bx p 1 e a bx 1 e a bx 1 p e 1 e a bx e a bx 1 1 e a bx 1 e a bx e a bx 1 e a bx e a bx 1 1 e a bx Nella regressione logistica la scelta è caduta sull’odd, perché la formula Pipertensio nearteriosa p e a bx..... 1 p appare particolarmente conveniente per il calcolo, dato che consente di trasformare l’equazione P e a bx....... 1 e a bx....... Nell’equazione Pipertensio nearteriosa p P e a bx..... e quindi in ln a bx ..... 1 p 1 P basta ricordarsi di vecchie nozioni liceali come i logaritmi, come si vedrà in seguito . Forse non è inutile ricordare che: Il logaritmo in base 10 di un certo numero è l’esponente al quale occorre elevare la base 10 per ottenere il numero dato, ad esempio: Log 100=2, perché 102=100 Log 0.01=-2, perché 10-2=0,01 Il logaritmo naturale di un certo numero è l’esponente al quale occorre elevare la base e=2,7182818…. per ottenere un dato numero, ad esempio: ln e = 1, perché e1=e 93 ln e a bx.... a bx .... P a bx ..... puo’ esser poi ulteriormente semplificata con l’applicazione 1 P L’equazione: ln dei logit. Il logit è una operazione matematica (non si dimentichi che oltre alle 4 operazioni elementari, vi sono anche le elevazioni a potenze, le estrazioni di radice, i logaritmi, gli antilogaritmi e, appunto, il logit). Il logit di un numero p compreso tra 0 e 1, insegna la matematica, risponde a questa formula: p ln p ln 1 p log it p ln 1 p Risulta abbastanza evidente la possibilità di utilizzare il valore di probabilità di avere l’ipertensione espresso come odd al fine di conoscere l’incremento (o il decremento) di probabilità di esser iperteso che puo’ esser indotto dall’azione di determinati fattori di rischio. Estrarre il logaritmo naturale dai due membri dell’equazione p e a bx darebbe luogo a questa 1 p trasformazione: p ln ea bx ... ln 1 p log it incrementoprobabilità a bx ipertensione Tutti questi passaggi ci consentono di passare dall’equazione logistica a quella lineare, semplificando sia i calcoli che la comprensione del modello. Il logaritmo dell’odd negli esposti puo’ variare tra – infinito e + infinito e vi sono tabelle con le varie corrispondenze già calcolate fra logit e probabilità, come quella sottoindicata. ln(p/1-p) -4,60 -2,94 -2,20 -1,10 0 1,10 2,20 2,94 4,60 p 0,01 0,05 0,10 0,25 0,5 0,75 0,90 0,95 0,99 Per cui quando il primo membro dell’equazione logistica fosse -4,6… significherebbe che la probabilità di esser ipertesi è minima, mentre diventa massima (99%) per valori di +4,6. Se il primo membro dell’equazione fosse 0, la probabilità di esser ipertesi in funzione di un dato fattore di esposizione sarebbe del 50% (il che significherebbe che quel fattore non modifica di molto la casualità dell’essere o meno iperteso: si dimostrerebbe quindi ininfluente sull’ipertensione). È evidente che i coefficienti angolari dell’equazione logistica non sono identici ai coefficienti angolari della regressione multipla. 94 Si ricordi che se si impostasse una equazione di regressione lineare multipla di questo tipo: glicemia 80mg %cc. b calorie int rodotte b1 jouleesercizio_ fisico Significherebbe che in ogni momento la glicemia di un individuo dipende da un minimo di concentrazione glicemica indispensabile alla vita, garantito dai meccanismi di omeostasi (80 mg%cc) cui si somma un certo numero di mg.%cc. di glucosio per ogni caloria introdotta cui si sottrae un certo numero di mg.%cc. di glucosio per ogni joule di energia dispersa con l’esercizio fisico. Se invece si volesse impostare una regressione che ci indichi la probabilità di diventare diabetico in funzione delle calorie introdotte e del (poco) esercizio fisico fatto, occorrerebbe scrivere: p ln diabete log it esposti_ rischio_ diabete a b calorie int rodotte b1 jouleesercizio_ fisico 1 pdiabete E il significato sarebbe diverso: è il logit diabete/non diabete che aumenta al crescere delle calorie introdotte moltiplicate per b, cioè b calorie . La probabilità di avere il diabete, misurata come odd, invece, aumenta al crescere delle calorie introdotte, ma non in modo lineare, bensì secondo questa funzione e b calorie , perché si è proceduto all’estrazione del logaritmo da ambedue i membri dell’equazione!!! Stesso discorso vale per il coefficiente dell’esercizio fisico . Regressione Formula Lineare multipla Logistica glicemia 80mg %cc. p ln diabete 1 p diabete log it esposti_ rischio_ diabete b calorie int rodotte a b1 jouleesercizio_ fisico b calorie int rodotte b1 jouleesercizio_ fisico Calorie Incremento della glicemia = + b calorie Decremento della Esercizio fisico = (b1 jouleesercizio_ fisico ) glicemia Incremento della probabilità di esser diabetici =+ e b calorie Decremento della probabilità di esser diabetici = e b1 jouleesercizio_ fisico Fortunatamente i programmi di software danno direttamente i valori dei coefficienti angolari opportunamente trasformati indicandoli in genere come “exp b”. 2b. si consideri ora il caso di variabili indipendenti in scala di misura. Sostanzialmente, in estrema semplificazione, la differenza tra le due regressioni: lineare multipla e logistica è la seguente: PA a b1 colesterolemia b2 calorie b3 età questa equazione risponde alla domanda: “che valore di PA possiamo attenderci dati certi valori di colesterolemia, di assunzione di calorie con la dieta e di età anagrafica?” 95 log it ipertensioneesposti a b1 colesterolemia b2 calorie b3 età ... questa equazione risponde alla domanda : ”aumentato rischio di ipertensione a quali coefficienti angolari di colesterolemia, calorie, età, corrisponde? Il che significa: “quale di questi fattori di rischio è il più forte nel determinismo della patologia?” Per poter passare dalla prima alla seconda domanda è necessario passare da un modello di regressione lineare (rettilineo) a uno di regressione logistica (curva a S). Per poter chiarire ancor meglio il concetto, si veda il modello di regressione logistica sottostante. Rappresenta una equazione di questo tipo: log it maschio a b altezzain _ pollici fem min a Una persona alta 65 pollici = 165,1 cm ha la stessa probabilità di esser maschio o femmina (50%), quindi un odd =1 e un logit =0, in effetti si tratta di un’altezza media che puo’ esser facilmente attribuita sia a un uomo che a una donna. Una persona alta 80 pollici = 203,2 cm ha una probabilità di esser maschio del 95%, quindi un odd =19 e un logit =2,94, in effetti vi son ben poche donne che superano i due metri di altezza. Una persona alta 58 pollici = 147,32 cm ha una probabilità di esser maschio del 30% (e di esser femmina del 70%), quindi un odd =0,43 e un logit = - 0,99, in effetti uomini così bassi sono rari. Dalla misura dell’altezza, quindi si puo’ dedurre se una persona è maschio o femmina (difficile che una persona di 190 cm sia femmina, più probabile che sia maschio). È abbastanza improbabile che si conduca uno studio importante per valutare la diversa altezza delle donne e degli uomini, ma vengono quotidianamente condotti studi per valutare, ad es., quanto il rapporto ApoB/ApoA1 (scala di misura) o il BMI o la colesterolemia influiscano sul rischio di ipertensione. 96 Risulta evidente che un rapporto molto elevato di lipoproteine corrisponde a una probabilità elevatissima di ipertensione, uno molto basso corrisponde a una probabilità infima di ipertensione. I valori intermedi corrispondono a una probabilità intorno al 50%... quindi risultano ininfluenti rispetto al rischio di ipertensione. 2c. si consideri ora il caso di variabili indipendenti in scala ordinale. Un esempio potrebbe essere: dato un valore di y = 1 (cioè una situazione di ipertensione), quale condizione è da ritenere più pericolosa tra esercizio fisico intenso, medio e saltuario? Si ripete la situazione della tavola di contingenza. Una prima volta: Esercizio saltuario Esercizio lieve Patologia presente a c a+c Patologia assente B D b+d a+b c+d a+b+c+d Patologia presente a c a+c Patologia assente B D b+d a+b c+d a+b+c+d E una seconda volta: Esercizio saltuario Esercizio intenso E si valuta l’incremento di odd tra esercizio saltuario e esercizio lieve e tra esercizio saltuario e esercizio intenso, ricadendo nella situazione 2a. Per fare un esempio pratico, da recenti studi risulterebbe che, in media: log it iperteso normoteso a 2,86 fumatore 4,43 ApoB/ApoA1 0,48 attività fisica L’equazione indica che il rischio di ipertensione ha una sua probabilità minima di base (data dal valore di a l’intercetta) che corrisponde alla naturale frequenza di malattia, quella che si è manifestata, si manifesta e si manifesterà sempre in tutti i paesi del mondo indipendentemente dall’adozione di stili di vita più o meno incongrui (anche un eremita medievale vegetariano poteva esser iperteso). Questo rischio “basale” si puo’ aggravare se il soggetto conduce uno stile di vita incongruo: se fuma , se ha una dislipidemia…. e puo’ ridursi, invece, tanto più quanto più il soggetto fa attività fisica. Se il soggetto non fuma, la variabile “fumatore” acquista misura 0 e quindi si annulla il valore di 2,86 e il logit rimane quello della naturale frequenza di malattia Se il soggetto fuma, la variabile “fumatore” acquista misura 1 e quindi il logit di esser ipertesi diventa 2,86 la naturale frequenza di malattia. Quanto più è alto il rapporto ApoB/ApoA, tanto più aumenta il logit di esser ipertesi (ad ogni incremento unitario il logit diventa 4,43 naturale frequenza di malattia Se il soggetto fa attività fisica, la variabile “attività fisica” acquista misura 1 e quindi il logit di esser ipertesi diventa 0,48 la naturale frequenza di malattia (moltiplicare un numero per 0,50 0,48 significa dimezzare un valore, infatti 100 0,5 50 100 1 ). 2 97 Se il soggetto non fa attività fisica, la variabile “attività fisica” acquista misura 0 e quindi si annulla il valore di 0,48 e il logit rimane quello della naturale frequenza di malattia. Addirittura sarebbe possibile codificare l’attività fisica in: assente=0; lieve=1; intensa =2 e calcolare le variazioni di logit che si hanno per attività fisica intensa rispetto a assente (un numero molto più piccolo di 1 e non troppo lontano da 0, poniamo possa essere 0,3) . Se, per assurdo, i ricercatori avessero inserito nel modello anche una variabile di questo tipo: appassionato di fotografia/non appassionato di fotografia, il coefficiente di tale variabile sarebbe risultato molto vicino a 1, dimostrando che l’essere appassionati di fotografia è del tutto ininfluente sul rischio di ipertensione! log it iperteso normoteso a 2,86 fumatore 4,43 ApoB/ApoA1 0,48 attività fisica 1 fotoamator e Benché l’estrazione del logaritmo renda l’equazione sopraindicata praticamente simile a una equazione lineare multipla (ai fini del calcolo) non si deve dimenticare che non è la probabilità di ipertensione che quadruplica al crescere di ApoB/ApoA1 , ma il logaritmo naturale (in base e) dell’odd di essere iperteso o non iperteso. Da tale valore, però, non è difficilissimo risalire al valore di probabilità (se non altro perché è già stato calcolato nella tabella precedente) I coefficienti della regressione logistica, quindi sono molto diversi da quelli della regressione lineare multipla, non sono infatti una misura (il seno trigonometrico) dell’angolo di inclinazione di una retta o di un piano, ma sono esponenziali in base naturale (e=2,718…) dell’odd di avere l’ipertensione in funzione di esser o meno esposti a un certo fattore di rischio (come il fumo) o protettivo (come l’esercizio fisico). Con la regressione lineare multipla teoricamente si valuta quanto in media aumenti la pressione arteriosa per ogni sigaretta fumata in più o per ogni aumento di 0,01 del rapporto apoB/ApoA1 o di quanto diminuisca in media per ogni ora di palestra in più Con la regressione logistica si puo’ valutare invece quanto il fatto di fumare incrementi il rischio di ipertensione (misurato in logit), quanto il rischio di ipertensione aumenti all’aumentare rapporto apoB/ApoA1, quanto il rischio di ipertensione diminuisca facendo 2 ore di palestra o facendone 4 o facendone 8 alla settimana. Mentre il modello di regressione lineare multipla resta ottimale per molti studi di farmacologia, per studi clinici ed epidemiologici il modello di regressione logistica appare di gran lunga più idoneo. 98 Il metodo della massima verosimiglianza nella regressione logistica Naturalmente resta fermo il fatto che questi studi vengono condotti su campioni di individui, non sull’universo e il fatto che quasi mai i punti sperimentali giacciono effettivamente sulla curva logistica… quindi occorre 1. trovare il modello migliore per interpolazione 2. prendere in considerazione il problema della stima L’interpolazione nel modello di regressione lineare semplice o multipla si basa sul metodo dei minimi quadrati, mentre nella regressione logistica si basa sul metodo di massima verosimiglianza, che è una funzione di probabilità condizionata (lo stesso concetto applicato nel teorema di Bayes). Cercando di semplificare al massimo, volendo esprimere la funzione di verosimiglianza di esser ipertesi dato che si è fumatori, si potrebbe scrivere: P ipertensione fumatore 1 , che significa la probabilità di esser ipertesi dato che è positivo un fattore di rischio (si è fumatori). Essere o non esser fumatore è una modalità e la probabilità di tale evento segue la funzione di Bernoulli (non quella di Gauss). La probabilità di esser ipertesi dato che si è fumatori dipende da due parametri: essere/non esser fumatori (x), cioè la frequenza del fattore di esposizione quanto influisca il fumo sull’ipertensione (coefficiente angolare, b fumo ), cioè la frequenza con la quale fumo e ipertensione si trovano associati nel dati disponibili In pratica ciò che più interessa il ricercatore è proprio il coefficiente angolare! Il tutto puo’ esser semplificato calcolando l’incognita b fumo dall’equazione iperteso= b fumo fumatore, con iperteso =sì e fumatore = sì e b fumo , appunto, incognita. 99 La semplicità è relativa, dato che resta sempre un fenomeno governato dalla funzione binomiale che ha questa formula! n nk y p k 1 p k Come tutte le formule, però, al giorno d’oggi puo’ esser impostata su un foglio di calcolo e quindi ripetuta moltissime volte con scarsa fatica. Per intuire per grandi linee come funziona il sistema della massima verosimiglianza, basta rispondere alle seguenti domande: 1. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 30%, sarebbe verosimile che il fumo influisca sull’ipertensione???... potrebbe darsi, soprattutto se quasi tutti i fumatori fossero anche ipertesi e viceversa. 2. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 5%, sarebbe verosimile che il fumo influisca sull’ipertensione???... pare meno verosimile, anche se tutti i fumatori fossero ipertesi, infatti, vi sarebbe un 25% di ipertesi che comunque non fumano e sono ipertesi lo stesso 3. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 20%, sarebbe verosimile che il fumo influisca sull’ipertensione???... la verosimiglianza di tale affermazione è maggiore di quella al punto 2 e minore di quella al punto 1, soprattutto se quasi tutti i fumatori sono anche ipertesi o viceversa 4. in una popolazione nella quale gli ipertesi sono il 30%, se i fumatori fossero il 90%, sarebbe verosimile che il fumo influisca sull’ipertensione???... parrebbe di no: tutti o quasi fumano, ma gli ipertesi sono soltanto il 30%, quindi anche molti fumatori non sono ipertesi! Secondo Bayes la probabilità di esser ipertesi dato che si è fumatori si potrebbe calcolare Pipertensio ne fumatore ipertesi fumatori ipertesi fumatori ipertesinon _ fumatori prevalenza fumatori prevalenzaipertensione prevalenza fumatori prevalenzaipertensione prevalenzaipertesi 1 prevalenza fumatori Esaminando più in dettaglio il caso 1, se si verifica una situazione come questa, nella quale tutti gli ipertesi sono anche fumatori e viceversa, puo’ accadere: Rossi Bianchi Verdi Neri Bigi Viola Fulvi Carmini Rosati Ipertensione Sì No No No No Sì No No No Bruni Sì Fumo Sì No No No No Sì No No No Sì In questa situazione sperimentalmente, gli ipertesi fumatori sono il 30%=0,3.: Pipertensio ne fumatore 0,3 0,3 0,09 0,09 0,3 0,3 0,3 0,3 0,7 0,09 0,21 0,3 In questo caso i dati sperimentali confermano appieno la probabilità Bayesiana dati i valori di frequenza di fumatori e di ipertesi. 100 In questo caso invece: Rossi Bianchi Verdi Neri Bigi Viola Fulvi Carmini Rosati Ipertensione No Sì No No No Sì No No No Bruni Sì Pipertensio ne fumatore Fumo Sì No No No No Sì No No No Sì 0,3 0,3 0,09 0,09 0,3 0 0,3 0,3 0,3 0,7 0,09 0,21 0,3 E, sperimentalmente, gli ipertesi fumatori sono il 20%=0,2. In questo caso i dati sperimentali non confermano appieno la probabilità Bayesiana dati i valori di frequenza di fumatori e di ipertesi. In una situazione di questo tipo, invece, Rossi Bianchi Verdi Neri Bigi Viola Fulvi Carmini Rosati Ipertensione Sì No No No Sì No No No No Bruni Sì Pipertensio ne fumatore Fumo No Sì No No No Sì No No No Sì 0,3 0,3 0,09 0,09 0,3 0,3 0,3 0,3 0,7 0,09 0,21 0,3 E, sperimentalmente, gli ipertesi fumatori sono il 10%=0,1. In questo caso i dati sperimentali confermano per niente la probabilità Bayesiana dati i valori di frequenza di fumatori e di ipertesi. In questo caso, invece, Rossi Bianchi Verdi Neri Bigi Viola Ipertensione Sì No No No Sì No Fumo No Sì No No No Sì 101 Fulvi Carmini Rosati No No Bruni No Pipertensio ne fumatore Sì No No No Sì 0,3 0,3 0,09 0,09 0,3 0,3 0,3 0,3 0,7 0,09 0,21 0,3 E, sperimentalmente, gli ipertesi fumatori sono lo 0%=0. In questo caso i dati sperimentali negano la probabilità Bayesiana dati i valori di frequenza di fumatori e di ipertesi. Con un campione simile si sarebbe portati a negare che il fumo sia un fattore di rischio dell’ipertensione e questo elemento verrebbe eliminato dal modello. Anche con campioni molto più numerosi di questo, la situazione non si modificherebbe molto, perché le frequenze percentuali sono sempre molto più “rigide” nel loro comportamento di quanto siano le misure. Appare evidente che tale distribuzione di probabilità (verosimiglianza) non segue affatto la curva di Gauss, ma la binomiale: 1,2 1 0,8 0,6 0,4 0,2 0 3 ipertesi 2 ipertesi 1 ipertesi 0 ipertesi e fumatori e fumatori e fumatori e fumatori n nk y P(iperteso fumatore p k 1 p k Dove n è il numero totale di soggetti del campione (10 nel nostro caso) K è il numero di ipertesi che sono anche fumatori P è la probabilità di esser “e iperteso e fumatore” considerati i nostri dati sperimentali. Tale probabilità è massima se si hanno 3/10 ipertesi fumatori, cala con 2/10, si riduce ancora con 1/10 e si annulla con 0/10. Come tutte le formule al giorno d’oggi puo’ esser impostata su un foglio di calcolo e quindi ripetuta moltissime volte con scarsa fatica. Il computer utilizza infatti il calcolo iterativo andando a cercare qual valore di p che rende massima la funzione soprariportata. Caso mai non tutto fosse chiarissimo, si veda cosa succederebbe in un caso come quello dell’esempio 4, ove praticamente tutti fumano e il solo non fumatore non è neppure iperteso. Rossi Bianchi Verdi Neri Bigi Ipertensione Sì No No No No Fumo Sì Sì Sì Sì Sì 102 Viola Fulvi Carmini Rosati Sì No No No Bruni Sì Sì Sì Sì No Sì Il calcolo bayesiano sarebbe: P ipertensio ne fumatore ipertesi fumatori ipertesi fumatori ipertesinon _ fumatori prevalenza fumatori prevalenzaipertensione prevalenza fumatori prevalenzaipertensione prevalenzaipertesi 1 prevalenza fumatori 0,3 0,9 0,27 0,27 0,9 0,3 0,9 0,3 0,1 0,27 0,03 0,3 Nella realtà sperimentale gli ipertesi fumatori sono il 30%=0,3. Anche in questo caso quindi i dati sperimentali non parrebbero esser confermati dal calcolo bayesiano della probabilità di esser contemporaneamente fumatori e ipertesi. Essendo il fumo un fattore di rischio pressocchè di tutti i soggetti, il fatto che i tre ipertesi siano anche fumatori perde enormemente di importanza. Ovviamente i limiti di confidenza di tale probabilità saranno asimmetrici così come lo è la distribuzione di probabilità della binomiale. L’odd dell’associazione: ipertesi fumatori 1 pertesi fumatori , che è il coefficiente angolare che si cerca, potrà parimenti avere limiti di confidenza asimmetrici. Lo stesso tipo di calcolo viene adottato per tutte le possibili variabili. Il principio di massima verosimiglianza anche se contiene l’aggettivo “massima” non implica affatto che si tratti del metodo infallibile per stimare la realtà, perché sarebbe un’asserzione sulla realtà, come se la realtà avesse una certa probabilità di verificarsi, il che non è. La realtà è quella che è, gli scienziati cercano di conoscerla e si avvicinano a tale conoscenza con una imprecisione (un errore) che si verifica con una certa probabilità. Il principio di massima verosimiglianza indica semplicemente che, data una certa stima sperimentale dell’associazione patologia-fattore di rischio, si accetta l’associazione quando i dati sperimentali ne massimizzano la probabilità (intendendo i dati della frequenza di patologia e di frequenza di esposizione al fattore di rischio presenti nel campione dal quale si è ricavata precedentemente la stima dell’associazione patologiafattore di rischio). Se le variabili sono in scala ordinale, il ragionamento fatto prima per la scala nominale a due risposte viene ripetuto tra la valutazione minima della variabile e quella subito superiore, tra quest’ultima e quella appena più grande e così via. Se le variabili sono in scala di misura, si verifica la verosimiglianza adottando un test dei ranghi tipo Mann-Witney oppure, se la numerosità del campione lo consente, con il t di student per dati non appaiati. Per intuire per grandi linee come funziona il sistema della massima verosimiglianza applicato a una variabile indipendente espressa con misure, basta rispondere alle seguenti domande: 103 1. in una popolazione nella quale gli ipertesi sono il 30%, se le persone con rapporto apoB/ApoA più elevato nel gruppo fossero anche tutte ipertese, sarebbe verosimile che il fumo influisca sull’ipertensione???... sì 2. in una popolazione nella quale gli ipertesi sono il 30%, se le persone con rapporto apoB/ApoA più elevato fossero veramente poche, meno del 5%, sarebbe verosimile che tale rapporto influisca sull’ipertensione???... pare meno verosimile, anche se coloro che l’hanno alto fossero ipertesi, infatti, vi sarebbe un 25% di ipertesi che comunque hanno apoB/ApoA basso e sono ipertesi lo stesso 3. in una popolazione nella quale gli ipertesi sono il 30%, se se le persone con rapporto apoB/ApoA più elevato fossero il 20%, sarebbe verosimile che tale condizione influisca sull’ipertensione???... la verosimiglianza di tale affermazione è maggiore di quella al punto 2 e minore di quella al punto 1, soprattutto se quasi tutti coloro che hanno apoA/ApoB alto sono anche ipertesi o viceversa 4. in una popolazione nella quale gli ipertesi sono il 30%, se le persone con rapporto apoB/ApoA più elevato fossero il 90%, sarebbe verosimile che tale condizione influisca sull’ipertensione???... parrebbe di no: tutti o quasi hanno rapporto apoB/ApoA elevato, ma gli ipertesi sono soltanto il 30% Le variabili in scala di misura rischiano di perdere di significatività quando sono immesse insieme alle altre variabili in scala nominale o ordinale. Per tale motivo si consiglia di inserirle in un modello univariato di regressione logistica e quindi, soltanto se importanti e significative, di inserirle nel modello definitivo insieme alle altre variabili. La regressione logistica puo’, come la lineare multipla, esser condotta in vari modi: per entrata forzata (soprattutto quando si voglia compiere un primo studio esplorativo a gradini (stepwise) sia per entrata progressiva (forward) sia per eliminazione progressiva (backward). Con il metodo stepwise backward si fanno entrare tutte le possibili variabili nel modello e poi il computer (o l’operatore esperto) le elimina una ad una osservando se la loro eliminazione modifica in meglio (di più del 5%) la significatività del modello. Con il metodo stepwise forward si fanno entrare le possibili variabili una ad una lasciandole nel modello se la loro presenza modifica in meglio (di più del 5%) la significatività del modello. Uno dei problemi più importanti anche concettualmente è il numero di variabili da introdurre nel modello di regressione logistica e come. Se per uno studio si sono studiate 20 variabili diverse e le si introducono tutte nel modello il risultato sarà un modello detto “saturo”, cioè il modello che contiene tante variabili quante sono le osservazioni fatte. Alcune variabili introdotte, però, potranno esser poco significative o evidentemente correlate con altre (fumo, alcol, caffè, ad esempio). Non è detto che il modello più saturo sia quello migliore, anzi: troppe variabili possono rendere poco comprensibile il fenomeno troppe variabili potrebbero spiegare benissimo il fenomeno ma soltanto in quel particolare campione scelto e le conclusioni tratte essere difficilmente inferibili all’universo. Si valuta la significatività del modello prescelto (contenente un certo ragionevole numero di variabili) facendo un rapporto tra la verosimiglianza del modello scelto e quella del modello saturo. 104 Si è rilevato che estraendo il logaritmo di tale rapporto e moltiplicandolo per (-2) si ottiene una variabile D che segue la distribuzione di probabilità del chi quadro sotto ipotesi nulla. Lmod k D 2 ln Lmod saturo Se D tende a 0 l’adattamento è buono. Esiste infine un’ultimo importante controllo: quando il modello proposto prevede effettivamente la patologia? Qual è la bontà del modello nella sua generalità? Lo si verifica controllando con tavole di contingenza quanti soggetti classificati come patologici (y=1) hanno effettivamente presenti i fattori di rischio o presentano i più alti valori delle misure indici di rischio di malattia. Questo modo di procedere, nella sua apparente semplicità e ovvietà mette comunque al riparo dai più grossolani errori. Si puo’ utilizzare un indicatore che è un analogo dell’r2 utilizzato nelle regressioni lineari e che ha una formula alquanto spaventosa: e LLMODEL LL0 1 n goodness of fit (Darlington) = , che si confronta con una distribuzione del LL 0 e n 1 chi quadro. In questa formula LLmod el è la verosimiglianza del modello scelto, mentre LL0 è la verosimiglianza dell’ipotesi nulla e n è la numerosità campionaria Non tutti sono concordi sulla validità della formula di Darlington almeno non in tutte le situazioni. Forse la semplice visione della formula puo’ rendere l’idea di quanto il modello di regressione logistica sia complesso e di quanta cautela serva per interpretarlo correttamente. CONTROINDICAZIONI ALL’USO Non si puo’ applicare che in studi prospettici longitudinali in popolazioni free living per evitare bias Per lo stesso motivo non è applicabile in studi caso-controllo Non puo’ esser applicata che in studi con numerosità molto elevata 105 Capitolo 6 - Le analisi di sopravvivenza Si tratta di un potente strumento di indagine sia per la medicina preventiva che per la medicina clinica (sia in campo medico che chirurgico). I principali impieghi sono: epidemiologia osservazionale per individuare fattori di rischio per la salute valutazione clinica del soggetto condotta in modo oggettivo su base statistica ricerca per valutazione di efficacia di nuove terapie o trattamenti medici. Un impiego estremamente importante è quello dell’epidemiologia osservazionale. Si puo’ citare uno degli studi più noti condotti negli ultimi 60 anni: il Framingham Heart Study, che inizialmente è consistito nella semplice osservazione della popolazione di una piccola città al fine di monitorare gli “eventi cardiologici”, intesi come eventi patologici, osservandone la prevalenza, l’incidenza, il rischio (che ad esempio poteva esser diverso tra uomini e donne, tra fumatori e no…) registrando tutte le differenze rilevabili fra coloro che si ammalavano e coloro che non si ammalavano si è arrivati a valutare quali fattori di rischio, tra i tanti possibili, fossero preponderanti nel determinismo dell’evento patogeno cardiologico. Si è quindi codificata la carta del rischio cardiovascolare che serve a stimare la probabilità di andare incontro a un primo evento cardiovascolare maggiore (infarto del miocardio o ictus) nei 10 anni successivi, conoscendo il valore di sei fattori di rischio: sesso, diabete, abitudine al fumo, età, pressione arteriosa sistolica e colesterolemia. Il rischio cardiovascolare è espresso in sei categorie di rischio MCV (da I a VI): la categoria di rischio MCV indica quante persone su 100 con quelle stesse caratteristiche sono attese ammalarsi nei 10 anni successivi. Le categorie di rischio sono espresse in: I fattori di rischio considerati sono: 1 genere espresso in due categorie, uomini e donne 2 diabete espresso in due categorie, diabetico e non diabetico; viene definita diabetica la persona che presenta, in almeno 2 misurazioni successive nell’arco di una settimana, la glicemia a digiuno uguale o superiore a 126 mg/dl oppure è sottoposta a trattamento con ipoglicemizzanti orali o insulina oppure presenta storia clinica personale di diabete 3 età espressa in anni e considerata in decenni, 40-49, 50-59, 60-69 4 abitudine al fumo di sigaretta espressa in due categorie, fumatori e non fumatori; si definisce fumatore chi fuma regolarmente ogni giorno (anche una sola sigaretta) oppure ha smesso da meno di 12 mesi. Si considera non fumatore chi non ha mai fumato o ha smesso da più di 12 mesi 5 pressione arteriosa sistolica espressa in mmHg; rappresenta la pressione sistolica come media di due misurazioni consecutive eseguite secondo la metodologia standardizzata. È suddivisa in quattro categorie: uguale o superiore a 90 mmHg e inferiore a 130 mmHg uguale o superiore a 130 mmHg e inferiore a 150 mmHg uguale o superiore a 150 mmHg e inferiore a 170 mmHg uguale o superiore a 170 mmHg e inferiore o uguale a 200 mmHg. Per persone che hanno il valore della pressione arteriosa sistolica superiore a 200 mmHg o inferiore a 90 mmHg non è possibile utilizzare la carta per la valutazione del rischio 6 colesterolemia espressa in mg/dl; è suddivisa in cinque intervalli: uguale o superiore a 130 mg/dl e inferiore a 174 mg/dl uguale o superiore a 174 mg/dl e inferiore a 213 mg/dl uguale o superiore a 213 mg/dl e inferiore a 252 mg/dl 106 uguale o superiore a 252 mg/dl e inferiore a 291 mg/dl uguale o superiore a 291 mg/dl e inferiore o uguale a 320 mg/dl. Per persone che hanno il valore della colesterolemia totale superiore a 320 mg/dl o inferiore a 130 mg/dl non è possibile utilizzare la carta per la valutazione del rischio. Successivamente si è riusciti non solo a identificare i prioritari fattori di rischio di malattia, ma anche a quantificarli (calcolando di quanto l’incremento di un fattore di rischio facesse crescere la possibilità di ammalarsi…ad es.: un aumento di 5 sigarette fumate al giorno rispetto alle solite 10 , di quanto aumenta il rischio di infarto?) e questo sia a livello del singolo paziente che di una popolazione generale free-living (cioè non manipolata). Per rendere più oggettiva e confrontabile e facilmente comunicabile da medico a medico la valutazione clinica di un paziente in cardiologia si è arrivati a valutare il punteggio individuale o rischio globale cardiologico, che è uno strumento semplice per stimare la probabilità di andare incontro a un primo evento cardiovascolare maggiore (infarto del miocardio o ictus) nei 10 anni successivi, conoscendo il valore di otto fattori di rischio: sesso, età, diabete, abitudine al fumo, pressione arteriosa sistolica, colesterolemia totale, HDL-colesterolemia e trattamento anti-ipertensivo. La valutazione del rischio offerta dal punteggio è più precisa rispetto a quella delle carte del rischio cardiovascolare. Il punteggio individuale infatti: considera due fattori di rischio in più rispetto alla carta, HDL-colesterolemia e terapia anti-ipertensiva, che rappresenta un fattore aggiuntivo alla pressione arteriosa, in quanto il valore registrato non è naturale ma dovuto anche al trattamento specifico, ed è un indicatore per la valutazione di ipertensione arteriosa di vecchia data le carte sono classi di rischio globale assoluto calcolate per categorie di fattori di rischio e considerano intervalli di valori per colesterolemia e pressione arteriosa; il punteggio individuale tiene conto di valori continui per colesterolemia, HDL-colesterolemia, età e pressione arteriosa e offre una stima puntuale del rischio cardiovascolare il punteggio individuale può essere applicato a persone nella fascia di età 35-69 anni (la carta considera invece la fascia 49-69 anni). Anche se inizialmente queste analisi sono nate per l’epidemiologia osservazionale, questi test posson esser utili anche nella ricerca, dato che permettono di verificare la differenza fra due o più diversi trattamenti sia sotto il profilo dell’effetto finale (vita o morte, guarigione o malattia…) che sotto quello del tempo necessario per ottenere tale effetto. Per restare in campo farmacologico, non si tratta un test che discrimini quale trattamento garantisca un maggior numero di guarigioni (sarebbe una tavola di contingenza) o una guarigione più rapida (sarebbe uno dei tanti test di ipotesi per misure non appaiate).Non valuta neppure se vi sia una relazione tra dose del nuovo farmaco e recupero di valori di laboratorio alterati (sarebbe una regressione o una correlazione). L’analisi di sopravvivenza valuta invece se i diversi trattamenti abbiano modificato gli “eventi” nel prosieguo del tempo, cioè indica quale farmaco garantisce non soltanto il maggior numero di guarigioni, ma anche nel nel tempo più breve, quale farmaco garantisce la minor comparsa di metastasi e contemporaneamente la più tardiva comparsa di metastasi…. È un tipo di valutazione molto interessante, infatti vi sono ormai parecchie tecniche terapeutiche che raggiungono risultati “alla pari” se si considera come loro esito soltanto la vita o la morte… ma è molto importante considerare anche il tipo di vita che puo’ vivere il paziente (un lungo periodo senza metastasi è certo preferibile a una sopravvivenza anche simile, ma condotta a livello pressocchè vegetativo perché il paziente deve esser sottoposto a terapie antidolorifiche maggiori). Le analisi di sopravvivenza consentono quindi di rispondere a questo tipo di domande: Quali sono i fattori di rischio (o protettivi) di una determinata malattia? Quale di questi fattori è il più importante? Se uno dei fattori diventa più grave (ad es.: crescita delle colesterolemia per un cardiopatico), di quanto aumenta il rischio di malattia (infarto) in media in una popolazione? 107 Se un certo nostro paziente, tale Sig. Rossi, si aggrava perché gli aumenta la colesterolemia… il suo rischio globale individuale di malattia (infarto) è tanto aumentato da consentire che gli vengano prescritti farmaci idonei attraverso il SSN (cioè senza che il Sig. Rossi li paghi di tasca propria)? tra più trattamenti farmacologici o chirurgici quale garantisce il più elevato numero di “eventi” (positivi come la guarigione) nel tempo più breve? tra più trattamenti farmacologici quale garantisce il meno elevato numero di “eventi” (negativi come la comparsa di metastasi) o quanto meno ne garantisce la comparsa dopo tempi più lunghi? tra diversi inquinanti ambientali individuati come fattori di rischio, quale comporta l’insorgenza del più elevato numero di “eventi” (negativi come la comparsa di neoplasie) nel tempo più breve? Tra diversi stili di vita individuati come protettivi rispetto alle malattie (consumo di frutta e verdura, attività fisica regolare, sonno regolare...) quale garantisce l’insorgenza del meno elevato numero di “eventi” (negativi come la comparsa di cardiopatie ischemiche o positivi, come il rientro nei limiti normali del BMI) o quanto meno ne garantisce la comparsa dopo tempi più lunghi, nel caso di eventi negativi (o in tempo più breve nel caso di eventi positivi)? L’analisi di sopravvivenza si effettua in corso di studi prospettici ed è atta a valutare contemporaneamente la comparsa e il tempo di comparsa degli “eventi”. Per evento si intende la modifica (auspicabile o non auspicabile) di una categoria riguardante il paziente. In campo epidemiologico o di medicina del lavoro, ad es: l’evento puo’ esser la comparsa di una positività degli indicatori biologici di esposizione ad un certo inquinante (o addirittura la comparsa di una malattia professionale) in una fabbrica che adotti determinate misure precauzionali rispetto a una fabbrica che utilizzi filtri o cappe di aspirazione obsoleti. In campo medico l’evento puo’ esser la guarigione dopo una terapia antibiotica piuttosto che un’altra. In campo chirurgico l’evento puo esser la comparsa di complicanze post-operatorie dopo intervento con laparotomia invece che con laparoscopia… Uno dei problemi più gravi di questo test, applicabile solo per studi prospettici, riguarda il modo nel quale considerare i pazienti non aderenti, cioè coloro che, pur avendo iniziato a esser seguiti nel tempo, non si ripresentino ai periodici controlli ( i cosiddetti “drop out”). Spesso nulla si puo’ sapere sul destino di queste persone: la loro assenza puo’ esser interpretata in maniera ottimistica (stanno bene: sono successi terapeutici) o in maniera pessimistica (stanno male e cercano altrove terapie più idonee… posson esser anche deceduti) o in altro modo (posson esser deceduti per cause estranee sia alla malattia che alla terapia, come un incidente di macchina…). Non sarebbe corretto eliminare semplicemente dalla casistica coloro che non si ripresentano ai controlli: si perderebbero tempo ed esperienze preziose. Se i drop out venissero considerati viventi e guariti, si esagererebbe in ottimismo, così come si esagererebbe in pessimismo nel considerarli tutti deceduti. Naturalmente se i soggetti drop out (persi all’osservazione) fossero tutti quelli assegnati a un determinato trattamento… l’analisi di sopravvivenza diventerebbe superflua perché tale situazione indicherebbe che uno dei due trattamenti è particolarmente ricco di effetti collaterali spiacevoli o, nella migliore delle ipotesi, che è fulmineo nel determinare la guarigione dei pazienti … che stanno anche troppo bene e si sottraggono immediatamente a cure ed osservazioni. È premessa essenziale ad una corretta esecuzione del test è che il numero dei persi all’osservazione sia più o meno equivalente nei due o più trattamenti considerati. 108 Il test che ci consente di considerare insieme i tre tipi di eventi (guarito, deceduto, dropped out), i vari tipi di terapia utilizzata ed il tempo nel quale tali eventi sono accaduti è l’analisi di sopravvivenza nelle due varianti: a intervalli variabili a intervalli fissi Il test più usato in medicina è l’analisi di sopravvivenza secondo Kaplan Meir a intervalli variabili (ma non è l’unico). Per semplificare si immagini un esempio concreto: utilizzando due terapie diverse in due gruppi di malati di una stessa malattia si ottengono questi risultati dopo 100 giorni di trattamento: Terapia A Terapia B Guariti 5 8 Deceduti 7 8 Dropped out 6 5 Totale 18 21 Con un test di contingenza il valore del 2 sarebbe di 0.623 che, per 2 gradi di libertà, non è statisticamente significativo. Si concluderebbe quindi che tra le due terapie non vi sono differenze se non quelle imputabili al caso ed al campionamento. Esaminando in dettaglio i tempi nei quali sono avvenuti gli eventi potremmo renderci conto che il test di Mann Witney sarebbe significativo perchè: 5 persone con la terapia A sono guariti rispettivamente dopo 3, 5, 6, 9 e 18 giorni 8 persone con la terapia B sono guariti rispettivamente dopo 1, 1, 1, 2, 2, 2 e 5 giorni, quindi molto più in fretta. Questo dato è importante sia per i pazienti che per i medici e il servizio sanitario nazionale 7 persone con la terapia A sono decedute rispettivamente dopo 5, 8, 25, 33, 40, 42 e 95 giorni 8 persone con la terapia B sono deceduti rispettivamente dopo 1, 2, 3, 4, 6,7, 9 e 10 giorni, quindi molto prima ed anche questo non è un dato poco importante Le due terapie appaiono diverse sia per la velocità di azione della terapia B nei guariti che per i più lunghi tempi di sopravvivenza nei deceduti trattati con terapia A… Altre differenze si rilevano nel considerare i momenti nei quali avviene il drop out, più precoci per il farmaco B, anche se non in modo statisticamente significativo. L’analisi di sopravvivenza permette di esaminare contemporaneamente tutti e tre questi aspetti (cioè il fenomeno nella sua globalità). Il grafico sotto riportato illustra in modo molto intuitivo quanto sopra esposto. 109 Sopravvivenza in funzione dei decessi sopravvivenza cumulata 1,0 ,8 ,6 ,4 ,2 farmaco b (deceduti) farmaco b (drop out) 0,0 farnaco a (deceduti) farnaco a (drop out) 0 20 40 60 80 100 TEMPO In questo caso il grafico stato disegnato indicando come “evento” la morte del paziente, il che significa che il calcolo è stato fatto in funzione dei deceduti, indicati temporalmente nei punti in cui le due spezzate (tratteggiata per il farmaco B e continua per il farmaco A) scendono di livello. I triangolini invece indicano i pazienti dropped out nel momento in cui sono stati persi di vista. Essendo maggiore l’area compresa tra gli assi cartesiani e la spezzata del farmaco A, rispetto a quella compresa al di sotto della spezzata del farmaco B, si potrebbe dire già “a colpo d’occhio” che il farmaco A garantisce una maggior sopravvivenza (questo anche se i deceduti sono soltanto uno di meno, perché i decessi dei pazienti trattati con il farmaco A sono avvenuti dopo molti più giorni rispetto a coloro che furono trattati con il farmaco B). L’analisi, grazie ai software in commercio, puo’ esser condotta anche tenendo come “evento” l’esser sfuggito all’osservazione. In tal caso si puo’ verificare statisticamente che i due rami dello studio abbiano frequenze di dropping out similari sia per numero che per tempo di accadimento. L’impressione visiva è abbastanza chiarificatrice, ma il semplice grafico non sarebbe sufficiente per dire se la differenza tra i due farmaci è o non è s.s. Per stabilire questo occorre fare il calcolo della probabilità di sopravvivere nei diversi giorni nei quali avvengono i decessi. Si prenda per primo il farmaco A: nella tabella seguente sono indicati i pazienti con le lettere dell’alfabeto (colonna 1), il giorno in cui sono deceduti o sono stati persi all’osservazione o sono guariti (colonna 2),; le colonne seguenti indicano i soggetti vivi e presenti al momento in cui sono avvenuti i decessi (colonna 4), e nel giorno precedente (colonna 5); nella colonna 6 viene indicato il modo di fare il calcolo della probabilità di sopravvivere all’inizio dei vari giorni in cui si ha l’evento (all’alba del 3° giorno vi sono 18 vivi e 18 soggetti presenti all’osservazione: sopravvivenza =18/18=1 … al tramonto il paz. A, guarito, esce dallo studio. Nel 4° giorno sono quindi presenti 17 110 pazienti, durante la 5^ giornata il paziente B decede e al tramondo del 5° giorno i vivi sono 16. Probabilità di sopravvivere al 5° giorno è quindi 16/17= 0,9412…). Nelle colonne più a destra sono invece indicati il calcolo (colonna 7), e il risultato (colonna 8), della probabilità di sopravvivere non in un certo giorno, ma di esser sopravvissuti dall’inizio dello studio fino a quel giorno (probabilità cumulativa di sopravvivenza. A B C D E F G H I L M N O P Q R S T 3° 5° 5° 6° 6° 6° 8° 8° 9° 18° 18° 25° 28° 33° 40° 42° 67° 95° 3.Evento GUARITO DECEDUTO GUARITO DROP OUT GUARITO DROP OUT DECEDUTO DROP OUT GUARITO GUARITO DROP OUT DECEDUTO DROP OUT DECEDUTO DECEDUTO DECEDUTO DROP OUT DECEDUTO 18 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 18 17 16 16 14 13 12 11 10 9 8 7 6 5 4 3 2 1 7. Calcolo 1 16/17 0.9412 1 11/12 0.9167 0.9412 6/7 0.8571 0.8627 4/5 ¾ 2/3 0.8 0,7395 0.75 0,5916 0.6667 0,4437 0/1 0 0,2958 8. Probabilità cumulativa di sopravvivenza 2. Giorno evento 6. Probabilità puntuale di sopravvivenza alle ore 0 del giorno dell’evento 5. Vivi e presenti il giorno precedente l’evento 4.Vivi e presenti nel giorno dell’evento 1. Pazienti 1 0.9412 0.9412 0.9412 0.9412 0.9412 0.8627 0.8627 0.8627 0.8627 0.8627 0.7395 0.7395 0.5916 0.4437 0.2958 0.2958 0 Se si preferisce leggere i valori in orizzontale, sii consideri la riga A: al 3° giorno, nessun deceduto, però un paziente è uscito guarito dallo studio: la sopravvivenza è ancora del 100% la numerosità è ridotta di una unità Prendiamo la riga B: un paziente è deceduto al 5° giorno: la sopravvivenza cambia ed è non più del 100%=1, ma è pari al rapporto fra i 16 pazienti vivi al 5 ° giorno e i 17 che erano vivi fino al 4° giorno (prima dell’evento) la numerosità è ridotta di una unità Alla riga D, quando un paziente viene perso all’osservazione al 6° giorno, non vi è nessun calcolo da fare, perché nessuno è deceduto e la sopravvivenza è invariata la numerosità è ridotta di una unità Alla riga G, invece, un paziente decede all’8° giorno: la sopravvivenza cambia ed è non più del 94.12%. Nell’8° giorno e solo nell’8° giorno di terapia la probabilità di sopravvivere è pari al rapporto 11 vivi /12 vivi fino al 7° giorno, cioè 91.67% la probabilità di sopravvivere fino all’ottavo giorno, però, non è 91.67%. Infatti per sopravvivere fino all’ottavo giorno bisogna esser sopravvissuti sia al 5° (sopravvivenza istantanea del 94.12%) che all’8° giorno di terapia (sopravvivenza istantanea del 91.67%). Occorre calcolare l’intersezione delle due probabilità nel solito modo per poter avere la probabilità di esser sopravvissuti dall’inzio dell studio fino all’8° giorno. 111 Psopravvivere7 giorno Psopravvivere8 giorno Psopravvivere8 giorno 0.9412 0.9167 0.8571 la numerosità è ridotta di una unità I valori di probabilità di sopravvivenza cumulata sono riportati sull’asse delle ordinate del grafico precedente e sono le ordinate dei punti nei quali la spezzata scende, le ascisse di tali punti corrispondono ai giorni nei quali sono accaduti gli eventi. Per i drop out, i triangolini sono riportati in corrispondenza dei giorni nei quali è avvenuto il drop out, mentre la sopravvivenza resta la medesima (infatti diverso è esser persi di vista dal morire!). In modo del tutto analogo si procede per calcolare la sopravvivenza cumulativa del farmaco B. Potrebbe esser un ottimo esercizio riempire le caselle qui sotto riportate ove i vari pazienti sono indicati con le lettere dell’alfabeto greco. 1° 1° 1° 1° 2° 2° 2° 2° 2° 2° 3° 3° 4° 4° 5° 6° 7° 9° 10° 32° 55° 3.Evento 7. Calcolo 8. Probabilità cumulativa di sopravvivenza 2. Giorno evento 6. Probabilità puntuale di sopravvivenza alle ore 0 del giorno 5. Vivi e dell’evento presenti il giorno precedente l’evento 4.Vivi e presenti nel giorno dell’evento 1. Pazienti DECEDUTO GUARITO GUARITO GUARITO DECEDUTO DROP OUT GUARITO GUARITO GUARITO DROP OUT DECEDUTO GUARITO DECEDUTO DROP OUT GUARITO DECEDUTO DECEDUTO DECEDUTO DECEDUTO DROP OUT DROP OUT Per sintetizzare in modo numerico questi calcoli si ricorre di solito al confronto tra i tempi mediani di sopravvivenza. Il tempo mediano di sopravvivenza è il momento nel quale la probabilità di sopravvivere diventa inferiore o uguale a 0,5 (analogamente alla mediana, che divide un insieme di misure in due sottoinsiemi equivalenti: uno composto dalle misure maggiori e uno dalle minori, qui si tratta del momento che divide il 50% delle morti più precoci dal 50% di quelle più tardive!). 112 Si utilizza spesso il tempo mediano, non il tempo medio, perché raramente i tempi di sopravvivenza hanno distribuzione normale. Nel caso in esame: per la terapia A, tempo mediano di sopravvivenza = 40 giorni per la terapia B, tempo mediano di sopravvivenza = 7 giorni Il sospetto che le due terapie differiscano è sempre più forte, ma come dirimerlo in maniera definitiva? Vi sono diversi test, uno dei più usati è il log-rank test, che ricorda molto sia i test dei ranghi che il test di contingenza. Si considerano i pazienti deceduti sia che assumessero il farmaco A, sia che assumessero il farmaco B. Per costoro si calcola la probabilità di sopravvivere puntuale e quella cumulativa in modo del tutto analogo a quanto visto in precedenza, però in questo caso i pazienti dei due diversi gruppi sono considerati tutti quanti insieme (come se fosse del tutto irrilevante aver subito un trattamento invece di un altro): Giorno decessi Vivi e presenti nel giorno dell’evento B B B B A B B A B B A A A A A 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 25° 33° 40° 42° 95° 36 30 27 24 21 17 16 14 12 11 8 5 4 3 0 Guariti o dropped out nei giorni precedenti Pazienti deceduti con terapia AoB 15/39 3G 3G 2G 2DO 1DO 2G 1G 2DO 1DO 1G 1G 1DO 2DO 2DO Probabilità di sopravvivenza puntuale o istantanea CALCOLO Probabilità di sopravvivenza cumulativa 35/36 29/30 26/27 24/25 21/22 17/18 16/17 14/15 12/13 11/12 8/9 5/6 4/5 ¾ 0/1 0.972 0.967 0.972 0.963 0.940 0.960 0.905 0.867 0.869 0.944 0.829 0.941 0.783 0.933 0.737 0.923 0.688 0.916 0.635 0.880 0.582 0.830 0.517 0.800 0.431 0.750 0.345 0.000 0.259 0.972 0.940 0.905 0.869 0.829 0.783 0.737 0.688 0.635 0.582 0.517 0.431 0.345 0.259 0 Si considerano soltanto i pazienti in terapia A ed applicando le probabilità cumulative di sopravvivenza sopra scritte, si verifica la differenza tra i valori di soggetti sopravvissuti realmente e i soggetti che ci si attendeva potessero sopravvivere nei vari giorni nei quali sono avvenuti i decessi in base a tale probabilità cumulativa precedentemente calcolata. Quest’ultimo valore si ottiene moltiplicando la probabilità cumulativa di sopravvivenza per il numero di soggetti presenti e vivi il giorno precedente nel gruppo trattato con una terapia (in questo caso si è usata per il calcolo la terapia A). 113 Giorno decessi 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 25° 33° 40° 42° 95° Vivi e presenti nel Probabilità di giorno sopravvivenza precedente cumulativa l’evento nel gruppo A 0.972 18 0.940 18 0.905 18 0.869 17 0.829 17 0.783 15 0.737 12 0.688 12 0.635 10 0.582 9 0.517 7 0.431 5 0.345 4 0.259 3 0 1 Vivi e presenti Vivi e presenti DIFFERENZA OSSERVATI ATTESI tra le due nel giorno nel giorno colonne dell’evento dell’evento precedenti nel gruppo A nel gruppo A CALCOLO TEORICO 18 0.972=17.5 18 0.940=17.0 18 0.905=16.2 17 0.869=15.0 17 0.829=14.0 15 0.783=11.7 12 0.737=8.8 12 0.688=8.3 10 0.635=6.4 9 0.582=5.2 7 0.517=3.6 5 0.431=2.2 4 0.345=1.4 3 0.259=0.8 0 1 =0 17,5 17 16,2 15 14 11,7 8,8 8,3 6,4 5,2 3,6 2,2 1,4 0,8 0 18 18 17 17 15 12 12 10 9 9 6 4 3 2 0 0.5 1 0.8 2 1 0.3 3.2 1.7 2.6 3.8 2.4 1.8 1.6 1.2 0 UL 19.26 Sommando tutte le differenze tra i morti attesi e quelli effettivamente verificatisi nel gruppo in terapia A si ottiene un valore UL. Ovviamente, se U L fosse uguale a 0, vorrebbe dire che il trattamento A o il trattamento B sono assolutamente analoghi tra loro. Quanto più grande è tale somma U L , tanto più si è giustificati nel supporre che vi sia differenza tra i trattamenti. Per decidere se tale differenza sia statisticamente significativa, questo valore viene standardizzato su una deviazione standard. In pratica è necessario conoscere la numerosità del gruppo A, del gruppo B e il numero di deceduti totale nei diversi tempi nei quali accadono gli eventi. La formula sarebbe francamente un po’ complessa da spiegare intuitivamente: sU L tot n Ai n Bi d totalii ntotalei d totalei 1 n 2 totalei n totalei 1 dove n Ai sono i soggetti presenti nel gruppo A al momento i-esimo dove n Bi dove d totalii sono i soggetti deceduti in totale al momento i-esimo dove ntotalei sono i soggetti presenti in totale al momento i-esimo i valori sono i soggetti presenti nel gruppo B al momento i-esimo nAi nBi dtotalii ntotalei dtotalei 2 totalei n n totalei 1 di tutti gli i-esimi momenti dei decessi (dal 1° al 95° giorno) vengono fra loro sommati e di tale somma si fa la radice quadrata. Infine si standardizza la somma U L : 114 z UL sU L E, secondo le solite regole dei valori notevoli della normale standardizzata, il test è significativo quando z<-1.96 o quando z>+1.96 Questo tipo di statistica, ben più complesso delle prime che si sono esaminate in questo volume, unendo il concetto di “evento” a quello di “tempo di occorrenza” rispecchia però più fedelmente la realtà e la complessità del fenomeno delle azioni terapeutiche. È evidente come questa statistica, di più recente introduzione, abbia risentito delle esperienze di precedenti collaborazioni tra medici e statistici sotto vari aspetti. Categorizzazione delle variabili Considerazione di tutte le variabili influenti sull’andamento di un fenomeno Valutazione contemporanea di tutte le variabili per evitare l’inflazione dell’errore di prima specie Standardizzazione dei tassi per categorie Differenze tra valori attesi e valori osservati come nelle tavole di contingenza. Questo test, unitamente ad altri ancora più complessi, risponde in modo più “flessibile” alle esigenze della medicina e della clinica e sicuramente se continuerà un dialogo costruttivo tra le due discipline, esse potranno esser di valido aiuto l’una all’altra nel fine comune del progresso scientifico. Ogni curva di sopravvivenza secondo Kaplan Meier: Dovrebbe più correttamente esser disegnata con i vari limiti di confidenza: 115 E per raggiungere la significatività è necessario solitamente che non solo le due spezzate principali non si sovrappongano più di tanto, ma neppure i rispettivi limiti di confidenza! 116 Hazard rate Le complicazioni non sono per nulla finite: dalle analisi di sopravvivenza scaturisce il concetto di Hazard rate. Si ricorderà: RR= rischio relativo è il rapporto fra il rischio in una popolazione esposta (o trattata in un certo modo) e una non esposta (o trattata in modo diverso) OR= odd ratio è il rapporto fra l’odd in una popolazione esposta (o trattata in un certo modo) e una non esposta (o trattata in modo diverso) Hr= Hazard rate è il rapporto tra i deceduti e la somma dei periodi di osservazione ed è un metodo per calcolare una sorta di rischio medio di evento nell’unità di tempo. Si parla di evento perché oltre che i decessi si potrebbero considerare le guarigioni dopo una certa terapia (gli “eventi” posson sempre essere positivi o negativi). Per comprendere meglio il concetto si consideri uno studio di sopravvivenza al tumore del colonretto in 24 pazienti: con le palline sono indicati i decessi, mentre le linee tratteggiate indicano il tempo in mesi durante il quale i pazienti sono stati seguiti. Le linee tratteggiate senza il pallino in fondo indicano i soggetti dropped out. 0 6 12 18 24 30 36 42 Tempo (mesi) In tutto sono deceduti 12 pazienti. Il tempo di osservazione (pazienti-mese) è stato. Per i dropped out (o censored): t 6 6 6 6 8 8 12 12 20 24 30 42 180 Per deceduti (o eventi): T 3 12 15 16 18 18 22 28 28 28 30 33 251 Hazard rate Nel nostro caso Hazard rate deceduti t T 12 12 0,0278 , che significa che in media il rischio di 180 251 431 morte è del 2,78% ogni mese. Questo dato è sintetico, ma non particolarmente rispettoso della realtà. Se si osserva il grafico sovrastante appare evidente che la mortalità non è per nulla 117 equidistribuita nei vari mesi: si concentra entro l’anno e poi si hanno soltanto 4 decessi nei 2 anni e 6 mesi successivi! Il limite dell’hazard rate è che si presuppone che il tasso di occorrenza degli eventi sia costante. 118 Regressione di Cox applicata alle analisi di sopravvivenza e l’Hazard Ratio Quanto più raffinati sono i test statistici che si utilizzano, tanto più affrontano e risolvono le problematiche tipiche della medicina. La regressione di Cox si pone questo problema: dato che un trattamento si dimostri migliore di un altro ad un’analisi di sopravvivenza, come esser certi che il migliore risultato non sia imputabile ancor più che al trattamento a determinati fattori concomitanti (si sa che una persona puo’ guarire più in fretta e con maggior probabilità non soltanto perché assume un farmaco differente, ma anche perché è più giovane, perché è femmina e non maschio, perché ha un sistema immunitario diverso, perché non ha una sindrome metabolica….)? Comprendere l’influenza di questi co-fattori nei risultati delle terapie (oppure della esposizione a fattori di rischio) è di estrema importanza pratica, perché consente di formulare poi delle norme di comportamento che possono agevolare l’azione dei farmaci (oppure ridurre l’effetto patogeno di certi fattori di rischio). La regressione di Cox applicata alle analisi di sopravvivenza risponde alle seguenti domande: Oltre ad un diverso trattamento quali fattori concomitano a favorire la sopravvivenza? Oltre ad una diversa esposizione (operaio addetto agli altiforni oppure impiegato di banca con aria condizionata) quali fattori concomitano a ridurre il rischio di incorrere in una sincope da calore? Il concetto di base del test è che in ogni istante la probabilità di sopravvivere di un individuo è data dalla probabilità calcolata con l’Hazard rate variamente influenzata da altri fattori (si puo’ ipotizzare che l’età avanzata riduca un poco la probabilità di sopravvivenza, mentre ad esempio una buona condizione immunitaria la migliori). Questa probabilità basale indicata come H basale puo’ quindi coesistere (intersezione di eventi indipendenti tra loro) con la particolare condizione metabolica, anagrafica…con l’individualità del paziente. La formula che sintetizza quando detto puo’ esser scritta: H totale H basale e b1 età b2 leucocitio kt 8 ...... Con alcuni semplici artifici matematici si puo’ scrivere: H totale e b1età b2 leucocitiokt 8 ...... H basale H ln totale b1 età b2 leucocitiO KT 8 H basale H totale è l’Hazard Ratio tra una condizione basale (nessun fattore di rischio) e la H basale particolare, individuale condizione di un certo paziente che avrà una certa età, una certa situazione immunitaria ecc. 119 I coefficienti di questa regressione di Cox indicheranno l’influenza maggiore o minore dei vari fattori di rischio considerati (in modo analogo alla regressione logistica). Quandio l’Hr (hazard rate) viene calcolato con il metodo di Cox lo si chiama HR (hazard ratio). HR non è qualcosa di analogo al RR o OR perché non si tratta semplicemente di fare un rapporto di Hr fra gli esposti e non esposti ma bensì di valutare in un’ analisi di sopravvivenza l’effetto di uno o più parametri sul rischi di insorgenza di un evento (generalmente, ma non solamente, patologico) In modo del tutto analogo al RR e all’OR, però, anche HR prevede dei limiti di confidenza che devono esser entrambe superiori o inferiori all’unità perché sia garantita la significatività statistica. Tali limiti vengono calcolati in modo un po’ complicato. Analogamente a quanto fatto per il log rank si uniscono tutti i soggetti siano essi trattati con A o con B, si calcolano le proababilità di sopravvivenza cumulativa nel pool dei dati. Si applicano tali probabilità attese sotto ipotesi nulla ai soggetti - vivi trattati con A nel tempo in cui avvengono i vari eventi e si ottengono così i vivi attesi (che sono verosimilmente diversi dai vivi osservati nel medesimo istante) - vivi trattati con A nel tempo in cui avvengono i vari eventi e si ottengono così i vivi attesi (che sono verosimilmente diversi dai vivi osservati nel medesimo istante) Si considera che l’errore standard del logaritmo in base naturale dell’HR sia e.s.ln HR Ove 1 1 E A EB E A è il numero di soggetti espected (attesi nel gruppo A) E B è il numero di soggetti espected (attesi nel gruppo B) Pertanto i limiti di confidenza diventano: ln HR 1, 96e. s . - limite inferiore= e ln HR 1, 96e. s . - limite superiore= e In modo del tutto analogo a quanto accade con RR e OR, anche in questo caso: Limiti di confidenza al 95% dell’HR entrambe >1 indica che un trattamento (o un’esposizione) comporta un maggior rischio rispetto a un altro Limiti di confidenza al 95% dell’HR entrambe <1 indica che un trattamento (o un’esposizione) è più protettivo HR =1 oppure limiti di confidenza al 95% dell’HR uno superiore e uno inferiore a 1 indica che i due trattamento non sono diversi in modo statisticamente significativo. Questo tipo di statistica ha il vantaggio di poter calcolare anche la variazione di rischio che si verifica in funzione dell’aumento (o diminuzione) del parametro considerato tenendo presenti i valori degli altri parametri Ad esempio, in un campione statisticamente significativo, si è valutato l’incremento di rischio cardiovascolare in funzione di un aumento di 10 mm: Hg di sistolica o di diastolica, isolatamente considerate. Come si vede dalla tabella seguente, esso risulta essere, in media, rispettivamente del 16% (1,16-1=0,16) e del 14% (1,14-1=0,14). Considerando invece l’incremento di rischio cardiovascolare in funzione di un aumento di 10 mm: Hg di sistolica o di diastolica, ma considerate insieme, esso risulta essere, in media, rispettivamente del 22% (1,22-1=0,22) per la sistolica, mentre un incremento di diastolica 120 apparirebbe addirittura protettivo, perché riduce il rischio del 14% (0,86-1=-0,14), benché in modo non statisticamente significativo! Non è quindi per nulla indifferente fare i calcoli con o senza Cox ! Singoli componenti pressione sanguigna Componenti di pressione sanguigna considerati insieme (Cox) di Coefficiente HR / 10 mm. Hg (C.I.) Valore di p Sistolica Diastolica 0,15 0,13 1,16 (1,11-1,21) 1,14 (1,03-1,26) <0,001 <0,05 Sistolica 0,20 1,22 (1,15-1,30) <0,001 Diastolica -0,15 0,86 (0,75-1) n.s. 121 RIASSUMENDO Tutti questi strumenti: regressione lineare semplice e multipla regressione logistica funzione di Cox concorrono nello studiare i fattori di rischio della salute umana. Generalmente si seguono questi step: 1°) individuazione delle correlazioni lineari (direttamente o inversamente proporzionali) tra variabili, come ad esempio colesterolo e ipertensione. Tenendo presente che nessun essere umano puo’ esser definito da due sole variabili ma che anzi in genere le malattie hanno una genesi multifattoriale, ci si rende conto che sulle due variabili inizialmente considerate possono influire altre concomitanti condizioni (n° di sigarette fumate/die, alimentazione, genere…) che agirebbero come fattori confondenti se non si trovasse il modo di considerarle opportunamente nel calcolo. 2°) impiego di regressione logistica, che consente di calcolare la probabilità di provocare l’insorgenza di malattia per ogni singolo fattore di rischio corretto per tutti gli altri (e ne misura anche il peso relativo) è nozione comune che sia le persone con colesterolemia elevata che le normocolesterolemiche possono avere una certa probabilità di incidenti cardiovascolari. Questo fatto sembrerebbe ridurre l’importanza dei fattori di rischio (fumatori o non fumatori… tutti possono avere un infarto). È possibile approfondire la ricerca inserendo il fattore “tempo di insorgenza”, così importante in medicina. 3°) con la funzione di Cox si puo’ valutare se il tempo di insorgenza dell’evento patogeno è più precoce nei soggetti con elevati fattori di rischio rispetto a coloro che tali fattori di rischio non presentano affatto. Soltanto in questo modo possono esser indagati a fondo in modo completo e corretto gli agenti eziologici di tutte le malattie rappresentanti fattori di rischio per la salute e il benessere dell’umanità… È naturale che per misurare fenomeni complessi come la salute (o la malattia) dell’uomo non si possano poi utilizzare strumenti così semplici! 122