Alcune definizioni della statistica Un ramo della matematica applicata che si occupa della raccolta e dell’interpretazione dei dati quantitativi e dell’uso della teoria delle probabilità per la stima di parametri di una popolazione. Lo studio scientifico dei dati numerici basato sui fenomeni naturali. La procedura matematica per descrivere le probabilità e la distribuzione casuale o non-casuale della materia o del verificarsi degli eventi. Una serie di teoremi matematici che aiuta ad analizzare i dati attribuendo significatività ai risultati. Una raccolta di metodi per raccogliere, organizzare, riassumere, analizzare e interpretare i dati, e per trarre conclusioni basate su di essi. La scienza e l’arte di raccogliere, riassumere ed analizzare dati soggetti a variazione casuale (Biology Online) Tipi di statistica Statistica descrittiva: procedure per riassumere e presentare i dati e per descriverli attraverso strumenti matematici Statistica inferenziale: procedure per derivare dai dati già noti, con l’aiuto di modelli matematici, affermazioni più generali. Statistica descrittiva: riassunto e presentazione dei dati Riassume i dati per mezzo di tabelle e grafici: Tabelle di frequenza (numero assoluto di casi per categoria) Tabelle percentuali (% di casi per categoria) Tabelle crociate (matrici 2 x 2, 2 x 3, ecc.) Grafici (a barre, lineari, a torta, ecc.) Tipi di variabili I dati della statistica riguardano variabili, cioè grandezze che possono assumere valori differenti. Le variabili possono essere di tipo diverso: Quantitative (i valori sono numeri) continue: altezza, peso, ecc (i valori sono numeri reali). discrete: risultati del lancio di un dado (possono assumere solo certi valori) Qualitative o categoriche (i valori sono rappresentati dall’appartenenza a categorie) nominali: maschio/femmina; remissione/recidiva/morte (le categorie non sono ordinate) NB: se le categorie sono solo due, mutuamente esclusive, si parla di variabili binarie o dicotomiche ordinali: <10 anni, fra 10 e 50 anni, > 50 anni (le categorie hanno un ordine) Tipi di variabili In una ricerca, si definisce variabile indipendente quella che viene manipolata direttamente dallo sperimentatore, o in alternativa selezionata attraverso il metodo di campionamento. Per esempio, il fatto che i pazienti siano trattati con un farmaco o con placebo è un esempio di variabile indipendente manipolata direttamente dallo sperimentatore. In alternativa, se viene selezionato un campione di maschi da confrontare con un campione di femmine, il sesso è una variabile indipendente controllata indirettamente attraverso il sistema di campionamento. Al contrario, la variabile dipendente è quella che misuriamo per verificare la sua correlazione con la variabile indipendente. Nei due esempi precedenti, la variabile dipendente potrebbe essere la risposta alla terapia nel primo caso, e l’incidenza di una certa patologia nei due sessi nel secondo caso. Statistica descrittiva: descrizione matematica dei dati Fornisce una descrizione sintetica dei dati utilizzando (per i dati quantitativi) metodi numerici: Valutazione del “punto centrale” dei dati Valutazione della distribuzione dei dati Valutazione del “punto centrale” dei dati Mediana: il punto centrale è calcolato sulla base dell’ordinamento crescente dei dati, e rappresenta la posizione centrale in questo ordinamento. Dati: 2, 5, 6, 13, 14, 45, 47 Mediana = 13 Media aritmetica: è il rapporto fra la somma dei valori e il numero dei valori Dati: 2, 5, 6, 13, 14, 45, 47 Media = 132/7 = 18,85 Valutazione della distribuzione dei dati Attorno alla mediana: utilizzando lo stesso principio dell’ordinamento crescente dei dati e della loro posizione, è possibile definire vari quantili (per esempio, dividendo in 4 intervalli si ottengono i quartili, e così via). Se si divide in 100 intervalli, si ottengono i percentili. Per esempio, il 75° percentile è il valore del dato che, nell’ordinamento crescente, ha un posizione tale che: il 75% dei dati ha un valore inferiore (cioè rimane a sinistra nell’ordinamento) il 25% dei dati ha un valore superiore (cioè rimane a destra nell’ordinamento) NB: la mediana è il 50° percentile Numero di dati = 121 Ordinamento crescente Mediana: dato n° 61: 60 dati (50%) a sinistra, 60 dati (50%) a destra 2, 5, 6, 9, …….. 46, …….. 157, ………… 542, ……… 3450, 6213, 6578, 12500 25° percentile: dato n° 31: 30 dati (25%) a sinistra, 90 dati (75%) a destra 25° percentile = 46 Mediana (50° percentile) = 157 75° percentile = 542 La media è invece la somma aritmetica dei 121 valori divisa per 121. Può essere molto diversa dalla mediana. Per esempio, in questo caso potrebbe essere molto più alta, perché influenzata dai valori molto alti all’estremo destro dei dati. Valutazione della distribuzione dei dati Attorno alla media: la deviazione standard (σ) è la radice quadrata della varianza, un indicatore di dispersione che si ottiene sommando tutti i singoli scarti dalla media, elevando al quadrato e dividendo per il numero di dati. σ 2 = VAR La distribuzione normale Una distribuzione normale in una variabile X con media e varianza è una distribuzione statistica con funzione di probabilità: Sul dominio . Mentre statistici e matematici usano uniformemente il termine “distribuzione normale”, i fisici talvolta la chiamano “distribuzione Gaussiana” e gli studiosi di scienze sociali si riferiscono ad essa come “curva a campana”. L’ascissa rappresenta i valori. L’ordinata rappresenta la densità di probabilità dei valori. Tutta l’area sotto la curva rappresenta l’insieme di tutti i casi possibili, cioè la probabilità totale (1,0). Le probabilità non sono mai riferite a un punto, ma a un intervallo, e rappresentano il rapporto fra tutti i casi che rientrano in quell’intervallo e il totale dei casi In una distribuzione normale perfetta: 68.26% dei casi sono compresi fra -1 e +1 DS attorno alla media 95.46% dei casi sono compresi fra -2 e +2 DS attorno alla media 99.74% dei casi sono compresi fra -3 e +3 DS attorno alla media Z score Lo z-score (chiamato anche standard score, o normal score) è un modo di trasformare un singolo valore di una distribuzione normale nel suo equivalente “standardizzato”. In altre parole, lo z-score ci dice di quante DS il valore dista dalla media della popolazione. Statistica descrittiva per variabili categoriche I dati riguardanti variabili categoriche vengono spesso riportati in forma di tabella (2x2, 2x3, ecc.). La maniera più semplice di descrivere matematicamente i dati è di calcolare le proporzioni. Remissione Popolazione 28 % 56 Malattia Morte Totale 12 10 50 24 20 100 Statistica inferenziale La statistica descrittiva, pur aiutandoci a capire le proprietà dei dati in nostro possesso, non aggiunge nulla alle informazioni che già abbiamo. Le sue affermazioni, essendo relative a dati certi, sono certe. La statistica inferenziale, invece, si propone di fare nuove affermazioni a proposito di dati che non possediamo, per mezzo di una elaborazione matematica derivata dalla teoria delle probabilità. Le sue affermazioni, quindi, sono probabilistiche. Statistica inferenziale Il concetto di verità delle affermazioni della statistica inferenziale deve essere ben compreso. Le affermazioni della statistica inferenziale sono matematicamente vere e rigorose (nell’ambito della validità del modello matematico che si adotta, e purchè, naturalmente, i calcoli vengano condotti correttamente), ma riguardano esclusivamente la probabilità della verità di altre affermazioni. In altre parole, la statistica inferenziale non ci fornisce certezze sull’argomento della nostra ricerca, ma solo certezze sulla probabilità che le nostre asserzioni su tale argomento siano vere. Affermazione vera (se il modello è valido e i calcoli sono corretti) Affermazione N° 1 (calcolata dalla statistica inferenziale) Affermazione N° 2 (oggetto della ricerca) L’affermazione N° 2, sulla base dei dati noti, ha il 95% di probabilità di essere vera. Il gruppo A è diverso dal gruppo B relativamente al parametro x Affermazione probabile Statistica inferenziale I problemi che la statistica inferenziale cerca di risolvere sono essenzialmente di due tipi: 1) Problema della stima (per esempio stima di una media): • fornisce informazioni sulla media di una popolazione quando sono note media e deviazione standard di un campione della stessa. 2) Problema della verifica di ipotesi (per esempio confronto fra due o più campioni): • calcola la probabilità che due campioni, di cui siano note media e deviazione standard, siano campioni derivati da una stessa popolazione oppure da due popolazioni diverse. Campionamento statistico Nell’ambito della statistica descrittiva abbiamo finora considerato strumenti per descrivere un’intera popolazione quando siano noti tutti i dati ad essa relativi. Ma nella ricerca, in genere, non si conoscono i dati dell’intera popolazione, ma solo quelli di un campione. Il campionamento si usa quando si vuole conoscere uno o più parametri di una popolazione, senza doverli misurare in ogni suo elemento. Il campionamento consiste nel selezionare un numero più piccolo di elementi fra tutti quelli che formano una popolazione. Può essere fatto in vari modi, ma deve sempre essere di tipo probabilistico (cioè garantire la casualità della selezione). Parleremo allora di numerosità, media e deviazione standard del campione, e dobbiamo porci il problema di che rapporto esista fra questi valori e la numerosità, la media e la deviazione standard dell’intera popolazione. Media del campione e media della popolazione Immaginiamo di avere una popolazione rappresentata da mille persone (per esempio la popolazione degli abitanti maschi di un paese), e di volere conoscere la loro statura. Se conoscessimo la statura di ciascuno dei mille abitanti, potremmo descrivere la popolazione con assoluta precisione in termini di media e deviazione standard. Media del campione e media della popolazione Se però non abbiamo le risorse per misurare la statura di mille abitanti, possiamo scegliere un campione casuale, per esempio di 30 abitanti. Avremo allora una media e una deviazione standard del campione, la cui numerosità è naturalmente 30. Che rapporto c’è fra questi valori e quelli dell’intera popolazione di mille abitanti? Media del campione e media della popolazione Immaginiamo di ripetere l’operazione di campionamento 20 volte, ogni volta con un diverso campione casuale di 30 abitanti. Otterremo 20 medie diverse, e 20 DS diverse. Un concetto importante è che l’insieme di queste medie dei campioni tende ad assumere una distribuzione normale, anche se la popolazione di origine non è distribuita normalmente. In altre parole, il processo di campionamento casuale è di per sé un fenomeno che si distribuisce normalmente. Teorema del limite centrale Il teorema del limite centrale afferma appunto che, data una certa popolazione con media μ e DS σ, da cui si estrae un numero infinito di campioni random e di numerosità N, man mano che N aumenta la distribuzione delle medie dei campioni tende a una distribuzione normale, con media μ (uguale a quella della popolazione di origine) e DS = σ/√N. L’aspetto sorprendente e non intuitivo di questo teorema è che, qualunque sia la forma della distribuzione della popolazione originale, la distribuzione delle medie dei campioni tende alla distribuzione normale. Spesso la distribuzione normale viene raggiunta rapidamente, anche per valori non molto grandi di N. Ricordate che N è la numerosità del singolo campione, e non il numero di campioni (quest’ultimo si assume essere infinito). Teorema del limite centrale Qui sono mostrati i risultati di una simulazione al computer. Il computer ha eseguito un campionamento di numerosità N a partire da una popolazione con distribuzione uniforme (quindi assolutamente diversa da quella normale), e ha calcolato la media. Questa procedura è stata ripetuta 500 volte per ciascuna di quattro numerosità del singolo campione: 1, 4, 7, e 10. Campioni diversi di una popolazione. Le medie dei vari campioni… …tendono a distribuirsi normalmente. Distribution of Sample Means Errore standard della media (SEM) Lo Standard Error of the Mean (SEM) è una valutazione della deviazione standard di un insieme di medie di campioni. Idealmente si dovrebbe calcolare dividendo la deviazione standard dell’intera popolazione () per la radice quadrata della numerosità del campione: Poiché in genere la DS dell’intera popolazione non è nota, si può ottenere una stima del SEM utilizzando al posto di la deviazione standard del singolo campione (s) SEM = ________ √n SEM = (stimato) s ________ √n NOTA: il SEM è sempre più piccolo della DS della popolazione di origine, ed è tanto più piccolo quanto maggiore è la numerosità del campione. L’importanza di n In termini più semplici, quando valutiamo la media di un campione, la probabilità che questa media sia simile a quella della popolazione di origine dipende essenzialmente da due fattori: n (la numerosità del campione) s (la deviazione standard del campione Infatti, poiché il SEM è uguale a s / √n , quanto più grande è n, e quanto più piccolo è s, tanto più piccolo è il SEM. Un SEM più piccolo significa meno probabilità che la media del campione sia molto diversa da quella della popolazione. Confidence interval: definizioni Confidence interval = intervallo attorno alla media in cui si ha una certa probabilità che cada un valore Confidence limits = i due valori, superiore e inferiore, che delimitano il confidence interval Confidence level = la probabilità per cui si calcola il confidence interval (per esempio 95% o 99%) Z score = il numero di deviazioni standard (moltiplicatore) necessario per ottenere il confidence interval per un certo confidence level Deviazione standard Per esempio, per un confidence level del 95% CI = Media 1,96 x σ Z score Tabella per i Confidence Intervals Confidence level 0.8 0.9 0.95 0.99 Z score 1.28 1.645 1.96 2.58 µ ± 1.96 x σ Z score Un confidence interval del 95% è un intervallo di valori, centrato sulla media, che contiene il 95% dei dati dell’intera popolazione (ovvero, in cui c’è il 95% di probabilità che sia compreso un dato qualunque della popolazione). Corrisponde alla zona ombreggiata del diagramma. Viene in genere definito per mezzo dei due valori a sinistra e a destra della regione (confidence limits). Il valore del 95% è il confidence level, e si ottiene utilizzando come moltiplicatore uno zscore di 1,96. Per ottenere livelli diversi, si usano z-scores appropriati (per esempio, per il 99% si deve moltiplicare per 2,58. CI riferito alla media di un campione Se ci riferiamo a un campione di una popolazione, si definisce il CI della media come l’intervallo attorno alla media del campione entro cui c’è il 95% (o qualunque altro livello) di probabilità che cada la vera media della popolazione Il CI della media si calcola a partire dall’errore standard della media (SEM) del campione CI della media: come si calcola Partendo da un campione, il CI della media si può calcolare in due modi diversi: Se è nota la DS σ della popolazione generale: Z score appropriato CI = Media z x SEM Media del campione SEM calcolato usando la DS della popolazione generale () Se non è nota la DS σ della popolazione generale: t appropriato (sostituisce z) CI = Media t x SEM stimato Media del campione SEM calcolato usando la DS del campione (s) Distribuzione z e distribuzione t La z-distribution descrive la distribuzione dei dati in una popolazione normalmente distribuita. Intervallo attorno alla media = Media z x % di dati nell’intervallo 80% 90% 95% 99% z 1.28 1.645 1.96 2.58 La t-distribution (t di Student) è simile alla z, ma tiene conto dei gradi di libertà (cioè della numerosità N del campione 1). Per N che tende all’infinito, t tende a z. E’ opportuno usare la t-distribution in problemi come quello di calcolare il CI per la valutazione della media di una popolazione dalla media di un campione, problemi cioè in cui l’incertezza del risultato dipende in modo critico dalla numerosità del campione. t distribution df Probability 50% 90% 95% 98% 99% 99,9% 1 l.000 6.314 12.706 3l.821 63.657 636.6l9 2 0.816 2.920 4.303 6.965 9.925 31.598 5 0.727 2.015 2.571 3.365 4.032 6.859 40 0.681 l.684 2.021 2.423 2.704 3.551 60 0.679 1.671 2.000 2.390 2.660 3.460 120 0.677 1.658 l.980 2.358 2.617 3.373 0.674 1.645 1.960 2.326 2.576 3.291 Problema della stima della media Riassumendo, il problema della stima è il primo dei due problemi oggetto della statistica inferenziale, e in genere si presenta in questa forma: Popolazione generale (di cui non si conosce né la media né la deviazione standard) Campione (di cui si conoscono N (numerosità), M (Media) e s (DS) Calcolo di un Confidence Inetrval attorno alla media del campione, per un certo Confidence Level, utilizzando N, s, e la tabella t Conclusione: Secondo i dati noti, c’è il X% (Confidence Level) di probabilità che la media della popolazione cada entro il CI calcolato Esempio di stima di una media Se la media del campione è, per esempio, 25, e il CI calcolato per un CL del 95% va da 22 a 28 (media 3), allora si può dire che: Secondo i dati a nostra disposizione, l’affermazione che la media della popolazione di origine è compresa fra 22 e 28 ha il 95% di probabilità di essere vera. NB: E’ assolutamente sbagliato, invece, dire che, con il 95% di probabilità, la media della popolazione di origine è uguale a 25 Stima della % da un campione Per le variabili categoriche, in maniera assolutamente analoga, è possibile stimare la percentuale di una variabile nella popolazione generale a partire da quella nel campione, calcolando un CI. Anche qui si calcola uno SE, di definisce un CL, e si calcola l’intervallo. Per esempio, ammettiamo che in uno studio su 165 neonati di peso < 1000 g, 124 (0,7515, cioè 75,15%) abbiano avuto bisogno di ventilazione assistita. Se vogliamo stimare la proporzione nella popolazione generale dei neonati di quel peso che ha bisogno di ventilazione, calcoleremo lo SE (mettiamo che in questo caso sia 0,033). Fissato un CL, per esempio 95%, si sceglie un adatto moltiplicatore (1,96 se si usa la z distribution) e si calcola il CI: 95% CI = 0,7515 1,96 x 0,033 In altre parole, dal campione in esame si può stimare che c’è il 95% di probabilità (CL) che la percentuale di neonati sotto il chilo di peso che ha bisogno di ventilazione assistita sia compresa fra 0,687 (cioè il 68,7%) e 0,817 (cioè l’81,7%) (CI) Significato del CI e del CL Riassumendo, il CI è una misura del grado di imprecisione della nostra stima. Più ampio è il CI, più imprecisa è la nostra stima. Al contrario, il CL è una misura del livello di certezza che vogliamo raggiungere. Più alto è il CL, maggiore è la probabilità che la nostra affermazione sia vera. Un CL alto fa aumentare la certezza, ma anche l’imprecisione Un CL basso fa diminuire la certezza, ma aumenta la precisione Esempio: La media del mio campione e 15. Quale sarà la vera media della popolazione? A: Sarà compresa fra 14 e 16 La probabilità che questo sia vero è dell’80% (CI stretto e CL basso: alta precisione, minore certezza) B: Sarà compresa fra 12 e 18 La probabilità che questo sia vero è del 95% (CI ampio e CL alto: bassa precisione, maggiore certezza) Verifica di ipotesi La verifica di ipotesi è il secondo tipo di problema affrontato dalla statistica inferenziale. L’ipotesi da verificare in questo caso è la cosiddetta “ipotesi nulla” (null hypothesis) Ipotesi nulla L’ipotesi nulla (H0) è un’ipotesi che il ricercatore fa riguardo a un parametro della popolazione oggetto della ricerca (in genere la media) e che viene confutata o non confutata dai dati sperimentali. Nel caso più comune, del confronto fra due campioni, la forma dell’ipotesi nulla è la seguente: H0: µ1 = µ2 Dove µ1 e µ2 sono le medie delle due popolazioni da cui sono stati tratti i due campioni. Per esempio, se i due campioni si riferiscono a neonati a termine oppure a neonati pretermine, e la variabile misurata è il valore della glicemia a un’ora di vita, allora l’ipotesi nulla dice che: non c’è differenza fra la media dei valori glicemia a un’ora di vita nelle due popolazioni. L’ipotesi alternativa, cioè che la differenza esiste, prende il nome di H1 Ipotesi nulla Molto spesso l’ipotesi nulla è l’opposto di ciò che si vorrebbe dimostrare. Come vedremo, l’ipotesi nulla viene rigettata oppure no a secondo del suo livello di “improbabilità”. Se l’ipotesi nulla viene rigettata, questo è un dato a favore dell’ipotesi alternativa. In senso stretto, però, il test statistico non dice nulla sull’ipotesi alternativa H1, ma solo sulla probabilità dell’ipotesi nulla. Riassumendo: Se H0 viene rigettata perché improbabile, questo è un dato a favore di H1 Se H0 non viene rigettata, questo non vuol dire che H0 debba essere vera. Si può solo dire che, sulla base dei dati raccolti, non la si può considerare “abbastanza” improbabile. Il p-value (probability value) Ma che vuol dire “abbastanza” improbabile? Anche nel caso della verifica di ipotesi, è necessario decidere un “livello” di improbabilità che autorizzi a “rigettare” l’ipotesi nulla. Questo valore si chiama p-value, o soltanto p, e si può definire come la probabilità che il risultato ottenuto (per esempio la differenza fra le medie dei due campioni) sia dovuto al caso, se l’ipotesi nulla è vera, cioè se le medie delle popolazioni da cui i campioni sono tratti sono uguali. Il p si esprime come frazione dell’unità. Valori di p spesso usati come livello sono: <0,05 (cioè una probabilità < al 5%) <0,01 (cioè una probabilità < all’1%) Il p-value Glicemia a un’ora in un campione di neonati a termine Media = M1 Glicemia a un’ora in un campione di neonati pretermine Media = M2 M1 > M2 IPOTESI NULLA: La media dei valori di glicemia a un’ora nella popolazione di tutti i neonati a termine (μ1) e nella popolazione di tutti i neonati pretermine (μ2) è uguale (μ1 = μ2) SCELTA DEL LIVELLO: Sarà considerato significativo un p < 0,01 A questo punto si dovrà scegliere un modello di analisi statistica appropriato per il tipo di problema (per esempio, in questo caso, il t di Student). Il risultato del calcolo statistico, alla fine, dovrà essere espresso sotto forma di p-value per l’ipotesi nulla. SE il p è < a 0,01: l’ipotesi nulla viene rigettata, in favore di una possibile ipotesi alternativa. SE il p è > a 0,01: l’ipotesi nulla non viene rigettata. Ciò non dimostra che essa sia vera. Errori di tipo I e II SE il p è < a 0,01: l’ipotesi nulla viene rigettata, in favore di una possibile ipotesi alternativa. (studio che ha successo) Se però l’ipotesi nulla è vera, si commette un errore di tipo I. La probabilità di commettere un errore di tipo I (detta α) è uguale al p-value. Se comunque l’ipotesi nulla è falsa, si commette un errore di tipo II. SE il p è > a 0,01: l’ipotesi nulla non viene rigettata. Ciò non dimostra che essa sia vera. (studio che non ha successo) La probabilità di commettere un errore di tipo II (detta β) spesso non è calcolabile. La causa più frequente di errore di tipo II è la numerosità insufficiente dei campioni. Errore tipo II e potenza • β è la probabilità di commettere un errore di tipo II, cioè di non riuscire a rigettare un’ipotesi nulla che è falsa (in altre parole, di non riuscire ad affermare la nostra ipotesi anche se è vera • 1- β esprime la potenza di uno studio, cioè la probabilità di non commettere un errore di tipo II • Se β è 0,20, la potenza dello studio sarà 0,80, in altre parole lo studio avrà l’80% di probabilità di riuscire a dimostrare la propria ipotesi, se questa è vera Da cosa dipende la potenza? 1. Dalla dimensione reale dell’effetto che si vuole dimostrare. In altre parole, quanto più il segnale da rivelare è grande, tanto più facile è, per uno studio, rivelarlo. 2. Dal livello di significatività prefissato (soglia di p). In altre parole, quanto più bassa si pone la soglia di p, tanto più facile è che non si arrivi a quella soglia anche se l’ipotesi è vera. Uno studio che vuole essere più affidabile, sarà anche meno potente. 3. Dalla numerosità del campione. Più grande è N, più potente è lo studio. 4. Dalla varianza (o DS) della popolazione di origine. Più grande è la varianza, meno potente è lo studio 5. Da altri fattori: normalità della popolazione, tipo di test statistico adoperato Dimensionamento del campione • Un campione troppo piccolo porta più facilmente ad errori di tipo II • La numerosità del campione dipende però in modo critico dall’entità della differenza esistente fra le due popolazioni relativamente al parametro oggetto dello studio • In uno studio RCT, quindi, è importante dimensionare in anticipo il campione, cioè decidere prima quanti soggetti dovranno essere arruolati per rispondere al quesito • Il dimensionamento va fatto tenendo conto della differenza più piccola che si ha interesse a cogliere (grandezza del segnale minimo che si considera utile), e del livello di significatività statistica che si desidera raggiungere (cioè, della soglia fissata per il p) Scelta del test appropriato A seconda della forma del problema, si sceglierà un test diverso per la verifica delle ipotesi. E’ importante ricordare che, qualunque sia il test statistico impiegato, alla fine il risultato dovrà essere espresso sotto la forma di un p-value perché lo si possa interpretare. Di che test ho bisogno? Variabili quantitative in gruppi categorici: confronto fra le medie di due campioni, anche di numerosità diversa (between-subject) t di Student, unpaired Variabili quantitative in un gruppo unico: confronto fra coppie di misurazioni nello stesso soggetto (within-subject) t di Student, paired Variabili qualitative in gruppi categorici: confronto fra conteggi (numero dei casi che ricadono in differenti categorie) Chi quadro Rapporto fra due variabili quantitative continue misurate nello stesso gruppo di soggetti Coefficiente di correlazione r e regressione Variabili quantitative continue o in gruppi categorici: confronto fra le medie di tre o più campioni, e di più variabili indipendenti (analisi covariata) Analisi contemporanea di più variabili dipendenti ANOVA, ANCOVA MANOVA Test di Student unpaired (between-subject design) Due gruppi categorici Maschi Femmine In cui si misura una variabile dipendente quantitativa Bilirubinemia: media, DS Bilirubinemia: media, DS Due gruppi creati a partire da una variabile quantitativa secondo un valore arbitrario O P P U R E EG < 37 sett EG >= 37 sett In cui si misura una variabile dipendente quantitativa Bilirubinemia: media, DS Bilirubinemia: media, DS Test di student paired (within-subject design) Un solo gruppo Neonati a termine Due misurazioni per ciascun soggetto Bilirubina a 2 gg Bilirubina a 4 gg Ogni misurazione viene confrontata con quella corrispondente nello stesso soggetto Varietà di “t-test” Nel t-test per campioni indipendenti (unpaired) i due campioni si riferiscono a due gruppi di soggetti diversi (per esempio pazienti trattati o non trattati): between-subject design. Nel t-test per campioni appaiati (paired) i due campioni si riferiscono a due diverse misurazioni dello stesso parametro nello stesso gruppo di soggetti (per esempio glicemia prima e dopo un trattamento). In questo caso ci saranno due misurazioni per ogni soggetto, e quindi la numerosità dei due campioni è necessariamente uguale: within-subject design. Il test del t di Student “Student” è lo pseudonimo con cui William Gosset, pubblicò nel 1908 un lavoro sulla “distribuzione t” nel caso in cui un campione piccolo venga utilizzato per stimare i parametri della popolazione di origine. La “distribuzione t” si avvicina a quella normale (distribuzione z) man mano che la numerosità del campione cresce. Il test del t di Student Il test del t di Student applica il concetto di “distribuzione t” al confronto fra due campioni, in particolare alla distribuzione della differenza fra la media di due campioni derivati dalla stessa popolazione di origine (ipotesi nulla) Distribuzione ideale delle medie di due campioni Tre scenari per la differenza fra due medie Il t-test come esempio di valutazione del rapporto segnale-rumore La formula del t-test Varietà di “t-test” Per campioni indipendenti, anche di numerosità diversa (unpaired): - campioni con varianza simile (omoschedastico) - campioni con varianza diversa Per campioni appaiati (paired) NB: In tutti i casi il test può essere calcolato a una coda o a due code Varietà di “t-test” nel test ad una coda, la zona di rifiuto è solamente da una parte della distribuzione (a sinistra quando il segno è negativo, a destra quando è positivo) nel test a due code, la zona di rifiuto è distribuita dalle due parti Il test a due code è più conservativo (vi si ricorre quando non si ha alcuna idea sui possibili risultati) mentre il test ad una coda è più potente T-test Il t-test è un test molto “robusto”. Questo significa che, se applicato bene, dà risultati affidabili anche quando le popolazioni di origine non hanno una distribuzione normale, soprattutto se le dimensioni dei campioni non sono estremamente ridotte. In tutti i casi in cui non si abbia una comprensione precisa di quale varietà applicare, è più opportuno ricorrere, conservativamente, al test unpaired, a due code, per campioni con varianza differente Chi quadro Il chi quadro si applica quando la variabile dipendente è espressa come conteggi in categorie. I risultati quindi sono espressi sotto forma di una tabella (2x2, 2x3, 3x3, ecc.) Per esempio, se vogliamo valutare il follow-up a 5 anni dei pazienti affetti da una certa patologia a seconda del sesso, ed esprimiamo il risultato come conteggio del numero di pazienti guariti, ancora malati o morti, avremo una tabella 2x3: Guariti Malati Morti Maschi 20 12 4 Femmine 15 9 6 Come si calcola il chi quadro Il calcolo del chi quadro si basa sul confronto fra frequenze osservate e frequenze attese nelle singole sottocategorie. Le frequenze attese si calcolano a partire dalle frequenze osservate Valori osservati Valori attesi chi (p) = Guariti Malati M 20 8 28 F 16 13 29 36 21 57 Guariti Malati M 17.68 10.32 F 18.32 10.68 0.203 17.68 = 36*28 / 57 Come passare dal chi quadro al p Il test del chi quadro calcola i valori attesi per ogni cella della tabella, e li confronta con quelli osservati. Il risultato ottenuto, detto appunto chi quadro, viene trasformato in p-value in maniera dipendente dai gradi di libertà (il numero di gradi di libertà di una tabella è uguale al numero di righe meno 1 moltiplicato per il numero di colonne meno 1) df P = 0.05 P = 0.01 P = 0.001 1 3.84 6.64 10.83 2 5.99 9.21 13.82 3 7.82 11.35 16.27 4 9.49 13.28 18.47 5 11.07 15.09 20.52 6 12.59 16.81 22.46 7 14.07 18.48 24.32 8 15.51 20.09 26.13 9 16.92 21.67 27.88 10 18.31 23.21 29.59 11 19.68 24.73 31.26 12 21.03 26.22 32.91 Risk e Odds Un modo semiquantitativo di esprimere la significatività nel caso di variabili categoriche è rappresentato dai concetti di risk, odds, risk ratio e odds ratio. Immaginiamo una tabella 2x2 che esprima lincidenza di handicap in funzione del peso alla nascita Handicap Non handicap Totale A. < 1000 g 10 42 52 B. 1000 – 1500g 8 88 96 Si definisce rischio (risk) il rapporto fra i soggetti con outcome e il totale, mentre si definisce probabilità (odds) il rapporto fra soggetti con outcome e soggetti senza. Per A: Risk = 10/52 = 0,19 Odds = 10/42 = 0,24 Per B: Risk = 8/96 = 0,08 Odds = 8/88 = 0,09 Risk Ratio e Odds Ratio Se invece confrontiamo i due gruppi fra di loro, otterremo il Risk Ratio (RR, detto anche Relative Risk) e l’Odds Ratio (OR). Handicap Non handicap Totale A. < 1000 g 10 42 52 B. 1000 – 1500g 8 88 96 Per A: Risk = 10/52 = 0,19 Odds = 10/42 = 0,24 Per B: Risk = 8/96 = 0,08 Odds = 8/88 = 0,09 Confronto di A con B: RR = 0,19/0,08 = 2,3 OR = 0,24/0,09 = 2,6 Risk Ratio e Odds Ratio: significato Confronto di A con B: RR = 0,19/0,08 = 2,3 OR = 0,24/0,09 = 2,6 Sia il RR che l’OR possono essere riportati, in modo semiquantitativo, a un giudizio di significatività nel rigettare l’ipotesi nulla. Ecco due tabelle orientative: Table 1. Semiquantitative grading of the relative risk, odds ratio, or rate ratio Reported Relative Risk, Odds Ratio, or Rate Ratio 1 Estimate <0.50 -- 0.50-0.99 - 1.0 or not statistically significant NS 1.1-2.0 + 2.1-3.0 ++ >3.0 +++ Values <1 indicate decreased risk; values >1 indicate increased risk. Risk Ratio e Odds Ratio: differenza Confronto di A con B: RR = 0,19/0,08 = 2,3 OR = 0,24/0,09 = 2,6 Per outcome rari rispetto all’intera popolazione, RR e OR sono quasi uguali. Quanto più l’outcome è frequente, tanto più il RR e l’OR divergono, tenendo presente che l’OR è sempre più “grande”, cioè più lontano dall’unità, del RR. ANOVA Se si confrontano fra loro tre o più gruppi, non è più corretto utilizzare il t-test ripetendolo per tutte le combinazioni. In questo modo la probabilità di avere risultati falsamente significativi cresce al crescere del numero di gruppi. In questi casi si deve usare una metodologia di calcolo più complessa, chiamata ANOVA (ANalysis Of VAriance). Questo metodo tiene conto non solo della “devianza totale” dei valori, ma anche della “devianza tra” (between) i gruppi e della “devianza entro” (within) i gruppi. L’ANOVA è un calcolo statistico complesso, e richiede in genere una buona comprensione dei concetti teorici di base. Confronto fra due o più variabili I test considerati finora misurano una variabile in più gruppi. Quando invece si vuole confrontare l’andamento di due o più variabili quantitative nello stesso gruppo si ricorre ai test di correlazione e di regressione. Coefficiente di correlazione Il coefficiente di correlazione esprime la probabilità che due variabili siano correlate fra loro, anche se non sussiste necessariamente un rapporto diretto di causalità. La correlazione può essere lineare o di altro tipo (quadratica, ecc.) Un coefficiente di correlazione va da -1 (correlazione negativa) a 1 (correlazione positiva). I valori intorni allo 0 esprimono l’assenza di correlazione. Il più semplice coefficiente di correlazione è quello di Pearson, detto r, che misura la correlazione lineare fra due variabili in un campione. r = -1 r=0 r = +1 Altri esempi di r Coefficiente di determinazione r2 E’ il quadrato della correlazione, ed esprime la percentuale della variazione dei valori di y che è spiegata dal modello di regressione associato a x 0 r2 1. Quanto più grande è r2 , tanto più forte è la relazione lineare Quanto più r2 è vicino a 1, tanto più sicure sono le nostre predizioni Coefficiente di determinazione Rapporto fra r e r2 Come passare da r a p Una riflessione sul significato di p In questo esempio, abbiamo due casi in cui il p è di 0,05, ma il significato è molto diverso In questo campione di 5 casi (N = 5), r è molto alto (0,80), e quindi la correlazione fra le due variabili è elevata. A causa del piccolo numero di rilevazioni, però, la probabilità che questo risultato sia casuale è elevata, e il valore del p si attesta a 0,05. In altre parole, sembra che fra le due variabili ci sia una correlazione molto alta, ma non lo si può dire con molta certezza perché il numero di dati è piccolo In quest’altro caso, invece, il numero di dati è molto grande (N = 1000), ma r è piccolo (0,05). Anche qui, p si attesta a 0,05. In altre parole, fra le due variabili c’è probabilmente una correlazione, ma la correlazione è di lieve entità Significato generale di un test In altre parole, possiamo considerare il risultato di un test statistico, come il t-test o r, come la misura di un rapporto segnale/rumore. Il segnale è l’entità della differenza fra due gruppi di dati nel confronto fra medie (t di Student), o l’entità della correlazione fra due variabili (r). Il rumore è la probabilità della generazione casuale di uno pseudosegnale, e dipende in modo critico dalla numerosità dei dati. entità della differenza fra le medie, o della correlazione Segnale variabilità casuale Rumore Regressione Se esiste correlazione fra due variabili, è possibile calcolare una funzione che descriva il rapporto fra le due variabili e che permetta di predire altri valori. Se tale funzione è una linea, si parla di regressione lineare, altrimenti di regressione non lineare. Se le variabili sono più di due, si parla di regressione multipla Un esempio di regressione lineare La formula generale di una linea di regressione è: y = a + bx dove a è il punto di intersezione dell’asse Y, e b la pendenza della linea (angolo con l’asse X) La linea di regressione viene calcolata in maniera da rendere minima la somma degli scarti quadratici dei singoli valori osservati Predizione Il calcolo di una linea di regressione può permettere di fare predizioni riguardo a valori non osservati Regressione lineare e non lineare Regressione multipla I test di regressione multipla valutano la maniera in cui molte variabili indipendenti influenzano una singola variabile dipendente: per esempio, come vari fattori prognostici influenzano la sopravvivenza in una patologia neoplastica. Regressione multipla lineare e non lineare Curve di Kaplan Meier La curva di Kaplan Meier permette di rappresentare i dati di uno studio in termini di “time to event”, cioè del tempo necessario perché i pazienti raggiungano un determinato “endpoint” (per esempio la morte: in questo caso la curva è una curva di sopravvivenza). La curva rappresenra tutti i dati disponibili in termini di percentuale dell’evento rispetto al tempo trascorso dall’arruolamento, e questo permette di valutare insieme i dati di pazienti arruolati in tempi diversi. Vengono inclusi anche i pazienti che non hanno presentato ancora l’endpoint al momento della chiusura dello studio, e quelli dei pazienti persi al follow-up. Tali dati vengono definiti “censored” e il tempo trascorso fra l’arruolamento e la conclusione dello studio, oppure fra l’arruolamento e l’uscita dallo studio per i persi al follow-up, è rappresentato graficamente con un segno verticale (tick mark). Un esempio di curva di Kaplan Meier Example of a Censored Curve with Tick Marks This Group of Patients Has a Minimum Follow-Up of a Little Over a Year Rappresentazione di due gruppi come curva di Kaplan Meier Gap orizzontale: differenza nel tempo di presentazione dell’outcome Gap verticale: differenza nell’esito finale Valori derivati da una curva Kaplan Meier Mediana = tempo a cui il 50% dei pazienti ha presentato l’evento Media = tempo medio di presentazione dell’evento Comparison of survival between two groups. Eyeballing the KM curves for the Placebo and 6MP groups, we see that 1. Median survival time is 22.5 m for 6-MP and 8 for placebo (14.5 month difference). 2. The Kaplan-Meier curve for 6-MP group lies above that for the Placebo group and there is a big gap between the two curves: the survival of 6-MP seems to be superior. 3. The gap seems to become bigger as time progresses. Valutazione statistica delle curve di Kaplan Meier L’analisi statistica è basata sui principi del chiquadro, che confronta le percentuali attese con quelle osservate. Test: Log rank test. H0: non c’è differenza fra le curve A e B H1: la differenza esiste Il risultato finale è espresso come p. Confronto fra curve di Kaplan Meier (Log Rank Test) Figure 2: Survival of patients in the low risk group treated by liver resection alone or liver resection plus adjuvant chemotherapy. (n=113; Kaplan-Meier estimate, log-rank test). Cox regression test E’ un modello complesso di analisi di regressione multivariata, che permette sia il confronto fra curve di sopravvivenza di tipo Kaplan Meier che il calcolo del contributo di fattori prognostici indipendenti al rischio. Un esempio di valutazione del contributo di fattori diversi al rischio cumulativo “Cox proportional hazards model” e “hazard ratio” Il modello di Cox permette di valutare due importanti aspetti nell’ambito di una rappresentazione “time to event” di tipo Kaplan Meier: 1. Calcolo dell’ hazard ratio, un numero che esprime il “rischio relativo” fra i due gruppi per unità di tempo 2. Calcolo del contributo indipendente al rischio di più variabili (analisi covariata) Hazard ratio e differenza fra gruppi Non sempre l’hazard ratio esprime in modo realistico la differenza clinica fra due gruppi. Come molte misure complesse, il suo significato può essere fuorviante, perché dipende in maniera critica dalla forma delle curve. Se si vuole sapere essenzialmente la rilevanza del significato clinico finale, occorre sempre valutare anche la mediana e la media delle due curve. Cox model Il modello di Cox permette di calcolare il contributo delle singole variabili all’outcome, stratificando in maniera complessa per le differenti variabili (analisi covariata)