La Metodologia della ricerca: dalla stesura della tesi alla pubblicazione di uno studio clinico Nicola Lamberti, MSc, PhD [email protected] Lamberti Nicola 1 Link utili CV docente http://docente.unife.it/nicola.lamberti Scheda del corso e materiale didattico (slides) http://www.unife.it/medicina/scienzemotorie/minisiti-LM/lametodologia-della-ricerca/folder_contents Pubmed docente https://www.ncbi.nlm.nih.gov/pubmed/?term=nicola+lamberti+ferra ra Lamberti Nicola 2 Lezioni Venerdì 03 Marzo ore 14-18, aula F9 Venerdì 10 Marzo ore 14-18, aula F4 Venerdì 17 Marzo ore 14-18, aula F8 Mercoledì 22 Marzo ore 14-17, aula F3 Venerdì 24 Marzo ore 14-17, aula F4 Venerdì 31 Marzo ore 14-17, aula F4 Martedì 11 Aprile ore 14 aula F8 Frequenza obbligatoria Lamberti Nicola 3 Parte 4. I risultati Abbiamo completato una buona ricerca bibliografica Abbiamo costruito il nostro razionale dello studio Abbiamo scelto il disegno dello studio migliore possibile Abbiamo selezionato accuratamente i soggetti Abbiamo scelto ed effettuato con cura le misure di outcome Abbiamo descritto con precisioni gli interventi del mio studio Ora, dobbiamo presentare in maniera efficace i risultati Lamberti Nicola 4 Parte 4. I risultati La prima cosa fondamentale per avere risultati precisi e validi, è costruire un buon dataset di raccolta dati. Cos’è un dataset (o database)? E’ un foglio elettronico di lavoro, che raccoglierà con precisione i dati del mio studio/progetto, e mi aiuterà ad esplorarli prima di affrontare un’adeguata analisi statistica. Il dataset può essere costruito su molti programmi e sistemi, quello certamente più comune è il foglio elettronico di calcolo Excel Nelle prossime slides vedremo alcuni consigli utili su come costruire un buon database (che ci renda l’analisi rapida ed efficace) Lamberti Nicola 5 Parte 4. I risultati: creazione del dataset Prendiamo un esempio di uno studio che io intendo realizzare In un progetto di ricerca stanno studiando l’efficacia di due trattamenti con l’esercizio fisico nei soggetti con recente NSTEMI. 1) Alta intensità intervallato (30 mins)_HIIT 2) Moderata intensità continuo (25 mins)_MICO 3) Gruppo di controllo (nessun intervento)_CTRL Misure di outcome all’inizio (T0), dopo 2 settimane (T1), dopo 4 settimane (T2, fine trattamento), dopo 3 mesi (follow up T3) - VO2max - 6MWD - 5-time STS - QoL con SF-36. Dobbiamo costruire un database (in bocca al lupo). Chi ci vuole provare?? Lamberti Nicola 6 Parte 4. I risultati: creazione del dataset Adesso apriremo un foglio Excel dove uno di voi verrà a creare il dataset ideale da riempire. La direzione dello studio ci ha informato che verranno arruolati un minimo di 10 soggetti per ogni gruppo. Quindi, quale volontario ci vuole provare?? Avete visto quante migliorie possono rendere la creazione del vostro database più veloce?? Ci sono eventuali «tips» che posso utilizzare?? Lamberti Nicola 7 Parte 4. I risultati: creazione del dataset Rapida carrellata dei vari strumenti utili che ci mette a disposizione il foglio elettronico di calcolo per riuscire a fare un buon dataset: - Scelta di righe e colonne - Blocco della visualizzazione - Trascina cella - Medie e DS - Funzione filtro Lamberti Nicola 8 Parte 4. I risultati Il primo risultato da scrivere, prima anche dell’outcome primario, è come si è svolto il nostro studio. Se ho uno studio con due gruppi, posso avvalermi di una flowchart (vedi slide seguente). Se invece ho uno studio ad esempio retrospettivo, devo riportare come effettivamente è stato svolto il lavoro Ad esempio: sono state consultate 500 cartelle cliniche dell’archivio XY, dai quali sono stati estrapolati i parametri in studio. In particolare il parametro 6MWD è stato misurato in 476 soggetti, ecc. Lamberti Nicola 9 Risultati Arruolamento Valutati per eleggibilità (n = 513) Esclusi (n = 486) Non rispettati i criteri inclusione (n = 404) Rifiuto a partecipare (n = 82) Randomizzati (n = 27) Assegnazione Gruppo Rivascolarizzazione (n = 9) Gruppo Esercizio (n = 18) Ricevuto il trattamento previsto (n = 8) Non ricevuto il trattamento previsto (per controindicazioni all’intervento) (n = 1) Ricevuto il trattamento previsto (n = 18) Non ricevuto il trattamento previsto (n = 0) Follow up Persi al follow up (n = 2) Persi al follow up (n = 6) riscontro di patologia neoplastica in corso di follow up (n = 2) aggravamento quadro vascolare (n = 2) comorbidità intercorrenti (n = 3) problematiche familiari (n = 1) Analisi Analizzati (n = 6) Analizzati (n = 12) Esclusi dall’analisi (n = 0) Esclusi dall’analisi (n = 0) Parte 4. Analisi statistica Poi devo effettuare una accurata analisi statistica. La prima cosa che devo verificare, prima ancora di scegliere qualsiasi test, è la distribuzione dei miei dati: - È Normale? - Non è normale? Le risposte alla nostra domanda le otteniamo grazie al test di Kolmogorov – Smirnov Che ci indica se la nostra distribuzione dei dati è normale o non normale. Lamberti Nicola 11 Parte 4. Analisi statistica Cosa significa però «Normale» o «non normale» Lamberti Nicola 12 Parte 4. Analisi statistica Cosa significa però «Normale» o «non normale» Lamberti Nicola 13 Parte 4. Analisi statistica Il test di Kolmogorov – Smirnov ci risponde automaticamente se la nostra distribuzione dei dati è normale oppure no Lamberti Nicola 14 Parte 4. Analisi statistica Ma perché è così importante determinare la distribuzione dei dati? Perché a seconda che ogni variabile venga distribuita in maniera normale o non normale, ad essa vanno applicate due speciali appendici della statistica: - Statistica parametrica (per distribuzioni normali) - Statistica non parametri (per distribuzioni non normali). Da un punto di vista più strettamente tecnico, a seconda della distribuzione cambia il modo di esprimere le variabili: - Normale: media ± deviazione standard - Non normale: mediana (range interquartile) Lamberti Nicola 15 Parte 4. Analisi statistica La media: In statistica, la media è un singolo valore numerico che descrive sinteticamente un insieme di dati. Esistono varie tipologie di media che possono essere scelte per descrivere un fenomeno: quelle più comunemente impiegate sono le tre cosiddette medie pitagoriche (aritmetica, geometrica e armonica). Nel linguaggio ordinario, con il termine media si intende comunemente la media aritmetica. Media = (somma delle variabili) / numero delle variabili Lamberti Nicola 16 Parte 4. Analisi statistica La media: In un foglio di calcolo Excel si esprime con la formula =media(C1:C9) Deviazione standard: o scarto quadratico medio è uno dei modi per esprimere la dispersione dei dati intorno ad un indice di posizione, quale può essere, ad esempio, la media aritmetica o una sua stima. Vi risparmio la formula per calcolarla In Excel =dev.st(C1:C9) Lamberti Nicola 17 Parte 4. Analisi statistica La mediana: si definisce la mediana (o valore mediano) come il valore assunto dalle unità statistiche che si trovano nel mezzo della distribuzione. In un foglio di calcolo Excel si esprime con la formula =mediana(C1:C9) Lamberti Nicola 18 Parte 4. Analisi statistica Il range interquartile: I quartili sono quei valori/modalità che ripartiscono la popolazione in quattro parti di uguale numerosità; La differenza tra il terzo ed il primo quartile è un indice di dispersione ed è detto scarto (o range) interquartile; i quartili vengono inoltre utilizzati per rappresentare un Box-plot. Lamberti Nicola 19 Parte 4. Analisi statistica: i test più comuni La scelta del test statistico più appropriato dipende dalla tipologia di studio che io ho intrapreso. Partiamo utilizzando come esempio lo studio RCT di cui abbiamo creato il database in precedenza. La prima cosa che dobbiamo osservare è se nei nostri gruppi esistono sbilanciamenti che li rendono diversi in partenza. Infatti se io ho un gruppo significativamente più scarso al baseline, posso interpretare in maniera errata i risultati che ottengo. Lamberti Nicola 20 Parte 4. Analisi statistica: i test più comuni Il test più comune che confronta due gruppi è: - T-test di Student per campioni indipendenti (parametrico) - U-test di Mann-Whitney per campioni indip (non parametrico). Esempio con il valore di baseline di 6MWD fra CTRL e HIIT Lamberti Nicola 21 Parte 4. Analisi statistica: i test più comuni Possiamo affermare che i due gruppi, pur presentando un valore di 6MWD che sembra piuttosto diverso, in realtà non sono così distanti fra loro, e posso assumermi con tranquillità la responsabilità di dire: «al baseline i due gruppi non sono diversi fra loro per la misura 6MWD». Però devo fare attenzione, avevo due campioni molto piccolo (7 vs 8); probabilmente ingrandendo il campione (15 vs 15) la differenza che avrei trovato sarebbe stata significativa. Lamberti Nicola 22 Parte 4. Analisi statistica: i test più comuni Lo stesso identico test lo posso utilizzare, ad esempio, per valutare l’outcome del mio lavoro; Posso confrontare le differenze in termini di 6MWD fra il gruppo di CTRL e il gruppo HIIT. In questo caso avrò bisogno di verificare se la differenza sia significativamente diversa Lamberti Nicola 23 Parte 4. Analisi statistica: i test più comuni Lamberti Nicola 24 Parte 4. Analisi statistica: i test più comuni Se invece di avere due soli gruppi, ne ho tre o più, posso avvalermi di un’altra procedura statistica, che posso utilizzare sia per l’analisi intergruppo (between groups) che per quella intragruppo (withingroup). Si chiama One-way Analysis of Variance (ANOVA) - Integruppo: valore di 6MWD baseline per i tre gruppi - integruppo: variazioni di 6MWD nei tre gruppi In questo senso dobbiamo considerare anche il corrispettivo non parametrico dell’ANOVA, che si chiama test di Kruskal-Wallis Lamberti Nicola 25 Parte 4. Analisi statistica: i test più comuni ANOVA intergruppo al baseline Lamberti Nicola 26 Parte 4. Analisi statistica: i test più comuni ANOVA intergruppo variazioni 6MWD Lamberti Nicola 27 Parte 4. Analisi statistica: i test più comuni E nel caso, se avessi sempre i miei tre gruppi, ma avessi un parametro significativamente diverso al baseline (tipo l’età) devo considerare come questa possa influire sull’outcome. Si utilizza in questo caso un metodo statistico chiamato Si chiama One-way Analysis of Co-Variance (ANCOVA) - integruppo: variazioni di 6MWD nei tre gruppi; si utilizza come covariata ad esempio l’età (che noi aveva trovato come differente) Lamberti Nicola 28 Parte 4. Analisi statistica: i test più comuni ANCOVA intergruppo variazioni 6MWD (età covariata) Lamberti Nicola 29 Parte 4. Analisi statistica: i test più comuni ANCOVA intergruppo variazioni 6MWD (età covariata) Lamberti Nicola 30 Parte 4. Analisi statistica: i test più comuni Sempre rimanendo nel campo delle statistiche più semplici, mettiamo ad esempio che io voglia verificare delle variabili dicotomiche (si/no, presente/assente, maschio/femmina) se sono diverse nei due gruppi in studio. Posso usare diverse metodiche di test, (chi-quadro, McNemar, tabelle 2x2) ma sicuramente la più semplice e comune è data dal test di Fisher (Fisher’s exact test). Mettiamo ad esempio di voler verificare se maschi e femmine sono distribuiti in egual misura nei due gruppi CTRL e HIIT Lamberti Nicola 31 Parte 4. Analisi statistica: i test più comuni (Fisher’s exact test) Lamberti Nicola 32 Parte 4. Analisi statistica: i test più comuni Proseguendo nella nostra carrellata delle analisi, dobbiamo prendere in considerazione le misure di concordanza / discordanza fra due variabili. La più conosciuta certamente è la retta di correlazione semplice. Quando le variabili che compongono la variabile doppia (X,Y) sono entrambe numeriche, è possibile analizzare un particolare legame statistico tra i caratteri, la correlazione lineare. Studiare la correlazione lineare significa investigare l’esistenza di un legame per cui a variazioni di un carattere corrispondono variazioni dell’altro carattere secondo una relazione lineare. Lamberti Nicola 33 Parte 4. Analisi statistica: i test più comuni Analisi grafica della correlazione Un primo modo per verificare l’esistenza di una correlazione lineare tra due caratteri quantitativi X e Y, è quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o scatterplot). Uno scatterplot è un grafico in cui ogni osservazione della variabile doppia (xl, yl) viene rappresentata come un punto sugli assi cartesiani in cui: all’asse delle ascisse sono associati i valori della variabile X all’asse delle ordinate sono invece associati i valori della variabile Y Lamberti Nicola 34 Parte 4. Analisi statistica: i test più comuni Date due variabili statistiche X e Y, l'indice di correlazione è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili: Il coefficiente assume sempre valori compresi tra -1 e 1 Lamberti Nicola 35 Parte 4. Analisi statistica: i test più comuni Prendiamo il nostro esempio e proviamo a correlare la 6MWD al baseline di tutti con il tempo impiegato per completare il 5STS di tutti. Nel caso abbiamo una distribuzione normale, utilizziamo l’indice di correlazione di Pearson; con distribuzione non normale l’indice di correlazione rho di Spearman. Cosa vi aspettate di vedere? Una correlazione diretta o inversa? E quanto forte? Lamberti Nicola 36 Parte 4. Analisi statistica: i test più comuni Correlazione Lamberti Nicola 37 Parte 4. Analisi statistica: i test più comuni Correlazione Lamberti Nicola 38 Parte 4. Analisi statistica: i test più comuni Se invece abbiamo più variabili in gioco, dobbiamo utilizzare una regressione Definizione di regressione L'analisi della regressione è una tecnica usata per analizzare una serie di dati che consistono in una variabile dipendente e una o più variabili indipendenti. Lo scopo è stimare una eventuale relazione funzionale esistente tra la variabile dipendente e le variabili indipendenti. Più formalmente, in statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente, dati i valori di altre variabili indipendenti Lamberti Nicola 39 Parte 4. Analisi statistica: i test più comuni La regressione utilizza il valore di R al quadrato (R2) L'R², o coefficiente di determinazione, è una misura della bontà dell'adattamento (in inglese fitting) della regressione lineare stimata ai dati osservati. La regressione LINEARE utilizza due variabili, quando data una di queste (dipendente) si può stimare il valore di un’altra variabile (indipendente) grazie ad una equazione di regressione. Vediamo un esempio. Lamberti Nicola 40 Parte 4. Analisi statistica: i test più comuni Regressione lineare Lamberti Nicola 41 Parte 4. Analisi statistica: i test più comuni Più il valore di (R2) è elevato, più il modello è buono, quindi vicino alla realtà. Il valore del coefficiente di determinazione R2 varia fra 0 e 1. Lamberti Nicola 42 Parte 4. Analisi statistica: i test più comuni Quando invece ho più variabili indipendenti ad influenzare una variabile dipendente, ho bisogno di utilizzare non più una regressione lineare, ma una regressione multipla. La regressione multipla può utilizzare - Valori numeri (regressione multipla) - Valori dicotomici (si/no, 1/0; regressione logistica). In entrambi i casi l’obiettivo del metodo è quello di creare un modello biologicamente ragionevole che si avvicini il più possibile alla realtà. Facciamo un esempio: Lamberti Nicola 43 Parte 4. Analisi statistica: i test più comuni Regressione multipla Lamberti Nicola 44 Obiettivo 2: fattori limitanti la mobilità nel paziente dializzato Mobilità (6MWD) Statura Emoglobina Peso Classe NYHA Età Forza arti inferiori Età dialitica R2 = 0,58 p < 0,0001 Parte 4. Analisi statistica: i test più comuni Per la regressione multipla esistono molteplici tipologie di scelta della variabili indipendenti (se trattenerle o meno all’interno del modello). Le più utilizzate sono due: - Scelta della variabile con selezione Stepwise (trattiene all’interno del modello solo le variabili che abbiamo una relazione con la variabile dipendente con p < 0,05 - Scelta della variabile con selezione Enter (trattiene all’interno del modello tutte le variabili che io gli inserisco (rischiando però di ottenere un modello NON significativo). - Apriamo un file e vediamo un esempio delle differenze fra queste due Lamberti Nicola 46 Parte 4. Analisi statistica: i test più comuni Nel caso invece io abbia variabili dicotomiche (come ad esempio possono essere i fattori di rischio cardiovascolare). In aggiunta le regressione logistica fornisce anche una sorta di ipotesi del rischio, che viene chiamato Odds Ratio (letteralmente divisione della probabilità). In pratica l’Odds Ratio significa quando un determinato fattore (variabile indipendente) influenzi il rischio di comparsa della variabile dipendente. Ma vediamo alcuni esempi Lamberti Nicola 47 RISULTATI (obiettivo 1): Creazione del modello statistico Snoll Roll+LNS Età > 60 OR: 4,5 Peso > 70 Roll+Cavo Roll+LNS+Cavo Mastectomia+LNS OR: 3,7 Linfedema + Mastectomia+Cavo OR: 3,0 Arto dominante OR: 2,6 Complicanze Cavo post LNS Ipertensione Dislipidemia OR: 1,7 Diabete Cardiovascolari Neurologiche Chemioterapia Osteoarticolari Radioterapia Gastroenteriche Reumatologiche Significatività del modello: R2 = 0,20; p < 0,001 Ormonoterapia Oncologiche Psichiatriche Parte 4. Analisi statistica: i test più comuni Abbiamo visto come nella regressione logistica si possano utilizzare anche variabili così definite come continue (età) che vengono possono essere opportunamente rese dicotomiche per creare un modello biologicamente ragionevole - Età - Peso - Statura - Capacità funzionale - Ecc.. Lamberti Nicola 61 Parte 4. Analisi statistica: i test più comuni Infine osserviamo come dal punto di vista statistico esistano altri due tipi di analisi che consentono un confronto che non abbiamo ancora visto e che invece può rivelarsi molto utile nella nostra professione. Il confronto fra due metodi di misura. Di solito viene fatto analizzando il confronto fra un gold standard di riferimento e un nuovo metodo di misura. Esempio. Poniamo di avere un ArmBand per la misura dei passi compiuti da un soggetto in una giornata, e lo vogliamo confrontare con un nuovo accelerometro appena uscito Lamberti Nicola 62 Parte 4. Analisi statistica: i test più comuni In questi casi si utilizza il test di Bland-Altman che confronta le differenze ottenute fra i due metodi di misura. Ovviamente più misure ho più precisa sarà la mia analisi statistica. NB: per avere un confronto ragionevole possiamo fare in due modi: - Facciamo indossare contemporaneamente allo stesso soggetto entrambi i dispositivi - Oppure abbiamo bisogno di «fissare» in anticipo il numero di passi da svolgere (ad esempio 100); in quel caso ovviamente potrò fare i miei test in due momenti separati Lamberti Nicola 63 Parte 4. Analisi statistica: i test più comuni Lamberti Nicola 64 Parte 4. Analisi statistica: i test più comuni Infine un ultimo test per confrontare la ripetibilità di una misura fatta con lo stesso test in due momenti differenti. Si utilizza l’intraclass Correlation Coefficient (ICC) che ci fornisce un valore numerico compreso fra 0 e 1 (si basa sui principi della correlazione lineare). Più è vicino a 1 più e ripetibile la misura. Una ripetibilità molto buona per un test è data da valori superiori a 0.9 Lamberti Nicola 65 Parte 4. Analisi statistica: due diversi approcci Come ultima parte affrontiamo quelli che vengono definiti due tipologie di analizzare gli outcome di uno studio: - Analisi «Intention-To-Treat» - Analisi «Per Protocol» Qualcuno le ha già sentite? Cosa sono? Lamberti Nicola 66 Parte 4. Analisi statistica: due diversi approcci Analisi «Per Protocol» Con questa metodica si analizzano i dati di un RCT a seconda dell’effettivo andamento del trial. Nel senso che se un paziente del gruppo Controllo si è comportato come un paziente del gruppo Esercizio, i suoi dati saranno aggregati a quelli del gruppo esercizio e non ai controlli. In aggiunta, questa analisi tiene conto (a grandi linee) solo dei pazienti che hanno concluso il trial, escludendo quelli che l’hanno interrotto. In un trial grande, se scegliete questa analisi, è consigliabile farla seguire dall’analisi successiva ITT Lamberti Nicola 67 Parte 4. Analisi statistica: due diversi approcci Analisi «Intention-To-Treat» Con questa metodica di analisi per gli RCT si analizzano i dati come programmato dal trial, indipendentemente dall’andamento dello stesso (e.g. se un Controllo ha fatto come gli Esercizio, viene comunque analizzato come un controllo). Con questo tipo di analisi si devono includere anche i soggetti che non hanno concluso il trial. Ma come è possibile utilizzare un loro dato se non è stato raccolto? Ci vengono in aiuto i metodi per la gestione dei «missing data» ovvero dei dati mancanti Lamberti Nicola 68 Parte 4. Analisi statistica: due diversi approcci I missing data sono frequenti negli RCT per ovvi motivi, ma possono essere rimpiazzati secondo tre metodi: - Inserendo il valore medio dell’intera popolazione a quel determinato tempo - Inserendo il valore medio di quel gruppo a quel determinato tempo - Utilizzando il miglior metodo per la gestione dei missing data, ovvero la tecnica dell’imputazione multipla (o multiple imputation). Lamberti Nicola 69 Parte 4. Analisi statistica: due diversi approcci L’imputazione multipla (o multiple imputation) è una tecnica statistica effettuata da alcuni programmi di calcolo (e.g. SPSS) che consente di rimpiazzare un dato mancante con un dato creato in maniera fittizia ma che tenga conto (secondo determinati algoritmi matematici) dell’andamento di tutti gli altri componenti di quel singolo gruppo. È considerato il miglior metodo per la gestione dei missing data, anche se per missing data > 25% rispetto all’intera popolazione, anche questo metodo perde efficacia e i risultati del vostro trial potrebbero essere compromessi. Lamberti Nicola 70 Parte 4. Analisi statistica Take Home Message - La statistica è fatta di molti test, però qui abbiamo elencato i più utilizzati - A seconda del disegno dello studio devo applicare la più corretta analisi statistica - Ricordare sempre che una p < 0.05 non è sinonimo di certezza assoluta - Presentare i propri dati con precisione (ad ogni correlazione deve essere seguito anche il livello di significatività) Lamberti Nicola 71