La Metodologia della ricerca: dalla stesura della tesi alla

La Metodologia della ricerca: dalla stesura della
tesi alla pubblicazione di uno studio clinico
Nicola Lamberti, MSc, PhD
[email protected]
Lamberti Nicola
1
Link utili
CV docente
http://docente.unife.it/nicola.lamberti
Scheda del corso e materiale didattico (slides)
http://www.unife.it/medicina/scienzemotorie/minisiti-LM/lametodologia-della-ricerca/folder_contents
Pubmed docente
https://www.ncbi.nlm.nih.gov/pubmed/?term=nicola+lamberti+ferra
ra
Lamberti Nicola
2
Lezioni
Venerdì 03 Marzo ore 14-18, aula F9
Venerdì 10 Marzo ore 14-18, aula F4
Venerdì 17 Marzo ore 14-18, aula F8
Mercoledì 22 Marzo ore 14-17, aula F3
Venerdì 24 Marzo ore 14-17, aula F4
Venerdì 31 Marzo ore 14-17, aula F4
Martedì 11 Aprile ore 14 aula F8
Frequenza obbligatoria
Lamberti Nicola
3
Parte 4. I risultati
Abbiamo completato una buona ricerca bibliografica
Abbiamo costruito il nostro razionale dello studio
Abbiamo scelto il disegno dello studio migliore possibile
Abbiamo selezionato accuratamente i soggetti
Abbiamo scelto ed effettuato con cura le misure di outcome
Abbiamo descritto con precisioni gli interventi del mio studio
Ora, dobbiamo presentare in maniera efficace i risultati
Lamberti Nicola
4
Parte 4. I risultati
La prima cosa fondamentale per avere risultati precisi e validi, è
costruire un buon dataset di raccolta dati.
Cos’è un dataset (o database)?
E’ un foglio elettronico di lavoro, che raccoglierà con precisione i
dati del mio studio/progetto, e mi aiuterà ad esplorarli prima di
affrontare un’adeguata analisi statistica.
Il dataset può essere costruito su molti programmi e sistemi, quello
certamente più comune è il foglio elettronico di calcolo Excel
Nelle prossime slides vedremo alcuni consigli utili su come
costruire un buon database (che ci renda l’analisi rapida ed efficace)
Lamberti Nicola
5
Parte 4. I risultati: creazione del dataset
Prendiamo un esempio di uno studio che io intendo realizzare
In un progetto di ricerca stanno studiando l’efficacia di due
trattamenti con l’esercizio fisico nei soggetti con recente NSTEMI.
1) Alta intensità intervallato (30 mins)_HIIT
2) Moderata intensità continuo (25 mins)_MICO
3) Gruppo di controllo (nessun intervento)_CTRL
Misure di outcome all’inizio (T0), dopo 2 settimane (T1), dopo 4
settimane (T2, fine trattamento), dopo 3 mesi (follow up T3)
- VO2max
- 6MWD
- 5-time STS
- QoL con SF-36.
Dobbiamo costruire un database (in bocca al lupo).
Chi ci vuole provare??
Lamberti Nicola
6
Parte 4. I risultati: creazione del dataset
Adesso apriremo un foglio Excel dove uno di voi verrà a creare il
dataset ideale da riempire.
La direzione dello studio ci ha informato che verranno arruolati un
minimo di 10 soggetti per ogni gruppo.
Quindi, quale volontario ci vuole provare??
Avete visto quante migliorie possono rendere la creazione del
vostro database più veloce??
Ci sono eventuali «tips» che posso utilizzare??
Lamberti Nicola
7
Parte 4. I risultati: creazione del dataset
Rapida carrellata dei vari strumenti utili che ci mette a disposizione
il foglio elettronico di calcolo per riuscire a fare un buon dataset:
- Scelta di righe e colonne
- Blocco della visualizzazione
- Trascina cella
- Medie e DS
- Funzione filtro
Lamberti Nicola
8
Parte 4. I risultati
Il primo risultato da scrivere, prima anche dell’outcome primario, è
come si è svolto il nostro studio.
Se ho uno studio con due gruppi, posso avvalermi di una flowchart
(vedi slide seguente).
Se invece ho uno studio ad esempio retrospettivo, devo riportare
come effettivamente è stato svolto il lavoro
Ad esempio: sono state consultate 500 cartelle cliniche dell’archivio
XY, dai quali sono stati estrapolati i parametri in studio. In
particolare il parametro 6MWD è stato misurato in 476 soggetti,
ecc.
Lamberti Nicola
9
Risultati
Arruolamento
Valutati per eleggibilità (n = 513)
Esclusi (n = 486)
 Non rispettati i criteri inclusione (n = 404)
 Rifiuto a partecipare (n = 82)
Randomizzati (n = 27)
Assegnazione
Gruppo Rivascolarizzazione (n = 9)
Gruppo Esercizio (n = 18)
 Ricevuto il trattamento previsto (n = 8)
 Non ricevuto il trattamento previsto (per controindicazioni
all’intervento) (n = 1)
 Ricevuto il trattamento previsto (n = 18)
 Non ricevuto il trattamento previsto (n = 0)
Follow up
Persi al follow up (n = 2)
Persi al follow up (n = 6)
 riscontro di patologia neoplastica in corso di follow up
(n = 2)
 aggravamento quadro vascolare (n = 2)
 comorbidità intercorrenti (n = 3)
 problematiche familiari (n = 1)
Analisi
Analizzati (n = 6)
Analizzati (n = 12)
 Esclusi dall’analisi (n = 0)
 Esclusi dall’analisi (n = 0)
Parte 4. Analisi statistica
Poi devo effettuare una accurata analisi statistica.
La prima cosa che devo verificare, prima ancora di scegliere
qualsiasi test, è la distribuzione dei miei dati:
- È Normale?
- Non è normale?
Le risposte alla nostra domanda le otteniamo grazie al test di
Kolmogorov – Smirnov
Che ci indica se la nostra distribuzione dei dati è normale o non
normale.
Lamberti Nicola
11
Parte 4. Analisi statistica
Cosa significa però «Normale» o «non normale»
Lamberti Nicola
12
Parte 4. Analisi statistica
Cosa significa però «Normale» o «non normale»
Lamberti Nicola
13
Parte 4. Analisi statistica
Il test di Kolmogorov – Smirnov ci risponde automaticamente se la
nostra distribuzione dei dati è normale oppure no
Lamberti Nicola
14
Parte 4. Analisi statistica
Ma perché è così importante determinare la distribuzione dei dati?
Perché a seconda che ogni variabile venga distribuita in maniera
normale o non normale, ad essa vanno applicate due speciali
appendici della statistica:
- Statistica parametrica (per distribuzioni normali)
- Statistica non parametri (per distribuzioni non normali).
Da un punto di vista più strettamente tecnico, a seconda della
distribuzione cambia il modo di esprimere le variabili:
- Normale: media ± deviazione standard
- Non normale: mediana (range interquartile)
Lamberti Nicola
15
Parte 4. Analisi statistica
La media:
In statistica, la media è un singolo valore numerico che descrive
sinteticamente un insieme di dati. Esistono varie tipologie di media
che possono essere scelte per descrivere un fenomeno: quelle più
comunemente impiegate sono le tre cosiddette medie pitagoriche
(aritmetica, geometrica e armonica).
Nel linguaggio ordinario, con il termine media si intende
comunemente la media aritmetica.
Media = (somma delle variabili) / numero delle variabili
Lamberti Nicola
16
Parte 4. Analisi statistica
La media:
In un foglio di calcolo Excel si esprime con la formula
=media(C1:C9)
Deviazione standard:
o scarto quadratico medio è uno dei modi per esprimere la
dispersione dei dati intorno ad un indice di posizione, quale può
essere, ad esempio, la media aritmetica o una sua stima.
Vi risparmio la formula per calcolarla
In Excel
=dev.st(C1:C9)
Lamberti Nicola
17
Parte 4. Analisi statistica
La mediana:
si definisce la mediana (o valore mediano) come il valore assunto
dalle unità statistiche che si trovano nel mezzo della distribuzione.
In un foglio di calcolo Excel si esprime con la formula
=mediana(C1:C9)
Lamberti Nicola
18
Parte 4. Analisi statistica
Il range interquartile:
I quartili sono quei valori/modalità che ripartiscono la popolazione
in quattro parti di uguale numerosità;
La differenza tra il terzo ed il primo quartile è un indice di
dispersione ed è detto scarto (o range) interquartile; i quartili
vengono inoltre utilizzati per rappresentare un Box-plot.
Lamberti Nicola
19
Parte 4. Analisi statistica: i test più comuni
La scelta del test statistico più appropriato dipende dalla tipologia di
studio che io ho intrapreso.
Partiamo utilizzando come esempio lo studio RCT di cui abbiamo
creato il database in precedenza.
La prima cosa che dobbiamo osservare è se nei nostri gruppi
esistono sbilanciamenti che li rendono diversi in partenza.
Infatti se io ho un gruppo significativamente più scarso al baseline,
posso interpretare in maniera errata i risultati che ottengo.
Lamberti Nicola
20
Parte 4. Analisi statistica: i test più comuni
Il test più comune che confronta due gruppi è:
- T-test di Student per campioni indipendenti (parametrico)
- U-test di Mann-Whitney per campioni indip (non parametrico).
Esempio con il valore di baseline di 6MWD fra CTRL e HIIT
Lamberti Nicola
21
Parte 4. Analisi statistica: i test più comuni
Possiamo affermare che i due gruppi, pur presentando un valore di
6MWD che sembra piuttosto diverso, in realtà non sono così
distanti fra loro, e posso assumermi con tranquillità la responsabilità
di dire: «al baseline i due gruppi non sono diversi fra loro per la
misura 6MWD».
Però devo fare attenzione, avevo due campioni molto piccolo (7 vs
8); probabilmente ingrandendo il campione (15 vs 15) la differenza
che avrei trovato sarebbe stata significativa.
Lamberti Nicola
22
Parte 4. Analisi statistica: i test più comuni
Lo stesso identico test lo posso utilizzare, ad esempio, per valutare
l’outcome del mio lavoro;
Posso confrontare le differenze in termini di 6MWD fra il gruppo di
CTRL e il gruppo HIIT. In questo caso avrò bisogno di verificare se
la differenza sia significativamente diversa
Lamberti Nicola
23
Parte 4. Analisi statistica: i test più comuni
Lamberti Nicola
24
Parte 4. Analisi statistica: i test più comuni
Se invece di avere due soli gruppi, ne ho tre o più, posso avvalermi
di un’altra procedura statistica, che posso utilizzare sia per l’analisi
intergruppo (between groups) che per quella intragruppo (withingroup).
Si chiama One-way Analysis of Variance (ANOVA)
- Integruppo: valore di 6MWD baseline per i tre gruppi
- integruppo: variazioni di 6MWD nei tre gruppi
In questo senso dobbiamo considerare anche il corrispettivo non
parametrico dell’ANOVA, che si chiama test di Kruskal-Wallis
Lamberti Nicola
25
Parte 4. Analisi statistica: i test più comuni
ANOVA intergruppo al baseline
Lamberti Nicola
26
Parte 4. Analisi statistica: i test più comuni
ANOVA intergruppo variazioni 6MWD
Lamberti Nicola
27
Parte 4. Analisi statistica: i test più comuni
E nel caso, se avessi sempre i miei tre gruppi, ma avessi un
parametro significativamente diverso al baseline (tipo l’età) devo
considerare come questa possa influire sull’outcome.
Si utilizza in questo caso un metodo statistico chiamato
Si chiama One-way Analysis of Co-Variance (ANCOVA)
- integruppo: variazioni di 6MWD nei tre gruppi; si utilizza come
covariata ad esempio l’età (che noi aveva trovato come
differente)
Lamberti Nicola
28
Parte 4. Analisi statistica: i test più comuni
ANCOVA intergruppo variazioni 6MWD (età covariata)
Lamberti Nicola
29
Parte 4. Analisi statistica: i test più comuni
ANCOVA intergruppo variazioni 6MWD (età covariata)
Lamberti Nicola
30
Parte 4. Analisi statistica: i test più comuni
Sempre rimanendo nel campo delle statistiche più semplici,
mettiamo ad esempio che io voglia verificare delle variabili
dicotomiche (si/no, presente/assente, maschio/femmina) se sono
diverse nei due gruppi in studio.
Posso usare diverse metodiche di test, (chi-quadro, McNemar,
tabelle 2x2) ma sicuramente la più semplice e comune è data dal
test di Fisher (Fisher’s exact test).
Mettiamo ad esempio di voler verificare se maschi e femmine sono
distribuiti in egual misura nei due gruppi CTRL e HIIT
Lamberti Nicola
31
Parte 4. Analisi statistica: i test più comuni
(Fisher’s exact test)
Lamberti Nicola
32
Parte 4. Analisi statistica: i test più comuni
Proseguendo nella nostra carrellata delle analisi, dobbiamo prendere
in considerazione le misure di concordanza / discordanza fra due
variabili.
La più conosciuta certamente è la retta di correlazione semplice.
Quando le variabili che compongono la variabile doppia (X,Y) sono
entrambe numeriche, è possibile analizzare un particolare legame
statistico tra i caratteri, la correlazione lineare.
Studiare la correlazione lineare significa investigare l’esistenza di
un legame per cui a variazioni di un carattere corrispondono
variazioni dell’altro carattere secondo una relazione lineare.
Lamberti Nicola
33
Parte 4. Analisi statistica: i test più comuni
Analisi grafica della correlazione
Un primo modo per verificare l’esistenza di una correlazione
lineare tra due caratteri quantitativi X e Y, è quello di rappresentare
la distribuzione doppia (X,Y) attraverso un grafico a dispersione (o
scatterplot).
Uno scatterplot è un grafico in cui ogni osservazione della variabile
doppia (xl, yl) viene rappresentata come un punto sugli assi
cartesiani in cui:
all’asse delle ascisse sono associati i valori della variabile X
all’asse delle ordinate sono invece associati i valori della
variabile Y
Lamberti Nicola
34
Parte 4. Analisi statistica: i test più comuni
Date due variabili statistiche X e Y, l'indice di correlazione è
definito come la loro covarianza divisa per il prodotto delle
deviazioni standard delle due variabili:
Il coefficiente assume sempre valori compresi tra -1 e 1
Lamberti Nicola
35
Parte 4. Analisi statistica: i test più comuni
Prendiamo il nostro esempio e proviamo a correlare la 6MWD al
baseline di tutti con il tempo impiegato per completare il 5STS di
tutti.
Nel caso abbiamo una distribuzione normale, utilizziamo l’indice di
correlazione di Pearson; con distribuzione non normale l’indice di
correlazione rho di Spearman.
Cosa vi aspettate di vedere?
Una correlazione diretta o inversa?
E quanto forte?
Lamberti Nicola
36
Parte 4. Analisi statistica: i test più comuni
Correlazione
Lamberti Nicola
37
Parte 4. Analisi statistica: i test più comuni
Correlazione
Lamberti Nicola
38
Parte 4. Analisi statistica: i test più comuni
Se invece abbiamo più variabili in gioco, dobbiamo utilizzare una
regressione
Definizione di regressione
L'analisi della regressione è una tecnica usata per analizzare una
serie di dati che consistono in una variabile dipendente e una o più
variabili indipendenti. Lo scopo è stimare una eventuale relazione
funzionale esistente tra la variabile dipendente e le variabili
indipendenti.
Più formalmente, in statistica la regressione lineare rappresenta un
metodo di stima del valore atteso condizionato di una variabile
dipendente, dati i valori di altre variabili indipendenti
Lamberti Nicola
39
Parte 4. Analisi statistica: i test più comuni
La regressione utilizza il valore di R al quadrato (R2)
L'R², o coefficiente di determinazione, è una misura della bontà
dell'adattamento (in inglese fitting) della regressione lineare stimata
ai dati osservati.
La regressione LINEARE utilizza due variabili, quando data una di
queste (dipendente) si può stimare il valore di un’altra variabile
(indipendente) grazie ad una equazione di regressione.
Vediamo un esempio.
Lamberti Nicola
40
Parte 4. Analisi statistica: i test più comuni
Regressione lineare
Lamberti Nicola
41
Parte 4. Analisi statistica: i test più comuni
Più il valore di (R2) è elevato, più il modello è buono, quindi vicino
alla realtà.
Il valore del coefficiente di determinazione R2 varia fra 0 e 1.
Lamberti Nicola
42
Parte 4. Analisi statistica: i test più comuni
Quando invece ho più variabili indipendenti ad influenzare una
variabile dipendente, ho bisogno di utilizzare non più una
regressione lineare, ma una regressione multipla. La regressione
multipla può utilizzare
- Valori numeri (regressione multipla)
- Valori dicotomici (si/no, 1/0; regressione logistica).
In entrambi i casi l’obiettivo del metodo è quello di creare un
modello biologicamente ragionevole che si avvicini il più possibile
alla realtà.
Facciamo un esempio:
Lamberti Nicola
43
Parte 4. Analisi statistica: i test più comuni
Regressione multipla
Lamberti Nicola
44
Obiettivo 2: fattori limitanti la mobilità nel paziente dializzato
Mobilità (6MWD)
Statura
Emoglobina
Peso
Classe NYHA
Età
Forza
arti inferiori
Età dialitica
R2 = 0,58
p < 0,0001
Parte 4. Analisi statistica: i test più comuni
Per la regressione multipla esistono molteplici tipologie di scelta
della variabili indipendenti (se trattenerle o meno all’interno del
modello). Le più utilizzate sono due:
- Scelta della variabile con selezione Stepwise (trattiene all’interno
del modello solo le variabili che abbiamo una relazione con la
variabile dipendente con p < 0,05
- Scelta della variabile con selezione Enter (trattiene all’interno del
modello tutte le variabili che io gli inserisco (rischiando però di
ottenere un modello NON significativo).
- Apriamo un file e vediamo un esempio delle differenze fra
queste due
Lamberti Nicola
46
Parte 4. Analisi statistica: i test più comuni
Nel caso invece io abbia variabili dicotomiche (come ad esempio
possono essere i fattori di rischio cardiovascolare). In aggiunta le
regressione logistica fornisce anche una sorta di ipotesi del rischio,
che viene chiamato Odds Ratio (letteralmente divisione della
probabilità).
In pratica l’Odds Ratio significa quando un determinato fattore
(variabile indipendente) influenzi il rischio di comparsa della
variabile dipendente.
Ma vediamo alcuni esempi
Lamberti Nicola
47
RISULTATI
(obiettivo 1): Creazione del modello statistico
Snoll
Roll+LNS
Età > 60
OR: 4,5
Peso > 70
Roll+Cavo
Roll+LNS+Cavo
Mastectomia+LNS
OR: 3,7
Linfedema +
Mastectomia+Cavo
OR: 3,0
Arto dominante
OR: 2,6
Complicanze
Cavo post LNS
Ipertensione
Dislipidemia
OR: 1,7
Diabete
Cardiovascolari
Neurologiche
Chemioterapia
Osteoarticolari
Radioterapia
Gastroenteriche
Reumatologiche
Significatività del modello:
R2 = 0,20; p < 0,001
Ormonoterapia
Oncologiche
Psichiatriche
Parte 4. Analisi statistica: i test più comuni
Abbiamo visto come nella regressione logistica si possano utilizzare
anche variabili così definite come continue (età) che vengono
possono essere opportunamente rese dicotomiche per creare un
modello biologicamente ragionevole
- Età
- Peso
- Statura
- Capacità funzionale
- Ecc..
Lamberti Nicola
61
Parte 4. Analisi statistica: i test più comuni
Infine osserviamo come dal punto di vista statistico esistano altri
due tipi di analisi che consentono un confronto che non abbiamo
ancora visto e che invece può rivelarsi molto utile nella nostra
professione.
Il confronto fra due metodi di misura.
Di solito viene fatto analizzando il confronto fra un gold standard di
riferimento e un nuovo metodo di misura.
Esempio. Poniamo di avere un ArmBand per la misura dei passi
compiuti da un soggetto in una giornata, e lo vogliamo confrontare
con un nuovo accelerometro appena uscito
Lamberti Nicola
62
Parte 4. Analisi statistica: i test più comuni
In questi casi si utilizza il test di Bland-Altman che confronta le
differenze ottenute fra i due metodi di misura. Ovviamente più
misure ho più precisa sarà la mia analisi statistica.
NB: per avere un confronto ragionevole possiamo fare in due modi:
- Facciamo indossare contemporaneamente allo stesso soggetto
entrambi i dispositivi
- Oppure abbiamo bisogno di «fissare» in anticipo il numero di
passi da svolgere (ad esempio 100); in quel caso ovviamente
potrò fare i miei test in due momenti separati
Lamberti Nicola
63
Parte 4. Analisi statistica: i test più comuni
Lamberti Nicola
64
Parte 4. Analisi statistica: i test più comuni
Infine un ultimo test per confrontare la ripetibilità di una misura
fatta con lo stesso test in due momenti differenti.
Si utilizza l’intraclass Correlation Coefficient (ICC) che ci fornisce
un valore numerico compreso fra 0 e 1 (si basa sui principi della
correlazione lineare).
Più è vicino a 1 più e ripetibile la misura.
Una ripetibilità molto buona per un test è data da valori superiori a
0.9
Lamberti Nicola
65
Parte 4. Analisi statistica: due diversi approcci
Come ultima parte affrontiamo quelli che vengono definiti due
tipologie di analizzare gli outcome di uno studio:
- Analisi «Intention-To-Treat»
- Analisi «Per Protocol»
Qualcuno le ha già sentite? Cosa sono?
Lamberti Nicola
66
Parte 4. Analisi statistica: due diversi approcci
Analisi «Per Protocol»
Con questa metodica si analizzano i dati di un RCT a seconda
dell’effettivo andamento del trial.
Nel senso che se un paziente del gruppo Controllo si è comportato
come un paziente del gruppo Esercizio, i suoi dati saranno aggregati
a quelli del gruppo esercizio e non ai controlli.
In aggiunta, questa analisi tiene conto (a grandi linee) solo dei
pazienti che hanno concluso il trial, escludendo quelli che l’hanno
interrotto.
In un trial grande, se scegliete questa analisi, è consigliabile farla
seguire dall’analisi successiva ITT
Lamberti Nicola
67
Parte 4. Analisi statistica: due diversi approcci
Analisi «Intention-To-Treat»
Con questa metodica di analisi per gli RCT si analizzano i dati
come programmato dal trial, indipendentemente dall’andamento
dello stesso (e.g. se un Controllo ha fatto come gli Esercizio, viene
comunque analizzato come un controllo).
Con questo tipo di analisi si devono includere anche i soggetti che
non hanno concluso il trial. Ma come è possibile utilizzare un loro
dato se non è stato raccolto?
Ci vengono in aiuto i metodi per la gestione dei «missing data»
ovvero dei dati mancanti
Lamberti Nicola
68
Parte 4. Analisi statistica: due diversi approcci
I missing data sono frequenti negli RCT per ovvi motivi, ma
possono essere rimpiazzati secondo tre metodi:
- Inserendo il valore medio dell’intera popolazione a quel
determinato tempo
- Inserendo il valore medio di quel gruppo a quel determinato
tempo
- Utilizzando il miglior metodo per la gestione dei missing data,
ovvero la tecnica dell’imputazione multipla (o multiple
imputation).
Lamberti Nicola
69
Parte 4. Analisi statistica: due diversi approcci
L’imputazione multipla (o multiple imputation) è una tecnica
statistica effettuata da alcuni programmi di calcolo (e.g. SPSS) che
consente di rimpiazzare un dato mancante con un dato creato in
maniera fittizia ma che tenga conto (secondo determinati algoritmi
matematici) dell’andamento di tutti gli altri componenti di quel
singolo gruppo.
È considerato il miglior metodo per la gestione dei missing data,
anche se per missing data > 25% rispetto all’intera popolazione,
anche questo metodo perde efficacia e i risultati del vostro trial
potrebbero essere compromessi.
Lamberti Nicola
70
Parte 4. Analisi statistica
Take Home Message
- La statistica è fatta di molti test, però qui
abbiamo elencato i più utilizzati
- A seconda del disegno dello studio devo
applicare la più corretta analisi statistica
- Ricordare sempre che una p < 0.05 non è
sinonimo di certezza assoluta
- Presentare i propri dati con precisione (ad ogni
correlazione deve essere seguito anche il livello
di significatività)
Lamberti Nicola
71