Master in “Evidence Based Practice e Metodologia della Ricerca clinico-assistenziale” Gestione ed Analisi Statistica dei dati Daniela Fortuna 13 giugno 2014 ALMA MATER STUDIORUM – Università di Bologna Argomenti Parte teorica Relazioni tra variabili Analisi univariata – Regressione lineare – Correlazione Analisi multivariata – Regressione lineare multivariata – Regressione logistica ALMA MATER STUDIORUM – Università di Bologna Le fasi dell’analisi statistica Descrizione del campione 1° step frequenze descrittive delle variabili d’interesse per lo studio 2° step Inferenza dal campione alla popolazione :Stima Intervalli di confidenza 3° step Analisi Univariata Significatività delle differenze delle caratteristiche tra i gruppi a confronto Test di ipotesi (p-value) misure di associazione tra variabili quantitative (correlazione e regressione) regressione che esprimono la relazione lineare tra due variabili misurabili 4° step Analisi multivariata che esprime la relazione tra l’outcome oggetto dello studio e più variabili considerate contemporaneamente ALMA MATER STUDIORUM – Università di Bologna Misure di associazione tra variabili quantitative Con il Test di ipotesi si mettono a confronto due misure per valutare la significatività della loro differenza ma il test d’ipotesi non ci dice nulla riguardo il tipo di relazione che esiste tra 2 variabili Il passo successivo è trovare una funzione matematica che esprime la relazione tra le variabili ALMA MATER STUDIORUM – Università di Bologna Misure di associazione tra variabili quantitative ID pazienti Età Urea mmol/L 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 60 76 81 89 44 58 55 74 45 67 72 91 76 39 71 56 77 37 64 84 3 5,6 7,8 9,6 5,4 7,3 3,1 6,8 4,7 4 13,69 14,89 7,8 4,6 7,4 4,6 6,2 4,2 11,7 6,9 Partiamo con un esempio : Su un campione di 20 pazienti abbiamo rilevato l’età e la concentrazione di urea per misurare l’associazione tra queste due variabili. Ovvero vogliamo valutare se al crescere dell’età la concentrazione di urea aumenta oppure diminuisce ALMA MATER STUDIORUM – Università di Bologna Misure di associazione tra variabili quantitative ID pazienti Età Urea mmol/L 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 60 76 81 89 44 58 55 74 45 67 72 91 76 39 71 56 77 37 64 84 3 5,6 7,8 9,6 5,4 7,3 3,1 6,8 4,7 4 13,69 14,89 7,8 4,6 7,4 4,6 6,2 4,2 11,7 6,9 Dal grafico sembra che ci sia una relazione. Verifichiamo se questa relazione è lineare e se può essere espressa mediante l’equazione di una retta Riportiamo i valori della tabella in un grafico ID Paz 2 ID Paz 1 ALMA MATER STUDIORUM – Università di Bologna Misure di associazione tra variabili quantitative la RETTA di REGRESSIONE Tra questi punti possono passare diverse rette. Dobbiamo trovare la retta che sia il più possibile vicina alla maggior parte dei punti indicati sul grafico, e per individuare la retta che interpola meglio i dati utilizziamo il metodo dei minimi quadrati y y La retta che si ottiene mediante il metodo dei minimi quadrati, è quella che minimizza la somma dei quadrati delle differenze tra ciascun punto osservato e i punti della retta. Retta ottenuta con il metodo dei minimi quadrati xx ALMA MATER STUDIORUM – Università di Bologna RETTA di REGRESSIONE METODO DEI MINIMI QUADRATI Indichiamo con x= età y= Urea ŷ= valori di urea stimati dalla retta per ogni valore di x La retta che si ottiene mediante il metodo dei minimi quadrati, è quella che minimizza la seguente somma y (y- ŷ) Retta ottenuta con il metodo dei minimi quadrati Σ (y- ŷ)2 x ALMA MATER STUDIORUM – Università di Bologna RETTA di REGRESSIONE ID pazienti x y ŷ (Valori di urea stimati dalla retta) 1 60 76 81 89 44 58 55 74 45 67 72 91 76 39 71 56 77 37 64 84 3 5,6 7,8 9,6 5,4 7,3 3,1 6,8 4,7 4 13,69 14,89 7,8 4,6 7,4 4,6 6,2 4,2 11,7 6,9 6,3 8,2 8,8 9,8 4,3 6,0 5,7 8,0 4,5 7,1 7,7 10,0 8,2 3,7 7,6 5,8 8,3 3,5 6,7 9,2 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 (y-ŷ) (y-ŷ) -3,3 10,7 -2,6 6,7 -1,0 1,0 -0,2 0,0 1,1 1,1 1,3 1,6 -2,6 6,6 -1,2 1,3 0,2 0,1 -3,1 9,7 6,0 35,7 4,9 23,9 -0,4 0,2 0,9 0,7 -0,2 0,0 -1,2 1,4 -2,1 4,5 0,7 0,5 5,0 24,5 -2,3 5,1 Mediante la retta di regressione sono stati stimati dei valori di urea corrispondenti all’età. La differenza tra i valori stimati e i valori osservati si indicano come residui La somma dei quadrati delle differenze (residui) è: Σ (y- ŷ)2 = 135,4 E poiché abbiamo usato il metodo dei minimi quadrati per individuare la retta che meglio interpola i dati, questo è il più piccolo valore che si poteva ottenere tra tutte le possibili rette ALMA MATER STUDIORUM – Università di Bologna RETTA di REGRESSIONE La retta di regressione viene espressa mediante l’equazione: ŷ=a+bx a = intercetta (ovvero il valore in cui la retta interseca l’asse delle Y b = Pendenza della retta indica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X La retta che abbiamo stimato sui nostri dati ha la seguente equazione: ŷ=-0,963+0,12*x Quindi poiché b=0,12 possiamo concludere che al crescere di 1 anno di età la concentrazione di urea nel sangue cresce di 0, 12 mmol/L ALMA MATER STUDIORUM – Università di Bologna RETTA di REGRESSIONE ID pazienti x y ŷ (Valori di urea stimati dalla retta) 1 60 76 81 89 44 58 55 74 45 67 72 91 76 39 71 56 77 37 64 84 3 5,6 7,8 9,6 5,4 7,3 3,1 6,8 4,7 4 13,69 14,89 7,8 4,6 7,4 4,6 6,2 4,2 11,7 6,9 6,3 8,2 8,8 9,8 4,3 6,0 5,7 8,0 4,5 7,1 7,7 10,0 8,2 3,7 7,6 5,8 8,3 3,5 6,7 9,2 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 (y-ŷ) (y-ŷ) -3,3 10,7 -2,6 6,7 -1,0 1,0 -0,2 0,0 1,1 1,1 1,3 1,6 -2,6 6,6 -1,2 1,3 0,2 0,1 -3,1 9,7 6,0 35,7 4,9 23,9 -0,4 0,2 0,9 0,7 -0,2 0,0 -1,2 1,4 -2,1 4,5 0,7 0,5 5,0 24,5 -2,3 5,1 Da questa equazione ŷ=-0,963+0,12*x Sostituendo ai valori della x l’età, si ottengono i valori stimati di urea Ad esempio per x=60 ŷ=-0,963+0,12*60= 6,3 ALMA MATER STUDIORUM – Università di Bologna Coefficienti non standardizzati Modello 1 Deviazion e sta nd ard Err ore B (Costante) età Coefficienti standardizzati -,963 2,633 ,120 ,039 Beta Intervallo di confidenza 95,0% per B t ,589 Sig. Limite inf eri ore Limite su per ior e -,366 ,719 -6,496 4,569 3,096 ,006 ,039 ,202 Riepilogo del modello Modello 1 R-quadrato R-quadrato corretto R ,589 a ,347 ,311 Deviazione standard Errore della stima 2,74346 a. Predittori: (Costante), età ALMA MATER STUDIORUM – Università di Bologna Nel valutare la relazione tra variabili quantitative (cioè misurabili) ci poniamo le seguenti domande 1. Esiste una associazione lineare tra due variabili? 2. Che verso ha tale relazione? 3. Qual è la forza di tale relazione? ALMA MATER STUDIORUM – Università di Bologna 1. Esiste una associazione lineare tra due variabili? Verifica grafica: La relazione è di tipo lineare se, rappresentata su assi cartesiani, si avvicina alla forma di una retta. In questo caso, all’aumentare di X aumenta Y. Y Ad esempio, all’aumentare dell’altezza (X) di una persona aumenta anche il suo peso (Y). X ALMA MATER STUDIORUM – Università di Bologna 1. Esiste una associazione lineare tra due variabili? Verifica grafica: La relazione è di tipo non lineare, lineare se rappresentata su assi cartesiani, ha un andamento curvilineo (parabola o iperbole). Y In questo caso a livelli bassi e alti di X corrispondono livelli bassi di Y; mentre a livelli intermedi di X corrispondono livelli alti di Y. X ALMA MATER STUDIORUM – Università di Bologna 2. Che verso ha tale relazione? Il verso (o direzione) può essere: positivo, se all’aumentare di una variabile aumenta anche l’altra. Il verso (o direzione) può essere: negativo, se all’aumentare di una variabile l’altra diminuisce. Y Y X X ALMA MATER STUDIORUM – Università di Bologna Relazione lineare: retta di regressione Se esiste una relazione lineare allora Y può essere espressa in funzione di X mediante l’equazione : Variabile dipendente Variabile indipendente ovvero Esiste una funzione matematica che esprime la relazione tra la Y (variabile dipendente) e la X (variabile indipendente) a = intercetta (ovvero il valore in cui la retta interseca l’asse delle Y b = Pendenza della retta indica di quante volte cresce o diminuisce la Y al crescere di 1 unità della X Y Y X X ALMA MATER STUDIORUM – Università di Bologna La regressione lineare con SPSS Dal dataset Completo che abbiamo creato ieri verificare se tra Età emodialitica (in mesi) e l’Età BH c’è una relazione lineare La variabile dipendente è l Età emodialitica SPSS Click Analizza Regressione lineare… lineare SPSS Click Analizza Regressione Stima di curve Click lineare, includi costante nell’equazione, visualizza grafici ALMA MATER STUDIORUM – Università di Bologna Esempio con SPSS: risultato Coefficientia Modello Coefficienti non standardizzati B (Costante) 1 Età_emodialitica(m esi) Coefficienti standardizz ati Deviazione standard Errore 23,337 1,551 ,120 ,016 t Sig. Beta ,390 Intervallo di confidenza 95,0% per B Limite inferiore Limite superiore 15,048 ,000 20,286 26,388 7,723 ,000 ,090 ,151 a. Variabile dipendente: Età_BH(mesi) Il risultato ci dice che l’età BH dipende linearmente dall’età emodialitica in modo significativo. Al crescere di un unità dell’età emodialitica l’età BH cresce di 0,12 mesi Quindi l’equazione della retta di regressione è: Y=23,34+0,12X Mediante questa equazione possiamo stimare l’età BH per ogni età emodialitica p-value ALMA MATER STUDIORUM – Università di Bologna Esempio con SPSS: risultato Quindi non tutta la variabilità dell’Età BH è spiegata dall’età emodialitica. Il rapporto tra la varianza della Y stimata e la varianza osservata della Y, indicata anche come: Graficamente: Scarti positivi Varianza spiegata = R2 Varianza totale Scarti negativi Coefficiente di determinazione Riepilogo del modello e stime dei parametri Variabile dipendente: Età_BH(mesi) Equazion e Riepilogo del modello Rquadrato Lineare ,152 F 59,644 df1 Stime di parametri df2 1 332 Sig. ,000 Costant e 23,337 b1 ,120 La variabile indipendente è Età_emodialitica(mesi). ALMA MATER STUDIORUM – Università di Bologna Coefficiente di determinazione Varianza spiegata = R2 Varianza totale Varianza spiegata è la varianza attribuibile alla relazione che sussiste tra X ed Y. Ed è calcolata come differenza della retta di regressione dal valore medio Varianza spiegata(Y) = Σ (Ŷ-media di y)2 n y stimato dalla retta di regressione Varianza totale è la varianza di Y: varianza(Y) = Σ (y-media di y)2 n Quindi il coefficiente di determinazione R2 fornisce la proporzione della varianza di Y determinata dalla sua relazione con X. Nel nostro esempio R2 =0,152, significa che l’età emodialitica spiega il 15,8% della variabilità dell’Età BH ovvero che il rimanente 85% è spiegato da altri fattori che non sono stati considerati ALMA MATER STUDIORUM – Università di Bologna Retta di regressione La retta di regressione ha la proprietà di minimizzare la somma dei quadrati delle differenze tra i valori osservati e quelli stimati mediante la retta Scarti (differenze) di ciascun valore rispetto al valore stimato dalla retta 25 20 15 10 5 0 0 20 40 60 80 100 120 ALMA MATER STUDIORUM – Università di Bologna 3. Qual è la forza di tale relazione? Quanto più i punti sono raggruppati attorno ad una retta, tanto più forte è la relazione tra due variabili. Y Y X X ALMA MATER STUDIORUM – Università di Bologna Se i punti sono dispersi in maniera uniforme, invece, tra le due variabili non esiste alcuna relazione. ALMA MATER STUDIORUM – Università di Bologna misure di associazione tra variabili quantitative Correlazione La retta di regressione esprime la relazione funzionale tra Y ed X , quindi dopo aver stimato l’intercetta a e la pendenza b, mediante l’equazione della retta possiamo ottenere i valori di Y corrispondenti a ciascun valore di X La correlazione indica la tendenza che hanno due variabili (X e Y) a variare insieme, ovvero, a covariare e quindi indica la forza o l’intensità del loro legame. ALMA MATER STUDIORUM – Università di Bologna Coefficiente di correlazione Può assumere valori compresi tra -1 e 1 Y Se assume valori positivi allora tra le 2 variabili c’è una correlazione positiva: positiva al crescere di una variabile anche l’altra cresce Se assume valori negativi allora tra le 2 variabili c’è una correlazione negativa : al crescere di una variabile l’altra decresce X Y X Se assume valore 0 significa che non esiste relazione lineare tra le due variabili ALMA MATER STUDIORUM – Università di Bologna Coefficiente di correlazione di Pearson Si usa per variabili Quantitative Indicando con X e Y le due variabili di cui vogliamo calcolare la correlazione Covarianza(X, Y) R= varianza(X) * varianza(Y) sommatoria Dove la Covarianza(X, Y) = varianza(X) = varianza(Y) = Σ (x-media di x)*(y-media di y) Numerosità del campione n Σ (x-media di x)2 n Σ (y-media di y)2 n ALMA MATER STUDIORUM – Università di Bologna La Correlazione con SPSS Nel dataset Completo calcolate la correlazione tra l’Età BH e l’ Età emodialitica utilizzando SPSS SPSS Click Correlazione bivariata ALMA MATER STUDIORUM – Università di Bologna La Correlazione con SPSS Correlazioni Correlazione di Pearson Età_BH(mesi) Età_emod ialitica(m esi) 1 ,390** Sig. (2-code) N Correlazione di Pearson Età_emodialitica (mesi) Età_BH(m esi) ,000 334 334 ,390** 1 Sig. (2-code) ,000 N 334 334 **. La correlazione è significativa al livello 0,01 (2-code). Il coefficiente di correlazione è 0,39 ed è significativo p-value=0,000, è positivo e quindi tra l’Età BH e l’ età emodialitica esiste una correlazione positiva. Il quadrato dell’indice di correlazione fornisce il coefficiente di determinazione: 0,39x0,39=0,152 ALMA MATER STUDIORUM – Università di Bologna Coefficiente di correlazione Per calcolare il coefficiente di correlazione è necessario che le variabili siano quantitative o ordinali: Quantitative Ordinali coefficiente di correlazione di Pearson coefficienti di correlazione di Spearman (per ranghi) ALMA MATER STUDIORUM – Università di Bologna Coefficiente di correlazione di Spearman Si usa per variabili Ordinali ed è un coefficiente di correlazione tra ranghi Ad es. dai dati rilevati su 357 pazienti, il coefficiente di correlazione tra VAS ed età si ottiene nel modo seguente: VAS N° ADL N° pazienti rango 0 170 1 1 25 2 2 43 3 3 30 4 4 19 5 5 22 6 6 22 7 7 12 8 8 6 9 9 4 10 10 2 11 rango 0 6 1 8 2 10 3 16 4 11 5 30 6 276 1 2 3 4 5 6 rango Vas rango ADL 1 1 1 1 1 1 1 2 2 2 2 2 1 2 3 4 5 6 7 1 2 3 4 5 n° differenza tra pazienti ranghi 2 1 4 7 5 12 139 1 1 2 2 19 0 -1 -2 -3 -4 -5 -6 1 0 -1 -2 -3 7 ALMA MATER STUDIORUM – Università di Bologna Coefficiente di correlazione di Spearman rango Vas rango ADL 1 1 1 1 1 1 1 2 2 2 2 2 1 2 3 4 5 6 7 1 2 3 4 5 n° differenza tra pazienti ranghi 2 1 4 7 5 12 139 1 1 2 2 19 0 -1 -2 -3 -4 -5 -6 1 0 -1 -2 -3 Si calcola il coefficiente di correlazione di Spearman Rs = 1- 6 Σ D2 n*(n2-1) Dove D2 è la differenza al quadrato tra i ranghi ALMA MATER STUDIORUM – Università di Bologna Correlazione di Spearman tra VAS e ADL: risultato di SPSS Questo è il risultato della correlazione tra la VAS e l’ADL Misure simmetriche Valore Ordinale per ordinale Intervallo per intervallo N. di casi validi E.S. asint. T appross. a b Sig. appross . Tau-b di Kendall -.080 .045 -1.767 .077 Tau-c di Kendall -.049 .028 -1.767 .077 Correlazione di Spearman -.093 .052 -1.749 .081 R di Pearson -.064 .051 -1.202 .230 c c 355 Correlazione -0,93: è negativa quindi al crescere dell’ADL la VAS decresce ma questa correlazione non è significativa (p-value=0.081), ALMA MATER STUDIORUM – Università di Bologna Coefficiente di correlazione di Spearman in SPSS SPSS Click Analizza Statistiche descrittive Tavole di contingenza Statistiche Click Correlazioni, Tau-b di Kendall, Tau-c di Kendall SPSS Click Analizza Correlazione bivariata ALMA MATER STUDIORUM – Università di Bologna Esercizio Utilizzando il dataset Completo Calcolate: Retta di regressione e correlazione tra le seguenti variabili: • VAS ed età • VAS e v_difficoltà_inserimento • VAS e a_difficoltà_inserimento • VAS e effetto trampolino • VAS e a_calibro • Ematocrito ed età • Ematocrito ed età emodialitica • Ematocrito ed età BH • Età emodialitica e BMI ALMA MATER STUDIORUM – Università di Bologna Analisi Statistica multivariata E’ la parte più importante dello studio • L’Analisi multivariata permette di stimare un modello matematico di associazione tra l’endpoint di interesse (variabile dipendente) e più variabili considerate contemporaneamente (variabili indipendenti) Variabile dipendente Y=a+b1X1+b2X2 Variabili indipendenti ALMA MATER STUDIORUM – Università di Bologna Analisi di regressione Esempio Regressione lineare semplice: vogliamo stimare la relazione tra la pressione sistolica arteriosa e il peso corporeo Dati su 10 soggetti Diagramma di dispersione Pressione 1 2 3 4 5 6 7 8 9 10 Totale media sistolica arteriosa (PAS) (mm Hg) 130 110 130 120 150 125 140 135 150 160 1350 135 Peso corporeo (Kg) 60 60 65 65 70 70 75 75 80 80 700 70 170 PAS (mm Hg) N° soggetti 160 150 140 130 120 110 100 55 60 65 70 75 80 85 Peso (Kg) C’è una tendenza della PAS ad aumentare al crescere del peso ALMA MATER STUDIORUM – Università di Bologna PAS (mm Hg) Analisi di regressione: esempio regressione lineare semplice 170 160 150 140 130 120 110 Questi punti sono dispersi intorno ad una possibile retta di regressione 100 55 60 65 70 Peso (Kg) 75 80 85 L’equazione di questa possibile retta è: PAS (variabile dipendente) Y=a+bX Peso (variabile indipendente) Mediante il metodo dei minimi quadrati che minimizza gli scarti tra la retta e i vari punti Si ottiene: Y=19,5+1,65X che significa che per ogni valore del Peso (X) moltiplicandolo per 1,65 e sommandogli 19,5 si ottiene il valore stimato di PAS, a cui va associato un intervallo di confidenza Per il peso x=80 si ha la PAS stimata y=19,5+1,65*80=151,5 ALMA MATER STUDIORUM – Università di Bologna Perché è necessaria l’analisi multivariata ? Ma la relazione trovata tra PAS e Peso corporeo può risentire dell’effetto di altre variabili confondenti che è necessario tenere in considerazione Pressione sistolica Peso N° soggetti arteriosa corporeo (PAS) (mm (Kg) X1 Hg) Y 1 2 3 4 5 6 7 8 9 10 Totale media 130 110 130 120 150 125 140 135 150 160 1350 135 60 60 65 65 70 70 75 75 80 80 700 70 Età (anni) X2 46 22 32 40 75 35 26 26 32 62 396 39,6 Sesso (F=1, M=0) X3 1 1 1 1 1 0 0 0 0 0 5 0,5 1. E’ ragionevole pensare che la relazione tra pressione arteriosa e peso sia diversa a seconda dell’età dei pazienti 2. E’ ragionevole pensare che la relazione tra pressione arteriosa e peso sia diversa anche in base al sesso ALMA MATER STUDIORUM – Università di Bologna esempio regressione multipla Quindi all’equazione della retta aggiungiamo 2 ulteriori variabili l’età e il sesso: PAS (variabile dipendente) Y=a+b1X1 + b2X2+b3X3 Peso Pressione sistolica Peso N° soggetti arteriosa corporeo (PAS) (mm (Kg) X1 Hg) Y 1 2 3 4 5 6 7 8 9 10 Totale media 130 110 130 120 150 125 140 135 150 160 1350 135 60 60 65 65 70 70 75 75 80 80 700 70 Età (anni) X2 46 22 32 40 75 35 26 26 32 62 396 39,6 Sesso (F=1, M=0) X3 1 1 1 1 1 0 0 0 0 0 5 0,5 Età Sesso Vogliamo stimare Y in base ai valori di X1 X2 e X3 Il modello di regressione multivariato Y =a+ b1 X1 + b2 X2 + b3 X3 Dai dati si ottiene : Y =-17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3 ALMA MATER STUDIORUM – Università di Bologna Costante di regressione Coefficienti parziali di regressione Y=a+b1X1 + b2X2+b3X3 Dai dati si ottiene : Y =-17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3 Interpretazione La PAS (Y) cresce di 1,92 unità al crescere di 1 kg di peso (X1), di 0,37 unità al crescere di 1 anno di età e di 6,5 unità se il paziente è femmina ALMA MATER STUDIORUM – Università di Bologna Come è cambiata la stima di Y passando dalla regressione univariata a quella multivariata • La relazione tra PAS e peso senza considerare l’influenza di altri fattori di rischio, è stimata dalla retta di regressione • Y=19,5+1,65 X1 Aggiungendo altre 2 variabili la relazione stimata tra PAS e peso cambia Y = -17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3 ALMA MATER STUDIORUM – Università di Bologna Regressione univariata Y=19,5+1,65 X1 output SPSS Il 65% del valore di PAS È spiegato dalla sua relazione con l’età Riepilogo del modello Modello R R-quadrato ,805a 1 R-quadrato corretto Deviazione standard Errore della stima ,604 9,610 ,648 a. Predittori: (Costante), Peso corporeo (Kg) X1 Coefficienti Modello a Coefficienti non standardizzati Coefficienti t Sig. standardizzati B Deviazione Beta standard Errore 1 (Costante) Peso corporeo (Kg) X1 19,500 30,236 1,650 ,430 ,805 ,645 ,537 3,839 ,005 a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y Il peso è in relazione significativa con la pressione sistolica arteriosa(PAS): al crescere di 1 kg di peso la PAS cresce di 1,65 unità ALMA MATER STUDIORUM – Università di Bologna Regressione multivariata L’89,5% della variabilità della PAS è spiegata dal modello multivariato Y = -17,48+ 1,92 X1 + 0,37 X2 + 6,5 X3 output SPSS Riepilogo del modello Modello 1 R R-quadrato ,946a R-quadrato corretto ,895 Deviazione standard Errore della stima ,842 6,075 L’unico coefficiente significativo a. Predittori: (Costante), Sesso (F=1 M=0) X3, Età (anni) X2, Peso corporeo (Kg) X1 Coefficienti Modello a Coefficienti non standardizzati Coefficienti t Sig. standardizzati B Deviazione Beta standard Errore (Costante) 1 Peso corporeo (Kg) X1 Età (anni) X2 Sesso (F=1 M=0) X3 -17,478 46,367 -,377 ,719 1,920 ,652 ,937 2,947 ,026 ,374 ,154 ,417 2,425 ,052 6,499 9,332 ,224 ,696 ,512 a. Variabile dipendente: Pressione sistolica arteriosa (PAS) (mm Hg) Y ALMA MATER STUDIORUM – Università di Bologna La regressione lineare multivariata con SPSS Dal dataset Completo verificare se c’è una relazione lineare tra la VAS e l’età Randomizzazione v_difficoltà_inserimento v_effetto_trampilino La variabile dipendente è la VAS SPSS Click Analizza Regressione lineare… lineare ALMA MATER STUDIORUM – Università di Bologna Riepilogo del modello Modell o R Rquadrato 1 ,276a R-quadrato corretto ,076 Deviazione standard Errore della stima ,065 1,543 a. Predittori: (Costante), Età, Randomizzazione, V_effetto_trampolino, V_difficoltà_inserimento Coefficientia Modello Coefficienti non standardizzati B (Costante) 1 Coefficienti standardizzati Deviazione standard Errore Beta Intervallo di confidenza 95,0% per B Limite inferiore Limite superiore ,005 1,043 5,690 ,026 ,49 1 ,624 -,253 ,421 ,343 ,021 ,34 2 ,732 -,557 ,792 ,595 ,260 4,3 02 ,000 1,388 3,728 -,004 ,07 4 ,941 -,014 ,013 1,181 Randomizzazione ,084 ,171 V_difficoltà_inseri mento ,117 V_effetto_trampoli no 2,558 ,000 Sig. 2,8 50 3,366 Età t ,007 a. Variabile dipendente: VAS Quindi il modello trovato per la VAS è: Y=-3,36+0,08X1+-0,117X2+2,56X3+0X4 ALMA MATER STUDIORUM – Università di Bologna Alcune considerazioni sull’Indice di determinazione R2 l’Indice di determinazione R2 misura la frazione della variabilità di Y dovuta alla sua dipendenza lineare dai regressori. Presenta però degli inconvenienti: • Assume valori elevati anche quando la relazione non è di tipo lineare • Cresce sempre al crescere del numero di regressori Per ovviare a questi inconvenienti si considera R2 corretto =1-(1-R2)*(n-1)/(n-m) dove n è la numerosità del campione ed m è il numero dei regressori ALMA MATER STUDIORUM – Università di Bologna Riepilogo del modello Modell o R Rquadrato 1 ,276a R-quadrato corretto ,076 Deviazione standard Errore della stima ,065 1,543 a. Predittori: (Costante), Età, Randomizzazione, V_effetto_trampolino, V_difficoltà_inserimento Coefficientia Modello Coefficienti non standardizzati B (Costante) 1 Coefficienti standardizzati Deviazione standard Errore Beta Intervallo di confidenza 95,0% per B Limite inferiore Limite superiore ,005 1,043 5,690 ,026 ,49 1 ,624 -,253 ,421 ,343 ,021 ,34 2 ,732 -,557 ,792 ,595 ,260 4,3 02 ,000 1,388 3,728 -,004 ,07 4 ,941 -,014 ,013 1,181 Randomizzazione ,084 ,171 V_difficoltà_inseri mento ,117 V_effetto_trampoli no 2,558 ,000 Sig. 2,8 50 3,366 Età t ,007 a. Variabile dipendente: VAS Quindi il modello trovato per la VAS è: Y=-3,36+0,08X1+-0,117X2+2,56X3+0X4 ALMA MATER STUDIORUM – Università di Bologna Analisi Statistica multivariata per endpoints dicotomici Nella maggior parte degli studi clinici la variabile dipendente può assumere solo due valori: sì, di solito codificato come 1 no codificato come 0. Queste variabili sono definite variabili dicotomiche Esempi di variabili dipendenti dicotomiche nella ricerca clinica: presenza/assenza di una patologia (es. BPCO, Scompenso cardiaco, Diabete ecc) Evento sì/no (es. morte, complicanza, riospedalizzazione ecc.) ALMA MATER STUDIORUM – Università di Bologna Analisi statistica multivariata per endpoints dicotomici il modello di regressione logistica Il modello di regressione logistica è il modello per l’analisi multivariata che viene usato quando la variabile dipendente Y è una variabile dicotomica. La Y viene espressa come logit di p ovvero il logaritmo del rapporto p tra la probabilità di avere l’evento e la probabilità di non averlo E’ espresso come: Logit(p) =α+ β1 X1 + β2 X2 + β3 X3+.. E’ un modello particolarmente utile perché l’esponenziale dei coefficienti β Sono gli odds ratio delle corrispondenti variabili indipendenti X: e β1 =OR(X1), e β2 =OR(X2), …. Viene utilizzato soprattutto negli studi caso-controllo, in cui i casi sono usualmente definiti come nuovi eventi nella popolazione in studio e i controlli sono i non casi ALMA MATER STUDIORUM – Università di Bologna il modello di regressione logistica il logit Logit(p) =α+ β1 X1 + β2 X2 + β3 X3+.. dove Logit(p) è il ln p/(1-p) ovvero il logit è il logaritmo naturale (ln) dell’odds p/(1-p) Ad esempio se l’outcome in studio è la morte il logit è il logaritmo naturale del rapporto tra la probabilità di morire p e la probabilità di sopravvivere (1-p). Da cui p=probabilità di morire= e (α+ β1 X1 + β2 X2 + β3 X3+..) 1- e (α+ β1 X1 + β2 X2 + β3 X3+..) ALMA MATER STUDIORUM – Università di Bologna Analisi statistica multivariata per endpoints dicotomici il modello di regressione logistica ESEMPIO Es. Studio sugli esiti intra-ricovero dei pazienti con età >=80 anni sottoposti ad intervento cardiochirurgico nei centri dell’Emilia-Romagna. Obiettivo individuazione dei fattori di rischio associati alla mortalità intra-ricovero analisi statistiche effettuate: 1. Analisi univariata per verificare quali caratteristiche pre-operatorie prese singolarmente erano associate alla mortalità intra-ricovero 1. Analisi multivariata con modello di regressione logistica per valutare l’associazione di ciascuna delle caratteristiche risultate significative dall’analisi univariata, al netto di tutte le altre ALMA MATER STUDIORUM – Università di Bologna Analisi univariata Mortalità intra-ricovero, ULTRA 80 enni: 1822 interventi Odds Ratio per ciascun fattore di rischio Caratteristiche pre-operatorie significativamente associate alla mortalità Caratteristiche pre-operatorie Intervallo di confidenza %morti Odds Ratio p-value Procedura in emergenza 28,4 7,2 4,1 12,8 <0,0001 Infarto miocardico recente 8,9 1,8 1,2 2,7 0,008 Scompenso cardiaco 14,9 3,2 2 5,2 <0,0001 Angina instabile 8,9 1,7 1,1 2,7 0,03 Instabilità emodinamica 25,5 5,9 3,1 11,4 <0,0001 Rianimazione cuore-polmone 40 10,6 1,7 63,8 0,0014 Shock cardiogeno 28 6,4 2,6 15,7 <0,0001 FE 30%-50% 9 1,8 1,2 2,8 0,003 NYHA 3 e 4 8,2 1,9 1,3 2,7 0,0015 Creatinina>=2mg/dl 13 2,4 1,1 5,5 0,0301 BPCO severa 10,3 1,9 1,1 3,6 0,044 Reintervento 14 2,6 1,2 6 0,017 Intervento di Bypass + Valvole 8,2 1,6 1 2,4 0,037 ALMA MATER STUDIORUM – Università di Bologna Risultati analisi multivariata Fattori di rischio risultati significativamente associati alla mortalità intra-ricovero da un Modello di regressione logistica multivariato Odds Ratio aggiustati per ciascun fattore di rischio OR Fattori di rischio 95% Wald Confidence Limits p value Procedura in emergenza 6.5 3.6 11.9 <.0001 NYHA IV 2.3 1.4 3.8 0.002 EF 30% - 50% 1.6 1.0 2.4 0.0312 BPCO severa 2.1 1.1 4.2 0.0235 Reintervento 2.8 1.2 6.7 0.0164 Inyervento di Bypass + Valvole 1.7 1.1 2.6 0.0196 ALMA MATER STUDIORUM – Università di Bologna Risultati dell’analisi univariata e dell’analisi multivariata: Odds ratio dei fattori di rischio significativamente associati alla mortalità Con l’analisi multivariata 6 caratteristiche pre-operatorie, che erano risultate significativamente associate alla mortalità nell’analisi univariata, perdono la loro significatività statistica Caratteristiche pre-operatorie %morti Analasi univariata Analisi multivariata Odds Ratio p-value Odds Ratio p-value 6,5 <0,0001 Procedura in emergenza 28,4 7,2 <0,0001 Infarto miocardico recente 8,9 1,8 0,008 Scompenso cardiaco 14,9 3,2 <0,0001 Angina instabile 8,9 1,7 0,03 Instabilità emodinamica 25,5 5,9 <0,0001 Rianimazione cuore-polmone 40 10,6 0,0014 Shock cardiogeno 28 6,4 <0,0001 FE 30%-50% 9 1,8 0,003 1,6 0,031 NYHA 3 e 4 8,2 1,9 0,0015 2,3 0,002 Creatinina>=2mg/dl 13 2,4 0,0301 BPCO severa 10,3 1,9 0,044 2,1 0,024 Reintervento 14 2,6 0,017 2,8 0.016 Intervento di Bypass + Valvole 8,2 1,6 0,037 1,7 0,02 ALMA MATER STUDIORUM – Università di Bologna Interpretazione dei risultati dell’analisi multivariata 1. Come interpretare il fatto che 6 caratteristiche pre-operatorie, che erano risultate significativamente associate alla mortalità nell’analisi univariata, perdono la loro significatività statistica nell’analisi multivariata Il motivo è che ciascun paziente può avere più di una caratteristica preoperatoria contemporaneamente e con l’analisi multivariata si stima l’associazione con la mortalità di ciascuna caratteristica al netto dell’influenza delle altre Ad esempio: lo scompenso cardiaco che dall’analisi univariata risultava essere fortemente associata alla mortalità (OR=3,2) ha perso la sua significatività statistica nell’analisi multivariata perché i pazienti con scompenso cardiaco deceduti avevano anche altre caratteristiche maggiormente associate alla mortalità come ad esempio NYHA 3 o 4, precedente intervento di cardiochirurgia ecc. Quindi lo scompenso cardiaco da solo non risulta essere un fattore di rischio di mortalità dopo intervento cardiochirurgico nei pazienti con più di 80 anni. ALMA MATER STUDIORUM – Università di Bologna Interpretazione dei risultati dell’analisi multivariata (segue…) 2. Come interpretare gli odds ratio stimati dall’analisi multivariata Fattori di rischio Procedura in emergenza FE 30%-50% NYHA 3 e 4 BPCO severa Reintervento Intervento di Bypass + Valvole %morti 28,4 9 8,2 10,3 14 8,2 Analisi multivariata Odds Ratio 6,5 1,6 2,3 2,1 2,8 1,7 p-value <0,0001 0,031 0,002 0,024 0.016 0,02 Interpretazione: I pazienti ultra 80enni sottoposti ad intervento cardiochirurgico in emergenza sia che abbiano o non abbiano altri fattori di rischio associati risultati significativi dall’analisi multivariata (come FE 30%-50%, NYHA 3 o 4, BPCO severa, reintervento o intervento di Bypass + valvole) hanno un rischio di morte intra-ricovero 6 volte e mezzo superiore a quelli che vengono operati in elezione o in urgenza. Analoga interpretazione può essere data per gli altri fattori di rischio. ALMA MATER STUDIORUM – Università di Bologna Analisi multivariata: proprietà della regressione logistica Il modello di regressione logistica permette: 1. Di effettuare l’analisi multivariata per outcome dicotomici (nel nostro esempio la morte intra-ricovero) 2. Fornisce direttamente gli odds ratio dei fattori di rischio 3. Fornisce per ciascun paziente la probabilità di avere l’outcome in studio in base alle sue caratteristiche ALMA MATER STUDIORUM – Università di Bologna Analisi multivariata: regressione logistica con SPSS SPSS Click Regressione Logistica binaria… ALMA MATER STUDIORUM – Università di Bologna