Master in “Evidence Based Practice e Metodologia della Ricerca clinico-assistenziale” Gestione ed Analisi Statistica dei dati Daniela Fortuna 9 maggio 2014 ALMA MATER STUDIORUM – Università di Bologna Come è strutturato il corso Questo corso prevede 3 giornate di lezione di 7 ore ognuna Ciascuna giornata di lezione sarà composta di una parte teorica in cui verranno trattati le principali metodologie di analisi statistica per la ricerca clinica una parte pratica in cui verrà affrontato uno studio concreto e i dati dello studio verranno gestiti ed analizzati con l’utilizzo di SPSS (uno dei software statistici più diffusi ) ALMA MATER STUDIORUM – Università di Bologna A cosa serve la statistica Gli scopi della STATISTICA sono di duplice natura SINTETIZZARE ovvero semplificare la lettura e l’interpretazione dei dati raccolti mediante tabelle, grafici e sintesi numeriche. L’esigenza di semplificare deriva dalla limitata capacità della mente umana di gestire informazioni articolate o complesse o multidimensionali. GENERALIZZARE estendere il risultato dell’analisi effettuata sui dati di un gruppo limitato di unità statistiche (campione) all’intera collettività di appartenenza (universo, popolazione). STATISTICA INFERENZIALE STATISTICA DESCRITTIVA ALMA MATER STUDIORUM – Università di Bologna Inferenza statistica: generalizzazione dei risultati campionari Campione casuale popolazione 1 2 4 5 6 8 3 1420 7 campionamento 9 11 1918 17 16 15 12 5 16 10 10 14 7 Studio del campione: RISULTATI ALMA MATER STUDIORUM – Università di Bologna Il campione casuale Per poter applicare i metodi della statistica inferenziale è necessario che il campione sia CASUALE ovvero è necessario che ciascuna unità della popolazione abbia la stessa probabilità di entrare a far parte del campione Idealmente estrarre un campione casuale è come pescare una pallina dentro un’urna con gli occhi bendati!!! La scelta della pallina che si estrae è del tutto casuale perchè le palline sono tutte uguali al tatto Oggi ci siamo evoluti! non ci sono più urne né bende ma dei sofisticati software generano numeri casuali! Ciascun numero casuale generato corrisponderà ad un’unità da includere nel campione ALMA MATER STUDIORUM – Università di Bologna Criteri di selezione dei pazienti il campionamento Qualunque sia il tipo di studio (osservazionale o sperimentale) e qualsiasi siano i criteri di inclusione, la ricerca in ambito clinico si basa su dati campionari CAMPIONAMENTO CASUALE ALMA MATER STUDIORUM – Università di Bologna Tipi di Campionamento casuale Campionamento casuale semplice Campionamento casuale stratificato: Campionamento casuale a grappolo o Cluster: Si estraggono casualmente le unità dalla popolazione si suddivide la popolazione in strati in base ad una caratteristica di interesse e si campionano le unità di ciascuno strato si campionano alcuni gruppi della popolazione definiti in base ad una caratteristica di interesse ALMA MATER STUDIORUM – Università di Bologna CAMPIONAMENTO CASUALE SEMPLICE Il campione casuale semplice si caratterizza per il fatto che tutti gli elementi della popolazione vengono presi in considerazione ed hanno tutti uguale probabilità di essere selezionati: ognuno di essi cioè può "casualmente" costituire una delle unità del campione ALMA MATER STUDIORUM – Università di Bologna CAMPIONAMENTO CASUALE semplice: Si estraggono n numeri casuali dalla popolazione Estrazione casuale popolazione 1 4 2 19 18 3 5 6 8 14 20 7 17 16 15 11 9 10 12 Campione casuale ALMA MATER STUDIORUM – Università di Bologna Esempio di campionamento casuale semplice Esempio 1: “Si vuole valutare la degenza media dei ricoveri per intervento di ernia inguinale effettuati in Emilia Romagna nel 2013” possiamo estrarre un campione casuale della popolazione definita dai criteri di selezione: Criteri di inclusione: pazienti sottoposti ad intervento di ernia inguinale ricoverati in tutte le strutture pubbliche e private accreditate dell’Emilia Romagna nel 2013 Criteri di esclusione Ricoveri in emergenza ALMA MATER STUDIORUM – Università di Bologna Esempio 1: Degenza media ricoveri per ernia inguinale CAMPIONAMENTO CASUALE semplice: Popolazione: pazienti sottoposti ad intervento di ernia inguinale ricoverati in tutte le strutture pubbliche e private accreditate dell’Emilia Romagna nel 2013, non in emergenza 1 4 2 19 18 3 5 6 8 14 20 7 17 16 15 11 Estrazione casuale 9 10 12 Campione casuale ALMA MATER STUDIORUM – Università di Bologna Tipi di Campionamento casuale Campionamento casuale semplice Campionamento casuale stratificato: Campionamento casuale a grappolo o Cluster: Si estraggono casualmente (a caso) le unità dalla popolazione si suddivide la popolazione in strati in base ad una caratteristica di interesse e si campionano le unità di ciascuno strato si campionano alcuni gruppi della popolazione definiti in base ad una caratteristica di interesse ALMA MATER STUDIORUM – Università di Bologna CAMPIONAMENTO CASUALE STRATIFICATO Nel campionamento stratificato gli elementi della popolazione vengono suddivisi in gruppi o strati rispetto ad una carattestica che maggiormente influenza il fenomeno che si intende studiare (es. sesso, età, reparto ecc.) e da questi gruppi si estraggono campioni Casuali semplici – Il campionamento stratificato proporzionale da ogni strato si estrae un campione casuale semplice in modo tale che ogni strato contribuisce alla formazione del campione totale nella stessa misura in cui ogni strato contribuisce a formare l'intera popolazione. Per ottenere un campione stratificato proporzionale occorre, naturalmente, conoscere la parte di popolazione che afferisce ad ogni strato ed è possibile effettuare la stratificazione solo per quelle variabili di cui si hanno informazioni al momento del campionamento. ALMA MATER STUDIORUM – Università di Bologna Esempio 2 Campionamento casuale stratificato Esempio 2: “Si vuole valutare la prevalenza di lesioni da decubito dei pazienti anziani ricoverati negli ospedali pubblici dell’Emilia Romagna (RER)” possiamo estrarre un campione stratificato per reparti. Si avranno tanti strati quanti sono i reparti e in ciascun strato si effettua un campionamento casuale Criteri di inclusione: Pazienti ricoverati negli ospedali pubblici RER Età ≥ 65 anni Criteri di esclusione pazienti con LDP colore pelle nera ALMA MATER STUDIORUM – Università di Bologna Esempio 2 Prevalenza lesioni da decubito negli ospedali pubblici RER Campionamento casuale stratificato per reparti (TUTTI i REPARTI) chirurgia geriatria 1 4 2 3 19 18 17 5 6 8 14 20 7 medicina 9 11 3 Estrazione casuale 4 2 5 6 1 3 5 6 1 10 16 15 12 4 2 10 11 17 9 16 15 12 Estrazione casuale 10 11 19 18 9 14 20 7 19 18 8 14 20 7 8 17 16 15 12 Estrazione casuale ALMA MATER STUDIORUM – Università di Bologna Tipi di Campionamento casuale Campionamento casuale semplice Campionamento casuale stratificato: Campionamento casuale a grappolo o Cluster: Si estraggono casualmente (a caso) le unità dalla popolazione si suddivide la popolazione in strati in base ad una caratteristica di interesse e si campionano le unità di ciascuno strato si campionano alcuni gruppi della popolazione definiti in base ad una caratteristica di interesse ALMA MATER STUDIORUM – Università di Bologna CAMPIONAMENTO CASUALE A GRAPPOLO Campionamento casuale a grappolo si suddivide la popolazione in sottoinsiemi detti grappoli (clusters) e si effettua il campionamento casuale dei grappoli. • Il metodo non prevede quindi il campionamento diretto degli elementi, ma vengono campionati grappoli di elementi. • Nel più semplice campionamento a grappoli si può usare la scelta casuale per selezionare i grappoli formati e quindi indagare su tutte le unità contenute in quelli campionati: campionamento ad uno stadio ALMA MATER STUDIORUM – Università di Bologna CAMPIONAMENTO CASUALE A GRAPPOLO Si suddivide la popolazione in gruppi, si campionano i gruppi e si prendono tutte le unità dei gruppi selezionati 6 9 13 3 21 10 18 24 13 4 8 24 1 3 19 18 17 5 6 8 14 20 7 16 15 12 5 6 1 9 11 15 4 2 3 10 4 2 5 6 1 3 9 14 20 7 10 11 17 9 14 20 7 8 19 18 8 4 8 10 18 4 3 21 15 2 6 9 16 15 12 10 11 19 18 17 16 15 12 ALMA MATER STUDIORUM – Università di Bologna Esempio 3 Campionamento casuale a grappolo (o cluster) Esempio 3 “Si vuole valutare l’efficacia di un nuovo prodotto per la prevenzione delle lesioni da pressione nei pazienti con età>=18 sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore.” possiamo estrarre casualmente ospedali con reparti chirurgici. Si avranno tanti cluster quanti sono gli ospedali estratti casualmente e di ciascun ospedale estratto, si considerano tutti i pazienti che soddisfano i criteri di inclusione Criteri di inclusione: sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore Età ≥ 18 anni Criteri di esclusione pazienti con LDP colore pelle nera ALMA MATER STUDIORUM – Università di Bologna Esempio 3 Nuovo prodotto per la prevenzione delle LDP CAMPIONAMENTO CASUALE A GRAPPOLO Ospedale 5 6 9 13 Ospedale 1 3 21 10 18 24 13 4 8 24 1 3 19 18 17 6 15 Ospedale 4 Ospedale 2 5 4 8 10 18 4 3 21 15 2 6 9 8 14 20 7 Ospedale 3 9 11 16 15 12 4 2 10 4 2 6 1 3 5 6 1 3 5 9 14 20 7 17 9 10 11 19 18 8 14 20 7 8 16 15 12 10 11 19 18 17 16 15 12 ALMA MATER STUDIORUM – Università di Bologna Quando non si conosce la popolazione…. • Nella pratica la maggior parte delle ricerche riguardano pazienti ospedalizzati e il reclutamento dei pazienti avviene durante il ricovero. • Si stabilisce un periodo di tempo per il reclutamento, ad esempio dal 5 maggio al 5 giugno, e si includono nel campione tutti i pazienti ammessi in ospedale in quel periodo e che soddisfano i criteri di inclusione la casualità è garantita dal fatto che vengono arruolati pazienti, ammessi in ospedale consecutivamente, senza alcuna selezione. ALMA MATER STUDIORUM – Università di Bologna Studi sperimentali Un ragionamento a parte merita la selezione dei pazienti negli Studi sperimentali • Uno studio sperimentale consiste essenzialmente nel selezionare due gruppi di pazienti in modo casuale, affinché siano il più comparabili possibile. L’esposizione è assegnata ad uno dei due gruppi e si confrontano poi gli esiti nei due gruppi. ALMA MATER STUDIORUM – Università di Bologna Selezione dei pazienti negli studi sperimentali I passi da intraprendere: identificare la popolazione sorgente, cioè la popolazione a cui si vuole che i risultati dello studio possano essere generalizzati Identificare una fonte di reclutamento, come ad esempio un registro di pazienti di un ospedale Selezionare i potenziali soggetti in base ai criteri di inclusione Chiedere ai soggetti la loro disponibilità a partecipare allo studio Distribuire in modo casuale i soggetti scelti e consenzienti nei 2 gruppi: il gruppo di trattamento e il gruppo di controllo ALMA MATER STUDIORUM – Università di Bologna Il ruolo della randomizzazione negli RCT Fornisce un metodo imparziale per l’assegnazione del trattamento ai pazienti, al di fuori di possibili distorsioni personali Tende a bilanciare i gruppi in trattamento anche per tutti quei fattori ignoti che potrebbero condizionare l’esito dei trattamenti stessi ALMA MATER STUDIORUM – Università di Bologna Tipi di randomizzazione negli RCT Randomizzazione semplice, semplice mediante tavole di numeri casuali o il lancio della moneta. Assicura la distribuzione casuale degli individui ma solo nel caso di campioni numerosi. Randomizzazione a blocchi preserva da gravi sbilanciamenti nel caso di campioni poco numerosi ALMA MATER STUDIORUM – Università di Bologna Randomizzazione a blocchi Il “blocco” è una sequenza che contiene lo stesso numero di pazienti da assegnare al gruppo di trattamento (A) e a quello dei controlli (B). Ad esempio, un blocco di 4 genera 6 diverse sequenze, ciascuna delle quali assegna due pazienti al gruppo A e due al B: AABB, ABAB, BBAA, BABA, ABBA, BAAB. Queste sequenze possono essere estratte casualmente e in base ad esse è possibile assegnare i gruppi ai successivi 4 arruolati ALMA MATER STUDIORUM – Università di Bologna Randomizzazione a blocchi di 4 Genera 6 sequenze: AABB, ABAB, BBAA, BABA, ABBA, BAAB. 1° sequenza : AABB GRUPPO A trattamento 5 1 2 3 19 18 4 6 8 14 20 7 11 9 10 GRUPPO B controllo 17 16 15 12 ALMA MATER STUDIORUM – Università di Bologna Esempio di randomizzazione a blocchi di 4 AABB, ABAB, BBAA, BABA, ABBA, BAAB. 2° sequenza : ABAB GRUPPO A trattamento 5 2 6 8 14 20 7 19 18 11 17 16 15 12 1 GRUPPO B controllo 9 10 3 4 ALMA MATER STUDIORUM – Università di Bologna Esempio di randomizzazione a blocchi di 4 AABB, ABAB, BBAA, BABA, ABBA, BAAB. 3° sequenza : BBAA GRUPPO A trattamento 5 2 1 7 14 20 19 18 17 16 15 12 9 11 GRUPPO B controllo 10 3 6 8 4 ALMA MATER STUDIORUM – Università di Bologna Esempio di randomizzazione a blocchi di 4 AABB, ABAB, BBAA, BABA, ABBA, BAAB. Risultato della randomizzazione Lo schema di campionamento casuale a blocchi più diffuso è a 8 o 10 blocchi 22 17 5 14 11 16 12 7 20 13 9 19 GRUPPO B controllo 6 10 18 24 1 2 23 21 GRUPPO A trattamento 3 8 4 15 ALMA MATER STUDIORUM – Università di Bologna Randomizzazione a blocchi come scegliere la grandezza dei blocchi • Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B • Cambiando la grandezza dei blocchi cambia il numero di soggetti estratti. N! La formula per calcolare il numero di sequenze è: K1!K2! dove N=grandezza del blocco K1= il numero di volte che A deve comparire in ogni blocco K2= il numero di volte che B deve comparire in ogni blocco Per blocchi di 4 4x3x2x1 2x1x2x1 Per blocchi di 8 = 6 8x7x6x5x4x3x2x1 4x3x2x1x4x3x2x1 6 sequenze x 4=24 = 70 70 sequenze x 8=560 ALMA MATER STUDIORUM – Università di Bologna Esempio trial clinico randomizzazione • Studio di efficacia di un nuovo sistema per il trattamento riabilitativo respiratorio da associare alla consueta Fisiokinesiterapia in Terapia Intensiva Postoperatoria Popolazione di riferimento Criteri di inclusione pazienti ricoverati in Terapia Intensiva dopo intervento chirurgico Criteri di esclusione Pazienti sottoposti ad intervento in emergenza ALMA MATER STUDIORUM – Università di Bologna Esempio trial clinico randomizzazione Reclutamento dei pazienti Tutti i pazienti consecutivamente ricoverati in Terapia Intensiva postoperatoria dal 1 settembre al 30 novembre 2013, e che soddisfano i criteri di selezione stabiliti Attribuzione del trattamento I pazienti reclutati, vengono distribuiti casualmente, ad uno dei due gruppi (gruppo A di controllo e gruppo B di trattamento) mediante un processo di randomizzazione, Metodo di randomizzazione utilizzato: a blocchi di 4 ALMA MATER STUDIORUM – Università di Bologna Randomizzazione a blocchi come scegliere la grandezza dei blocchi • Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B • Cambiando la grandezza dei blocchi cambia il numero di soggetti estratti. N! La formula per calcolare il numero di sequenze è: K1!K2! dove N=grandezza del blocco K1= il numero di volte che A deve comparire in ogni blocco K2= il numero di volte che B deve comparire in ogni blocco Per blocchi di 4 4x3x2x1 2x1x2x1 Per blocchi di 8 = 6 8x7x6x5x4x3x2x1 4x3x2x1x4x3x2x1 6 sequenze x 4=24 = 70 70 sequenze x 8=560 ALMA MATER STUDIORUM – Università di Bologna Randomizzazione Stratificata a blocchi • Con numerosità limitate possono verificarsi degli sbilanciamenti nelle variabili di confondimento. Per essere certi che ciò non avvenga, si può procedere con la randomizzazione stratificata, che assicura che entro le variabili considerate nella stratificazione il fattore confondente è omogeneamente distribuito nei 2 gruppi ALMA MATER STUDIORUM – Università di Bologna Perchè il campione deve essere casuale Se il CAMPIONE E’ CASUALE e abbiamo calcolato bene la numerosità campionaria, l’unico errore che possiamo commettere è un ERRORE CASUALE cioè dovuto al caso e questo tipo di errore può essere stimato Ad ogni risultato campionario si associa una probabilità o dei limiti probabili di oscillazione Se il CAMPIONE NON E’ CASUALE può risentire di ERRORI di SELEZIONE chiamati bias, che non possono essere stimati CAMPIONE DISTORTO ALMA MATER STUDIORUM – Università di Bologna Che cos’è la probabilità Definizione di probabilità La probabilità che si verifichi un dato evento (E) è la proporzione del numero (s) dei casi favorevoli all'evento stesso sul numero (n) dei casi possibili, purché tutti i casi considerati siano ugualmente probabili. Esempio: In un sacchetto ci sono 7 palline bianche e 3 rosse. Tutte sono fatte dello stesso materiale, hanno le stesse dimensioni, sono perfettamente sferiche, ugualmente levigate e così via. Infilerò una mano nel sacchetto, senza guardare dentro, ed estrarrò una pallina a caso. Qual è la probabilità che la pallina estratta sia rossa? Soluzione: Le palline in tutto sono 7+3 = 10 quindi i casi possibili: n=10 Ci sono solo 3 palline rosse quindi i casi favorevoli: s=3 L'evento E= "pallina estratta rossa" ha perciò 3 possibilità su 10 di verificarsi Definisco la sua probabilità come la proporzione dei casi favorevoli su quelli possibili e ottengo: probabilità (pallina rossa) = 3/10 = 0,3 = 30% ALMA MATER STUDIORUM – Università di Bologna La probabilità e il ruolo del caso Quindi la probabilità di estrarre una pallina rossa da un sacchetto che contiene 10 palline di cui 3 rosse è il 30%. Ma ATTENZIONE questo non significa che ripetendo 10 volte l’estrazione, avendo cura ogni volta di rimettere la pallina estratta all’interno del sacchetto per garantire a tutte le palline l’equiprobabilità di essere estratte, otterrò 3 palline rosse!!!! La probabilità è diversa dalla frequenza che si ottiene in poche estrazioni perché interviene il CASO L’effetto del CASO si attutisce, fino ad annullarsi, se ripetiamo l’estrazione molte volte, 100, 1000 volte ALMA MATER STUDIORUM – Università di Bologna La probabilità e il ruolo del caso Esempio: Lanciando una moneta qual è la probabilità che esca TESTA? I casi possibili : n=2 Il caso favorevole “testa” : s=1 La probabilità dell’evento E “esce testa” è la proporzione dei casi favorevoli sui casi possibili ovvero P=1/2=0,5=50% Ripetendo il lancio della moneta varie volte si potrebbero ottenere i seguenti risultati faccia della moneta 10 lanci N° % 100 lanci N° 1000 lanci % N° % Testa 7 70% 56 56% 507 50,7% Croce 3 30% 44 44% 493 49,3% La variabilità dei risultati dipende dal CASO e quando si effettuano un numero elevato (ad esempio 1000 ) di prove ripetute l’effetto del caso si riduce fino ad annullarsi ALMA MATER STUDIORUM – Università di Bologna La numerosità campionaria e l’effetto del caso Le stesse considerazioni possono essere estese ai campioni casuali: - Il CASO agisce in modo analogo quando estraiamo casualmente le unità che entrano a far parte del campione quindi maggiore è la numerosità del campione e minore è l’errore casuale CAMPIONE GRANDE CAMPIONE PICCOLO ERRORE CASUALE PICCOLO ERRORE CASUALE GRANDE ALMA MATER STUDIORUM – Università di Bologna Più campioni e l’effetto del caso Come agisce la casualità in campioni ripetuti? Se ripetessimo tante volte il campionamento ovvero se prendessimo un numero elevato di campioni da una stessa popolazione, ciascun campione darebbe dei risultati diversi ma riportando su un istogramma le frequenze dei risultati ci accorgeremmo che alcuni risultati sono più frequenti di altri ovvero più probabili di altri ALMA MATER STUDIORUM – Università di Bologna Curva di distribuzione Normale o Gaussiana Gauss studiò il comportamento degli errori di misura. servendosi di un telescopio si dedicò a calcolare con precisione il diametro della luna, ma i valori che otteneva erano leggermente diversi ad ogni misurazione. Rappresentando la frequenza delle misurazioni con un istogramma ricavò una curva a campana in cui la maggior parte dei valori si concentrava intorno alla media Carl Friedrich Gauss (1777-1855) matematico, astronomo e fisico tedesco, che ha dato contributi determinanti in vari campi, inclusi analisi matematica, teoria dei numeri, statistica, calcolo numerico, geometria differenziale, geodesia, geofisica, magnetismo, elettrostatica, astronomia e ottica. Frequenze delle misurazioni del diametro della luna effettuate da Gauss x =media σ =deviazione standard ALMA MATER STUDIORUM – Università di Bologna Media e deviazione standard X = Media è la somma dei valori ottenuti diviso il numero delle misurazioni effettuate X = (X1+X2+…+ Xn) n σ=Deviazione Standard esprime la deviazione media di ciascun valore dalla media ed è calcolata come la somma del quadrato delle differenze di ciascun valore dalla media, diviso il numero delle osservazioni e prendendo la radice quadrata del risultato. Algebricamente per un set di n valori (X1,X2,…, Xn) la deviazione standard è scritta come segue: Σ(Xi-X)2 σ= n Dove Σ(X -X)2 i n = (X1-X)2 + (X2-X)2 + .......+ (Xn-X)2 = numero di osservazioni ALMA MATER STUDIORUM – Università di Bologna Esempio di calcolo della deviazione standard Distribuzione delle età di 19 soggetti ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 età 27 31 30 27 29 31 44 32 35 40 39 34 25 40 30 33 28 40 46 Età media=33,7 Σ(Xi-X)2 Deviazione Standard: σ = n Distribuzione frequenza delle età 18% 16% 14% 12% 10% 8% 6% 4% 2% 0% 25 27 28 29 30 31 32 33 Età 34 35 39 40 44 46 Età media =33,7 ALMA MATER STUDIORUM – Università di Bologna Esempio di calcolo della deviazione standard ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 età 27 31 30 27 29 31 44 32 35 40 39 34 25 40 30 33 28 40 46 (Xi-X) (27-33,7) (31-33,7) (30-33,7) (27-33,7) (29-33,7) (31-33,7) (44-33,7) (32-33,7) (35-33,7) (40-33,7) (39-33,7) (34-33,7) (25-33,7) (40-33,7) (30-33,7) (33-33,7) (28-33,7) (40-33,7) (46-33,7) (Xi-X)2 2 (27-33,7) 2 (31-33,7) 2 (30-33,7) 2 (27-33,7) 2 (29-33,7) 2 (31-33,7) 2 (44-33,7) 2 (32-33,7) 2 (35-33,7) 2 (40-33,7) 2 (39-33,7) 2 (34-33,7) 2 (25-33,7) 2 (40-33,7) 2 (30-33,7) 2 (33-33,7) 2 (28-33,7) 2 (40-33,7) 2 (46-33,7) Età media=33,7 Σ(Xi-X)2 Deviazione Standard: σ = n Varianza Σ(Xi-X)2 = n σ= Σ(Xi-X)2 671,71 19 = 35,35 = √35,5 = 5,9 Deviazione Standard n Quindi possiamo dire che l’età media dei 19 soggetti considerati è di 34 anni, con una variabilità o dispersione intorno alla media di circa 6 anni e si scrive : età media ± Dev Std: 33,7 ± 5,9 ALMA MATER STUDIORUM – Università di Bologna .....torniamo alla curva di Gauss Distribuzione frequenza delle età Questa è la distribuzione frequenze dell’età, con età media e deviazione standard Frequenze delle misurazioni del diametro della luna effettuate da Gauss 18% 16% 14% 12% 10% 8% 6% 4% 2% 0% 25 27 X 28-σ 29 30 31 32 33 Età 34 x 35 39 X40+σ44 46 x =media σ =deviazione standard ALMA MATER STUDIORUM – Università di Bologna Curva di distribuzione Normale o Gaussiana Ad esempio campione per stimare il body mass index (BMI) medio della popolazione Risultati del 1°campione Media=25.3 Deviazione standard=2.8 Mediana=25 12% 10% 8% 6% normopeso 4% 2% 0% 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 Considerando un elevato numero di campioni casuali e riportando sul grafico i valori medi ottenuti in ciascun campione Body Mass Index Risultati del 2°campione Media=24.1 Deviazione standard=1.8 Mediana=24 14 12 10 normopeso 8 6 Normopeso 4 2 0 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 19 22,5 26 ALMA MATER STUDIORUM – Università di Bologna Curva di distribuzione Normale o Gaussiana: esempio Utilizzo di diversi campioni per stimare il valore glicemico medio della popolazione e il range dei valori più probabili (ovvero il range dei valori normali) di glicemia Media=96,6 Media=102,3 Valori normali Glicemia (mg/dl) Media=86,7 Glicemia (mg/dl) Valori normali Considerando un elevato numero di campioni casuali e riportando sul grafico i valori medi ottenuti in ciascun campione Valori glicemici nella norma Glicemia (mg/dl) Nel 95% dei campioni otterremmo un valore medio di glicemia compreso tra 60 mg/dl e 110 mg/dl, e mediamente un valore glicemico di 85 mg/dl 60 85 110 ALMA MATER STUDIORUM – Università di Bologna In sintesi • Estraiamo tantissimi (o anche tutti i possibili campioni) da una stessa popolazione • Calcoliamo per ciascun campione un valore medio • Riportiamo i valori medi su un istogramma • L’istogramma che otteniamo è simile ad una distribuzione Normale • La media delle medie campionarie è uguale alla media della popolazione, perché ogni possibile campione conterrà ogni individuo lo stesso numero di volte ALMA MATER STUDIORUM – Università di Bologna L’area sotto la curva di Gauss Tutta l’area sottesa alla curva rappresenta il 100% dei dati 100% L’area compresa tra: AREE note sotto la curva normale la media ±1σ=68,2% la media ±1,96σ=95% la media ±2σ=95,4% la media ±3σ=99,7% ALMA MATER STUDIORUM – Università di Bologna Aree note della curva normale ALMA MATER STUDIORUM – Università di Bologna Altre caratteristiche della curva normale La Media, Media la Mediana e la Moda coincidono Media=mediana=moda La sua forma dipende unicamente dalla media e dalla deviazione standard Diversa media comporta una traslazione a dx o a sx Diversa deviazione standard comporta una curva più o meno appiattita ALMA MATER STUDIORUM – Università di Bologna La curva normale standardizzata E’ possibile trasformare ogni curva normale , in una curva standard con: media =0 e deviazione standard=1 standard Mediante una standardizzazione: sostituendo a ciascun valore della x lo scarto dalla media diviso la deviazione standard e si ottiene: Z=(x-x)/s ALMA MATER STUDIORUM – Università di Bologna Le distribuzione di probabilità teoriche più usate la distribuzione NORMALE la distribuzione T DI STUDENT la distribuzione CHI-QUADRATO ALMA MATER STUDIORUM – Università di Bologna La STIMA :intervalli di confidenza Le distribuzioni di probabilità teoriche servono per la stima La stima più utilizzata è la stima per intervalli INTERVALLI DI CONFIDENZA ALMA MATER STUDIORUM – Università di Bologna La precisione della Stima e l’ Errore Standard ERRORE STANDARD: indica la variabilità di una stima (es. percentuale, media) tanto più piccolo è l’errore standard tanto più precisa è la stima L’ERRORE STANDARD è diverso dalla DEVIAZIONE STANDARD ERRORE STANDARD Deviazione STANDARD descrive l’incertezza nella stima ed è calcolato come Errore Standard= σ/√ n Dove σ è la deviazione standard ed n è la numerosità del campione descrive lo scostamento medio di ciascun valore osservato dalla media aritmetica ALMA MATER STUDIORUM – Università di Bologna STIMA per INTERVALLI La stima per intervalli fornisce un intervallo, che ha una predeterminata probabilità (in genere, il 95%) di contenere il valore vero della popolazione. gli intervalli ottenuti da campioni diversi in genere si sovrappongono. ALMA MATER STUDIORUM – Università di Bologna Intervalli di confidenza Valore campionario INTERVALLO DI CONFIDENZA CONFIDENZA 95% = stima ± 1,96 Errore Standard Incertezza L’intervallo di confidenza si costruisce sommando e sottraendo al valore ottenuto dal campione una quantità che esprime l’incertezza Il limite inferiore=stima – 1,96 x Errore Standard Il limite superiore=stima + 1,96 x Errore Standard ALMA MATER STUDIORUM – Università di Bologna Stima per intervalli stima è il valore che si ottiene dal campione INTERVALLO DI CONFIDENZA CONFIDENZA 95% = stima ± 1,96 Errore Standard INTERVALLO DI CONFIDENZA CONFIDENZA 99% = stima ± Se la stima è una proporzione p Se la stima è una media 2,58 Errore Standard errore standard= √(p*(1-p)/n) errore standard= s/√ n (Deviazione standard / radice della numerosità del campione) ALMA MATER STUDIORUM – Università di Bologna Definizione intervallo di confidenza Ma quindi cosa significa un intervallo di confidenza al 95% ? Significa che questo intervallo contiene il valore vero della popolazione con una probabilità del 95% Mentre la probabilità che il valore vero sia esterno a tale intervallo è del 5% Quindi quando stimiamo un intervallo di confidenza al 95% Significa che siamo disposti ad accettare un errore del 5% che viene definito LIVELLO DI SIGNIFICATIVITA’ e viene indicato con α (alfa) ALMA MATER STUDIORUM – Università di Bologna Esempio: intervallo di confidenza di una proporzione Esempio: In un campione di 3500 pazienti sottoposti ad intervento cardiochirurgico, in Emilia-Romagna, è stata rilevata una prevalenza di diabete pari al 22,9% (ovvero una proporzione di 0.229 con deviazione standard pari al 0.42 ) Calcolate l’intervallo di confidenza al 95% della prevalenza di diabete rilevata L’errore standard è √(p*(1-p)/n) =√ 0,229*(1-0,229)/3500 =0.0071 Intervallo di confidenza al 95% (IC95%)= 0,229 ± 1,96* 0.0071 Limite inferiore= 0.229 - 1,96* 0.0071 =0.215=21,5% Limite superiore= 0,229 +1,96* 0.0071 =0.24 = 24% Quindi la % dei diabetici tra i pazienti cardiochirurgici è del 22,9% con IC95% (21,5%-24%) ALMA MATER STUDIORUM – Università di Bologna Esempio: intervallo di confidenza di una media Sono stati selezionati 357 pazienti sottoposti ad esami diagnostici, da una popolazione di età superiore ai 65 anni. Il valore medio di creatinina nel campione in studio è di 1,19 mg/dl con deviazione standard DS= 0,8 mg/dl. Calcolare un intervallo di confidenza al 95% per la media della popolazione basato sul campione. ALMA MATER STUDIORUM – Università di Bologna intervalli di confidenza per una media soluzione esempio Risposta IC95%: (1,19 - 1.96 x 0,8/√357, 1,19 + 1.96 x 0,8/√357) = (1,11 – 1,27) Calcolate l’intervallo di confidenza nel caso in cui la numerosità campionaria fosse 50. Come cambierebbe il risultato? IC95%: (1,19 - 1.96 x 0,8/√50, 1,19 + 1.96 x 0,8/√50) = (0,97-1,41) Qualora nel campione di 357 individui con creatinina media 1,19 mg/dl, si fosse rilevata una deviazione standard pari a 0,3 come cambierebbe il risultato? IC95%: (1,19 - 1.96 x 0,3/√357, 1,19 + 1.96 x 0,3/√357) = (1,16 – 1,22) ALMA MATER STUDIORUM – Università di Bologna L’ampiezza dell’intervallo di confidenza L’ampiezza dell’intervallo di confidenza DIMINUISCE se Diminuisce il livello di confidenza es da 99% a 95% AUMENTA la numerosità campionaria Diminuisce la variabilità indicata dalla deviazione standard ALMA MATER STUDIORUM – Università di Bologna Introduzione ad SPSS ALMA MATER STUDIORUM – Università di Bologna Introduzione ad SPSS SPSS (Statistical Package for Social Sciences) è un software per l’analisi statistica dei dati Oltre all’elaborazione dei dati questo software permette: la creazione di database ovvero l’inserimento dei dati direttamente in SPSS l’ importazione di database creati con altri programmi come EXCEL, ACCESS la gestione di database: es creazione di nuove variabili, modifica delle variabili già esistenti, selezione dei casi, unione e collegamento tra database ALMA MATER STUDIORUM – Università di Bologna l’inserimento dati e la preparazione del dataset Con dataset intendiamo il file dati in formato SPSS, all’interno del quale sono salvati i dati, organizzati in variabili. Quindi il dataset contiene i dati organizzati da SPSS in modo che siano direttamente utilizzabili per le analisi ALMA MATER STUDIORUM – Università di Bologna Come è fatto un dataset Ogni sessione di SPSS si apre con una finestra di dati nuova, vuota e pronta per l’inserimento dei dati Questa finestra deve contenere un dataset al fine di poter lanciare qualunque analisi ALMA MATER STUDIORUM – Università di Bologna Come è fatto un dataset La finestra dei dati è organizzata a celle, in righe e colonne. Le colonne contengono le variabili. Le righe contengono i soggetti (o in generale i casi) e ogni cella contiene il dato del relativo soggetto nella variabile corrispondente. Le colonne indicano le variabili: var1 Le righe indicano i casi var2 var3 var4 var5 var6 var7 var8 var9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ALMA MATER STUDIORUM – Università di Bologna Vediamo concretamente come è fatto un dataset in SPSS….. Il dataset che vedremo riguarda un indagine effettuata su 36 pazienti in trattamento emodialitico. Lo studio mette a confronto due diverse tecniche per l’accesso alla fistola artero-venosa (FAV): la tecnica Buttonhole vs la tecnica rope ladder rotation la Buttonhole (BH) prevede un sito costante e l’utilizzo dell’ago smusso la Rope-Ladder Rotation (RLR) consiste nel cambiare il sito di punture ad ogni seduta lungo la FAV come se fosse una corda e prevede l’utilizzo dell’ago tagliente. ALMA MATER STUDIORUM – Università di Bologna Obiettivi dello studio •Oggetto dello studio: L'obiettivo primario dello studio è: misurare l’incidenza media del dolore nel Tagliente rispetto allo Smusso nelle punture con tecnica BH, utilizzando una scala numerica (0=nessun dolore – 10=dolore massimo).[media, SD, mediana; diff. di medie] Gli obiettivi secondari dello studio consistono nel misurare le seguenti Complicanze: 1. Infezioni 2. ematoma 3. perdita perivasale ematica 4. sanguinamento espresso in minuti – Tempo medio, SD, Mediana, 5. difficoltà di inserimento ALMA MATER STUDIORUM – Università di Bologna Dataset linkabili con chiave Per questo studio abbiamo due dataset distinti 1. Dataset dei pazienti: in cui sono inserite le caratteristiche demografiche e cliniche dei 36 pazienti 2. Dataset dei casi: in cui sono inserite le informazioni relative alle procedure di emodialisi: 335 procedure. I due dataset sono linkabili mediante una chiave che identifica il paziente e ciascun paziente avrà più sedute per emodialisi ALMA MATER STUDIORUM – Università di Bologna Dopo aver importato il database dobbiamo Preparare il database per l’analisi dei dati 1. Definire le variabili: (numeriche, ordinali, nominali) 2. Attribuire una label (etichetta) a ciascuna variabile: cioè un commento associato per chiarire cosa rappresentano 3. Verificare la completezza (per individuare eventuali valori mancanti o valori anomali) 4. Creare nuove variabili ALMA MATER STUDIORUM – Università di Bologna 1. Definire le variabili: (numeriche, stringa, data ecc.) Click su Tipo Click su Visualizzazione variabili ALMA MATER STUDIORUM – Università di Bologna Definire le variabili: (scala, ordinali, nominali) Click su Misura ALMA MATER STUDIORUM – Università di Bologna Attribuire una label a ciascuna variabile: cioè un commento associato per chiarire cosa rappresentano Click su valori ALMA MATER STUDIORUM – Università di Bologna Descrizione del campione La descrizione del campione prevede la costruzione di una tabella che riporta i valori medi o le frequenze delle caratteristiche del campione: – le variabile quantitative vengono presentate come media ±deviazione standard – le variabili ordinali vengono presentate come frequenze assolute e percentuali – le variabili qualitative vengono presentate come frequenze assolute e percentuali ALMA MATER STUDIORUM – Università di Bologna Descrizione del campione:Variabili quantitative – le variabile quantitative vengono presentate come media ±deviazione standard In SPSS possiamo costruire una tabella unica per le variabili quantitative: Possiamo scegliere tra due funzioni alternative: 1° funzione SPSS SPSS Click Analizza Statistiche descrittive Descrittive inserire le variabili quantitative Opzioni…… click media, deviazione stand ALMA MATER STUDIORUM – Università di Bologna Descrizione del campione:Variabili quantitative 2° funzione SPSS SPSS Click Analizza Tabelle Tabelle personalizzate inserire le variabili quantitative per riga Statistiche riassuntive click media, deviazione stand Questa seconda funzione di SPSS permette di personalizzare le tabelle, sia nei contenuti che nella presentazione. Tutte le tabelle prodotte da SPSS possono essere copiate su file di word o excel e quindi modificate ALMA MATER STUDIORUM – Università di Bologna Descrizione del campione:Variabili ordinali – le variabili ordinali vengono presentate come frequenze e percentuali 1° modo Per ottenere sia le frequenze che la mediana, il minimo e il massimo 2° modo Per ottenere tabelle personalizzate per le frequenze SPSS Click Analizza Statistiche descrittive Frequenze Statistiche SPSS Click Analizza Tabelle Tabelle personalizzate inserire le variabili ordinali per riga Statistiche riassuntive ALMA MATER STUDIORUM – Università di Bologna Descrizione del campione:Variabili qualitative le variabili qualitative vengono presentate come frequenze assolute e percentuali 1° modo 2° modo Per ottenere tabelle personalizzate SPSS Click Analizza Statistiche descrittive Frequenze Statistiche SPSS Click Analizza Tabelle Tabelle personalizzate inserire le variabili qualitative per riga Statistiche riassuntive ALMA MATER STUDIORUM – Università di Bologna Unione di 2 dataset: per aggiungere variabili Nel dataset dei pazienti mancano le informazioni relative ai trattamenti 1. 2. Chiamiamo il nuovo dataset db_completo.sav Ordiniamo i dati del dataset per ID SPSS Click Dati Ordina casi (selezionare ID) ALMA MATER STUDIORUM – Università di Bologna Unione di 2 dataset: per aggiungere variabili Ordiniamo i dati del vecchio dataset (tab_paz.sav) per ID SPSS Click Dati Ordina casi (selezionare ID) ALMA MATER STUDIORUM – Università di Bologna Unione di 2 dataset: per aggiungere variabili Ora i due dataset possono essere uniti SPSS Click Dati Unisci file Aggiungi variabili Un insieme di dati aperto Continua Confronta i casi per chiave di ordinamento (seleziona ID) OK ALMA MATER STUDIORUM – Università di Bologna Creazione di variabili: differenza tra date Creare una variabile che indica l’età il tempo che è intercorso tra la data seduta e la data di nascita SPSS Click Trasforma Procedura guidata data e ora Eseguire calcoli con date e ore avanti calcola il numero di unità…… avanti (inserite le due date da sottrarre) ALMA MATER STUDIORUM – Università di Bologna 4.Creare nuove variabili SPSS Click Trasforma Ricodifica in variabili differenti ALMA MATER STUDIORUM – Università di Bologna Per calcolare la media, dev std, min max, quartili 1. Per calcolare i valori medi, le deviazioni standard SPSS Click Analizza Statistiche descrittive Descrittive Opzioni … 2. Per calcolare i quartili SPSS Click Analizza Statistiche descrittive Frequenze Statistiche ALMA MATER STUDIORUM – Università di Bologna Per creare un grafico SPSS Click Grafici Generatore di grafici 1. Nel caso di grafici relativi a distribuzioni di frequenze SPSS Click Analizza Statistiche descrittive Frequenze Grafici ALMA MATER STUDIORUM – Università di Bologna come si calcolano gli intervalli di confidenza con SPSS Per ottenere Intervalli di Confidenza in SPSS: SPSS Click Analizza Statistiche descrittive Esplora Statistiche ALMA MATER STUDIORUM – Università di Bologna Tabelle a doppia entrata (crosstab) SPSS Click Analizza Statistiche descrittive Tavole di contingenza Statistiche ALMA MATER STUDIORUM – Università di Bologna ALMA MATER STUDIORUM – Università di Bologna