Gestione ed Analisi Statistica dei dati 9 maggio 14

Master in “Evidence Based Practice e
Metodologia della Ricerca clinico-assistenziale”
Gestione ed Analisi Statistica dei dati
Daniela Fortuna
9 maggio 2014
ALMA MATER STUDIORUM – Università di Bologna
Come è strutturato il corso
Questo corso prevede 3 giornate di lezione di 7 ore ognuna
Ciascuna giornata di lezione sarà composta di
una parte teorica in cui verranno trattati le principali
metodologie di analisi statistica per la ricerca clinica
una parte pratica in cui verrà affrontato uno studio
concreto e i dati dello studio verranno gestiti ed analizzati con
l’utilizzo di SPSS (uno dei software statistici più diffusi )
ALMA MATER STUDIORUM – Università di Bologna
A cosa serve la statistica
Gli scopi della STATISTICA sono di duplice natura
SINTETIZZARE
ovvero semplificare la lettura e
l’interpretazione dei dati
raccolti mediante tabelle,
grafici e sintesi numeriche.
L’esigenza di semplificare deriva dalla
limitata capacità della mente umana di
gestire informazioni articolate o complesse
o multidimensionali.
GENERALIZZARE
estendere il risultato dell’analisi
effettuata sui dati di un gruppo
limitato di unità statistiche (campione)
all’intera collettività di appartenenza
(universo, popolazione).
STATISTICA INFERENZIALE
STATISTICA DESCRITTIVA
ALMA MATER STUDIORUM – Università di Bologna
Inferenza statistica:
generalizzazione dei risultati campionari
Campione
casuale
popolazione
1
2
4 5 6
8
3 1420 7
campionamento
9
11
1918
17 16 15 12
5
16
10
10
14
7
Studio del
campione:
RISULTATI
ALMA MATER STUDIORUM – Università di Bologna
Il campione casuale
Per poter applicare i metodi della statistica inferenziale è
necessario che il campione sia CASUALE ovvero
è necessario che ciascuna unità della popolazione abbia la
stessa probabilità di entrare a far parte del campione
Idealmente estrarre un campione casuale è come pescare
una pallina dentro un’urna con gli occhi bendati!!!
La scelta della pallina che si estrae è del tutto casuale
perchè le palline sono tutte uguali al tatto
Oggi ci siamo evoluti!
non ci sono più urne né bende ma dei
sofisticati software generano numeri casuali!
Ciascun numero casuale generato
corrisponderà ad un’unità da includere nel
campione
ALMA MATER STUDIORUM – Università di Bologna
Criteri di selezione dei pazienti
il campionamento
Qualunque sia il tipo di studio (osservazionale o
sperimentale) e qualsiasi siano i criteri di inclusione,
la ricerca in ambito clinico si basa su
dati campionari
CAMPIONAMENTO CASUALE
ALMA MATER STUDIORUM – Università di Bologna
Tipi di Campionamento casuale
Campionamento
casuale semplice
Campionamento
casuale
stratificato:
Campionamento
casuale a grappolo
o Cluster:
Si estraggono casualmente le unità dalla
popolazione
si suddivide la popolazione in strati
in base ad una caratteristica di interesse
e si campionano le unità di ciascuno strato
si campionano alcuni gruppi della
popolazione definiti in base ad una
caratteristica di interesse
ALMA MATER STUDIORUM – Università di Bologna
CAMPIONAMENTO CASUALE
SEMPLICE
Il campione casuale semplice si caratterizza per il
fatto che tutti gli elementi della popolazione vengono presi
in considerazione ed hanno tutti uguale probabilità di
essere selezionati:
ognuno di essi cioè può "casualmente" costituire una delle
unità del campione
ALMA MATER STUDIORUM – Università di Bologna
CAMPIONAMENTO CASUALE semplice:
Si estraggono n numeri casuali dalla popolazione
Estrazione casuale
popolazione
1
4
2
19 18
3
5
6
8
14 20 7
17 16 15
11
9
10
12
Campione
casuale
ALMA MATER STUDIORUM – Università di Bologna
Esempio di campionamento casuale
semplice
Esempio 1: “Si vuole valutare la degenza media dei ricoveri per
intervento di ernia inguinale effettuati in Emilia Romagna nel
2013” possiamo estrarre un campione casuale della popolazione
definita dai criteri di selezione:
Criteri di inclusione:
pazienti sottoposti ad intervento di ernia inguinale ricoverati in tutte le strutture
pubbliche e private accreditate dell’Emilia Romagna nel 2013
Criteri di esclusione
Ricoveri in emergenza
ALMA MATER STUDIORUM – Università di Bologna
Esempio 1:
Degenza media ricoveri per ernia inguinale
CAMPIONAMENTO CASUALE semplice:
Popolazione: pazienti sottoposti
ad intervento di ernia inguinale
ricoverati in tutte le strutture
pubbliche e private accreditate
dell’Emilia Romagna nel 2013, non
in emergenza
1
4
2
19 18
3
5
6
8
14 20 7
17 16 15
11
Estrazione casuale
9
10
12
Campione
casuale
ALMA MATER STUDIORUM – Università di Bologna
Tipi di Campionamento casuale
Campionamento
casuale semplice
Campionamento
casuale
stratificato:
Campionamento
casuale a grappolo
o Cluster:
Si estraggono casualmente (a caso) le unità dalla
popolazione
si suddivide la popolazione in strati
in base ad una caratteristica di interesse
e si campionano le unità di ciascuno strato
si campionano alcuni gruppi della
popolazione definiti in base ad una
caratteristica di interesse
ALMA MATER STUDIORUM – Università di Bologna
CAMPIONAMENTO CASUALE STRATIFICATO
Nel campionamento stratificato gli elementi della
popolazione vengono suddivisi in gruppi o strati rispetto ad una
carattestica che maggiormente influenza il fenomeno che si intende
studiare (es. sesso, età, reparto ecc.) e da questi gruppi si
estraggono campioni Casuali semplici
– Il campionamento stratificato proporzionale da ogni strato si
estrae un campione casuale semplice in modo tale che ogni
strato contribuisce alla formazione del campione totale nella
stessa misura in cui ogni strato contribuisce a formare l'intera
popolazione.
Per ottenere un campione stratificato proporzionale occorre, naturalmente, conoscere la
parte di popolazione che afferisce ad ogni strato ed è possibile effettuare la stratificazione
solo per quelle variabili di cui si hanno informazioni al momento del campionamento.
ALMA MATER STUDIORUM – Università di Bologna
Esempio 2
Campionamento casuale stratificato
Esempio 2: “Si vuole valutare la prevalenza di lesioni da decubito dei
pazienti anziani ricoverati negli ospedali pubblici dell’Emilia Romagna
(RER)” possiamo estrarre un campione stratificato per reparti.
Si avranno tanti strati quanti sono i reparti e in ciascun strato si
effettua un campionamento casuale
Criteri di inclusione:
Pazienti ricoverati negli ospedali pubblici RER
Età ≥ 65 anni
Criteri di esclusione
pazienti con LDP
colore pelle nera
ALMA MATER STUDIORUM – Università di Bologna
Esempio 2
Prevalenza lesioni da decubito negli ospedali pubblici RER
Campionamento casuale stratificato per reparti
(TUTTI i REPARTI)
chirurgia
geriatria
1
4
2
3
19 18
17
5
6
8
14 20 7
medicina
9
11
3
Estrazione casuale
4
2
5
6
1
3
5
6
1
10
16 15 12
4
2
10
11
17
9
16 15 12
Estrazione casuale
10
11
19 18
9
14 20 7
19 18
8
14 20 7
8
17 16 15 12
Estrazione casuale
ALMA MATER STUDIORUM – Università di Bologna
Tipi di Campionamento casuale
Campionamento
casuale semplice
Campionamento
casuale
stratificato:
Campionamento
casuale a grappolo
o Cluster:
Si estraggono casualmente (a caso) le unità dalla
popolazione
si suddivide la popolazione in strati
in base ad una caratteristica di interesse
e si campionano le unità di ciascuno strato
si campionano alcuni gruppi della
popolazione definiti in base ad una
caratteristica di interesse
ALMA MATER STUDIORUM – Università di Bologna
CAMPIONAMENTO CASUALE A GRAPPOLO
Campionamento casuale a grappolo
si suddivide la popolazione in sottoinsiemi detti grappoli (clusters) e si
effettua il campionamento casuale dei grappoli.
•
Il metodo non prevede quindi il campionamento diretto degli elementi, ma
vengono campionati grappoli di elementi.
•
Nel più semplice campionamento a grappoli si può usare la scelta casuale
per selezionare i grappoli formati e quindi indagare su tutte le unità
contenute in quelli campionati: campionamento ad uno stadio
ALMA MATER STUDIORUM – Università di Bologna
CAMPIONAMENTO CASUALE A GRAPPOLO
Si suddivide la popolazione in gruppi, si campionano i gruppi e
si prendono tutte le unità dei gruppi selezionati
6
9
13
3
21
10
18
24
13
4
8
24
1
3
19 18
17
5
6
8
14 20 7
16 15 12
5
6
1
9
11
15
4
2
3
10
4
2
5
6
1
3
9
14 20 7
10
11
17
9
14 20 7
8
19 18
8
4
8
10
18
4
3
21
15
2
6
9
16 15 12
10
11
19 18
17 16 15 12
ALMA MATER STUDIORUM – Università di Bologna
Esempio 3
Campionamento casuale a grappolo (o cluster)
Esempio 3 “Si vuole valutare l’efficacia di un nuovo prodotto per la
prevenzione delle lesioni da pressione nei pazienti con età>=18
sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore.”
possiamo estrarre casualmente ospedali con reparti chirurgici. Si
avranno tanti cluster quanti sono gli ospedali estratti casualmente e di
ciascun ospedale estratto, si considerano tutti i pazienti che soddisfano i
criteri di inclusione
Criteri di inclusione:
sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore
Età ≥ 18 anni
Criteri di esclusione
pazienti con LDP
colore pelle nera
ALMA MATER STUDIORUM – Università di Bologna
Esempio 3
Nuovo prodotto per la prevenzione delle LDP
CAMPIONAMENTO CASUALE A GRAPPOLO
Ospedale 5
6
9
13
Ospedale 1
3
21
10
18
24
13
4
8
24
1
3
19 18
17
6
15
Ospedale 4
Ospedale 2
5
4
8
10
18
4
3
21
15
2
6
9
8
14 20 7
Ospedale 3
9
11
16 15 12
4
2
10
4
2
6
1
3
5
6
1
3
5
9
14 20 7
17
9
10
11
19 18
8
14 20 7
8
16 15 12
10
11
19 18
17 16 15 12
ALMA MATER STUDIORUM – Università di Bologna
Quando non si conosce la popolazione….
• Nella pratica la maggior parte delle ricerche riguardano
pazienti ospedalizzati e il reclutamento dei pazienti
avviene durante il ricovero.
• Si stabilisce un periodo di tempo per il reclutamento, ad
esempio dal 5 maggio al 5 giugno, e si includono nel
campione tutti i pazienti ammessi in ospedale in quel
periodo e che soddisfano i criteri di inclusione
la casualità è garantita dal fatto che vengono arruolati pazienti,
ammessi in ospedale consecutivamente, senza alcuna selezione.
ALMA MATER STUDIORUM – Università di Bologna
Studi sperimentali
Un ragionamento a parte merita
la selezione dei pazienti negli Studi sperimentali
• Uno studio sperimentale consiste essenzialmente nel
selezionare due gruppi di pazienti in modo casuale,
affinché siano il più comparabili possibile.
L’esposizione è assegnata ad uno dei due gruppi e si
confrontano poi gli esiti nei due gruppi.
ALMA MATER STUDIORUM – Università di Bologna
Selezione dei pazienti negli studi
sperimentali
I passi da intraprendere:
identificare la popolazione sorgente, cioè la popolazione a cui si
vuole che i risultati dello studio possano essere generalizzati
Identificare una fonte di reclutamento, come ad esempio un registro
di pazienti di un ospedale
Selezionare i potenziali soggetti in base ai criteri di inclusione
Chiedere ai soggetti la loro disponibilità a partecipare allo studio
Distribuire in modo casuale i soggetti scelti e consenzienti nei 2
gruppi: il gruppo di trattamento e il gruppo di controllo
ALMA MATER STUDIORUM – Università di Bologna
Il ruolo della randomizzazione negli RCT
Fornisce un metodo imparziale per
l’assegnazione del trattamento ai pazienti,
al di fuori di possibili distorsioni personali
Tende a bilanciare i gruppi in trattamento
anche per tutti quei fattori ignoti che
potrebbero condizionare l’esito dei
trattamenti stessi
ALMA MATER STUDIORUM – Università di Bologna
Tipi di randomizzazione negli RCT
Randomizzazione semplice,
semplice mediante tavole di
numeri casuali o il lancio della moneta. Assicura la
distribuzione casuale degli individui ma solo nel caso di
campioni numerosi.
Randomizzazione a blocchi preserva da gravi
sbilanciamenti nel caso di campioni poco numerosi
ALMA MATER STUDIORUM – Università di Bologna
Randomizzazione a blocchi
Il “blocco” è una sequenza che contiene lo stesso
numero di pazienti da assegnare al gruppo di
trattamento (A) e a quello dei controlli (B).
Ad esempio, un blocco di 4 genera 6 diverse sequenze, ciascuna
delle quali assegna due pazienti al gruppo A e due al B: AABB,
ABAB, BBAA, BABA, ABBA, BAAB. Queste sequenze possono
essere estratte casualmente e in base ad esse è possibile
assegnare i gruppi ai successivi 4 arruolati
ALMA MATER STUDIORUM – Università di Bologna
Randomizzazione a blocchi di 4
Genera 6 sequenze:
AABB, ABAB, BBAA, BABA, ABBA, BAAB.
1° sequenza : AABB
GRUPPO A
trattamento
5
1
2
3
19 18
4
6
8
14 20 7
11
9
10
GRUPPO B
controllo
17 16 15 12
ALMA MATER STUDIORUM – Università di Bologna
Esempio di randomizzazione a blocchi di 4
AABB, ABAB, BBAA, BABA, ABBA, BAAB.
2° sequenza : ABAB
GRUPPO A
trattamento
5
2
6
8
14 20 7
19 18
11
17 16 15 12
1
GRUPPO B
controllo
9
10
3
4
ALMA MATER STUDIORUM – Università di Bologna
Esempio di randomizzazione a blocchi di 4
AABB, ABAB, BBAA, BABA, ABBA, BAAB.
3° sequenza : BBAA
GRUPPO A
trattamento
5
2
1
7
14 20
19 18
17 16 15 12
9
11
GRUPPO B
controllo
10
3
6
8
4
ALMA MATER STUDIORUM – Università di Bologna
Esempio di randomizzazione a blocchi di 4
AABB, ABAB, BBAA, BABA, ABBA, BAAB.
Risultato della randomizzazione
Lo schema di
campionamento casuale
a blocchi più diffuso è a
8 o 10 blocchi
22
17
5
14 11
16 12
7
20
13
9
19
GRUPPO B
controllo
6
10
18
24
1
2
23
21
GRUPPO A
trattamento
3
8
4
15
ALMA MATER STUDIORUM – Università di Bologna
Randomizzazione a blocchi
come scegliere la grandezza dei blocchi
•
Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato
all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B
• Cambiando la grandezza dei blocchi cambia il numero di soggetti
estratti.
N!
La formula per calcolare il numero di sequenze è:
K1!K2!
dove
N=grandezza del blocco
K1= il numero di volte che A deve comparire in ogni blocco
K2= il numero di volte che B deve comparire in ogni blocco
Per blocchi di 4
4x3x2x1
2x1x2x1
Per blocchi di 8
= 6
8x7x6x5x4x3x2x1
4x3x2x1x4x3x2x1
6 sequenze x 4=24
=
70
70 sequenze x 8=560
ALMA MATER STUDIORUM – Università di Bologna
Esempio
trial clinico randomizzazione
•
Studio di efficacia di un nuovo sistema per il trattamento
riabilitativo respiratorio da associare alla consueta
Fisiokinesiterapia in Terapia Intensiva Postoperatoria
Popolazione di riferimento
Criteri di inclusione
pazienti ricoverati in Terapia Intensiva dopo intervento chirurgico
Criteri di esclusione
Pazienti sottoposti ad intervento in emergenza
ALMA MATER STUDIORUM – Università di Bologna
Esempio
trial clinico randomizzazione
Reclutamento dei pazienti
Tutti i pazienti consecutivamente ricoverati in Terapia
Intensiva postoperatoria dal 1 settembre al 30 novembre
2013, e che soddisfano i criteri di selezione stabiliti
Attribuzione del trattamento
I pazienti reclutati, vengono distribuiti casualmente, ad
uno dei due gruppi (gruppo A di controllo e gruppo
B di trattamento) mediante un processo di
randomizzazione,
Metodo di randomizzazione utilizzato: a blocchi di 4
ALMA MATER STUDIORUM – Università di Bologna
Randomizzazione a blocchi
come scegliere la grandezza dei blocchi
•
Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato
all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B
• Cambiando la grandezza dei blocchi cambia il numero di soggetti
estratti.
N!
La formula per calcolare il numero di sequenze è:
K1!K2!
dove
N=grandezza del blocco
K1= il numero di volte che A deve comparire in ogni blocco
K2= il numero di volte che B deve comparire in ogni blocco
Per blocchi di 4
4x3x2x1
2x1x2x1
Per blocchi di 8
= 6
8x7x6x5x4x3x2x1
4x3x2x1x4x3x2x1
6 sequenze x 4=24
=
70
70 sequenze x 8=560
ALMA MATER STUDIORUM – Università di Bologna
Randomizzazione Stratificata
a blocchi
•
Con numerosità limitate possono verificarsi degli sbilanciamenti
nelle variabili di confondimento. Per essere certi che ciò non
avvenga, si può procedere con la randomizzazione stratificata,
che assicura che entro le variabili considerate nella stratificazione il
fattore confondente è omogeneamente distribuito nei 2 gruppi
ALMA MATER STUDIORUM – Università di Bologna
Perchè il campione deve
essere casuale
Se il CAMPIONE E’ CASUALE e abbiamo calcolato bene la numerosità
campionaria, l’unico errore che possiamo commettere è un ERRORE CASUALE
cioè dovuto al caso e questo tipo di errore può essere stimato
Ad ogni risultato campionario si associa una probabilità
o dei limiti probabili di oscillazione
Se il CAMPIONE NON E’ CASUALE può risentire di ERRORI di
SELEZIONE chiamati bias, che non possono essere stimati
CAMPIONE DISTORTO
ALMA MATER STUDIORUM – Università di Bologna
Che cos’è la probabilità
Definizione di probabilità
La probabilità che si verifichi un dato evento (E) è la proporzione del numero (s)
dei casi favorevoli all'evento stesso sul numero (n) dei casi possibili, purché tutti
i casi considerati siano ugualmente probabili.
Esempio:
In un sacchetto ci sono 7 palline bianche e 3 rosse. Tutte sono fatte dello stesso
materiale, hanno le stesse dimensioni, sono perfettamente sferiche, ugualmente levigate
e così via. Infilerò una mano nel sacchetto, senza guardare dentro, ed estrarrò una
pallina a caso. Qual è la probabilità che la pallina estratta sia rossa?
Soluzione:
Le palline in tutto sono 7+3 = 10 quindi i casi possibili: n=10
Ci sono solo 3 palline rosse quindi i casi favorevoli: s=3
L'evento E= "pallina estratta rossa" ha perciò 3 possibilità su 10
di verificarsi
Definisco la sua probabilità come la proporzione dei casi
favorevoli su quelli possibili e ottengo:
probabilità (pallina rossa) = 3/10 = 0,3 = 30%
ALMA MATER STUDIORUM – Università di Bologna
La probabilità e il ruolo del caso
Quindi la probabilità di estrarre una pallina rossa da un sacchetto che contiene
10 palline di cui 3 rosse è il 30%.
Ma ATTENZIONE questo non significa che ripetendo 10 volte
l’estrazione, avendo cura ogni volta di rimettere la pallina estratta
all’interno del sacchetto per garantire a tutte le palline
l’equiprobabilità di essere estratte, otterrò 3 palline rosse!!!!
La probabilità è diversa dalla frequenza che si ottiene in poche estrazioni
perché interviene il CASO
L’effetto del CASO si attutisce, fino ad annullarsi, se ripetiamo l’estrazione
molte volte, 100, 1000 volte
ALMA MATER STUDIORUM – Università di Bologna
La probabilità e il ruolo del caso
Esempio:
Lanciando una moneta qual è la probabilità che esca TESTA?
I casi possibili : n=2
Il caso favorevole “testa” : s=1
La probabilità dell’evento E “esce testa” è la proporzione dei
casi favorevoli sui casi possibili ovvero P=1/2=0,5=50%
Ripetendo il lancio della moneta varie volte si potrebbero
ottenere i seguenti risultati
faccia
della
moneta
10 lanci
N°
%
100 lanci
N°
1000 lanci
%
N°
%
Testa
7
70%
56
56%
507
50,7%
Croce
3
30%
44
44%
493
49,3%
La variabilità dei risultati dipende dal CASO
e quando si effettuano un numero elevato (ad esempio 1000 )
di prove ripetute l’effetto del caso si riduce fino ad annullarsi
ALMA MATER STUDIORUM – Università di Bologna
La numerosità campionaria e
l’effetto del caso
Le stesse considerazioni possono essere estese ai campioni casuali:
- Il CASO agisce in modo analogo quando estraiamo casualmente le
unità che entrano a far parte del campione quindi
maggiore è la numerosità del campione e minore è l’errore casuale
CAMPIONE GRANDE
CAMPIONE PICCOLO
ERRORE CASUALE PICCOLO
ERRORE CASUALE GRANDE
ALMA MATER STUDIORUM – Università di Bologna
Più campioni e l’effetto del caso
Come agisce la casualità in campioni ripetuti?
Se ripetessimo tante volte il campionamento ovvero se
prendessimo un numero elevato di campioni da una stessa
popolazione, ciascun campione darebbe dei risultati diversi ma
riportando su un istogramma le frequenze dei risultati ci
accorgeremmo che alcuni risultati sono più frequenti di altri ovvero
più probabili di altri
ALMA MATER STUDIORUM – Università di Bologna
Curva di distribuzione Normale o
Gaussiana
Gauss studiò il comportamento degli errori di misura.
servendosi di un telescopio si dedicò a calcolare con
precisione il diametro della luna, ma i valori che
otteneva erano leggermente diversi ad ogni
misurazione.
Rappresentando la frequenza delle misurazioni con
un istogramma ricavò una curva a campana in cui la
maggior parte dei valori si concentrava intorno alla
media
Carl Friedrich Gauss (1777-1855)
matematico, astronomo e fisico
tedesco, che ha dato contributi
determinanti in vari campi,
inclusi analisi matematica, teoria
dei numeri, statistica, calcolo
numerico, geometria differenziale,
geodesia, geofisica, magnetismo,
elettrostatica, astronomia e ottica.
Frequenze delle misurazioni del diametro della luna
effettuate da Gauss
x =media
σ =deviazione standard
ALMA MATER STUDIORUM – Università di Bologna
Media e deviazione standard
X = Media è la somma dei valori ottenuti diviso il numero delle misurazioni effettuate
X = (X1+X2+…+ Xn)
n
σ=Deviazione Standard esprime la deviazione media di ciascun valore dalla media
ed è calcolata come la somma del quadrato delle differenze di ciascun valore
dalla media, diviso il numero delle osservazioni e prendendo la radice quadrata
del risultato.
Algebricamente per un set di n valori (X1,X2,…, Xn) la deviazione standard è
scritta come segue:
Σ(Xi-X)2
σ=
n
Dove Σ(X -X)2
i
n
= (X1-X)2 + (X2-X)2 + .......+ (Xn-X)2
= numero di osservazioni
ALMA MATER STUDIORUM – Università di Bologna
Esempio di calcolo della
deviazione standard
Distribuzione delle età di 19 soggetti
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
età
27
31
30
27
29
31
44
32
35
40
39
34
25
40
30
33
28
40
46
Età media=33,7
Σ(Xi-X)2
Deviazione Standard: σ =
n
Distribuzione frequenza delle età
18%
16%
14%
12%
10%
8%
6%
4%
2%
0%
25
27
28
29
30
31
32
33
Età
34
35
39
40
44
46
Età media =33,7
ALMA MATER STUDIORUM – Università di Bologna
Esempio di calcolo della
deviazione standard
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
età
27
31
30
27
29
31
44
32
35
40
39
34
25
40
30
33
28
40
46
(Xi-X)
(27-33,7)
(31-33,7)
(30-33,7)
(27-33,7)
(29-33,7)
(31-33,7)
(44-33,7)
(32-33,7)
(35-33,7)
(40-33,7)
(39-33,7)
(34-33,7)
(25-33,7)
(40-33,7)
(30-33,7)
(33-33,7)
(28-33,7)
(40-33,7)
(46-33,7)
(Xi-X)2
2
(27-33,7)
2
(31-33,7)
2
(30-33,7)
2
(27-33,7)
2
(29-33,7)
2
(31-33,7)
2
(44-33,7)
2
(32-33,7)
2
(35-33,7)
2
(40-33,7)
2
(39-33,7)
2
(34-33,7)
2
(25-33,7)
2
(40-33,7)
2
(30-33,7)
2
(33-33,7)
2
(28-33,7)
2
(40-33,7)
2
(46-33,7)
Età media=33,7
Σ(Xi-X)2
Deviazione Standard: σ =
n
Varianza
Σ(Xi-X)2
=
n
σ=
Σ(Xi-X)2
671,71
19
=
35,35
= √35,5 = 5,9
Deviazione
Standard
n
Quindi possiamo dire che l’età media dei 19 soggetti
considerati è di 34 anni, con una variabilità o
dispersione intorno alla media di circa 6 anni
e si scrive : età media ± Dev Std: 33,7 ± 5,9
ALMA MATER STUDIORUM – Università di Bologna
.....torniamo alla curva di Gauss
Distribuzione frequenza delle età
Questa è la
distribuzione
frequenze dell’età,
con età media e
deviazione standard
Frequenze delle
misurazioni del diametro
della luna effettuate da
Gauss
18%
16%
14%
12%
10%
8%
6%
4%
2%
0%
25
27
X 28-σ 29
30
31
32
33
Età
34
x
35
39
X40+σ44
46
x =media
σ =deviazione standard
ALMA MATER STUDIORUM – Università di Bologna
Curva di distribuzione Normale o Gaussiana
Ad esempio campione per stimare il body mass index (BMI) medio della
popolazione
Risultati del 1°campione
Media=25.3
Deviazione standard=2.8
Mediana=25
12%
10%
8%
6%
normopeso
4%
2%
0%
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
Considerando un elevato numero
di campioni casuali e riportando sul grafico
i valori medi
ottenuti in ciascun campione
Body Mass Index
Risultati del 2°campione
Media=24.1
Deviazione standard=1.8
Mediana=24
14
12
10
normopeso
8
6
Normopeso
4
2
0
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
19
22,5
26
ALMA MATER STUDIORUM – Università di Bologna
Curva di distribuzione Normale o Gaussiana:
esempio
Utilizzo di diversi campioni per stimare il valore glicemico medio della popolazione e
il range dei valori più probabili (ovvero il range dei valori normali) di glicemia
Media=96,6
Media=102,3
Valori normali
Glicemia (mg/dl)
Media=86,7
Glicemia (mg/dl)
Valori normali
Considerando un elevato numero
di campioni casuali e riportando sul grafico
i valori medi
ottenuti in ciascun campione
Valori
glicemici
nella
norma
Glicemia (mg/dl)
Nel 95% dei campioni otterremmo un valore medio
di glicemia compreso tra 60 mg/dl e 110 mg/dl,
e mediamente un valore glicemico di 85 mg/dl
60
85
110
ALMA MATER STUDIORUM – Università di Bologna
In sintesi
•
Estraiamo tantissimi (o anche tutti i possibili campioni) da una
stessa popolazione
•
Calcoliamo per ciascun campione un valore medio
•
Riportiamo i valori medi su un istogramma
•
L’istogramma che otteniamo è simile ad una distribuzione Normale
• La media delle medie campionarie è uguale alla
media della popolazione, perché ogni possibile campione
conterrà ogni individuo lo stesso numero di volte
ALMA MATER STUDIORUM – Università di Bologna
L’area sotto la curva di Gauss
Tutta l’area sottesa alla curva rappresenta il 100% dei dati
100%
L’area compresa tra:
AREE note sotto la curva normale
la media ±1σ=68,2%
la media ±1,96σ=95%
la media ±2σ=95,4%
la media ±3σ=99,7%
ALMA MATER STUDIORUM – Università di Bologna
Aree note della curva normale
ALMA MATER STUDIORUM – Università di Bologna
Altre caratteristiche della
curva normale
La Media,
Media la Mediana e la Moda coincidono
Media=mediana=moda
La sua forma dipende unicamente dalla
media e dalla deviazione standard
Diversa media comporta una
traslazione a dx o a sx
Diversa deviazione standard
comporta una curva più o meno appiattita
ALMA MATER STUDIORUM – Università di Bologna
La curva normale standardizzata
E’ possibile trasformare ogni curva normale , in una curva standard con:
media =0
e
deviazione standard=1
standard
Mediante una standardizzazione:
sostituendo a ciascun valore della x lo
scarto dalla media diviso la deviazione
standard e si ottiene:
Z=(x-x)/s
ALMA MATER STUDIORUM – Università di Bologna
Le distribuzione di probabilità teoriche più usate
la distribuzione NORMALE
la distribuzione T DI STUDENT
la distribuzione CHI-QUADRATO
ALMA MATER STUDIORUM – Università di Bologna
La STIMA :intervalli di confidenza
Le distribuzioni di probabilità teoriche
servono per la stima
La stima più utilizzata è la stima per intervalli
INTERVALLI DI CONFIDENZA
ALMA MATER STUDIORUM – Università di Bologna
La precisione della Stima e l’ Errore
Standard
ERRORE STANDARD: indica la variabilità di una stima (es. percentuale, media)
tanto più piccolo è l’errore standard tanto più precisa è la stima
L’ERRORE STANDARD è diverso dalla DEVIAZIONE STANDARD
ERRORE STANDARD
Deviazione
STANDARD
descrive l’incertezza nella stima ed è calcolato come
Errore Standard= σ/√ n
Dove σ è la deviazione standard
ed n è la numerosità del campione
descrive lo scostamento medio
di ciascun valore osservato
dalla media aritmetica
ALMA MATER STUDIORUM – Università di Bologna
STIMA per INTERVALLI
La stima per intervalli fornisce un intervallo, che ha
una predeterminata probabilità (in genere, il 95%) di
contenere il valore vero della popolazione.
gli intervalli ottenuti da campioni diversi in genere si
sovrappongono.
ALMA MATER STUDIORUM – Università di Bologna
Intervalli di confidenza
Valore campionario
INTERVALLO DI CONFIDENZA
CONFIDENZA 95% = stima ±
1,96 Errore Standard
Incertezza
L’intervallo di confidenza si costruisce sommando e sottraendo al
valore ottenuto dal campione una quantità che esprime l’incertezza
Il limite inferiore=stima – 1,96 x Errore Standard
Il limite superiore=stima + 1,96 x Errore Standard
ALMA MATER STUDIORUM – Università di Bologna
Stima per intervalli
stima è il valore che si ottiene dal campione
INTERVALLO DI CONFIDENZA
CONFIDENZA 95% = stima ±
1,96 Errore Standard
INTERVALLO DI CONFIDENZA
CONFIDENZA 99% = stima ±
Se la stima è una proporzione p
Se la stima è una media
2,58 Errore Standard
errore standard= √(p*(1-p)/n)
errore standard= s/√ n
(Deviazione standard / radice della numerosità del campione)
ALMA MATER STUDIORUM – Università di Bologna
Definizione intervallo di confidenza
Ma quindi cosa significa un intervallo di confidenza al 95% ?
Significa che questo intervallo contiene il valore vero della
popolazione con una probabilità del 95%
Mentre la probabilità che il valore vero sia esterno a tale intervallo è del 5%
Quindi quando stimiamo un intervallo di confidenza al 95%
Significa che siamo disposti ad accettare un errore del 5%
che viene definito LIVELLO DI SIGNIFICATIVITA’ e viene
indicato con α (alfa)
ALMA MATER STUDIORUM – Università di Bologna
Esempio: intervallo di confidenza
di una proporzione
Esempio: In un campione di 3500 pazienti sottoposti ad intervento
cardiochirurgico, in Emilia-Romagna, è stata rilevata una prevalenza di
diabete pari al 22,9% (ovvero una proporzione di 0.229 con deviazione
standard pari al 0.42 )
Calcolate l’intervallo di confidenza al 95% della prevalenza di diabete
rilevata
L’errore standard è √(p*(1-p)/n) =√ 0,229*(1-0,229)/3500 =0.0071
Intervallo di confidenza al 95% (IC95%)= 0,229 ± 1,96* 0.0071
Limite inferiore= 0.229 - 1,96* 0.0071 =0.215=21,5%
Limite superiore= 0,229 +1,96* 0.0071 =0.24 = 24%
Quindi la % dei diabetici tra i pazienti cardiochirurgici
è del 22,9% con IC95% (21,5%-24%)
ALMA MATER STUDIORUM – Università di Bologna
Esempio: intervallo di confidenza
di una media
Sono stati selezionati 357 pazienti sottoposti ad esami diagnostici, da
una popolazione di età superiore ai 65 anni. Il valore medio di
creatinina nel campione in studio è di 1,19 mg/dl con deviazione
standard DS= 0,8 mg/dl. Calcolare un intervallo di confidenza al
95% per la media della popolazione basato sul campione.
ALMA MATER STUDIORUM – Università di Bologna
intervalli di confidenza per una media
soluzione esempio
Risposta IC95%:
(1,19 - 1.96 x 0,8/√357, 1,19 + 1.96 x 0,8/√357) = (1,11 – 1,27)
Calcolate l’intervallo di confidenza
nel caso in cui la numerosità campionaria fosse 50.
Come cambierebbe il risultato?
IC95%: (1,19 - 1.96 x 0,8/√50, 1,19 + 1.96 x 0,8/√50) = (0,97-1,41)
Qualora nel campione di 357 individui con creatinina media 1,19 mg/dl,
si fosse rilevata una deviazione standard pari a 0,3
come cambierebbe il risultato?
IC95%: (1,19 - 1.96 x 0,3/√357, 1,19 + 1.96 x 0,3/√357) = (1,16 – 1,22)
ALMA MATER STUDIORUM – Università di Bologna
L’ampiezza dell’intervallo di
confidenza
L’ampiezza dell’intervallo di confidenza DIMINUISCE se
Diminuisce il livello di confidenza es da 99% a 95%
AUMENTA la numerosità campionaria
Diminuisce la variabilità indicata dalla deviazione standard
ALMA MATER STUDIORUM – Università di Bologna
Introduzione ad SPSS
ALMA MATER STUDIORUM – Università di Bologna
Introduzione ad SPSS
SPSS (Statistical Package for Social Sciences)
è un software per l’analisi statistica dei dati
Oltre all’elaborazione dei dati questo software permette:
la creazione di database ovvero l’inserimento dei dati direttamente in SPSS
l’ importazione di database creati con altri programmi come EXCEL, ACCESS
la gestione di database: es creazione di nuove variabili, modifica delle
variabili già esistenti, selezione dei casi, unione e collegamento tra database
ALMA MATER STUDIORUM – Università di Bologna
l’inserimento dati e
la preparazione del dataset
Con dataset intendiamo il file dati in formato
SPSS, all’interno del quale sono salvati i dati,
organizzati in variabili.
Quindi il dataset contiene i dati organizzati da
SPSS in modo che siano direttamente
utilizzabili per le analisi
ALMA MATER STUDIORUM – Università di Bologna
Come è fatto un dataset
Ogni sessione di SPSS si apre con una finestra di dati nuova, vuota e pronta
per l’inserimento dei dati
Questa finestra deve
contenere un dataset al fine
di poter lanciare qualunque
analisi
ALMA MATER STUDIORUM – Università di Bologna
Come è fatto un dataset
La finestra dei dati è organizzata a celle, in righe e colonne.
Le colonne contengono le variabili.
Le righe contengono i soggetti (o in generale i casi) e
ogni cella contiene il dato del relativo soggetto nella variabile corrispondente.
Le colonne indicano le variabili:
var1
Le righe indicano i casi
var2
var3
var4
var5
var6
var7
var8
var9
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
ALMA MATER STUDIORUM – Università di Bologna
Vediamo concretamente come
è fatto un dataset in SPSS…..
Il dataset che vedremo riguarda un indagine effettuata su 36
pazienti in trattamento emodialitico.
Lo studio mette a confronto due diverse tecniche per l’accesso alla
fistola artero-venosa (FAV):
la tecnica Buttonhole vs la tecnica rope ladder rotation
la Buttonhole (BH) prevede un sito costante e l’utilizzo dell’ago smusso
la Rope-Ladder Rotation (RLR) consiste nel cambiare il sito di punture
ad ogni seduta lungo la FAV come se fosse una corda e prevede l’utilizzo
dell’ago tagliente.
ALMA MATER STUDIORUM – Università di Bologna
Obiettivi dello studio
•Oggetto dello studio: L'obiettivo primario dello studio è: misurare
l’incidenza media del dolore nel Tagliente rispetto allo Smusso
nelle punture con tecnica BH, utilizzando una scala numerica
(0=nessun dolore – 10=dolore massimo).[media, SD, mediana;
diff. di medie]
Gli obiettivi secondari dello studio consistono nel misurare le seguenti Complicanze:
1. Infezioni
2. ematoma
3. perdita perivasale ematica
4. sanguinamento espresso in minuti – Tempo medio, SD, Mediana,
5. difficoltà di inserimento
ALMA MATER STUDIORUM – Università di Bologna
Dataset linkabili con chiave
Per questo studio abbiamo due dataset distinti
1. Dataset dei pazienti: in cui sono inserite le caratteristiche
demografiche e cliniche dei 36 pazienti
2. Dataset dei casi: in cui sono inserite le informazioni relative alle
procedure di emodialisi: 335 procedure.
I due dataset sono linkabili mediante una chiave che
identifica il paziente e ciascun paziente avrà più sedute per
emodialisi
ALMA MATER STUDIORUM – Università di Bologna
Dopo aver importato il database dobbiamo
Preparare il database per l’analisi dei dati
1. Definire le variabili: (numeriche, ordinali, nominali)
2. Attribuire una label (etichetta) a ciascuna variabile:
cioè un commento associato per chiarire cosa
rappresentano
3. Verificare la completezza (per individuare
eventuali valori mancanti o valori anomali)
4. Creare nuove variabili
ALMA MATER STUDIORUM – Università di Bologna
1. Definire le variabili:
(numeriche, stringa, data ecc.)
Click su Tipo
Click su Visualizzazione variabili
ALMA MATER STUDIORUM – Università di Bologna
Definire le variabili: (scala, ordinali, nominali)
Click su
Misura
ALMA MATER STUDIORUM – Università di Bologna
Attribuire una label a ciascuna variabile: cioè un
commento associato per chiarire cosa
rappresentano
Click su valori
ALMA MATER STUDIORUM – Università di Bologna
Descrizione del campione
La descrizione del campione prevede la costruzione di una
tabella che riporta i valori medi o le frequenze delle
caratteristiche del campione:
– le variabile quantitative vengono presentate
come media ±deviazione standard
– le variabili ordinali vengono presentate come
frequenze assolute e percentuali
– le variabili qualitative vengono presentate
come frequenze assolute e percentuali
ALMA MATER STUDIORUM – Università di Bologna
Descrizione del
campione:Variabili quantitative
– le variabile quantitative vengono presentate
come media ±deviazione standard
In SPSS possiamo costruire una tabella unica per le variabili quantitative:
Possiamo scegliere tra due funzioni alternative:
1° funzione
SPSS
SPSS
Click Analizza
Statistiche descrittive
Descrittive
inserire le variabili quantitative
Opzioni……
click media, deviazione stand
ALMA MATER STUDIORUM – Università di Bologna
Descrizione del
campione:Variabili quantitative
2° funzione
SPSS
SPSS
Click Analizza
Tabelle
Tabelle personalizzate
inserire le variabili quantitative per riga
Statistiche riassuntive
click media, deviazione stand
Questa seconda funzione di SPSS permette di personalizzare le tabelle, sia nei
contenuti che nella presentazione.
Tutte le tabelle prodotte da SPSS possono essere copiate su file
di word o excel e quindi modificate
ALMA MATER STUDIORUM – Università di Bologna
Descrizione del
campione:Variabili ordinali
– le variabili ordinali vengono presentate
come frequenze e percentuali
1° modo Per
ottenere sia le
frequenze che la
mediana, il minimo e
il massimo
2° modo Per
ottenere tabelle
personalizzate per le
frequenze
SPSS
Click Analizza
Statistiche descrittive
Frequenze
Statistiche
SPSS
Click Analizza
Tabelle
Tabelle personalizzate
inserire le variabili ordinali per riga
Statistiche riassuntive
ALMA MATER STUDIORUM – Università di Bologna
Descrizione del
campione:Variabili qualitative
le
variabili qualitative vengono presentate come frequenze
assolute e percentuali
1° modo
2° modo Per
ottenere tabelle
personalizzate
SPSS
Click Analizza
Statistiche descrittive
Frequenze
Statistiche
SPSS
Click Analizza
Tabelle
Tabelle personalizzate
inserire le variabili qualitative per riga
Statistiche riassuntive
ALMA MATER STUDIORUM – Università di Bologna
Unione di 2 dataset: per aggiungere
variabili
Nel dataset dei pazienti mancano le informazioni relative ai trattamenti
1.
2.
Chiamiamo il nuovo dataset db_completo.sav
Ordiniamo i dati del dataset per ID
SPSS
Click Dati
Ordina casi
(selezionare ID)
ALMA MATER STUDIORUM – Università di Bologna
Unione di 2 dataset: per aggiungere
variabili
Ordiniamo i dati del vecchio dataset (tab_paz.sav) per ID
SPSS
Click Dati
Ordina casi
(selezionare ID)
ALMA MATER STUDIORUM – Università di Bologna
Unione di 2 dataset: per aggiungere
variabili
Ora i due dataset possono essere uniti
SPSS
Click Dati
Unisci file
Aggiungi variabili
Un insieme di dati aperto
Continua
Confronta i casi per chiave di ordinamento
(seleziona ID)
OK
ALMA MATER STUDIORUM – Università di Bologna
Creazione di variabili: differenza tra date

Creare una variabile che indica l’età il tempo che
è intercorso tra la data seduta e la data di nascita
SPSS
Click Trasforma
Procedura guidata data e ora
Eseguire calcoli con date e ore
avanti
calcola il numero di unità……
avanti
(inserite le due date da sottrarre)
ALMA MATER STUDIORUM – Università di Bologna
4.Creare nuove variabili
SPSS
Click Trasforma
Ricodifica in variabili differenti
ALMA MATER STUDIORUM – Università di Bologna
Per calcolare la media, dev std, min
max, quartili
1.
Per calcolare i valori medi, le deviazioni standard
SPSS
Click Analizza
Statistiche descrittive
Descrittive
Opzioni …
2.
Per calcolare i quartili
SPSS
Click Analizza
Statistiche descrittive
Frequenze
Statistiche
ALMA MATER STUDIORUM – Università di Bologna
Per creare un grafico
SPSS
Click Grafici
Generatore di grafici
1.
Nel caso di grafici relativi a distribuzioni di frequenze
SPSS
Click Analizza
Statistiche descrittive
Frequenze
Grafici
ALMA MATER STUDIORUM – Università di Bologna
come si calcolano gli intervalli di
confidenza con SPSS
Per ottenere Intervalli di Confidenza in SPSS:
SPSS
Click Analizza
Statistiche descrittive
Esplora
Statistiche
ALMA MATER STUDIORUM – Università di Bologna
Tabelle a doppia entrata
(crosstab)
SPSS
Click Analizza
Statistiche descrittive
Tavole di contingenza
Statistiche
ALMA MATER STUDIORUM – Università di Bologna
ALMA MATER STUDIORUM – Università di Bologna