STATISTICA PER LE PROFESSIONI SANITARIE SANITARIE

STATISTICA PER LE PROFESSIONI
SANITARIE - LIVELLO BASE
Brugnaro Luca – Boscaro Gianni (2009)
1
Perché la statistica
Prendere decisioni
Bibliografia non soddisfacente
Richieste nuove conoscenze
Raccolta delle informazioni
Osservazione del fenomeno
Sperimentazione
Dai dati alle informazioni elementari
Nuove conoscenze
Ipotesi di decisione
2
Istruzioni per l’uso
Non cercate da questo corso o dalle vostre
ricerche delle “ricette” pronte all’uso.
Ricordate questo corso e leggete gli articoli
scientifici come “ad esempi” di quello che
si può fare.
Chiediamoci sempre:
“Sono convinto?”
“ Cosa farei di diverso?..”
3
La statistica ed un po' di
terminologia
Un insieme di elementi ove si vuole produrre nuove
conoscenze viene chiamato convenzionalmente
popolazione di riferimento.
Gli elementi della popolazione sono chiamati genericamente
unità statistiche.
Alcune caratteristiche di tutte o di una parte delle unità
statistiche (campione) vengono rilevate/misurate.
Il risultato di questo rilevare/misurare costituiscono i dati.
L'obiettivo è quello di giungere dai dati a nuove conoscenze
od ipotesi di decisione. Ovvero, di: “trasformare i dati in
affermazioni sulla popolazione di riferimento”.
4
La statistica e ulteriore
terminologia
Le caratteristiche rilevate sulle unita statistiche vengono
chiamate variabili.
I valori distinti assunti da una variabile sono chiamate le
modalità della variabile stessa.
Se le variabili di interesse non sono rilevate su tutte le
unita statistiche, il sottoinsieme della popolazione oggetto
della rilevazione e chiamato il campione.
5
La statistica e sue suddivisioni
Descrittiva: i dati a disposizione
sono riferiti a tutta
la popolazione di riferimento.
Inferenziale: i dati sono stati
rilevati solamente su una parte
delle unita statistiche
(campione)
e utilizzando le informazioni
ricavate dal campione si
vogliono fare delle affermazioni
sulle caratteristiche di tutta la
popolazione.
6
I dati
In statistica si parla di dati:
Qualitativi o categoriali quando le modalità utilizzate per descrivere il
fenomeno analizzato prendono la forma di aggettivi o di altre espressioni
verbali. A loro volta i dati qualitativi possono essere:
•sconnessi se non esiste nessun ordinamento naturale tra le
modalità; esempi di dati sconnessi sono: (i) la religione, (ii) la
modalità di somministrazione di un farmaco (ad es., per via orale,
parenterale o sottocutanea);
•ordinali nel caso in cui un ordinamento naturale esiste; esempi di
dati qualitativi ordinali sono: (i) il titolo di studio, (ii) la risposta ad un
trattamento (ad es. classificata come assente, parziale, ottima.).
Quando le modalità sono solamente due (esempi (i) maschio vs.
femmina, (ii) vivo vs. morto; (iii) buono vs. difettoso) si parla di dati
dicotomici o binari.
7
I dati
In statistica si parla di dati:
Quantitativi o numerici quando le modalità sono espresse da numeri.
Dal punto di vista dei modelli e delle tecniche utilizzate i dati numerici
si suddividono a loro volta in dati:
• interi/discreti quando le modalità sono esprimibili da numeri interi;
esempi sono: il numero di figli, il numero di metastasi polmonari, il
numero di interventi chirurgici realizzati;
• continui o reali quando le modalità sono esprimibili da numeri reali;
esempi sono: la circonferenza addominale, la temperatura corporea,
la concentrazione di emoglobina nel sangue.
Notare che:
• il tipo di variabile rilevata dipende molto dallo strumento utilizzato
• il tipo di variabile implicherà le analisi successive
8
I dati
Sempre per quanto riguarda i dati numerici si dice che si è utilizzata:
• una scala intervallo quando l'origine della scala stessa e arbitraria,
ovvero, quando lo zero ha un'interpretazione convenzionale (esempio: la
temperatura);
• una scala rapporto nel caso contrario ovvero quando l'origine non è
arbitraria (esempio: la lunghezza di una ferita chirurgica).
Per comprendere quest'ultima suddivisione, trasversale alla
precedente è importante più nella fase di interpretazione dei risultati
che nel momento dell'analisi.
Mentre possiamo dire che una ferita di 30mm è lunga il doppio di una
ferita di 15mm non possiamo, viceversa, dire che quando ci sono 30
gradi Celsius la temperatura è doppia rispetto a quando ce ne sono
15. Si pensi all’affermazione se si utilizzasse un differente scala
(Fahrenheit o Kelvin).
9
Frequenze assolute e relative
Freq.assolute: nr. di volte con cui si presenta una certa
modalità della variabile rilevata
Freq.relative: freq.assolute/nr tot.delle osservate
Quest’ultime hanno il vantaggio, rispetto alle frequenze
assolute, di permettere di confrontare distribuzioni di
frequenza basate su numeri differenti di unità statistiche.
Rappresentazioni grafiche: istogrammi, diagrammi
circolari
10
Misure di posizione
La media aritmetica
La mediana: valore/modalità assunto dalle unità statistiche
che si trovano nel mezzo della distribuzione. Un numero che
sia più grande di un 50% delle osservazioni e più piccolo del
restante 50%. Se le modalità sono raggruppate in classi non
si definisce un valore univoco, ma una classe mediana.
Minimi e massimi
11
Misure di posizione
Un quantile-q dove q ϵ [0; 1] rappresenta un numero che sia più grande
del 100*q% dei dati osservati e più piccolo del restante 100*(1-q)%.
Ad esempio, un quantile 0,1 deve essere un valore che lascia a sinistra il
10% delle osservazioni ed a destra il restante 90%.
I quantili con p uguale a 0,25; 0,50 e 0,75 vengono chiamati
rispettivamente il primo, il secondo e il terzo quartile. Dividono la
popolazione in quattro parti uguali.
N.B.: 2° quartile = mediana.
I quantili con q = 0,01; … ; 0,99 si chiamano percentili.
Il quantile può essere calcolato per funzioni di variabili continue o discrete,
purché espresse su scale ordinali o cardinali.
Non può essere calcolato su distribuzioni basate su variabili nominali.
12
Misure di posizione e rappresentazioni grafiche:
i diagrammi a scatola e baffi (boxplot
(boxplot))
Forniscono una rappresentazione
grafica schematica della distribuzione
di un insieme di dati basata sui
quantili.
Sono costituiti, come dice il nome, da
una scatola e usualmente da due baffi
(vedi disegno a lato).
I baffi non sono disegnati più lunghi di
1,5 volte la differenza tra il 3° e il 1°
quartile (scarto interquartile).
13
Un difetto della media
aritmetica
A volte si possono trovare degli insiemi di dati contenenti una
frazione di osservazioni anomale o atipiche, ovvero,
osservazioni che assumono valori lontani (outliers) da quelli
assunti dalla maggior parte delle altre osservazioni e che,
quindi, sembrano provenire da una popolazione diversa o
essere state generate da un meccanismo differente (ad es.
bias di misurazione).
In questo caso, bisogna tenere presente che la media
aritmetica è molto sensibile alla presenza delle
osservazioni anomale potendo anche, a volte, fornire
risultati non molto sensati.
14
Si ottiene “cumulando”
(sommando)
progressivamente le
frequenze relative).
15
Indici di variabilità
La varianza: è una misura di quanto i dati siano distanti
dalla media aritmetica. La distanza è valutata usando i
quadrati delle differenze tra i singoli dati rilevati e la loro
media aritmetica.
Definita la media aritmetica dei dati (y) come:
allora la varianza sarà definita come:
Oppure come:
16
Lo scarto quadratico medio
La radice quadrata della varianza è usualmente definita
come scarto quadratico medio o deviazione standard.
Si noti che mentre l'unità di misura della varianza è il
quadrato dell'unita di misura dei dati originali, l'unita di
misura dello scarto quadratico medio coincide con l'unita di
misura dei dati.
17
Altre misure di variabilità
Campo di variazione
Veloce da calcolare ma attenzione perchè molto
sensibile a possibili valori anomali.
Scarto interquartile
È usato soprattutto nelle situazioni in cui si sospetta la
possibile presenza di osservazioni anomale (ad esse
molto resistente).
18
Coefficiente di variazione
è un indice di dispersione che consente di confrontare
misure di fenomeni riferite a unità di misura differenti, in
quanto si tratta di un numero puro (ovvero non riferito ad
alcuna unità di misura).
Viene definito, per un dato campione, come il rapporto tra la
sua deviazione standard (σ) e il valore assoluto della sua
media aritmetica (µ):
Chiaramente ha senso solo per campioni aventi la media
aritmetica diversa da zero .
19
Simmetria
I due seguenti istogrammi costruiti a partire da due insiemi di dati sono
almeno approssimativamente omogenei per quanto riguarda posizione
e variabilità. Nonostante questo le due distribuzioni sono diverse. La
prima si definisce simmetrica. Viceversa, la coda verso i valori alti
della seconda e molto più lunga della coda verso i valori bassi. Si parla
in questo caso di distribuzione con asimmetria positiva. Ovviamente,
nel caso opposto (coda sinistra più lunga di quella destra) si parla di
asimmetria negativa.
20
Dati sperimentali verso dati
osservazionali
Nell'analizzare dei dati è bene poi tenere presente il tipo di studio in cui
sono stati rilevati. In particolare, è importante la distinzione tra studi
sperimentali ovvero situazioni in cui i dati sono stati raccolti in situazioni
replicabili e controllate (esempio classico sono gli esperimenti di
laboratorio, ad esempio, lo studio su due metodiche per la valutazione
dell'emoglobina), e studi osservazionali ovvero situazioni in cui il
ricercatore semplicemente rileva dei dati già esistenti (esempio:
ricoverati del 2007 per scompenso cardiaco dell'Azienda Ospedaliera di
Padova).
Il problema principale degli studi osservazionali è che non controllando i
fattori che possono influenzare il fenomeno sotto indagine risulta difficile
essere ragionevolmente certi di averli individuati appropriatamente.
21
Mutabilità
Analogo della variabilità per dati qualitativi.
Non possiamo guardare alle differenze tra i valori osservati. Possiamo
però guardare alle differenze tra le frequenze.
Si definisce come situazione di minima mutabilità una situazione in cui
tutte le unità statistiche si concentrano nella stessa modalità.
In questo caso le unita statistiche sono perfettamente omogenee rispetto
al fenomeno considerato. Si osservi che in questo caso la distribuzione
delle frequenze relative si presenta come:
dove abbiamo supposte che le modalità siano k e che la i-sima sia
quella in cui le unita statistiche si sono concentrate.
La situazione opposta (massima mutabilità) la troviamo invece quando le
unita statistiche si ripartiscono in maniera uguale tra le varie modalità. In
questo caso la distribuzione delle frequenze relative diventa
22
•Si annulla in corrispondenza di una tabella di
minima mutabilità
•Assume valore massimo nelle situazioni di
massima mutabilità
23
Covarianza e indice di correlazione di Pearson
La covarianza è un indice che misura la "contemporaneità"
della variazione (in termini lineari) di due variabili quantitative.
La covarianza può assumere sia valori positivi che negativi.
Nella statistica inferenziale, quando due variabili sono tra di
loro indipendenti, allora la loro covarianza è nulla.
24
Indice di correlazione di Pearson
Il coefficiente di correlazione (lineare) di Pearson (detto
anche di Bravais-Pearson) tra due variabili quantitative è
definito come la loro covarianza divisa per il prodotto delle
rispettive deviazioni standard
Il coefficiente assume valori compresi tra -1 e +1.
>0, le variabili x e y si dicono direttamente correlate
=0 le variabili x e y si dicono incorrelate;
<0 le variabili x e y si dicono inversamente correlate
Distanza e tempi spostamento
Covarianza = 32.68351
Correlazione = 0.7403708
26
Tabelle di contingenza
Una tabella come quella qui sotto riportata a destra viene usualmente
chiamata di contingenza.
In generale, una tabella di contingenza mostra la distribuzione delle unita
statistiche classificate sulla base di due o più variabili.
Si osservi che una tabella di contingenza contiene varie distribuzioni di
frequenza.
Se consideriamo la tabella sottostante a destra, ci mostra il numero di
individui che presentano una lesione da pressione (si/no) congiuntamente
ad una particolare modalità della variabile “Rischio LDP”.
27
Tabelle di contingenza (definizioni)
Distribuzione congiunta / frequenze congiunte
Distribuzione di “Esito” condizionata a “Rischio LDP : Basso”
Distribuzione di “Rischio LDP” condizionata a “Esito: Si”
Distribuzione marginale di Rischio LDP
Distribuzione marginale di Esito
28