Dispensa1 statistica per infermieri casemanager

INFERMIERE CASE MANAGER
STATISTICA ED EPIDEMIOLOGIA
Perchè servono Metodi e Ricerca
Necessito di CONOSCENZE
Devo prendere delle DECISIONI
Raccolta di:
INFORMAZIONI
OSSERVAZIONI
SPERIMENTAZIONI
Sintesi: MODELLI
cosa
fare?
quali e quanti
dati?
data
mining
interpretazione
Nuove CONOSCENZE
Nuove IPOTESI DI DECISIONE
La statistica ed un po' di terminologia
Un insieme di elementi ove si vuole produrre nuove conoscenze viene
chiamato convenzionalmente popolazione di riferimento.
Gli elementi della popolazione sono chiamati genericamente unità
statistiche.
Alcune caratteristiche di tutte (popolazione o universo) o di una parte
delle unità statistiche (campione) vengono rilevate/misurate.
Il risultato di questo rilevare (misurare) costituiscono i dati.
L'obiettivo è quello di giungere dai dati a nuove conoscenze od ipotesi di
decisione. Ovvero, attraverso i dati poter fare delle affermazioni sulla
popolazione di riferimento.
Istruzione per l'uso
L’infermiere, lo statistico, l'artigiano e “le macchine”
macchine”
Ogni problema ha caratteristiche peculiari, ogni domanda arriva con conoscenze pregresse
diverse, in situazioni diverse, ogni volta ci sono scelte da fare,. . .
Tutti i pazienti sono unici, i risultati dipendono dalla capacità, in un determinato momento,
di scegliere e controllare gli strumenti che uso per produrre conoscenza. Successi ed
insuccessi sono frutto di scelte. Del resto, perché dovrei fare delle lezioni di statistica se
bastassero delle macchine per produrre tali conoscenze.
Quello che posso fare è mostrarvi idee, tecniche e strategie che si sono rivelate utili in una
certa gamma di situazioni. Ma voi dovrete affrontare altre situazioni, rispondere ad altre
domande, . . .
Ricordate: Non cercate ricette. Guardate ai contenuti di questo
corso come ad esempi di quello che si può fare.
Domandatevi sempre: “Sono convinto? Cosa farei di diverso?..”
La statistica e ulteriore terminologia
Le caratteristiche rilevate sulle unita statistiche vengono
chiamate variabili.
I valori distinti assunti da una variabile sono chiamate le
modalità della variabile stessa.
Se le variabili di interesse non sono rilevate su tutte le
unita statistiche, il sottoinsieme della popolazione oggetto
della rilevazione e chiamato il campione.
La statistica e sue suddivisioni
Descrittiva: i dati a disposizione
sono riferiti a tutta
la popolazione di riferimento.
Inferenziale: i dati sono stati
rilevati solamente su una parte
delle unita statistiche.
Vogliamo utilizzare le informazioni del campione per fare delle
affermazioni sulle caratteristiche di tutta la popolazione (“fare
inferenza”).
I dati
In statistica si parla di dati:
Qualitativi o categoriali quando le modalità utilizzate per descrivere il
fenomeno analizzato prendono la forma di aggettivi o di altre espressioni
verbali. A loro volta i dati qualitativi possono essere:
•sconnessi se non esiste nessun ordinamento naturale tra le
modalità; esempi di dati sconnessi sono: (i) la religione, (ii) la
modalità di somministrazione di un farmaco (ad es., per via orale,
parenterale o sottocutanea);
•ordinali nel caso in cui un ordinamento naturale esiste; esempi di
dati qualitativi ordinali sono: (i) il titolo di studio, (ii) la risposta ad un
trattamento (ad es. classificata come assente, parziale, ottima.).
Quando le modalità sono solamente due (esempi (i) maschio vs.
femmina, (ii) vivo vs. morto; (iii) buono vs. difettoso) si parla di dati
dicotomici o binari.
I dati
In statistica si parla di dati:
Quantitativi o numerici quando le modalità sono espresse da numeri.
Dal punto di vista dei modelli e delle tecniche utilizzate i dati numerici
si suddividono a loro volta in dati:
• interi/discreti quando le modalità sono esprimibili da numeri interi;
esempi sono: (i) il numero di figli, (ii) il numero di metastasi polmonari,
(ii) il numero di interventi chirurgici realizzati;
• continui o reali quando le modalità sono esprimibili da numeri reali;
esempi sono: (i) la circonferenza addominale, (ii) il volume di una
massa tumorale, (iii) la temperatura corporea, (iv) la concentrazione di
emoglobina nel sangue.
Notare che:
• il tipo di variabile rilevata dipende molto dallo strumento atto a misurarla
• il tipo di variabile implicherà le analisi successive
I dati
Sempre per quanto riguarda i dati numerici si dice che si è utilizzata:
• una scala intervallo quando l'origine della scala stessa è arbitraria,
ovvero, quando lo zero ha un'interpretazione convenzionale (esempio: la
temperatura);
• una scala rapporto nel caso contrario ovvero quando l'origine non è
arbitraria (esempio: la lunghezza di una ferita chirurgica).
Per comprendere quest'ultima suddivisione, trasversale alla
precedente è importante più nella fase di interpretazione dei risultati
che nel momento dell'analisi, si pensi ai due esempi e si osservi che
mentre possiamo dire che una ferita di 30mm è lunga il doppio di una
ferita di 15mm non possiamo, viceversa, dire che quando ci sono 30
gradi Celsius la temperatura è doppia rispetto a quando ce ne sono 15.
Ad esempio, proprio per la differente origine scelta, l'affermazione
sarebbe falsa se usassimo una scala Fahrenheit o Kelvin.
Frequenze assolute e relative
Freq.assolute: nr. di volte con cui si presenta una certa modalità della
variabile rilevata
Freq.relative: freq.assolute/nr tot.delle osservate
Hanno il vantaggio, rispetto alle frequenze assolute, di permettere di
confrontare distribuzioni di frequenza basate su numeri differenti di unità
statistiche.
Rappresentazioni grafiche: istogrammi, diagrammi circolari
Misure di posizione
La media aritmetica
La mediana: valore/modalità assunto dalle unità statistiche che si trovano
nel mezzo della distribuzione. Un numero che sia più grande di un 50%
delle osservazioni e più piccolo del restante 50%. Se le modalità sono
raggruppate in classi non si definisce un valore univoco, ma una classe
mediana
Minimi e massimi
Misure di posizione
Un quantile-q dove q Є [0; 1] rappresenta un numero che sia più grande del 100*q% dei
dati osservati e più piccolo del restante 100*(1-q)%.
Ad esempio, un quantile 0,1 deve essere un valore che lascia a sinistra il 10% delle
osservazioni ed a destra il restante 90%.
I quantili con q uguale a 0,25; 0,50 e 0,75 vengono chiamati rispettivamente il primo, il
secondo e il terzo quartile. Dividono la popolazione in quattro parti uguali.
N.B.: 2° quartile = mediana.
I quantili con q = 0,01; … ; 0,99 si chiamano percentili.
Il quantile può essere calcolato per funzioni di variabili continue o discrete, purché
espresse su scale ordinali o cardinali. Non può essere calcolato su distribuzioni basate su
variabili nominali.
Misure di posizione e rappresentazioni grafiche:
i diagrammi a scatola e baffi (boxplot)
Forniscono una idea schematica di un
insieme di dati basata sui quantili. Sono
costituiti, come dice il nome, da una
scatola e da due baffi costruiti come nel
disegno a lato.
Anche la media aritmetica può
“essere difettosa”
difettosa”
A volte si possono trovare degli insiemi di dati contenenti una
frazione di osservazioni anomale o atipiche, ovvero, osservazioni che
assumono valori lontani (outliers) da quelli assunti dalla maggior
parte delle altre osservazioni e che, quindi, sembrano provenire da
una popolazione diversa , generate con meccanismi diversi o
misurate/rilevate in modo errato (bias).
Ricordate:
la media aritmetica è molto sensibile alla presenza delle
osservazioni anomale.
Puo fornire risultati a volte non molto sensati.
Funzione di ripartizione empirica
Si ottiene sommando progressivamente le frequenze relative.
Indici di variabilità
La varianza: è una misura di quanto i dati siano distanti dalla media
aritmetica. La distanza è valutata usando i quadrati delle differenze tra i
singoli dati rilevati e la loro media aritmetica.
Definita la media aritmetica dei dati (y) rilevati come:
allora la varianza sarà definita come:
Oppure dopo alcuni passaggi algebrici come:
Lo scarto quadratico medio
La radice quadrata della varianza è usualmente definita come scarto
quadratico medio o deviazione standard.
±
Si noti che mentre l'unità di misura della varianza è il quadrato dell'unita
di misura dei dati originali, l'unita di misura dello scarto quadratico medio
coincide con l'unita di misura dei dati.
Altre misure di variabilità
Campo di variazione
Veloce da calcolare ma attenzione perchè molto sensibile a
possibili valori anomali.
Scarto interquartile
è usato soprattutto nelle situazioni in cui si sospetta la possibile
presenza di osservazioni anomale (ad esse molto resistente).
Coefficiente di variazione
è un indice di dispersione che consente di confrontare misure di fenomeni
riferite a unità di misura differenti, in quanto si tratta di un numero puro
(ovvero non riferito ad alcuna unità di misura).
Viene definito, per un dato campione, come il rapporto tra la sua
deviazione standard (σ) e il valore assoluto della sua media aritmetica (µ):
Chiaramente ha senso solo per campioni aventi la media aritmetica non
nulla.
Simmetria
I due seguenti istogrammi costruiti a partire da due insiemi di dati sono almeno
approssimativamente omogenei per quanto riguarda posizione e variabilità. Nonostante
questo le due distribuzioni sono diverse. La prima è più o meno simmetrica.
Viceversa, la coda verso i valori alti della seconda è molto più lunga della coda verso i
valori bassi. Si parla in questo caso di asimmetria positiva. Ovviamente, nel caso
opposto (coda sinistra più lunga di quella destra) parleremo di asimmetria negativa.
Dati sperimentali verso dati
osservazionali
Nell'analizzare dei dati è bene poi tenere presente il tipo di studio in cui sono stati
rilevati. In particolare, è importante la distinzione tra studi sperimentali ovvero
situazioni in cui i dati sono stati raccolti in situazioni replicabili e controllate (esempio
classico sono gli esperimenti di laboratorio, ad esempio, lo studio sulle due metodiche
per la valutazione dell'emoglobina), e studi osservazionali ovvero situazioni in cui il
ricercatore semplicemente rileva dei dati già esistenti (esempio: il numero di ricoveri per
malattie legate all'asma nell'Azienda Ospedaliera di Padova).
Il problema principale degli studi osservazionali è che non controllando i fattori che
possono influenzare il fenomeno sotto indagine e quindi risulta difficile essere
ragionevolmente certi di averli individuati appropriatamente.
Mutabilità
Analogo della variabilità per dati qualitativi.
Non possiamo guardare alle differenze tra i valori osservati. Possiamo
però guardare alle differenze tra le frequenze.
Si definisce come situazione di minima mutabilità una situazione in cui
tutte le unità statistiche si concentrano nella stessa modalità.
In questo caso le unita statistiche sono perfettamente omogenee rispetto
al fenomeno considerato. Si osservi che in questo caso la distribuzione
delle frequenze relative si presenta come:
dove abbiamo supposte che le modalità siano k e che la i-sima sia quella
in cui le unita statistiche si sono concentrate.
La situazione opposta (massima mutabilità) la troviamo invece quando le
unita statistiche si ripartiscono in maniera uguale tra le varie modalità. In
questo caso la distribuzione delle frequenze relative diventa
•Si annulla in corrispondenza di una tabella di
minima mutabilità
•Assume valore massimo nelle situazioni di
massima mutabilità
Indice di Gini e sua versione normalizzata
*
*
*
Covarianza e indice di correlazione di Pearson
la covarianza è un indice che misura la "contemporaneità" della variazione (in termini lineari) di due
variabili casuali; si utilizza spesso la notazione:
, dove
essendo
e
rispettivamente la media aritmetica di x e y.
La covarianza può assumere sia valori positivi che negativi.
Nella statistica inferenziale, quando due variabili sono tra di loro indipendenti, allora la loro covarianza è
nulla (l'inverso non è necessariamente verificato).
A volte la covarianza viene citata mnemonicamente come la media del prodotto degli scarti dalla media.
La covarianza può essere scomposta in due termini, diventando
ovvero la media dei prodotti meno il prodotto delle medie.
Dividendo la covarianza con il prodotto delle deviazioni standard delle due variabili, si ottiene
l'indice di correlazione di Pearson:
Il coefficiente assume valori compresi tra -1 e +1.
Nel caso di indipendenza lineare il coefficiente assume valore zero, mentre non vale la
conclusione opposta,
ovvero dal coefficiente nullo non si può desumere l'indipendenza lineare.
Tabelle di contingenza
Una tabella come quella qui sotto riportata a destra viene usualmente chiamata di
contingenza.
In generale, una tabella di contingenza mostra la distribuzione delle unita statistiche
classificate sulla base di due o pi u variabili.
Si osservi che una tabella di contingenza contiene varie distribuzioni di frequenza. Infatti:
Se consideriamo la tabella sottostante (in questo caso le 2 righe e le 3 colonne centrali) la
tabella ci mostra il numero di individui che presentano una particolare modalità della prima
variabile congiuntamente ad una particolare modalità della seconda variabile. Ad
esempio, 122/1316 e la frazione di passeggeri che simultaneamente viaggiavano in I
classe e sono periti nel disastro del Titanic.
Dati tratti dalla lista di tutti i 1316 passeggeri del Titanic con alcune informazioni aggiuntive
riguardanti: l'esito (salvato, non salvato), la classe (I, II, III) in cui viaggiavano, realizzata dalla
commissione d'inchiesta del British Board of Trade
Tabelle di contingenza
Tabelle di contingenza
Tabelle di contingenza
Tabelle di contingenza
Dati tratti dalla lista di tutti i 1316 passeggeri del Titanic con
alcune informazioni aggiuntive riguardanti: l'esito (salvato,
non salvato), la classe (I, II, III) in cui viaggiavano, realizzata
dalla commissione d'inchiesta del British Board of Trade
Si osservi che passare da frasi del tipo.
“Si sono salvati 203 passeggeri di prima
classe”.
A: “si sono salvati il 62% dei passeggeri
della prima classe”.
Equivale a guardare non le frequenze
assolute ma quelle relative delle
distribuzioni condizionate.
L’EPIDEMIOLOGIA MODERNA
Setting
Quartiere londinese di Soho nel 1854
Ipotesi
Causa dei decessi nel quartiere era una pompa di
distribuzione
dell'acqua
Metodo
Durante la sua ricerca delle cause dell'epidemia,
utilizzò una piantina di Londra con la diffusione dei
casi nei diversi periodi (On the Mode of
Communication of Cholera)..
Tratto da:
“On the mode of communication of cholera”
Tratto da:
“On the mode of communication of cholera”
Tratto da:
“On the mode of communication of cholera”
Tratto da:
“On the mode of communication of cholera”
Diagramma di Voronoj – J. Snow