Come descrivere un fenomeno in
ambito sanitario
fondamenti di statistica descrittiva
Brugnaro Luca
Progetto formativo complessivo
Obiettivo: incrementare le
competenze degli operatori sanitari
nelle metodiche per l’analisi ed
interpretazione dei fenomeni
collettivi (e della letteratura
scientifica)
Brugnaro Luca (2011)
2
Strategia formativa
Corsi di base
(propedeutici)
Come descrivere un fenomeno in ambito sanitario
fondamenti di statistica descrittiva
Epidemiologia: principali misure epidemiologiche
e disegni di studio
test
Interpretazione dei fenomeni in ambito sanitario:
dal campione alla popolazione
Metodi statistici
(inferenza)
test
Analisi dei dati clinici: tabelle, grafici, test di
verifica d’ipotesi e cenni sui modelli statistici
Brugnaro Luca (2011)
3
Statistica e ambito sanitario
Gap di conoscenza
Evidence Based
Medicine/Nursing
Bibliografia scientifica
(es. NLM)
Brugnaro Luca (2011)
Ricerca clinica
4
Il problema
Brugnaro Luca (2011)
5
Statistica
La statistica è una disciplina che ha come
fine lo studio quantitativo e qualitativo di
un particolare fenomeno (collettivo).
Studia i modi in cui un fenomeno può essere
sintetizzato, rappresentato e quindi
compreso.
“è l’equivalente della scatola dei ferri per il meccanico”
Brugnaro Luca (2011)
6
Popolazione e unità statistiche
Qualsiasi insieme di elementi che siano
oggetto di studio
È l'insieme delle unità (dette unità
statistiche) sulle quali viene effettuata la
rilevazione delle modalità con le quali il
fenomeno studiato si presenta
Non è sempre un insieme biologico
(compresse di farmaco “x”, lampadine, …)
Brugnaro Luca (2011)
7
Popolazione
Si distingue anche tra:
• popolazione finita: un insieme le cui unità possono
essere tutte concretamente osservate (ad esempio,
l'insieme delle persone, delle abitazioni o delle aziende
oggetto di un censimento);
• popolazione infinita: un insieme definibile con
accuratezza ma non concretamente osservabile (ad
esempio tutti i pazienti affetti da patologia “y”, tutte le
compresse prodotte da uno stabilimento, …).
• Altri concetti legati a popolazione:
– popolazione o universo
– Popolazione obiettivo,
– Popolazione raggiungibile,...
Brugnaro Luca (2011)
8
Popolazione e unità statistiche
L’oggetto dell’osservazione di ogni
fenomeno individuale che costituisce il
fenomeno collettivo è detto unità statistica
Esempi di unità statistiche:
• ogni individuo di una popolazione,
• ciascuna coppia di sposi,
• ogni campione biologico che finisce nel
laboratorio di analisi
Brugnaro Luca (2011)
9
Il campione e il campionamento
Il campione è un qualsiasi insieme di unità statistiche
selezionato dalla popolazione in oggetto di analisi
Il campionamento rappresenta la metodica utilizzata per la
scelta del campione all’interno di una popolazione
Il campionamento è la tecnica statistica di estrazione di un
numero limitato e definito di elementi che fanno parte di
un insieme chiamato universo
Il campione dovrebbe fornire un’immagine ridotta, ma
fedele della popolazione (universo)
Perché usare un campione e non tutta la popolazione?
Brugnaro Luca (2011)
10
Il campione e il campionamento
Le indagini sull'intera popolazione (censimenti) pur
essendo più affidabili riguardo al parametro oggetto
d'indagine sono anche:
• più costose
• più lunghe da realizzarsi
• meno accurate
• non sempre oggettivamente realizzabili
Applicazioni in campo aziendale delle tecniche statistiche
sono rappresentati dai “controlli statistici della qualità”
(statistical quality control) utili per controllare le attività
produttive, allo scopo di garantire che la qualità del
prodotto finito sia conforme e all’altezza di determinati
standard prestabiliti.
Brugnaro Luca (2011)
11
Statistica inferenziale
Una analisi statistica si dice
inferenziale quando è utile per desumere
da un campione un'informazione relativa a
tutta la popolazione
Alla base della statistica inferenziale vi sono
due grossi argomenti (tra loro fortemente
legati):
• la teoria della stima
• la verifica d’ipotesi
Brugnaro Luca (2011)
12
Statistica descrittiva
Un’analisi statistica si dice descrittiva se studia i
criteri di rilevazione, di classificazione e di sintesi
delle informazioni relative ad una popolazione
oggetto di studio.
La statistica descrittiva ha come obiettivo quello di
organizzare, riassumere e presentare i dati e i
suoi strumenti permettono quindi di sintetizzare i
dati attraverso: valori di centralità, indici di
variabilità, indici di forma, rapporti statistici,
relazioni statistiche.
Brugnaro Luca (2011)
13
Cosa osservare
Della popolazione si osservano una o più “variabili”
(es: età, la durata della degenza, la diagnosi
d’ingresso, area di una lesione da pressione,
lunghezza di una sutura, il sesso, la
temperatura, …).
Le tecniche statistiche di analisi e descrizione dei
fenomeni collettivi si differenziano in funzione
del tipo di “variabile” che si osserva!
Brugnaro Luca (2011)
14
Variabili/Mutabili
Un carattere osservato in una popolazione o campione
prende il nome di:
• variabile quando assume come modalità dei numeri
reali
• mutabile quando invece le modalità rappresentano delle
qualità
Nel linguaggio moderno, spesso il termine variabile viene
usato in maniera indistinta sia per le variabili in senso
stretto sia per le mutabili.
Sovente si specifica il tipo di variabile facendo seguire
l’aggettivo quantitativa o quantitativa per indicare la
corretta natura del carattere considerato.
Brugnaro Luca (2011)
15
Tipi di variabili
• Quantitative
• Scala intervallo
• Scala rapporto
• Non quantitative
• Categoriali
• Ordinali
Il tipo di variabile determina le tipologie di analisi
statistiche che si potranno eseguire
Brugnaro Luca (2011)
16
Frequenze assolute
Distribuzioni di frequenza
• Si tratta del più semplice strumento di sintesi e
analisi dei dati
• Una frequenza (assoluta) è il numero di volte
che si manifesta una specifica modalità di una
variabile osservata/registrata
• Una tabella di frequenza o distribuzione di
frequenza registra per ogni categoria, valore, o
classe di valori che una variabile potrebbe avere
e il corrispondente numero di volte che ognuna
di esse ricorre nei dati
Brugnaro Luca (2011)
17
Frequenze relative
Consiste nel numero di volte in cui una
osservazione si ritrova all’interno della
classificazione, diviso il numero totale
delle osservazioni eseguite.
Rappresentata la percentuale di tale classe
rispetto al totale delle osservazioni.
Sono utili per poter confrontare le frequenze
in caso di numerosità diverse.
Brugnaro Luca (2011)
18
Frequenze cumulate
• Le frequenze cumulate sono la somma fino ad
i-esimo raggruppamento delle frequenze
assolute. Hanno senso solo per i dati che
possiedono un ordinamento
• È possibile calcolare le frequenze cumulate
relative (Fi) che vengono dette anche Funzione
di ripartizione empirica
• Le frequenze cumulate sono non decrescenti e
da esse si possono ricavare per differenza le
frequenze semplici
Brugnaro Luca (2011)
19
Indici di posizione
Permettono di poter esprimere un'idea dell'ordine
di grandezza (la posizione sulla scala dei
numeri, appunto) dei valori esistenti.
Sono indici di posizione:
• Media , comprese la media aritmetica, media
geometrica e media armonica
• Mediana, quartile, quantile (o percentile)
• Moda
Un modo per rappresentare graficamente alcuni
indici di posizione è il box-plot
Brugnaro Luca (2011)
20
Media aritmetica
Viene calcolata sommando i diversi valori a disposizione, i quali
vengono divisi per il loro numero complessivo
È il tipo di media impiegato più comunemente e quello al quale, con il
termine "media", si fa in genere riferimento nel parlare comune
Viene usata per riassumere un insieme di dati su un fenomeno
misurabile (per esempio, l'altezza media di una popolazione)
Oltre che in matematica, la media aritmetica è ampiamente impiegata
in svariati campi, quali economia, sociologia e nella maggior parte
delle discipline accademiche.
Nonostante la media aritmetica sia spesso usata per fare riferimento
alle tendenze, non fornisce un dato statistico robusto in quanto
risente notevolmente dei valori outlier.
Nelle distribuzioni simmetriche la media aritmetica può non accordarsi
con altri indici più forti, come la mediana, che forniscono una
migliore descrizione della tendenza centrale.
Brugnaro Luca (2011)
21
Mediana, quartile, quantile
Sono tutte delle statistiche ordinate
Si definisce mediana, o mediano, come il valore (o l'insieme di valori) assunto
dalle unità statistiche che si trovano nel mezzo della distribuzione
Per calcolare la mediana di n dati:
• si ordinano gli n di dati in ordine crescente o decrescente;
• se il numero di dati è dispari la mediana corrisponde al valore centrale,
ovvero al valore che occupa la posizione (n + 1) / 2.
• se il numero n di dati è pari, la mediana è stimata utilizzando i due valori
che occupano le posizione (n / 2) e ((n / 2) + 1)
In statistica, i quartili sono valori che ripartiscono una popolazione in 4 parti
ugualmente popolate
I percentili sono particolari quantili che dividono la popolazione in 100 parti
uguali
Brugnaro Luca (2011)
22
Indici di variabilità
•
•
•
•
•
Range o campo di variazione
Scarto interquartile
Varianza
Deviazione standard
Coefficiente di variazione
Brugnaro Luca (2011)
23
Range o campo di variazione
Rappresenta la differenza tra il valore
massimo e quello minimo della
distribuzione dei dati del fenomeno
osservato/rilevato
Brugnaro Luca (2011)
24
Scarto interquartile
• È la differenza tra il terzo e il primo quartile
ovvero l'ampiezza della fascia di valori che
contiene la metà "centrale" dei valori
osservati
Brugnaro Luca (2011)
25
Varianza
Fornisce una misura di quanto siano
disperse le modalità dalla variabile
rilevata, ovvero di quanto si discostino
dalla media E[X]
È sempre maggiore o uguale a 0
È zero se tutti i valori della distribuzione
sono uguali
Var[X] = ∑(Xi – E[X])2 / n
Brugnaro Luca (2011)
26
Deviazione standard
Fornisce una misura di quanto siano dispersi i valori
assunti dalla variabile esaminata, ovvero di quanto si
discostino dalla media E[X]
È una misura di variabilità di una popolazione di dati
derivato direttamente dalla varianza, ha la stessa unità di
misura dei valori osservati (mentre la varianza ha come
unità di misura il quadrato dell'unità di misura dei valori
di riferimento)
La deviazione standard misura la dispersione dei dati
intorno al valore atteso. In statistica la precisione si può
esprimere come deviazione standard (σ)
Sinonimi di deviazione standard sono scarto quadratico
medio e scarto tipo
Brugnaro Luca (2011)
27
Coefficiente di variazione
A partire dalla deviazione standard si definisce
anche il coefficiente di variazione o la
deviazione standard relativa (RSD) come il
rapporto tra lo scarto quadratico medio σ e la
media aritmetica dei valori
RSD = σ / E[X]
Questo nuovo parametro consente di effettuare
confronti tra dispersioni di dati di tipo diverso,
indipendentemente dalle loro unità di misura
Brugnaro Luca (2011)
28
Tabelle di contingenza
Sono un particolare tipo di tabelle a doppia entrata (cioè
tabelle con etichette di riga e di colonna), utilizzate in
statistica per rappresentare e analizzare le relazioni tra
due o più variabili. In esse si riportano le frequenze
congiunte delle variabili
Le due variabili considerate sono di tipo quantitativo
discreto o qualitativo
Sommando tutte le frequenze assolute presenti nella
tabella, troveremo la numerosità n della popolazione
Le combinazioni tra le modalità della variabile in riga e di
quelle della variabile in colonna della tabella
rappresentano le frequenze congiunte
La somma delle frequenze relative di una riga o di una
colonna si definiscono come distribuzioni marginali
Brugnaro Luca (2011)
29