Statistica
Descrittiva
Ho un insieme di dati e li
voglio descrivere,
sintetizzare e commentare
Inferenziale
Ho un insieme di dati e
li utilizzo per fare
induzione e previsione
STATISTICA
insieme di procedure finalizzate al
trattamento di informazioni relative a
fenomeni collettivi, che si manifestano con
determinazioni tipicamente non costanti
Oggetto della STATISTICA sono quei fenomeni
che variano all’interno di un collettivo
di riferimento, la POPOLAZIONE STATISTICA,
costituito da UNITA’ STATISTICHE o elementari.
POPOLAZIONE
STATISTICA
UNITA’
STATISTICA
qualsiasi insieme di persone,
animali, piante o cose da cui
possono essere raccolte le
informazioni
elemento
di
base
della
popolazione sul quale viene
effettuata la rilevazione o la
misurazione di uno o più
fenomeni oggetto di studio
oggetto
di
interesse
dell’indagine: insieme di entità
sulle
cui
caratteristiche
vogliamo trarre conclusioni
oggetto della raccolta dei dati,
detentore
dell’informazione
che
vogliamo
rilevare
e
analizzare
Esempio: Italian Study on Asthma in
Young Adults (ISAYA):
indagine sulla salute respiratoria nella
popolazione adulta italiana (20-44 anni)
nel 1998-2000
POPOLAZION
E STATISTICA
UNITÀ
STATISTICA
tutti gli adulti di età 20-44 anni
residenti in Italia nel periodo dello
studio
singolo adulto di età 20-44
residente in Italia nel 19982000
POPOLAZIONI DI INTERESSE PER LA STATISTICA
APPLICATA ALLA MEDICINA:
• insieme di esseri umani (residenti in una certa area; soggetti
sani, malati oppure deceduti);
• insieme di unità amministrative (reparti, ospedali, comuni);
• ematocriti dei ricoverati presso il reparto di
ematologia del policlinico Umberto I nell’anno 2009
• tempi di sopravvivenza dopo il trapianto di cuore…
• aborti nell’ospedale di LT nel periodo 2000-2010
POPOLAZIONI DI INTERESSE PER LA STATISTICA
APPLICATA ALLA MEDICINA:
• insiemi
di esseri umani
esempio (popolazione di residenti - sani o malati):
indagine ISAYA  adulti di età 20-44 anni residenti in Italia nel 1998-2000
selezionati indipendentemente dallo stato di salute
esempio (popolazione di soggetti sani):
sperimentazione sull’effetto del fluoro nel prevenire
l’insorgenza di carie nei bambini  bambini sani (senza carie)
esempio (popolazione di soggetti malati):
sperimentazione sull’effetto di un chemioterapico per la cura di una
particolare patologia tumorale  soggetti che presentano la patologia
Molte ricerche vengono programmate con lo scopo di pervenire a
conclusioni generali, valide per tutte le unità statistiche della
popolazione, sfruttando i risultati ottenuti da un numero ridotto di
osservazioni
CAMPIONE STATISTICO:
sottoinsieme di unità statistiche appartenti alla popolazione che
vengono selezionate per l’analisi (sono quelle realmente studiate)
GENERALIZZAZIONE
DELLE CONCLUSIONI
NB: il campione deve essere
rappresentativo (stesse caratteristiche
della popolazione dalla quale è stato
estratto)
CAMPIONAMENTO
CASUALE
ESEMPIO DI INDAGINE
CAMPIONARIA: ISAYA
3000 soggetti adulti di età 20-44 anni estratti
casualmente dalle liste dei residenti in
ciascuna delle 9 città coinvolte nell’indagine
ESEMPIO DI INDAGINE NON
CAMPIONARIA: censimento
vengono raccolte informazioni da tutti i
residenti nel territorio italiano nell’anno del
censimento (non su di un campione) 
numerosità e composizione demografica della
popolazione residente italiana
SCHEMA LOGICO DELLA STATISTICA
POPOLAZIONE
Studio delle
caratteristiche
della
popolazione
CAMPIONAMENTO
teoria delle probabilità
STATISTICA
DESCRITTIVA
CAMPIONE
STATISTICA
INFERENZIALE
generalizzazione
delle informazioni
raccolte sul
campione
Sintesi e
presentazione dei
dati raccolti sul
campione
Nozioni di base
Si decide l’obiettivo della ricerca. Si
identificano le modalità di raccolta
dati (questionario, cartelle cliniche,
analisi laboratorio,…)
Durante la raccolta dei dati, scelto il
metodo di rilevazione, vengono
individuate le unità statistiche che
saranno prese in considerazione per
portare a termine l’indagine
Nozioni di base
Unità statistica: è l’unità elementare in
grado di fornire dati e informazioni
relativamente ai caratteri presi in esame
L’insieme delle unità statistiche
costituisce il collettivo (popolazione o
campione) oggetto di studio
ES :
maschio adulto
↓
popolazione
Ipertesi coniugati ricoverati
Paziente ricoverato
↓
unità statistica
Cartella clinica
↓
Insieme di variabili
(caratteri)
Nozioni di base
Scelta del fenomeno oggetto di studio
Individuazione dei caratteri
Definizione delle modalità
Nozioni di base
Caratteri
aspetti del fenomeno oggetto di studio
Modalità (xi)
modo di manifestarsi del carattere
La classificazione dei caratteri
I caratteri possono essere classificati in:
-Caratteri qualitativi distinti in:
- ordinabili: è possibile ordinare le modalità del carattere in
senso crescente o decrescente (es: titolo di studio, livello di gravità
della diagnosi...);
- sconnessi: non c’è alcun ordinamento intrinseco tra le modalità
(es: colore degli occhi, sesso,stato civile, religione...);
- Caratteri quantitativi distinti in:
- discreti: le modalità del carattere sono numeri interi (es:
numero di medici, numero di figli per donna..)
- continui: le modalità del carattere sono misurate su una scala
continua (es: peso, altezza...).
Alla base di tale classificazione dei caratteri vi è la 'scala di misura' con cui sono
espresse le modalità: se attraverso dei numeri o delle 'etichette'.
Tipi diContinuo
Dati
Quantitativo
Discreto
Pressione sanguigna, pH, [Na+], volume Numero figli in una famiglia; frequenza
polmonare, altezza, peso, età, ecc..
degli
attacchi
d’asma;
sedute
terapeutiche; frequenza cardiaca; gg di
assenza dal lavoro, ecc..
Qualitativo o Categorico
Ordinale
Nominale
Stato del Paziente (MM, M, I, P, MP, D); Sesso (M/F); stato civile (Ce, Nu, Co, Di);
stadio del Tumore (I, IA, II, IIA, …); grado gruppo sanguigno (A, B, AB, 0);
di
soddisfazione
(Insufficiente, Vivo/Morto.
Sufficiente, Buono, …)
Variabile di Intervallo
Variabile di Rapporto
Variabile ordinale con intervalli costanti Variabile di Intervallo con “zero”
e “zero” arbitrario. Stadio della rappresentativo. Variabile quantitativa
patologia: pari gravità fra I e IA, IA e II,…;
Quoziente di intelligenza (QI). Soglia di
povertà.
•
•
•
•
• Variabili quantitative
Profondità di sondaggio in mm (PPD: probing
pocket depth)
Ampiezza della recessione in mm (Rec. Recession
depth)
Livello di attacco clinico in mm
( PAL: probing attachment level)
Variabili qualitative
• Indice di placca (PI: plaque index)
• Indice di gengivite ( GI: gingival index)
• Sanguinamento al sondaggio (BOP: bleeding on
probing)

L'indice di placca (PlI)

(Silness J & Löe H), viene
registrato, nel corso dell'esame
clinico parodontale, in 6 siti per
ciascun elemento dentale
presente tramite sondaggio
circonferenziale con sonda
parodontale manuale. I 6 siti
dentali considerati sono:
buccale, mesio-buccale, distobuccale, linguale, mesiolinguale e disto-linguale. Le sei
misurazioni rilevate vengono
sommate e divise per 6 per
ottenere il PlI per singolo
elemento. L'indice di placca per
soggetto viene poi calcolato
come media dell'indice dei
singoli elementi (Media:
somma degli indici dei singoli
elementi dentali diviso il
numero di elementi dentali
considerati). In questo modo il
parodontologo clinico ottiene
una valutazione accurata della
quantità di placca batterica
non rimossa.
SCORES
CRITERIA
0
Assenza di
placca
1
Si evidenzia con il
passaggio della
sonda
2
È visibile a occhio
nudo
3
È abbondante


L’indice di mobilità dentale, in
Codificato da "1" a "3" a seconda che il
dente sia “movibile” in direzione orizzontale
per 0.2 - 1 mm (grado 1), per più di 1mm
(grado 2), e se è movibile anche in direzione
verticale (grado 3).
Classificazione dei caratteri e scala di misura
CARATTERE
qualitativo
SCALA
Sconnesso
Nominale
Ordinabile
Ordinale
quantitativo
Ad intervalli
(scala numerica discreta o continua)
Operazioni che è possibile fare sui caratteri in base alla loro classificazione
Operazioni sulle
Carattere
modalità del
qualitativi
Quantitativi
carattere
sconnessi
ordinabili
(discreti/continui)
=; 
si
si
si
>;<
no
si
si
+;-
no
no
si
Nozioni di base
In ogni collettivo ogni modalità può
presentarsi più volte
Il numero delle volte che una modalità si
presenta prende il nome di frequenza
assoluta (ni) (o semplicemente frequenza)
Nozioni di base
L’insieme delle modalità e delle frequenze
costituisce la distribuzione statistica
Nel caso di un carattere qualitativo
(mutabile) la distribuzione si chiamerà serie
Nel caso di un carattere quantitativo
(variabile) la distribuzione viene detta
seriazione
Tabulazione dei dati
I dati raccolti vengono riportati in apposite
tabelle
Si distinguono:
Tabelle semplici (singole): relative ad un unico
carattere
Tabelle doppie (a doppia entrata): relative a 2
caratteri “incrociati”
Tabelle multiple: relative a 3 o più caratteri
Assegnare ad ogni valore (modalità/intervallo di classe) la frequenza
(assoluta e/o relativa) corrispondente
FREQUENZA ASSOLUTA (ni)
numero di osservazioni corrispondente ai
diversi valori (modalità/intervalli di classe)
della variabile

0  ni  n
 Ki=1 ni = n1 + n2 + .. + nK = n
ottenuta
tramite un
CONTEGGIO
n= numero totale delle osservazioni
K= numero dei valori/modalità/classi
della variabile
Distribuzioni di frequenza
frequenze assolute
Una distribuzione di frequenza è la determinazione della frequenza
con cui compare, in una certa popolazione, ciascun valore di una
data variabile.
Frequenza (ni)
Giorni (x)
3
7
6
7
1
9
5
4
5
6
2
7
2
5
6
4
8
6
5
3
4
4
3
5
6
2
7
8
5
4
5
6
6
4
5
6
4
5
5
5
Periodi di incubazione di una malattia in
40 pazienti
1
2
3
4
5
6
7
8
9
1
3
3
7
11
8
4
2
1
Totale 40
Distribuzione di frequenze dei periodi
di incubazione della malattia in 40
pazienti
FREQUENZA RELATIVA: (fi = ni / n)
rapporto tra il numero di osservazioni corrispondente ai
diversi valori (modalità/intervalli di classe) della variabile e la
dimensione campionaria

0  fi  1
 Ki=1 fi = f1 + f2 + .. + fK = 1
FREQUENZA RELATIVA PERCENTUALE: (fi% = ni / n * 100)
indica quanto volte un fenomeno si manifesta su una
casistica di 100 osservazioni

0%  fi%  100%
 Ki=1 fi % = f1 % + f2 % + .. + fK % = 100%
Distribuzione di frequenze dei periodi di incubazione della
malattia in 40 pazienti
Giorni (xi)
1
2
3
4
5
6
7
8
9
totale
ni
fi
1
3
3
7
11
8
4
2
1
40
fi%
0,025
0,075
0,075
0,175
0,275
0,2
0,1
0,05
0,025
1
2,5
7,5
7,5
18
28
20
10
5
2,5
100
PERCHÉ USARE LE FREQUENZE RELATIVE?
Per il confronto della distribuzione
di una variabile in campioni di
dimensioni diverse
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco
nel curare forme di balbuzie. L’esperimento coinvolge due
gruppi randomizzati di pazienti (A e B): il farmaco viene
somministrato a 150 pazienti nel gruppo A, mentre un
placebo viene somministrato a 100 soggetti in B.
29
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE ASSOLUTE
GRUPPO A
GRUPPO B
90
EFFETTO ni (A) ni(B)
80
70
migliorato
invariato
peggiorato
50
80
20
33
53
14
60
50
40
30
20
150
100
10
0
migliorato
invariato
peggiorato
30
PERCHÉ USARE LE FREQUENZE RELATIVE?
EFFETTO ni (A) ni(B) pi (A) pi(B)
migliorato
invariato
peggiorato
50
80
21
33
53
14
0,33
0,53
0,14
0,33
0,53
0,14
150
100
1,00
1,00
FREQUENZE
RELATIVE
0,60
0,50
0,40
GRUPPO A
GRUPPO B
0,30
0,20
0,10
0,00
migliorato
invariato
peggiorato
31
FREQUENZA CUMULATA
FREQUENZA ASSOLUTA CUMULATA (Fi)
numero di osservazioni il cui valore è inferiore o uguale
ad una data modalità o a un dato valore xi
Fi (- )=0
Fi (+  )=n
FREQUENZA RELATIVA CUMULATA
(Pi = Fi / n; Pi% = Fi /n * 100%)
Pi (- )=0
Pi (+  )=1
32
Distribuzioni di frequenza frequenze cumulate
si sommano le frequenze assolute iniziando dalla prima
Quando si vuol conoscere il numero totale di osservazioni che hanno un valore inferiore ad
un certo limite, può essere utile conoscere le frequenze cumulative.
giorni
1
2
3
4
5
6
7
8
9
totale
ni
1
3
3
7
11
8
4
2
1
40
Fi
1
4
7
14
25
33
37
39
40
Fi%
2,5
10
17,5
35
62,5
82,5
92,5
97,5
100
Tabulazione dei dati
Esempio 1:
Stato civile
ni
tabella semplice,
serie
Celibe/nubil
e
34
Coniugato/a
51
Divorziato/a
12
Vedovo/a
18
Totale
115
Esempio 2:
tabella semplice,
seriazione,
distribuzione
semplice (le
frequenze unitarie
non vengono
riportate)
Voti in latino
in un
semestre
2
4
5
7
Esempio 3:
tabella semplice,
seriazione,
distribuzione di
frequenza
Numero di
figli
0
1
2
3
4
5
Totale
ni
22
89
56
11
8
4
190
Tabulazione dei
dati
Distribuzione di
frequenza
(carattere
quantitativo)
Carattere
Frequenza
ni
x1
n1
x2
n2
x3
n3
…
…
xi
ni
…
…
xK
nk
Totale
N
Frequenze
relative
Carattere
Frequenza
ni
fi
x1
n1
n 1 /N
x2
n2
n 2 /N
x3
n3
n 3 /N
…
…
…
xi
ni
n i /N
…
…
…
xK
nk
n k /N
Totale
N
1
Frequenze
percentuali
Carattere
Frequenza
ni
fi
fi %
x1
n1
n 1 /N
n 1 .100/N
x2
n2
n 2 /N
n 2 .100/N
x3
n3
n 3 /N
n 3 .100/N
…
…
…
…
xi
ni
n i /N
n i .100/N
…
…
…
…
xK
nk
n k /N
n k .100/N
Totale
N
1
100
Frequenze cumulate
Carattere
Frequenza
ni
fi
fi%
Ni
x1
n1
n 1 /N
n 1 .100/N
N1
x2
n2
n 2 /N
n 2 .100/N
N2
x3
n3
n 3 /N
n 3 .100/N
N3
…
…
…
…
…
xi
ni
n i /N
n i .100/N
Ni
…
…
…
…
…
xK
nk
n k /N
n k .100/N
N
Totale
N
1
100
Possiamo anche suddividere in 'classi' la
popolazione secondo il carattere considerato,
allora le modalità del carattere vengono
raggruppate in classi ed otteniamo una
distribuzione di 'frequenze', dove per
frequenza della classe si intende il numero di
individui che appartengono alla classe.
* Distribuzioni di frequenza
Classi di frequenza
 Spesso, quando abbiamo un numero elevato di valori, può essere utile
raggrupparli in classi, ottenendo così una notevole semplificazione ed una
maggiore chiarezza. 
• L’ampiezza di una classe è l’arco dei
valori compresi nella classe.
• L’insieme delle classi deve comprendere
tutti i possibili valori della variabile.
Consulenze psichiatriche effettuate dal S.E.P. del
Dip. Di Psichiatria dell’Univ. di Pisa (aa. 2000-02)
• Le classi non devono essere fra loro
sovrapposte.
• Va sempre considerato che un numero troppo elevato di classi causa
una perdita di sinteticità mentre un numero troppo ristretto causa una
descrizione meno dettagliata.
NOTA: La Scala di Valutazione Globale del Funzionamento è utilizzata dagli psichiatri per
valutare globalmente il funzionamento psicologico, sociale e lavorativo del paziente
nell’ambito di un ipotetico continuum salute-malattia mentale. Il punteggio assegnato può
variare in ordine decrescente di gravità da 1 a 100 (ad es., punteggi compresi fra 1 e 10
indicano un persistente pericolo di far male a se stesso o agli altri).
* Distribuzioni di frequenza
valori centrali delle classi di frequenza
Peso (kg)
frequenza
60-65
65-70
70-75
75-80
80-85
7
16
40
28
9
totale
100
Considerando la prima classe (60-65)
della tabella, i numeri 60 e 65 sono
detti rispettivamente il limite inferiore
ed il limite superiore della classe.
Peso dei 100 studenti maschi iscritti
all’Università di Pisa nel Corso di
Laurea in Scienze Infermieristiche per
l’anno accademico 2000-2001
La differenza fra il confine superiore ed il confine inferiore rappresenta
l’ampiezza della classe. Se tutte le classi hanno uguale ampiezza, tale
ampiezza viene generalmente indicata con a; nell’esempio abbiamo
a = 65-60 = 5.
Il valore centrale di una classe è ottenuto sommando i limiti inferiore e
superiore e dividendo per 2; nell’esempio il valore centrale della prima
classe è (60 + 65)/2 = 62,5.
* Distribuzioni di frequenza
Frequenze cumulative in dati raggruppati in classi
Peso (kg)
ni
Ni
fi
Fi cum
60-65
65-70
70-75
75-80
80-85
7
16
40
28
9
7
23
63
91
100
0,07
0,16
0,40
0,28
0,09
0,07
0,23
0,63
0,91
1
totale
100
Peso dei 100 studenti maschi iscritti all’Università di Pisa nel Corso di Laurea in Scienze
Infermieristiche per l’anno accademico 2000-2001
Anche in presenza di dati raggruppati in classi possiamo
calcolare le frequenze cumulative.
Le distribuzioni cumulate si riferiscono in questo caso ai
confini superiori delle classi.
Ad es. la percentuale degli studenti con peso inferiore a 74,5
Kg (terza classe in tabella) è 0,63x100=63%.
COSTRUZIONE DELLA
DISTRIBUZIONE DI FREQUENZA
PER VARIABILI QUALITATIVE
45
Esempio: I dati seguenti si riferiscono al grado
del trauma in 100 ricoverati al pronto soccorso:
02111
10010
02010
10101
00004
20010
11020
10103
02012
01120
11000
00101
12000
12010
02102
31201
02120
01000
22101
00210
X= grado del
trauma
xi:
0=assente 1=trauma lieve 2=trauma
grave 3=lesioni permanenti 4=decesso
Conteggio delle osservazioni…
modalità
…per
ogni
modalità
conteggio
frequenza
assente
||||
||||
||||
||||
||||
||||
||||
||||
||||
|||
lieve
||||
||||
||||
||||
||||
||||
||
grave
||||
||||
||||
||
lesioni
permanenti
||
2
decesso
|
1
48
32
17
100
46
modalità
tally
frequenza
assente
||||
||||
||||
||||
||||
||||
||||
lieve
||||
||||
||||
||||
||||
||||
||
grave
||||
||||
||||
||
lesioni
permanenti
||
2
decesso
|
1
||||
||||
|||
48
32
17
100
MODALITA'
assente
lieve
grave
lesioni permanenti
decesso
TOTALE
frequenza frequenza
assoluta
relativa
ni
ni /n
48
32
17
2
1
100
48/100 =
0,48
0,32
0,17
0,02
0,01
Costruzione della tabella e
calcolo di frequenze relative
k=5
47
esempio (grado del trauma):
distribuzione di frequenza assoluta, relativa e cumulativa della
variabile “grado del trauma”
relativa
cumulata
percentuale
Pi (%)
assoluta
ni
relativa
pi
relativa
percentuale
pi (%)
assente
48
0.48
48%
48
48 / 100 = 0.48
0.48 * 100 = 48%
lieve
32
0.32
32%
48 + 32 = 80
80 / 100 = 0.80
0.80 * 100 = 80%
grave
17
0.17
17%
80 + 17 = 97
97 / 100 = 0.97
0.97 * 100 = 97%
lesioni
permanenti
2
0.02
2%
97 + 2 = 99
99 / 100 = 0.99
0.99 * 100 = 99%
decesso
1
0.01
1%
99 + 1 = 100
100 / 100 = 1
1 * 100 = 100%
TOTALE
100
1
100%
valore
xi
assoluta
cumulata
Ni
relativa
cumulata
Pi
48
La matrice dei dati
I dati codificati in una in una rilevazione statistica su n
unità statistiche studiando x variabili sono raccolti in
forma di tabella (matrice di dati)
N
sesso
Età
(anni)
Peso
(Kg)
Titolo di
studio
n.°
ricoveri
1
M
42
83
laurea
2
2
F
48
65
diploma
1
...
...
...
...
.......
......
n
F
61
79
Licenza
media
inferiore
4
La matrice dei dati
Ogni riga corrisponde ad una unità
statistica
N
sesso
Età
(anni)
Peso
(Kg)
Titolo di
studio
n.°
ricoveri
1
M
42
83
laurea
2
2
F
48
65
diploma
1
...
...
...
...
.......
......
n
F
61
79
Licenza
media
inferiore
4
La matrice dei dati
Ogni colonna rappresenta una variabile
N
sesso
Età
(anni)
Peso
(Kg)
Titolo di
studio
n.°
ricoveri
1
M
42
83
laurea
2
2
F
48
65
diploma
1
...
...
...
...
.......
......
n
F
61
79
Licenza
media
inferiore
4