Elementi di statistica descrittiva_2_slidexpag

Corso di Laurea in
Sicurezza igienico-sanitaria degli alimenti
Metodologie statistiche per l’analisi del rischio
ELEMENTI DI STATISTICA DESCRITTIVA
PER L’ANALISI DEL RISCHIO
Facoltà di Medicina Veterinaria, Università di Padova
Docente: Dott. L. Corain
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
1
SOMMARIO
¾ Definizione di statistica descrittiva
¾ Statistica descrittiva vs. Statistica inferenziale
¾ Gli aspetti della statistica descrittiva

descrizione e forma della distribuzione

posizione o tendenza centrale

variabilità o dispersione
¾ Gli strumenti della statistica descrittiva

tabelle e grafici

indici di sintesi
¾ Statistica descrittiva per i dati multivariati
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
2
1
LA STATISTICA DESCRITTIVA: DEFINIZIONE
Con il termine statistica descrittiva si intende un insieme di
tecniche e strumenti finalizzati ad assolvere uno dei
principali compiti assegnati della Statistica:
descrivere, rappresentare e sintetizzare in maniera
opportuna un campione di dati relativo ad un problema
(popolazione) di interesse.
Per popolazione si intende la totalità dei casi, ovvero delle
unità statistiche, sulle quali e possibile rilevare il fenomeno
di interesse, ad esempio la prevalenza di colonie batteriche
in un certo alimento. In questo caso, la popolazione è la
totalità dei campioni (vetrini, piastre, ecc.) che sono riferibili
alle condizioni produttive (o di conservazione, trasporto,
ecc.) dell’alimento.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
3
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Mentre la statistica descrittiva si occupa di rappresentare
l’informazione contenuta in un dato insieme o campione di
dati, la statistica inferenziale utilizza tale informazione per
fare delle affermazioni più generali riguardanti i parametri
(solitamente µ e σ) della popolazione, da cui il campione è
stato estratto.
Le affermazioni della statistica inferenziale sono di due tipi:
9 STIMA: si vuole indicare un valore plausibile per il
parametro della popolazione, sotto una delle 2 forme:
1. un valore ben definito (STIMA PUNTUALE)
2. un intervallo in cui molto verosimilmente il parametro
sia incluso (STIMA INTERVALLARE)
9 VERIFICA DI IPOTESI: indicare quale tra due specifiche
ipotesi sul parametro (nulla o alternativa) sia da accettare
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
4
2
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Si noti la netta distinzione concettuale tra

parametri (solitamente µ e σ) della popolazione: si tratta
di quantità non osservabili, ma stimabili attraverso i dati
campionari.

stime dei parametri (media e deviazione standard
campionaria): si tratta di valori plausibili di un parametro
della popolazione che possiamo calcolare attraverso i
dati campionari.
Assunto un modello di probabilità di rappresentazione della
popolazione, attraverso le stime dei parametri possiamo
stimare anche la distribuzione della popolazione stessa.
Si noti che l’assunzione di un modello di probabilità non
assicura affatto che tale modello sia il vero della
distribuzione della popolazione.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
5
LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI
Per descrivere e sintetizzare l’informazione campionaria di
un fenomeno numerico di interesse, la statistica descrittiva
si focalizza su 3 principali aspetti:
1. la descrizione e la forma della distribuzione
2. la posizione o tendenza centrale
3. la variabilità o dispersione
Gli strumenti messi a disposizione dalla statistica descrittiva
possono essere sia di tipo grafico che numerico. In questo
ultimo caso si tratta di opportuni indici di sintesi, che in
unico valore esprimono una specifica caratteristica della
distribuzione dei dati: la tendenza centrale, la variabilità e la
forma della distribuzione.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
6
3
LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI
Grafici:
9 Dotplot
9 (tabella ed) istogramma di frequenza
¾ frequenza assoluta, frequenza relativa
¾ frequenza, frequenza cumulata
9 boxplot
9 probability plot
Indici di sintesi:
9 indici di posizione o tendenza centrale
¾ media, mediana, moda
9 indici di variabilità o dispersione
¾ varianza, deviazione standard (scarto quadr. medio)
range, range interquartile
9 indice di asimmetria
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
7
UN ESEMPIO: L’ACQUA EROGATA DA UNA PIPETTA
Una pipetta è stato usata per trasferire 1 cm3 di acqua
distillata in una provetta tarata per la pesatura.
L'esperimento è stato replicato 50 volte.
...
...
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
8
4
UNA PRIMA RAPPRESENTAZIONE GRAFICA
Una prima sintetica rappresentazione grafica dei dati è
fornita dal dotplot, dove ogni distinto valore osservato
corrisponde ad un pallino:
Osserviamo che la
Dotplot del Peso dell'acqua erogata dalla pipetta
maggior parte dei
dati tende a
“addensarsi” attorno
ad un valore
centrale (che però è
0.94
0.96
0.98
1.00
1.02
1.04
1.06
1.08
Peso
1.10
inferiore a 1 gr).
Possiamo inoltre notare che i dati cadono in un range
(intervallo) di 0.14 gr, calcolato come differenza tra il valore
massimo (1.10) e minimo (0.94) osservato.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
9
LA TABELLA E L’ISTOGRAMMA DI FREQUENZA
Per approfondire la descrizione della distribuzione dei dati,
partendo dal valore minimo di 0.94, dividiamo l’intervallo di
osservazione dei dati (di ampiezza 0.14 gr) in 15 intervalli di
uguale ampiezza pari a 0.01: [0.94, 0.95[, [0.95, 0.96[, ...,
[1.08, 1.09[. Se contiamo il numero di unità che cadano
all’interno di ciascun intervallo, otteniamo la tabella ed il
corrispondente istogramma di frequenza.
Frequenza
Assoluta Relativa
3
6%
4
8%
12
24%
8
16%
9
18%
4
8%
2
4%
3
6%
2
4%
0
0%
0
0%
1
2%
1
2%
0
0%
1
2%
50
100%
Histogram of Peso
12
10
Frequency
Conteggio di Peso
Intervallo
0.94-0.95
0.95-0.96
0.96-0.97
0.97-0.98
0.98-0.99
0.99-1.00
1.00-1.01
1.01-1.02
1.02-1.03
1.03-1.04
1.04-1.05
1.05-1.06
1.06-1.07
1.07-1.08
1.08-1.09
Totale
8
6
4
2
0
0.94 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10
Peso
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
10
5
LA FREQUENZA CUMULATA
Se sommiamo via via le frequenze in maniera cumulata
rispetto agli intervalli, si ottiene la cosiddetta frequenza
cumulata, che ci dice quante osservazioni cadono fino ad
una certa soglia. Per costruzione, il valore della frequenza
cumulata rispetto all’ultima soglia sarà il numero totale di
osservazioni o il valore 100% rispettivamente per la
frequenza cumulata assoluta o relativa.
Frequ. comulata
Assoluta Relativa
3
6%
7
14%
19
38%
27
54%
36
72%
40
80%
42
84%
45
90%
47
94%
47
94%
47
94%
48
96%
49
98%
49
98%
50
100%
Distribuzione relativa cumulata del Peso
100
80
Cumulative Percent
Conteggio di Peso
Intervallo
< 0.95
< 0.96
< 0.97
< 0.98
< 0.99
< 1.00
< 1.01
< 1.02
< 1.03
< 1.04
< 1.05
< 1.06
< 1.07
< 1.08
< 1.09
60
40
20
0
0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09
Peso
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
11
LA DEFINIZIONE DEGLI INTERVALLI
Nella definizione degli intervalli è utile seguire alcune
semplici regole empiriche:

porre il limite inferiore della prima classe leggermente al
di sotto del valore minimo osservato, preferibilmente
individuando un valore di riferimento che faciliti
l’interpretazione dei dati

scegliere un numero di intervalli da un minimo di 4-5 ad
un massimo di 14-15; in base al numero di intervalli
calcolare la corrispondente ampiezza

in alternativa, scegliere una ampiezza opportuna
dell’intervallo, preferibilmente in modo che il numero di
classi sia coerente con il punto precedente
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
12
6
MEDIANA E QUARTILI: DEFINIZIONE
Oltre ai valori massimo e minimo, altri indici statistici di
posizione possono fornirci informazioni importanti di sintesi
sulla distribuzione dei dati. Se ordiniamo i dati, dal più
piccolo al più grande
Posizione ordinata
Peso
Indice
1
0.945
0.945
MIN
2
0.946
...
...
12
0.962
0.962
Q1
...
...
25
26
0.977 0.977
0.977
MEDIANA (Q2)
...
...
38
0.994
0.994
Q3
...
...
49
1.063
50
1.085
1.085
MAX

la media dei due valori nella posizione centrale
((50+1)/2=25.5, cioè 25° e 26°) definisce la MEDIANA

il valore più vicino alla posizione ¼ ((50+1)/4=12.75
quindi il 13° dato) definisce Q1 (primo QUARTILE)

il valore più vicino alla posizione ¾ ( (50+1)*3/4=38.25
quindi il 38° dato) definisce Q3 (terzo QUARTILE)
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
13
MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI
Sia n il numero di osservazioni del campione di dati. In base
al fatto che n sia pari o dispari e che sia divisibile per 4, la
mediana ed i quartili vengono così definiti:
MEDIANA: se n è dispari, la mediana è il valore della
serie ordinata nella posizione (n+1)/2, mentre se n è
pari, la mediana è la media aritmetica dei due valori
della serie ordinata nelle posizioni n/2 e n/2+1
Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori
della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4,
mentre se n+1 non è divisibile per 4, se (n+1)/4 e
(n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e
94.5) allora Q1 e Q3 sono definiti dalla media aritmetica
dei due valori adiacenti della serie ordinata (es. 31-32 e
94-95), altrimenti sono definiti come i valore che sta
nella posizione corrispondente al valore (n+1)/4 e
(n+1)*3/4 una volta arrotondato all’intero più vicino
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
14
7
IL BOXPLOT
La rappresentazione
grafica dei 5 numeri di
sintesi: MIN, Q1,
MEDIANA, Q3 e MAX,
MIN
forniscono il cosiddetto
BOXPLOT.
Per costruzione, all’interno
della “scatola” è contenuto
il 50% dei dati osservati.
Q1
Q3
MAX
MEDIANA
La forma della scatola (rispetto alla mediana) ed il modo in
cui si allungano i tratti laterali (“baffi”) danno un’indicazione
sia della tendenza centrale, che sulla variabilità (“intensità”
della dispersione) che sulla simmetria della distribuzione.
15
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
IL BOXPLOT MODIFICATO
Se nella costruzione del boxplot, MIN e MAX sono sostituiti
o MIN*=max{MIN,Q1-1.5*(Q3-Q1)}
o MAX*= min{MAX,Q3+1.5*(Q3-Q1)}
otteniamo il cosiddetto boxplot modificato.
In questo caso, se sono
presenti alcuni valori che
oltrepassano le soglie MIN*
e MAX*, essi sono indicati
con un asterisco, ad indicare
che si potrebbe considerare
come dati anomali (outlier)
nel campione di dati.
Boxplot of Peso
MIN
MAX*
outliers
0.950
0.975
1.000
1.025
Peso
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
1.050
1.075
1.100
16
8
IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI
Boxplot e dotplot sono particolarmente efficaci nella
confronto tra più serie di dati, per la comparazione tra
tendenza centrale, variabilità e forma della distribuzione.
Ad esempio, considerati 3 impianti A,B,C, possiamo
confrontare un campione di valori di produzione per
ciascuno dei tre impianti.
Boxplots of Produzione by Impianto
115
110
110
105
105
Produzione
100
95
100
95
90
90
85
85
80
B
C
B
A
Impianto
C
80
Impianto
A
Produzione
Dotplots of Produzione by Impianto
115
17
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI
Anche la frequenza può essere utilizzata a scopi
comparativi, per evidenziare differenze ad analogie in
diverse serie di dati.
Una curva più a destra o sotto/a destra rispetto ad un’altra,
rispettivamente per la frequenza o frequenza cumulata,
indica che la corrispondente serie di dati è distribuita su
valori tendenzialmente più elevati.
Frequenza assoluta cumulata, per impianto
Frequenza assoluta, per impianto
A
B
C
9
8
Frequency
7
6
5
4
3
2
25
Cumulative Frequency
10
A
B
C
20
15
10
5
1
0
0
80
85
90
95
100
105
Produzione
110
115
120
80
85
90
95
100
105
110
115
120
Produzione
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
18
9
IL PROBABILITY PLOT
Un probability plot è un grafico a due dimensioni in cui le
osservazioni sono riportate sull’asse verticale e a ciascuna
di esse viene fatto corrispondere sull’asse orizzontale il
relativo quantile di una distribuzione di probabilità (normale,
log-normale,ecc.).
Se i punti del grafico si trovano approssimativamente su
una linea retta immaginaria inclinata positivamente, allora
possiamo affermare che i dati osservati si distribuiscono
approssimativamente secondo la legge della distribuzione
di probabilità in questione.
19
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
IL PROBABILITY PLOT
Probability Plot of Peso
Lognormal - 95% CI
99
Loc
Scale
N
AD
P-Value
95
90
-0.01753
0.02857
50
1.592
<0.005
70
60
50
40
30
20
10
5
1
0.90
0.95
1.00
Peso
1.05
1.10
Probability Plot of Peso
Normal - 95% CI
99
Mean
StDev
N
AD
P-Value
95
90
0.9830
0.02868
50
1.768
<0.005
80
Percent
Percent
80
70
60
50
40
30
20
10
5
1
0.90
0.95
1.00
Peso
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
1.05
1.10
20
10
INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE
La posizione o tendenza centrale di una serie di dati può
essere utilmente rappresentata da un unico valore di sintesi
come la mediana. Si noti che la mediana non è influenzata
dalla presenza di dati anomali e per questo è detta essere
un indicatore robusto.
Una alternativa è data dalla media campionaria dei valori
n
osservati ovvero
x
x + x + ... + xn
x= 1 2
=
n
∑
i =1
i
n
La media campionaria è una sorta di “baricentro” dei dati e,
a differenza della mediana, tende ad essere “trascinata”
verso i dati anomali.
Un’ulteriore alternativa (poco usata) è la moda, definita
come il valore più frequente in una serie di dati.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
21
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
La variabilità o dispersione dei dati indica il grado di
“oscillazione” o variazione dei valori rispetto alla loro
tendenza centrale, misurata ad esempio con la media
campionaria. L’indice statistico s2, definito come
n
s2 =
∑ (x − x )
2
i
i =1
n −1
è detto varianza campionaria.
Dato che s2 è definito nel quadrato della unità di misura di
X, per facilità di interpretazione si preferisce usare la
deviazione standard o scarto quadratico medio s = s 2 .
Per comparare la variabilità di X e Y, se misurati su unità di
misura diverse si utilizza il coefficiente di variazione:
CV = s / x
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
22
11
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
Se in luogo della media campionaria, consideriamo come
indice di posizione la mediana, la variabilità dei dati può
essere misura dal Range Interquartile definito come
IQR = Q3-Q1
si noti che, per costruzione, tale indice di dispersione è
sempre ≥ 0, risultando tanto più grande quanto più i dati
sono variabili rispetto alla mediana.
Una ulteriore alternativa è fornita dal Range, ovvero
Range = MAX – MIN
Tale indice tuttavia è di scarso rilievo data la sua evidente
dipendenza dalla presenza di eventuali dati anomali.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
23
INDICI STATISTICI DI SIMMETRIA
Confrontando i due indici di tendenza centrale media
campionaria e mediana è possibile trarre delle indicazioni in
merito alla simmetria della distribuzione dei dati:
z
media < mediana:
asimmetria negativa o distribuzione obliqua a sinistra
z
media = mediana: simmetria
z
media > mediana:
asimmetria positiva o distribuzione obliqua a destra
Una indicazione più precisa è data dall’indice di
asimmetria (skewness), che in base al valore assunto,
positivo o negativo, ci indica l’intensità ed il tipo
dell’eventuale asimmetria.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
24
12
INDICI STATISTICI DI SINTESI
Summary for Peso
A nderson-D arling N ormality Test
0.96
0.98
1.00
1.02
1.04
1.06
1.08
A -S quared
P -V alue <
1.77
0.005
M ean
S tDev
V ariance
S kew ness
Kurtosis
N
0.98302
0.02868
0.00082
1.61433
3.20499
50
M inimum
1st Q uartile
M edian
3rd Q uartile
M aximum
0.94500
0.96275
0.97700
0.99425
1.08500
95% C onfidence Interv al for M ean
0.97487
0.99117
95% C onfidence Interv al for M edian
0.96867
0.98500
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
0.02396
0.03574
Mean
Median
0.970
0.975
0.980
0.985
0.990
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
25
CONFRONTO TRA INDICI STATISTICI
L’informazione che si può desumere dagli indici statistici di
sintesi può essere particolarmente apprezzata in caso di
comparazione tra più serie di dati, come risulta chiaramente
dall’esempio della produzione dei tre impianti.
Impianto
A
B
C
A
B
C
Indice di posizione
Media
Mediana
100.1
100.0
96.1
95.7
91.5
89.8
Skewness
-0.150
0.103
1.109
Indice di dispersione
Varianza
DevStd
IQR
29.0
5.4
5.7
78.8
8.9
18.2
62.6
7.9
11.8
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
26
13
STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI
Quando sulla stessa unità od oggetto vengono rilevati
contemporaneamente due o più variabili numeriche, si parla
di dati bi- o multi-variati. In questo caso è di interesse
studiare il modo in cui queste variabili sono eventualmente
associate tra loro.
Ad esempio possiamo considerare il volume di produzione,
il ciclo temporale e la temperatura media, di un certo
processo industriale.
Il diagramma di dispersione per una coppia di variabili
numeriche X e Y, può fornire una prima chiave lettura del
legame esistente tra le variabili. Infatti, a seconda di come
si dispone la “nuvola” di punti, possiamo ritenere plausibile
un eventuale legame tra le due variabili.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
27
MATRIX PLOT
Se consideriamo una serie di diagrammi di dispersione per
ogni possibile coppia di variabili, otteniamo il cosiddetto
matrix-plot, che può fornire una prima chiave lettura del
legame esistente tra le variabili.
1. tempo e volume di
produzione sono
correlati
positivamente,
24.925
TEMPO
22.375
3.46
TEMPER
VOL_PROD
Possiamo dedurre una chiara indicazione che
3.66
2.68
3.42
5
5
.37
.92
22
24
VOL_PROD
8
2.6
6
3.4
TEMPO
2
3.4
6
3.6
TEMPER
2. temperatura - tempo e
temperatura - volume
di produzione sono
invece correlati
negativamente.
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
28
14
IL COEFFICIENTE DI CORRELAZIONE
Un modalità più rigorosa che consente di studiare il grado di
intensità del legame lineare tra coppie di variabili consiste
nel calcolare l’indice di correlazione (lineare) campionaria:
n
r=
∑ ( x − x )( y − y )
i =1
n
i
∑ ( xi − x )2 ⋅
i =1
Correlations: VOL_PROD; TEMPO; TEMPER
i
VOL_PROD
n
∑ ( y − y)
i =1
2
TEMPO
0.908
TEMPER
-0.915
TEMPO
-0.990
i
Cell Contents: Pearson correlation
La correlazione, varia tra -1 e +1, indicando
¾ r = − 1 (+1): perfetta correlazione negativa (positiva)
¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7):
forte correlazione negativa (positiva)
¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3):
debole correlazione negativa (positiva)
¾ − 0.3 < r < + 0.3: assenza di correlazione
ELEMENTI DI STATISTICA DESCRITTIVA PER L’ANALISI DEL RISCHIO
29
15