elementi di statistica descrittiva - DTG Home page

Metodi Statistici e Probabilistici per l’Ingegneria
ELEMENTI DI
STATISTICA DESCRITTIVA
Corso di Laurea in Ingegneria Civile
Facoltà di Ingegneria, Università di Padova
Docente: Dott. L. Corain
E-mail: [email protected]
Home page: www.gest.unipd.it/~livio/Corso_Civile.html
ELEMENTI DI STATISTICA DESCRITTIVA
1
SOMMARIO
¾ Statistica descrittiva vs. Statistica inferenziale
¾ Gli aspetti della statistica descrittiva
ƒ
ƒ
ƒ
descrizione e forma della distribuzione
posizione o tendenza centrale
variabilità o dispersione
¾ Gli strumenti della statistica descrittiva
ƒ
ƒ
tabelle e grafici
indici di sintesi
¾ Statistica descrittiva per serie temporali
¾ Statistica descrittiva per i dati multivariati
ELEMENTI DI STATISTICA DESCRITTIVA
2
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
La statistica descrittiva è un insieme di tecniche usate per
descrivere le caratteristiche di base dei dati raccolti in un
esperimento/studio.
Esse forniscono una sintesi semplice del campione e delle
misure raccolte. Insieme alla semplice analisi grafica,
costituisco la base iniziale di partenza di qualsivoglia analisi
quantitativa dei dati.
Mentre con le statistiche descrittive si sta semplicemente
descrivendo ciò che si osserva o ciò che i dati evidenziano
nei loro tratti essenziali, con la statistica inferenziale, si
tenterà di raggiungere conclusioni che si estendono oltre i
dati raccolti nel loro immediato e che possono essere valide
e riferibili ad un contesto più ampio rispetto a quello dei dati
di quel singolo esperimento/studio.
ELEMENTI DI STATISTICA DESCRITTIVA
LA STATISTICA DESCRITTIVA: DEFINIZIONE
Con il termine statistica descrittiva si intende un insieme di
tecniche e strumenti finalizzati ad assolvere uno dei
principali compiti assegnati della Statistica:
descrivere, rappresentare e sintetizzare in maniera
opportuna un insieme o campione di dati relativamente ad
un problema (popolazione) di interesse.
Per popolazione si intende la totalità dei casi, ovvero delle
unità sulle quali e possibile rilevare una variabile di
interesse, ad esempio i provini ottenuti da una miscela
cemento/calcestruzzo su cui si esegue una prova di
compressione allo scopo di misurare il carico di rottura. Per
estensione, con popolazione si intende anche il
prodotto/processo/fenomeno oggetto di indagine.
Per campione si intende invece un insieme finito di n unità
che si può ritenere rappresentativo dell’intera popolazione
(che per definizione ha invece numerosità infinita).
ELEMENTI DI STATISTICA DESCRITTIVA
4
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Mentre la statistica descrittiva si occupa di rappresentare
l’informazione contenuta in un dato insieme o campione di
dati, la statistica inferenziale utilizza tale informazione per
fare delle affermazioni più generali riguardanti i parametri
(solitamente µ e σ) della popolazione, da cui il campione è
stato estratto.
Le affermazioni della statistica inferenziale sono di due tipi:
9 STIMA: si vuole indicare un valore plausibile per il
parametro della popolazione, sotto una delle 2 forme:
1. un valore ben definito (STIMA PUNTUALE)
2. un intervallo in cui molto verosimilmente il parametro
sia incluso (STIMA INTERVALLARE)
9 VERIFICA DI IPOTESI: indicare quale tra due specifiche
ipotesi sul parametro (nulla o alternativa) sia da accettare
ELEMENTI DI STATISTICA DESCRITTIVA
5
STATISTICA DESCRITTIVA vs STATISTICA INFERENZIALE
Si noti la netta distinzione concettuale tra
ƒ parametri (solitamente µ e σ) della popolazione: si tratta
di quantità non osservabili (ma stimabili);
ƒ stime dei parametri (media e deviazione standard
campionaria): si tratta di valori plausibili per un
parametro della popolazione e che possiamo calcolare
attraverso i dati campionari.
Assunto un modello di probabilità rappresentativo della
popolazione, attraverso le stime dei parametri possiamo
inoltre:
ƒ stimare il profilo della distribuzione della popolazione;
ƒ costruire degli intervalli di confidenza per i parametri.
Si noti che l’assunzione che un data distribuzione di
probabilità sia rappresentativa della popolazione
non
assicura affatto che tale distribuzione rappresenti il vero
modello della popolazione.
ELEMENTI DI STATISTICA DESCRITTIVA
6
LA STATISTICA DESCRITTIVA: ASPETTI E STRUMENTI
Per descrivere e sintetizzare l’informazione campionaria di
un fenomeno numerico di interesse, la statistica descrittiva
si focalizza su 3 principali aspetti:
1. la descrizione e la forma della distribuzione
2. la posizione o tendenza centrale
3. la variabilità o dispersione
Gli strumenti messi a disposizione dalla statistica descrittiva
possono essere sia di tipo grafico sia numerico. In questo
ultimo caso si tratta di opportuni indici di sintesi, che in
unico valore esprimono una specifica caratteristica della
distribuzione dei dati: la tendenza centrale, la variabilità e la
forma della distribuzione.
ELEMENTI DI STATISTICA DESCRITTIVA
7
LA STATISTICA DESCRITTIVA: DETTAGLIO STRUMENTI
Grafici:
9 Dotplot
9 (tabella ed) istogramma di frequenza
¾ frequenza assoluta, frequenza relativa
¾ frequenza, frequenza cumulata
9 boxplot
9 probability plot
Indici di sintesi:
9 indici di posizione o tendenza centrale
¾ media, mediana, moda
9 indici di variabilità o dispersione
¾ varianza, deviazione standard (scarto quadr. medio)
range, range interquartile
9 indice di asimmetria
ELEMENTI DI STATISTICA DESCRITTIVA
8
UN ESEMPIO: SPESSORE DI UNA LASTRA
In uno studio sugli spessori di una lastra nervata in
fibrocemento si sono effettuate delle misurazioni (mm), in
corrispondenza a 30 posizioni della lastra.
ELEMENTI DI STATISTICA DESCRITTIVA
9
UNA PRIMA RAPPRESENTAZIONE GRAFICA
Una prima sintetica rappresentazione grafica dei dati è
fornita dal dotplot, dove ogni distinto valore osservato
corrisponde ad un pallino:
Dotplot dello Spessore della lastra (mm)
Osserviamo che la
maggior parte dei
dati tende a
“addensarsi” attorno
ad un valore
5.7
5.8
5.9
6.0
6.1
6.2
6.3
6.4
centrale (6 mm).
Spessore (mm)
Possiamo inoltre notare che i dati cadono in un range
(intervallo) di 0.8 mm, calcolato come differenza tra il valore
massimo (6.4) e minimo (5.6) osservato.
ELEMENTI DI STATISTICA DESCRITTIVA
10
LA TABELLA E L’ISTOGRAMMA DI FREQUENZA
Per approfondire la descrizione della distribuzione dei dati,
partendo dal valore minimo 5.6, dividiamo l’intervallo di
osservazione dei dati (di ampiezza 0.8 mm) in 8 intervalli di
uguale ampiezza pari a 0.1 mm: [5.6, 5.7[, [5.7, 5.8[, ...,
[6.3, 6.4[. Se contiamo il numero di unità che cadano
all’interno di ciascun intervallo, otteniamo la tabella ed il
corrispondente istogramma di frequenza
(assoluta o
relativa).
Freqequenza relativa percentuale
Istogramma della frequenza relativa dello Spessore
Conteggio
Frequenza
Spessore Assoluta Relativa
5.6-5.7
1
3.3%
5.7-5.8
0
0.0%
5.8-5.9
7
23.3%
5.9-6.0
9
30.0%
6.0-6.1
8
26.7%
6.1-6.2
2
6.7%
6.2-6.3
2
6.7%
6.3-6.4
1
3.3%
TOTALE
30
100.0%
30
25
20
15
10
5
0
5.6
5.7
5.8
5.9
6.0
6.1
6.2
6.3
6.4
Spessore
ELEMENTI DI STATISTICA DESCRITTIVA
11
LA TABELLA E L’ISTOGRAMMA DI FREQUENZA
ƒ Con il termine frequenza assoluta si intende il
numero/conteggio di unità che cadano in una
determinata classe (intervallo). La frequenza assoluta
somma ad n.
ƒ Con il termine frequenza relativa si intende la frazione
(o la percentuale) di unità (rispetto al numero totale di
unità) cadano in una determinata classe (intervallo). La
frequenza relativa somma ad 1 (o 100%).
ƒ Per frequenza cumulata si intende invece il numero di
unità che sono inferiori ad una data soglia (appartengono
all’intervallo [−∞, soglia[).
ƒ La frequenza cumulata può essere sia assoluta sia
relativa.
ELEMENTI DI STATISTICA DESCRITTIVA
12
LA FREQUENZA CUMULATA
Se sommiamo via via le frequenze in maniera cumulata
rispetto agli intervalli, si ottiene la cosiddetta frequenza
cumulata, che ci dice quante osservazioni cadono fino ad
una certa soglia. Per costruzione, il valore della frequenza
cumulata rispetto all’ultima soglia sarà il numero totale di
osservazioni o il valore 100% rispettivamente per la
frequenza cumulata assoluta o relativa.
Istogramma della frequenza relativa cumulata dello Spessore
Freqequenza relativa percentuale cumulata
Conteggio
Frequ. comulata
Spessore Assoluta Relativa
<5.7
1
3.3%
<5.8
1
3.3%
<5.9
8
26.7%
<6.0
17
56.7%
<6.1
25
83.3%
<6.2
27
90.0%
<6.3
29
96.7%
<6.4
30
100.0%
100
80
60
40
20
0
5.6
5.7
5.8
5.9
6.0
6.1
6.2
6.3
6.4
Spessore
ELEMENTI DI STATISTICA DESCRITTIVA
13
LA DEFINIZIONE DEGLI INTERVALLI
Nella definizione degli intervalli è utile seguire alcune
semplici regole empiriche:
ƒ
porre il limite inferiore della prima classe leggermente al
di sotto del valore minimo osservato, preferibilmente
individuando un valore di riferimento che faciliti
l’interpretazione dei dati
ƒ
scegliere un numero di intervalli da un minimo di 4-5 ad
un massimo di 14-15; in base al numero di intervalli
calcolare la corrispondente ampiezza
ƒ
in alternativa, scegliere una ampiezza opportuna
dell’intervallo, preferibilmente in modo che il numero di
classi sia coerente con il punto precedente
ELEMENTI DI STATISTICA DESCRITTIVA
14
LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE
In un’analisi statistica siamo talvolta interessati a esaminare
il comportamento simultaneo di due variabili qualitative: per
esempio ci possiamo chiedere se esiste un legame fra il
livello delle acque ed un particolare bacino idrico, sulla
base ad es. delle osservazioni mensili negli ultimi 10 anni.
La tabella di contingenza è una tabella a doppia entrata in
cui le osservazioni relative a due variabili categoriali
vengono rappresentate/sintetizzate simultaneamente.
LIVELLO DELLE ACQUE
DEL BACINO
Basso
Medio
Alto
Totale
BACINO IDRICO
A
B
C
40
19
25
10
11
20
70
90
75
120
120
120
Totale
84
41
235
360
ELEMENTI DI STATISTICA DESCRITTIVA
LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE
Al fine di analizzare la possibile associazione esistente fra
le due variabili qualitative, è opportuno convertire le
frequenze congiunte assolute in frequenze relative (o
percentuali).
Questa operazione può essere realizzata riferendosi
(condizionandosi) alternativamente al:
1. totale complessivo (rappresentato nel nostro caso dalle
360 osservazioni mensili)
2. totale di riga (rispetto al numero totale di mesi per
altezza del livello delle acque)
3. totale per colonna (rispetto al numero totale di mesi di
osservazione per ciascun bacino)
Il risultato e l’informazione che se ne ottiene dipende dallo
specifico totale che viene scelto a riferimento.
ELEMENTI DI STATISTICA DESCRITTIVA
LA FREQUENZA NEL CASO DI VARIABILI QUALITATIVE
Ad esempio, per analizzare lo stato di salute del livello
idrico rispetto a ciascuna area, è opportuno riferirsi alla
tabella di frequenza condizionata al totale di colonna.
LIVELLO DELLE ACQUE
DEL BACINO
Basso
Medio
Alto
Totale
BACINO IDRICO
A
B
C
33.3%
15.8%
20.8%
8.3%
9.2%
16.7%
58.3%
75.0%
62.5%
100.0%
100.0%
100.0%
Totale
23.3%
11.4%
65.3%
100.0%
Frequenza nel livello delle acque per bacino idrico
80.0%
70.0%
Livello
delle
acque
Frequenza
60.0%
50.0%
Basso
Medio
Alto
40.0%
30.0%
20.0%
10.0%
0.0%
A
B
C
Bacino
ELEMENTI DI STATISTICA DESCRITTIVA
MEDIANA E QUARTILI: DEFINIZIONE
Oltre ai valori massimo e minimo, altri indici statistici di
posizione possono fornirci informazioni importanti di sintesi
sulla distribuzione dei dati. Se ordiniamo i dati, dal più
piccolo al più grande:
Posizione ordinata
Spessore
Dato ordinato
Indice
ƒ
ƒ
ƒ
1
5.69
5.69
MIN
2
5.81
...
...
8
5.89
5.89
Q1
...
...
15
16
5.97
5.98
5.975
MEDIANA (Q2)
...
...
23
6.04
6.04
Q3
...
...
29
6.24
30
6.37
6.37
MAX
la media dei due valori nella posizione centrale
((30+1)/2=15.5, cioè 15° e 16°) definisce la MEDIANA
il valore più vicino alla posizione ¼ ((30+1)/4=7.75
quindi l’8° dato della serie ordinata) definisce Q1 (primo
QUARTILE)
il valore più vicino alla posizione ¾ ( (30+1)*3/4=23.25
quindi il 23° dato) definisce Q3 (terzo QUARTILE)
ELEMENTI DI STATISTICA DESCRITTIVA
18
IL BOXPLOT
La rappresentazione
Boxplot dello Spessore
grafica dei 5 numeri di
sintesi: MIN, Q1,
Q1
Q3
MEDIANA, Q3 e MAX,
MIN
MAX
restituisce il cosiddetto
BOXPLOT.
Per costruzione, all’interno
MEDIANA
della “scatola” è contenuto
il 50% dei dati osservati.
La posizione, dimensione e forma della scatola (cioè la
distanza tra i due quartili e la mediana) ed il modo in cui si
allungano i tratti laterali (“baffi”) danno un’indicazione
rispettivamente: della tendenza centrale, della variabilità
(“intensità” della dispersione) e della simmetria della
distribuzione. Si noti che il boxplot può essere visto come
una rappresentazione “stilizzata” della distribuzione dei dati.
5.7
5.8
5.9
6.0
Spessore
6.1
6.2
6.3
ELEMENTI DI STATISTICA DESCRITTIVA
19
MEDIANA E QUARTILI: REGOLA DEFINIZIONE POSIZIONI
Sia n il numero di osservazioni del campione di dati. In base
al fatto che n sia pari o dispari e che sia divisibile per 4, la
mediana ed i quartili vengono così definiti:
ƒ MEDIANA: se n è dispari, la mediana è il valore della
serie ordinata nella posizione (n+1)/2, mentre se n è
pari, la mediana è la media aritmetica dei due valori
della serie ordinata nelle posizioni n/2 e n/2+1
ƒ Q1 e Q3: se n+1 è divisibile per 4, Q1 e Q3 sono i valori
della serie ordinata nelle posizioni (n+1)/4 e (n+1)*3/4,
mentre se n+1 non è divisibile per 4, se (n+1)/4 e
(n+1)*3/4 cadano esattamente tra 2 posizioni (es. 32.5 e
94.5) allora Q1 e Q3 sono definiti dalla media aritmetica
dei due valori adiacenti della serie ordinata (es. 31-32 e
94-95), altrimenti sono definiti come i valore che sta
nella posizione corrispondente al valore (n+1)/4 e
(n+1)*3/4 una volta arrotondato all’intero più vicino
ELEMENTI DI STATISTICA DESCRITTIVA
20
IL BOXPLOT MODIFICATO
Se nella costruzione del boxplot, MIN e MAX sono sostituiti
o MIN*=max{MIN,Q1-1.5*(Q3-Q1)}
o MAX*= min{MAX,Q3+1.5*(Q3-Q1)}
otteniamo il cosiddetto boxplot modificato.
In questo caso, se sono
presenti alcuni valori che
oltrepassano le soglie MIN*
e MAX*, essi sono indicati
con un asterisco, ad indicare
che si potrebbe considerare
come dati anomali (outlier)
nel campione di dati.
Boxplot dello Spessore
MIN
MAX*
outlier
5.6
5.7
5.8
5.9
6.0
Spessore
6.1
6.2
6.3
6.4
ELEMENTI DI STATISTICA DESCRITTIVA
21
IL BOXPLOT PER IL CONFRONTO TRA SERIE DI DATI
Boxplot (e dotplot) sono particolarmente efficaci nella
confronto tra due o più serie di dati, per la comparazione tra
tendenza centrale, variabilità e forma della distribuzione.
Ad es., per confrontare i Ad es., per analizzare la
valori di indice di rimbalzo di tensione di rottura di barre
prove sclerometriche per d’acciaio di 3 differenti
accertare la stima speditiva diametri (12,14,16) via prova
della resistenza meccanica di trazione.
di due colonne (A/B).
Boxplot della Rottura per Spessore
630
34
620
32
610
Rottura
Indice di rimbalzo
Boxplot dell'Indice di rimbalzo per Colonna
36
30
28
26
600
590
580
570
24
560
22
550
A
B
12
14
16
Spessore
Colonna
ELEMENTI DI STATISTICA DESCRITTIVA
22
LA FREQUENZA PER IL CONFRONTO TRA SERIE DI DATI
Anche la frequenza può essere utilizzata a scopi
comparativi, per evidenziare differenze ad analogie in
diverse serie di dati.
Una curva più a destra o sotto/a destra rispetto ad un’altra,
rispettivamente per la frequenza o frequenza cumulata,
indica che la corrispondente serie di dati è distribuita su
valori tendenzialmente più elevati.
Frequenza cumulata della Rottura
Spessore
12
14
16
Frequenza Percentuale
40
30
20
10
0
560
580
600
620
Frequenza Cumulata Percentuale
Frequenza della Rottura
50
Spessore
12
14
16
100
80
60
40
20
0
560
Rottura
580
600
620
Rottura
ELEMENTI DI STATISTICA DESCRITTIVA
23
IL PROBABILITY PLOT
Un probability plot è un grafico a due dimensioni in cui le
osservazioni sono riportate sull’asse verticale e a ciascuna
di esse viene fatto corrispondere sull’asse orizzontale il
relativo quantile di una distribuzione di probabilità (normale,
log-normale,ecc.).
Se i punti del grafico si trovano approssimativamente su
una linea retta immaginaria inclinata positivamente, allora
possiamo affermare che i dati osservati si distribuiscono
approssimativamente secondo una determinata legge di
distribuzione di probabilità.
ELEMENTI DI STATISTICA DESCRITTIVA
24
IL PROBABILITY PLOT
Probability Plot of Spessore
Normal - 95% CI
99
Mean
5.991
StDev
0.1412
N
30
AD
0.557
P-Value 0.137
95
90
Percent
80
70
60
50
40
30
20
10
5
1
5.5
5.6
5.7
5.8
5.9
6.0
6.1
6.2
6.3
6.4
Spessore
Probability Plot of Indice di rimbalzo
Probability Plot of Rottura
Normal - 95% CI
Normal - 95% CI
99
95
90
90
80
Percent
70
60
50
40
30
60
50
40
30
20
10
10
5
5
15
20
25
30
35
1
40
Mean
589.3
595.1
610.9
70
20
1
Spessore
12
14
16
95
Mean StDev N
AD
P
30.5 2.838 10 0.167 0.912
27.5 3.689 10 0.245 0.682
80
Percent
99
Colonna
A
B
500
550
600
650
StDev
27.67
14.36
14.93
N
AD
P
8 0.419 0.243
8 0.126 0.972
8 0.443 0.209
700
Rottura
Indice di rimbalzo
ELEMENTI DI STATISTICA DESCRITTIVA
25
INDICI STATISTICI DI POSIZIONE O TENDENZA CENTRALE
La posizione o tendenza centrale di una serie di dati può
essere utilmente rappresentata da un unico valore di sintesi
come la mediana. Si noti che la mediana non è influenzata
dalla presenza di dati anomali e per questo è detta essere
un indicatore robusto.
Una alternativa è data dalla media campionaria dei valori
n
osservati ovvero
x
x=
x1 + x2 + ... + xn
=
n
∑
i =1
i
n
La media campionaria è una sorta di “baricentro” dei dati e,
a differenza della mediana, tende ad essere “trascinata”
verso i dati anomali.
Un’ulteriore alternativa (poco usata) è la moda, definita
come il valore più frequente in una serie di dati.
ELEMENTI DI STATISTICA DESCRITTIVA
26
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
La variabilità o dispersione dei dati indica il grado di
“oscillazione” o variazione dei valori rispetto alla loro
tendenza centrale, misurata ad esempio con la media
campionaria. L’indice statistico s2, definito come
n
s2 =
∑ (x − x )
2
i
i =1
n −1
è detto varianza campionaria.
Dato che s2 è definito nel quadrato della unità di misura di
X, per facilità di interpretazione si preferisce usare la
deviazione standard o scarto quadratico medio s = s 2 .
Per comparare la variabilità di X e Y, se misurati su unità di
misura diverse si utilizza il coefficiente di variazione:
CV = s / x
ELEMENTI DI STATISTICA DESCRITTIVA
27
INDICI STATISTICI DI VARIABILITÀ O DISPERSIONE
Se in luogo della media campionaria, consideriamo come
indice di posizione la mediana, la variabilità dei dati può
essere misura dal Range Interquartile definito come
IQR = Q3-Q1
si noti che, per costruzione, tale indice di dispersione è
sempre ≥ 0, risultando tanto più grande quanto più i dati
sono variabili rispetto alla mediana.
Una ulteriore alternativa è fornita dal Range, ovvero
Range = MAX – MIN
Tale indice tuttavia è di scarso rilievo data la sua evidente
dipendenza dalla presenza di eventuali dati anomali.
ELEMENTI DI STATISTICA DESCRITTIVA
28
INDICI STATISTICI DI SIMMETRIA
Confrontando i due indici di tendenza centrale media
campionaria e mediana è possibile trarre delle indicazioni in
merito alla simmetria della distribuzione dei dati:
z
media < mediana:
asimmetria negativa o distribuzione obliqua a sinistra
z
media = mediana: simmetria
z
media > mediana:
asimmetria positiva o distribuzione obliqua a destra
Una indicazione più precisa è data dall’indice di
asimmetria (skewness), che in base al valore assunto,
positivo o negativo, ci indica l’intensità ed il tipo
dell’eventuale asimmetria.
ELEMENTI DI STATISTICA DESCRITTIVA
29
INDICI STATISTICI DI SINTESI
Summary dello Spessore
A nderson-Darling Normality Test
A -Squared
P-Value
Mean
StDev
Variance
Sk ewness
Kurtosis
N
5.7
5.8
5.9
6.0
6.1
6.2
6.3
Minimum
1st Quartile
Median
3rd Quartile
Maximum
6.4
0.56
0.137
5.9913
0.1412
0.0199
0.638190
0.953411
30
5.6900
5.8900
5.9750
6.0450
6.3700
95% C onfidence Interv al for Mean
5.9386
6.0441
95% C onfidence Interval for Median
9 5 % C onfidence Inter vals
5.9046
Mean
6.0277
95% C onfidence Interv al for StDev
0.1125
Median
5.900
5.925
5.950
5.975
6.000
6.025
0.1898
6.050
ELEMENTI DI STATISTICA DESCRITTIVA
30
INDICI STATISTICI DI SINTESI
Summary for Indice di rimbalzo
Colonna = A
A nderson-Darling Normality Test
A -Squared
P-Value
Mean
StDev
Variance
Sk ewness
Kurtosis
N
22
24
26
28
30
32
Minimum
1st Quartile
Median
3rd Quartile
Maximum
34
0.17
0.912
30.500
2.838
8.056
0.091120
-0.761950
10
26.000
28.000
30.500
32.500
35.000
95% C onfidence Interval for Mean
28.470
9 5 % Confidence Inter vals
32.530
95% C onfidence Interv al for Median
Mean
28.000
Median
32.685
Summary for Indice di rimbalzo
95% C onfidence Interval for StDev
28
29
30
31
32
1.952
33
Colonna = B
5.182
A nderson-Darling Normality Test
A-Squared
P-Value
Mean
StDev
Variance
Sk ewness
Kurtosis
N
22
24
26
28
30
32
Minimum
1st Quartile
Median
3rd Quartile
Maximum
34
0.24
0.682
27.500
3.689
13.611
0.08298
-1.24255
10
22.000
24.000
27.000
30.500
33.000
95% C onfidence Interval for Mean
24.861
9 5 % Confidence Inter vals
30.139
95% C onfidence Interv al for Median
Mean
24.000
Median
30.685
95% C onfidence Interval for StDev
24.0
25.5
27.0
28.5
30.0
31.5
2.538
6.735
ELEMENTI DI STATISTICA DESCRITTIVA
31
CONFRONTO TRA INDICI STATISTICI
L’informazione che si può desumere dagli indici statistici di
sintesi può essere particolarmente apprezzata in caso di
comparazione tra più serie di dati, come risulta chiaramente
dall’esempio tensione di rottura di barre d’acciaio di 3
differenti diametri.
Spessore
12
14
16
Spessore
12
14
16
Indice di posizione
Media
Mediana
589.25
587.5
595.13
596
610.88
612
Skewness
0.24
-0.02
-0.19
Indice di variabilità
Dev.std
IQR
27.7
50.25
14.4
25.75
14.9
30.75
ELEMENTI DI STATISTICA DESCRITTIVA
32
STATISTICA DESCRITTIVA PER SERIE TEMPORALI
Spostiamo ora l’attenzione su alcune tecniche descrittive
utilizzate per
identificare eventuali pattern nei dati
provenienti da serie temporali, ovvero sequenze di misure
di uno stesso fenomeno/variabile di interesse e che
seguono prefissato ordine non casuale (es. il livello delle
piogge, maree, la pendenza di un campanile, ecc. misurate
ad intervalli di ogni ora, giorno, ecc.).
A differenza delle analisi dei campioni di dati che sono
discussi nel contesto della maggior parte delle tecniche
statistiche descrittive, l'analisi delle serie temporali si basa
sul presupposto che i valori successivi nel set di dati
rappresentano delle misurazioni, rilevate successivamente
una altra in una ben determinata sequenza e ad intervalli di
tempo equidistanti.
ELEMENTI DI STATISTICA DESCRITTIVA
33
STATISTICA DESCRITTIVA PER SERIE TEMPORALI
Ci sono due obiettivi principali nell’analisi delle serie
temporali:
1. Identificare la natura del fenomeno rappresentato dalla
sequenza di osservazioni, e
2. Forecasting: prevedere valori futuri della serie temporale
Entrambi questi obiettivi richiedono che un modello
esplicativo alla base dei dati della serie temporale osservata
sia identificato e descritto più o meno formalmente. Una
volta che il modello viene stabilito, siamo in grado di
interpretare e integrare con altri dati, con l'obiettivo di
estrapolare il modello individuato per predire eventi futuri.
Dal punto di vista descrittivo questo può essere fatto
mediante un approccio di tipo grafico e per mezzo di due
strumenti: trend analysis e smoothing.
ELEMENTI DI STATISTICA DESCRITTIVA
34
STATISTICA DESCRITTIVA PER SERIE TEMPORALI
Trend Analysis Plot della Precipitazione annua (Grandi Laghi)
Quadratic Trend Model
Yt = 31.0169 - 0.0235468*t + 0.000777357*t**2
Variable
A ctual
Fits
40.0
A ccuracy
MA PE
MA D
MSD
35.0
Measures
6.04344
1.92261
5.85462
mediante trend
quadratico
32.5
30.0
27.5
25.0
1900 1908
1917
1926
1935
1944
1953
1962
1971
1980
Anno
Smoothing Esponenziale Precipitazione annua (Grandi Laghi)
Variable
A ctual
Fits
40.0
37.5
Lisciamento mediante
smoothing
Precipitazione
Precipitazione
37.5
Trend analysis
Smoothing C onstant
A lpha
0.104448
A ccuracy
MA PE
MA D
MSD
35.0
32.5
Measures
6.21611
2.00235
6.55249
30.0
27.5
25.0
esponenziale
1900 1908
1917
1926
1935
1944
1953
1962
1971
1980
Anno
ELEMENTI DI STATISTICA DESCRITTIVA
35
STATISTICA DESCRITTIVA PER DATI BI- o MULTI-VARIATI
Quando sulla stessa unità od oggetto vengono rilevati
contemporaneamente due o più variabili numeriche, si parla
di dati bi- o multi-variati. In questo caso può essere di
interesse studiare il modo in cui queste variabili sono
eventualmente legate tra loro.
Ad esempio possiamo considerare la Resistenza a
compressione (Rc), la Prova di compressione edometrica
(Ed) e la Resistenza a trazione indiretta (Rt) misurate sugli
stessi provini, ottenuti da scarti provenienti da lavorazioni
siderurgiche per la realizzazione di rilevati stradali.
Il diagramma di dispersione per una coppia di variabili
numeriche X e Y, può fornire una prima chiave di lettura
dell’eventuale legame esistente tra le variabili. Infatti, a
seconda di come si dispone la “nuvola” di punti, possiamo
ritenere plausibile un eventuale legame tra le due variabili.
ELEMENTI DI STATISTICA DESCRITTIVA
36
MATRIX PLOT
Se consideriamo una serie di diagrammi di dispersione per
ogni possibile coppia di variabili, otteniamo il cosiddetto
matrix-plot, che può fornire una prima chiave lettura del
legame esistente tra le variabili.
Possiamo dedurre alcune chiare indicazioni:
0
10000
20000
4
8
12
10.0
7.5
Rc
5.0
2000
1000
Ed
0
Matrix Plot di Rc; Ed; Rt
Rt
1. tutte le tre misure
prestazionali sono
correlate
positivamente,
2. il legame più forte si
osserva tra Rt e Ed
mentre quello più
debole tra Ed e Rc.
ELEMENTI DI STATISTICA DESCRITTIVA
37
IL COEFFICIENTE DI CORRELAZIONE
Un modalità più rigorosa che consente di studiare il grado di
intensità del legame lineare tra coppie di variabili consiste
nel calcolare l’indice di correlazione (lineare) campionaria:
n
r=
∑ ( x − x )( y − y )
i =1
i
i
n
∑ (x − x )
i =1
i
2
⋅
n
∑ ( y − y)
i =1
2
Ed
Rt
Rc
0.45
0.82
Ed
0.65
i
La correlazione, varia tra -1 e +1, indicando
¾ r = − 1 (+1): perfetta correlazione negativa (positiva)
¾ − 1 < r < − 0.7 (+ 1 < r < + 0.7):
forte correlazione negativa (positiva)
¾ − 0.7 < r < − 0.3 (+ 0.7 < r < + 0.3):
debole correlazione negativa (positiva)
¾ − 0.3 < r < + 0.3: assenza di correlazione
ELEMENTI DI STATISTICA DESCRITTIVA
38