Statistica descrittiva - Indici di posizione, variabilità, ecc.

Statistica descrittiva
Indici di posizione, variabilità, ecc.
Francesco Pauli
a.a. 2016/2017
Francesco Pauli
Descrittiva
a.a. 2016/2017
1 / 70
Misure di posizione
Indice
1
Misure di posizione
Calcolo delle misure di posizione
2
Variabilità
3
Forma di una distribuzione
Francesco Pauli
Descrittiva
a.a. 2016/2017
2 / 70
Misure di posizione
Diagramma a punti (dot plot)
Esempio:Ore di studio per settimana.
1
20
40
60
70
Ore di studio settimanali
Come descrivereste questa distribuzione? In particolare, intorno a quale valore possiamo
dire che è posizionata la distribuzione? In altre parole, dove è il centro della distribuzione?
Francesco Pauli
Descrittiva
a.a. 2016/2017
3 / 70
Misure di posizione
“Posizione” della distribuzione
La domanda precedente ci chiede di sintetizzare la distribuzione in un
unico numero che, in qualche modo, indichi dove la distribuzione stessa è
“posizionata”.
Si potrebbe dire che la distribuzione è posizionata sul valore che compare
più frequentemente.
1
20
40
60
70
Ore di studio settimanali
Questo valore è chiamato moda della distribuzione.
Francesco Pauli
Descrittiva
a.a. 2016/2017
4 / 70
Misure di posizione
Misure di posizione: la moda
La moda di una distribuzione è il valore del supporto cui è associata la più
grande frequenza relativa.
La moda esprime la modalità più comune.
È definita anche per variabili qualitative (lo ricorderemo a tempo
debito).
Francesco Pauli
Descrittiva
a.a. 2016/2017
5 / 70
Misure di posizione
Misure di posizione (cont)
Ma il centro di una distribuzione potrebbe anche essere pensato come quel
valore che lascia alla sua destra ed alla sua sinistra esattamente il 50%
delle osservazioni.
1
7
12
20
28
70
Francesco Pauli
2
7
13
20
30
2
7
14
20
30
3
8
14
20
30
4
10
15
21
35
5
10
15
24
35
Descrittiva
5
11
18
25
35
5
12
18
25
40
6
12
20
25
42
7
12
20
28
50
a.a. 2016/2017
6 / 70
Misure di posizione
Misure di posizione (cont)
Ma il centro di una distribuzione potrebbe anche essere pensato come quel
valore che lascia alla sua destra ed alla sua sinistra esattamente il 50%
delle osservazioni.
1
20
40
60
70
Ore di studio settimanali
Francesco Pauli
Descrittiva
a.a. 2016/2017
6 / 70
Misure di posizione
Misure di posizione: la mediana
Sia y1 , y2 , · · · , yN una distribuzione statistica disaggregata.
Sia y(1) , y(2) , · · · , y(N) la corrispondente distribuzione dei valori ordinati:
y(1) = min(y1 , . . . , yN ),
y(N) = max(y1 , . . . , yN );
y(1) ≤ y(2) ≤ . . . ≤ y(N) .
La mediana, indicata con m, è calcolata come:
m=

y N+1


 ( 2 )
se N dispari


 y( N2 ) +y( N2 +1)
2
se N pari
La mediana è un particolare quantile.
Francesco Pauli
Descrittiva
a.a. 2016/2017
7 / 70
Misure di posizione
Quantili
Il quantile di livello α, indicato con qα , definito per 0 ≤ α ≤ 1, è quel
valore che lascia alla sua sinistra una frazione α% dei dati qα e una
frazione (1 − α)% alla sua destra.
La mediana, quindi, è il quantile di livello 0.5, cioè m = q0.5 .
Tra i quantili diversi dalla mediana, q0.25 e q0.75 sono i più usati,
perché basati su una divisione in quarti del campione. Sono chiamati
primo quartile e terzo quartile, rispettivamente (la mediana è, di
fatto, il secondo quartile).
Francesco Pauli
Descrittiva
a.a. 2016/2017
8 / 70
Misure di posizione
Esempio: altezza
Si calcolino q0.25 , m e q0.75 per la variabile altezza.
•
Partiamo dai dati grezzi.
180
176
187
178
175
173
173
181
182
180
160
164
170 168
185 188
175 183
160 174
180 176
NA 176
Francesco Pauli
172
180
166
180
178
185
173
186
184
164
175
170
190
183
177
170
187
181
180
170
176
165
185
175
184
Descrittiva
183
190
170
182
173
a.a. 2016/2017
9 / 70
Misure di posizione
Esempio: altezza
Ordinando i valori in senso crescente, abbiamo
160
170
175
180
183
188
160
170
175
180
183
190
164
172
176
180
184
190
164
173
176
180
184
165
173
176
180
185
166
173
176
181
185
168
173
177
181
185
170
174
178
182
186
170
175
178
182
187
170
175
180
183
187
•
Francesco Pauli
Descrittiva
a.a. 2016/2017
10 / 70
Misure di posizione
Esempio: altezza
Ordinando i valori in senso crescente, abbiamo
160
170
175
180
183
188
160
170
175
180
183
190
164
172
176
180
184
190
164
173
176
180
184
165
173
176
180
185
166
173
176
181
185
168
173
177
181
185
170
174
178
182
186
170
175
178
182
187
170
175
180
183
187
Abbiamo N = 53. Quindi m = y(27) = 177.
•
Francesco Pauli
Descrittiva
a.a. 2016/2017
10 / 70
Misure di posizione
Esempio: altezza
Ordinando i valori in senso crescente, abbiamo
160
170
175
180
183
188
160
170
175
180
183
190
164
172
176
180
184
190
164
173
176
180
184
165
173
176
180
185
166
173
176
181
185
168
173
177
181
185
170
174
178
182
186
170
175
178
182
187
170
175
180
183
187
Abbiamo N = 53. Quindi m = y(27) = 177.
•
q0.25 è di fatto la mediana di y(1) , y(2) , · · · , y(27) cioè è y(14) = 173.
Francesco Pauli
Descrittiva
a.a. 2016/2017
10 / 70
Misure di posizione
Ancora sui diagrammi a punti
A volte, invece che mettere i punti uno sopra l’altro (Stacked dot plot), si
usano i colori per evidenziare le zone dove si concentrano più osservazioni,
stabilendo ovviamente una legenda per l’interpretazione del colore. Per
esempio, decidendo che colori via via più scuri rappresentano frequenze via
via più elevate di osservazioni, otteniamo la seguente rappresentazione
degli stessi dati.
0
10
20
30
40
50
60
70
Ore di studio settimanali
Convinciamoci che la lettura del grafico non cambia.
Francesco Pauli
Descrittiva
a.a. 2016/2017
11 / 70
Misure di posizione
Misure di posizione (cont)
Ad occhio, su questo grafico, verrebbe da dire che il centro è:
0
10
20
30
40
50
60
70
Ore di studio settimanali
Francesco Pauli
Descrittiva
a.a. 2016/2017
12 / 70
Misure di posizione
Misure di posizione (cont)
Ad occhio, su questo grafico, verrebbe da dire che il centro è:
0
10
20
30
40
50
60
70
Ore di studio settimanali
Il valore evidenziato è il valore 18.58.
Non è un valore tanto ad occhio... in realtà, è la media aritmetica dei
nostri dati.
Francesco Pauli
Descrittiva
a.a. 2016/2017
12 / 70
Misure di posizione
Misure di posizione: la media aritmetica
La media aritmetica, indicata con ȳ , è calcolata come:
N
y1 + y2 + · · · + yN
1 X
ȳ =
=
yi ,
N
N
i=1
dove (y1 , y2 , · · · , yN ) rappresenta il campione di N valori osservati per
Y.
Esistono altri tipi di “medie”. Quella aritmetica è senza dubbio quella
di utilizzo più comune. Per questo motivo, viene comunemente
indicata come “la media” senza nessuna ulteriore aggettivazione.
Francesco Pauli
Descrittiva
a.a. 2016/2017
13 / 70
Misure di posizione
Esempio: altezze
Si calcoli la media delle altezze.
Partiamo dai dati grezzi.
180
176
187
178
175
173
173
181
182
180
160
164
170 168
185 188
175 183
160 174
180 176
NA 176
Francesco Pauli
172
180
166
180
178
185
173
186
184
164
175
170
190
183
177
170
187
181
180
170
176
165
185
175
184
Descrittiva
183
190
170
182
173
a.a. 2016/2017
14 / 70
Misure di posizione
Esempio: altezze
Si calcoli la media delle altezze.
Partiamo dai dati grezzi.
180
176
187
178
175
173
173
181
182
180
160
164
170 168
185 188
175 183
160 174
180 176
NA 176
172
180
166
180
178
185
173
186
184
164
175
170
190
183
177
170
187
181
180
170
176
165
185
175
184
183
190
170
182
173
Abbiamo N = 53 (escludiamo il valore mancante). Quindi:
N
N
1 X
1 X
9378
yi =
y(i) =
= 177.
N
N
53
i=1
Francesco Pauli
i=1
Descrittiva
a.a. 2016/2017
14 / 70
Misure di posizione
Riassumendo
La moda, mediana e la media aritmetica sono tutte misure di
posizione.
Se lavoriamo sull’intera popolazione (abbiamo cioè un censimento), le
misure vengono chiamate di popolazione (è tradizione indicarle con
simboli diversi, spesso lettere greche). Come abbiamo detto, è raro
lavorare con l’intera popolazione.
Se lavoriamo con un campione, come è quasi sempre il caso, le misure
vengono dette campionarie. Se il campione è rappresentativo, in
generale le misure campionarie sono buone “indicazioni” delle misure
calcolate sulla intera popolazione.
Francesco Pauli
Descrittiva
a.a. 2016/2017
15 / 70
Misure di posizione
NB: misure marginali e condizionate
Le misure di posizione per variabili condizionate vengono, per semplicità,
etichettate come misure di posizione condizionate, per distinguerle dalle misure di
posizione calcolate sulla variabile non condizionata, ovvero marginale.
Esempio: altezze
Sia Y l’altezza e X il genere (con valori M e F ). Possiamo calcolare misure di
posizione dell’altezza condizionata al genere e misure marginali
Mediana di Y |X = M −→
Media di Y |X = M −→
Mediana di Y |X = F −→
Media di Y |X = F −→
Mediana di Y −→
Media di Y −→
Francesco Pauli
180.5 (mediana condizionata)
180.1 (media condizionata)
172 (mediana condizionata)
171.2 (media condizionata)
177 (mediana marginale)
176.9 (media marginale)
Descrittiva
a.a. 2016/2017
16 / 70
Misure di posizione
Calcolo delle misure di posizione
Indice
1
Misure di posizione
Calcolo delle misure di posizione
2
Variabilità
3
Forma di una distribuzione
Francesco Pauli
Descrittiva
a.a. 2016/2017
17 / 70
Misure di posizione
Calcolo delle misure di posizione
Qualche formula
Fino ad ora, abbiamo introdotto alcune formule per il calcolo delle misure
di posizione, immaginando di avere a disposizione i dati grezzi (ovvero la
distribuzione statistica disaggregata).
•
A volte, anche partendo dai dati grezzi, possono esserci delle ambiguità nel
calcolo delle misure (o indicatori). Più in generale, i dati possono essere
forniti in forma aggregata.
•
Ora vedremo cosa fare in questi casi.
Francesco Pauli
Descrittiva
a.a. 2016/2017
18 / 70
Misure di posizione
Calcolo delle misure di posizione
Mediana: distribuzione di frequenza per classi
Supponiamo di avere la seguente distribuzione di frequenza:
frequenze assolute
(0, 1]
1
(1, 2]
4
(2, 3]
4
(3, 4]
2
(4, 5]
1
I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a
osservazione dal basso. Risposte possibili.
Francesco Pauli
Descrittiva
a.a. 2016/2017
19 / 70
Misure di posizione
Calcolo delle misure di posizione
Mediana: distribuzione di frequenza per classi
Supponiamo di avere la seguente distribuzione di frequenza:
frequenze assolute
(0, 1]
1
(1, 2]
4
(2, 3]
4
(3, 4]
2
(4, 5]
1
I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a
osservazione dal basso. Risposte possibili.
m ∈ (2, 3].
Francesco Pauli
Descrittiva
a.a. 2016/2017
19 / 70
Misure di posizione
Calcolo delle misure di posizione
Mediana: distribuzione di frequenza per classi
Supponiamo di avere la seguente distribuzione di frequenza:
frequenze assolute
(0, 1]
1
(1, 2]
4
(2, 3]
4
(3, 4]
2
(4, 5]
1
I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a
osservazione dal basso. Risposte possibili.
m ∈ (2, 3].
Supponiamo (arbitrariamente) che i quattro dati appartenenti al terzo
intervallo siano equidistribuiti. Sotto questa assunzione, la mediana è
la media dei valori attribuiti alla 6◦ e alla 7◦ osservazione dal basso.
Francesco Pauli
Descrittiva
a.a. 2016/2017
19 / 70
Misure di posizione
Calcolo delle misure di posizione
Mediana: distribuzione di frequenza per classi
Supponiamo di avere la seguente distribuzione di frequenza:
frequenze assolute
(0, 1]
1
(1, 2]
4
(2, 3]
4
(3, 4]
2
(4, 5]
1
I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a
osservazione dal basso. Risposte possibili.
m ∈ (2, 3].
Supponiamo (arbitrariamente) che i quattro dati appartenenti al terzo
intervallo siano equidistribuiti. Sotto questa assunzione, la mediana è
la media dei valori attribuiti alla 6◦ e alla 7◦ osservazione dal basso.
Sia alora
y(6) = 2.25, y(7) = 2.50, y(8) = 2.75, y(9) = 3.00 −→
m = 2,25+2,50
= 2.375
2
Francesco Pauli
Descrittiva
a.a. 2016/2017
19 / 70
Misure di posizione
Calcolo delle misure di posizione
Mediana: distribuzione di frequenza per classi
Supponiamo di avere la seguente distribuzione di frequenza:
frequenze assolute
(0, 1]
1
(1, 2]
4
(2, 3]
4
(3, 4]
2
(4, 5]
1
I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a
osservazione dal basso. Risposte possibili.
m ∈ (2, 3].
Supponiamo (arbitrariamente) che i quattro dati appartenenti al terzo
intervallo siano equidistribuiti. Sotto questa assunzione, la mediana è
la media dei valori attribuiti alla 6◦ e alla 7◦ osservazione dal basso.
Sia alora
y(6) = 2.25, y(7) = 2.50, y(8) = 2.75, y(9) = 3.00 −→
m = 2,25+2,50
= 2.375
2
y(6) = 2.20, y(7) = 2.40, y(8) = 2.60, y(9) = 2.80 −→
m = 2,20+2,40
= 2.30
2
Francesco Pauli
Descrittiva
a.a. 2016/2017
19 / 70
Misure di posizione
Calcolo delle misure di posizione
Media: distribuzione di frequenza per classi
Supponiamo di avere a disposizione una distribuzione di frequenza per
classi del tipo
intervalli
frequenze assolute
(c0 , c1 ]
n1
(c1 , c2 ]
n2
···
···
(ck−1 , ck ]
nk
dove k indica il numero delle classi. La media non può essere calcolata
esattamente.
Francesco Pauli
Descrittiva
a.a. 2016/2017
20 / 70
Misure di posizione
Calcolo delle misure di posizione
Media: distribuzione di frequenza per classi
Supponiamo di avere a disposizione una distribuzione di frequenza per
classi del tipo
intervalli
frequenze assolute
(c0 , c1 ]
n1
(c1 , c2 ]
n2
···
···
(ck−1 , ck ]
nk
dove k indica il numero delle classi. La media non può essere calcolata
esattamente.
Un’approssimazione spesso usata in questi casi è
Pk
k
1 X
i=1 yi ni
=
yi ni
k
N
X
i=1
ni
i=1
dove yi è il punto centrale della classe i-sima, ovvero
ci−1 + ci
yi =
2
Francesco Pauli
Descrittiva
a.a. 2016/2017
20 / 70
Misure di posizione
Calcolo delle misure di posizione
Esempio: dataset babies
peso
(2400, 2600]
(2600, 2800]
(2800, 3000]
(3000, 3200]
(3200, 3400]
(3400, 3600]
ȳ =
frequenza assoluta
5
5
5
6
5
6
2500 × 5 + 2700 × 5 + 2900 × 5 + 3100 × 6 + 3300 × 5 + 3500 × 6
= 3018.75.
32
La media calcolata a partire dai dati grezzi è ȳ = 3019.875.
Francesco Pauli
Descrittiva
a.a. 2016/2017
21 / 70
Misure di posizione
Calcolo delle misure di posizione
Importante: media aritmetica ponderata
La media aritmetica calcolata per dati raggruppati è un esempio di media
aritmetica ponderata
k
X
yi wi
ȳw =
i=1
k
X
wi
i=1
dove ad ogni modalità yi è assegnato un peso non negativo wi .
Francesco Pauli
Descrittiva
a.a. 2016/2017
22 / 70
Misure di posizione
Calcolo delle misure di posizione
Media marginale e medie condizionate
Possiamo calcolare una media marginale a partire dalle medie condizionate.
Francesco Pauli
Descrittiva
a.a. 2016/2017
23 / 70
Misure di posizione
Calcolo delle misure di posizione
Media marginale e medie condizionate
Possiamo calcolare una media marginale a partire dalle medie condizionate.
Supponiamo di avere N unità statistiche suddivise in L gruppi, secondo le
modalità x1 , . . . xL di una variabile X . Siano Nj , j = 1, . . . , L, il numero di
osservazioni per ogni gruppo. Ovviamente,
N=
L
X
Nj .
j=1
Francesco Pauli
Descrittiva
a.a. 2016/2017
23 / 70
Misure di posizione
Calcolo delle misure di posizione
Media marginale e medie condizionate
Possiamo calcolare una media marginale a partire dalle medie condizionate.
Supponiamo di avere N unità statistiche suddivise in L gruppi, secondo le
modalità x1 , . . . xL di una variabile X . Siano Nj , j = 1, . . . , L, il numero di
osservazioni per ogni gruppo. Ovviamente,
N=
L
X
Nj .
j=1
Indichiamo poi con yi,j l’osservazione i-sima appartenente al gruppo j,
i = 1, . . . , Nj , j = 1, . . . , L.
Francesco Pauli
Descrittiva
a.a. 2016/2017
23 / 70
Misure di posizione
Calcolo delle misure di posizione
Esempio: dataset cholesterol
Y −→ livello di fosfato inorganico (mg/dl) nel plasma
X −→ tipo di paziente, con modalità x1 =OI, x3 =ON, x3 =C
Francesco Pauli
Y |X = x1
2.3
4.1
4.2
4.0
4.6
4.6
3.8
5.2
3.1
3.7
3.8
Y |X = x2
3.0
4.1
3.9
3.1
3.3
2.9
3.3
3.9
N1 = 11
N2 = 8
Descrittiva
Y |X = x3
3.0
2.6
3.1
2.2
2.1
2.4
2.8
3.4
2.9
2.6
3.1
3.2
N3 = 12
a.a. 2016/2017
24 / 70
Misure di posizione
Calcolo delle misure di posizione
Esempio: dataset cholesterol
Y −→ livello di fosfato inorganico (mg/dl) nel plasma
X −→ tipo di paziente, con modalità x1 =OI, x3 =ON, x3 =C
Y |X = x1
2.3
4.1
4.2
4.0
4.6
4.6
3.8
5.2
3.1
3.7
3.8
Y |X = x2
3.0
4.1
3.9
3.1
3.3
2.9
3.3
3.9
N1 = 11
N2 = 8
Y |X = x3
3.0
2.6
3.1
2.2
2.1
2.4
2.8
3.4
2.9
2.6
3.1
3.2
N3 = 12
Abbiamo L = 3 e N = 31.
Francesco Pauli
Descrittiva
a.a. 2016/2017
24 / 70
Misure di posizione
Calcolo delle misure di posizione
Esempio: dataset cholesterol (cont)
Y |X = x1
2.3
4.1
4.2
4.0
4.6
4.6
3.8
5.2
3.1
3.7
3.8
Y |X = x2
3.0
4.1
3.9
3.1
3.3
2.9
3.3
3.9
Francesco Pauli
Y |X = x3
3.0
2.6
3.1
2.2
2.1
2.4
2.8
3.4
2.9
2.6
3.1
3.2
Descrittiva
Y |X = x1
y1,1
y2,1
y3,1
y4,1
y5,1
y6,1
y7,1
y8,1
y9,1
y10,1
y11,1
Y |X = x2
y1,2
y2,2
y3,2
y4,2
y5,2
y6,2
y7,2
y8,2
Y |X = x3
y1,3
y2,3
y3,3
y4,3
y5,3
y6,3
y7,3
y8,3
y9,3
y10,3
y11,3
y12,3
a.a. 2016/2017
25 / 70
Misure di posizione
Calcolo delle misure di posizione
Media marginale e medie condizionate (cont)
Per ogni gruppo j possiamo calcolare la media condizionata
yj =
Nj
1 X
yi,j .
Nj
i=1
Esempio: dataset cholesterol
Y |X = x1
3,945455
Y |X = x2
3,4375
Y |X = x1
y1
Y |X = x3
2,808333
NB. Si noti che
Nj y j =
Nj
X
Y |X = x2
y2
Y |X = x3
y3
yi,j .
i=1
Francesco Pauli
Descrittiva
a.a. 2016/2017
26 / 70
Misure di posizione
Calcolo delle misure di posizione
Media marginale e medie condizionate (cont)
La media marginale, ossia la media di tutte le osservazioni (senza
riferimento al gruppo di appartenenza) è
L Nj
1 XX
yi,j .
y=
N
j=1 i=1
È immediato dimostrare che la media marginale è la media delle medie
condizionate, pesata con la numerosità dei gruppi. Infatti:
Ni
L Nj
L
1 XX
1 X X
y=
yi,j
yi,j =
N
N
j=1 i=1
Francesco Pauli
j=1
Descrittiva
i=1
!
=
L
1 X
Nj y j
N
j=1
a.a. 2016/2017
27 / 70
Variabilità
Indice
1
Misure di posizione
2
Variabilità
Calcolo delle misure di variabilità
3
Forma di una distribuzione
Francesco Pauli
Descrittiva
a.a. 2016/2017
28 / 70
Variabilità
Guardando oltre al centro della distribuzione
Ci interessa avere anche un’idea di quanto diversi siano i valori assunti
dalla variabile, ossia ci interessa avere una idea della variabilità del
carattere.
Francesco Pauli
Descrittiva
a.a. 2016/2017
29 / 70
Variabilità
Guardando oltre al centro della distribuzione
Ci interessa avere anche un’idea di quanto diversi siano i valori assunti
dalla variabile, ossia ci interessa avere una idea della variabilità del
carattere.
Per farlo, possiamo vedere come si muovono le osservazioni intorno al
centro della distribuzione.
Francesco Pauli
Descrittiva
a.a. 2016/2017
29 / 70
Variabilità
Guardando oltre al centro della distribuzione
Ci interessa avere anche un’idea di quanto diversi siano i valori assunti
dalla variabile, ossia ci interessa avere una idea della variabilità del
carattere.
Per farlo, possiamo vedere come si muovono le osservazioni intorno al
centro della distribuzione.
E per fare ciò, possiamo usare l’idea di “distanza”.
Francesco Pauli
Descrittiva
a.a. 2016/2017
29 / 70
Variabilità
Esempio: assenza di variabilità
Se non c’è variabilità, tutte le unità statistiche mostrano la stessa modalità
del carattere.
1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1
Abbiamo
y(1) = 1.1 y(N) = 1.1
q0.25 = 1.1 m = 1.1 q0.75 = 1.1
Misurando distanze dal centro della distribuzione, possiamo costruire
indicatori che valgono 0 in assenza di variabilità.
|yi − m| = |yi − yj | = 0, i, j = 1, . . . , N,
y(N) − m = m − y(1) = 0,
q0.75 − m = m − q0.25 = 0.
Francesco Pauli
Descrittiva
a.a. 2016/2017
30 / 70
Variabilità
Indici elementari di variabilità
y(N) − y(1) è il campo di variazione (range).
q0.75 − q0.25 è la distanza interquartilica (IQR).
Francesco Pauli
Descrittiva
a.a. 2016/2017
31 / 70
Variabilità
Indici elementari di variabilità
y(N) − y(1) è il campo di variazione (range).
q0.75 − q0.25 è la distanza interquartilica (IQR).
Ovviamente, in presenza di variabilità, sia il campo di variazione che la
distanza interquartilica assumono un valore maggiore di zero.
E, in presenza di variabilità, possiamo cercare di rappresentare come
variano le modalità.
Francesco Pauli
Descrittiva
a.a. 2016/2017
31 / 70
Variabilità
Diagramma a scatola con baffi (box and whiskers plot)
Fornisce una idea schematica di un insieme di dati (di una distribuzione)
basata sui quartili.
Francesco Pauli
Descrittiva
a.a. 2016/2017
32 / 70
Variabilità
Diagramma a scatola con baffi (box and whiskers plot)
Fornisce una idea schematica di un insieme di dati (di una distribuzione)
basata sui quartili.
Sono costituiti, come dice il nome, da una scatola e da due baffi costruiti
in accordo al disegno sottostante.
max (y1, …, yn)
3° quartile
mediana
1° quartile
min (y1, …, yn)
Francesco Pauli
Descrittiva
a.a. 2016/2017
32 / 70
Variabilità
Boxplot (cont)
Una variante del diagramma usata frequentemente può essere costruita
come segue:
1
la scatola è costruita come descritto precedentemente a partire dai tre
quartili.
2
i baffi si estendono fino ai dati più lontani che siano però non più
distanti di cost × (scarto interquartile) dalla scatola (non accettiamo
baffi esageratamente lunghi).
3
cost è una costante arbitraria, tipicamente scelta uguale a 1.5.
4
Le osservazioni che sono oltre i baffi sono disegnate opportunamente
sul grafico (ad. esempio utilizzando un pallino).
Francesco Pauli
Descrittiva
a.a. 2016/2017
33 / 70
Variabilità
Esercizio: costruzione di un boxplot
Dati (già ordinati):
1.1 1.3 1.4 1.6 1.8 1.9 2.0 2.5 2.9 3.2 4.1 5.6
Perciò q0.25 = 1.5, m = 1.95, q0.75 = 3.05,
1, 5 × (q0.75 − q0.25 ) = 1.5 × 1.55 = 2.325.
1
scatola: da 1.5 a 3.05 con la mediana indicata da una linea a 1.95;
2
baffo inferiore: fino all’osservazione più bassa tra quelle maggiori di
q0.25 − 2.325 = −0.825, ovvero fino a 1.1;
3
baffo superiore: fino all’osservazione più alta tra quelle minori di
q0.75 + 2.325 = 5.375, ovvero fino a 4.1;
4
sono da disegnare esplicitamente nel diagramma le osservazioni più
piccole di 1.1 o più grandi di 4.375; in questo caso solamente
l’osservazione risultata uguale a 5.6.
Francesco Pauli
Descrittiva
a.a. 2016/2017
34 / 70
Variabilità
1
2
3
4
5
Diagramma a scatola con baffi (esempio precedente)
Francesco Pauli
Descrittiva
a.a. 2016/2017
35 / 70
Variabilità
Diagrammi a scatola con baffi: ore di studio settimanali
1
7
12
20
28
70
Francesco Pauli
2
7
13
20
30
2
7
14
20
30
3
8
14
20
30
4
10
15
21
35
5
10
15
24
35
Descrittiva
5
11
18
25
35
5
12
18
25
40
6
12
20
25
42
7
12
20
28
50
a.a. 2016/2017
36 / 70
Variabilità
Diagrammi a scatola con baffi: ore di studio settimanali
1
7
12
20
28
70
2
7
13
20
30
0
2
7
14
20
30
10
3
8
14
20
30
20
4
10
15
21
35
5
10
15
24
35
30
5
11
18
25
35
40
5
12
18
25
40
50
6
12
20
25
42
60
7
12
20
28
50
70
Ore di studio settimanali
Francesco Pauli
Descrittiva
a.a. 2016/2017
36 / 70
Variabilità
Box plot: anche per variabili condizionate
Esempio: altezze.
Altezze di maschi e femmine
Maschio
Femmina
160
165
170
175
180
185
190
Come descrivereste queste distribuzioni condizionate?
Francesco Pauli
Descrittiva
a.a. 2016/2017
37 / 70
Variabilità
Ancora sulla variabilità
Abbiamo detto che per misurare la variabilità, possiamo utilizzare la
“distanza” delle osservazioni dal centro della distribuzione.
Francesco Pauli
Descrittiva
a.a. 2016/2017
38 / 70
Variabilità
Ancora sulla variabilità
Abbiamo detto che per misurare la variabilità, possiamo utilizzare la
“distanza” delle osservazioni dal centro della distribuzione.
Proviamo a utilizzare la media per caratterizzare il centro della
distribuzione.
Francesco Pauli
Descrittiva
a.a. 2016/2017
38 / 70
Variabilità
Ancora sulla variabilità
Abbiamo detto che per misurare la variabilità, possiamo utilizzare la
“distanza” delle osservazioni dal centro della distribuzione.
Proviamo a utilizzare la media per caratterizzare il centro della
distribuzione.
Siano y = (y1 , . . . , yN ) i dati
P osservati, N il loro numero e y la loro media
aritmetica, ovvero y = N1 N
i=1 yi .
•
La distanza di ogni osservazione yi dalla media y , il cosidetto scarto dalla
media, può essere misurata cosı̀:
|yi − y |.
Francesco Pauli
Descrittiva
a.a. 2016/2017
38 / 70
Variabilità
Ancora sulla variabilità
Abbiamo detto che per misurare la variabilità, possiamo utilizzare la
“distanza” delle osservazioni dal centro della distribuzione.
Proviamo a utilizzare la media per caratterizzare il centro della
distribuzione.
Siano y = (y1 , . . . , yN ) i dati
P osservati, N il loro numero e y la loro media
aritmetica, ovvero y = N1 N
i=1 yi .
•
La distanza di ogni osservazione yi dalla media y , il cosidetto scarto dalla
media, può essere misurata cosı̀:
|yi − y |.
Perché abbiamo bisogno del valore assoluto?
Francesco Pauli
Descrittiva
a.a. 2016/2017
38 / 70
Variabilità
Ancora sulla variabilità (cont)
È ancora meglio se consideriamo lo scarto al quadrato:
(yi − y )2 .
Perché il quadrato?
Francesco Pauli
Descrittiva
a.a. 2016/2017
39 / 70
Variabilità
Ancora sulla variabilità (cont)
È ancora meglio se consideriamo lo scarto al quadrato:
(yi − y )2 .
Perché il quadrato?
Perché il quadrato “amplifica” le distanze grandi e “attenua” quelle
piccole.
Esempio: 102 = 100, 0.12 = 0.01.
Francesco Pauli
Descrittiva
a.a. 2016/2017
39 / 70
Variabilità
Ancora sulla variabilità (cont)
È ancora meglio se consideriamo lo scarto al quadrato:
(yi − y )2 .
Perché il quadrato?
Perché il quadrato “amplifica” le distanze grandi e “attenua” quelle
piccole.
Esempio: 102 = 100, 0.12 = 0.01.
•
Quindi, per costruire un indice di variabilità, possiamo costruire queste N
quantità (per i = 1, . . . , N) e farne una media.
Francesco Pauli
Descrittiva
a.a. 2016/2017
39 / 70
Variabilità
Varianza
La varianza è la media dei quadrati degli scarti di ogni osservazione dalla
media aritmetica.
PN
(yi − ȳ )2
2
σ = i=1
N
Francesco Pauli
Descrittiva
a.a. 2016/2017
40 / 70
Variabilità
Varianza
La varianza è la media dei quadrati degli scarti di ogni osservazione dalla
media aritmetica.
PN
(yi − ȳ )2
2
σ = i=1
N
Esempio: ore di studio per settimana
La media è ȳ = 18.58 .
La varianza è calcolata come:
σ2 =
(2 − 18.58)2 + (30 − 18.58)2 + · · · + (42 − 18.58)2
= 183.12
51
Francesco Pauli
Descrittiva
a.a. 2016/2017
40 / 70
Variabilità
Deviazione standard
La deviazione standard è la radice quadrata della varianza ed è espressa
nella stessa unità di misura del carattere.
√
σ = σ2
•
La deviazione standard per le ore di studio/settimana degli studenti si
calcola come:
√
σ = 183.12 = 13.53
Francesco Pauli
Descrittiva
a.a. 2016/2017
41 / 70
Variabilità
Devianza
La deviazione standard non deve essere confusa con la devianza, che è la
quantità al numeratore della varianza.
N
X
(yi − ȳ )2
i=1
La devianza rappresenta quindi la somma dei quadrati degli scarti delle
osservazioni dalla propria media.
Francesco Pauli
Descrittiva
a.a. 2016/2017
42 / 70
Variabilità
Varianza campionaria corretta
Quando si lavora con un campione, si utilizza spesso la varianza
campionaria corretta, che differisce dalla varianza campionaria solo per il
denominatore.
PN
(yi − ȳ )2
2
s = i=1
N −1
La ragione della modifica del denominatore è legata a proprietà teoriche di
s 2 che la rendono una misura di variabilità più comoda quando farete
inferenza.
Francesco Pauli
Descrittiva
a.a. 2016/2017
43 / 70
Variabilità
Calcolo delle misure di variabilità
Indice
1
Misure di posizione
2
Variabilità
Calcolo delle misure di variabilità
3
Forma di una distribuzione
Francesco Pauli
Descrittiva
a.a. 2016/2017
44 / 70
Variabilità
Calcolo delle misure di variabilità
Qualche formula
Fino ad ora, abbiamo introdotto alcune formule per il calcolo delle misure
di scala, immaginando di avere a disposizione i dati grezzi (ovvero riferiti
alle singole unità statistiche).
•
A volte, anche partendo dai dati grezzi, possono esserci delle ambiguità nel
calcolo degli indicatori.
Più in generale, i dati possono essere forniti in forma aggregata.
•
Ora vedremo cosa fare in questi casi.
Francesco Pauli
Descrittiva
a.a. 2016/2017
45 / 70
Variabilità
Calcolo delle misure di variabilità
Varianza: una formula operativa
Si osservi che
σ2 =
N
1 X
(yi − y )2 =
N
i=1
=
=
=
Francesco Pauli
N
1X
N
1
N
1
N
i=1
N
X
i=1
N
X
N
yi2 +
i=1
yi2 +
N
1X 2
1X
y −
2y yi =
N
N
Ny 2 2y
−
N
N
i=1
N
X
yi =
i=1
yi2 + y 2 − 2y 2
i=1
Descrittiva
a.a. 2016/2017
46 / 70
Variabilità
Calcolo delle misure di variabilità
Varianza: una formula operativa (cont)
Quindi, possiamo scrivere
σ2 =
N
1 X 2
yi
N
!
− y2
i=1
ovvero
(varianza) =
Francesco Pauli
media dei
quadrati
Descrittiva
−
quadrato della
media
.
a.a. 2016/2017
47 / 70
Variabilità
Calcolo delle misure di variabilità
Formula operativa: esempio di utilizzo
dati: 1, 3, 2, 5.
2 + 5 = 2.75.
media: 1 + 3 +
4
2
2
22 + 52 = 9.75.
media dei quadrati: 1 + 3 +
4
varianza: 9.75 − 2.752 = 2.19.
Francesco Pauli
Descrittiva
a.a. 2016/2017
48 / 70
Variabilità
Calcolo delle misure di variabilità
Varianza: distribuzione di frequenza per classi
Supponiamo di avere a disposizione una distribuzione di frequenza per
classi del tipo
intervalli
frequenze assolute
[c0 , c1 )
n1
[c1 , c2 )
n2
···
···
[ck−1 , ck )
nk
dove k indica il numero degli intervalli.
Francesco Pauli
Descrittiva
a.a. 2016/2017
49 / 70
Variabilità
Calcolo delle misure di variabilità
Varianza: distribuzione di frequenza per classi
Supponiamo di avere a disposizione una distribuzione di frequenza per
classi del tipo
intervalli
frequenze assolute
[c0 , c1 )
n1
[c1 , c2 )
n2
···
···
[ck−1 , ck )
nk
dove k indica il numero degli intervalli.
•
Per il calcolo della varianza, possiamo fare ricorso alla formula operativa
utilizzando la stessa strategia adottata per il calcolo della media da
distribuzioni di frequenza, ovvero utilizzando il punto centrale di ogni
classe per rappresentare i valori della classe stessa.
Francesco Pauli
Descrittiva
a.a. 2016/2017
49 / 70
Variabilità
Calcolo delle misure di variabilità
Esempio: altezze
altezza
(160,170]
(170,175]
(175,180]
(180,190]
frequenza assoluta
10
10
13
18
ȳ = (10 × 165 + 10 × 172.5 + 13 × 177.5 + 18 × 185)/51 = 176.72
N
1 X 2
yi = (10 × 1652 + 10 × 172.52 + 13 × 177.52 + 18 × 1852 )/51 = 31283.21
N i=1
σ 2 = 31283.21 − 176.722 = 53.25
σ = 7.30
Francesco Pauli
Descrittiva
a.a. 2016/2017
50 / 70
Variabilità
Calcolo delle misure di variabilità
Varianza marginale e varianze condizionate
Riprendiamo le nostre N unità statistiche suddivise in L gruppi, secondo le
L modalità di una variabile X (v. dataset cholesterol).
La varianza marginale, ossia la varianza di tutte le osservazioni (senza
riferimento al gruppo di appartenenza) è
L Nj
1 XX
σ =
(yi,j − y )2
N
2
j=1 i=1
Per ogni gruppo definito dalle L modalità di X , possiamo calcolare la
varianza condizionata
σj2
Nj
1 X
=
(yi,j − y j )2 .
Nj
i=1
Francesco Pauli
Descrittiva
a.a. 2016/2017
51 / 70
Variabilità
Calcolo delle misure di variabilità
Varianza marginale e varianze condizionate (cont)
Si dimostra che
L
L
1 X
1 X
2
Nj σ j +
Nj (y j − y )2
σ =
N
N
2
j=1
j=1
Il primo addendo sul lato destro della formula è la media delle varianze
condizionate σj2 pesate con Nj , detta varianza entro i gruppi.
Il secondo addendo è la varianza delle medie condizionate, anche queste
pesate con Nj , detta varianza tra i gruppi.
Francesco Pauli
Descrittiva
a.a. 2016/2017
52 / 70
Variabilità
Calcolo delle misure di variabilità
Varianza marginale e varianze condizionate (cont)
Si dimostra che
L
L
1 X
1 X
2
Nj σ j +
Nj (y j − y )2
σ =
N
N
2
j=1
j=1
Il primo addendo sul lato destro della formula è la media delle varianze
condizionate σj2 pesate con Nj , detta varianza entro i gruppi.
Il secondo addendo è la varianza delle medie condizionate, anche queste
pesate con Nj , detta varianza tra i gruppi.
Questa è chiamata scomposizione della varianza.
Francesco Pauli
Descrittiva
a.a. 2016/2017
52 / 70
Variabilità
Calcolo delle misure di variabilità
Scomposizione della varianza: dimostrazione
σ2
=
Nj
L
1 XX
(yi,j − y )2 =
N j=1 i=1
=
Nj
L
1 XX
[(yi,j − y j ) + (y j − y )]2 =
N j=1 i=1
=
Nj
L
1 XX
[(yi,j − y j )2 + (y j − y )2 + 2(yi,j − y j )(y j − y )] =
N j=1 i=1
=
Nj
L
L
1 X
1 XX
(yi,j − y j )2 +
Nj (y j − y )2 +
N j=1 i=1
N j=1
+
=
Francesco Pauli
Nj
L
X
2 X
(yi,j − y j ) =
(y j − y )
N j=1
i=1
L
L
1 X
1 X
Nj σj2 +
Nj (y j − y )2 .
N j=1
N j=1
Descrittiva
a.a. 2016/2017
53 / 70
Forma di una distribuzione
Indice
1
Misure di posizione
2
Variabilità
3
Forma di una distribuzione
Francesco Pauli
Descrittiva
a.a. 2016/2017
54 / 70
Forma di una distribuzione
Forma di una distribuzione: numero di mode
Francesco Pauli
Descrittiva
Frequency
Frequency
Frequency
Quanti picchi mostra l’istogramma: uno (distribuzione unimodale), molti
(distribuzione bimodale/multimodale), o nessuno (distribuzione uniforme)?
a.a. 2016/2017
55 / 70
Forma di una distribuzione
Forma di una distribuzione: numero di mode
Quanti picchi mostra l’istogramma: uno (distribuzione unimodale), molti
(distribuzione bimodale/multimodale), o nessuno (distribuzione uniforme)?
unimodale
Francesco Pauli
uniforme
bimodale
multimodale
Descrittiva
a.a. 2016/2017
55 / 70
Forma di una distribuzione
Forma della distribuzione: simmetria
Frequency
Frequency
L’istogramma è asimmetrico a destra, asimmetrico a sinistra, o
simmetrico?
La direzione (destra/sinistra) della asimmetria è data dalla posizione della
coda più lunga.
Francesco Pauli
Descrittiva
a.a. 2016/2017
56 / 70
Forma di una distribuzione
Forma della distribuzione: simmetria
L’istogramma è asimmetrico a destra, asimmetrico a sinistra, o
simmetrico?
asimmetria a
destra
asimmetria a
sinistra
simmetria
La direzione (destra/sinistra) della asimmetria è data dalla posizione della
coda più lunga.
Francesco Pauli
Descrittiva
a.a. 2016/2017
56 / 70
Forma di una distribuzione
Simmetria: media vs. mediana
Se la distribuzione è
simmetrica
Se la distribuzione è
asimmetrica a destra
(positiva):
Se la distribuzione è
asimmetrica a sinistra
(negativa):
media ≈ mediana
media > mediana
media < mediana
Francesco Pauli
Descrittiva
a.a. 2016/2017
57 / 70
Forma di una distribuzione
Indice di asimmetria di K. Pearson
La misura di asimmetria di uso più comune è il cosidetto indice di
asimmetria standardizzato, introdotto da K. Pearson e definito come
N
1 X
P=
(yi − y )3 =
Nσ 3
i=1
PN
3
i=1 (yi −y )
N
σ3
.
Interpretazione.
esatta simmetria intorno alla media: i termini positivi e negativi nella
sommatoria si compenseranno tra di loro e quindi l’indice sarà nullo;
asimmetria positiva: i termini positivi predomineranno e quindi
l’indice assumerà valori positivi;
asimmetria negativa: i termini negativi predomineranno e quindi
l’indice assumerà valori negativi.
Francesco Pauli
Descrittiva
a.a. 2016/2017
58 / 70
Forma di una distribuzione
Curtosi
−4
−2
0
2
4
6
Possiamo infine dare una misura del “peso” delle code e
dell’“appuntimento” di una distribuzione, caratteristiche descritte con il
termine curtosi. Può essere infatti che distribuzioni simmetriche abbiamo
comportamenti differenti sulle code.
1
Francesco Pauli
2
Descrittiva
3
a.a. 2016/2017
59 / 70
Forma di una distribuzione
Curtosi (cont)
Il principale indice usato è l’indice di curtosi standardizzato, introdotto da
K. Pearson nel 1894 e definito come
N
1 PN
4
1 X
i=1 (yi − y )
4
N
(y
−
y
)
=
.
i
Nσ 4
σ4
i=1
Francesco Pauli
Descrittiva
a.a. 2016/2017
60 / 70
Forma di una distribuzione
Curtosi (cont)
Il principale indice usato è l’indice di curtosi standardizzato, introdotto da
K. Pearson nel 1894 e definito come
N
1 PN
4
1 X
i=1 (yi − y )
4
N
(y
−
y
)
=
.
i
Nσ 4
σ4
i=1
Questo indice può essere visto come un rapporto tra due indici di
variabilità. L’indice a numeratore (la media delle potenze quarte degli
scarti dalla media aritmetica) è scelto in maniera tale da essere più
sensibile alla presenza di code pesanti dell’indice a denominatore (la
potenza quarta dello scarto quadratico medio).
Francesco Pauli
Descrittiva
a.a. 2016/2017
60 / 70
Forma di una distribuzione
Forma della distribuzione: osservazioni anomale (estreme)
20
15
0
5
10
Frequency
25
30
35
Una osservazione potenzialmente anomala (outlier) è definita come una
osservazione che appare “estrema” rispetto al resto dei dati. In un
boxplot, va oltre i baffi.
Ci sono osservazioni anomale, potenziali outliers?
0
500
1000
1500
2000
2500
3000
3500
ques$AmiciFacebook
Francesco Pauli
Descrittiva
a.a. 2016/2017
61 / 70
Forma di una distribuzione
Osservazioni estreme: esempio
Esempio: reddito annuale di un campione di famiglie.
●
●
●
●
●
●
●
● ●
● ● ●
●●
● ● ●
● ●
● ● ●
● ●●
●
● ● ●
●● ●●●●
● ● ●
●
●
●
● ●
●
● ●
● ●● ● ● ●● ●
● ●
● ●● ● ●
●
●
●
●
●
●
●● ● ● ● ● ● ● ●
● ●
● ● ● ● ● ●● ● ●
● ●●●●● ● ●● ● ● ●
● ● ● ●●● ●● ● ● ●
0e+00
2e+05
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4e+05
●
●
●
●
●
●
●
●
●
●
●
8e+05
1e+06
●
●
●
6e+05
Annual Household Income
Come cambierebbero la mediana, la media, la distanza interquartilica e la deviazione
standard se l’osservazione più elevata fosse $10 milioni? E come cambierebbe se
l’osservazione più piccola fosse spostata a $10 milioni?
Francesco Pauli
Descrittiva
a.a. 2016/2017
62 / 70
Forma di una distribuzione
Osservazioni estreme: esempio (cont)
●
●
●
●
●
●
●
● ●
● ● ●
●●
●
● ●
● ●
● ● ●
● ●●
●
● ● ●
●● ●●●●
●
● ●
●
●
● ●● ●
● ●
● ●● ● ● ●● ●
● ●
● ●● ● ●
●
●
●
●
●
●
●
●● ●
● ●● ● ● ● ●
● ● ● ● ● ●● ● ●
● ●●●●● ● ●● ● ● ●
● ● ● ●●● ●● ● ● ●
0e+00
2e+05
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4e+05
●
●
●
●
●
●
●
●
●
●
●
8e+05
1e+06
●
●
●
6e+05
Annual Household Income
scenario
dati originali
sposta max a $10 milioni
sposta min a $10 milioni
robusto
m
IQR
190K 200K
190K 200K
200K 200K
non robusto
ȳ
σ
245K 226K
309K 853K
316K 854K
Mediana e IQR sono più “stabili” della media e della deviazione standard.
Si dice che sono più “robuste”.
Francesco Pauli
Descrittiva
a.a. 2016/2017
63 / 70
Forma di una distribuzione
Outliers (cont.)
Perché è importante cercare gli outliers?
Francesco Pauli
Descrittiva
a.a. 2016/2017
64 / 70
Forma di una distribuzione
Outliers (cont.)
Perché è importante cercare gli outliers?
Dare una spiegazione a marcate asimmetrie.
Identificare errori nell’imputazione dei dati.
Scoprire cose nuove.
Francesco Pauli
Descrittiva
a.a. 2016/2017
64 / 70
Forma di una distribuzione
Trasformazione logaritmica: esempio degli Amici di
Facebook
0
0
4
10
8
20
Quando i dati sono distribuiti in modo fortemente asimmetrico, una
trasformazione potrebbe consentire di capirne meglio la distribuzione. Una
trasformazione comune è il logaritmo.
0
500
1000
1500
2000
2500
3000
0
2
4
6
8
6
8
4
2
0
0
2
4
6
Maschi
6
Maschi
0
500
1000
1500
2000
2500
3000
0
Femmine
Francesco Pauli
2
4
Femmine
Descrittiva
a.a. 2016/2017
65 / 70
Forma di una distribuzione
Pro e contro
Outliers tendono ad avvicinarsi:
# amici di Facebook
11 589 3025 · · ·
log(# Amici di Facebook) 2.40 6.38 8.01 · · ·
ma i risultati potrebbero essere difficili da interpretare, perché
lavoriamo su una scala (quella logaritmica, nello specifico), che non è
quella naturale;
e, in generale, non è facile ricondurre i risultati di sintesi alla scala
naturale.
Francesco Pauli
Descrittiva
a.a. 2016/2017
66 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
(t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè
ti = log(yi ), i = 1, . . . , N.
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
(t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè
ti = log(yi ), i = 1, . . . , N.
Si ha
ȳ = 572.63
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
(t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè
ti = log(yi ), i = 1, . . . , N.
Si ha
ȳ = 572.63
t̄ = 5.82
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
(t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè
ti = log(yi ), i = 1, . . . , N.
Si ha
ȳ = 572.63
t̄ = 5.82
NB:
ȳ 6= exp(t̄)
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
(t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè
ti = log(yi ), i = 1, . . . , N.
Si ha
ȳ = 572.63
t̄ = 5.82
NB:
ȳ 6= exp(t̄)
t̄ 6= log(ȳ )
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
(t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè
ti = log(yi ), i = 1, . . . , N.
Si ha
ȳ = 572.63
t̄ = 5.82
NB:
ȳ 6= exp(t̄)
t̄ 6= log(ȳ )
Infatti
exp(t̄) = 337
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Pro e contro (cont)
Esempio: Amici di Facebook
(y1 , . . . , yN ) Amici di Facebook
(t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè
ti = log(yi ), i = 1, . . . , N.
Si ha
ȳ = 572.63
t̄ = 5.82
NB:
ȳ 6= exp(t̄)
t̄ 6= log(ȳ )
Infatti
exp(t̄) = 337
log(ȳ ) = 6.35
Francesco Pauli
Descrittiva
a.a. 2016/2017
67 / 70
Forma di una distribuzione
Trasformazioni monotone
La trasformazione logaritmica è una trasformazione strettamente
monotona.
•
Richiamo: una funzione g (x) si dice strettamente monotona in un
intervallo aperto A, se, comunque si scelgano x1 e x2 in A si ha
se x1 < x2 allora g (x1 ) < g (x2 ) (strettamente crescente)
se x1 < x2 allora g (x1 ) > g (x2 ) (strettamente decrescente)
Francesco Pauli
Descrittiva
a.a. 2016/2017
68 / 70
Forma di una distribuzione
Trasformazioni monotone: la trasformazione lineare
Una trasformazione monotona particolarmente importante è la
trasformazione lineare, ovvero la trasformazione del tipo: g (x) = a + bx.
•
Esempio: Temperatura in gradi Farenheit e Celsius.
F = C 1, 8 + 32
Francesco Pauli
Descrittiva
a.a. 2016/2017
69 / 70
Forma di una distribuzione
Trasformazioni lineari: esempio notevole
Standardizzazione
(y1 , . . . , yN ) dati grezzi, con media ȳ e deviazione standard σY
Francesco Pauli
Descrittiva
a.a. 2016/2017
70 / 70
Forma di una distribuzione
Trasformazioni lineari: esempio notevole
Standardizzazione
(y1 , . . . , yN ) dati grezzi, con media ȳ e deviazione standard σY
(z1 , . . . , zN ) dati standardizzati, ottenuti come
zi = a + byi = −
Francesco Pauli
ȳ
1
+
yi .
σY
σY
Descrittiva
a.a. 2016/2017
70 / 70
Forma di una distribuzione
Trasformazioni lineari: esempio notevole
Standardizzazione
(y1 , . . . , yN ) dati grezzi, con media ȳ e deviazione standard σY
(z1 , . . . , zN ) dati standardizzati, ottenuti come
zi = a + byi = −
ȳ
1
+
yi .
σY
σY
•
È facile verificare che la trasformazione può essere scritta anche cosı̀:
zi =
Francesco Pauli
yi − ȳ
.
σY
Descrittiva
a.a. 2016/2017
70 / 70