Elementi di Statistica descrittiva Parte II

Elementi di
Statistica descrittiva
Parte II
1
Nella prima parte di queste note si sono illustrate le tecniche utilizzate per rappresentare i dati,
in maniera sintetica, mediante tabelle e grafici.
Tali tecniche sono applicabili sia a caratteri quantitativi che qualitativi.
Da quanto visto finora, una popolazione (o un campione) è caratterizzata da una distribuzione
di frequenze (a ogni valore distinto corrisponde una frequenza relativa, la somma delle
frequenze relative è sempre 1, ma come sono distribuiti fra le varie frequenze i vari addendi
che sommati danno 1?). Uno dei compiti principali della statistica descrittiva è lo studio delle
distribuzioni.
In questa seconda parte vediamo come sintetizzare, tramite un numero, i dati raccolti: alcune
di queste tecniche possono essere usate solo con caratteri numerici, altre anche con caratteri
qualitativi.
Elementi di Statistica descrittiva – Parte II
Paaina 1
Rappresentazione numerica
Valori di sintesi
Indici di posizione
2
Gli indici di posizione (detti anche medie) servono a individuare un singolo valore
rappresentativo della distribuzione.
Se, come caso limite, tutti i valori fossero uguali fra di loro l’indice di posizione coinciderebbe
con questo unico valore.
Elementi di Statistica descrittiva – Parte II
Paaina 2
Media
Siano u1,u2,…,un osservazioni numeriche, si
definisce media aritmetica o media campionaria
o semplicemente media:
1
u + u 2 + ... + u n
x = 1
=
n
n
1
ui =
n
i =1
n
k
j =1
njxj
Relativamente all’Esempio 1, esprimiamo la media sulle 40 osservazioni
1•1 + 2•6 + 3•10 + … = 154
154/40 = 3,85
3
La funzione MEDIA di Excel fornisce la media.
Oltre alla media aritmetica si definisce anche una media geometrica, che qui non
consideriamo.
Elementi di Statistica descrittiva – Parte II
Paaina 3
Proprietà della media
1
x =
n
n
i =1
ui
La media è sempre compresa fra il minimo e il massimo dei dati,
non è detto che coincida con uno dei dati.
La media della somma di più gruppi di osservazioni è uguale alla
somma delle medie di ciascun gruppo.
Il prodotto di n per la media è uguale alla somma degli n dati.
Chiamando scarto la differenza di un dato dalla media, la somma degli
scarti è nulla.
4
Si dimostra che la media è quel numero c che rende minima la somma (u1-c)2+(u2-c)2
+…+(un-c)2 (somma degli scarti elevati al quadrato).
La media può essere calcolata solo per caratteri quantitativi.
Elementi di Statistica descrittiva – Parte II
Paaina 4
Media approssimata
Se gli n dati osservati sono attribuiti ad una
variabile continua e se si dispone della tabella
relativa ai dati raggruppati, si può dare una
valutazione approssimata della media,
media usando i
valori centrali delle k classi e le frequenze
assolute di ogni classe
k
x =
i= 1
fi x *i
n
5
La media approssimata viene utilizzata quando non si dispone dei dati grezzi, ma dei dati
già raggruppati in classi (come capita spesso con variabili numeriche continue).
x*i è il valore centrale della i-esima classe.
Elementi di Statistica descrittiva – Parte II
Paaina 5
Esempio: media approssimata
x=
classe
fa
17 − 17 . 5
1
17 . 5 − 18
3
18 − 18 . 5
3
18 . 5 − 19
4
19 − 19 . 5
1
19 . 5 − 20
0
20 − 20 . 5
4
20 . 5 − 21
3
21 − 21 . 5
1
tot
20
Relativamente all’Esempio 2, esprimiamo
la media approssimata.
(La media esatta è 19,28).
1⋅ 17.25 + 3 ⋅ 17.75 + 3 ⋅ 18.25 + 4 ⋅ 18.75 + 1.19.25 + 4 ⋅ 20.25 + 3 ⋅ 20.75 + 1⋅ 21.25
= 19.2
20
6
Esempio 2 della parte I.
In questo caso abbiamo la variabile continua fornita raggruppata in classi di ampiezza 0,5.
Il valore esatto 19,28 era stato calcolato utilizzando i dati grezzi (che ora supponiamo di non
avere più a disposizione).
Elementi di Statistica descrittiva – Parte II
Paaina 6
Moda
Siano x1,x2,…,xk k valori osservati caratterizzanti
classi di frequenza di n osservazioni ed f1,f2,…,fk
le relative frequenze, si definisce moda il valore
osservato caratterizzante la classe che
corrisponde alla massima frequenza
La moda può non essere unica.
Se è unica, la distribuzione si dice unimodale.
Se non è unica, la distribuzione si dice bi-, tri,…-modale
classe
Relativamente all’Esempio 1,
la moda è 4 e la distribuzione è
unimodale
fa
1
2
3
1
6
10
4
5
12
6
6
9
tot
4
1
40
7
La scelta del valore più frequente è in alcuni casi più significativa della scelta della media. In
particolare la moda è sempre un valore osservato, la media può non esserlo.
La moda può essere determinata per qualunque tipo di carattere.
Se la distribuzione è suddivisa in classi si ha, invece della moda, una classe modale (classe
in corrispondenza della quala si ha la frequenza massima).
La funzione MODA di Excel fornisce la moda.
Elementi di Statistica descrittiva – Parte II
Paaina 7
Mediana
Siano u1,u2,…,un n valori osservati ordinati in
modo crescente, mediana è il valore osservato
che occupa la posizione centrale, se n è dispari,
oppure la media aritmetica dei due valori
centrali, se n è pari
Relativamente all’Esempio 1,
ordinando i 40 valori osservati
in modo crescente:
1 2 2 2 2 2 2 3 3 3
3 3 3 3 3 3 3 4 4 4
20° valore
21° valore
Otteniamo come mediana
(4+4)/2 = 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 6 9
8
La mediana può essere calcolata per caratteri quantitativi oppure per caratteri qualitativi
ordinabili.
Si dimostra che, nel caso di caratteri quantitativi, la mediana è quel valore c che rende
minima la somma |u1-c|+ |u2-c|+…+|un-c| (somma dei valori assoluti degli scarti).
La funzione MEDIANA di Excel determina la mediana.
Elementi di Statistica descrittiva – Parte II
Paaina 8
Quartili e percentili
Se u1,u2,…,un sono ordinati in modo crescente, si dicono
primo, secondo, terzo quartile (Q1,Q2,Q3) quei tre valori
che dividono l’insieme dei dati in 4 parti uguali.
I quartili sono dei punti di separazione tali che il 25% dei dati è <Q1, il
50% è <Q2, il 75% è <Q3.
Il secondo quartile coincide con la mediana.
I dati sono divisi dai quartili in 4 gruppi contenenti lo stesso numero
di elementi.
Si dice differenza interquartile la differenza Q3 - Q1
Se dividiamo l’insieme ordinato u1,u2,…,un in 100 parti
uguali, i valori di divisione sono detti percentili.
Un centesimo dei dati sono minori del primo percentile,
due centesimi dei dati sono minori del secondo
percentile, ecc.
Il 25° percentile coincide col primo quartile, il 50°
percentile coincide col secondo quartile, il 75° percentile
coincide col terzo quartile.
9
La funzione QUARTILE di Excel determina un quartile. Il primo parametro* richiesto dalla funzione
identifica l’insieme dei dati, il secondo parametro il quartile. Esempio: QUARTILE(C2:C50;3)
determina il 3°quartile dei dati contenuti nelle celle C2:C50.
La funzione PERCENTILE di Excel determina un percentile. Il primo parametro identifica l’insieme
dei dati, il secondo parametro il percentile.
Esempio: PERCENTILE(C2:C50;12) determina il 12°percentile dei dati contenuti nelle celle
C2:C50.
________________________________________________________
(*) NOTE sui parametri delle funzioni Excel.
Un parametro stabilisce un valore di una variabile indipendente e lo passa alla funzione, come
risultato la funzione viene calcolata per quel valore. Il parametro deve essere scritto
immediatamente dopo il nome della funzione racchiuso fra parentesi tonde, non si devono usare
altri tipi di parentesi. Esempio: RADQ(9) calcola la funzione radice quadrata per il valore 9 della
variabile indipendente.
Alcune funzioni possono richiedere più di un parametro. In tal caso i parametri devono essere
separati dal carattere “;”. Esempio: MEDIA(-2;3;1,5) calcola la funzione media per tre valori delle
variabili.
Un parametro può indicare, invece che un numero, una funzione. Esempio: MEDIA(-2;RADQ(9);1,5)
calcola lo stesso valore dell’esempio precedente.
Un parametro può indicare le coordinate di una cella. In tal caso il valore della variabile è il valore
contenuto nella cella. Esempio: MEDIA(-2;B3;1,5) calcola lo stesso valore dell’esempio precedente
se la cella B3 contiene il valore 3.
Un parametro può indicare più valori contenuti in una matrice di celle contigue, che sul foglio di
lavoro determinano un rettangolo. In tal caso il parametro deve indicare i due vertici opposti del
rettangolo. Esempio: MEDIA(C5:E6;8) calcola la media di sette valori: i sei numeri contenuti nella
matrice (2 righe×tre colonne) compresa fra la cella C5 e la cella E6 e il numero 8.
Elementi di Statistica descrittiva – Parte II
Paaina 9
Rappresentazione numerica
Valori di sintesi
Indici di dispersione
10
Gli indici di dispersione servono a descrivere la dispersione della distribuzione, ossia in che
misura i dati sono raggruppati intorno a un indice di posizione.
Elementi di Statistica descrittiva – Parte II
Paaina 10
Varianza
Un indice di dispersione è un valore che in qualche senso
indica come i dati (numerici) osservati si distribuiscono
attorno ad un indice di posizione
Siano u1, u2,…,un osservazioni numeriche, si definisce
varianza la quantità:
σ
2
( u 1 − x ) 2 + ( u 2 − x ) 2 + ... + ( u n − x ) 2
=
n
n
1
σ2 =
( u i − x )2
n i =1
Valori piccoli di varianza indicano che i dati sono
concentrati vicino alla media
11
Nella varianza le differenze vengono elevate al quadrato per evitare che differenze di segno
opposto tendano ad annullarsi reciprocamente. In tal modo le differenze di maggior valore
vengono esaltate.
La varianza può essere calcolata solo per caratteri quantitativi.
Elementi di Statistica descrittiva – Parte II
Paaina 11
Proprietà della varianza
σ
2
1
=
n
n
i =1
( u i − x )2
1. La varianza è non negativa;
2. La varianza è nulla se e solo se lo sono tutti gli scarti,
ossia se tutti gli n valori osservati sono uguali fra loro;
3. Si può dimostrare che:
σ
2
1
=
n
n
i =1
u 2 − ( x )2 = ( x 2 ) − ( x )2
i
12
Elementi di Statistica descrittiva – Parte II
Paaina 12
Deviazione standard
Siano u1, u2,…,un osservazioni numeriche, si definisce
deviazione standard (o scarto quadratico medio):
n
σ =
i =1
( u i − x )2
n
La deviazione standard si esprime con la stessa
unità di misura dei dati osservati.
σ =
σ
2
13
La varianza non ha le stesse dimensioni fisiche della caratteristica in esame.
La deviazione standard, eliminando questo inconveniente, fornisce una grandezza
direttamente confrontabile con la caratteristica.
Elementi di Statistica descrittiva – Parte II
Paaina 13
Esempio: deviazione standard
I seguenti insiemi: (-100,300) e (50,150) hanno la
stessa media 100.
Gli scarti quadratici sono diversi:
σ1 =
( 100 + 100 ) 2 + ( 100 − 300 ) 2
=
2
σ2 =
( 100 − 50 ) 2 + ( 100 − 150 ) 2
=
2
200
2
50 2
Gli scarti quadratici sono: 200 e 50
Ciò significa che i dati del primo insieme sono molto più
dispersi attorno alla media rispetto a quelli del secondo.
-100
0
100
200
300
14
Elementi di Statistica descrittiva – Parte II
Paaina 14
Varianza campionaria
Se il carattere in esame è ottenuto da un campione della
popolazione che si vuole studiare, la varianza usata
finora fornisce una valutazione sottostimata della
varianza della popolazione.
La differenza è tanto più sensibile quanto più piccolo è il
campione.
Per eliminare questa distorsione si moltiplica la varianza
per il rapporto:
n
n −1
Si ottiene così la varianza campionaria:
σ
2
1
=
n−1
n
i =1
( u i − x )2
La varianza campionaria è sempre maggiore della varianza.
Quanto più numeroso è il campione, tanto più varianza e
varianza campionaria si avvicinano.
15
La funzione VAR.POP di Excel determina la varianza.
La funzione DEV.ST.POP di Excel determina la deviazione standard.
La funzione VAR di Excel determina la varianza campionaria.
La funzione DEV.ST di Excel determina la deviazione standard campionaria.
Elementi di Statistica descrittiva – Parte II
Paaina 15
Varianza approssimata
Relativamente all’Esempio 2, esprimiamo la media sulle 20
osservazioni, utilizzando i valori centrali delle classi e le
frequenze: la media è 19.2.
La varianza “approssimata” risulta:
1
σ =
n
2
1
( x i − x ) fi =
n
i=1
n
*
2
n
2
x *i fi − ( x ) 2
i=1
2
2
2
2
2
1
⋅
(
17
.
25
)
+
3
⋅
(
17
.
75
)
+
3
⋅
(
18
.
25
)
+
4
⋅
(
18
.
75
)
+
1
⋅
(
19
.
25
)
+
4
⋅
(
20.25)2 + 3⋅ ( 20.75)2 +1⋅ ( 21.25)2
−(19.2)2 =
σ2 =
20
7402.25
=
−(19.2)2 = 1.4725
20
16
Elementi di Statistica descrittiva – Parte II
Paaina 16
Il grafico a scatola (“box plot”, “box and whiskers”)
max
Valori
anomali
oppure:
1,5(Q3-Q1)
Q3
Mediana
Q3-Q1
Q1
min
1,5(Q3-Q1)
17
Il grafico a scatola, altrimenti detto box plot, è una tipologia di rappresentazione grafica
proposta dallo statistico americano J. W. Tukey; essa si ottiene da una serie di dati, da cui
ricava i dati significativi trascurando quelli non importanti.
Il grafico è costruito nel modo seguente:
La “scatola” è un rettangolo e rappresenta il 50% dei valori. In essa è evidenziato un
valore intermedio di riferimento (di solito la mediana, talvolta la media). Il bordo
superiore rappresenta il terzo quartile (Q3), il bordo inferiore rappresenta il primo
quartile (Q1);
I due “baffi” (whisker) che escono in basso e in alto rappresentano rispettivamente i
valori minori del 1°quartile e maggiori del 3°quartile. min e max sono i valori rilevati
minimo e massimo.
Siccome nei dati grezzi possono essere presenti valori anomali che influiscono sulla
lunghezza dei baffi ma poco sugli altri valori, di solito si preferisce la variante di box plot
rappresentata nella parte destra della figura e che viene costruita come segue:
La lunghezza dei baffi non può superare un certo limite prestabilito (tipicamente 1,5
volte la differenza interquartile);
gli eventuali valori che escono dai baffi vengono evidenziati, uno per uno
singolarmente.
Nell’esempio riportato in figura non c’erano valori anomali inferiori a Q1, quindi il baffo
inferiore non subisce modifiche. Superiormente a Q3 esistono invece due valori anomali che
vengono evidenziati, mentre il baffo superiore viene ridotto di lunghezza, fino al più grande
dei valori regolari.
Elementi di Statistica descrittiva – Parte II
Paaina 17