Descrivere le distribuzioni
Queste funzioni sono la versione continua dell’istogramma (ottenibili con i software di analisi statistica – si veda “stima della densità” o “density
estimation”)
Indici di posizione
centro
Cicchitelli Cap. 4
Coda sinistra
1
L. Grilli - Statistica 2013/2014
Aspetti caratterizzanti le distribuzioni
Coda destra
Aspetti caratterizzanti le distribuzioni
Posizione
Più a sinistra
2
L. Grilli - Statistica 2013/2014
Forma
Più a destra
Asimmetrica
simmetrica
Meno variabile
Variabilità
più variabile
3
L. Grilli - Statistica 2013/2014
Gli indici di posizione: medie
Indici di posizione (o di tendenza centrale)
posizione
variabilità
forma
Indice di posizione: sintesi della distribuzione attraverso un valore rappresentativo. Quali medie sono calcolabili dipende dal tipo di variabile:
Tipo di
variabile
Indici di
posizione
L. Grilli - Statistica 2013/2014
4
L. Grilli - Statistica 2013/2014
Qualitativa
nominale
Qualitativa
ordinale
Quantitativa
5
Moda
Mediana
Media
aritmetica
L. Grilli - Statistica 2013/2014
6
Media aritmetica
Un indice di posizione è solo una sintesi
X v.s. quantitativa
centro
0
25
{x1,x2,…,xN} successione
centro
50
75
100
0
25
50
dispersione
75
stesso centro, dispersione diversa
1
M
N
100
dispersione
esempio
N
x
i 1
i
X: 2 3 2 6 M = (2+3+2+6)/4 = 3.25
Se il carattere è discreto la media, in generale, non appartenere
all’insieme delle modalità (es. numero medio di figli)
MEDIA: CENTRO DELL’INSIEME DEGLI N PUNTI
Se la distribuzione
è bimodale il
centro non è una
buona sintesi della
distribuzione!
x1
0
25
50
75
7
Proprietà della media aritmetica
Internalità (propr. di Cauchy)
Baricentro
N
xmin M xmax
x k
i 1
N
NM xi
i 1
N
2
D(k ) è minimo quando k M
r
i 1
Cr
Centro di ordine 2 (minimi quadrati) N
r
i
Cr : arg min xi Cr
Proprietà delle trasformazioni lineari
D(k ) xi k
8
Il centro di ordine r dell’insieme di punti {x1,x2,…,xN} è il valore che rende minima la distanza di ordine r
Y = a + bX M Y = a + bM X
XN
Distanza di ordine r tra l’insieme di punti {x1,x2,…,xN} e il
punto k
N
( xi M ) 0
Lascia invariato l’ammontare complessivo:
XN-1
L. Grilli - Statistica 2013/2014
Media come ‘centro’
i 1
M
x2
100
L. Grilli - Statistica 2013/2014
Per r =2 C2 = M media aritmetica
Per r =1 C1 = Me mediana
i 1
9
L. Grilli - Statistica 2013/2014
Media aritmetica (distribuzione di frequenze)
10
L. Grilli - Statistica 2013/2014
Due modi di calcolare la media
Distribuzione di frequenze: (xj, nj) j=1,2,…,k
Tabella di frequenza
Mod.tà
Freq.
x1
n1
f1
x2
n2
f2
…
…
…
xj
nj
fj
…
…
…
xk
nk
fk
N
1
Totale
Distribuzione di frequenze
Distribuzione disaggregata
Fr.rel.
39 29 43 52 39 44
40 31 44 35
M
1
N
k
L. Grilli - Statistica 2013/2014
1
k
x n x
j 1
29 31 35 39 40 43 44 52
j
j
j 1
j
fj
M
11
39 29 43
39.6
10
M
1
1
2
1
1
2
1
29 1 311 35 1 39 2
39.6
10
M 29
1
1
1
2
31 35 39 39.6
10
10
10
10
L. Grilli - Statistica 2013/2014
12
Media aritmetica (dati raggruppati)
Media ponderata
Seriazione: ((xj-1; xj), nj) j=1,2,…,k
Tabella di frequenza
Mod.tà
Freq.
Fr.rel.
x0-x1
n1
f1
x1-x2
n2
f2
…
…
…
xj-1-xj
nj
fj
…
…
…
xk-1-xk
nk
fk
N
1
Totale
La media pesata (o ponderata) è n
Ipotesi istogramma: equi‐distribuzione delle frequenze all’interno delle classi
Mw
cj= (xj+ xj-1 )/2
k
k
c n c
j 1
j
j
j 1
n
w
i xi
i 1 wTOT
i i
i 1
wTOT
n
dove wTOT wi
i 1
wi è il peso assegnato alla i‐ma osservazione
Valore centrale di classe:
1
M
N
w x
j
fj
Il peso w può essere la frequenza (dati in forma di tabella di frequenza) oppure il peso w può indicare l’importanza del valore (es. media del voto degli esami pesata con i crediti)
Gli indici dei prezzi sono speciali medie ponderate, in cui x è il prezzo del bene e w è la quantità scambiata
13
L. Grilli - Statistica 2013/2014
14
L. Grilli - Statistica 2013/2014
La moda
Moda e massimi locali
Moda: modalità cui corrisponde la frequenza più alta
La moda può essere fuorviante se la
distribuzione ha massimi locali
Frequenza modale = 37
Alberghi di Assisi per categoria
40
35
30
25
freq 20
15
10
5
0
1 stella
2 stelle
3 stelle
4 stelle
categoria
Attenzione: Nei dati raggruppati la moda è la classe cui corrisponde la densità più alta (può essere diversa dalla classe con la frequenza più alta nel caso di classi con ampiezza variabile)
0
1
2
3
4
5
6
7
8
0
2
4
6
8
10
12
Moda = ‘2 stelle’
L. Grilli - Statistica 2013/2014
15
L. Grilli - Statistica 2013/2014
16