Lucidi 5 - Università degli Studi di Messina

annuncio pubblicitario
Misure di posizione
Gli indici di posizione servono per individuare
la tendenza centrale del fenomeno studiato.
I più utilizzati sono:
Moda
Mediana
Quartili, percentili,…
1
Moda
La moda, detta anche “norma”, è il valore a cui corrisponde la
massima frequenza assoluta o relativa.
Nel caso di caratteri continui e per distribuzioni fornite per classi di
ampiezza, il calcolo della moda avviene mediante l’individuazione
della classe modale, cioè quella caratterizzata dalla massima
frequenza. Se le classi non sono equi-ampie è bene dividere la
frequenza assoluta di ogni classe per l’ampiezza dell’intervallo
ottenendo la cosiddetta “densità di frequenza”. La classe modale è
quella con la densità di frequenza più alta.
Oltre alle distribuzioni di frequenza che hanno una sola moda dette
unimodali, si trovano distribuzioni di frequenza che presentano due
o più mode; denominate, rispettivamente, distribuzioni bimodali o
plurimodali.
2
Moda: vantaggi
La moda è un indice di posizione di immediata determinazione e
ben interpretabile nei termini del problema perché, a differenza
delle medie analitiche, è sicuramente un valore tra quelli.
Il calcolo della moda presenta due vantaggi principali:
1. È l’unica media che si riesce a valutare nel caso di caratteri
qualitativi
2. È la sola misura rilevante per certi tipi di problemi come ad es. la
taglia dei vestiti.
3
Moda: svantaggi
La moda presenta anche degli inconvenienti:
• Non è rappresentativa della popolazione in esame se due o più modalità,
anche distanti tra loro, presentano frequenze simili, la determinazione di
una fra loro può dipendere solo da qualche osservazione. Ad es. la moda del
numero di componenti per famiglia in molte regioni d’Italia è la stessa anche se vi
è una posizione differente tra la distribuzione delle famiglie nelle varie regioni,
essendo noto che quelle meridionali sono tendenzialmente più numerose di quelle
settentrionali.
• Ha un comportamento atipico rispetto ad altri indici di posizione, nel senso
che non rispetta il principio di monotonicità. Infatti se alla distribuzione di
una variabile si sostituiscono valori maggiori o minori di un indice di
posizione, logica vorrebbe che l’indice muti nella stessa direzione; la
moda non rispetta sempre questo principio.
• È meno stabile e meno oggettiva delle altre misure di tendenze centrale.
Può, infatti, differire nella stessa serie di dati, quando si formano classi di
4
distribuzione con ampiezza differente.
Esempio
• Determinare la moda della distribuzione “Gruppo sanguigno”
Gruppo sanguigno frequenze
A
34
B
19
AB
27
0
39
La moda (Mo) è il gruppo sanguigno 0
• Determinare la moda della distribuzione di unità commerciali nel comune
di Messina secondo il numero degli addetti (classe chiusa)
Addetti Frequenze (U.C.)
Di
di
1-2
20
2
20/2=10
3-5
80
3
80/3=26.6
6-10
120
5
24
11-20
105
10
10.5
21-30
70
10
7
La classe modale è la classe
chiusa 3-5
5
Distribuzione
Unimodale
Bimodale
160
140
120
100
80
60
40
20
0
6
Mediana
È la modalità statistica che occupa la posizione centrale di una
successione ordinata delle osservazioni.
Caratteristiche:
•è calcolata sul numero di osservazioni;
•ogni valore estratto a caso ha la stessa probabilità di essere
inferiore o superiore alla mediana.
•Non è influenzata dagli outliers
•Non è influenzata dai valori estremi
7
Mediana: Come si calcola?
Per variabili discrete:
•Si dispongono i valori in una serie ordinata in modo crescente o
decrescente e si conta il numero totale n di dati:
•se n è dispari, la mediana corrisponde al valore numerico del dato che
occupa la posizione (n+1)/2;
•se n è pari, la mediana è calcolata come la media aritmetica dei valori
che occupano le posizioni (n/2) e (n/2)+1 .
Per variabili continue:
Il raggruppamento in classi delle modalità consente al più di
determinare la classe mediana nella quale ricade l’unità statistica che
bipartisce la distribuzione ordinata delle modalità.
8
Mediana: proprietà
• Il numero degli scarti (xi - Me) positivi è esattamente uguale al
numero degli scarti negativi
• La mediana si può definire come il centro di grado 1. È cioè
quel valore che minimizza:
N
 xi  Me
i 1
Si può dimostrare che se il minimo è unico esso coincide con la
mediana; altrimenti ogni punto dell’intervallo mediano
minimizza l’espressione precedente
9
Esempio
Calcolare la media e la mediana di una serie di 6 dati
(10,1; 10,8; 13,1; 13,9; 14,2; 14,5; )
e rappresentarle graficamente.
la media è 12,85
la mediana, essendo n pari, è data dalla media aritmetica dei valori
che occupano le posizioni 3 e 4 quindi sarà:
13.1  13.9
Me 
 13.5
2
10
Esempio
In un campione di 131 pazienti affetti da cirrosi è stato rilevato il
numero di complicanze rilevate. I dati sono stati organizzati nella
seguente distribuzione di frequenza:
Complicanze
ni
Freq.% Freq.cum. Freq.cum%
0
5
4
5
4
1
17
13
22
17
2
24
18
46
35
3
28
21
74
56
4
35
27
109
83
5
22
17
131
100
Totale
131
100
→ mediana 3 complicanze
N=131 dispari per cui la mediana corrisponderà al valore che occupa la
posizione:
131  1
2
 66
11
Esempio Classe Mediana
Si consideri il peso di 59 cani raggruppato in classi di
frequenza:
Peso
N° cani (ni)
Freq.%
Freq. cum.
Freq.cum%
6-14
15
25.4
15
25.4
15-19
24
40.7
39
66.1
20-24
13
22.0
52
88.1
25
7
11.9
59
100
Totale
59
100
Classe mediana
La mediana è il valore che occupa il posto (59+1)/2=30.
La classe che contiene la 30° osservazione è quella 15-19;
In maniera più immediata è la prima modalità cui corrisponde una freq.
cum. percentuale uguale o maggiore del 50%
12
Quartili, Percentili,…
Che cosa sono?
Sono ottenuti estendendo la definizione di mediana; suddividendo in
quattro gruppi di pari numerosità la popolazione di n unità, risulterà
che tra il minimo delle osservazioni e un valore Q1, vi sono n/4 unità,
come pure tra Q1 e Q2, tra Q2 e un valore Q3 ed il massimo.
È possibile estendere tale concetto a quello di decili, percentili e
quantili.
Come si calcolano?
•Si ordinano in modo crescente i dati;
•Si determina il prodotto np dove n è il numero tot. delle
osservazioni e p la proporzione di casi inferiore al quantile;
• se il prodotto non è un intero, si arrotonda per eccesso;
•se è intero si calcola la media tra il valore che occupa tale
posizione e quello di posto successivo.
13
Esempio
• Supponiamo di voler calcolare i quartili relativi alla valutazione della
qualità delle acque del lago di Ganzirri in base del numero di
coliformi fecali presenti. Dall’osservazione sono risultati i seguenti
dati :
8, 37, 23, 10, 16, 36, 18, 32, 25, 30
Come prima cosa è necessario ordinare in senso crescente i dati:
1°
2°
3°
4°
5°
6°
7°
8°
9°
10°
8
10
16
18
23
25
30
32
36
37
I Quartile
n x p=10x0.25=2.5 si arrotonda all’intero successivo 3° posto: 16 coliformi
II Quartile
n x p=10x0.5=5.0 media tra il 5° e 6° posto: (23+25)/2=24 coliformi
III Quartile
n x p=10x0.75=7.5 si arrotonda all’intero successivo 8° posto: 32 coliformi
14
Scarica