Statistica descrittiva 2. Indici di posizione.

annuncio pubblicitario
Elementi di Statistica – Lezione 2
=======================================================================
Statistica descrittiva
2. Indici di posizione.
Per indici di posizione di un insieme di dati, ordinati secondo la loro grandezza,
si intendono alcuni valori che cadono all’interno dell’insieme.
Gli indici più usati sono:
I. Media.
II. Mediana.
III. Moda.
I.
Media.
La media di una distribuzione di valori deve fornire un’indicazione sintetica dei
dati della distribuzione secondo un criterio da scegliere.
Esistono vari tipi di media (aritmetica, geometrica, quadratica, armonica) che
tengono conto dei criteri scelti per determinarla, ma la più importante è:
a) La media aritmetica.
Per un insieme di N valori X = { x1 ,x2 ,K ,xN } si definisce media aritmetica o media la
quantità
N
M [ X] = M x =
∑x
i =1
i
(1.1)
N
Ovviamente la media aritmetica rappresenta quel valore che sostituito a ciascuno dei
dati non altera la loro somma. A tale tipo di media (che è la più usata) si fa ricorso
quando prevale l’aspetto additivo dei termini della distribuzione.
Se i valori si presentano con rispettive frequenze fi si parla di media ponderata
definita da:
N
M x = M [ X] =
∑x f
i =1
N
i i
∑f
i =1
(1.2)
i
Nel caso di dati raggruppati in classi le formule (1.1) e (1.2) continuano a valere
con l’avvertenza di considerare N il numero delle classi , xi il valore centrale della iesima classe e fi la relativa frequenza. [ vedi esempio n.1.doc].
=======================================================================
Pag. 1
Elementi di Statistica – Lezione 2
=======================================================================
Proprietà della media aritmetica:
Se a e b sono due costanti è facile verificare che:
M [X + a] = M X + a
M [ a X] = a M X
M [ a X + b] = a M X + b
(1.3)
(1.4)
(1.5)
b) La media geometrica.
Data una distribuzione di N dati X = { x1 ,x2 ,K ,xN } si definisce media geometrica
semplice la radice n-esima del loro prodotto:
M g = N x1 ⋅ x2 ⋅L ⋅ xN
Sostituendo M g a ciascuno dei dati il prodotto di questi risulta inalterato.
Proprietà della media geometrica:
a) La media geometrica dei reciproci è uguale al reciproco della media
geometrica.
M g( r ) = N
1 1
1
1
⋅ ⋅L
=
x1 x2
xN M g
b) Date due distribuzioni X = { x1 ,x2 ,K ,xN } e Y = { y1 , y2 ,K , yN } la media
geometrica dei rapporti è uguale al rapporto tra le medie geometriche
delle due distribuzioni.
Osservazione: Il logaritmo della media geometrica è la media aritmetica dei
logaritmi dei singoli termini.
Esempi:
1) Inserire fra i termini 104 e 114,66 un termine che con i due dati costituisca
una progressione geometrica:
Il termine cercato è la media geometrica dei due termini:
M g = 2 104 ⋅114, 66 = 109, 2
=======================================================================
Pag. 2
Elementi di Statistica – Lezione 2
=======================================================================
2) Un capitale C viene impiegato ad interesse composto ed a tasso variabile per 4
anni secondo il seguente schema:
1° anno (7%); 2° anno (7,25%); 3° anno (7,8%); 4°anno (8,2%)
Calcolare a quale tasso annuo costante il capitale darebbe lo stesso montante
alla fine del 4° anno:
Indicando con i il tasso annuo richiesto si ha:
C (1, 07 ) ⋅ (1, 0725 ) ⋅ (1, 078 ) ⋅ (1, 082 ) = C (1 + i )
4
da cui risulta:
1 + i = 4 1, 07 ⋅1, 0725 ⋅1, 078 ⋅1, 082 = 1, 0756
ossia il fattore di capitalizzazione a tasso annuo costante è la media geometrica dei
fattori relativi ai singoli anni.
Se i valori si presentano con rispettive frequenze fi si parla di media geometrica
ponderata definita da:
M g = F ( x1 ) 1 ⋅ ( x2 ) 2 ⋅L ( xN )
f
f
fN
dove F = f1 + f 2 + L + f N .
Si ha anche:
Log M g =
f1 Log x1 + L + f N Log xN
F
da cui, calcolando l’antilogaritmo segue la media geometrica.
[ vedi esempio n.1.doc].
Nel caso di una distribuzione per classi il calcolo della media geometrica ponderata si
ottiene con la stessa formula con l’avvertenza di assumere come termini xi i valori
centrali delle classi [ vedi esempio n.1.doc]
c) Media armonica
Si intende per media armonica semplice il reciproco della media aritmetica di
reciproci dei dati:
Ma =
N
1 1
1
+ +L +
x1 x2
xN
=======================================================================
Pag. 3
Elementi di Statistica – Lezione 2
=======================================================================
Per la media armonica ponderata, ovviamente si ha:
Ma =
F
f
f1 f 2
+ +L + N
x1 x2
xN
( F = f1 + f 2 + L + f N . con fi frequenza del dato xi ). [vedi esempio n.1.doc]
Nel caso di distribuzioni in classi nelle formule precedenti al posto dei dati xi si
devono sostituire i valori centrali delle classi.
Esempio di uso della media armonica:
Una persona deve percorre con una automobile una distanza di 900 Km
programmando 3 tappe da 300 Km ciascuna.
In ciascuna tappa la velocità media è stata, rispettivamente:
80 Km/h, 54 Km/h e 75 Km/h.
Determinare la velocità media sull’intero percorso. (esercizio proposto).
d) Media quadratica
Si intende per media quadratica semplice la quantità:
M2 =
x12 + x22 + L + xN2
N
mentre la media quadratica ponderata è data da:
f1 x12 + f 2 x22 + L + f N xN2
F
( F = f1 + f 2 + L + f N . con fi frequenza del dato xi )
M2 =
Nel caso di distribuzioni in classi ai dati devono essere sostituiti i valori centrali delle
classi.
Osservazione: La media quadratica è la radice quadratica della media
aritmetica dei quadrati dei singoli termini.
Si osserva che per una distribuzione di dati valgono le relazioni:
M2 > M > Mg > Ma
=======================================================================
Pag. 4
Elementi di Statistica – Lezione 2
=======================================================================
II.
Mediana
Data una distribuzione semplice di N valori ordinati X = { x1 ,x2 ,K ,xN } la mediana
è il termine che occupa il posto centrale. Se i termini sono in numero pari la mediana
è la media aritmetica dei due termini centrali.
Se la distribuzione è ponderata (elementi che si presentano con certe frequenze)
occorre costruire la tabella delle frequenze cumulate dopo di ciò la mediana è il
primo termine la cui la frequenza cumulata corrispondente supera la semisomma
delle frequenze.
Nel caso di distribuzioni per classi la prima classe cui corrisponde una frequenza
cumulata superiore alla semisomma delle frequenze è la classe mediana. Si dimostra
che il valore della mediana è dato dalla seguente formula:
N
−F
2
m = mediana = l1 +
c
f
(1.6)
dove
l1 è il limite inferiore della classe mediana;
N la frequenza cumulata complessiva;
F la frequenza cumulata fino alla classe mediana esclusa;
f
la frequenza ( non cumulata) della classe mediana;
c
l'ampiezza della classe mediana.
[ vedi esempio n.2.doc ]
III.
Moda.
La moda di un insieme di numeri è il valore che si presenta con la più alta frequenza.
La moda può non esistere o anche non essere unica.
Ad es.:
1. l’insieme dei numeri 2,2,5,7,9,9,9 ha per moda 9.
2. l’insieme 3,5,7,8,9 non ha moda
3. l’insieme 3,3,6,7,7,9,10 ha due mode : 3 e 7.
Una distribuzione che abbia una sola moda si dice unimodale.
Nel caso di una distribuzione per classi di uguale ampiezza viene detta classe
modale quella a cui corrisponde la maggiore frequenza. Se le classi hanno ampiezza
diversa al posto della frequenza si fa riferimento al rapporto frequenza/ampiezza.
=======================================================================
Pag. 5
Elementi di Statistica – Lezione 2
=======================================================================
Anche nel caso di una distribuzione di classi si parla di moda intendendo con ciò il
valore dato dalla formula:
Moda = l1 +
Δ1
c
Δ1 + Λ2
(1.7)
essendo
l1 = confine inferiore della classe modale;
Δ1 = eccesso della frequenza modale
sulla frequenza della classe immediatamente inferiore;
Δ2 = eccesso della frequenza modale
sulla frequenza della classe immediatamente superiore;
c = ampiezza della clase modale.
[ vedi esempio n.2.doc ]
La moda è per lo più utilizzata quando si trattano dati di tipo qualitativo per i quali
non è possibile utilizzare media e mediana.
Ad esempio:
In uno stabilimento vengono registrati i casi di malfunzionamento
di una macchina controllata da un computer e le loro cause. I dati
relativi ad un certo mese sono i seguenti:
fluttuazione di tensione
6
instabilità del sistema di controllo
22
errore dell’operatore
13
strumento usurato e non sostituito
2
altre cause
5
totale
48
In tal caso si può parlare solo di classe modale: instabilità del sistema di controllo.
In generale, poiché la moda può non esistere o non essere unica o essere lontana dal
centro del sistema di dati essa è poco utilizzata.
Media, mediana e moda sono anche detti indici di tendenza centrale perché
descrivono attorno a quale valore è centrato l’insieme dei dati.
Generalmente la mediana è preferibile alla media quando si vogliono eliminare gli
effetti di valori estremi molto diversi dagli altri anche se utilizzare solo i dati centrali
può, a volte, costituire un limite per questo indice.
=======================================================================
Pag. 6
Elementi di Statistica – Lezione 2
=======================================================================
Altri indici di posizione sono i quantili e percentili che sono usati spesso per ampi
insiemi di dati.
Essi dividono l’insieme dei dati in parti uguali e sono indici di posizione non
centrale.
DEFINIZIONE: Il primo quartile Q1 è il valore tale che il 25% dei dati
ordinati è minore o uguale a Q1 ; esso viene chiamato anche 25-esimo
percentile e viene indicato con P0,25 . Il 75% dei dati ordinati è invece
minore o uguale al terzo quartile Q3 o 75-esimo percentile P0,75 .
Ovviamente il secondo quartile coincide con la mediana.
Per calcolare i quartili o i percentili vale la seguente regola pratica:
REGOLA per il calcolo dei quartili o percentili:
1. si ordinano gli n dati in ordine crescente;
2. si calcola k = np essendo p la percentuale richiesta ( 0,25 per il
primo quartile, 0,95 per il 95-esimo percentile etc.);
3. se k è un numero intero il quartile o percentile relativo è la media
aritmetica del k-esimo e k+1-esimo termine dei valori ordinati;
4. se k non è un numero intero lo si arrotonda per eccesso e si sceglie
come quartile o percentile il dato corrispondente della serie.
Osservazione:
Usando il foglio elettronico Excel si può usare la macro relativa senza mettere in ordine i dati
[vedi esempio n.3.xls] che usando una regola un po’ più complessa basata sull’interpolazione fra
dati adiacenti, può fornire valori leggermente diversi da quelli ottenuti con la regola pratica.
=======================================================================
Pag. 7
Scarica