Elementi di Statistica – Lezione 2 ======================================================================= Statistica descrittiva 2. Indici di posizione. Per indici di posizione di un insieme di dati, ordinati secondo la loro grandezza, si intendono alcuni valori che cadono all’interno dell’insieme. Gli indici più usati sono: I. Media. II. Mediana. III. Moda. I. Media. La media di una distribuzione di valori deve fornire un’indicazione sintetica dei dati della distribuzione secondo un criterio da scegliere. Esistono vari tipi di media (aritmetica, geometrica, quadratica, armonica) che tengono conto dei criteri scelti per determinarla, ma la più importante è: a) La media aritmetica. Per un insieme di N valori X = { x1 ,x2 ,K ,xN } si definisce media aritmetica o media la quantità N M [ X] = M x = ∑x i =1 i (1.1) N Ovviamente la media aritmetica rappresenta quel valore che sostituito a ciascuno dei dati non altera la loro somma. A tale tipo di media (che è la più usata) si fa ricorso quando prevale l’aspetto additivo dei termini della distribuzione. Se i valori si presentano con rispettive frequenze fi si parla di media ponderata definita da: N M x = M [ X] = ∑x f i =1 N i i ∑f i =1 (1.2) i Nel caso di dati raggruppati in classi le formule (1.1) e (1.2) continuano a valere con l’avvertenza di considerare N il numero delle classi , xi il valore centrale della iesima classe e fi la relativa frequenza. [ vedi esempio n.1.doc]. ======================================================================= Pag. 1 Elementi di Statistica – Lezione 2 ======================================================================= Proprietà della media aritmetica: Se a e b sono due costanti è facile verificare che: M [X + a] = M X + a M [ a X] = a M X M [ a X + b] = a M X + b (1.3) (1.4) (1.5) b) La media geometrica. Data una distribuzione di N dati X = { x1 ,x2 ,K ,xN } si definisce media geometrica semplice la radice n-esima del loro prodotto: M g = N x1 ⋅ x2 ⋅L ⋅ xN Sostituendo M g a ciascuno dei dati il prodotto di questi risulta inalterato. Proprietà della media geometrica: a) La media geometrica dei reciproci è uguale al reciproco della media geometrica. M g( r ) = N 1 1 1 1 ⋅ ⋅L = x1 x2 xN M g b) Date due distribuzioni X = { x1 ,x2 ,K ,xN } e Y = { y1 , y2 ,K , yN } la media geometrica dei rapporti è uguale al rapporto tra le medie geometriche delle due distribuzioni. Osservazione: Il logaritmo della media geometrica è la media aritmetica dei logaritmi dei singoli termini. Esempi: 1) Inserire fra i termini 104 e 114,66 un termine che con i due dati costituisca una progressione geometrica: Il termine cercato è la media geometrica dei due termini: M g = 2 104 ⋅114, 66 = 109, 2 ======================================================================= Pag. 2 Elementi di Statistica – Lezione 2 ======================================================================= 2) Un capitale C viene impiegato ad interesse composto ed a tasso variabile per 4 anni secondo il seguente schema: 1° anno (7%); 2° anno (7,25%); 3° anno (7,8%); 4°anno (8,2%) Calcolare a quale tasso annuo costante il capitale darebbe lo stesso montante alla fine del 4° anno: Indicando con i il tasso annuo richiesto si ha: C (1, 07 ) ⋅ (1, 0725 ) ⋅ (1, 078 ) ⋅ (1, 082 ) = C (1 + i ) 4 da cui risulta: 1 + i = 4 1, 07 ⋅1, 0725 ⋅1, 078 ⋅1, 082 = 1, 0756 ossia il fattore di capitalizzazione a tasso annuo costante è la media geometrica dei fattori relativi ai singoli anni. Se i valori si presentano con rispettive frequenze fi si parla di media geometrica ponderata definita da: M g = F ( x1 ) 1 ⋅ ( x2 ) 2 ⋅L ( xN ) f f fN dove F = f1 + f 2 + L + f N . Si ha anche: Log M g = f1 Log x1 + L + f N Log xN F da cui, calcolando l’antilogaritmo segue la media geometrica. [ vedi esempio n.1.doc]. Nel caso di una distribuzione per classi il calcolo della media geometrica ponderata si ottiene con la stessa formula con l’avvertenza di assumere come termini xi i valori centrali delle classi [ vedi esempio n.1.doc] c) Media armonica Si intende per media armonica semplice il reciproco della media aritmetica di reciproci dei dati: Ma = N 1 1 1 + +L + x1 x2 xN ======================================================================= Pag. 3 Elementi di Statistica – Lezione 2 ======================================================================= Per la media armonica ponderata, ovviamente si ha: Ma = F f f1 f 2 + +L + N x1 x2 xN ( F = f1 + f 2 + L + f N . con fi frequenza del dato xi ). [vedi esempio n.1.doc] Nel caso di distribuzioni in classi nelle formule precedenti al posto dei dati xi si devono sostituire i valori centrali delle classi. Esempio di uso della media armonica: Una persona deve percorre con una automobile una distanza di 900 Km programmando 3 tappe da 300 Km ciascuna. In ciascuna tappa la velocità media è stata, rispettivamente: 80 Km/h, 54 Km/h e 75 Km/h. Determinare la velocità media sull’intero percorso. (esercizio proposto). d) Media quadratica Si intende per media quadratica semplice la quantità: M2 = x12 + x22 + L + xN2 N mentre la media quadratica ponderata è data da: f1 x12 + f 2 x22 + L + f N xN2 F ( F = f1 + f 2 + L + f N . con fi frequenza del dato xi ) M2 = Nel caso di distribuzioni in classi ai dati devono essere sostituiti i valori centrali delle classi. Osservazione: La media quadratica è la radice quadratica della media aritmetica dei quadrati dei singoli termini. Si osserva che per una distribuzione di dati valgono le relazioni: M2 > M > Mg > Ma ======================================================================= Pag. 4 Elementi di Statistica – Lezione 2 ======================================================================= II. Mediana Data una distribuzione semplice di N valori ordinati X = { x1 ,x2 ,K ,xN } la mediana è il termine che occupa il posto centrale. Se i termini sono in numero pari la mediana è la media aritmetica dei due termini centrali. Se la distribuzione è ponderata (elementi che si presentano con certe frequenze) occorre costruire la tabella delle frequenze cumulate dopo di ciò la mediana è il primo termine la cui la frequenza cumulata corrispondente supera la semisomma delle frequenze. Nel caso di distribuzioni per classi la prima classe cui corrisponde una frequenza cumulata superiore alla semisomma delle frequenze è la classe mediana. Si dimostra che il valore della mediana è dato dalla seguente formula: N −F 2 m = mediana = l1 + c f (1.6) dove l1 è il limite inferiore della classe mediana; N la frequenza cumulata complessiva; F la frequenza cumulata fino alla classe mediana esclusa; f la frequenza ( non cumulata) della classe mediana; c l'ampiezza della classe mediana. [ vedi esempio n.2.doc ] III. Moda. La moda di un insieme di numeri è il valore che si presenta con la più alta frequenza. La moda può non esistere o anche non essere unica. Ad es.: 1. l’insieme dei numeri 2,2,5,7,9,9,9 ha per moda 9. 2. l’insieme 3,5,7,8,9 non ha moda 3. l’insieme 3,3,6,7,7,9,10 ha due mode : 3 e 7. Una distribuzione che abbia una sola moda si dice unimodale. Nel caso di una distribuzione per classi di uguale ampiezza viene detta classe modale quella a cui corrisponde la maggiore frequenza. Se le classi hanno ampiezza diversa al posto della frequenza si fa riferimento al rapporto frequenza/ampiezza. ======================================================================= Pag. 5 Elementi di Statistica – Lezione 2 ======================================================================= Anche nel caso di una distribuzione di classi si parla di moda intendendo con ciò il valore dato dalla formula: Moda = l1 + Δ1 c Δ1 + Λ2 (1.7) essendo l1 = confine inferiore della classe modale; Δ1 = eccesso della frequenza modale sulla frequenza della classe immediatamente inferiore; Δ2 = eccesso della frequenza modale sulla frequenza della classe immediatamente superiore; c = ampiezza della clase modale. [ vedi esempio n.2.doc ] La moda è per lo più utilizzata quando si trattano dati di tipo qualitativo per i quali non è possibile utilizzare media e mediana. Ad esempio: In uno stabilimento vengono registrati i casi di malfunzionamento di una macchina controllata da un computer e le loro cause. I dati relativi ad un certo mese sono i seguenti: fluttuazione di tensione 6 instabilità del sistema di controllo 22 errore dell’operatore 13 strumento usurato e non sostituito 2 altre cause 5 totale 48 In tal caso si può parlare solo di classe modale: instabilità del sistema di controllo. In generale, poiché la moda può non esistere o non essere unica o essere lontana dal centro del sistema di dati essa è poco utilizzata. Media, mediana e moda sono anche detti indici di tendenza centrale perché descrivono attorno a quale valore è centrato l’insieme dei dati. Generalmente la mediana è preferibile alla media quando si vogliono eliminare gli effetti di valori estremi molto diversi dagli altri anche se utilizzare solo i dati centrali può, a volte, costituire un limite per questo indice. ======================================================================= Pag. 6 Elementi di Statistica – Lezione 2 ======================================================================= Altri indici di posizione sono i quantili e percentili che sono usati spesso per ampi insiemi di dati. Essi dividono l’insieme dei dati in parti uguali e sono indici di posizione non centrale. DEFINIZIONE: Il primo quartile Q1 è il valore tale che il 25% dei dati ordinati è minore o uguale a Q1 ; esso viene chiamato anche 25-esimo percentile e viene indicato con P0,25 . Il 75% dei dati ordinati è invece minore o uguale al terzo quartile Q3 o 75-esimo percentile P0,75 . Ovviamente il secondo quartile coincide con la mediana. Per calcolare i quartili o i percentili vale la seguente regola pratica: REGOLA per il calcolo dei quartili o percentili: 1. si ordinano gli n dati in ordine crescente; 2. si calcola k = np essendo p la percentuale richiesta ( 0,25 per il primo quartile, 0,95 per il 95-esimo percentile etc.); 3. se k è un numero intero il quartile o percentile relativo è la media aritmetica del k-esimo e k+1-esimo termine dei valori ordinati; 4. se k non è un numero intero lo si arrotonda per eccesso e si sceglie come quartile o percentile il dato corrispondente della serie. Osservazione: Usando il foglio elettronico Excel si può usare la macro relativa senza mettere in ordine i dati [vedi esempio n.3.xls] che usando una regola un po’ più complessa basata sull’interpolazione fra dati adiacenti, può fornire valori leggermente diversi da quelli ottenuti con la regola pratica. ======================================================================= Pag. 7