Sintesi numerica di distribuzioni statistiche La sintesi numerica di una distribuzione statistica è basata sulla costruzione di particolari indici numerici che delineano alcuni aspetti essenziali della distribuzione in esame che consentono anche un confronto fra le caratteristiche di distribuzioni diverse. Tre famiglie principali: indici di tendenza centrale, indici di variabilità o dispersione; indici di forma; A tale sintesi si chiede di evidenziare gli aspetti principali di una distribuzione, tenendo conto che tutte le volte che si sintetizzano più dati con un solo valore, si perdono delle informazioni. Il metodo statistico rende più obiettiva questa sintesi. – p. 2/32 Indici di tendenza centrale Gli indici di tendenza centrale forniscono dei valori intorno ai quali si può ritenere concentrata la variabile statistica in esame, dando così un’idea sintetica del fenomeno cui si sta indagando. Si può operare in due modi: scegliendo come base alcune quantità assunte come invarianti: =⇒ valori medi, scegliendo alcuni valori caratteristici della distribuzione: =⇒ indici di posizione o medie lasche. Una condizione richiesta che deve essere soddisfatta da un valor medio è la cosidetta condizione di internalità di Cauchy: a(1) ≤ M ≤ a(N ) dove a(1) e a(N ) sono rispettivamente il minimo ed il massimo di X. – p. 3/32 Valori medi (medie secondo Chisini) Sia X una v.s. su Ω avente distribuzione unitaria a1 , . . . , aN . Si vuole studiare la ripartizione in parti uguali, fra le unità che costituiscono in collettivo, dell’ammontare complessivo del carattere(ciò ha significato solo se il carattere X è trasferibile). Considerata una funzione f : RN → R, secondo la definizione di Chisini, si chiama valore medio di X quel valore M tale che, sostituito alle a1 , . . . , aN , soddisfi l’eguaglianza: N z }| { f (a1 , . . . , aN ) = f (M, . . . , M ) . In altre parole la quantità M lascia immutata una determinata grandezza assunta come invariante ed espressa dal valore f (a1 , . . . , an ). – p. 4/32 Media aritmetica Sia X una v.s. su una popolazione Ω. La media aritmetica si indica con µ, x̄, M (X) distribuzione unitaria a1 , . . . , aN di X: a1 + a2 + · · · + aN µ := N distribuzione di frequenze assolute (x1 , n1 ), . . . , (xk , nk ) di X: µ := x1 n1 + x2 n2 + · · · + xk nk N distribuzione di frequenze relative (x1 , f1 ), . . . , (xk , fk ) di X: µ := x1 f1 + x2 f2 + · · · + xk fk – p. 5/32 Media aritmetica - Esempio 1 xi 1 2 3 4 5 6 7 Totale fi 0,206 0,247 0,222 0,212 0,790 0,024 0,010 1,000 xi f i 0,206 0,494 0,666 0,848 0,395 0,144 0,070 2,823 Quindi la media è x̄ = 2, 823. – p. 6/32 Media aritmetica - Esempio 2 Classi di età fino a 5 anni 5 - 14 15 -19 20 - 39 40 - 59 60 - 74 75 e oltre Totale xi 2,5 10,0 17,5 30,0 50,0 67,5 80,0 fi 0,049 0,110 0,760 0,301 0,253 0,144 0,067 1,000 xi f i 0,122 1,10 1,33 9,03 12,65 9,72 5,36 39,313 – p. 7/32 Proprietà Media aritmetica 1/2 1. la somma degli scarti dalla media è sempre nulla: N X i=1 (ai − µ) = 0 ; 2. la somma dei quadrati degli scarti da un’origine arbitraria c assume il valore minimo in corrispondenza della media aritmetica: N X x̄ = argc∈ min (ai − c)2 . i=1 3. (Linearità) La media aritmetica della variabile statistica aX + b, dove a, b sono due costanti reali qualsiasi, è data da: M (aX + b) = aM (X) + b . – p. 8/32 Proprietà Media aritmetica 2/2 4. (Associativa) Supponiamo che la popolazione Ω di N u.s. sia suddivisa in s sottopopolazioni contenenti rispettivamente N1 , . . . , Ns u.s. Considerato il carattere quantitativo X si ha: a11 , . . . , a1N1 a21 , . . . , a2N2 as1 , . . . , asNs Allora segue: N1 1 X con media µ1 = a1i N1 1 con media µ2 = N2 1 con media µs = Ns i=1 N2 X i=1 Ns X a2i ··· asi i=1 µ1 N1 + · · · + µs Ns µ= . N1 + · · · + Ns – p. 9/32 Media geometrica Sia X una v.s. su una popolazione Ω, con X > 0. distribuzione unitaria a1 , . . . , aN di X: √ Mg (X) := a1 × · · · × aN = N N Y i=1 ai !1/N distribuzione di frequenze assolute (x1 , n1 ), . . . , (xk , nk ) di X: Mg (X) := k Y j=1 n 1/N xj j distribuzione di frequenze relative (x1 , f1 ), . . . , (xk , fk ) di X: Mg (X) := k Y fj xj j=1 – p. 10/32 Proprietà della Media geometrica Sia X una v.s. su una popolazione Ω, con X > 0. 1. Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi dei termini, cioè: N 1 X log Mg (X) = log ai ; N i=1 Questa proprietà può essere applicata nel calcolo pratico della media geometrica. 2. proprietà di omogeneità. La media geometrica è invariante per cambiamenti dell’unità di misura, cioè per α > 0 si ha: Mg (αX) = αMg (X) . – p. 11/32 Media geometrica - Esercizio Supponiamo di impiegare un capitale pari a S0 euro per cinque anni ad un interesse composto i1 = 5% nel primo anno, i2 = 7% nel secondo anno, i3 = 4% nel terzo anno, i4 = 6% nel quarto anno e i5 = 5% nel quinto anno. Ci si chiede: restando costante l’ammontare finale, quale dovrebbe essere il tasso medio iM a cui capitalizzare il nostro S0 in maniera tale che alla fine dei cinque anni si ottiene la stessa somma? – p. 12/32 Media armonica Sia X una v.s. su una popolazione Ω, con X > 0. distribuzione unitaria a1 , . . . , aN di X: Ma (X) := 1 a1 N + ··· + 1 aN = 1 N N X i=1 1 ai !−1 distribuzione di frequenze assolute (x1 , n1 ), . . . , (xk , nk ) di X: N Ma (X) := Pk nj j=1 xj −1 k X nj 1 = N xj j=1 distribuzione di frequenze relative (x1 , f1 ), . . . , (xk , fk ) di X: Ma (X) := Pk 1 fj j=1 xj −1 k X fj = xj j=1 – p. 13/32 Proprietà della Media armonica Sia X una v.s. su una popolazione Ω, con X > 0. La media armonica è invariante per cambiamenti di unità di misura: Ma (αX) = αMa (X) α>0; si noti che la media armonica non è invariante per traslazione. Si dimostra infine che le tre medie introdotte soddisfano la relazione: Ma (X) ≤ Mg (X) ≤ M (X) . – p. 14/32 Media armonica - Esercizio Un investitore acquista, con cadenza mensile, quote del fondo Ferdinando Magellano per un valore complessivo di euro 100 (ogni mese) secondo i periodi indicati: Data Valore quota 31/03/05 5,197 28/04/05 5,082 21/05/05 5,163 28/06/05 5,457 26/07/05 5,449 26/08/05 5,786 Calcolare il numero medio di quote acquistato mensilmente ed il costo medio a cui viene pagata una quota nel periodo in esame. – p. 15/32 Indici di posizione o medie lasche Si chiamano medie lasche quei valori che si basano solo su alcuni valori dell’intera distribuzione e prevalentemente sull’ordine che gli elementi rilevati presentano rispetto alla caratteristica osservata Considereremo i seguenti indici di posizione: 1. il valore centrale, 2. la mediana, 3. i quartili (ed in generale i percentili), 4. la moda. – p. 16/32 Valore Centrale Il valore centrale è dato dalla semisomma dei valori estremi della distribuzione: a(1) + a(N ) C= 2 in cui a(1) e a(N ) sono rispettivamente il più piccolo ed il più grande dei valori osservati. Si noti che il valore centrale dipende unicamente dai due valori estremi. – p. 17/32 Mediana - Definizione Sia X una variabile statistica quantitativa su Ω avente distribuzione f (x). Si definisce mediana Me di X il valore cui corrisponde una frequenza cumulata di 0, 5, cioè che soddisfa l’equazione: F (Me) = 0.5 In altre parole la mediana è quel valore tale che il 50% delle osservazioni sono inferiori a tale valore ed il 50% delle osservazioni sono superiori a tale valore. Risulta quindi evidente che la mediana è invariante se si diminuisce il valore di una (o più) delle osservazioni inferiori alla mediana o se si aumenta il valore una (o più) delle osservazioni maggiori della mediana. – p. 18/32 Mediana - Calcolo pratico per v.s. discrete Nel caso di v.s. discrete, la funzione di distribuzione cumulata è costante a tratti e l’equazione F (x) = 0.5, salvo casi particolari, o non ha soluzione oppure ne ammette infinite. In questo caso, si considera cerca il valore ai tale che: F (ai−1 ) ≤ 1/2 ≤ F (ai ) . N dispari. L’equazione F (x) = 0.5 non ha soluzioni; si pone come mediana il valore ai tale che: F (ai−1 ) < 1/2 < F (ai ) ⇒ Me := a( N +1 ) 2 N pari. L’equazione F (x) = 0.5 ha infinite soluzioni; si considera l’intervallo mediano [a(N/2) , a(N/2+1) ] e si pone come mediana: a(N/2) + a(N/2+1) Me := 2 – p. 19/32 Funz. dist. cumulata, caso N dispari 6 F (x) rp pp 0,5 p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p pppppt pp rp pp pp pp pp pp pp pp pp pp rp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p p 0 a1 a2 a3 rp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p rp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p a4 a5 – p. 20/32 Funz. dist. cumulata, caso N pari 6 F (x) rpp pp pp pp p rpp pp pp pp pp pp pp pp p pp pp pp pp pp pp pp pp pp pp pp rpp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp rpp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp rp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp pp p a1 a2 a3 a4 a5 a6 0,5 p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p rppp 0 – p. 21/32 Mediana - Calcolo pratico per v.s. continue Nel caso di distribuzioni per classi di valori (v.s. continue), la funzione di distribuzione cumulata è continua e monotona crescente, pertanto l’equazione F (Me) = 0.5 ha un’unica soluzione. 6 q Fi B Dq 0,5 Fi−1 Aq qE ei−1 Me qC ei - 0, 5 − Fi−1 DE (ei − ei−1 ) Me = ei−1 + · AC = ei−1 + fi BC (N + 1)/2 − Ni−1 = ei−1 + (ei − ei−1 ) ni – p. 22/32 Mediana - Esempio di calcolo 1 Consideriamo la seguente distribuzione: xi fi Fi 1 0,206 0,206 2 0,247 0,453 3 0,222 0,675 4 0,212 0,887 5 0,079 0,966 6 0,024 0,990 7 e più 0,010 1,000 La mediana coincide con il valore cui corrisponde la frequenza cumulata 0,5. Tale osservazione presenta modalità x = 3 e pertanto Me=3. – p. 23/32 Mediana - Esempio di calcolo 2 Consideriamo la distribuzione della popolazione italiana per età: Classi di età fi Fi fino a 5 anni 0,049 0,049 5 - 14 0,110 0,159 15 -19 0,076 0,235 20 - 39 0,301 0,536 40 - 59 0,253 0,789 60 - 74 0,144 0,933 75 e oltre 0,067 1,000 La classe mediana è la quarta classe [20, 40) e quindi 0, 5 − Fi−1 0, 5 − 0, 235 Me(X) = xi + (xi+1 −xi ) = 20+ (40−20) = 37, 61. fi 0, 301 – p. 24/32 Una proprietà della mediana Sia X una v.s. avente distribuzione {(x1 , f1 ), . . . , (xk , fk )} ed assumiamo che le modalità x1 , . . . , xk siano misurabili su scala ordinale. Allora la mediana Me di X soddisfa la relazione: Me = argc∈R min N X i=1 |ai − c| = argc∈R min k X i=1 |xi − c|fi . Lungo una strada statale vi sono distributori di benzina al Km. 8 (2 distributori), al Km. 40 (tre distributori), al Km. 61 (un distributore), al Km. 93 (due distributori) ed al Km. 106 (un distributore) che richiedono rifornimenti con uguale frequenza. Dove si dovrà costruire un deposito di carburante da cui partono le autobotti per rifornirli, in modo da minimizzare i costi di trasporto, supposti proporzionali alle distanze? Esercizio. – p. 25/32 Soluzione esercizio Essendo il costo di trasporto proporzionale alle distanze, il problema è quello di individuare il punto di ascissa c che rende minima la somma delle distanze da percorrere per rifornire ogni distributore con uguale periodicità, uno per volta. L’indice che soddisfa tale condizione è la mediana. Avendo n = 9 distributori, la mediana coincide con il distributore di posto (9 + 1)/2 = 5 i xi ni Ni 1 8 2 2 32 2 40 3 5 3 61 1 4 95 5 106 Σ xi ni |xi − m| 64 16 46,78 93,56 0 0 120 14,78 44,33 6 21 21 61 6,22 6,22 2 8 55 110 190 40,22 80,44 1 9 66 66 106 51,22 51,22 261 493 9 |xi − M e| |xi − M e|ni |xi − m|ni 275,78 – p. 26/32 Quartili, quantili, percentili I quantili possono essere considerati come generalizzazioni della mediana. I quantili sono quei valori che ripartiscono i dati, disposti in ordine crescente, in parti uguali. In particolare si considerano: i quartili che suddividono i dati in 4 parti uguali aventi ognuna il 25% della quantità totale (in particolare il secondo quartile coincide con la mediana); i decili che suddividono i dati in 10 parti uguali (in particolare, il quinto decile coincide con la mediana); i centili che suddividono i dati in 100 parti uguali (in particolare, il cinquantesimo centile coincide con la mediana). – p. 27/32 Calcolo di quartili, quantili, percentili Il calcolo dei quartiti,e più in generale quello dei quantili, si effettua come quello della mediana. Nell’ipotesi di uniforme distribuzione all’interno della classe, il q -esimo quantile di X , denotato con xq , è dato da: q − Fi−1 xq = xi + (xi+1 − xi ) fi dove i è l’indice della classe che contiene il q -esimo quantile, xi e xi+1 sono rispettivamente l’estremo inferiore e quello superiore di tale classe, fi è la frequenza relativa di tale classe e Fi−1 è la frequenza cumulata della classe precedente la classe che contiene il q -esimo quantile. – p. 28/32 Calcolo di quantili, esempio Calcoliamo il terzo quartile della distribuzione: Classi di età fi Fi fino a 5 anni 0,049 0,049 5 - 14 0,110 0,159 15 -19 0,076 0,235 20 - 39 0,301 0,536 40 - 59 0,253 0,789 60 - 74 0,144 0,933 75 e oltre 0,067 1,000 Il terzo quartile è contenuto nella quinta classe [40, 60) e quindi 0, 75 − Fi−1 0, 75 − 0, 536 Q3 (X) = xi + (xi+1 −xi ) = 40+ (60−40) = 56, 92. fi 0, 253 – p. 29/32 Moda o Modalità Prevalente La moda o modalità prevalente Mo di un collettivo, distribuito secondo un carattere X è la modalità cui è associata la massima frequenza. Se vi è una sola moda, si dice che la distribuzione è unimodale; se vi sono due mode, si dice che la distribuzione è usi dice che la distribuzione è bimodale; etc. Se la distribuzione è unitaria o di frequenze, allora la moda è in generale ben definita; se la v.s. è assegnata mediante una distribuzione per classi di valori si può definire la classe modale, cioè la classe che presenta la massima densità di frequenza. – p. 30/32 Centri di ordine r Assegnata una v.s. X quantitativa, si definisce centro di ordine r, se esiste, il valore γ che rende minima la seguente funzione: k X |xi − c|r fi ψ(c) := i=1 cioè: γ = argc∈R min k X i=1 |xi − c|r fi . In particolare, si dimostra segue che la moda è il centro di ordine 0; la mediana è il centro di ordine 1 e che la media aritmetica è il centro di ordine 2. – p. 31/32 La scelta della media Quali criteri per scegliere l’indice più idoneo a sintetizzre la distribuzione statistica in esame? La moda è un indice che può essere calcolato su distribuzioni secondo un carattere qualunque ed è quello con la minor capacità informativa; la mediana fornisce un livello di informazione superiore e può essere calcolata su distribuzioni secondo variabili o mutabili ordinabili; infine le medie possono essere calcolate solo su distribuzioni secondo caratteri quantitativi. In presenza di valori anomali nella distribuzione così e/o di condizioni di asimmetria, la mediana risulterà più rappresentativa della media aritmetica poichè non risente dei valori estremi della distribuzione. – p. 32/32