CAPITOLO SETTIMO GLI INDICI DI FORMA SOMMARIO: 1. Introduzione. - 2. Asimmetria. - 3. Grafico a scatola (box plot). - 4. Curtosi. - Questionario. 1. INTRODUZIONE Dopo aver analizzato gli indici di posizione e di variabilità di una distribuzione di frequenza analizziamo, in questo capitolo, alcuni aspetti della forma di una distribuzione, della quale si considerano due caratteristiche: la simmetria e la curtosi. Una curva di frequenza unimodale e simmetrica che assume la caratteristica forma a campana (Fig. 1) è nota con la denominazione di curva normale o gaussiana. Si tratta della più importante distribuzione statistica continua le cui caratteristiche saranno discusse in modo più approfondito nei capitoli dedicati alle distribuzioni teoriche; per ora basti sapere che, per tale distribuzione, media, mediana e moda coincidono. y 0 ( ) f µ = f ( Me ) = f ( Mo ) µ = Me = Mo x Fig. 1 - Curva normale Fu proposta da Gauss nel 1809 nella teoria degli errori, ma è anche attribuita a Laplace (1812) che ne definì le principali proprietà prima della trattazione più completa fatta da Gauss. Anche solo graficamente, dal confronto della curva di frequenza di una qualsiasi distribuzione con la curva normale è possibile evincere i due aspetti fondamentali relativi alla forma della distribuzione. In questo capitolo spiegheremo nel dettaglio i concetti di asimmetria e di curtosi e analizzeremo alcuni indici di disnormalità o di forma. 2. ASIMMETRIA L’asimmetria (in inglese skewness) è un termine statistico che indica l’assenza di specularità di una distribuzione rispetto a qualsiasi asse verticale. Se in una distribuzione unimodale (Fig. 1) 136 Capitolo Settimo esiste un valore a tale per cui si possa scrivere f ( x ) = g ( x − a ) allora la distribuzione è simmetrica rispetto ad a. In tal caso Moda, Media e Mediana coincidono. Viceversa la coincidenza di questi indici non garantisce la simmetria. Consideriamo la seguente distribuzione: X –4 0 3 1 f 2 4 3 3 Evidentemente la distribuzione non è simmetrica: tuttavia è facile verificare che Moda, Media e Mediana sono nulle. Per cui la non coincidenza dei 3 indici è sintomo di asimmetria mentre la coincidenza non garantisce la simmetria. Rispetto alla curva normale è possibile evincere se una distribuzione presenta asimmetria, se ha una coda più lunga; precisamente, se la coda più lunga è a sinistra, la distribuzione presenta asimmetria negativa, se, invece, la coda più lunga è a destra, allora la distribuzione presenta asimmetria positiva. Le relazioni esistenti tra media, mediana e moda consentono di verificare se una distribuzione si presenta simmetrica o asimmetrica; infatti, utilizzando la simbologia dei capitoli precedenti, si parla di: — simmetria se µ = Me = Mo; — asimmetria positiva se Mo < Me < µ , la distribuzione presenta il ramo destro più allungato di quello sinistro, in altre parole presenta una coda verso destra; — asimmetria negativa se µ < Me < Mo, la distribuzione presenta il ramo sinistro più allungato di quello destro, e si dice che presenta una coda verso sinistra. Graficamente, il confronto di una distribuzione con una curva normale avente la stessa frequenza complessiva consente di evincere se una distribuzione presenta una coda più lunga. y 0 y µ = Me = Mo (a) x 0 y Mo Me µ x (b) 0 µ Me Mo x (c) Fig. 2 - Curva normale (a); curva asimmetrica a destra (b); curva asimmetrica a sinistra (c) Diversi indici di asimmetria si basano sulle relazioni viste tra media, mediana e moda, alcuni sono espressi nella stessa unità di misura del fenomeno investigato, altri sono numeri puri. 2.1 Indici assoluti Due misure assolute sono fornite dalle seguenti differenze: α 1 = µ − Me; α 2 = µ − Mo (2.1) Gli indici di forma 137 che sono nulle, positive o negative, a seconda che la distribuzione presenti, rispettivamente, simmetria, asimmetria positiva o negativa. Altra misura assoluta è fornita dalla differenza tra le distanze tra la mediana e quantili simmetrici rispetto ad essa, in questo contesto esaminiamo le distanze intercorrenti tra la mediana ( Me = Q2 ) e i quartili: α 3 = ( Q3 − Q2 ) − ( Q2 − Q1 ) = Q3 + Q1 − 2Q2 (2.2) che è nulla, positiva o negativa, a seconda che la distribuzione presenti, rispettivamente simmetria, asimmetria positiva o negativa. 2.2 Indici relativi Per ovviare all’inconveniente di disporre di indici espressi nell’unità di misura del fenomeno, le differenze appena viste sono state rapportate allo scarto quadratico medio della distribuzione, ottenendo indici relativi di notevole importanza. Rapportando la differenza tra media e mediana allo scarto quadratico medio, si ottiene il seguente indice normalizzato: α4 = µ − Me σ (2.3) il cui segno pone in rilievo la simmetria/asimmetria della distribuzione. Rapportando, invece la differenza tra media e moda allo scarto quadratico medio si ottiene l’indice di asimmetria di Pearson: αP = µ − Mo σ (2.4) Un indice relativo di asimmetria proposto da Fisher, per una serie, ha la seguente espressione analitica: xi − µ ∑ σ i =1 n γ1 = 3 n (2.5) L’espressione entro parentesi è definita scarto standardizzato, per cui l’indice di asimmetria è pari alla media dei cubi degli scarti standardizzati. Un altro indice di asimmetria è stato proposto da Yule e Bowley, ed ha la seguente espressione analitica: αY = (Q (Q − Q2 ) − ( Q2 − Q1 ) Q3 + Q1 − 2Q2 = Q3 − Q1 3 − Q2 ) + ( Q2 − Q1 ) 3 ed è, praticamente, il rapporto tra la (2.2) e la differenza interquartile. (2.6) 138 Capitolo Settimo ESEMPIO 1 Dato il seguente insieme di numeri: 5, 7, 11, 22, 25, 24, 20, 14, 13, 8, 7, 5, 4, 1 determinare l’indice di asimmetria di Fisher. L’espressione analitica dell’indice di asimmetria richiesto è fornita dalla (2.5), la cui applicazione richiede la conoscenza della media aritmetica e della deviazione standard degli n = 14 dati. La media aritmetica è pari a: µ= 5 + 7 + 11+ 22 + 25 + 24 + 20 + 14 + 13 + 8 + 7 + 5 + 4 + 1 = 11, 86 14 La deviazione standard è pari a: σ= ( 5 − 11, 86 )2 + ( 7 − 11, 86 )2 + (11− 11, 86 )2 + … + ( 5 − 11, 86 )2 + ( 4 − 11, 86 )2 + (1− 11, 86 )2 14 = 7, 71 Pertanto, la media dei cubi degli scarti standardizzati, ovvero l’indice di asimmetria di Fisher, è: 3 3 3 3 5 − 11, 86 7 − 11, 86 4 − 11, 86 1− 11, 86 7, 71 + 7, 71 + … + 7, 71 + 7, 71 = 0,4 46 γ1 = 14 Ovviamente calcoli del genere sono troppo lunghi per cui illustriamo la modalità di determinazione dell’indice per l’insieme riportato nell’E SEMPIO attraverso un foglio Excel. Per calcolare l’indice la procedura è la seguente: ✔ ✔ ✔ ✔ Nelle celle dalla A2 alla A14 riportiamo la successione. Nella cella A19 calcoliamo la media aritmetica della successione. Nella cella A20 calcoliamo lo scarto quadratico medio della successione. Nella cella B2 calcoliamo lo scarto standardizzato rispetto al primo dato della successione;a tal fine digitiamo: =(A2-$A$19)/$A$20 e trasciniamo la selezione fino alla cella B15, per ottenere tutti gli scarti standardizzati. ✔ Nella cella C2 calcoliamo il cubo dello scarto standardizzato rispetto al primo dato della successione; a tal fine digitiamo: =POTENZA(B2;3) e trasciniamo la selezione fino alla cella B15, per ottenere tutti i cubi degli scarti standardizzati. ✔ Nella cella C16 calcoliamo la somma di tali cubi. 139 Gli indici di forma ✔ Nella cella C21, dal rapporto tra tale somma (cella C16) e il numero dei dati (14), otteniamo l’indice di asimmetria. ESEMPIO 2 Sia data la distribuzione dei 125 atleti per classi di altezze di cui alla tabella 8 riportata nel quinto capitolo, determinare: a) l’indice di asimmetria di Fisher; b) l’indice di asimmetria in termini di quartili. a) La formula dell’indice di asimmetria di Fisher richiede l’impiego dello scarto quadratico medio della distribuzione, il cui valore si desume dal seguente schema di calcolo: x i - x i +1 171 - 175 176 - 180 181 - 185 186 - 190 191 - 195 196 - 200 Totale ni 14 18 28 33 17 15 xi 173 178 183 188 193 198 x i ni 2.422 3.204 5.124 6.204 3.281 2.970 23.205 xi - µ –13 –8 –3 2 7 12 ( x i - µ )2 160 58 7 6 54 153 ( x i - µ )2 ni 2.237 1.051 195 184 921 2.292 6.879 Schema 1 140 Capitolo Settimo Dallo schema si desume che la media aritmetica della distribuzione è: µ= 23.205 = 185, 64 125 la varianza è: σ2 = 6.879 = 55, 03 125 e lo scarto quadratico medio è: σ = 55, 03 = 7, 418 L’indice di asimmetria di Fisher è pertanto: γ1 = 1 (173 – 185, 64 )3 ⋅14 + (178 – 185, 64 )3 ⋅18 + (183 – 185, 64 )3 ⋅ 28 + 3 7, 418 1 3 3 3 = + (188 – 185, 64 ) ⋅ 33 + (193 – 185, 64 ) ⋅ 17 + (198 – 185, 64 ) ⋅ 15 ⋅ 125 1 = [ –1.280, 064 ] ⋅ 1 = –0, 025 125 408,188 La distribuzione presenta lieve asimmetria negativa. b) Della distribuzione data sono noti anche i tre quartili, essi sono, rispettivamente: Q1 = 180, 292 Q 2 = Me = 185, 879 Q3 = 190, 721 Pertanto l’indice di asimmetria è: αy = 190, 721− 2 ⋅ 185, 879 + 180, 292 = −0, 071 190, 721− 180, 292 3. GRAFICO A SCATOLA (BOX PLOT) Il grafico a scatola, altrimenti detto box plot, è una tipologia di rappresentazione proposta dallo statistico americano J.W. Tukey; essa si ottiene da una serie di dati o da un grafico a ramo e foglia, da cui ricava i dati significativi trascurando quelli non importanti. Il grafico è costruito nel modo seguente: — si devono calcolare i tre quartili della distribuzione: Q1, Q2 = Me, Q3. Quindi, i suoi valori minimo ( x min = Q0 ) e massimo ( x max = Q4 ) ; — su un asse orientato, su cui si fissa un’unità di misura coincidente con quella del carattere investigato, si individua un rettangolo (scatola/box) i cui estremi sono costituiti, rispettivamente, dal primo e dal terzo quartile, e la cui lunghezza è rappresentata, evidentemente, dalla differenza interquartile (δ Q ) ; — dalla scatola si traccia un segmento verticale che delimita la posizione della mediana; — si tracciano due linee esterne alla scatola, dette baffi (whiskers), per questo motivo il diagramma è detto anche box and whiskers plot. I baffi sono delimitati, rispettivamente, dai valori minimo e massimo della distribuzione. 141 Gli indici di forma Per una distribuzione di frequenza, il grafico in questione consente di evidenziare: — la misura della dispersione rappresentata dalla differenza interquartile; — informazioni relative alla forma della distribuzione, infatti, se le distanze tra ciascun quartile e la mediana sono diverse tra loro, allora la distribuzione è asimmetrica; — la presenza di outlier se si verifica uno dei due seguenti casi: a) il valore osservato è inferiore alla quantità Q1 − 1, 5δ Q ; b) il valore osservato è superiore alla quantità Q3 + 1, 5δ Q . Il grafico consente, inoltre, di comparare 2 o più distribuzioni. Se una distribuzione è simmetrica, allora la media aritmetica coincide con la mediana e, solo in questo caso, è possibile evincere il valore della media aritmetica dal grafico. Non è semplice costruire un box plot. Per dare un’idea del grafico ci serviremo di un esempio. ESEMPIO La tabella seguente riporta la distribuzione delle età degli operai di 3 reparti di un’azienda: 1 2 3 40 44 28 26 53 22 19 25 28 21 22 21 23 26 19 22 30 18 42 47 18 49 20 22 50 41 33 19 22 44 46 19 42 Tabella 1 Rappresentare le tre distribuzioni attraverso un box plot. Per costruire il box plot si devono determinare, per ciascuna distribuzione, il valore minimo, il primo quartile, la mediana, il terzo quartile e il valore massimo. Essi sono, rispettivamente: — per il reparto 1: Q1 = 22; Q0 = 19; Me = 26; Q4 = 53; Q3 = 34 Q1 = 20; Q0 = 18; Me = 23; Q4 = 49; Q3 = 36 Q1 = 21; Q0 = 19; Me = 33; Q4 = 50; Q3 = 43 — per il reparto 2: — per il reparto 3: 142 Capitolo Settimo Calcolati gli indici suddetti, su un prefissato asse si devono individuare delle barre in corrispondenza della mediana Me e dei quartili Q1 e Q3. Successivamente, le barre sono chiuse sino a formare una scatola. 60 50 * * * * * * 2 3 40 30 20 10 * * Q1 Q0 Me Q4 Q3 0 1 Fig. 3 - Box plot Dal grafico si evince che, a parte i valori anomali presenti nelle tre distribuzioni (le tre età massime), il reparto 3 è caratterizzato da maggiore dispersione dei dati intorno al valore mediano. Di seguito spiegheremo come ottenere il grafico a scatola (o box plot) per la distribuzione riportata nella tabella 1. Il foglio di lavoro, con i dati e con gli indici di posizione necessari, è il seguente: Gli indici di forma 143 Si deve procedere, quindi, con la creazione guidata del grafico: — selezionare le caselle dalla E8 alla H12; — digitare il tasto — — — — ; in «Tipo di grafico» scegliere «Linee»; procedere con il tasto «Avanti>»; selezionare «Serie in righe»; digitare il tasto «Fine». Il foglio è il seguente: Dal grafico si devono rimuovere le linee che congiungono i valori minimi, con i quartili, le mediane e i valori massimi. A questo punto: ✔ selezionare ciascuna linea; ✔ posizionarsi sul menu «Formato»; ✔ scegliere «Serie di dati selezionati»; ✔ posizionarsi sul quadro «Motivo»; ✔ attivare l’opzione «Linea - Assente»; 144 Capitolo Settimo ✔ posizionarsi sul quadro «Opzioni»; ✔ selezionare le due voci «Linee di Min-Max» e «Barre cresc.-decresc.». Il foglio Excel è il seguente: Il grafico contiene una legenda che agevola l’interpretazione dei dati. 4. CURTOSI Dal greco kurtos (gobba) la curtosi fa riferimento alla maggiore o minore gibbosità di una curva in prossimità del suo massimo e, quindi, alla maggiore o minore lunghezza delle code. La curtosi assume rilievo per una distribuzione di frequenza unimodale, la cui curva è di forma campanulare. Per valutare questo aspetto della forma di una curva, la stessa è paragonata ad una curva normale (detta anche mesocurtica - Fig. 4(a)) avente la stessa frequenza complessiva precisamente si dice che la curva è: — leptocurtica o ipernormale (Fig. 4 (b)), se, rispetto alla curva normale, presenta un eccesso di frequenza delle classi centrali, una frequenza minore delle classi intermedie e una frequenza maggiore delle classi estreme; si tratta, quindi, di una distribuzione più alta al centro e più bassa ai lati; — platicurtica o iponormale (Fig. 4 (c)), se, rispetto alla curva normale, presenta una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie; si tratta, quindi, di una distribuzione più bassa al centro e più alta ai lati. 145 Gli indici di forma y 0 y (a) x y 0 x (b) 0 (c) x Fig. 4 - Curva normale (a); curva leptocurtica (b); curva palticurtica (c) Per misurare la curtosi di una curva unimodale di forma campanulare è particolarmente utile l’indice di curtosi di Pearson la cui espressione analitica, per una serie, è la seguente: xi − µ ∑ σ i =1 n β2 = 4 (4.1) n L’indice: — vale 3 per una curva normale; — è maggiore di 3 per una distribuzione leptocurtica; — è inferiore a 3 per una distribuzione platicurtica. Se si dispone della distribuzione di frequenza, esso è: k 1 ∑ β 2 = 4 ⋅ i=1 σ (x – µ ) ni 4 i (4.2) k ∑n i i =1 Per ottenere una misura paragonabile con lo zero, Fisher ha proposto un indice che, per una serie, si ottiene sottraendo all’espressione (4.1) il numero 3, ossia: xi − µ ∑ σ i =1 n γ 2 = β2 − 3 = n 4 −3 (4.3) Esso vale 0 per una curva normale, è positivo o negativo per una curva, rispettivamente, più appuntita o meno appuntita di una curva normale. Recentemente l’indice è stato criticato perché presuppone una distribuzione simmetrica e, soprattutto, perché il suo valore dipende dal comportamento delle code della distribuzione. 146 Capitolo Settimo ESEMPIO 1 Dato il seguente insieme di numeri: 5, 7, 11, 22, 25, 24, 20, 14, 13, 8, 7, 5, 4, 1 determinare l’indice di curtosi di Fisher. Dell’insieme dato, abbiamo già determinato l’indice di asimmetria di Fisher nell’esempio 1 del paragrafo secondo, in cui abbiamo calcolato la media ( µ = 11, 86 ) e la deviazione standard (σ = 7, 71). Pertanto, l’indice di curtosi di Fisher, applicando la (4.3), è pari a: 4 4 4 4 5 − 11, 86 7 − 11, 86 4 − 11, 86 1− 11, 86 7, 71 + 7, 71 + … + 7, 71 + 7, 71 − 3 = −118 , γ2 = 14 Di seguito illustriamo il modo per determinare l’indice di curtosi di Fisher per l’insieme riportato nell’ESEMPIO attraverso un foglio Excel supponendo di non aver già calcolato gli indici statistici esposti nella formula. Per calcolare l’indice la procedura è la seguente: ✔ ✔ ✔ ✔ Nelle celle dalla A2 alla A14 riportiamo la successione. Nella cella A19 calcoliamo la media aritmetica della successione. Nella cella A20 calcoliamo lo scarto quadratico medio della successione. Nella cella B2 calcoliamo lo scarto standardizzato rispetto al primo dato della successione, digitiamo: =(A2-$A$19)/$A$20 e trasciniamo la selezione fino alla cella B15, per ottenere tutti gli scarti standardizzati. ✔ Nella cella C2 calcoliamo la quarta potenza dello scarto standardizzato rispetto al primo dato della successione, digitiamo: =POTENZA(B2;4) e trasciniamo la selezione fino alla cella B15, per ottenere tutte le potenze degli scarti standardizzati. ✔ Nella cella C16 calcoliamo la somma di tali potenze. Nella cella C21, dalla differenza tra il rapporto tra tale somma (cella C16) e il numero dei dati (14) e il numero 3, otteniamo l’indice di curtosi. 147 Gli indici di forma ESEMPIO 2 Dire se la distribuzione riportata nella tabella seguente è platicurtica o leptocurtica: xi ni 1 2 3 4 5 2 3 12 3 2 Totale 22 Tabella 2 Per determinare il grado di gibbosità della distribuzione rispetto alla distribuzione normale, usiamo indifferentemente l’indice di curtosi di Fisher o l’indice di curtosi di Pearson. Per ottenere l’indice di Fisher è necessario calcolare la media aritmetica e lo scarto quadratico medio della distribuzione. 148 Capitolo Settimo La media aritmetica è µ = 3 , mentre lo scarto quadratico medio, considerando che: Q2 = (1)2 ⋅ 2 + ( 2)2 ⋅ 3 + ( 3)2 ⋅ 12 + ( 4 )2 ⋅ 3 + ( 5)2 ⋅ 2 22 = 10 è pari a: σ = 10 – ( 3) = 10 – 9 = 1 2 Pertanto, l’indice di curtosi di Fisher è: γ2 = 4 4 4 4 4 1 (1– 3) ⋅ 2 + ( 2 – 3) ⋅ 3 + ( 3 – 3) ⋅ 12 + ( 4 – 3) ⋅ 3 + ( 5 – 3) ⋅ 2 – 3 = 3,18 – 3 = 0,18 22 (1)4 Dato il suo valore positivo, ma prossimo allo 0, si può affermare che la distribuzione è lievemente leptocurtica. Questionario 1. In corrispondenza di quali indici statistici la curva normale assume il suo valore massimo? (par. 1) 2. Se la mediana di una variabile statistica con asimmetria positiva è Me = 10, quali valori possono assumere la media aritmetica e la moda della stessa? (par. 2) 3. Per quali distribuzioni da un grafico a scatola si evince la media aritmetica? (par. 3) 4. A parità di frequenza complessiva con una curva normale, in una curva iponormale in corrispondenza di quali classi si riscontrano le frequenze maggiori? (par. 4)