Problemi connessi con l’uso della media Media di posizione: mediana (1/2) - la media può subire forte influenza dei valori modali estremi del carattere (in alcuni casi molto differenti dagli altri dati osservati) - la media può non essere un valore osservato - la media è applicabile solo nel caso di caratteri quantitativi La mediana di un insieme di unità ordinate (secondo un carattere ordinabile) è la modalità presentata dall’unità centrale, dove per unità centrale si intende quell’unità che divide la popolazione in due parti di uguale numerosità: una parte formata dalle unità che presentano una modalità precedente o uguale a quella dell’unità centrale e una parte formata dalle unità che presentano una modalità successiva o uguale a quella dell’unità centrale Per ovviare a tali problemi introduciamo un nuovo indice: la mediana 1 2 Media di posizione: mediana (2/2) Esempio di applicazione della mediana Sia n il numero delle unità statistiche e ui la i-esima modalità del carattere. Per il computo della mediana si procede come segue: 1. ordinare le unità in senso crescente rispetto alle modalità di carattere 2. individuare la posizione dell’unità centrale: se n è dispari (n+1)/2; se n è pari si hanno due unità centrali n/2 e n/2+1 3. Attribuire alla mediana il valore u(n+1)/2 se n è dispari e a scelta un/2 o un/2+1 se n è pari.Nel caso di carattere quantitativo se ne può fare la media Relativamente all’Esempio 1 della prima lezione, ordinando i 40 valori osservati in modo crescente: 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 20° valore 21° valore Otteniamo come mediana (4+4)/2 = 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 9 3 4 Esempio di applicazione della mediana Grado di istruzione (modalità del carattere) nel 1983 fa frequenza assoluta sulla popolazione dei Paesi Bassi fa frequenza assoluta sulla popolazione del Portogallo primaria 1139955 1203119 secondaria 1466956 489696 384407 101308 universitaria Proprietà della mediana La somma degli scarti in valore assoluto (vedi sotto) delle modalità del carattere da una costante c è minima quando c è uguale alla mediana n ∑ ui − c i=1 La mediana supera ogni problema della media salvo il fatto che si deve riferire a caratteri ordinabili. Per affrontare problemi con carattere anche qualitativo sconnesso si introduce un altro indice: la moda Nel 1983 la popolazione dei Paesi Bassi è 2991318 e quella del Portogallo 1794123 Nel primo caso alle due unità 2991318/2=1495659 e 2991318/2+1=1495660 corrisponde la stessa modalità “istruzione secondaria, nel secondo caso alla posizione dell’unità centrale (1794123+1)/2 corrisponde la modalità “istruzione primaria” 5 Elementi di statistica descrittiva – Parte III 6 1 Media di posizione: moda Osservazioni relative alla moda Si definisce moda la modalità della distribuzione che si presenta con la massima frequenza sia essa assoluta, relativa, percentuale. carattere 1 2 La moda può non essere unica. Se è unica, la distribuzione si dice unimodale. Se non è unica, la distribuzione si dice bi-, tri-,…-modale Relativamente all’Esempio 1 della prima lezione, la moda è 4 e la distribuzione è unimodale Se la distribuzione del carattere è suddivisa in classi si definisce la classe modale che è definita come la classe a cui corrisponde la frequenza più alta. Se rappresentiamo la distribuzione di frequenze in termini grafici, mediante un istogramma di frequenze, la moda rappresenta il picco più alto. Se una distribuzione è bimodale si evidenzia il fatto che le unità statistiche osservate sono molto eterogenee. fa 1 6 3 4 5 10 12 6 6 9 tot 4 1 40 7 8 Quartili e percentili Se u1,u2,…,un (modalità del carattere) sono ordinati in modo crescente, si dicono primo, secondo, terzo quartile (Q1,Q2,Q3) quei tre valori di u che dividono la popolazione in 4 parti ugualmente numerose. I quartili sono punti di separazione tali che il 25% della popolazione ha modalità <Q1, il 50% <Q2, il 75% <Q3. Il secondo quartile coincide con la mediana. I dati sono divisi dai quartili in 4 gruppi contenenti lo stesso numero di elementi. Rappresentazione numerica Valori di sintesi Indici di dispersione o variabiltà Se dividiamo l’insieme ordinato u1,u2,…,un in 100 parti uguali, i valori di divisione sono detti percentili. Un centesimo di popolazione ha modalità minore del primo percentile, due centesimi dei dati minore del secondo percentile, ecc. Il 25° percentile coincide col primo quartile, il 50° percentile coincide col secondo quartile, il 75° percentile coincide col terzo quartile. 9 Introduzione agli indici di dispersione Osserviamo che una media, pur fornendo una sintesi della distribuzione delle modalità di un carattere osservato su una popolazione, rappresenta bene la distribuzione quanto più le unità presentano modalità prossime a questa. Analizziamo questo esempio: Modalità del carattere distribuzione 1 distribuzione 2 -4 1.2 1.2 -3 12.2 6.1 -2 24.4 12.2 -1 11.0 18.3 0 2.4 24.4 1 11.0 18.3 2 24.4 12.2 3 12.2 6.1 4 1.2 1.2 10 Indice di dispersione o variabilità La variabilità di una distribuzione esprime la tendenza delle unità di una popolazione ad assumere diverse modalità di carattere Un indice di dispersione o di variabilità è un indice che sintetizza la diversità tra ogni modalità oppure tra due particolari valori caratteristici della distribuzione. Un indice di dispersione deve assumere il valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere. Si osserva uno stesso carattere su due differenti popolazioni di uguale numerosità e si riporta una tabella con distribuzioni di frequenza percentuale. Per entrambe la media è 0 - la prima presenta due massimi in corrispondenza di due valori –2 2 e un minimo in corrispondenza del valore 0; - la seconda assume un unico massimo in corrispondenza del valore 0 E’ evidente che la seconda distribuzione ha una media più significativa come sintesi della distribuzione. Un indice di dispersione deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità statistiche. 11 Elementi di statistica descrittiva – Parte III 12 2 Varianza (1/3) Varianza (2/3) Limitandoci a caratteri quantitativi: Si dice devianza: Si definisce varianza la media dei quadrati degli scarti dalla media aritmetica. n σ2 = σ2 = ∑ (u i − x )2 i=1 ( u1 − x ) 2 + ( u2 − x ) 2 + ... + ( u n − x ) 2 n 1 n 2 σ = ∑ ( ui − x ) 2 n i=1 Disponendo di distribuzioni di frequenze con k modalità: σ2 = Valori piccoli di varianza indicano che i dati sono concentrati vicino alla media 1 n k ∑ (u j − x )2 nj σ2 = j=1 k ∑ (u j − x ) 2 fj j=1 dove nj e fj sono rispettivamente le frequenze assolute e relative corrispondenti alla j-esima modalità 13 14 Varianza campionaria Varianza (3/3) Se il carattere in esame è ottenuto da un campione della popolazione che si vuole studiare, l’espressione della varianza fornisce una valutazione sottostimata della varianza dell’intera popolazione. La differenza è tanto più sensibile quanto più piccolo è il campione. Per eliminare questa distorsione si moltiplica la varianza ottenuta per il rapporto: n Osservazioni sull’espressione della varianza: Nell’espressione matematica della varianza le differenze vengono elevate al quadrato per evitare che differenze di segno opposto tendano ad annullarsi reciprocamente La varianza, dunque, assume il valore 0 solo quando tutte le modalità sono uguali al valore medio, ossia quando tutte sono uguali fra loro n − 1 Si ottiene così la varianza campionaria: S2 = Inoltre, le differenze di maggior valore vengono esaltate, perché aumentano più che proporzionalmente. 1 n − 1 n ∑ (u i − x )2 i=1 La varianza campionaria è sempre maggiore della varianza. Quanto più numeroso è il campione, tanto più varianza e varianza campionaria si avvicinano. Ne segue che valori piccoli di varianza indicano che i dati sono concentrati vicino alla media 15 16 Varianza approssimata Esempio di calcolo di varianza Supponiamo di osservare le modalità di un carattere assunte da una popolazione di 50 unità statistiche con media 5.6 Relativamente all’Esempio 2, esprimiamo la media sulle 20 osservazioni, utilizzando i valori centrali delle classi e le frequenze percentuali: la media è 19.2. La varianza “approssimata” risulta: σ2 = 1 n n ∑ i=1 ( x i* − x ) 2 fi = 1 n n ∑x i= 1 *2 i fi − ( x ) 2 1⋅ ( 17.25)2 + 3 ⋅ ( 17.75)2 + 3 ⋅ ( 18.25)2 + 4 ⋅ ( 18.75)2 + 1⋅ ( 19.25)2 + 4 ⋅ ( 20.25)2 + 3 ⋅ ( 20.75)2 + 1⋅ ( 21.25)2 − ( 19.2 )2 = σ2 = 20 7402.25 = − ( 19.2 )2 = 1.4725 20 Modalità di carattere Frequenza Differenza assoluta: nj modalitàmedia: e e2 e2nj -10 5 -15.6 243.36 1216.80 -5 10 -10.6 112.36 1123.60 5 12 -0.6 0.36 4.32 10 20 4.4 19.36 387.20 40 3 34.4 1183.36 3550.08 Totale 50 6282 La quarta colonna è formata da tutti valori positivi. La quinta colonna mostra come valori grandi in valore assolto si sono esaltati: -15.6 e 34.4. La varianza è: 6282/50=125.64 17 Elementi di statistica descrittiva – Parte III 18 3 Esempio: deviazione standard Deviazione standard I seguenti insiemi: (-100,300) e (50,150) hanno la stessa media 100. Gli scarti quadratici medi o deviazioni standard sono diversi: Osserviamo che la varianza, come indice di variabilità, non possiede la stessa unità di misura dei valori della distribuzione σ1 = Si definisce deviazione standard o scarto quadratico medio la radice quadrata della varianza. σ = σ2 = ( 100 + 100 ) 2 + ( 100 − 300 ) 2 = 200 2 2 2 ( 100 − 50 ) + ( 100 − 150 ) = 50 2 2 2 Gli scarti quadratici sono: 200 e 50 Ciò significa che i dati del primo insieme sono molto più dispersi attorno alla media rispetto a quelli del secondo. σ2 Otteniamo in tal modo il risultato voluto, non perdendo nessuna caratteristica rappresentata dalla varianza. -100 0 100 200 300 19 20 Coefficiente di variazione Esempio di calcolo di CV (1/2) La deviazione standard è un indice di variabilità assoluto che, dunque, risente dell’unità di misura e dell’ordine di grandezza dei dati. Per permettere confronti tra fenomeni che presentano unità di misura differenti o possiedono valor medio molto diverso si utilizza un indice di variabilità percentuale: Consideriamo il carattere “quantità di pulviscolo inquinante” che fuoriesce dalla ciminiera di un certo tipo di industria. In una regione si hanno 9 industrie che hanno installato un dispositivo di tipo A e altre 9 che ne hanno installato uno di tipo B. Il coefficiente di variazione CV della distribuzione di un carattere, di media diversa da zero è dato dal rapporto tra la deviazione standard e la media aritmetica moltiplicato per 100 CV = tipo Quantità di pulviscolo emesso (gr/min) A 69 80 44 52 54 54 86 77 66 B 35 62 43 23 30 28 22 40 25 σ 100 x 21 Esempio di calcolo di CV (2/2) Scostamenti semplici medi La quantità media di pulviscolo eliminata è pari a 64.67 per il dispositivo di tipo A e 34.22 per il dispositivo di tipo B, mentre le deviazioni standard sono pari 13.65 per A e 12.02 per B. La conclusione che la distribuzione relativa ad A sia più variabile di quella relativa a B è erronea: non si tiene conto delle possibili differenze dimensionali delle due distribuzioni, evidenziate dal valor medio (64.67>>34.22). Più semplicemente si può misurare la variabilità di una distribuzione attraverso scostamenti semplici medi tra i valori osservati e una media. Si definisce scostamento semplice dalla media aritmetica la media aritmetica delle differenze, in valore assoluto, tra i valori osservati ui e la loro media aritmetica Per un corretto confronto calcoliamo i corrispondenti CV 13 64 12 = 34 CV A = CV B . 65 100 . 67 . 02 100 . 22 = 21 % = 35 % 22 σ CV = 100 x Sx = 1 n n ∑ ui − x i=1 Con le varianti: E’ la distribuzione relativa a B la più variabile 23 Elementi di statistica descrittiva – Parte III 24 4 Scostamenti semplici medi Scostamenti semplici medi Attraverso le frequenze assolute e relative Sx = 1 n Si definisce scostamento semplice dalla mediana la media aritmetica delle differenze, in valore assoluto, tra i valori osservati ui e la loro mediana K ∑ ui − x n i i=1 K Sx = ∑ ui − x fi Sx = i=1 1 n n ∑ ui − m i=1 Con le varianti analoghe al caso della media. 25 26 Intervalli di variabilità Esempio di applicazione degli scostamenti semplici medi Gli intervalli di variabilità sono indici che si basano sul confronto di due valori caratteristici della distribuzione. In un ospedale si osserva per un determinato anno la distribuzione di frequenze corrispondente al numero di nati per madri di età compresa fra i 22 e i 29 anni Età madre 22 23 24 25 26 27 28 29 totale nati 5 3 8 12 13 24 35 27 127 Ss media 4.92 3.92 2.92 1.92 0.92 0.08 1.08 2.08 Ss mediana 5 3 2 1 0 1 2 4 Dato un insieme u1, u2,…,un ordinato in senso crescente di modalità del carattere osservato, si definisce campo di variazione la differenza fra il più grande e il più piccolo di tali valori. R = un − u1 La media aritmetica è pari a 26.92 e la mediana a 27. Lo scostamento semplice dalla media 0.14 e lo scostamento semplice dalla mediana 0.14 Semplice da computarsi, ma molto poco attendibile perché sensibile ai valori anomali. 27 28 Esempio di applicazione delle differenze interquartili Intervalli di variabilità Supponiamo di conoscere la distribuzione di un carattere su due differenti popolazioni composte da 100 unità statistiche. Segue la tabella delle distribuzioni con frequenza cumulativa Se u1,u2,…,un (modalità del carattere) sono ordinati in modo crescente e si dicono Q1,Q2,Q3 il primo, secondo, terzo quartile introduciamo un intervallo di variazione come: differenza interquartile: interquartile la differenza fra il terzo e il primo quartile W = Q 3 − Q1 Tenendo conto della definizione di quartile, possiamo dire che la differenza interquartile rappresenta il campo di variazione per il 50% delle unità centrali ovvero più vicine alla mediana.Vengono così escluse le osservazioni estreme. Modalità di carattere 1 2 3 4 5 6 7 totale 1nj 2 5 20 50 15 5 3 100 2nj 10 25 10 10 10 15 20 100 1Nj 2 7 27 77 92 97 100 2Nj 10 35 45 55 65 80 100 Per la prima distribuzione Q1 =3 (si calcola come media fra la 25esima e la 26-esima modalità) Q2 =4 (si calcola come media fra la 75-esima e la 76-esima modalità). Per la seconda Q1 =2 e Q2 =6. W(1) =1 e W(2) =4.Il campo di variazione semplice è uguale per entrambe le distribuzioni e vale 6. 29 Elementi di statistica descrittiva – Parte III 30 5 Il grafico a scatola (“box plot”, “box and whiskers”) whiskers”) Il grafico a scatola (“box plot”, “box and whiskers”) whiskers”) Il grafico a scatola, altrimenti detto box plot, plot è una tipologia di rappresentazione grafica proposta dallo statistico americano J. W. Tukey; essa si ottiene da una serie di indici di una distribuzione, da cui ricava i dati significativi trascurando quelli non importanti. Agevola il confronto visivo fra due o più distribuzioni Valori anomali (“outliers”) max oppure: Esso si avvale dei tre seguenti elementi: 1,5(Q3-Q1) •Una linea o un punto che indicano la posizione della media della distribuzione (in generale mediana) Q3 Mediana •Un rettangolo la cui altezza indica la variabilità dei valori prossimi alla media (in generale la distanza interquartile) Q3-Q1 Q1 •Due segmenti che partono dai lati minori del rettangolo e i cui estremi sono determinati in base ai valori estremi della distribuzione (in generale minimo e massimo della distribuzione). min 31 Elementi di statistica descrittiva – Parte III 1,5(Q3-Q1) 32 6