Elementi di Statistica descrittiva Parte II 1 Nella prima parte di queste note si sono illustrate le tecniche utilizzate per rappresentare i dati, in maniera sintetica, mediante tabelle e grafici. Tali tecniche sono applicabili sia a caratteri quantitativi che qualitativi. Da quanto visto finora, una popolazione (o un campione) è caratterizzata da una distribuzione di frequenze (a ogni valore distinto corrisponde una frequenza relativa, la somma delle frequenze relative è sempre 1, ma come sono distribuiti fra le varie frequenze i vari addendi che sommati danno 1?). Uno dei compiti principali della statistica descrittiva è lo studio delle distribuzioni. In questa seconda parte vediamo come sintetizzare, tramite un numero, i dati raccolti: alcune di queste tecniche possono essere usate solo con caratteri numerici, altre anche con caratteri qualitativi. Elementi di Statistica descrittiva – Parte II Paaina 1 Rappresentazione numerica Valori di sintesi Indici di posizione 2 Gli indici di posizione (detti anche medie) servono a individuare un singolo valore rappresentativo della distribuzione. Se, come caso limite, tutti i valori fossero uguali fra di loro l’indice di posizione coinciderebbe con questo unico valore. Elementi di Statistica descrittiva – Parte II Paaina 2 Media Siano u1,u2,…,un osservazioni numeriche, si definisce media aritmetica o media campionaria o semplicemente media: 1 u + u 2 + ... + u n x = 1 = n n 1 ui = n i =1 n k j =1 njxj Relativamente all’Esempio 1, esprimiamo la media sulle 40 osservazioni 1•1 + 2•6 + 3•10 + … = 154 154/40 = 3,85 3 La funzione MEDIA di Excel fornisce la media. Oltre alla media aritmetica si definisce anche una media geometrica, che qui non consideriamo. Elementi di Statistica descrittiva – Parte II Paaina 3 Proprietà della media 1 x = n n i =1 ui La media è sempre compresa fra il minimo e il massimo dei dati, non è detto che coincida con uno dei dati. La media della somma di più gruppi di osservazioni è uguale alla somma delle medie di ciascun gruppo. Il prodotto di n per la media è uguale alla somma degli n dati. Chiamando scarto la differenza di un dato dalla media, la somma degli scarti è nulla. 4 Si dimostra che la media è quel numero c che rende minima la somma (u1-c)2+(u2-c)2 +…+(un-c)2 (somma degli scarti elevati al quadrato). La media può essere calcolata solo per caratteri quantitativi. Elementi di Statistica descrittiva – Parte II Paaina 4 Media approssimata Se gli n dati osservati sono attribuiti ad una variabile continua e se si dispone della tabella relativa ai dati raggruppati, si può dare una valutazione approssimata della media, media usando i valori centrali delle k classi e le frequenze assolute di ogni classe k x = i= 1 fi x *i n 5 La media approssimata viene utilizzata quando non si dispone dei dati grezzi, ma dei dati già raggruppati in classi (come capita spesso con variabili numeriche continue). x*i è il valore centrale della i-esima classe. Elementi di Statistica descrittiva – Parte II Paaina 5 Esempio: media approssimata x= classe fa 17 − 17 . 5 1 17 . 5 − 18 3 18 − 18 . 5 3 18 . 5 − 19 4 19 − 19 . 5 1 19 . 5 − 20 0 20 − 20 . 5 4 20 . 5 − 21 3 21 − 21 . 5 1 tot 20 Relativamente all’Esempio 2, esprimiamo la media approssimata. (La media esatta è 19,28). 1⋅ 17.25 + 3 ⋅ 17.75 + 3 ⋅ 18.25 + 4 ⋅ 18.75 + 1.19.25 + 4 ⋅ 20.25 + 3 ⋅ 20.75 + 1⋅ 21.25 = 19.2 20 6 Esempio 2 della parte I. In questo caso abbiamo la variabile continua fornita raggruppata in classi di ampiezza 0,5. Il valore esatto 19,28 era stato calcolato utilizzando i dati grezzi (che ora supponiamo di non avere più a disposizione). Elementi di Statistica descrittiva – Parte II Paaina 6 Moda Siano x1,x2,…,xk k valori osservati caratterizzanti classi di frequenza di n osservazioni ed f1,f2,…,fk le relative frequenze, si definisce moda il valore osservato caratterizzante la classe che corrisponde alla massima frequenza La moda può non essere unica. Se è unica, la distribuzione si dice unimodale. Se non è unica, la distribuzione si dice bi-, tri,…-modale classe Relativamente all’Esempio 1, la moda è 4 e la distribuzione è unimodale fa 1 2 3 1 6 10 4 5 12 6 6 9 tot 4 1 40 7 La scelta del valore più frequente è in alcuni casi più significativa della scelta della media. In particolare la moda è sempre un valore osservato, la media può non esserlo. La moda può essere determinata per qualunque tipo di carattere. Se la distribuzione è suddivisa in classi si ha, invece della moda, una classe modale (classe in corrispondenza della quala si ha la frequenza massima). La funzione MODA di Excel fornisce la moda. Elementi di Statistica descrittiva – Parte II Paaina 7 Mediana Siano u1,u2,…,un n valori osservati ordinati in modo crescente, mediana è il valore osservato che occupa la posizione centrale, se n è dispari, oppure la media aritmetica dei due valori centrali, se n è pari Relativamente all’Esempio 1, ordinando i 40 valori osservati in modo crescente: 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 4 4 4 20° valore 21° valore Otteniamo come mediana (4+4)/2 = 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 9 8 La mediana può essere calcolata per caratteri quantitativi oppure per caratteri qualitativi ordinabili. Si dimostra che, nel caso di caratteri quantitativi, la mediana è quel valore c che rende minima la somma |u1-c|+ |u2-c|+…+|un-c| (somma dei valori assoluti degli scarti). La funzione MEDIANA di Excel determina la mediana. Elementi di Statistica descrittiva – Parte II Paaina 8 Quartili e percentili Se u1,u2,…,un sono ordinati in modo crescente, si dicono primo, secondo, terzo quartile (Q1,Q2,Q3) quei tre valori che dividono l’insieme dei dati in 4 parti uguali. I quartili sono dei punti di separazione tali che il 25% dei dati è <Q1, il 50% è <Q2, il 75% è <Q3. Il secondo quartile coincide con la mediana. I dati sono divisi dai quartili in 4 gruppi contenenti lo stesso numero di elementi. Si dice differenza interquartile la differenza Q3 - Q1 Se dividiamo l’insieme ordinato u1,u2,…,un in 100 parti uguali, i valori di divisione sono detti percentili. Un centesimo dei dati sono minori del primo percentile, due centesimi dei dati sono minori del secondo percentile, ecc. Il 25° percentile coincide col primo quartile, il 50° percentile coincide col secondo quartile, il 75° percentile coincide col terzo quartile. 9 La funzione QUARTILE di Excel determina un quartile. Il primo parametro* richiesto dalla funzione identifica l’insieme dei dati, il secondo parametro il quartile. Esempio: QUARTILE(C2:C50;3) determina il 3°quartile dei dati contenuti nelle celle C2:C50. La funzione PERCENTILE di Excel determina un percentile. Il primo parametro identifica l’insieme dei dati, il secondo parametro il percentile. Esempio: PERCENTILE(C2:C50;12) determina il 12°percentile dei dati contenuti nelle celle C2:C50. ________________________________________________________ (*) NOTE sui parametri delle funzioni Excel. Un parametro stabilisce un valore di una variabile indipendente e lo passa alla funzione, come risultato la funzione viene calcolata per quel valore. Il parametro deve essere scritto immediatamente dopo il nome della funzione racchiuso fra parentesi tonde, non si devono usare altri tipi di parentesi. Esempio: RADQ(9) calcola la funzione radice quadrata per il valore 9 della variabile indipendente. Alcune funzioni possono richiedere più di un parametro. In tal caso i parametri devono essere separati dal carattere “;”. Esempio: MEDIA(-2;3;1,5) calcola la funzione media per tre valori delle variabili. Un parametro può indicare, invece che un numero, una funzione. Esempio: MEDIA(-2;RADQ(9);1,5) calcola lo stesso valore dell’esempio precedente. Un parametro può indicare le coordinate di una cella. In tal caso il valore della variabile è il valore contenuto nella cella. Esempio: MEDIA(-2;B3;1,5) calcola lo stesso valore dell’esempio precedente se la cella B3 contiene il valore 3. Un parametro può indicare più valori contenuti in una matrice di celle contigue, che sul foglio di lavoro determinano un rettangolo. In tal caso il parametro deve indicare i due vertici opposti del rettangolo. Esempio: MEDIA(C5:E6;8) calcola la media di sette valori: i sei numeri contenuti nella matrice (2 righe×tre colonne) compresa fra la cella C5 e la cella E6 e il numero 8. Elementi di Statistica descrittiva – Parte II Paaina 9 Rappresentazione numerica Valori di sintesi Indici di dispersione 10 Gli indici di dispersione servono a descrivere la dispersione della distribuzione, ossia in che misura i dati sono raggruppati intorno a un indice di posizione. Elementi di Statistica descrittiva – Parte II Paaina 10 Varianza Un indice di dispersione è un valore che in qualche senso indica come i dati (numerici) osservati si distribuiscono attorno ad un indice di posizione Siano u1, u2,…,un osservazioni numeriche, si definisce varianza la quantità: σ 2 ( u 1 − x ) 2 + ( u 2 − x ) 2 + ... + ( u n − x ) 2 = n n 1 σ2 = ( u i − x )2 n i =1 Valori piccoli di varianza indicano che i dati sono concentrati vicino alla media 11 Nella varianza le differenze vengono elevate al quadrato per evitare che differenze di segno opposto tendano ad annullarsi reciprocamente. In tal modo le differenze di maggior valore vengono esaltate. La varianza può essere calcolata solo per caratteri quantitativi. Elementi di Statistica descrittiva – Parte II Paaina 11 Proprietà della varianza σ 2 1 = n n i =1 ( u i − x )2 1. La varianza è non negativa; 2. La varianza è nulla se e solo se lo sono tutti gli scarti, ossia se tutti gli n valori osservati sono uguali fra loro; 3. Si può dimostrare che: σ 2 1 = n n i =1 u 2 − ( x )2 = ( x 2 ) − ( x )2 i 12 Elementi di Statistica descrittiva – Parte II Paaina 12 Deviazione standard Siano u1, u2,…,un osservazioni numeriche, si definisce deviazione standard (o scarto quadratico medio): n σ = i =1 ( u i − x )2 n La deviazione standard si esprime con la stessa unità di misura dei dati osservati. σ = σ 2 13 La varianza non ha le stesse dimensioni fisiche della caratteristica in esame. La deviazione standard, eliminando questo inconveniente, fornisce una grandezza direttamente confrontabile con la caratteristica. Elementi di Statistica descrittiva – Parte II Paaina 13 Esempio: deviazione standard I seguenti insiemi: (-100,300) e (50,150) hanno la stessa media 100. Gli scarti quadratici sono diversi: σ1 = ( 100 + 100 ) 2 + ( 100 − 300 ) 2 = 2 σ2 = ( 100 − 50 ) 2 + ( 100 − 150 ) 2 = 2 200 2 50 2 Gli scarti quadratici sono: 200 e 50 Ciò significa che i dati del primo insieme sono molto più dispersi attorno alla media rispetto a quelli del secondo. -100 0 100 200 300 14 Elementi di Statistica descrittiva – Parte II Paaina 14 Varianza campionaria Se il carattere in esame è ottenuto da un campione della popolazione che si vuole studiare, la varianza usata finora fornisce una valutazione sottostimata della varianza della popolazione. La differenza è tanto più sensibile quanto più piccolo è il campione. Per eliminare questa distorsione si moltiplica la varianza per il rapporto: n n −1 Si ottiene così la varianza campionaria: σ 2 1 = n−1 n i =1 ( u i − x )2 La varianza campionaria è sempre maggiore della varianza. Quanto più numeroso è il campione, tanto più varianza e varianza campionaria si avvicinano. 15 La funzione VAR.POP di Excel determina la varianza. La funzione DEV.ST.POP di Excel determina la deviazione standard. La funzione VAR di Excel determina la varianza campionaria. La funzione DEV.ST di Excel determina la deviazione standard campionaria. Elementi di Statistica descrittiva – Parte II Paaina 15 Varianza approssimata Relativamente all’Esempio 2, esprimiamo la media sulle 20 osservazioni, utilizzando i valori centrali delle classi e le frequenze: la media è 19.2. La varianza “approssimata” risulta: 1 σ = n 2 1 ( x i − x ) fi = n i=1 n * 2 n 2 x *i fi − ( x ) 2 i=1 2 2 2 2 2 1 ⋅ ( 17 . 25 ) + 3 ⋅ ( 17 . 75 ) + 3 ⋅ ( 18 . 25 ) + 4 ⋅ ( 18 . 75 ) + 1 ⋅ ( 19 . 25 ) + 4 ⋅ ( 20.25)2 + 3⋅ ( 20.75)2 +1⋅ ( 21.25)2 −(19.2)2 = σ2 = 20 7402.25 = −(19.2)2 = 1.4725 20 16 Elementi di Statistica descrittiva – Parte II Paaina 16 Il grafico a scatola (“box plot”, “box and whiskers”) max Valori anomali oppure: 1,5(Q3-Q1) Q3 Mediana Q3-Q1 Q1 min 1,5(Q3-Q1) 17 Il grafico a scatola, altrimenti detto box plot, è una tipologia di rappresentazione grafica proposta dallo statistico americano J. W. Tukey; essa si ottiene da una serie di dati, da cui ricava i dati significativi trascurando quelli non importanti. Il grafico è costruito nel modo seguente: La “scatola” è un rettangolo e rappresenta il 50% dei valori. In essa è evidenziato un valore intermedio di riferimento (di solito la mediana, talvolta la media). Il bordo superiore rappresenta il terzo quartile (Q3), il bordo inferiore rappresenta il primo quartile (Q1); I due “baffi” (whisker) che escono in basso e in alto rappresentano rispettivamente i valori minori del 1°quartile e maggiori del 3°quartile. min e max sono i valori rilevati minimo e massimo. Siccome nei dati grezzi possono essere presenti valori anomali che influiscono sulla lunghezza dei baffi ma poco sugli altri valori, di solito si preferisce la variante di box plot rappresentata nella parte destra della figura e che viene costruita come segue: La lunghezza dei baffi non può superare un certo limite prestabilito (tipicamente 1,5 volte la differenza interquartile); gli eventuali valori che escono dai baffi vengono evidenziati, uno per uno singolarmente. Nell’esempio riportato in figura non c’erano valori anomali inferiori a Q1, quindi il baffo inferiore non subisce modifiche. Superiormente a Q3 esistono invece due valori anomali che vengono evidenziati, mentre il baffo superiore viene ridotto di lunghezza, fino al più grande dei valori regolari. Elementi di Statistica descrittiva – Parte II Paaina 17