CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica I DATI STATISTICI LA STATISTICA DESCRITTIVA La Statistica si occupa dei modi di raccogliere e analizzare dati relativi ad un certo gruppo di persone (gli studenti di una scuola, gli abitanti di un quartiere, gli elettori di una regione, …) o di oggetti (le automobili, i dischi, i libri, …), per trarne conclusioni e fare previsioni. La fasi fondamentali di un’indagine statistica sono quindi: - rilevamento dei dati - elaborazione dei dati Il gruppo preso in considerazione viene detto popolazione. Spesso viene presa in esame soltanto una parte della popolazione, detta campione, scelta in modo che rappresenti l’intero gruppo. Poiché la raccolta dei dati di tipo globale è molto costosa, la maggior parte della raccolta dati è di tipo campionario. I CARATTERI QUALITATIVI E I CARATTERI QUANTITATIVI Gli elementi di una popolazione si chiamano unità statistiche. E’ possibile studiare diverse caratteristiche di tali unità e ogni caratteristica rappresenta un carattere della popolazione. I caratteri possono essere di due tipi: • qualitativi • quantitativi Per esempio, se scegliamo come unità statistiche gli studenti di una scuola, alcuni caratteri qualitativi sono il sesso, il paese di provenienza, il mezzo di trasporto usato per raggiungere la scuola; sono invece caratteri quantitativi l’età, il peso, la statura. Ogni carattere vien descritto mediante le modalità con cui esso si può manifestare. Ad esempio: - il carattere sesso ha due modalità: maschile e femminile - il carattere mezzo di trasporto ha più modalità: treno, autobus, scooter, … - anche il carattere età ha più modalità: 14, 15, 16, … (se espresso in anni). TABELLE DI FREQUENZA In un compito in classe di matematica gli alunni hanno ottenuto i seguenti voti 5, 6, 6, 6, 5, 8, 6, 5, 5, 4, 7, 8, 7, 7, 4, 5, 6, 7, 7, 9 Dalla lettura di questa sequenza è difficile trarre informazioni perché i risultati si susseguono in modo disordinato. Costruiamo allora la tabella, dove nella prima colonna mettiamo le diverse modalità. Nella seconda colonna indichiamo le volte (occorrenze) in cui il voto si presenta. modalità frequenza 4 2 5 5 6 5 7 5 8 2 9 1 totale 20 Statistica_Appunti_1 1/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Definiamo il numero delle volte che il dato si presenta frequenza. L’insieme delle coppie ordinate di cui il primo elemento è la modalità e il secondo la frequenza corrispondente viene detto distribuzione di frequenza. Più spesso interessa il valore della frequenza confrontato con il numero totale delle unità statistiche. Per questo motivo viene calcolata la frequenza relativa che è definita come il rapporto fra la frequenza e il numero totale delle unità statistiche. La frequenza relativa può anche essere espressa anche in percentuale, moltiplicandola per cento. La tabella seguente riassume le frequenze relative delle modalità dell’esempio precedente modalità frequenza frequenza frequenza relativa relativa % 4 2 0,1 10% 5 5 0,25 25% 6 5 0,25 25% 7 5 0,25 25% 8 2 0,1 10% 9 1 0,05 5% totale 20 1 100% Si noti che qualora vengano fornite le frequenze relative f i e il numero totale T delle unità statistiche, è possibile calcolare le frequenze Fi di ogni modalità. Infatti essendo F f i = i , conoscendo f i e T, possiamo ricavare Fi = f i ⋅ T T Inoltre dalla definizione di frequenza relativa risulta che - la frequenza relativa è un numero compreso tra 0 e 1, 0 ≤ f i≤ 1 - la somma di tutte le frequenze relative di una distribuzione è uguale all’unità (condizione di normalizzazione) n fi 1 n 1 = ∑ fi = ⋅ n = 1 ∑ n i =1 n i =1 n Statistica_Appunti_1 2/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LE CLASSI DI FREQUENZA Studiamo i risultati ottenuti da un gruppo di studenti che, nell’ora di educazione fisica, hanno eseguito una prova di salto in lungo da fermo 1,36 1,46 1,62 1,54 1,94 1,85 1,75 1,88 1,61 1,90 1,65 1,53 1,36 1,67 1,40 1,60 1,50 1,67 1,65 1,78 2,12 1,86 In casi come questo, casi nei quali in genere le modalità dei caratteri qualitativi sono valori continui, è utile raggruppare le modalità in classi, determinando la frequenza di ogni classe. Nella tabella seguente consideriamo cinque classi classi 1,20 – 1,40 1,40 – 1,60 1,60 – 1,80 1,80 – 2,00 2,00 – 2,20 totale frequenza frequenza relativa 2 0,09 6 0,27 8 0,36 5 0,23 1 0,5 22 1 In tali casi di ogni classe è spesso utile calcolare il valore centrale, che si ottiene dividendo per 2 la somma degli estremi della classe. FREQUENZE CUMULATE E’ spesso utile indicare nelle tabelle di frequenza le frequenze cumulate: esse sono calcolando sommando le frequenze delle modalità. Si ottiene dunque, nel nostro esempio, la tabella classi 1,20 – 1,40 1,40 – 1,60 1.60 – 1,80 1,80 – 2,00 2,00 – 2,20 totale frequenza frequenza frequenza frequenza cumulata relativa % relativa % cumulata 2 2 9% 9% 6 8 27% 36% 8 16 36% 72% 5 21 23% 95% 1 22 5% 100% 22 Statistica_Appunti_1 3/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LE SERIE STATISTICHE Le tabelle ch riportano nella prima colonna le modalità di un carattere qualitativo vengono dette serie statistiche Nella seconda colonna compare o la misura della modalità quantitativa (intensità) o il numero delle volte col quale essa si presenta (frequenza). La tabella seguente riporta per quattro imprese il fatturato annuo impresa fatturato (euro) A 57300 B 48000 C 63300 D 32200 In tali distribuzioni se nella prima colonna sono riportati dei periodi di tempo, si hanno le serie storiche. Se i periodi di tempo si ripetono nel tempo, le serie storiche sono dette serie cicliche. Nelle serie storiche la seconda colonna spesso riporta non la frequenza ma l’intensità di un fenomeno (pesi, valori monetari, …) Di seguito sono riportate due esempi di serie storiche: la seconda è una serie ciclica anno prezzo (euro) 1995 5,81 1996 6,41 1997 6,61 1998 6,21 1999 6,81 giorno vendite (kg) Lunedì 240 Martedì 310 Mercoledì 185 Giovedì 170 Venerdì 280 Sabato 135 Statistica_Appunti_1 4/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica SERIAZIONI STATISTICHE Le tabelle che riportano nella prima colonna un carattere quantitativo vengono dette seriazioni statistiche. Nella seconda colonna compare la frequenza, cioè il numero delle volte col quale si presenta la relativa modalità. L’insieme delle modalità di un carattere quantitativo, alle quali è associata la loro frequenza, definisce una variabile statistica Studiamo per esempio la numerosità dei nuclei familiari degli studenti di una classe numero 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 studente numero 4 3 3 4 4 5 3 4 3 2 2 3 4 5 4 4 2 3 3 4 componenti Otteniamo la distribuzione di frequenza Numero componenti 2 3 4 5 totale Statistica_Appunti_1 frequenza 2 10 8 2 22 5/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LA RAPPRESENTAZIONE DEI DATI ORTOGRAMMA Data la tabella seguente di distribuzione di frequenze di modalità qualitative, riportiamo le frequenze su un asse verticale e sull’asse orizzontale tanti segmenti, della stessa lunghezza, quante sono le modalità modalità frequenza A 7 B 3 C 9 D 4 E 5 10 9 8 7 6 5 4 3 2 1 0 A B C D E ISTOGRAMMA Dalla tabella seguente di distribuzione di frequenze di caratteri quantitativi con le modalità raggruppati in classi, riportiamo sull’asse orizzontale i valori estremi delle classi ottenendo così dei segmenti le cui lunghezze rappresentano le ampiezze degli intervalli. Disegniamo poi dei rettangoli che hanno per base i segmenti e la cui area è proporzionale alla frequenza della classe. Se le classi hanno tutti la stessa ampiezza, come per l’ortogramma, è sufficiente prendere rettangoli con le altezze proporzionali alle frequenze classi frequenza 1,20 – 1,40 2 1,40 – 1,60 6 1,60 – 1,80 8 1,80 – 2,00 5 2,00 – 2,20 1 9 7 5 3 1 1,20 Statistica_Appunti_1 1,40 1,60 1,80 2,00 2,20 6/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Consideriamo la seguente tabella che riporta classi di frequenza con ampiezza diversa. Le altezze dei rettangoli si ottengono dividendo ogni frequenza f i per la relativa ampiezza della f classe xi , ottenendo così la densità di frequenza i xi classi frequenza 1,20 – 1,50 1,50 – 1,60 1,60 – 1,70 1,70 – 1,90 1,90 – 2,20 5 3 6 6 2 densità frequenza 16,67 30,00 60,00 30,00 6,67 60 30 16,67 6,67 1,20 1,50 1,60 1,70 1,90 Pertanto la frequenza di ogni classe si ottiene moltiplicando l’ampiezza dell’intervallo per l’altezza del rettangolo f f i= xi ⋅ i xi ed è rappresentata dall’area del rettangolo che ha per base l’ampiezza dell’intervallo e per altezza la densità di frequenza. L’AREOGRAMMA Questo tipo di grafico, detto anche diagramma circolare o diagramma a torta è utile per rappresentare le frequenze relative espresse in percentuale. Un cerchio viene suddiviso in tanti settori circolari, ognuno dei quali corrisponde ad una modalità di un carattere. Gli angoli al centro dei diversi settori hanno ampiezza proporzionale alle frequenze percentuali. modalità A B C D E frequenza percentuale 20% 15% 15% 10% 40% A E 20% 40% 15% 10% B D Statistica_Appunti_1 15% C 7/24 2,20 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica I DIAGRAMMI CARTESIANI Si usa questo tipo di rappresentazione per le seriazioni statistiche aventi modalità quantitativa discreta e per le serie storiche. Riportiamo sull’asse delle ascisse i valori della modalità discreta e sull’asse delle ordinate le frequenze. Si può costruire il diagramma semplicemente segnando i punti. L’insieme dei punti si chiama nuvola di punti modalità frequenze 4 1 5 2 6 4 7 2 8 1 5 4 3 2 1 0 3 4 5 6 7 8 9 Si possono anche evidenziare i segmenti corrispondenti alle ordinate dei punti. Il diagramma è chiamato diagramma a segmenti 5 4 3 2 1 0 3 4 5 6 7 8 9 Si può anche collegare i punti allo scopo di evidenziare l’andamento del fenomeno: si ottiene così il poligono delle frequenze che fa risaltare la forma della distribuzione 5 4 3 2 1 0 3 Statistica_Appunti_1 4 5 6 7 8 8/24 9 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica GLI INDICI DI POSIZIONE CENTRALE In statistica si cerca di riassumere una serie di dati con un valore medio (compreso tra il minimo e il massimo valore della distribuzione) che possa esprimere sinteticamente il fenomeno. Esistono medie algebriche (o medie ferme) che si determinano tenendo conto di tutti i valori della distribuzione (media aritmetica, media aritmetica ponderata, media geometrica, media armonica e media quadratica) e medie di posizione che si calcolano tenendo conto solo di alcuni valori (mediana e moda) MEDIA ARITMETICA Si definisce media aritmetica M di n numeri x1 , x 2 ,..., x n il quoziente fra la loro somma e il numero n n ∑x i x1 + x 2 + ...x n i =1 M = = n n Ad esempio per la serie di dati 61, 60, 62, 62, 64, 64, 63, 65, 65, 65, 65, 67, 67, 69, 68, 68, 66, 66, 69, 66 la media aritmetica è M = 61 + 60 + 62 + 64 + ... + 66 + 66 + 69 + 66 = 64,1 20 Se consideriamo la tabella di frequenza dei dati sopra elencati classi modalità 60 – 62 62 – 64 64 – 66 66 – 68 68 - 70 frequenze 2 3 6 5 4 notiamo che la media, utilizzata come valore di sintesi, ossia valore che riassume una caratteristica di un insieme di dati, si trova nella zona della distribuzione dove si addensano maggiormente i dati. Quando il valore di sintesi ha questa proprietà si dice che è un buon indice di posizione centrale. Statistica_Appunti_1 9/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica MEDIA PONDERATA Consideriamo la tabella relativa ai voti di una classe ottenuti in un compito e calcoliamo la media voto frequenza 4 2 5 7 6 8 7 3 8 2 totale 22 4+4+5+5+5+5+5+5+5+6+6+6+6+6+6+6+6+7+7+7+7+7+8+8 = 5,82 22 Al numeratore si può anche scrivere, raccogliendo in gruppi i voti uguali 4⋅ 2 + 5⋅7 + 6⋅8 + 7 ⋅3 + 8⋅ 2 La media allora è M = P= 4⋅ 2 + 5⋅7 + 6⋅8 + 7 ⋅3 + 8⋅ 2 = 5,82 22 Le frequenze rappresentano i diversi “pesi” che devono avere i singoli voti nel calcolo della media. La media così calcolata è detta media aritmetica ponderata Se si calcola la media ponderata nel caso di classi, si assumono come valori x1 , x 2 ,..., x n i valori centrali di ogni classe e come pesi le frequenze. Il valore ottenuto può essere diverso dalla media aritmetica Per la tabella di frequenza in classi classi frequenza 1,20 – 1,40 2 1,40 – 1,60 6 1,60 – 1,80 8 1,80 – 2,00 5 2,00 – 2,20 1 la media ponderata è 1,30 ⋅ 2 + 1,50 ⋅ 6 + 1,70 ⋅ 8 + 1,90 ⋅ 5 + 2,10 ⋅ 1 P= = 1,673 22 Il valore ottenuto può essere diverso, anche se di poco, dalla media semplice in quanto in ogni classe si è sostituito ai valori della classe il valore centrale. La media ponderata è particolarmente significativa quando i pesi servono per indicare l’importanza dei diversi valori Statistica_Appunti_1 10/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Osserviamo che la media aritmetica indica che se i dati avessero lo stesso valore questo sarebbe uguale alla media. La somma totale dei dati è uguale al numero dei dati moltiplicato per la media. Infatti dalla n M = ∑x i =1 i n si ha che n ∑x i =1 i = nM La media aritmetica possiede diverse proprietà P1. sommando ad ogni dato i x di una distribuzione con media M una costante k, la media risultante aritmetica risulta aumentata della stessa costante M+k P2. moltiplicando ogni dato i x di una distribuzione con media M per una costante k, la media aritmetica risulta moltiplicata per la stessa costante k ⋅M P3. come conseguenza delle precedenti proprietà, sommando b e moltiplicando per a ogni dato i x di una distribuzione la media aritmetica risulta a ⋅M + b Inoltre definiti: valor medio di un insieme di dati statistici quantitativi qualunque valore dal minimo al massimo dei dati ; scarti (o scostamenti) le differenze (positive, nulla o negative) fra ciascun di ciascun dato xi e un loro valor medio M, x1 − M , x 2 − M , …., x n − M si hanno le ulteriori proprietà P4. la somma algebrica degli scarti dalla media aritmetica vale zero. Infatti (x1 − M ) + (x2 − M ) + .... + (xn − M ) = x1 + x2 + .... + xn − M − M − ... − M n volte e poiché x + x + ... + x = n ⋅ M 1 2 n si ha n ⋅ M − n ⋅ M = 0 In notazione abbreviata n n n i =1 i =1 i =1 ∑ ( xi − M ) = ∑ xi − ∑ M = n⋅M −n⋅M = 0 P5. la somma dei quadrati degli scarti è minima quando gli scarti sono calcolati dalla media aritmetica M . n ∑ (x i =1 n i − M ) ≤ ∑ ( xi − A) i =1 Ciò significa che se si calcolano gli scarti, anziché dalla media aritmetica M, da un altro numero qualunque A, la somma dei quadrati di tali scarti risulta maggiore. Statistica_Appunti_1 11/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica MEDIA GEOMETRICA Si definisce media geometrica G (o M G ) di n numeri x1 , x 2 , …, x n la radice n-esima aritmetica del prodotto degli n numeri G = n x1 ⋅ x 2 ⋅ ⋅ ⋅ x n La media geometrica è di uso meno frequente della media aritmetica. In ogni caso viene usata quando il carattere è moltiplicativo e si debba determinare una distribuzione uniforme dei suoi valori, senza alterarne il prodotto. Ad esempio quando si considera il variare di un fenomeno nel tempo come il tasso di variazione dei prezzi, dei componenti di una popolazione (essere umani, insetti, ecc.), tassi di rendimento dei capitali. Esempio. Calcoliamo la media geometrica dell’andamento dei prezzi di un prodotto esposto nella tabella Anno Prezzo 2005 2006 2007 2008 2009 5,8 6,4 6,6 6,2 6,8 Rapporto rispetto l’anno precedente 1,103 1,031 0,939 1,097 G = 4 1,103 ⋅ 1,031 ⋅ 0,939 ⋅ 1,097 ≅ 1,040 Ciò significa che se il rapporto del prezzo di un periodo rispetto a quello precedente fosse costantemente circa 1,040 il prodotto di tutti i rapporti sarebbe stato invariato. Infatti 1,103 ⋅ 1,031 ⋅ 0,939 ⋅ 1,097 = 1,040 ⋅ 1,040 ⋅ 1,040 ⋅ 1,040 MEDIA GEOMTRICA PONDERATA Dati n numeri positivi x1 , x 2 ,..., x n aventi come frequenze rispettivamente f 1 , f 2 ,..., f n , con f 1 + f 2 + ... f n = n si definisce la loro media geometrica ponderata il numero n x1f1 ⋅ x 2f 2 ⋅ ⋅ ⋅ x nf n Statistica_Appunti_1 12/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica MEDIA ARMONICA Si definisce media armonica H di n numeri x1 , x 2 , …, x n il reciproco della media aritmetica dei reciproci dei valori H= 1 1 1 1 + + ... + x1 x 2 xn n = n 1 1 1 + + ... + x1 x 2 xn La media armonica si calcola per valori x1 , x 2 , …, x n tutti positivi. Vediamo un esempio dell’utilità dell’utilizzo della media armonica Esempio. La tabella riporta prezzo di un litro di benzina in quattro successivi momenti. Ogni volta si è effettuato un rifornimento per 30 euro. Calcoliamo quanto è costata in media la benzina al litro. Tempo Prezzo I 1,382 II 1,395 III 1,405 IV 1,442 Per rispondere in modo corretto si deve prima calcolare quanti litri di benzina si sono acquistati ogni volta, dividendo per 30 per il prezzo al litro ottenendo i valori della tabella Tempo Prezzo I II III IV 1,382 1,395 1,405 1,442 Litri acquistati 21,71 21,51 21,35 20,80 Dunque in totale si sono acquistati 85,37 litri spendendo 120 euro. Pertanto il costo al litro è stato 120 ≅ 1,406 85,37 Allo stesso risultato saremmo giunti calcolando la media armonica dei prezzi: H= 4 1 1 1 1 + + + 1,382 1,395 1,405 1,442 Statistica_Appunti_1 ≅ 1,406 13/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica MEDIA ARMONICA PONDERATA Dati n numeri x1 , x 2 , …, x n , tutti diversi da zero, aventi come frequenze rispettivamente f 1 , f 2 ,..., f n , si definisce la loro media armonica ponderata il rapporto f 1 + f 2 + ... + f n f f1 f 2 + + ... + n x1 x n xn Statistica_Appunti_1 14/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica MEDIA QUADRATICA Si definisce media quadratica M q di n numeri x1 , x 2 , …, x n la radice quadrata della media aritmetica dei quadrati dei numeri Mq = x12 + x 22 + .... + x n2 n La media quadratica utilizzata per calcolare il valore medio degli scostamenti da un livello prefissato. Esempio. La tabella Giorno lunedì martedì mercoledì Giovedì Venerdì Totale Variazione -2,5 1,5 0,8 -1,5 -2,4 riporta le variazioni della temperatura in gradi Celsius relative ad alcuni giorni di una settimana rispetto alla temperatura media annuale. Calcoliamo il valore della variazione media. Allo scopo si sono calcolate le variazioni al quadrato che si sono riportati nella tabella seguente Giorno Variazione Variazioni al quadrato lunedì -2,5 6,25 martedì 1,5 2,25 mercoledì 0,8 0,64 Giovedì -1,5 2,25 Venerdì -2,4 5,76 Totale 17,15 La media quadratica risulta Mq = 17,5 ≅ 1,85 5 In generale le diverse medie fin qui viste, relative allo stesso insiemi di numeri, sono diverse fra loro. Si può infatti dimostrare che, se i dati non sono tutti uguali e sono positivi, vale la relazione H < G < M < Mq Statistica_Appunti_1 15/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LA MEDIANA Le medie finora viste sono dette medie algebriche perché si calcolano mediante operazioni algebriche. In statistica però si considerano anche valori medi, caratteristiche di una distribuzione, che non provengono dal calcolo, bensì dall’esame della posizione dei dati nella distribuzione stessa. Consideriamo i valori 8, 12, 7, 9, 4, 10, 55 la cui media risulta 8 + 12 + 7 + 9 + 4 + 10 + 55 = 15 7 15 non rappresenta un buon indice di posizione centrale in quanto tutti i numeri, tranne 55, sono minori di 15. La presenza del 55 “sposta” il valor medio rispetto la posizione centrale. Si preferisce allora scegliere l’indice di posizione centrale nel seguente modo: - si dispongono i numeri in ordine crescente (o decrescente) - si sceglie il valore che sta nel centro che è 9. Tale valore è detto mediana Si può determinare la mediana anche nel caso in cui il numero dei dati è pari. Per i numeri seguenti M = 36, 22, 41, 8, 33, 46, 38, 44 dopo averli disposti in ordine crescente 8, 22, 33, 36, 38, 41, 44, 46 si prende come mediana la media dei due valori centrali, 36 e 38. La mediana dunque è 36 + 38 = 37 2 La determinazione della mediana presenta qualche difficoltà quando i termini non sono elencati singolarmente ma in tabella di frequenza modalità frequenze frequenze cumulate 0 3 3 1 8 11 2 7 18 3 4 22 4 1 23 5 1 24 6 1 25 Poiché il totale delle frequenze è 25, la mediana occupa il 13° posto. Dall’esame delle frequenze cumulate si rileva che il valore 2 occupa dal 12° al 18° posto della distribuzione di frequenze; pertanto la mediana è 2.. Statistica_Appunti_1 16/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Difficoltà ulteriore si incontra se le modalità quantitative si presentano in classi come nell’esempio seguente modalità frequenze frequenze cumulate 0 – 10 73 73 10 – 20 240 313 20 - 30 190 503 30 – 40 121 624 40 - 50 32 656 50 - 60 5 661 Si introduce l’ipotesi che i valori delle frequenze si distribuiscano uniformemente in ogni intervallo. La mediana è il valore che occupa il 331° posto e si colloca nella classe 20 e 30. Dalle frequenze cumulate rileviamo che il 313° posto è 20 e il valore cercato occupa all’interno della classe la posizione numero 331 – 313 = 18 Dividiamo l’intervallo della classe per la sua frequenza 10 = 0,0526 190 Il 18-esimo elemento della classe pertanto avrà valore 20 + 0,0526 ⋅ 18 = 20,9468 Che può essere preso, approssimandolo a 20,9. come valore della mediana. A volte, in distribuzioni con modalità raccolte in classi, si considera come approssimazione della mediana il valore di centrale della classe che occupa il posto centrale della distribuzione, che risulta dunque essere la classe mediana. Con riferimento alla distribuzione dell’esempio precedente, il cui posto centrale è il 331°, dalle frequenze cumulate si deduce che la classe “20 – 30” occupa dal 314° al 503° posto, dunque tale classe è la classe mediana. Allora si assume come valore approssimato di mediana il valore centrale di tale classe: 20 + 30 = 25 2 Statistica_Appunti_1 17/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LA MODA Consideriamo i seguenti valori 3, 8, 2, 3, 5, 1, 7, 3, 5, 3, 15, 2, 10, 3, 12, 4 e ordiniamoli in senso crescente 1, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 7, 8, 10, 12, 15 Il valore 3 ha una frequenza maggiore rispetto a tutti gli altri e vicino al 3 si trovano molti degli altri valori. In questo caso si preferisce assumere come indice di posizione centrale tale numero, che viene chiamato moda. Ci sono serie di dati che hanno più di una moda Ad esempio la distribuzione voto 4 5 6 7 8 frequenza 2 9 3 9 2 risulta bimodale. Si può calcolare la moda anche nel caso di distribuzioni di frequenza i cui valori sono raggruppati in classi. In tale caso si parla di classe modale. Nel caso in cui le classi siano di ampiezza costante la classe modale è quella avente la frequenza massima. Nel caso di classi non aventi ampiezza costante, la classe modale è quella avente maggiore il rapporto tra la frequenza e l’ampiezza della classe (densità di frequenza) classi frequenza 0 – 10 73 10 – 20 240 20 – 30 190 30 – 40 121 40- 50 32 50 - 60 5 classi frequenze densità 0 – 10 73 7,3 10 – 15 106 21,2 15 – 20 134 26,8 20 – 25 143 28,6 25 – 35 158 15,8 35 – 45 35 3,5 45 - 60 12 0,8 Statistica_Appunti_1 18/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Osservazione sull’utilizzo delle medie Quando si parla di valor medio è necessario saper con precisione a quale tipo di media ci si riferisce e bisogna prefissare lo scopo per cui si intende calcolare una media. • La media aritmetica si usa in situazioni come le seguenti: - in meteorologia per ottenere la temperature media o la caduta media di precipitazioni; - in medicina per scoprire la durata media di una malattia; - in antropologia per scoprire certe caratteristiche di un insieme di essere umani; - in economia per calcolare salari medi, prezzi, ecc. • La moda, che si considera come il valore più tipico di un insieme, non tiene però conto degli altri valori dei dati. Tuttavia anche se la moda è la media meno utile in statistica, qualche volta solo la moda è il valor medio più appropriato. Ad esempio un fabbricante di capi di vestiario è attrezzato per fare una sola taglia di camicie da uomo e deve scegliere la taglia. Se egli decide sulla base della media aritmetica delle taglie acquistate dagli uomini, non fa la scelta migliore in quanto per vendere più camicie avrebbe dovuto scegliere la moda, ovvero la taglia più comune. • La mediana è un valore intermedio e non è influenzato dagli altri valori dei dati, ma soltanto dal fatto che essi siano sotto o sopra il centro dell’insieme dei dati. La mediana si usa in diverse ricerche statistiche fra cui: - nelle assicurazioni per trovare la lunghezza media della vita; - nello studio dei medicinali per misurare l’efficacia media di un medicinale; - nell’industria per controllare la qualità di certi prodotti Statistica_Appunti_1 19/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica GLI INDICI DI VARIABILITA’ Il calcolo della media serve solo per capire l’ordine di grandezza del fenomeno sintetizzandolo in un unico valore. Per una descrizione più completa è necessario studiare come variano i dati. Consideriamo le due sequenze di valori a) 12, 24, 32, 43, 56, 74, 88 b) 42, 43, 44, 46, 49, 52, 53 Per entrambe la media è 47. Tuttavia la distribuzione dei valori intorno al valor medio 47 è diversa per le due sequenze: i valori della seconda sequenza sono più vicini al valor medio, mentre quelli della prima sequenza sono più sparsi. In statistica per indicare questo fatto, si dice che le due sequenze hanno diversa dispersione o variabilità. Per misurare la variabilità si usano gli indici di variabilità quali il campo di variazione, lo scarto semplice medio e lo scarto quadratico medio. IL CAMPO DI VARIAZIONE Il campo di variazione di una sequenza di numeri è la differenza fra il numero maggiore e il numero minore. Nella sequenza a) il campo di variazione è 88 – 12 = 76; nella sequenza b) è 53 – 42 = 11 LO SCARTO SEMPLICE MEDIO (DALLA MEDIA ARITMETICA) Il campo di variazione non è un buon indice di variabile perché tiene conto soltanto del primo e dell’ultimo valore e non di quelli intermedi. Consideriamo altre due sequenze di numeri c) 1, 4, 5, 5, 6, 6, 7, 7, 7, 12 d) 1, 1, 1, 1, 2, 10, 10, 11, 11, 12 Esse hanno entrambe lo stesso valor medio 11. Tuttavia i valori della sequenza d) sono più lontani dal 6 di quelli della sequenza c). Cerchiamo un indice che permetta di rilevare questa differenza. Per ogni valore della sequenza c) calcoliamo lo scarto assoluto dalla media che è la differenza in valore assoluto fra il valore stesso e la media: |1- 6| = 5, |4 – 6| = 2, |7 – 6| = 1, |7 – 6| = 1, |5 – 6|= 1, |5 – 6| = 1, |6 – 6| = 0, |7 – 6| = 1, |12 – 6| = 6 Statistica_Appunti_1 |6 – 6| = 0 20/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Calcoliamola la media aritmetica degli scarti che chiamiamo scarto semplice medio S= 5 + 2 +1+1+ 0 + 0 +1+1+1+ 6 = 1,8 10 In generale per una sequenza di numeri x1 , x 2 , …, x n lo scarto semplice medio è dato dalla S= x1 − M + x 2 − M + ... + x n − M n Lo scarto semplice medio e le frequenze Consideriamo di nuovo la sequenza d) 1, 1, 1, 1, 2, 10, 10, 11, 11, 12 Essa può essere descritta dalla tabella modalità frequenza 1 4 2 1 10 2 11 2 12 1 Nel calcolo dello scarto semplice ogni scarto assoluto dalla media va moltiplicato per la sua frequenza. Dunque S= 5 ⋅ 4 + 4 ⋅1 + 4 ⋅ 2 + 5 ⋅ 2 + 6 ⋅1 = 4,8 10 Le frequenze rappresentano i diversi “pesi” che devono avere i singoli scarti assoluti. In pratica si è calcolata la media ponderata degli scarti assoluti dalla media. Statistica_Appunti_1 21/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LA VARIANZA E LO SCARTO QUADRATICO MEDIO ( O DEVIAZIONE STANDARD) Invece dello scarto semplice dalla media si utilizza più spesso lo scarto quadratico medio perché è un indice più sensibile del precedente , anche per piccole variazioni nella distribuzione dei dati intorno alla media. Consideriamo la sequenza di valori 4, 7, 9, 13, 14, 18, 21, 34 La cui media è 15 Per ogni valore calcoliamo lo scarto dalla media e lo eleviamo al quadrato: i valori che si ottengono vengono detti scarti quadratici (4 – 15)2 = 121; (7 – 15)2 = 64; (9 – 15)2 = 36; (13 – 15)2 = 4; (14 – 15)2 = 1 (18 – 15)2 = 9; (21 – 15)2 = 36; (34 – 15)2 = 361 Calcoliamo poi la media degli scarti quadratici chiamata varianza 121 + 64 + 36 + 4 + 1 + 9 + 36 + 361 = 79 8 Lo scarto quadratico medio, detto anche deviazione standard, si ottiene eseguendo la radice quadrata della varianza e si indica con la lettera greca “sigma” σ = 79 = 8,8882 In generale per una serie di valori x1 , x 2 , …, x n lo scarto quadratico medio (o deviano standard è fornito dalla σ= (x1 − M )2 + (x2 − M )2 + ... + (xn − M )2 n dove M è la media aritmetica dei valori stessi P1. Sia k è un numero reale , se a tutti i numeri x1 , x 2 , …, x n si aggiunge (o si toglie) k, la varianza e la deviazione standard restano invariate. P2. Sia k è un numero reale , se tutti i numeri x1 , x 2 , …, x n vengono moltiplicati per k, allora: • la varianza dei nuovi numeri risulta moltiplicata per k 2 , k 2 ⋅σ 2 • la deviazione standard dei nuovi numeri ottenuti risulta moltiplicata per k , k ⋅σ Statistica_Appunti_1 22/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica La varianza e le frequenze Consideriamo la tabella di frequenza seguente modalità frequenza 2 3 4 1 8 2 11 4 La media risulta 2 ⋅ 3 + 4 ⋅ 1 + 8 ⋅ 2 + 11 ⋅ 4 =7 10 Per il calcolo dello scarto quadratico medio si deve moltiplicare ogni scarto quadratico pr la frequenza dei valori. La varianza è allora (2 − 7 )2 ⋅ 3 + (4 − 7 )2 ⋅ 1 + (8 − 7 )2 ⋅ 2 + (11 − 7 )2 ⋅ 4 = 15 10 Anche in questo caso le frequenze rappresentano i diversi “pesi” che devono avere i singoli scarti: abbiamo calcolato quindi la media ponderata degli scarti quadratici. Il calcolo pratico della varianza può avvenire con la regola: n Se M è la media aritmetica dei dati e M 2 = ∑x i =1 n 2 i la media aritmetica dei quadrati dei dati , si ha: σ 2 = M2 − M 2 Infatti, poiché n n n n n n n i =1 i =1 i =1 i =1 i =1 i =1 i =1 2 ∑ (xi − M ) = ∑ xi2 − ∑ 2Mxi + ∑ M 2 = ∑ x12 − 2M ∑ xi + ∑ M 2 = n n i =1 i =1 = ∑ xi2 − 2 M ⋅ nM + nM 2 = ∑ xi2 − nM 2 si ha n n i =1 2 i =1 2 ∑ (x i − M ) = ∑ xi2 − nM 2 ∑ ( x i − M )2 i =1 n e dividendo per n si ottiene n = ∑x i =1 n 2 i − M 2 c.d.d. Statistica_Appunti_1 23/24 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Coefficiente di variazione La varianza e la deviazione standard sono indici che dipendono dall’unità di misura e dall’ordine di grandezza dei dati. Per eseguire il confronto fra la variabilità di due fenomeni, occorre utilizzare una misura della variabilità “depurata” dall’influenza dell’unità di misura e dall’ordine di grandezza dei dati. Questo obiettivo si raggiunge costruendo il rapporto tra la deviazione standard e un valore che sintetizzi l’ordine di grandezza delle modalità del fenomeno osservato e che sia espresso nella medesima unità di misura: il valore che soddisfa queste proprietà è la media aritmetica. In definitiva si definisce il seguente indice, detto coefficiente di variazione: Cv = σ M dove σ e M sono rispettivamente lo scarto quadratico medio e la media di un insieme di dati. Statistica_Appunti_1 24/24