Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 1 A. I dati riportati nella seguente tabella si riferiscono a 20 individui che hanno soggiornato nell’ultima settimana presso una data struttura alberghiera. Per ciascun individuo è stata rilevata l’età (in anni compiuti), il livello socio-economico (1 = elevato, 2 = medio, 3 = basso), la zona di residenza (1 = urbana, 0 = non urbana) ed i giorni di presenza. Unità statistica Età Livello socio-economico Zona di residenza Giorni di presenza 1 37 1 0 7 2 46 1 0 6 3 37 2 1 4 4 39 1 1 6 5 55 1 0 6 6 67 1 0 7 7 23 1 1 4 8 26 3 1 3 9 33 1 1 4 10 35 1 1 5 11 56 1 1 5 12 22 1 0 3 13 28 1 1 4 14 26 2 1 2 15 60 1 1 7 16 34 3 1 2 17 38 1 0 5 18 27 1 1 5 19 31 2 1 1 20 18 3 1 2 • Si calcolino le distribuzioni semplici di frequenza dei caratteri livello socio-economico, giorni di presenza e età, utilizzando per quest’ultimo carattere le classi 18-30, 31-50 e 51-75; • per la distribuzione del livello socio-economico si calcolino le frequenze relative e percentuali e si rappresenti graficamente la distribuzione; • per la distribuzione dell’età, si rappresenti l’istogramma di frequenza e la funzione di ripartizione (N.B. si effettui la correzione per continuità in modo opportuno). B. Si consideri la distribuzione dei giorni di presenza di cui al punto A. Con riferimento a tale distribuzione: • si calcoli la media aritmetica, la mediana e la deviazione standard; • si ottenga la corrispondente distribuzione di frequenza e la si rappresenti con un opportuno grafico; • sulla base della distribuzione di frequenza ottenuta, si calcoli la media aritmetica, la mediana e la deviazione standard. Quindi, si verifichi che si ottengono gli stessi risultati ottenuti in precedenza utilizzando la distribuzione unitaria o disaggregata. Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca C. Si consideri la seguente distribuzione unitaria relativa al numero di addetti rilevato in 11 alberghi di data una località turistica: 5 10 7 3 12 4 6 18 9 22 19 • si calcoli la media aritmetica, la media geometrica e la mediana. • si calcoli la varianza e il campo di variazione. D. Con riferimento alla seguente distribuzione del fatturato (in milioni di €) riguardante il settore manifatturiero nel 2008: Fatturato 0-0.5 0.5-1 1-5 5-10 10-25 25-50 8 136 2997 2954 3189 1446 N. imprese • si rappresenti graficamente la distribuzione con un istogramma di frequenza; • si calcoli la media aritmetica, la mediana, il primo e terzo quartile; • si individui la classe modale; • si calcoli la deviazione standard e l’intervallo interquartilico. E. La seguente tabella riporta il tasso di criminalità (numero di crimini per 100 abitanti) per alcune regioni italiane nel 1999. Regione Tasso di Popolazione residente criminalità (%) al 31/12/1999 (×1000) Piemonte 4.39 4287 Valle d’Aosta 3.07 120 Umbria 3.11 835 Lazio 5.37 5264 Campania 3.82 5781 • Si calcoli una opportuna media del tasso di criminalità per le regioni considerate. F. Si considerino i seguenti valori percentuali dell’Euribor (Euro Interbank Offered Rate) ad 1 mese registrati nell’ultimo giorno lavorativo di ciascun mese per l’anno 2008: Mese Quotazione 1 2 3 4 5 6 7 8 9 10 11 12 2.647 2.387 2.589 2.792 2.897 2.666 3.030 3.094 3.383 3.272 3.574 3.634 1. Calcolare la media aritmetica, la media geometrica e la media quadratica. Quindi, verificare che vale la diseguaglianza µ g ≤ µ ≤ µq . 2. Calcolare la mediana ed i quartili. 3. Calcolare la deviazione standard e la differenza interquartile. G. Si considerino le seguenti distribuzioni relative al numero di esami sostenuti dagli studenti del primo anno di due Università italiane: Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Università 1 Università 2 Num. esami Frequenza Num. esami Frequenza 0 14 0 23 1 41 1 56 2 83 2 154 3 116 3 27 4 56 4 12 5 5 5 2 • Per entrambe le distribuzioni si calcoli la devianza, la varianza e il coefficiente di variazione percentuale e, sulla base dei risultati ottenuti, si dica quale delle due distribuzioni presenta maggiore variabilità. Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca H. Si indichi se ognuna delle seguenti affermazioni è vera o falsa N. Domanda 1 Un collettivo statistico è un insieme di unità statistiche 2 Le frequenze assolute non sono mai negative 3 La temperatura è un carattere quantitativo continuo 4 Il titolo di studio è un carattere quantitativo discreto 5 Le frequenze relative non sono mai maggiori del numero di modalità 6 La somma delle frequenze relative è sempre pari al numero di osservazioni 7 La frequenza relativa di una modalità è il numero di volte in cui la modalità viene osservata 8 Per il carattere età in anni compiuti, la correzione per continuità viene effettuata aggiungendo 1 all’estremo destro di ogni classe 9 Le frequenze relative si possono calcolare solo per i caratteri qualitativi 10 La somma di tutte le frequenze assolute è pari al numero di osservazioni 11 Una frequenza assoluta è il numero di modalità distinte che vengono osservate 12 In una distribuzione in classi, due classi possono essere parzialmente sovrapposte 13 La moda non cambia se aggiungiamo a tutte le modalità una costante positiva 14 La media aritmetica è calcolabile solo per caratteri quantitativi 15 La mediana minimizza la somma dei quadrati degli scarti delle modalità da una costante 16 La mediana può assumere qualsiasi valore reale 17 La mediana può coincidere con la modalità più piccola 18 La media aritmetica è calcolabile solo per caratteri qualitativi ordinati 19 La mediana gode della proprietà di internalità 20 La mediana coincide sempre con la modalità più grande 21 La somma degli scarti delle modalità dalla media aritmetica è sempre pari a 0 22 La media aritmetica è calcolabile per qualsiasi tipo di carattere 23 Se il carattere è discreto non in classi, la moda è la modalità a cui corrisponde la massima frequenza assoluta 24 La media aritmetica minimizza la somma dei quadrati degli scarti da una costante 25 La differenza interquartilica non cambia se moltiplichiamo tutte le modalità per una costante diversa da 1 26 La varianza è espressa nella stessa unità di misura delle osservazioni 27 La varianza è pari alla somma dei quadrati degli scarti delle osservazioni dalla loro media aritmetica 28 La varianza è sempre maggiore di zero 29 La differenza interquartilica è nulla se solo se tutte le modalità sono uguali fra loro 30 Il coefficiente di variazione è il rapporto fra la varianza e la media aritmetica 31 La varianza è la media dei quadrati degli scarti delle osservazioni dalla media aritmetica 32 Il coefficiente di variazione non cambia moltiplicando tutte le modalità per una costante positiva 33 La differenza interquartilica può essere negativa V F Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Soluzione esercitazione n. 1 A. Livello socio-economico Frequenza Giorni di Elevato (1) 14 presenza Medio (2) 3 Basso (3) Totale Età Frequenza Frequenza 18-30 7 1 1 31-50 9 3 2 3 51-75 4 20 3 2 Totale 20 4 4 5 4 6 3 7 3 Totale 20 14 0.7 70 medio 3 0.15 15 basso 3 0.15 15 Totale 20 1 100 8 elevato 6 pi Frequenze fi 4 ni 0 2 Livello socio-economico 10 12 14 Grafico a barre per la distribuzione del livello socio−economico Elevato Classi di età ni Classi reali 18-30 7 18 31-50 9 51-75 4 Totale 20 Medio fi Fi di hi 31 0.35 0.35 13 0.0269 31 51 0.45 0.80 20 0.0225 51 76 0.20 1.00 25 0.0080 1.0 Basso Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Funzione di ripartizione per la distribuzione dell'età 1.0 Istrogramma di frequenza per la distribuzione dell'età 0.4 0.6 Frequenza cumulata 0.015 0.005 0.2 0.0 18 31 51 ● ● 0.000 0.010 Densità 0.020 0.8 0.025 ● ● 76 18 31 51 Età 76 Età B. • Il numero medio di giorni di presenza si calcola come segue (media aritmetica per una distribuzione disaggregata o unitaria): 7 + 6 + 4 + ... + 1 + 2 = 88 = 4.4 20 20 Per il calcolo della mediana occorre innanzitutto ordinare in senso non decrescente le modalità: µ= i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x [i] 1 2 2 2 3 3 4 4 4 4 5 5 5 5 6 6 6 7 7 7 Essendo n = 20 pari, le modalità che occupano la posizione n/2 = 20/2 = 10 e n/2 + 1 = 11 sono x [10] = 4 e x [11] = 5, quindi m = (4 + 5)/2 = 4.5. Per il calcolo della deviazione standard possiamo, innanzitutto, calcolare la devianza D= N X (x i − µ)2 = (7 − 4.4)2 + (6 − 4.4)2 + . . . + (2 − 4.4)2 = 62.8 i=1 quindi, la varianza σ2 = 62.8 20 = 3.14 ed, infine, la deviazione standard r σ= 62.8 20 = p 3.14 = 1.772 • La distribuzione di frequenza è la seguente: Giorni di presenza ni Ni fi Fi x i ni (x i − µ)2 ni 1 1 1 0.05 0.05 1 11.56 2 3 4 0.15 0.20 6 17.28 3 2 6 0.10 0.30 6 3.92 4 4 10 0.20 0.50 16 0.64 5 4 14 0.20 0.70 20 1.44 6 3 17 0.15 0.85 18 7.68 7 3 20 0.15 1.00 21 20.28 88 62.80 Totale 20 1.00 Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Grafico della funzione di ripartizione 0.0 1 0.2 0.4 2 ni F(x) 0.6 3 0.8 4 1.0 Grafico della distribuzione di frequenza 1 2 3 4 5 6 7 0 1 2 3 x 4 5 6 7 x • La media aritmetica calcolata sulla distribuzione di frequenza è pari a µ= 1 20 (1 × 1 + 2 × 3 + . . . + 7 × 3) = 88 20 = 4.4 Per calcolare la mediana bisogna trovare la modalità i -esima tale che Fi−1 ≥ 0.5 < Fi ; siccome la prima modalità che supera 0.5 è la quinta modalità, mentre la precedente è esattamente pari a 0.5, allora m = (4 + 5)/2 = 4.5. Infine, dall’ultima colonna della precedente tabella si ottiene la devianza D = 62.8. A partire da questa è immediato calcolare la varianza σ2 = 62.8/20 = 3.14 e la deviazione standard σ = p 3.14 = 1.772. Dal confronto si può vedere come calcolare la media, la mediana e la deviazione standard dalla distribuzione disaggregata o unitaria oppure dalla distribuzione di frequenza conduce agli stessi risultati. C. • La media aritmetica è data da µ= 5 + 10 + . . . + 19 11 = 115 11 = 10.45 mentre la media geometrica è pari a p 11 µg = 5 × 10 × . . . × 19 = 204773184001/11 = 8.66 oppure per agevolare i calcoli si può utilizzare log(5) + log(10) + . . . + log(19) µ g = exp = exp{23.74258/11} = 8.66 11 Per il calcolo della mediana occorre ordinare i valori in senso non decrescente i 1 2 3 4 5 6 7 8 9 10 11 x [i] 3 4 5 6 7 9 10 12 18 19 22 Dal momento che n = 11 è dispari, la mediana è la modalità che occupa la posizione (n + 1)/2 = 12/2 = 6, quindi m = x [6] = 9. • La varianza si calcola come segue σ2 = (5 − 10.45)2 + (10 − 10.45)2 + . . . + (19 − 10.45)2 11 = 426.7275 11 = 38.79 Per il campo di variazione occorre semplicemente fare la differenza tra il valore massimo e il valore minimo della distribuzione: ∆c = 22 − 3 = 19 Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca D. La seguente tabella riporta alcuni calcoli utili per i punti successivi: Classi ci−1 ci ni fi Fi di hi xi x i ni (x i − µ)2 ni 0-0.5 0.0 0.5 8 0.0007 0.0007 0.5 0.0015 0.25 2.0 1334.8 0.5-1 0.5 1.0 136 0.0127 0.0134 0.5 0.0253 0.75 102.0 20968.9 1-5 1.0 5.0 2997 0.2793 0.2927 4.0 0.0698 3.00 8991.0 309796.9 5-10 5.0 10.0 2954 0.2753 0.5680 5.0 0.0551 7.50 22155.0 94869.2 10-25 10.0 25.0 3189 0.2972 0.8652 15.0 0.0198 17.50 55807.5 59871.6 25-50 25.0 50.0 1446 0.1348 1.0000 25.0 0.0054 37.50 54225.0 856165.3 10730 1.0000 141282.5 1343006.8 Totale 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 Densità • L’istogramma di frequenza è riportato nel grafico seguente e si basa sui calcoli della densità di frequenza (hi ) presenti nella tabella precedente. 0.0 5.0 10.0 25.0 50.0 Classi di fatturato • La media aritmetica è pari a µ = 141282.4/10730 = 13.167. Per il calcolo dei quartili la procedura è la seguente. La più piccola classe per la quale Fi > 1/2 è la classe 5-10, quindi la mediana è pari a m=5+ 0.5 − 0.2927 0.2753 × 5 = 8.765 La più piccola classe per la quale Fi > 1/4 è la classe 1-5, quindi il primo quartile è pari a q1 = 1 + 0.25 − 0.0134 0.2793 × 4 = 4.389 La più piccola classe per la quale Fi > 3/4 è la classe 10-25, quindi il terzo quartile è pari a q3 = 10 + 0.75 − 0.568 0.2972 × 15 = 19.185 • la classe con la densità più elevata è la terza (h3 = 0.0698), quindi la classe modale è la classe 1-5. • La deviazione standard si calcola come segue: r σ= 1343006.8 10730 = 11.19 mentre l’intervallo interquartilico ∆q = 19.185 − 4.389 = 14.796 E. In questo caso la media più opportuna è la media aritmetica ponderata dei tassi di criminalità utilizzando la popolazione residente come peso. Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca xi wi x i wi Piemonte 4.39 4287 18819.93 Valle d’Aosta 3.07 120 368.40 Umbria 3.11 835 2596.85 Lazio 5.37 5264 28267.68 Campania 3.82 5781 22083.42 16287 72136.28 Totale µ = 72136.28/16287 = 4.429 F. i xi log(x i ) x i2 (x i − µ)2 x [i] f i = 1/N Fi = i/N 1 2.647 0.9734 7.007 0.1226 2.387 0.0833 0.0833 2 2.387 0.8700 5.698 0.3722 2.589 0.0833 0.1667 3 2.589 0.9513 6.703 0.1665 2.647 0.0833 0.2500 4 2.792 1.0268 7.795 0.0421 2.666 0.0833 0.3333 5 2.897 1.0637 8.393 0.0100 2.792 0.0833 0.4167 6 2.666 0.9806 7.108 0.1096 2.897 0.0833 0.5000 7 3.030 1.1086 9.181 0.0011 3.030 0.0833 0.5833 8 3.094 1.1295 9.573 0.0094 3.094 0.0833 0.6667 9 3.383 1.2188 11.445 0.1489 3.272 0.0833 0.7500 10 3.272 1.1854 10.706 0.0756 3.383 0.0833 0.8333 11 3.574 1.2737 12.773 0.3328 3.574 0.0833 0.9167 12 3.634 1.2903 13.206 0.4057 3.634 0.0833 1.0000 35.965 13.0720 109.587 1.7965 35.965 1.0000 Totali • La media aritmetica è pari a 35.965 µ= 12 = 2.997 La media geometrica si calcola come segue: p 12 2.647 × 2.387 × . . . × 3.634 = 4754231/12 = 2.972 µg = oppure µ g = exp 13.0720 12 = 2.972 La media quadratica è pari a: r µq = È immediato verificare che µ g = 2.972 109.587 12 < = 3.0219 µ = 2.997 < µq = 3.0219. • Per il calcolo dei quartili (mediana inclusa) occorre ordinare i valori originari in senso non decrescente. Dalla tabella precedente si ottengono: • PN σ2 = m = (x [6] + x [7] )/2 = (2.897 + 3.03)/2 = 2.9635 q1 = (x [3] + x [4] )/2 = (2.647 + 2.666)/2 = 2.6565 q3 = (x [9] + x [10] )/2 = (3.272 + 3.383)/2 = 3.3275 i=1 (x i − µ)2 = 1.7965 N 12 ∆Q = 3.3275 − 2.6565 = 0.671 = 0.1497 da cui σ = p 0.1497 = 0.3869 Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca G. • Per l’Università 1 si ha xi ni x i ni (x i − µ)2 (x i − µ)2 ni 0 14 0 6.515 91.205 1 41 41 2.410 98.805 2 83 166 0.305 25.325 3 116 348 0.200 23.242 4 56 224 2.096 117.354 5 5 25 5.991 29.954 315 804 Totale 385.886 Quindi: µ = 804/315 = 2.552 D = 385.886 σ2 = 385.886/315 = 1.225 p σ = 385.886/315 = 1.107 C V = 1.107/2.552 × 100 = 43.36% • Per l’Università 2 si ha Totali xi ni x i ni (x i − µ)2 (x i − µ)2 ni 0 23 0 3.370 77.511 1 56 56 0.699 39.116 2 154 308 0.027 4.154 3 27 81 1.355 36.597 4 12 48 4.684 56.207 5 2 10 10.012 20.025 274 503 233.609 Quindi: µ = 503/274 = 1.836 D = 233.609 σ2 = 233.609/274 = 0.853 p σ = 233.609/274 = 0.923 C V = 0.923/1.836 × 100 = 50.27% • Dal confronto tra i due valori del CV si evince che la distribuzione che presenta maggiore variabilità è quella associata alla seconda Università. Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca H. N. Domanda V F 1 Un collettivo statistico è un insieme di unità statistiche X 2 Le frequenze assolute non sono mai negative X 3 La temperatura è un carattere quantitativo continuo X 4 Il titolo di studio è un carattere quantitativo discreto 5 Le frequenze relative non sono mai maggiori del numero di modalità 6 La somma delle frequenze relative è sempre pari al numero di osservazioni X 7 La frequenza relativa di una modalità è il numero di volte in cui la modalità viene osservata X 8 Per il carattere età in anni compiuti, la correzione per continuità viene effettuata aggiungendo 1 all’estremo destro di ogni classe 9 Le frequenze relative si possono calcolare solo per i caratteri qualitativi X X X X 10 La somma di tutte le frequenze assolute è pari al numero di osservazioni X 11 Una frequenza assoluta è il numero di modalità distinte che vengono osservate X 12 In una distribuzione in classi, due classi possono essere parzialmente sovrapposte X 13 La moda non cambia se aggiungiamo a tutte le modalità una costante positiva X 14 La media aritmetica è calcolabile solo per caratteri quantitativi 15 La mediana minimizza la somma dei quadrati degli scarti delle modalità da una costante 16 La mediana può assumere qualsiasi valore reale X 17 La mediana può coincidere con la modalità più piccola X 18 La media aritmetica è calcolabile solo per caratteri qualitativi ordinati 19 La mediana gode della proprietà di internalità 20 La mediana coincide sempre con la modalità più grande 21 La somma degli scarti delle modalità dalla media aritmetica è sempre pari a 0 22 La media aritmetica è calcolabile per qualsiasi tipo di carattere 23 Se il carattere è discreto non in classi, la moda è la modalità a cui corrisponde la massima frequenza assoluta X 24 La media aritmetica minimizza la somma dei quadrati degli scarti da una costante X 25 La differenza interquartilica non cambia se moltiplichiamo tutte le modalità per una costante diversa da 1 X 26 La varianza è espressa nella stessa unità di misura delle osservazioni X 27 La varianza è pari alla somma dei quadrati degli scarti delle osservazioni dalla loro media aritmetica X 28 La varianza è sempre maggiore di zero X 29 La differenza interquartilica è nulla se solo se tutte le modalità sono uguali fra loro X 30 Il coefficiente di variazione è il rapporto fra la varianza e la media aritmetica X 31 La varianza è la media dei quadrati degli scarti delle osservazioni dalla media aritmetica X 32 Il coefficiente di variazione non cambia moltiplicando tutte le modalità per una costante positiva X 33 La differenza interquartilica può essere negativa X X X X X X X X