Istituzioni di Statistica 1 Esercizi su indici di posizione e di variabilità Esercizio 1 Questa tabella esprime i tempi di durata di 200 apparecchiature elettriche: Durata (ore) Frequenza 0 ⊢ 100 100 ⊢ 200 200 ⊢ 300 300 ⊢ 400 400 ⊢ 500 500 ⊢ 600 600 ⊢ 700 700 ⊢ 800 800 ⊢ 900 > 900 ? 48 30 18 10 5 4 3 2 0 1. Trovare il dato mancante e rappresentare i dati graficamente. 2. Calcolare la durata media delle apparecchiature e la percentuale di apparecchiature che hanno funzionato per un tempo minore della media. 3. Quale è la durata al di sopra della quale si trova il 40% delle osservazioni? 4. Come indici di dispersione dei dati, si calcolino lo scarto interquartilico e la varianza. Esercizio 2 La direzione di un’azienda vuole conoscere l’entità delle assenze per malattia (a detta dei dipendenti) nei giorni vicini al fine settimana. Questi sono i dati relativi al numero di dipendenti in malattia nei giorni di lunedı̀ e venerdı̀ relativi a un gruppo di 5 settimane: 81, 86, 73, 77, 90, 91, 75, 62, 98, 74. Relativamente alle stesse settimane, le assenze per malattia nei giorni centrali della settimana (martedı̀, mercoledı̀ e giovedı̀) sono state le seguenti: 89, 55, 59, 64, 37, 58, 35, 57, 65, 68, 42, 71, 69, 49, 67. 1. Fare il grafico delle funzioni di frequenza cumulata e dire cosa indicano. 2. Per ciascuno dei due gruppi, si calcolino il numero medio e il numero mediano di assenze giornaliere. 3. Si confronti la variabilità delle due distribuzioni sia tramite la varianza che lo scarto interquartilico. 1 Esercizio 3 Si osserva il tempo di attesa delle auto al casello autostradale in un’ora di punta: Attesa (minuti) Numero di auto 0⊢3 9 3⊢7 53 7 ⊢ 10 28 10 ⊢ 20 10 1. Si rappresentino i dati tramite un istogramma. 2. Se il costo per un automobilista di un minuto di attesa può essere stimato in 0,5 euro, si calcoli la perdita media subita da un automobilista. 3. Si determini la varianza della perdita subita da un automobilista per l’attesa al casello. Esercizio 4 La seguente tavola mostra gli aumenti salariali di un campione di dipendenti nel settore privato nell’anno 1996, divisi per sesso. Uomini Donne 0 ⊢ 2% 50 21 2% ⊢ 5% 47 27 5% ⊢ 9% 103 50 9% ⊢ 13% 76 35 13% ⊢ 15% 24 17 1. Calcolare l’aumento medio separatamente per i due sessi. 2. Confrontare le due distribuzioni tramite gli istogrammi. 3. Identificare per ciascuno dei due gruppi la classe modale. 4. Si calcoli il quantile 0,4 della distribuzione degli aumenti separatamente per i due sessi. Esercizio 5 I seguenti dati rappresentano le distribuzioni dei voti degli esami di Istituzioni di Statistica registrati nel primo e nel secondo Appello 1996: I II 18 0 0 19 0 0 20 1 5 21 3 1 22 0 4 23 2 4 24 4 4 25 1 1 26 4 3 27 0 6 28 7 5 29 0 1 30 1 3 30 e lode 0 1 1. In base al voto medio, quale dei due appelli è andato meglio? 2. Confrontare la dispersione dei voti calcolando opportuni indici di variabilità. 2 3. Rappresentare graficamente le due distribuzioni mediante BoxPlot e dire se sembrano diverse. 2 4 6 8 10 12 14 Esercizio 6 Per confrontare l’efficienza di due diverse configurazioni (A e B) di un processo produttivo, la produzione oraria (in quintali di materiale prodotto) è stata rilevata in un totale di 2000 ore (1000 per ogni configurazione). Il seguente grafico mostra il diagramma a scatola (boxplot) per i due gruppi di dati (i baffi si estendono dal minimo al massimo). A B 1. Commentare il grafico. 2. Calcolare (approssimativamente) una misura di posizione ed una di variabilità per ciascuno dei due gruppi di dati. 3. Solo per i dati della configurazione A, si calcoli (approssimativamente) il valore della funzione di frequenza relativa cumulata nei punti 1; 4,1; 5; 5,9 e 10. 4. Disegnare (approssimativamente) le due funzioni di frequenza relativa cumulata corrispondenti alle configurazioni A e B. 3 Soluzioni degli esercizi su indici di posizione e di variabilità Esercizio 1 1. Il numero totale di apparecchiature è 200, il numero di apparecchiature con durata maggiore di 100 ore è 120, quindi la frequenza assoluta mancante è 80. 40 0 20 freq. ass. 60 80 La variabile osservata, la durata, è una variabile quantitativa continua, quindi possiamo rappresentarla graficamente tramite un istogramma. Poiché le classi hanno tutte uguale ampiezza, l’altezza dei rettangoli è data dalla frequenza (assoluta o relativa) delle classi. 0 200 400 600 800 durata Forte asimmetria positiva. 2. La durata media è x̄ = = somma (valori centrali delle classi x freq. ass.) num. totale 50 · 80 + 150 · 48 + 250 · 30 + 350 · 18 + 450 · 10 + 550 · 5 + 650 · 4 + 750 · 3 + 850 · 2 200 = 194 ore. 4 Si deve calcolare la percentuale di apparecchiature che funzionano per un tempo inferiore a 194 ore. Un primo metodo è: (80 48 · (194 − 100))/200 = 0, 626 = 62, 6% 100 ⇓ + ⇓ classe 0 ⊢ 100 classe 100 ⊢ 200 Altrimenti si può ragionare in termini di funzione di frequenza cumulata: F (200) − F (100) · (194 − 100) F (194) = F (100) + 200 − 100 128/200 − 80/200 80 + · 94 = 0, 626 = 200 100 3. Si vuole determinare la durata oltre la quale si trova il 40% delle osservazioni, o, in altre parole, la durata al di sotto della quale si trova il 60% delle osservazioni, e quindi il quantile 0,6 della distribuzione. A questo fine calcoliamo le frequenze relative cumulate: Durata Freq. rel. cumulata 0 ⊢ 100 100 ⊢ 200 200 ⊢ 300 300 ⊢ 400 400 ⊢ 500 500 ⊢ 600 600 ⊢ 700 700 ⊢ 800 800 ⊢ 900 80/200=0,4 128/200=0,64 158/200=0,79 176/200=0,88 186/200=0,93 191/200=0,955 195/200=0,975 198/200=0,99 200/200=1 Dalla tabella vediamo che il quantile 0,6 cade nella classe 100 ⊢ 200. Per determinare il quantile, facciamo l’ipotesi di distribuzione uniforme all’interno della classe: x0,6 = 100 + 0, 6 − 0, 4 (200 − 100) = 183, 33 ore 0, 64 − 0, 4 4. Per la varianza, usiamo la formula V = M(X 2 ) − M2 (X) M(X) è stata calcolata al punto 2. Dobbiamo calcolare M(X 2 ). M(X 2 ) = (502 · 80 + 1502 · 48 + 2502 · 30 + 3502 · 18 + 44502 · 10 + 5502 · 5+ 5 +6502 · 4 + 7502 · 3 + 8502 · 2)/200 = 68600 ore2 V = 68600 − (194)2 = 30964 ore2 Per lo scarto interquartilico abbiamo bisogno di determinare il quantile 0,25 e il quantile 0,75. Dalla tabella delle frequenze cumulate del punto 3 vediamo che il primo quartile cade nella classe 0 ⊢ 100, mentre il terzo quartile cade nella classe 200 ⊢ 300. Sotto ipotesi di uniformità all’interno delle classi si ha QI = 0 + QIII = 200 + 0, 25 − 0 · (100 − 0) = 62, 5ore 0, 4 − 0 0, 75 − 0, 64 · (300 − 200) = 273.3 ore 0, 79 − 0, 64 e quindi lo scarto interquartilico è SI = 273.3 − 62, 5 = 201, 8 ore Esercizio 2 1. Costruiamo le frequenze relative cumulate per i due gruppi. Num. Assenze (L. e V.). Freq. rel. cumulata 62 73 74 75 77 81 86 90 91 98 1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10=1 6 Freq. rel. cumulata 35 37 42 49 55 57 58 59 64 65 687 68 69 71 89 1/15 2/15 3/15 4/15 5/15 6/15 7/15 8/15 9/15 10/15 11/15 12/15 13/15 14/15 15/15=1 0.0 0.2 0.4 F(x) 0.6 0.8 1.0 Num. Assenze (M., M. e G.). 40 50 60 70 80 90 100 assenze Da cui si conclude che le assenze nei giorni centrali della settimana sono stocasticamente (statisticamente) inferiori rispetto a quelle nei giorni vicini al fine settimana. 7 2. Per il primo gruppo la mediana è Me = 77 + 81 = 79 2 per il secondo gruppo è 59, confermando l’ordinamento rilevato nel confronto tra le due funzioni di frequenza cumulata. La media nel primo gruppo è 80,7 e nel secondo gruppo 59 (si è usata la media aritmetica semplice sui dati originari). 3. Per il primo gruppo il primo quartile è QI =74, mentre il terzo quartile è QIII =90. Quindi, lo scarto interquartilico è SI=90-74=16. Per la varianza, usiamo la formula V=M(X 2 )-M2 (X); M(X 2 ) = 812 + 862 + . . . + 742 = 6614, 5 10 e quindi V = 6614, 5 − 80, 72 = 102, 01 Per il secondo gruppo, il primo quartile è QI =49, mentre il terzo quartile è QIII =68. Lo scarto interquartilico è SI=68-49=19. Per la varianza calcoliamo 892 + 552 + . . . + 672 = 3669 M(X 2 ) = 15 da cui V = 3669 − 592 = 188 Sia lo scarto interquartilico che la varianza indicano che vi è una maggiore variabilità nel numero di assenze per malattia nei giorni infrasettimanali, rispetto ai giorni prossimi al fine settimana. Esercizio 3 1. Per costruire l’istogramma non essendo le classi di uguale ampiezza è necessario calcolare le densità di frequenza, dividendo le frequenze assolute o relative per l’ampiezza della classe, e stabilire un estremo per la classe finale. Attesa dens. di freq. 0⊢3 9/(3 · 100)=0,03 3⊢7 53/(4 · 100)=0,1325 7 ⊢ 10 28/(3 · 100)=0,0933 10 ⊢ 20 10/(10 · 100)=0,01 dove si sono usate le frequenze relative per costruire le altezze degli istogrammi e la classe finale è stata chiusa a 20 min. 8 0.12 0.10 0.08 0.06 0.00 0.02 0.04 dens. di freq 0 5 10 15 20 attesa 2. Possiamo seguire due strade per calcolare la perdita media legata all’attesa. La prima è riscrivere la tabella in termini di costi Perdita (euro) Numero di auto 0 ⊢ 1, 5 9 1, 5 ⊢ 3, 5 53 3, 5 ⊢ 5 28 5 e oltre 10 e calcolare la media associata a tale tabella, ossia 0, 75 · 9 + 2, 5 · 53 + 4, 25 · 28 + 7, 5 · 10 = 3, 33 euro 100 dove si è supposto che l’ultima classe termini a 20 minuti. La seconda strada, più semplice, sfrutta le proprietà della media. Se Y è la variabile che descrive la perdita e X la variabile che descrive l’attesa, allora Y = 0, 5X. Si richiede M(Y ) = M(0, 5X) = 0, 5M(X), dove M(X) è data da M= 1.5 · 9 + 5 · 53 + 8.5 · 28 + 15 · 10 = 6, 665 min 100 e quindi M(Y ) = 0, 5 · 6, 665 = 3, 33 euro. M(X) = 3. Anche per il calcolo della varianza si può procedere seguendo due strade. La prima è calcolare la varianza sulla tabella dei costi del punto 2. Più precisamente, la media dei quadrati è 0, 752 · 9 + 2, 52 · 53 + 4, 252 · 28 + 7, 52 · 10 = 14, 046 euro2 M(Y ) = 100 2 9 da cui V(Y )=14,046-3,332 =2,96 euro2 . La seconda strada sfrutta le proprietà della varianza. In particolare, V(Y )=V(0,5 X)=0, 52 V(X). M(X) = 1.52 · 9 + 52 · 53 + 8.52 · 28 + 152 · 10 = 56, 1825 min2 100 da cui V(X)=56,1925-6,6652 =11,76 min2 e V(Y )=0, 52 11,76 =2,94 euro2 . dove le discrepanze tra le due varianze è dovuta ad errori di arrotondamento. Esercizio 4 1. Indichiamo con U la variabile che descrive gli aumenti per gli uomini, e con D la variabile che descrive gli aumenti per le donne. Allora, M(U ) = 1 · 50 + 3.5 · 47 + 7 · 103 + 11 · 76 + 14 · 24 = 7, 025% 50 + 47 + 103 + 76 + 24 1 · 21 + 3.5 · 27 + 7 · 50 + 11 · 35 + 14 · 17 = 7, 257% 21 + 27 + 50 + 35 + 17 dove l’ultima classe è stata chiusa a 15%. Da cui si conclude che l’aumento medio per le donne è stato superiore all’aumento medio per gli uomini. M(D) = 0.04 0.00 0.02 dens.di freq. 0.06 0.08 2. Poiché le classi non hanno uguale ampiezza è necessario calcolare per entrambi i sessi le densità di frequenza. Nel grafico sottostante si sono usate le frequenze relative e la classe finale è stata chiusa a 15%. 0 5 10 15 aumenti perc. dove le linee continue descrivono gli uomini e le linee tratteggiate le donne. 3. Si vede direttamente dall’istogramma che la classe modale sia per gli uomini che per le donne è data da 5% ⊢ 9%. 10 4. Per determinare il quantile 0,4 per entrambi i sessi calcoliamo le frequenze relative cumulate separatamente per uomini e donne. Uomini Donne 0 ⊢ 2% 50/300 21/150 2% ⊢ 5% 97/300 48/150 5% ⊢ 9% 200/300 98/150 9% ⊢ 13% 276/300 133/150 13% ⊢ 15% 1 1 Per entrambi i sessi la classe che contiene il quantile 0,4 è la classe 5% ⊢ 9%. Per determinare il quantile all’interno di tale classe usiamo l’ipotesi di distribuzione uniforme; si ottiene x0,4 = 5 + 0, 4 − 97/300 · (9 − 5) = 5, 89% 200/300 − 97/300 per gli uomini, mentre per le donne x0,4 = 5 + 0, 4 − 48/150 · (9 − 5) = 5, 96% 98/150 − 48/150 Esercizio 5 1. Indichiamo con M I e M II , rispettivamente, il voto medio del primo e del secondo appello. Ai fini dei calcoli al 30 e lode viene associato 31. Il numero di voti registrati nel primo appello è N I = 23, il numero di voti registrati nel secondo appello è N II = 38. MI = 1 (20 + 21 · 3 + 23 · 2 + 24 · 4 + 25 + 26 · 4 + 28 · 7 + 30) = 25, 22 23 1 (20·5+21+22·4+23·4+24·4+25+26·3+27·6+28·5+29+30·3+31) = 25, 05 38 Da cui concludiamo che i due appelli sono simili in termini di voto medio ottenuto dagli studenti. M II = 2. Gli indici di variabilità che possiamo calcolare per il confronto della dispersione dei voti tra i due appelli sono: campo di variazione (range), differenza interquartile e varianza/coefficiente di variazione. Per il campo di variazione, nel primo appello: min=20 e max=30, campo di variazione=10; nel secondo appello: min=20 e max=31, campo di variazione=11. Per determinare la differenza interquartile nei due appelli, costruiamo la tabella delle frequenze relative cumulate. 11 Voti 18 19 20 21 22 23 24 25 26 27 28 29 30 31 I Appello fj Fj 0 0 0 0 1/23=0,043 0,043 3/23=0,131 0,174 0 0,174 2/23=0,087 0,261 4/23=0,174 0,435 0,043 0,478 0,174 0,652 0 0,652 7/23=0,305 0,957 0 0,957 0,043 1 0 1 II Appello fj Fj 0 0 0 0 5/38=0,132 0,132 1/38=0,026 0,158 4/38=0,105 0,263 0,105 0,368 0,105 0,473 0,026 0,499 3/38=0,079 0,578 6/38=0,158 0,736 0,132 0,868 0,026 0,894 0,079 0,973 0,027 1 Guardando la tabella, osserviamo che I appello: I quartile=23, III quartile=28, diff. interquartile=5 II appello: I quartile=22, III quartile=28, diff. interquartile=6 Per determinare la varianza dei voti in ciascuno dei due appelli, sfruttiamo l’usuale formula “momento secondo - momento primo al quadrato”. Per il primo appello: M (X 2 ) = 1 (202 +212 ·3+232 ·2+242 ·4+252 +262 ·4+282 ·7+302 ) = 643, 57 23 e quindi VarI = 643, 57 − (25, 22)2 = 7, 52 Per il secondo appello: M (X 2 ) = 1 (202 · 5 + 212 + 222 · 4 + 232 · 4 + 242 · 4 + 252 + 262 · 3+ 38 +272 · 6 + 282 · 5 + 292 + 302 · 3 + 312 ) = 638, 05 e quindi VarII = 638, 05 − (25, 05)2 = 10, 55 I coefficienti di variazione sono, √ allora, 7,52 = 0, 11; per il primo appello: CVI = 25,22 per il secondo appello: CVII = √ 10,55 25,05 = 0, 13. Dal confronto dei vari indici di variabilità (campo di variazione, scarto 12 interquartile e coefficiente di variazione) notiamo che vi è una dispersione leggermente maggiore nei voti del secondo appello rispetto al primo. 24 22 20 18 voto 26 28 30 3. Dalla tabella delle frequenze cumulate per i due appelli, deriviamo che: per il primo appello: MeI =26; per il secondo appello: MeII = 26. Combinando questo risultato con i quartili già calcolati al punto 2. otteniamo i seguenti boxplot affiancati per i voti dei due appelli. I app. II app. I due boxplot, seppure molto simili, confermano una leggera maggior dispersione dei voti nel secondo appello. Si noti, infine, che gli arrotondamenti nel calcolo delle frequenze cumulate portano ad avere la mediana del II appello pari a 26. In realtà, correggendo per tali arrotondamenti, risulta che al voto 25 corrisponde una frequenza relativa cumulata esattamente pari a 0,5 (19/38) e quindi la mediana è (25+26)/2=25,5. 13 2 4 6 8 10 12 14 Esercizio 6 A B 1. Dal grafico è evidente la maggiore efficienza della configurazione B rispetto ad A. Infatti, la distribuzione della produzione per la configurazione A si colloca a sinistra rispetto alla corrispondente distribuzione per la configurazione B (i tre quartili e i valori massimo e minimo per A sono più piccoli rispetto alle corrispondenti quantità per B). Si noti inoltre che per A la distribuzione della produzione è simmetrica, mentre per B presenta una asimmetria positiva. Infine, i dati per B paiono avere una maggiore variabilità rispetto ad A. 2. Per una misura di posizione possiamo prendere la mediana che leggiamo immediatamente dal grafico. Per A la mediana è approssimativamente MeA = 5 quintali, mentre per B la mediana è approssimativamente MeB = 6, 1 quintali. Per una misura della variabilità possiamo prendere lo scarto interquartilico o il campo di variazione (range). Per A lo scarto interquartilico (differenza tra il III e il I quartile) è approssimativamente (leggendo i valori dal grafico) SIA =5,9-4,1=1,8 quintali mentre il campo di variazione (differenza tra il valore massimo e il valore minimo) è approssimativamente 8,1-1,9=6,2 quintali. Per B le corrispondenti quantità sono SIB =8,1-5,1=3 quintali e rangeB =14-4,1=9.9 quintali. Sia scarto interquartilico che range evidenziano la maggiore dispersione dei dati per B rispetto ad A. 14 3. Poiché il valore 1 è più piccolo del minimo valore osservato (approssimativamente 1,9) F(1)=0. Il valore 4,1 corrisponde approssimativamente al I quartile e quindi F(4,1)=0,25; 5 corrisponde approssimativamente alla mediana e quindi F(5)=0,5; 5,9 corrisponde approssimativamente al III quartile e quindi F(5,9)=0,75; infine, 10 è maggiore del più grande valore osservato (approssimativamente 8,1) e quindi F(10)=1. 0.8 1.0 4. Come noto il diagramma a scatola è costruito su alcuni quantili della distribuzione. Dai quantili rappresentati dal diagramma a scatola possiamo risalire ad alcuni punti della funzione di frequenza relativa cumulata F (x), come fatto per il punto precedente. Possiamo poi approssimare il comportamento di F (x) semplicemente congiungendo tali punti tramite dei segmenti (tenendo conto del fatto che la variabile per la quale stiamo costruendo la funzione di frequenza relativa cumulata è continua). Per esempio, dal boxplot di A sappiamo che il valore minimo è approssimativamente 1,9 quindi F (x) = 0 per x ≤ 1, 9; sappiamo anche che il quantile 0,25 è approssimativamente 4,1, da cui F (4, 1) = 0, 25; sappiamo che la mediana è approssimativamente 5, da cui F (5) = 0, 5; sappiamo che il quantile 0,75 è approssimativamente 5,9, da cui F (5, 9) = 0, 75; sappiamo infine che il valore massimo è approssimativamente 8,1, quindi F (x) = 1 per x ≥ 8, 1. I punti cosı̀ ottenuti possono essere uniti tramite dei segmenti e otteniamo in questo modo una approssimazione di F (x). Analogo ragionamento per B. Il risultato è rappresentato nel grafico successivo, dal quale si deduce che la produzione nella configurazione A è stocasticamente inferiore alla produzione nella configurazione B. A 0.0 0.2 0.4 F(x) 0.6 B 0 5 10 produzione 15 15