Statistica – Compito A Prova scritta del 3 Luglio 2015 1. Il seguente campione casuale si riferisce al numero di difetti riscontrati su 1 metro-quadrato di stoffa: 0 1 2 3 4 5 6 7 7 5 6 4 3 2 1 2 (a) Cosa rappresenta la II colonna della tabella? Illustrarne brevemente il significato. (b) Raggruppare i dati in 4 classi di modalità equiampie. (c) Determinare la media del campione casuale e confrontarla con quella ottenuta dalla tabella costruita con le classi di modalità. (d) Calcolare i quartili del campione casuale e confrontarli con quelli ottenuti dalla tabella costruita con le classi di modalità. (e) A quale percentile si colloca il dato 5? (f) Disegnare il box-plot. (g) (10 CFU) Stabilire con un test di Kolmogorov-Smirnov se i dati provengono da una popolazione di Poisson. Soluzioni: (a) Sono stati esaminati 30 campioni di stoffa. Di questi 7 presentano 0 difetti, 5 presentano 1 difetto, 6 presentano 2 difetti etc etc. (b) Un possibile raggruppamento in classi di modalità è il seguente: [0;1] [2;3] [4;5] [6;7] (c) La media del campione casuale è = 12 10 5 3 × ××⋯× =2,37. Per calcolare la media del campione casuale raggruppato in classi è necessario calcolare i centri: 0,5; 2,5; 4,5; 6,5. La media in tal caso risulta essere 0,5 × 12 + 2,5 × 10 + 4,5 × 5 + 6,5 × 3 = = 2,43. 30 (d) Per calcolare i quartili della tabella iniziale si procede al seguente modo. Per il rango è + 1 × 0,25 = 7,75. Pertanto il primo quartile si colloca tra = 0 e = 1 ed è pari a = + 0,75 × 1 = 0,75. Per il rango è + 1 × 0,5 = 15,5. Pertanto il secondo quartile si colloca tra = 2 e = 2 ed è pari a = 2. Per il rango è + 1 × 0,75 = 23,25. Pertanto il terzo quartile si colloca tra = 4 e " = 4ed è pari a = 4. Per i dati raggruppati, è necessario individuare la classe cui appartiene il primo quartile. Siccome 30#4=7,5, il primo quartile appartiene alla classe [0;1], pertanto va usata la formula ,& 0 + $ × 1 % 0 con $ = = 0,625. ,"& Siccome 30#2=15, il secondo quartile appartiene alla classe [2;3], pertanto va usata la formula ,&," 2 + $ × 3 % 2 con $ = ,&," = 0,3030. Pertanto il secondo quartile vale 2,3030. Infine per il terzo quartile risulta 30 × " = 22,5 e appartiene alla classe [4;5], pertanto va usata la ,&, formula 4 + $ × 4 % 3 con $ = ,'&, = 0,1176. Pertanto il terzo quartile vale 4,1176. L’intervallo interquartile è IQR=4,1176-0,625=3,5. Poiché 0 ( 0,625 % 1,5 × )* = %4,6139 e 7 = 4,1176 % 1,5 × )* = 9,3565 gli estremi dei baffi possono essere lasciati a 0 e 7. (e) Poiché la funzione di ripartizione in 5 vale = 0,9, il valore 5 è il 90-esimo percentile. (f) Per i dati grezzi risulta IQR=2. Poiché 0 ( 0,75 % 1,5 × )* = %2,25 e 7 = 4 % 1,5 × )* = 7 i baffi del box-plot possono essere collocati a min e max dei dati, ossia rispettivamente 0 e 7. Peri dati raggruppati l’intervallo interquartile è IQR = 4,1176-0,625 = 3,5. Poiché 0 ( 0,625 % 1,5 × )* = %4,6139 e 7 = 4,1176 % 1,5 × )* = 9,3565 gli estremi dei baffi possono essere lasciati a 0 e 7. (g) Poiché la media campionaria è 2,37, è possibile usare le tavole della v.a. di Poisson corrispondenti al parametro 2,4. Dati 0 1 2 3 4 5 6 7 Freq.Ass. 7 5 6 4 3 2 1 2 Freq.Cum. 7 12 18 22 25 27 28 30 Funz.rip. Funz.cum.teorica 0,23 0,091 0,40 0,308 0,60 0,57 0,73 0,779 0,83 0,904 0,90 0,964 0,93 0,988 1,00 0,997 Diff. 0,142 0,092 0,030 0,046 0,071 0,064 0,055 0,003 La differenza massima è 0,142, che va confrontata con il quantile preso dalle tavole 0,3376. Poiché il valore è inferiore, l’ipotesi nulla non si rigetta. 2. Un questionario rivolto agli studenti di un corso di laurea in Economia ha restituito la seguente tabella a doppia entrata per indirizzo del corso di studi e per genere: Genere Maschio Femmina Totale Corso di Laurea in Economia Contabilità Management Finanza 100 150 50 100 50 50 200 200 100 Totale 300 200 500 a) Verificare se i due caratteri sono indipendenti. Con quale metodo è possibile assegnare una significatività statistica all’analisi? b) (a.a. 2014/2015) Costruire la tabella delle frequenze condizionate “indirizzo dato genere” e il mosaic-plot rispetto al carattere “genere”. c) (a.a. precedenti) Dimostrare con il teorema di Bayes che vale 0,5 la probabilità che scelto a caso uno studente iscritto a un corso di contabilità, questo studente sia femmina. d) Qual è la probabilità che selezionando a caso uno studente, questo risulti iscritto al corso di Contabilità o di Management? e) Qual è la probabilità che scelto uno studente a caso, questo sia maschio o risulti iscritto al corso di Contabilità? Soluzioni: (a) E’ possibile misurare la dipendenza tra i due fattori usando l’indice di Cramer. La significatività statistica può essere calcolata con il test chi-quadrato. La tabella delle frequenze attese risulta essere Corso di Laurea in Economia Genere Contabilità Management Finanza Totale Maschio 120 120 60 300 Femmina 80 80 40 200 Totale 200 200 100 500 La statistica chi-quadrato è: 80 % 50 50 % 40 100 % 120 150 % 120 + + ⋯+ + = 31,25 120 120 80 40 Poiché è maggiore del quantile corrispondente a -,; = 5,99 allora l’ipotesi nulla (di indipendenza) si rigetta. L’indice di Cramer si ottiene dalla statistica chi-quadrato, dividendola per 500×min(2,1)=1000 ed estraendo la radice quadrata. Vale 0,1767. (b) La tabella di frequenza Indirizzo|Genere si costruisce rapportando la frequenza assoluta alla distribuzione marginale Genere, ossia Genere Maschio Femmina Corso di Laurea in Economia Contabilità Management Finanza Totale 100/300=0,33 150/300=0,5 50/300=0,17 1 100/200=0,5 50/200=0,25 50/200=0,25 1 Queste percentuali divideranno le due colonne relative a Maschio e Femmina nel mosaic-plot, ciascuna di peso 0,60 e 0,40. (c) Sia C = “scelto a caso uno studente, risulta iscritto a un corso di contabilità”, F=”scelto a caso uno studente, questo sia femmina”, M=”scelto a caso uno studente, questo sia maschio”. Dalla tabella risulta /0|2 = = 0,5; /2 = = 0,4; /0|3 = = 0,33; /3 = = 0,4. Applicando il teorema di Bayes si ha /0|2/2 = 0,5 /0|2/2 + /0|3/3 (d) Indicato con Ma l’evento “studente selezionato a caso, risulta iscritto al corso di Management” si /2|0 = " ha /0 ⋃ 35 = /0 + /35 = . (e) Indicato con C l’evento “studente selezionato a caso, risulta iscritto al corso di Contabilità” e con Maschio = “studente selezionato a caso è maschio” si ha " /0 ⋃ 356789: = /0 + /356789: % /0 ⋂ 356789: = + % = 3. Una scatola contiene 10 lampadine, 6 delle quali sono difettose. Scelte a caso tre lampadine, a) elencare gli elementi che costituiscono lo spazio campione. Questi esiti sono equiprobabili? b) (10 CFU) Qual è la probabilità che non più di due siano difettose? c) Rispondere al quesito precedente ipotizzando che l’estrazione sia con reimmissione. d) Immaginando di non sapere quante sono le palline difettose nella scatola, effettuiamo una estrazione con reimmissione 10 volte, osservando 4 volte una lampadina estratta difettosa. Determinare l’intervallo di confidenza per la percentuale di palline difettose presenti nella scatola. Soluzioni: (a) Indicato con N la pallina non difettosa e con D la pallina difettosa, lo spazio campione risulta: < = =>, >, >, ?, >, >, ?, ?, >, ?, ?, ?, >, ?, >, >, >, ?, ?, >, ?, >, ?, ?@ Gli esiti non sono equiprobabili poiché l’estrazione è senza reimmissione. (b) La variabile aleatoria che conta il numero di lampadine difettose, estratte dalla scatola senza reimmissione, è ipergeometrica di parametri > = 10, A = 6, = 3. Dalle tavole risulta / ≤ 2 = 0,833. (c) La variabile aleatoria che conta il numero di lampadine difettose, estratte dalla scatola con reimmissione, è binomiale di parametriC = 0,6D = 3. Dalle tavole risulta / ≤ 2 = 0,7840. (d) E’ necessario costruire un intervallo di confidenza con Ĉ = 0,40 e = 10. L’intervallo di confidenza risulta essere FĈ ± H &I/K essere F0,4 ± 1,96K LM &LM O. N Fissando un livello di confidenza P = 0,05 l’intervallo risulta ,"× &," O. 4. Assegnata una variabile aleatoria gaussiana di media 400 e deviazione standard 10, determinare a) la percentuale di area sotto la curva gaussiana tra la media e 415; b) la percentuale di area sotto la curva gaussiana al di fuori dell’intervallo [375;420]; c) la percentuale di area sotto la curva gaussiana relativa alla coda della curva a destra di 430; d) l’80-esimo percentile. Soluzioni: (a) E’ necessario calcolare /400 < < 415 = / R "&" <S< " &" T = /0 < S < 1,5 = 0,9332 % 0,5. (b) E’ necessario calcolare / < 375 ⋃ ( 420 = 1 % /%2,5 ≤ ≤ 2 = 1 % 0,9772 % 0,0062. (c) E’ necessario calcolare / ( 430 = 1 % / ≤ 430 = 1 % /S ≤ 3 = 0,0013. (d) E’ necessario calcolare il valore H, tale che /US ≤ H, V = 0,80. Essendo H, = 0,84 risulta , = 400 + 0,84 × 10 = 408,4. Statistica – Compito B Prova scritta del 3 Luglio 2015 1. Assegnata una variabile aleatoria T-Student di gradi di libertà 15, determinare a) la percentuale di area sotto la densità di probabilità a destra dello 0; b) la percentuale di area sotto la densità di probabilità al di fuori dell’intervallo [0,69;2,6]; c) la percentual e di area sotto la densità di probabilità relativa alla coda della curva a destra di 1,75; d) l’80-esimo percentile. e) Costruire il box plot. Soluzioni: Consultando le tavole della v.a. T-Student per gradi di libertà pari a 15, si ha: a) /W ( 0 = 0,5 b) /W < 0,69 ⋃ W ( 2,6 = 1 % /0,69 < W < 2,6 = 1 % /W < 2,6 % /W < 0,69 = 1 % 0,99 % 0,75 = 1 % 0,24 = 0,76 c) /W ( 1,75 = 1 % 0,95 = 0,05 d) L’80-esimo percentile è quel valore che lascia a sinistra un’area sotto la curva densità pari a 0,80, ossia 0,8662. e) Per costruire il Box-plot, sono necessari primo e terzo quartile, oltre alla mediana. Il valore di è tale che /W < )=0,25 ossia = %0,6912.Il valore di è tale che /W < =0,75, ossia = 0,6912.Il valore della mediana è 0. Poiché il range della variabile aleatoria è pari a tutto l’asse reale, allora il minimo è % 1,5 × )* = %2,7648mentre il massimo è + 1,5 × )* = 2,7648, poichè l’intervallo interquartile è IQR=0,6912×2=1,3824. 2. Una scatola contiene 10 lampadine, 4 delle quali sono difettose. Scelte a caso tre lampadine, a) elencare i possibili campioni casuali che si ottengono, codificando l’uscita della lampadina difettosa con 1 e quella non difettosa con 0; b) c’è differenza nella variabile aleatoria che descrive il numero di lampadine difettose ottenute in questo esperimento casuale a seconda che l’estrazione sia con reimmissione o senza reimmissione? c) Nell’ipotesi di estrazione con reimmissione, calcolare media e deviazione standard della variabile aleatoria media campionaria e confrontarla con la media e la deviazione standard della popolazione. Che relazione sussiste tra questi indici? d) Calcolare media e deviazione standard della variabile aleatoria media campionaria nell’ipotesi l’estrazione venga effettuata senza reimmissione. Soluzioni: a) Sia che l’estrazione avvenga con reimmissione che senza reimmissione, le terne estratte sono: =0,0,0, 0,0,1, 0,1,0, 1,0,0, 0,1,1, 1,0,1, 1,1,0, 1,1,1@. b) Nel caso di reimmissione, il numero delle lampadine è descritto da una v.a. binomiale. Nel caso senza reimmissione, il numero delle lampadine è descritto da una v.a. ipergeometrica. c) La popolazione da cui viene estratto il campione casuale è di bernoulli, di parametro C = 0,4. Pertanto ha media C = 0,4 e deviazione standard C1 % C = 0,24.La v.a. media Y;," dove Z3; 0,4 è una v.a. binomiale di parametro C = 0,4 e campionaria è X = = 3. ×,"×, ' [Y;," ×," X = = = 0,4 Pertanto mentre ^_`Y;," \5]X = = ' = 0,08. Risulta = X = 0,4. Per la deviazione standard si ha ^_`a = \5]X. d) Se l’estrazione è effettuata senza reimmissione, è necessario calcolare la probabilità di ogni occorrenza: " " /0,0,0 = × ' × ; /0,0,1 = × ' × ; " ' × × ; /1,1,0 = " " ' × × ; /1,0,1 = " " /0,1,0 = × ' × ; /1,0,0 = ' × × ; /0,1,1 = " ' × × ; /1,1,1 = × ' × . Pertanto la variabile aleatoria media campionaria assume i seguenti valori 0 sull’esito 0,0,0, 1/3 sull’esito =0,0,1, 0,1,0, 1,0,0@, 2/3 sull’esito =0,1,1, 1,1,0, 1,0,1@ e infine 1 sull’esito =1,1,1@. La distribuzione di probabilità risulta: 0 1/3 2/3 1 X P(X=x) 0,16 0,5 0,3 0,033 La media è X = × 0,5 + × 0,3 + 0,033 = 0,4 mentre la varianza risulta essere \5]X = 0 % 0,4 × 0,16 + R % 0,4T × 0,5 + R % 0,4T × 0,3 + 1 % 0,4 × 0,033 = 0,061. 3. La seguente tabella mostra le vendite e i guadagni di 12 piccole compagnie di marketing in milioni di euro. Vendite Guadagni 89,2 4,9 18,6 4,4 18,2 1,3 71,7 8,0 58,6 6,6 46,8 4,1 17,5 2,6 11,9 1,7 19,6 3,5 51,2 8,2 a) b) c) d) 28,6 6,0 69,2 12,8 Disegnare un grafico di dispersione. Determinare la retta di regressione e disegnarla sul grafico di dispersione. (a.a. 2014/2015) Calcolare e commentare il coefficiente di determinazione. (a.a. precedenti) Per una compagnia di 50 milioni di euro nelle vendite, quale sarà il guadagno ipotizzabile? e) (10 CFU) Verificare con il test di Kolmogorov-Smirnov se è plausibile l’ipotesi che la popolazione Guadagni da cui proviene il campione casuale è gaussiana. f) Aggiungendo all’insieme di dati una ulteriore azienda con vendite 20 e guadagni 14, cosa ci si aspetta accada alla retta di regressione? Motivare adeguatamente la risposta. Soluzioni: E’ necessario studiare come esprimere i guadagni in termini di vendite. a) Il grafico di dispersione risulta Grafico di dispersione 14 12 10 Y 8 6 Y 4 Y prevista 2 0 0 20 40 60 80 100 Variabile X 1 b) Per costruire la retta di regressione x 89,2 18,6 18,2 71,7 58,6 46,8 17,5 11,9 19,6 51,2 28,6 69,2 41,76 y 4,9 4,4 1,3 8 6,6 4,1 2,6 1,7 3,5 8,2 6 12,8 5,34 (x-mx)/sx (y-my)/sy 1,81 -0,14 -0,88 -0,29 -0,90 -1,24 1,14 0,82 0,64 0,39 0,19 -0,38 -0,93 -0,84 -1,14 -1,12 -0,85 -0,57 0,36 0,88 -0,50 0,20 1,05 2,30 media 7,41 26,17 dev.st prod -0,25 0,26 1,12 0,94 0,25 -0,07 0,78 1,28 0,48 0,32 -0,10 2,41 3,25 coef.cor 0,67 Il coefficiente di correlazione risulta 0,67, pertanto i coefficienti della retta di regressione sono: <a 3,25 5 = ]ab = 0,67 × = 0,0832; c = de % 5df = 5,34 % 0,0832 × 41,75 = 1,87 <b 26,17 c) Il coefficiente di determinazione è il quadrato del coefficiente di correlazione, ossia 0,45. Pertanto il 45% della variabilità della Y è spiegato dalla variabilità della X. d) Per una compagnia di 50 milioni di euro nelle vendite, il guadagno è g = 0,0832 × 50 + 1,87 = 6,026. e) La tavola per effettuare il test di Kolmogorov-Smirnov è Dati 1,3 1,7 2,6 3,5 4,1 4,4 4,9 6 6,6 8 8,2 12,8 f) Dati stand. -1,24 -1,12 -0,84 -0,57 -0,38 -0,29 -0,14 0,20 0,39 0,82 0,88 2,30 Rip.Emp. Rip.teor. 0,08 0,1075 0,17 0,1314 0,25 0,2005 0,33 0,2843 0,42 0,352 0,50 0,3859 0,58 0,4443 0,67 0,5793 0,75 0,6517 0,83 0,7939 0,92 0,8106 1,00 0,9893 Diff. 0,02 0,04 0,05 0,05 0,06 0,11 0,14 0,09 0,10 0,04 0,11 0,01 Il massimo delle differenze è 0,14, inferiore al quantile corrispondente allo 0,05 e che dalle tavole risulta 0,37543. Poiché si tratta di un punto molto in alto nel grafico (un outlier), la retta di regressione si sposta verso l’alto. 4. A 910 iscritti ad un certo partito, è stato chiesto cosa pensassero dovessero fare gli immigrati irregolari entrati nel paese. I risultati sono in tabella. Richiedere la cittadinanza Richiedere un lavoro temporaneo Lasciare il paese Non risponde Totale Ideologia Politica Conservatori Moderati Liberali 57 120 101 121 113 28 179 126 45 15 4 1 372 363 175 Totale 278 262 350 20 910 a) Quale percentuale di intervistati è conservatore o non ha risposto al questionario? b) I fattori considerati che tipo di dati rappresentano? c) Usando il teorema di Bayes, calcolare la probabilità che estratto a caso un liberale questo abbia consigliato di lasciare il paese. Confrontare il risultato con quello che si otterrebbe usando direttamente le frequenze in tabella. d) Calcolare la percentuale di coloro che hanno risposto “Non risponde”. e) Gli eventi “Richiedere cittadinanza” ed essere “Conservatore” sono indipendenti? f) (a.a. 2014/15) Costruire il mosaic plot. g) (a.a. precedenti) Quale percentuale tra moderati o liberali, consiglia di lasciare il paese? Soluzioni: a) Sia C l’evento “persona estratta a caso è conservatore” e NR l’evento “persona estratta a caso non risponde”. La risposta al quesito è /0 ⋃ >* = /0 + />* % /0 ⋂ >*.Dalla tavola di contingenza /0 = ' = 0,41; />* = ' = 0,022; /0 ⋂ >* = ' = 0,17 è pertanto /0 ⋃ >* = 0,415. b) Dati qualitativi, nominali. c) Sia L l’evento “persona estratta a caso è liberale” e LP l’evento “persona estratta a caso consiglia di lasciare il paese”. La risposta al quesito è /h/|h = iji ⋂ j "/' = ij /' = 0,26.Usando il teorema di Bayes la partizione esaustiva dello spazio campione è costituita dagli eventi R=“persona estratta a caso consiglia di richiedere la cittadinanza”, LT=“persona estratta a caso consiglia di richiedere un lavoro temporaneo”, LP=“persona estratta a caso consiglia di lasciare il paese”, NR= “persona estratta a caso consiglia di non rispondere” con le seguenti probabilità: /* = 278 262 350 20 = 0,31; /hW = = 0,29; /h/ = = 0,38; />* = = 0,02 910 910 910 910 Per applicare il teorema di Bayes, è necessario calcolare /h|* = 101 28 45 1 = 0,363; /h|hW = = 0,108; /h|h/ = = 0,128; /h|>* = = 0,05 278 262 350 20 Pertanto si ha /h/|h = /h|h//h/ /h|*/* + /h|hW/hW + /h|h//h/ + /h|>*/>* 0,128 × 0,38 = 0,26 0,363 × 0,31 + 0,108 × 0,29 + 0,128 × 0,38 + 0,05 × 0,02 d) La risposta al quesito è />* = ' = 0,02 = e) Affinché gli eventi R=“persona estratta a caso consiglia di richiedere la cittadinanza” e C=“persona estratta a caso è conservatore” siano indipendenti, deve accadere che /* ⋂ 0 = /*/0. f) L’uguaglianza non vale poiché /* ⋂ 0 = ' = 0,07 è diverso da /*/0 = ' × ' = 0,125. Per costruire il mosaic-plot rispetto al fattore “Ideologia Politica” è necessario suddividere il quadrato in tre aree proporzionali alle percentuali dei tre eventi C, M e L, ossia /0 = 0,41; /3 = 0,398; /h = 0,192. Ognuna di queste aree, va suddivisa proporzionalmente agli eventi R, LT, LP, NR in base alla frequenza condizionata Risposta | Ideologia Politica Richiedere la cittadinanza Richiedere un lavoro temporaneo Lasciare il paese Non risponde Conservatori 0,153 0,325 0,481 0,040 Moderati 0,331 0,311 0,347 0,011 Liberali 0,577 0,160 0,257 0,006 g) La risposta è /h/|3 ⋃ h = iji ⋂k ⋃ j ik ⋃ j " = = 0,318