Testo e soluzioni

annuncio pubblicitario
Statistica – Compito A
Prova scritta del 3 Luglio 2015
1. Il seguente campione casuale si riferisce al numero di difetti riscontrati su 1 metro-quadrato di stoffa:
0
1
2
3
4
5
6
7
7
5
6
4
3
2
1
2
(a) Cosa rappresenta la II colonna della tabella? Illustrarne brevemente il significato.
(b) Raggruppare i dati in 4 classi di modalità equiampie.
(c) Determinare la media del campione casuale e confrontarla con quella ottenuta dalla tabella
costruita con le classi di modalità.
(d) Calcolare i quartili del campione casuale e confrontarli con quelli ottenuti dalla tabella costruita
con le classi di modalità.
(e) A quale percentile si colloca il dato 5?
(f) Disegnare il box-plot.
(g) (10 CFU) Stabilire con un test di Kolmogorov-Smirnov se i dati provengono da una popolazione di
Poisson.
Soluzioni:
(a) Sono stati esaminati 30 campioni di stoffa. Di questi 7 presentano 0 difetti, 5 presentano 1 difetto,
6 presentano 2 difetti etc etc.
(b) Un possibile raggruppamento in classi di modalità è il seguente:
[0;1]
[2;3]
[4;5]
[6;7]
(c) La media del campione casuale è =
12
10
5
3
×
××⋯×
=2,37.
Per calcolare la media del
campione casuale raggruppato in classi è necessario calcolare i centri: 0,5; 2,5; 4,5; 6,5. La media in
tal caso risulta essere
0,5 × 12 + 2,5 × 10 + 4,5 × 5 + 6,5 × 3
=
= 2,43.
30
(d) Per calcolare i quartili della tabella iniziale si procede al seguente modo.
Per il rango è + 1 × 0,25 = 7,75. Pertanto il primo quartile si colloca tra = 0 e
= 1 ed è pari a = + 0,75 × 1 = 0,75.
Per il rango è + 1 × 0,5 = 15,5. Pertanto il secondo quartile si colloca tra = 2 e
= 2 ed è pari a = 2.
Per il rango è + 1 × 0,75 = 23,25. Pertanto il terzo quartile si colloca tra = 4 e
" = 4ed è pari a = 4.
Per i dati raggruppati, è necessario individuare la classe cui appartiene il primo quartile.
Siccome 30#4=7,5, il primo quartile appartiene alla classe [0;1], pertanto va usata la formula
,&
0 + $ × 1 % 0 con $ =
= 0,625.
,"&
Siccome 30#2=15, il secondo quartile appartiene alla classe [2;3], pertanto va usata la formula
,&,"
2 + $ × 3 % 2 con $ = ,&," = 0,3030. Pertanto il secondo quartile vale 2,3030.
Infine per il terzo quartile risulta 30 × " = 22,5 e appartiene alla classe [4;5], pertanto va usata la
,&,
formula 4 + $ × 4 % 3 con $ = ,'&, = 0,1176. Pertanto il terzo quartile vale 4,1176.
L’intervallo interquartile è IQR=4,1176-0,625=3,5. Poiché 0 ( 0,625 % 1,5 × )* = %4,6139 e
7 = 4,1176 % 1,5 × )* = 9,3565 gli estremi dei baffi possono essere lasciati a 0 e 7.
(e) Poiché la funzione di ripartizione in 5 vale
= 0,9, il valore 5 è il 90-esimo percentile.
(f) Per i dati grezzi risulta IQR=2. Poiché 0 ( 0,75 % 1,5 × )* = %2,25 e 7 = 4 % 1,5 × )* = 7 i
baffi del box-plot possono essere collocati a min e max dei dati, ossia rispettivamente 0 e 7. Peri
dati raggruppati l’intervallo interquartile è IQR = 4,1176-0,625 = 3,5. Poiché 0 ( 0,625 % 1,5 ×
)* = %4,6139 e 7 = 4,1176 % 1,5 × )* = 9,3565 gli estremi dei baffi possono essere lasciati
a 0 e 7.
(g) Poiché la media campionaria è 2,37, è possibile usare le tavole della v.a. di Poisson corrispondenti
al parametro 2,4.
Dati
0
1
2
3
4
5
6
7
Freq.Ass.
7
5
6
4
3
2
1
2
Freq.Cum.
7
12
18
22
25
27
28
30
Funz.rip. Funz.cum.teorica
0,23
0,091
0,40
0,308
0,60
0,57
0,73
0,779
0,83
0,904
0,90
0,964
0,93
0,988
1,00
0,997
Diff.
0,142
0,092
0,030
0,046
0,071
0,064
0,055
0,003
La differenza massima è 0,142, che va confrontata con il quantile preso dalle tavole 0,3376. Poiché il
valore è inferiore, l’ipotesi nulla non si rigetta.
2.
Un questionario rivolto agli studenti di un corso di laurea in Economia ha restituito la seguente tabella
a doppia entrata per indirizzo del corso di studi e per genere:
Genere
Maschio
Femmina
Totale
Corso di Laurea in Economia
Contabilità Management Finanza
100
150
50
100
50
50
200
200
100
Totale
300
200
500
a) Verificare se i due caratteri sono indipendenti. Con quale metodo è possibile assegnare una
significatività statistica all’analisi?
b) (a.a. 2014/2015) Costruire la tabella delle frequenze condizionate “indirizzo dato genere” e il
mosaic-plot rispetto al carattere “genere”.
c) (a.a. precedenti) Dimostrare con il teorema di Bayes che vale 0,5 la probabilità che scelto a caso
uno studente iscritto a un corso di contabilità, questo studente sia femmina.
d) Qual è la probabilità che selezionando a caso uno studente, questo risulti iscritto al corso di
Contabilità o di Management?
e) Qual è la probabilità che scelto uno studente a caso, questo sia maschio o risulti iscritto al corso di
Contabilità?
Soluzioni:
(a) E’ possibile misurare la dipendenza tra i due fattori usando l’indice di Cramer. La significatività
statistica può essere calcolata con il test chi-quadrato. La tabella delle frequenze attese risulta
essere
Corso di Laurea in Economia
Genere
Contabilità Management Finanza Totale
Maschio
120
120
60
300
Femmina
80
80
40
200
Totale
200
200
100
500
La statistica chi-quadrato è:
80 % 50 50 % 40
100 % 120 150 % 120
+
+ ⋯+
+
= 31,25
120
120
80
40
Poiché è maggiore del quantile corrispondente a -,; = 5,99 allora l’ipotesi nulla (di
indipendenza) si rigetta. L’indice di Cramer si ottiene dalla statistica chi-quadrato, dividendola per
500×min(2,1)=1000 ed estraendo la radice quadrata. Vale 0,1767.
(b) La tabella di frequenza Indirizzo|Genere si costruisce rapportando la frequenza assoluta alla
distribuzione marginale Genere, ossia
Genere
Maschio
Femmina
Corso di Laurea in Economia
Contabilità
Management Finanza
Totale
100/300=0,33 150/300=0,5 50/300=0,17
1
100/200=0,5
50/200=0,25 50/200=0,25
1
Queste percentuali divideranno le due colonne relative a Maschio e Femmina nel mosaic-plot,
ciascuna di peso 0,60 e 0,40.
(c) Sia C = “scelto a caso uno studente, risulta iscritto a un corso di contabilità”, F=”scelto a caso uno
studente, questo sia femmina”, M=”scelto a caso uno studente, questo sia maschio”. Dalla tabella
risulta
/0|2 = = 0,5; /2 = = 0,4; /0|3 = = 0,33; /3 = = 0,4.
Applicando il teorema di Bayes si ha
/0|2/2
= 0,5
/0|2/2 + /0|3/3
(d) Indicato con Ma l’evento “studente selezionato a caso, risulta iscritto al corso di Management” si
/2|0 =
"
ha /0 ⋃ 35 = /0 + /35 = .
(e) Indicato con C l’evento “studente selezionato a caso, risulta iscritto al corso di Contabilità” e con
Maschio = “studente selezionato a caso è maschio” si ha
"
/0 ⋃ 356789: = /0 + /356789: % /0 ⋂ 356789: = + % = 3. Una scatola contiene 10 lampadine, 6 delle quali sono difettose. Scelte a caso tre lampadine,
a) elencare gli elementi che costituiscono lo spazio campione. Questi esiti sono equiprobabili?
b) (10 CFU) Qual è la probabilità che non più di due siano difettose?
c) Rispondere al quesito precedente ipotizzando che l’estrazione sia con reimmissione.
d) Immaginando di non sapere quante sono le palline difettose nella scatola, effettuiamo una
estrazione con reimmissione 10 volte, osservando 4 volte una lampadina estratta difettosa.
Determinare l’intervallo di confidenza per la percentuale di palline difettose presenti nella
scatola.
Soluzioni:
(a) Indicato con N la pallina non difettosa e con D la pallina difettosa, lo spazio campione risulta:
< = =>, >, >, ?, >, >, ?, ?, >, ?, ?, ?, >, ?, >, >, >, ?, ?, >, ?, >, ?, ?@
Gli esiti non sono equiprobabili poiché l’estrazione è senza reimmissione.
(b) La variabile aleatoria che conta il numero di lampadine difettose, estratte dalla scatola senza
reimmissione, è ipergeometrica di parametri > = 10, A = 6, = 3. Dalle tavole risulta / ≤ 2 =
0,833.
(c) La variabile aleatoria che conta il numero di lampadine difettose, estratte dalla scatola con
reimmissione, è binomiale di parametriC = 0,6D = 3. Dalle tavole risulta / ≤ 2 = 0,7840.
(d) E’ necessario costruire un intervallo di confidenza con Ĉ = 0,40 e = 10. L’intervallo di confidenza
risulta essere FĈ ± H
&I/K
essere F0,4 ± 1,96K
LM
&LM
O.
N
Fissando un livello di confidenza P = 0,05 l’intervallo risulta
,"×
&,"
O.
4. Assegnata una variabile aleatoria gaussiana di media 400 e deviazione standard 10, determinare
a) la percentuale di area sotto la curva gaussiana tra la media e 415;
b) la percentuale di area sotto la curva gaussiana al di fuori dell’intervallo [375;420];
c) la percentuale di area sotto la curva gaussiana relativa alla coda della curva a destra di 430;
d) l’80-esimo percentile.
Soluzioni:
(a) E’ necessario calcolare /400 < < 415 = / R
"&"
<S<
"
&"
T
= /0 < S < 1,5 =
0,9332 % 0,5.
(b) E’ necessario calcolare / < 375 ⋃ ( 420 = 1 % /%2,5 ≤ ≤ 2 = 1 % 0,9772 %
0,0062.
(c) E’ necessario calcolare / ( 430 = 1 % / ≤ 430 = 1 % /S ≤ 3 = 0,0013.
(d) E’ necessario calcolare il valore H, tale che /US ≤ H, V = 0,80. Essendo H, = 0,84
risulta , = 400 + 0,84 × 10 = 408,4.
Statistica – Compito B
Prova scritta del 3 Luglio 2015
1. Assegnata una variabile aleatoria T-Student di gradi di libertà 15, determinare
a) la percentuale di area sotto la densità di probabilità a destra dello 0;
b) la percentuale di area sotto la densità di probabilità al di fuori dell’intervallo [0,69;2,6];
c) la percentual e di area sotto la densità di probabilità relativa alla coda della curva a destra di
1,75;
d) l’80-esimo percentile.
e) Costruire il box plot.
Soluzioni:
Consultando le tavole della v.a. T-Student per gradi di libertà pari a 15, si ha:
a) /W ( 0 = 0,5
b) /W < 0,69 ⋃ W ( 2,6 = 1 % /0,69 < W < 2,6 = 1 % /W < 2,6 % /W < 0,69
= 1 % 0,99 % 0,75 = 1 % 0,24 = 0,76
c) /W ( 1,75 = 1 % 0,95 = 0,05
d) L’80-esimo percentile è quel valore che lascia a sinistra un’area sotto la curva densità pari a
0,80, ossia 0,8662.
e) Per costruire il Box-plot, sono necessari primo e terzo quartile, oltre alla mediana. Il valore
di è tale che /W < )=0,25 ossia = %0,6912.Il valore di è tale che /W < =0,75, ossia = 0,6912.Il valore della mediana è 0. Poiché il range della variabile
aleatoria è pari a tutto l’asse reale, allora il minimo è % 1,5 × )* = %2,7648mentre il
massimo
è
+ 1,5 × )* = 2,7648,
poichè
l’intervallo
interquartile
è
IQR=0,6912×2=1,3824.
2. Una scatola contiene 10 lampadine, 4 delle quali sono difettose. Scelte a caso tre lampadine,
a) elencare i possibili campioni casuali che si ottengono, codificando l’uscita della lampadina
difettosa con 1 e quella non difettosa con 0;
b) c’è differenza nella variabile aleatoria che descrive il numero di lampadine difettose ottenute
in questo esperimento casuale a seconda che l’estrazione sia con reimmissione o senza
reimmissione?
c) Nell’ipotesi di estrazione con reimmissione, calcolare media e deviazione standard della
variabile aleatoria media campionaria e confrontarla con la media e la deviazione standard
della popolazione. Che relazione sussiste tra questi indici?
d) Calcolare media e deviazione standard della variabile aleatoria media campionaria nell’ipotesi
l’estrazione venga effettuata senza reimmissione.
Soluzioni:
a) Sia che l’estrazione avvenga con reimmissione che senza reimmissione, le terne estratte
sono: =0,0,0, 0,0,1, 0,1,0, 1,0,0, 0,1,1, 1,0,1, 1,1,0, 1,1,1@.
b) Nel caso di reimmissione, il numero delle lampadine è descritto da una v.a. binomiale. Nel
caso senza reimmissione, il numero delle lampadine è descritto da una v.a. ipergeometrica.
c) La popolazione da cui viene estratto il campione casuale è di bernoulli, di parametro
C = 0,4. Pertanto ha media C = 0,4 e deviazione standard C1 % C = 0,24.La v.a. media
Y;,"
dove Z3; 0,4 è una v.a. binomiale di parametro C = 0,4 e
campionaria è X = = 3.
×,"×,
'
[Y;,"
×,"
X =
= = 0,4
Pertanto
mentre
^_`Y;,"
\5]X =
=
'
= 0,08. Risulta = X = 0,4. Per la deviazione standard si ha
^_`a
=
\5]X.
d) Se l’estrazione è effettuata senza reimmissione, è necessario calcolare la probabilità di ogni
occorrenza:
"
"
/0,0,0 = × ' × ; /0,0,1 = × ' × ;
"
'
× × ; /1,1,0 =
"
"
'
× × ; /1,0,1 =
"
"
/0,1,0 = × ' × ; /1,0,0 =
'
× × ; /0,1,1 =
"
'
× × ;
/1,1,1 = × ' × . Pertanto la variabile aleatoria media campionaria assume i
seguenti valori 0 sull’esito 0,0,0, 1/3 sull’esito =0,0,1, 0,1,0, 1,0,0@, 2/3 sull’esito
=0,1,1, 1,1,0, 1,0,1@ e infine 1 sull’esito =1,1,1@. La distribuzione di probabilità
risulta:
0
1/3
2/3
1
X
P(X=x) 0,16
0,5
0,3
0,033
La media è X = × 0,5 + × 0,3 + 0,033 = 0,4 mentre la varianza risulta essere
\5]X = 0 % 0,4 × 0,16 + R % 0,4T × 0,5 + R % 0,4T × 0,3 + 1 % 0,4 ×
0,033 = 0,061.
3. La seguente tabella mostra le vendite e i guadagni di 12 piccole compagnie di marketing in milioni
di euro.
Vendite
Guadagni
89,2
4,9
18,6
4,4
18,2
1,3
71,7
8,0
58,6
6,6
46,8
4,1
17,5
2,6
11,9
1,7
19,6
3,5
51,2
8,2
a)
b)
c)
d)
28,6
6,0
69,2
12,8
Disegnare un grafico di dispersione.
Determinare la retta di regressione e disegnarla sul grafico di dispersione.
(a.a. 2014/2015) Calcolare e commentare il coefficiente di determinazione.
(a.a. precedenti) Per una compagnia di 50 milioni di euro nelle vendite, quale sarà il guadagno
ipotizzabile?
e) (10 CFU) Verificare con il test di Kolmogorov-Smirnov se è plausibile l’ipotesi che la popolazione
Guadagni da cui proviene il campione casuale è gaussiana.
f) Aggiungendo all’insieme di dati una ulteriore azienda con vendite 20 e guadagni 14, cosa ci si
aspetta accada alla retta di regressione? Motivare adeguatamente la risposta.
Soluzioni: E’ necessario studiare come esprimere i guadagni in termini di vendite.
a) Il grafico di dispersione risulta
Grafico di dispersione
14
12
10
Y
8
6
Y
4
Y prevista
2
0
0
20
40
60
80
100
Variabile X 1
b) Per costruire la retta di regressione
x
89,2
18,6
18,2
71,7
58,6
46,8
17,5
11,9
19,6
51,2
28,6
69,2
41,76
y
4,9
4,4
1,3
8
6,6
4,1
2,6
1,7
3,5
8,2
6
12,8
5,34
(x-mx)/sx (y-my)/sy
1,81
-0,14
-0,88
-0,29
-0,90
-1,24
1,14
0,82
0,64
0,39
0,19
-0,38
-0,93
-0,84
-1,14
-1,12
-0,85
-0,57
0,36
0,88
-0,50
0,20
1,05
2,30
media
7,41
26,17
dev.st
prod
-0,25
0,26
1,12
0,94
0,25
-0,07
0,78
1,28
0,48
0,32
-0,10
2,41
3,25
coef.cor
0,67
Il coefficiente di correlazione risulta 0,67, pertanto i coefficienti della retta di regressione sono:
<a
3,25
5 = ]ab
= 0,67 ×
= 0,0832; c = de % 5df = 5,34 % 0,0832 × 41,75 = 1,87
<b
26,17
c) Il coefficiente di determinazione è il quadrato del coefficiente di correlazione, ossia 0,45.
Pertanto il 45% della variabilità della Y è spiegato dalla variabilità della X.
d) Per una compagnia di 50 milioni di euro nelle vendite, il guadagno è g = 0,0832 × 50 +
1,87 = 6,026.
e) La tavola per effettuare il test di Kolmogorov-Smirnov è
Dati
1,3
1,7
2,6
3,5
4,1
4,4
4,9
6
6,6
8
8,2
12,8
f)
Dati stand.
-1,24
-1,12
-0,84
-0,57
-0,38
-0,29
-0,14
0,20
0,39
0,82
0,88
2,30
Rip.Emp. Rip.teor.
0,08
0,1075
0,17
0,1314
0,25
0,2005
0,33
0,2843
0,42
0,352
0,50
0,3859
0,58
0,4443
0,67
0,5793
0,75
0,6517
0,83
0,7939
0,92
0,8106
1,00
0,9893
Diff.
0,02
0,04
0,05
0,05
0,06
0,11
0,14
0,09
0,10
0,04
0,11
0,01
Il massimo delle differenze è 0,14, inferiore al quantile corrispondente allo 0,05 e che dalle
tavole risulta 0,37543.
Poiché si tratta di un punto molto in alto nel grafico (un outlier), la retta di regressione si sposta
verso l’alto.
4. A 910 iscritti ad un certo partito, è stato chiesto cosa pensassero dovessero fare gli immigrati
irregolari entrati nel paese. I risultati sono in tabella.
Richiedere la cittadinanza
Richiedere un lavoro temporaneo
Lasciare il paese
Non risponde
Totale
Ideologia Politica
Conservatori Moderati Liberali
57
120
101
121
113
28
179
126
45
15
4
1
372
363
175
Totale
278
262
350
20
910
a) Quale percentuale di intervistati è conservatore o non ha risposto al questionario?
b) I fattori considerati che tipo di dati rappresentano?
c) Usando il teorema di Bayes, calcolare la probabilità che estratto a caso un liberale questo abbia
consigliato di lasciare il paese. Confrontare il risultato con quello che si otterrebbe usando
direttamente le frequenze in tabella.
d) Calcolare la percentuale di coloro che hanno risposto “Non risponde”.
e) Gli eventi “Richiedere cittadinanza” ed essere “Conservatore” sono indipendenti?
f) (a.a. 2014/15) Costruire il mosaic plot.
g) (a.a. precedenti) Quale percentuale tra moderati o liberali, consiglia di lasciare il paese?
Soluzioni:
a) Sia C l’evento “persona estratta a caso è conservatore” e NR l’evento “persona estratta a caso non
risponde”. La risposta al quesito è /0 ⋃ >* = /0 + />* % /0 ⋂ >*.Dalla tavola di
contingenza
/0 = '
= 0,41; />* = '
= 0,022; /0 ⋂ >* = '
= 0,17
è
pertanto
/0 ⋃ >* = 0,415.
b) Dati qualitativi, nominali.
c) Sia L l’evento “persona estratta a caso è liberale” e LP l’evento “persona estratta a caso consiglia di
lasciare il paese”. La risposta al quesito è /h/|h =
iji ⋂ j "/'
=
ij
/'
= 0,26.Usando il teorema di
Bayes la partizione esaustiva dello spazio campione è costituita dagli eventi
R=“persona estratta a caso consiglia di richiedere la cittadinanza”,
LT=“persona estratta a caso consiglia di richiedere un lavoro temporaneo”,
LP=“persona estratta a caso consiglia di lasciare il paese”,
NR= “persona estratta a caso consiglia di non rispondere”
con le seguenti probabilità:
/* =
278
262
350
20
= 0,31; /hW =
= 0,29; /h/ =
= 0,38; />* =
= 0,02
910
910
910
910
Per applicare il teorema di Bayes, è necessario calcolare
/h|* =
101
28
45
1
= 0,363; /h|hW =
= 0,108; /h|h/ =
= 0,128; /h|>* =
= 0,05
278
262
350
20
Pertanto si ha
/h/|h =
/h|h//h/
/h|*/* + /h|hW/hW + /h|h//h/ + /h|>*/>*
0,128 × 0,38
= 0,26
0,363 × 0,31 + 0,108 × 0,29 + 0,128 × 0,38 + 0,05 × 0,02
d) La risposta al quesito è />* = '
= 0,02
=
e) Affinché gli eventi R=“persona estratta a caso consiglia di richiedere la cittadinanza” e C=“persona
estratta a caso è conservatore” siano indipendenti, deve accadere che /* ⋂ 0 = /*/0.
f)
L’uguaglianza non vale poiché /* ⋂ 0 = '
= 0,07 è diverso da /*/0 = '
× '
= 0,125.
Per costruire il mosaic-plot rispetto al fattore “Ideologia Politica” è necessario suddividere il
quadrato in tre aree proporzionali alle percentuali dei tre eventi C, M e L, ossia /0 =
0,41; /3 = 0,398; /h = 0,192. Ognuna di queste aree, va suddivisa proporzionalmente agli
eventi R, LT, LP, NR in base alla frequenza condizionata Risposta | Ideologia Politica
Richiedere la cittadinanza
Richiedere un lavoro temporaneo
Lasciare il paese
Non risponde
Conservatori
0,153
0,325
0,481
0,040
Moderati
0,331
0,311
0,347
0,011
Liberali
0,577
0,160
0,257
0,006
g) La risposta è /h/|3 ⋃ h =
iji ⋂k ⋃ j
ik ⋃ j
"
= = 0,318
Scarica