15 Aprile 2009 Prova scritta di Analisi dei dati, Modalit`a C

Facoltà di ECONOMIA – Università di Pavia – 15 Aprile 2009
Prova scritta di Analisi dei dati, Modalità C
• Riportare sul foglio nome, cognome, numero di matricola e modalità del
testo d’esame.
Problema 1 (8 PUNTI)
Uno studente che deve seguire il corso di Analisi dei dati chiede a tutti i suoi amici
che hanno già superato l’esame alcune informazioni: il voto che hanno ottenuto, il
numero di esami sostenuti con successo e la percentuale di lezioni frequentate del corso
di Analisi dei dati. Nella tabella, ogni riga rappresenta un amico dello studente.
Voto di Analisi dei dati (V)
30
25
26
19
18
28
27
20
24
23
Somma
240
Somma dei quadrati
5904
Numero esami sostenuti (E)
6
4
5
3
4
6
4
4
5
5
Somma
46
Somma dei quadrati
220
Sesso (S)
F
M
M
F
F
F
M
F
M
M
Lezioni frequentate in % (F)
0.9
0.5
0.95
0.1
0.2
0.7
0.75
0.35
0.7
0.5
Somma
5.65
Somma dei quadrati
3.9275
1a) Quale carattere tra “Voto all’esame di Analisi dei dati” e “Numero esami sostenuti” è più variabile? Motivate la risposta. (4 punti)
1b) Sono mediamente più bravi in Analisi dei dati le amiche o gli amici dello studente?
Motivate la risposta. (2 punti)
1c) Rappresentare graficamente la variabile “Sesso” (1 punto)
1d) Dopo aver riclassificato la variabile “Lezioni frequentate in (%)” nelle classi
[0; 0.30) [0.30; 0.70) [0.70; 1) calcolare la distribuzione congiunta di “Lezioni
frequentate in (%)” e “Sesso” (1 punto)
Problema 2 (8 PUNTI)
Negli anni 2003-2008 sul mercato inglese sono stati venduti 1200 aerei; sullo stesso
mercato sono state potenzialmente attive dal punto di vista commerciale 10 imprese. I
risultati sono rappresentati nella tabella sottostante
Impresa
Aerei
A1
20
A2
100
A3
150
A4
120
A5
100
A6
500
A7
60
A8
60
A9
70
A10
20
Somma
1200
2a) Valutare il livello di concentrazione delle vendite (3 punti)
2b) Mantenendo invariato il numero totale di aerei venduti, scrivere un esempio di
distribuzione delle vendite per impresa nel caso di massima concentrazione. (2
punti)
2c) Mostrare che
1
N
essendo µXY =
PN
i=1 [xi − µX ] [yi − µY ] =
PN Xi
Xi ×Yi
i=1
i=1 N
N , µX =
PN
µXY − µX µY ,
P
Yi
e µY = N
i=1 N . (3 punti)
Problema 3 (9 PUNTI)
3a) Due fratelli sono diventati titolari di un concessione ventennale. Sapendo che alla
loro età la probabilità di sopravvivere dopo 20 anni è pari a 0.80 e 0.70, calcolare,
supponendo che gli eventi siano indipendenti, la probabilità:
i) che sopravvivano entrambi dopo 20 anni;
ii) che sopravviva solo il secondo fratello (3 punti)
3b) Siano A e B due eventi tali che P (A ∪ B) = 0.7, P (A) = 0.5 e P (B) = 0.3.
Calcolare P (A|B), dire inoltre se i due eventi sono incompatibili. (3 punti)
3c) Enunciare il teorema di Bayes (3 punti)
Problema 4 (5 PUNTI)
La distribuzione dell’ammontare in euro speso da 100 individui che hanno trascorso
fuori casa le vacanze di Pasqua può essere reppresentata dal seguente box-plot
4a) La distribuzione è simmetrica? Stabilire se la media è più piccola o più grande
della mediana. Commentare il risultato (3 punti)
4b) Dire se sono presenti dati anomali (outliers). Motivare la risposta. (2 punti)
Facoltà di ECONOMIA – Università di Pavia – 15 Aprile 2009
Prova scritta di Analisi dei dati, Modalità D
• Riportare sul foglio nome, cognome, numero di matricola e modalità del
testo d’esame.
Problema 1 (8 PUNTI)
Una società che si occupa di ricerche di mercato ha effettuato, per un bar nelle vicinanze della facoltà di Scienze Politiche, un’indagine di customer satisfaction. Sono stati
intervistati 10 clienti dopo che hanno consumato il pranzo. La soddisfazione è espressa
in una scala numerica crescente che va da 1 a 10.
Soddisfazione (SO)
7
8
4
9
3
7
5
9
7
10
Somma
69
Somma dei quadrati
523
Sesso (S)
M
M
F
M
F
M
F
F
M
F
Frequenza di visita nell’ultimo mese (F)
6
7
2
5
5
7
8
3
2
6
Somma
51
Somma dei quadrati
301
Età (E)
19
21
18
19
19
22
20
25
21
20
Somma
204
Somma dei quadrati
4198
1a) Calcolare media e mediana di Soddisfazione ( 2 punti)
1b) Quale carattere tra Frequenza di visita nell’ultimo mese ed Età è più variabile?
Motivare la risposta. (4 punti)
1c) È vero che le ragazze che hanno risposto all’intervista sono mediamente più
soddisfatte degli intervistati di sesso maschile? Giustificate la risposta. (2 punti)
Problema 2 (8 PUNTI)
Negli anni 2003-2008 sul mercato europeo sono state vendute 250 navi da crociera;
sullo stesso mercato sono state potenzialmente attive dal punto di vista commerciale
10 imprese. I risultati sono rappresentati nella tabella sottostante
Impresa
Navi
A1
20
A2
10
A3
15
A4
10
A5
10
A6
50
A7
10
A8
40
A9
65
A10
20
Somma
250
2a) Valutare il livello di concentrazione delle vendite (3 punti)
2b) Mantenendo invariato il numero totale di navi vendute, scrivere un esempio di
distribuzione delle vendite per impresa nel caso di minima concentrazione (2
punti)
2c) Scrivere la definizione dell’indice di eterogeneita G0 , precisando attentamente le
quantità usate (3 punti).
Problema 3 (9 PUNTI)
3a) Due fratelli sono diventati titolari di un concessione ventennale. Sapendo che alla
loro età la probabilità di sopravvivere dopo 20 anni è pari a 0.70 e 0.60, calcolare,
supponendo che gli eventi siano indipendenti, la probabilità:
i) che nessuno dei due sopravviva dopo 20 anni;
ii) che sopravviva solo il primo fratello (3 punti)
3b) Siano A e B due eventi tali che P (A ∪ B) = 0.8, P (A) = 0.45 e P (B) = 0.4.
Calcolare P (B|A), dire inoltre se i due eventi sono indipendenti. (3 punti)
3c) Enunciare il teorema delle probabilità totali (3 punti)
Problema 4 (5 PUNTI)
La distribuzione dell’ammontare in euro speso da 100 individui che hanno trascorso
fuori casa le vacanze di Pasqua può essere rappresentata dal seguente box-plot
4a) La distribuzione è simmetrica? Stabilire se la media è più piccola o più grande
della mediana. Commentare il risultato (3 punti).
4b) Dire se sono presenti dati anomali (outliers). Motivare la risposta. (2 punti)