FACOLTÀ DI SOCIOLOGIA CdL in SCIENZE DELL

annuncio pubblicitario
FACOLTÀ DI SOCIOLOGIA
CdL in SCIENZE DELL’ORGANIZZAZIONE
ESAME di STATISTICA
19/06/2012
ESERCIZIO 1 (2+2+2+2)
Agli studenti di un Corso di Laurea triennale è stato chiesto di esprimere il loro giudizio sul corso di
Statistica che hanno appena frequentato. I dati sono i seguenti:
Giudizio
per niente interessante
poco interessante
abbastanza interessante
molto interessante
N° studenti
18
54
45
33
a) Dopo aver descritto la natura del fenomeno X, calcolarne la distribuzione delle frequenze
relative e rappresentarla graficamente;
b) Sintetizzare X mediante due indici di posizione e commentare.
Si supponga di estrarre dal gruppo considerato un campione bernoulliano di 6 studenti:
c) Descrivere la variabile casuale che interpreta il numero di studenti nel campione che hanno
giudicato il corso almeno “abbastanza interessante”, calcolandone media e varianza;
d) Calcolare la probabilità che la variabile casuale costruita al punto c) assuma valore 2 e la
probabilità che assuma valori maggiori o uguali a 5.
ESERCIZIO 2 (2+3+2+3)
L’ufficio Marketing di una nota catena di supermercati ha registrato le abitudini di spesa di 100 suoi
clienti negli ultimi 12 mesi. La tabella seguente riporta la distribuzione congiunta delle variabili
X=Genere e Y=importo medio per acquisto (in euro):
X, Y
Maschio
Femmina
0 -| 20
16
5
20 -| 50
20
21
50 -| 200
8
30
a) Calcolare le distribuzioni condizionate di Y dato xi, interpretandole e commentandole;
b) Stabilire, motivando la risposta, se sussiste indipendenza tra le due variabili; in caso negativo,
misurare con un opportuno indice la connessione tra le due variabili;
c) Calcolare la media marginale e le medie condizionate di Y, verificando la proprietà associativa.
d) Dopo aver esposto il concetto di Correlazione, definire il coefficiente di correlazione lineare ρ
e discuterne i valori.
FACOLTÀ DI SOCIOLOGIA
CdL in SCIENZE DELL’ORGANIZZAZIONE
ESAME di STATISTICA
19/06/2012
ESERCIZIO 3 (3+3+2+2+2)
a) Discutere comparativamente i vantaggi e gli svantaggi di una stima intervallare rispetto ad una
stima puntuale.
A un campione casuale di 51 adolescenti è stato chiesto quante ore trascorrano alla settimana sul
web. Il tempo medio è risultato pari a 9 ore con varianza campionaria 16.
Supponendo che il tempo trascorso da un adolescente sul web si distribuisca come una variabile
casuale Normale N ( µ , σ 2 ) :
b) Calcolare un intervallo di confidenza per µ con livello di confidenza 95%, interpretando il
risultato;
c) Calcolare un intervallo di confidenza per µ con livello di confidenza 95% sapendo che σ2=16,
giustificando l’eventuale differenza con quanto calcolato in b);
d) Calcolare la dimensione campionaria n minima che garantisce, a livello 95%, un errore non
superiore a 20 minuti (si ipotizzi ancora σ2=16);
e) Verificare l’ipotesi H 0 : µ < 8 ad un livello di significatività del 95%.
FACOLTÀ DI SOCIOLOGIA
CdL in SCIENZE DELL’ORGANIZZAZIONE
ESAME di STATISTICA
19/06/2012
ESERCIZIO 1
a) Il fenomeno è qualitativo ordinale; in Tabella, le frequenze relative e relative cumulate.
Giudizio
per niente interessante
poco interessante
abbastanza interessante
molto interessante
N° studenti
18
54
45
33
pi
0.12
0.36
0.3
0.22
Фi
0.12
0.48
0.78
1
0.00
0.10
0.20
0.30
La rappresentazione grafica più adeguata è il diagramma a barre:
per niente
poco
abbastanza
molto
b) Moda = “poco interessante”
Mediana = “abbastanza interessante”
La maggior parte degli studenti ha ritenuto il corso “poco interessante”.
Il 50% degli studenti ha ritenuto il corso al più abbastanza interessante; il 50% degli studenti ha
ritenuto il corso almeno “abbastanza interessante”.
c) La variabile casuale Y=“numero di studenti che hanno trovato il corso almeno abbastanza
interessante” è una Binomiale con parametri n=6 e p=(0.3+0.22)=0.52. La sua media è np=3.12 e la
sua varianza np(1-p)≈1.50.
d) La v.c. Y assume valore 2 con probabilità
6
P(Y = 2) =  0.52 2 (1 − 0.52) 4−2 = 15 ⋅ 0.52 2 ⋅ 0.48 4 = 0.215
 2
e assume valori maggiori o uguali a 5 con probabilità
 6
6
P(Y ≥ 5) = P(Y = 5) + P(Y = 6) =  0.52 5 (1 − 0.52) 6−5 +  0.52 6 (1 − 0.52) 6−6
5
6
= 6 ⋅ 0.52 5 ⋅ 0.481 + 0.52 6 = 0.129
ESERCIZIO 2
In tabella, sono riportate le frequenze marginali di X e Y.
FACOLTÀ DI SOCIOLOGIA
CdL in SCIENZE DELL’ORGANIZZAZIONE
ESAME di STATISTICA
19/06/2012
X, Y
Maschio
Femmina
0 -| 20
16
5
21
20 -| 50
20
21
41
50 -| 200
8
30
38
44
56
100
a) Le distribuzioni condizionate di Y dato xi sono riportate qui sotto, assieme alle marginali relative
di Y:
X, Y
Maschio
Femmina
0 -| 20
0.364
0.089
0.21
20 -| 50
0.455
0.375
0.41
50 -| 200
0.182
0.536
0.38
Interpretazione: il 36.4% dei clienti maschi spende mediamente fino a 20 euro,…; l’8.9 dei clienti
femmine spende mediamente fino a 20 euro, etc.
b) Essendo le due distribuzioni di frequenze condizionate diverse tra di loro, si conclude che non
c’è indipendenza tra X e Y. La connessione tra le due variabili va misurata con l’indice Chi
Quadrato:
 16 2

20 2
82
52
212
30 2
χ 2 = 100
+
+
+
+
+
− 1 = 17.33
 44 ⋅ 21 44 ⋅ 41 44 ⋅ 38 56 ⋅ 21 56 ⋅ 41 56 ⋅ 38 
e normalizzato
17.33
17.33
χ~ 2 =
=
= 0.1733 (17% della connessione massima).
100 ⋅ min(1,2)
100
c) La media di Y, utilizzando i valori centrali delle sue classi, è data da
y = 0.21 ⋅ 10 + 0.41 ⋅ 35 + 0.38 ⋅ 125 = 63.95 euro.
Le due medie condizionate valgono
y | M = (16 ⋅ 10 + 20 ⋅ 35 + 8 ⋅ 125) / 44 = 42.27 e
y | F = (5 ⋅ 10 + 21 ⋅ 35 + 30 ⋅ 125) / 56 = 80.98
Per la proprietà associativa y = (44 ⋅ 42.27 + 56 ⋅ 80.98) / 100 = 63.95
d) Vedi appunti/libro di testo
ESERCIZIO 3
a) Vedi appunti/libro di testo
b) L'intervallo di confidenza, essendo
1 − α = 0.95 → α = 0.05 → α / 2 = 0.025
→ (dalle tavole della T con 51 - 1 = 50 gl) tα(50/ 2) = 2.0086
(
)
è dato da ( x − tα / 2 s 2 / n , x + tα / 2 s 2 / n ) = 9 − 2.0086 16 / 51, 9 + 2.0086 16 / 51 = (7.87,10.13)
c) L'intervallo di confidenza, essendo dalle tavole della Z zα / 2 = 1.96 ,
FACOLTÀ DI SOCIOLOGIA
CdL in SCIENZE DELL’ORGANIZZAZIONE
ESAME di STATISTICA
19/06/2012
(
)
è dato da ( x − zα / 2 σ 2 / n , x + zα / 2 σ 2 / n ) = 9 − 1.96 16 / 51, 9 + 1.96 16 / 51 = (7.90,10.10 ) .
E’ più stretto del precedente, cioè è più preciso, perché adesso la varianza della popolazione σ2 è
nota e non deve essere più stimata.
d) La dimensione campionaria minima si calcola come
z σ 
 1.96 ⋅ 4 
n =  α /2  = 
 ≈ 554
 1/ 3 
 err 
dato che 20 minuti corrispondono a 1/3 di ora.
X −µ
e) La statistica da usare è
che per µ = µ 0 si distribuisce come una T di Student con 50 gl.
S2 /n
( 50 )
Il valore critico è t 0.05
= 1.6759 : il test, che è unilaterale, rifiuta per valori di t maggiori di
1.6759 . Il valore osservato della statistica test è
9−8
t oss =
= 1.79
16 / 51
e quindi il test rifiuta l’ipotesi nulla H 0 .
2
2
Scarica