Simulazione d`esame

SIMULAZIONE ESAME DI STATISTICA
SOLUZIONI
ESERCIZIO 1
Il direttore di una fabbrica vuole ridurre il numero di pezzi difettosi prodotti dalla sua industria. A
questo scopo ha esaminato la produzione di mercoledì scorso rilevando 100 pezzi difettosi. Le
cause di difettosità sono descritte dalla tabella sottostante
Difetti
Montaggio errato
Errata dimensione
Prestazione non conforme
Altre cause
Totale
Numero di pezzi difettosi
30
50
5
15
100
a) Fornire una rappresentazione grafica dei dati osservati sulla variabile difetti.
b) Proporre un indicatore di misura della tendenza centrale per questa variabile
Soluzione
a) Una rappresentazione grafica idonea per una variabile qualitativa è il diagramma a barre.
b) Dato che la variabile difetti è ti tipo qualitativo non ordinabile, proponiamo la moda come
indicatore per misurare la tendenza centrale. La moda corrisponde alla modalità errata
dimensione.
ESERCIZIO 2
Su un collettivo di 11 clienti di una palestra sono state rilevate le seguenti quantità
Abbonamento (A=Annuale, M=Mensile, S=Semestrale)
Presenza (Numero di giorni alla settimana in cui frequenta la palestra)
Sesso (M=Maschio, F=Femmina)
Età2
Abbonamento Età
Presenza Presenza2
324
1
M
18
1
529
4
M
23
2
529
9
A
23
3
784
16
S
28
4
900
4
M
30
2
361
16
A
19
4
529
4
A
23
2
484
4
S
22
2
324
16
S
18
4
484
4
A
22
2
625
1
M
25
1
Totale
Totale
Totale
Totale
5873
79
251
27
Sesso
F
M
M
F
F
M
F
M
M
F
M
Età X Presenza
18
46
69
112
60
76
46
44
72
44
25
Totale
612
a) Confrontare l’età media dei maschi che frequentano la palestra e quella delle femmine.
b) Calcolare la media della variabile età indipendentemente dal sesso. Dopo aver classificato la
variabile età nelle classi [18,21) [21,24) [24,27) [27,31) calcolare nuovamente la media della
variabile età considerando la distribuzione in classi.
c) Calcolare la covarianza tra Età e Presenza, commentare il risultato ottenuto.
d) Calcolare il coefficiente di correlazione tra Età e Presenza.
Soluzione
a) Indichiamo l’età del cliente con X ed isoliamo le osservazioni sui maschi e sulle femmine;
otteniamo:
121
130
xF 
 24.2
xM 
 21.6667
5
6
Si evince dunque che il sesso ha una certa influenza sull’età del cliente.
b) L’età media del collettivo considerato è
xetà 
121  130 251

 22.82
11
11
Otteniamo la seguente distribuzione in classi per la variabile età.
Età
Frequenze Valore centrale Val. cent. X Freq.
3
19.5
58.5
[18,21)
5
22.5
112.5
[21,24)
1
25.5
25.5
[24,27)
2
29
58
[27,31)
11
254.5
Totale
L’età media calcolata sulla base della distribuzione in classi è
xetà 
254.5
 23.14
11
c) Indichiamo l’età del cliente con X e la presenza con Y. Utilizzando le somme fornite dal
testo, si ottiene:
27
 2.45
11
 xi yi  Nxy  612  11 22.82  2.45   2.999  0.273
COV ( X , Y ) 
N
11
11
x
251
 22.82
11
y
Il valore negativo della covarianza informa che esiste un’associazione negativa tra le due
variabili. Per valutarne l’intensità occorrerebbe calcolare il coefficiente di correlazione.
d) Per calcolare il coefficiente di correlazione è necessario calcolate prima la deviazione
standard delle due variabili. Utilizzando le informazioni nel testo si ottiene:
X 
x
2
i
 Nx 2
N
y
2
 Ny 2
5873  11 22.82 2

 3.63
11
79  11 2.45 2
 1.09
N
11
COV ( X , Y )
 0.273
CORR ( X , Y ) 

 0.07
 XY
3.63  1.09
Y 
i

ESERCIZIO 3
Una banca valuta che la probabilità che un suo cliente non restituisca entro il termine stabilito un
prestito sia pari a 1%.
a) Su 10 clienti che hanno richiesto un prestito alla banca qual è la probabilità che almeno due
non paghino il prestito entro il termine stabilito?
b) Su 200 clienti della banca quanti ci si aspetta non rimborsino il prestito entro il termine
stabilito?
c) Su 1000 clienti della banca qual è la probabilità che al massimo 12 non restituiscano il
prestito entro il termine stabilito?
Soluzione
Indichiamo con p = 0.01 la probabilità che un cliente non restituisca il prestito entro il termine
stabilito. Indichiamo inoltre con X la variabile aleatoria che descrive il numero di clienti che, in un
insieme di n, non restituiscono il prestito. E’ noto che X ha una distribuzione binomiale di parametri
n e p. La stessa distribuzione può essere approssimata con la Normale qualora n sia elevato, ossia se
np(1  p)  9 .
a) In questo caso n = 10; dunque
P( X  2)  1  P( X  2) 
10!
10!
 1
(0.01)0 (0.99)10 
(0.01)1 (0.99)9 
0!10!
1!9!
 1  (0.99)10  (10)(0.01)(0.99)9 
 1  0.9044  0.0913  0.0043
b) In questo caso n = 200; dunque
E ( X )  np  (200)(0.01)  2
c) In questo caso n = 1000; dunque
E ( X )  np  (1000)(0.01)  10
Var ( X )  np (1  p )  (1000)(0.01)(0.99)  9.9  9
X  N (10,9.9)
Possiamo ora calcolare
12  10 

P( X  12)  P  Z 
  P( Z  0.6356)  FZ (0.64)  0.7389
9.9 

ESERCIZIO 4
Un’azienda, per collocare nel mercato un nuovo tipo di detersivo, effettua una vendita
promozionale in due soli supermercati di Bologna. Il supermercato A solitamente è più frequentato
del supermercato B. Infatti, la probabilità che un cliente entri nel supermercato A è tre volte più
grande della probabilità di entrare nel supermercato B. Il gestore nel negozio B sostiene che il 30%
dei clienti acquista il prodotto in promozione, mentre il gestore del negozio A ha verificato che il
65% dei clienti acquista il nuovo prodotto. Dato che un cliente ha acquistato questo detersivo,
calcolare la probabilità che l’abbia acquistato nel supermercato B.
Soluzione
Dal testo dell’esercizio si ha che,
P( A)  0.75 , P( B)  0.25
Chiamando con D l’evento acquisto del detersivo in promozione,
P( D | A)  0.65 , P( D | B)  0.30 .
Applicando il teorema di Bayes si ha che
P ( B | D) 
P( D | B) P( B)
0.30  0.25

 0.133
P( D | B) P( B)  P( D | A) P( A) (0.30  0.25)  (0.65  0.75)
ESERCIZIO 5
Da un censimento condotto nel 2003 riguardante il mezzo utilizzato dagli abitanti di un comune
della provincia di Bologna per raggiungere il posto di lavoro si sono ottenuti i seguenti risultati
Mezzo di trasporto
Frequenza relativa
Auto
0.55
Mezzo pubblico
0.35
Altro
0.10
Da un’analoga indagine del 2007 effettuata su un campione di 1000 individui si sono ottenuti i
seguenti risultati
Mezzo di trasporto
Frequenza assoluta
Auto
530
Mezzo pubblico
390
Altro
80
a) Stimare la percentuale di individui che nel 2007 hanno utilizzato l’auto per raggiungere il
luogo di lavoro.
b) Si verifichi al livello di significatività del 1% se dal 2003 al 2007 vi è stato un aumento delle
percentuale di individui che utilizzano il mezzo pubblico.
c) Calcolare l’intervallo di confidenza al 95% per la percentuale di coloro che non si recano al
lavoro in auto.
d) Spiegare brevemente cosa si intende per livello di confidenza pari al 95%.
Soluzione
530
 0.53 .
1000
b) Si tratta di effettuare una verifica delle seguenti ipotesi: H 0 : p  0.35 contro H1 : p  0.35 ,
dove p rappresenta la proporzione di coloro che nel 2007 si recano al lavoro utilizzando il
mezzo pubblico. Possiamo utilizzare la seguente regola:
a) Possiamo utilizzare la proporzione campionaria come stimatore; pertanto pˆ 
rifiuto H 0 se
pˆ  p0
p0 (1  p0 )
n
 z
.
Nel nostro caso p0 = 0.35 e, essendo α = 0.01, z 0.01  2.32 . Si ha quindi
0.39  0.35
 2.5934  2.32
0.39(1  0.39)
1000
Pertanto l’ipotesi nulla viene rifiutata.
c) Ricordiamo che l’intervallo di confidenza per una proporzione ha la seguente struttura:

pˆ (1  pˆ )
pˆ (1  pˆ ) 
; pˆ  z / 2
 pˆ  z / 2

n
n


In questo caso, si ha
1000  530
 0.47
1000
z / 2  z0.025  1.96
pˆ 
e quindi

(0.47)(0.53)
(0.47)(0.53) 
;0.47  1.96
 0.47  1.96
 ossia  0.4391;0.5009  .
1000
1000


d) Il livello di confidenza esprime l’affidabilità dello strumento inferenziale che si sta
utilizzando: se l’intervallo venisse applicato ad un grande numero di campioni, nel 95% dei
casi si otterrebbe un intervallo contenente il valore del parametro incognito.
ESERCIZIO 6 (4 punti inferenza )
Si considera un campione di 50 lavoratori di cui 15 lavorano in un’azienda alimentare e 35 in
un’azienda manifatturiera. Si osserva che la durata in media del contratto (in anni) di coloro che
lavorano nel settore alimentare è 3, mentre per coloro che lavorano nel settore manifatturiero è 5.
Considerando che la varianza della durata del contratto (in anni2) nelle due popolazioni è
rispettivamente 0.02 e 0.001. Sotto l’ipotesi che le due popolazioni sono normali ed indipendenti,
a) si costruisca un intervallo di confidenza al 90% per la differenza delle medie  A   M
b) si verifichi l’ipotesi che  A   M con un livello di significatività del 5%
Soluzione
Anche se non conosciamo la distribuzione delle due popolazioni, data la presenza di due grandi
campioni, utilizzando il teorema del limite centrale, possiamo fare inferenza con la distribuzione
Normale.
a) Ricordiamo che l’intervallo di confidenza per la differenza di due medie in popolazioni
normali indipendenti ha la seguente struttura:

 A2  M2
 A2  M2 
(
x

x
)

z


;
(
x

x
)

z


 A

M
 /2
A
M
 /2
n
n
n
nM 

A
M
A
da cui,

 A2  M2 
0.02 0.001

; ( x A  x M )  z / 2 

(3  5)  1.64 

15
35
n
n
A
M 


ossia  2  1.64  0.037;2  1.64  0.037  (2.06;1.94).
b) Si tratta di porre a verifica di ipotesi H 0 :  A   M  0 contro H1 :  A   M  0 .
Rifiuto H 0 se
x A  xM
 A2
nA
Si ha quindi
x A  xM

2
A
nA


2
M
nM


 M2
nM
 z / 2 o se
x A  xM
 A2
nA

 M2
  z / 2
nM
35
2

che è minore di z 0.025  1.96 .
0.037
0.02 0.001

15
35
Perciò si rifiuta l’ipotesi nulla.