numeri 0

Esame di Statistica I – 13 giugno 2001
docente: Prof.ssa J. Mortera
SOLUZIONI degli esercizi
1. [7] Il numero di clienti che si presentano ad uno sportello bancario in un giorno è descritto
da una variabile casuale X con distribuzione di Poisson di parametro , cioè
f ( x;  )  e 
x
, x0 e  0
x!
Al fine di stimare , è stato rilevato per cinque giorni il numero di clienti che si sono
presentati a questo sportello e si è osservato: 10, 13, 8, 14, 12.
a) Determinate lo stimatore di massima verosimiglianza di .
b) Calcolarne la stima in corrispondenza del campione osservato.
c) Lo stimatore di massima verosimiglianza trovato è consistente in media quadratica?
Dimostrare.
d) Definire la proprietà di consistenza di uno stimatore. Lo stimatore trovato è anche
consistente?
Soluzione
a) Scriviamo la funzione di verosimiglianza
L( )   f ( xi ;  )  e
i
n
x
 x ! e
i
i
n
i

x
i i
x !
i i
La funzione di log-verosimiglianza è
( )  n   xi log   ilog( xi !)
i
Ne calcoliamo la derivata rispetto a  e la poniamo uguale a zero:
d( )
1
 n   xi  0 .
d
 i
Quindi n 
x
i
i
Pertanto lo stimatore di massima verosimiglianza è
̂ 
1
 Xi
n i
Per esserne sicuri calcoliamo la derivata seconda
d 2  ( )
1
n
  2  xi    0.
2
ˆ
d  ˆ

ˆ
10  13  8  14  12
 11,4
b) ˆ 
5
a) Per le proprietà della media campionaria, lo stimatore trovato è consistente in media
quadratica. Dimostriamolo
1
 1
1
E (ˆ )  E   X i    E ( X i )  n  
n
n i
 n i
1
 1
1
2
Var (ˆ )  Var  X i   2  Var ( X i )  2 n2 
 0
n
n n
n i
 n i
Quindi lo stimatore trovato è non distorto e ha varianza asintoticamente nulla pertanto esso è
consistente in media quadratica.
d) La consistenza in media quadratica è condizione sufficiente per la consistenza, quindi ̂ è
uno stimatore consistente.
2. [2] Date due variabili statistiche X e Y, se si trova che =-1,13 allora X e Y
 A X e Y sono dipendenti in modo quadratico
 B chi ci ha dato il risultato ha sbagliato i conti
 C X e Y hanno una fortissima dipendenza lineare negativa
 D X e Y sono indipendenti.
Soluzione: la risposta esatta è B.
3. [2] Se la distanza interquartile di un insieme di dati è nulla allora
 A la media è uguale a 0
 B i numeri sono tutti uguali
 C il massimo e il minimo della distribuzione sono uguali
 D tutti i quartili sono uguali.
Soluzione: la risposta esatta è D.
4. [7] E’ noto che il 45% dei dipendenti di una multinazionale è single. Considerando un
campione casuale di 10 dipendenti:
a) determinare la probabilità che al più sette dipendenti siano single;
b) determinare la probabilità che il numero di single sia compreso tra 4 e 7;
c) Preso un campione dieci volte più grande, calcolare la probabilità che almeno 25
dipendenti siano single.
d) Data una variabile casuale XBin(n,p), trovare media e varianza.
Soluzione
b) X= “numero di dipendenti single”
X~Bin(10, 0,45)
P ( X  7) = 1  P ( X  8) = 1 – 0,0274 = 0.9726
b) P(4  X  7)  P( X  7)  P( X  3)  0,9726  0,266  0,7066
c) Prendiamo n=100 allora X tende ad avere una distribuzione normale con media
E(X)=1000,45=45 e
Var(X)=1000,450,55=24,75

25  0,5  45 
  PZ  4,12  ?
P X  25  P Z 

24
,
75


5. [4] Ad un campione di 81 giovani in età compresa tra 25 e 35 anni è stato chiesto se sono
laureati e se hanno un’occupazione. Il risultato della rilevazione è contenuto nella tabella
seguente
Stato occupazionale
Occupato
Disoccupato
Titolo di studio
Laureato
21
15
36
Non laureato
17
28
45
38
43
81
a) C’è dipendenza o indipendenza tra il titolo di studio e lo stato occupazionale? Usare
l’indice opportuno.
b) Valutare se c’è indipendenza anche mediante l’opportuno test statistico.
c) Lasciando inalterata la marginale dello stato occupazionale, costruire la tabella di
massima dipendenza.
Soluzione
a) Per valutare se due variabili statistiche sono indipendenti o meno si può ricorrere all’indice
  
2
i
j
n
ij
 nij 
2
nij
Costruiamo la tabella teorica di indipendenza
Titolo di studio
Laureato
Non laureato
Stato occupazionale
Occupato
Disoccupato
16,89
19,11
21,11
23,89
(21  16,89) 2 (15  19,11) 2 (17  21,11) 2 (28  23,89) 2
 



 3,39
16,89
19,11
21,11
23,89
2
b) eseguiamo il test del chi-quadrato per l’indipendenza. Nel punto precedente abbiamo
2
 3,39 . Asintoticamente la statistica chi-quadrato ha distribuzione  (221)( 21) .
trovato  oss
Facciamo il test calcolando il livello di significatività osservato p  P( 12  3,39 | H 0 )
Dalle tavole si trova che p>0,05 e quindi si accetta l’ipotesi di indipendenza.
d) la tabella di massima dipendenza è la seguente
Titolo di studio
Laureato
Non laureato
Stato occupazionale
Occupato
Disoccupato
38
0
0
43
38
43
38
43
81
6. [6] Siano X e Y due variabili casuali normali con E(X)=  e E(Y)=2 e Var(X)=Var(Y)=4.
Sia Z=2Y-X+2
a) qual è la distribuzione di Z? Perchè?
b) Supponendo che  XY 
1
, calcolare E(Z) e Var(Z).
2
c) Se X e Y sono indipendenti, qual è il valore atteso di W=Z+X-2Y+XY-2?
Soluzione
a) Z ha distribuzione normale perché è una combinazione lineare di variabili casuali
normali.
b) E ( Z )  2  E (Y )  E ( X )  2  4    2  2  3
1
1
 Cov( X , Y ) 
4 4 2
 x Y
2
2
Var ( Z )  4Var (Y )  Var ( X )  4Cov( X , Y )  4  4  4  4  (2)  12
 XY 
Cov( X , Y )

c) X e Y indipendenti allora
E (Z  X  2Y  XY  2)  E ( X  Y )  E ( X ) E (Y )  22
7. [5] L’istituto preposto al controllo del rispetto della par condicio in campagna elettorale ha
rilevato in campione di 120 giorni il tempo (in minuti), X e Y, dedicato ai due maggiori
candidati. In sintesi i dati sono
120
 xi  420
i 1
120
 xi2  3100 ,
i 1
120
 yi  576
i 1
120
y
i 1
2
i
 5400
a) Il candidato X ritiene che al suo avversario sia stato concesso in media più tempo; è vero?
commentare i risultati.
b) Costruire l’intervallo di confidenza all’85% per il tempo concesso al secondo candidato
(Y)
c) Se si aumenta solo la numerosità campionaria,
 A l’intervallo è meno preciso
 B l’intervallo è più preciso
 C aumenta il livello di confidenza
 D l’intervallo comprende sicuramente il valore vero del parametro.
Soluzione
a) E’ necessario fare un test per il confronto tra medie.
Le due variabili casuali sono:
X= “tempo dedicato al primo candidato” con E(X)=X e Var(X)=2
Y= “tempo dedicato al secondo candidato” con E(Y)=Y e Var(Y)=2
Cioè siamo nel caso di varianze incognite ma supponiamo che siano uguali.
Le ipotesi a confronto sono:
H0: X = Y
H1: X < Y
420
576
 3,5
y
 4,8
120
120
1
s X2 
3100  3,52  13,58
120
1
sY2 
5400  4,82  21,96
120
120  13,58  120  21,96
s 2p 
 17,92
120  120  2
x
La numerosità campionaria è elevata e quindi la distribuzione della statistica test può essere
approssimata con la normale standardizzata
z
3,5  4,8
1 
 1
17,92


 120 120 
 2,36
Non resta che calcolare il livello di significatività osservato che è:
p  P(Z  2,36 | H 0 )  1  0,9909  0,0091
b) L’intervallo di confidenza è tale che

S
S 
P Y  z Y  Y  Y  z Y   0,85
n
n
2
2

1-=0,85 allora z   1,44
2
576
y
 4,8
120
120
sY2  sY2
 22,14
119
allora l’intervallo è

22,14
 4,8  1,44
,

120

4,8  1,44
c) La risposta esatta è la B
22,14 
  4,18 5,42
120 