prova del 13-6-2001

annuncio pubblicitario
Esame di Statistica I – 13 giugno 2001
docente: Prof.ssa J. Mortera
SOLUZIONI degli esercizi
1.[5] L’istituto preposto al controllo del rispetto della par condicio in campagna elettorale ha
rilevato in un campione di 100 giorni il tempo (in minuti), X e Y, dedicato ai due maggiori
candidati. In sintesi i dati sono
100
 xi  350
i 1
100
 xi2  2000 ,
i 1
100
 yi  460
i 1
100
y
i 1
2
i
 4000
a) si può ritenere che ai due candidati sia stato concesso lo stesso tempo? Commentare i
risultati.
b) Costruire l’intervallo di confidenza all’85% per il tempo concesso al primo candidato (X)
c) Se si diminuisce il livello di confidenza,
 A l’intervallo rimane invariato
 B l’intervallo è più preciso
 C il valore vero del parametro sicuramente non è compreso nell’intervallo
 D l’intervallo è meno preciso.
Soluzione
a) E’ necessario fare un test per il confronto tra medie.
Le due variabili casuali sono:
X= “tempo dedicato al primo candidato” con E(X)=X e Var(X)=2
Y= “tempo dedicato al secondo candidato” con E(Y)=Y e Var(Y)=2
Cioè siamo nel caso di varianze incognite ma supponiamo che siano uguali.
Le ipotesi a confronto sono:
H0: X = Y
H1: X  Y
350
361
 3,5
y
 4,6
100
100
1
s X2 
2000  3,52  7,75
100
1
sY2 
4000  4,6 2  18,84
100
100  7,75  100 18,84
s 2p 
 13,43
100  100  2
x
La numerosità campionaria è elevata e quindi la distribuzione della statistica test può essere
approssimata con la normale standardizzata
z
3,5  4,6
1 
 1
13,43


 100 100 
 2,12
Non resta che calcolare il livello di significatività osservato che è:
p  2  P(Z  2,12 | H 0 )  2  (1  0,9830)  0,034
b) L’intervallo di confidenza è tale che

S
S 
P X  z X   X  X  z X   0,85
n
n
2
2

1-=0,85 allora z   1,44
2
350
x
 3,5
100
100
sX2  s X2
 7,83
99
allora l’intervallo è

7,83
7,83 
 3,5  1,44
  3,1 3,9 
, 3,5  1,44

100
100 

c) La risposta esatta è la B
2.[7] E’ noto che il 35% dei dipendenti di una multinazionale é single. Considerando un
campione casuale di 10 dipendenti:
a) determinare la probabilità che almeno due dipendenti siano single;
b) determinare la probabilità che il numero di single sia compreso tra 2 e 4;
c) preso un campione dieci volte più grande, calcolare la probabilità che al più 35 dipendenti
siano single.
d) Data una variabile casuale XBin(n,p), trovare media e varianza.
Soluzione
a) X= “numero di dipendenti single”
X~Bin(10, 0,35)
P( X  2) = 1  P( X  1) =10,0860 = 0.914
b) P(2  X  4)  P( X  4)  P( X  1)  0,7515  0,0860  0,6655
b) Prendiamo n=100 allora X tende ad avere una distribuzione normale con media
E(X)=1000,35=35 e
Var(X)=1000,350,65=22,75

35  0,5  35 
  PZ  0,10   0,5398
P X  35  P Z 

22
,
75


3. [7] La durata di vita di una componente elettronica è una variabile casuale X con
distribuzione esponenziale negativa di media E(X)=, cioè
f ( x;  ) 
1

e
1
 x

, x0 e  0
Al fine di stimare , sono state prese in considerazione 4 componenti la cui durata è risultata
pari a 2,3,5,7 anni.
a) Determinate lo stimatore di massima verosimiglianza di .
b) Calcolarne la stima in corrispondenza dei campione osservato.
c) Lo stimatore di massima verosimiglianza trovato è consistente in media quadratica?
Dimostrare.
d) Definire la proprietà di consistenza di uno stimatore. Lo stimatore trovato è anche
consistente?
Soluzione
a) Scriviamo la funzione di verosimiglianza
1
L( )   f ( xi ;  )   e
i
i

1
 xi

 1     xi
  e i

La funzione di log-verosimiglianza è
n
1
( )  n  log  
1
 xi

i
Ne calcoliamo la derivata rispetto a  e la poniamo uguale a zero:
d( )
n 1
   2  xi  0 . Semplificando si ottiene
d
  i
1
 n   xi  0 e quindi n   xi

i
Pertanto lo stimatore di massima verosimiglianza è
̂ 
1
 Xi
n i
Per esserne sicuri calcoliamo la derivata seconda
d 2  ( )
n 2
n 2
n
 2  3  xi  2  3 nˆ   2  0.
2
d  ˆ ˆ ˆ
ˆ ˆ
ˆ
2357
 4,25
b) ˆ 
4
c) Per le proprietà della media campionaria, lo stimatore trovato è consistente in media
quadratica. Dimostriamolo
1
 1
1
E (ˆ )  E   X i    E ( X i )  n  
n
n i
 n i
1
 1
1
2
Var (ˆ )  Var  X i   2  Var ( X i )  2 n2 
 0
n
n n
n i
 n i
Quindi lo stimatore trovato è non distorto e ha varianza asintoticamente nulla pertanto esso è
consistente in media quadratica.
d) La consistenza in media quadratica è condizione sufficiente per la consistenza, quindi ̂ è
uno stimatore consistente.
4. [4] Ad un campione di 80 giovani in età compresa tra 25 e 35 anni è stato chiesto se sono
laureati e se hanno un’occupazione. Il risultato della rilevazione è contenuto nella tabella
seguente
Stato occupazionale
Occupato
Disoccupato
Titolo di studio
Laureato
22
8
30
Non laureato
16
34
50
38
42
80
a) C’è dipendenza o indipendenza tra il titolo di studio e lo stato occupazionale? Usare
l’indice opportuno.
b) Valutare se c’è indipendenza anche mediante l’opportuno test statistico.
c) Lasciando inalterata la marginale del titolo di studio, costruire la tabella di massima
dipendenza.
Soluzione
a) Per valutare se due variabili statistiche sono indipendenti o meno si può ricorrere all’indice
  
2
i
j
n
ij
 nij 
2
nij
Costruiamo la tabella teorica di indipendenza
Titolo di studio
Laureato
Non laureato
2 
Stato occupazionale
Occupato
Disoccupato
14,25
15,75
23,75
26,25
(22  14,25) 2 (8  15,75) 2 (16  23,75) 2 (34  26,25) 2



 12,845
14,25
15,75
23,75
26,25
b) eseguiamo il test del chi-quadrato per l’indipendenza. Nel punto precedente abbiamo
2
 12,845 . Asintoticamente la statistica chi-quadrato ha distribuzione  (221)( 21) .
trovato  oss
Facciamo il test calcolando il livello di significatività osservato p  P( 12  12,845 | H 0 )
Dalle tavole si trova che p<0,001 e quindi si rifiuta l’ipotesi di indipendenza.
d) la tabella di massima dipendenza è la seguente
Titolo di studio
Laureato
Non laureato
Stato occupazionale
Occupato
Disoccupato
30
0
0
50
30
50
30
50
80
5. [2] Date due variabili statistiche X e Y, se si trova che =1,09 allora X e Y
 A sono indipendenti
 B sono dipendenti in modo quadratico
 C hanno una fortissima dipendenza lineare
 D chi ci ha dato il risultato ha sbagliato i conti.
Soluzione: la risposta esatta è D.
6. [2] Se la distanza interquartile di un insieme di dati è nulla allora
 A la media è uguale a 0
 B i numeri sono tutti uguali
 C i dati sono distribuiti normalmente
 D tutti i quartili sono uguali.
Soluzione: la risposta esatta è D.
7. [6] Siano X e Y due variabili casuali normali con E(X)=2 e E(Y)= e Var(X)=Var(Y)=2.
Sia Z=Y-2X+2
a) qual è la distribuzione di Z? Perché?
b) Supponendo che  XY  
1
, calcolare E(Z) e Var(Z).
2
c) Se X e Y sono indipendenti, qual è il valore atteso di (2Z-4+6)2?
Soluzione
a) Z ha distribuzione normale perché è una combinazione lineare di variabili casuali
normali.
b) E ( Z )  E (Y )  2  E ( X )  2    4  2  2  3
1
1
 Cov( X , Y )  
2 2  1
 x Y
2
2
Var ( Z )  Var (Y )  4Var ( X )  4Cov( X , Y )  2  4  2  4  (1)  14
 XY 
Cov( X , Y )

c) X e Y indipendenti allora Cov(X,Y)=0
E (2Z  4  6 ) 2  E (2Z  E (2Z )) 2  Var (2Z )  4Var ( Z )  40
Var ( Z )  Var (Y )  4Var ( X )  10
Scarica