Esame di Statistica I – 13 giugno 2001 docente: Prof.ssa J. Mortera SOLUZIONI degli esercizi 1. [7] Il numero di clienti che si presentano ad uno sportello bancario in un giorno è descritto da una variabile casuale X con distribuzione di Poisson di parametro , cioè f ( x; ) e x , x0 e 0 x! Al fine di stimare , è stato rilevato per cinque giorni il numero di clienti che si sono presentati a questo sportello e si è osservato: 10, 13, 8, 14, 12. a) Determinate lo stimatore di massima verosimiglianza di . b) Calcolarne la stima in corrispondenza del campione osservato. c) Lo stimatore di massima verosimiglianza trovato è consistente in media quadratica? Dimostrare. d) Definire la proprietà di consistenza di uno stimatore. Lo stimatore trovato è anche consistente? Soluzione a) Scriviamo la funzione di verosimiglianza L( ) f ( xi ; ) e i n x x ! e i i n i x i i x ! i i La funzione di log-verosimiglianza è ( ) n xi log ilog( xi !) i Ne calcoliamo la derivata rispetto a e la poniamo uguale a zero: d( ) 1 n xi 0 . d i Quindi n x i i Pertanto lo stimatore di massima verosimiglianza è ̂ 1 Xi n i Per esserne sicuri calcoliamo la derivata seconda d 2 ( ) 1 n 2 xi 0. 2 ˆ d ˆ ˆ 10 13 8 14 12 11,4 b) ˆ 5 a) Per le proprietà della media campionaria, lo stimatore trovato è consistente in media quadratica. Dimostriamolo 1 1 1 E (ˆ ) E X i E ( X i ) n n n i n i 1 1 1 2 Var (ˆ ) Var X i 2 Var ( X i ) 2 n2 0 n n n n i n i Quindi lo stimatore trovato è non distorto e ha varianza asintoticamente nulla pertanto esso è consistente in media quadratica. d) La consistenza in media quadratica è condizione sufficiente per la consistenza, quindi ̂ è uno stimatore consistente. 2. [2] Date due variabili statistiche X e Y, se si trova che =-1,13 allora X e Y A X e Y sono dipendenti in modo quadratico B chi ci ha dato il risultato ha sbagliato i conti C X e Y hanno una fortissima dipendenza lineare negativa D X e Y sono indipendenti. Soluzione: la risposta esatta è B. 3. [2] Se la distanza interquartile di un insieme di dati è nulla allora A la media è uguale a 0 B i numeri sono tutti uguali C il massimo e il minimo della distribuzione sono uguali D tutti i quartili sono uguali. Soluzione: la risposta esatta è D. 4. [7] E’ noto che il 45% dei dipendenti di una multinazionale è single. Considerando un campione casuale di 10 dipendenti: a) determinare la probabilità che al più sette dipendenti siano single; b) determinare la probabilità che il numero di single sia compreso tra 4 e 7; c) Preso un campione dieci volte più grande, calcolare la probabilità che almeno 25 dipendenti siano single. d) Data una variabile casuale XBin(n,p), trovare media e varianza. Soluzione b) X= “numero di dipendenti single” X~Bin(10, 0,45) P ( X 7) = 1 P ( X 8) = 1 – 0,0274 = 0.9726 b) P(4 X 7) P( X 7) P( X 3) 0,9726 0,266 0,7066 c) Prendiamo n=100 allora X tende ad avere una distribuzione normale con media E(X)=1000,45=45 e Var(X)=1000,450,55=24,75 25 0,5 45 PZ 4,12 ? P X 25 P Z 24 , 75 5. [4] Ad un campione di 81 giovani in età compresa tra 25 e 35 anni è stato chiesto se sono laureati e se hanno un’occupazione. Il risultato della rilevazione è contenuto nella tabella seguente Stato occupazionale Occupato Disoccupato Titolo di studio Laureato 21 15 36 Non laureato 17 28 45 38 43 81 a) C’è dipendenza o indipendenza tra il titolo di studio e lo stato occupazionale? Usare l’indice opportuno. b) Valutare se c’è indipendenza anche mediante l’opportuno test statistico. c) Lasciando inalterata la marginale dello stato occupazionale, costruire la tabella di massima dipendenza. Soluzione a) Per valutare se due variabili statistiche sono indipendenti o meno si può ricorrere all’indice 2 i j n ij nij 2 nij Costruiamo la tabella teorica di indipendenza Titolo di studio Laureato Non laureato Stato occupazionale Occupato Disoccupato 16,89 19,11 21,11 23,89 (21 16,89) 2 (15 19,11) 2 (17 21,11) 2 (28 23,89) 2 3,39 16,89 19,11 21,11 23,89 2 b) eseguiamo il test del chi-quadrato per l’indipendenza. Nel punto precedente abbiamo 2 3,39 . Asintoticamente la statistica chi-quadrato ha distribuzione (221)( 21) . trovato oss Facciamo il test calcolando il livello di significatività osservato p P( 12 3,39 | H 0 ) Dalle tavole si trova che p>0,05 e quindi si accetta l’ipotesi di indipendenza. d) la tabella di massima dipendenza è la seguente Titolo di studio Laureato Non laureato Stato occupazionale Occupato Disoccupato 38 0 0 43 38 43 38 43 81 6. [6] Siano X e Y due variabili casuali normali con E(X)= e E(Y)=2 e Var(X)=Var(Y)=4. Sia Z=2Y-X+2 a) qual è la distribuzione di Z? Perchè? b) Supponendo che XY 1 , calcolare E(Z) e Var(Z). 2 c) Se X e Y sono indipendenti, qual è il valore atteso di W=Z+X-2Y+XY-2? Soluzione a) Z ha distribuzione normale perché è una combinazione lineare di variabili casuali normali. b) E ( Z ) 2 E (Y ) E ( X ) 2 4 2 2 3 1 1 Cov( X , Y ) 4 4 2 x Y 2 2 Var ( Z ) 4Var (Y ) Var ( X ) 4Cov( X , Y ) 4 4 4 4 (2) 12 XY Cov( X , Y ) c) X e Y indipendenti allora E (Z X 2Y XY 2) E ( X Y ) E ( X ) E (Y ) 22 7. [5] L’istituto preposto al controllo del rispetto della par condicio in campagna elettorale ha rilevato in campione di 120 giorni il tempo (in minuti), X e Y, dedicato ai due maggiori candidati. In sintesi i dati sono 120 xi 420 i 1 120 xi2 3100 , i 1 120 yi 576 i 1 120 y i 1 2 i 5400 a) Il candidato X ritiene che al suo avversario sia stato concesso in media più tempo; è vero? commentare i risultati. b) Costruire l’intervallo di confidenza all’85% per il tempo concesso al secondo candidato (Y) c) Se si aumenta solo la numerosità campionaria, A l’intervallo è meno preciso B l’intervallo è più preciso C aumenta il livello di confidenza D l’intervallo comprende sicuramente il valore vero del parametro. Soluzione a) E’ necessario fare un test per il confronto tra medie. Le due variabili casuali sono: X= “tempo dedicato al primo candidato” con E(X)=X e Var(X)=2 Y= “tempo dedicato al secondo candidato” con E(Y)=Y e Var(Y)=2 Cioè siamo nel caso di varianze incognite ma supponiamo che siano uguali. Le ipotesi a confronto sono: H0: X = Y H1: X < Y 420 576 3,5 y 4,8 120 120 1 s X2 3100 3,52 13,58 120 1 sY2 5400 4,82 21,96 120 120 13,58 120 21,96 s 2p 17,92 120 120 2 x La numerosità campionaria è elevata e quindi la distribuzione della statistica test può essere approssimata con la normale standardizzata z 3,5 4,8 1 1 17,92 120 120 2,36 Non resta che calcolare il livello di significatività osservato che è: p P(Z 2,36 | H 0 ) 1 0,9909 0,0091 b) L’intervallo di confidenza è tale che S S P Y z Y Y Y z Y 0,85 n n 2 2 1-=0,85 allora z 1,44 2 576 y 4,8 120 120 sY2 sY2 22,14 119 allora l’intervallo è 22,14 4,8 1,44 , 120 4,8 1,44 c) La risposta esatta è la B 22,14 4,18 5,42 120