Esame di Statistica I – 13 giugno 2001 docente: Prof.ssa J. Mortera SOLUZIONI degli esercizi 1.[5] L’istituto preposto al controllo del rispetto della par condicio in campagna elettorale ha rilevato in un campione di 100 giorni il tempo (in minuti), X e Y, dedicato ai due maggiori candidati. In sintesi i dati sono 100 xi 350 i 1 100 xi2 2000 , i 1 100 yi 460 i 1 100 y i 1 2 i 4000 a) si può ritenere che ai due candidati sia stato concesso lo stesso tempo? Commentare i risultati. b) Costruire l’intervallo di confidenza all’85% per il tempo concesso al primo candidato (X) c) Se si diminuisce il livello di confidenza, A l’intervallo rimane invariato B l’intervallo è più preciso C il valore vero del parametro sicuramente non è compreso nell’intervallo D l’intervallo è meno preciso. Soluzione a) E’ necessario fare un test per il confronto tra medie. Le due variabili casuali sono: X= “tempo dedicato al primo candidato” con E(X)=X e Var(X)=2 Y= “tempo dedicato al secondo candidato” con E(Y)=Y e Var(Y)=2 Cioè siamo nel caso di varianze incognite ma supponiamo che siano uguali. Le ipotesi a confronto sono: H0: X = Y H1: X Y 350 361 3,5 y 4,6 100 100 1 s X2 2000 3,52 7,75 100 1 sY2 4000 4,6 2 18,84 100 100 7,75 100 18,84 s 2p 13,43 100 100 2 x La numerosità campionaria è elevata e quindi la distribuzione della statistica test può essere approssimata con la normale standardizzata z 3,5 4,6 1 1 13,43 100 100 2,12 Non resta che calcolare il livello di significatività osservato che è: p 2 P(Z 2,12 | H 0 ) 2 (1 0,9830) 0,034 b) L’intervallo di confidenza è tale che S S P X z X X X z X 0,85 n n 2 2 1-=0,85 allora z 1,44 2 350 x 3,5 100 100 sX2 s X2 7,83 99 allora l’intervallo è 7,83 7,83 3,5 1,44 3,1 3,9 , 3,5 1,44 100 100 c) La risposta esatta è la B 2.[7] E’ noto che il 35% dei dipendenti di una multinazionale é single. Considerando un campione casuale di 10 dipendenti: a) determinare la probabilità che almeno due dipendenti siano single; b) determinare la probabilità che il numero di single sia compreso tra 2 e 4; c) preso un campione dieci volte più grande, calcolare la probabilità che al più 35 dipendenti siano single. d) Data una variabile casuale XBin(n,p), trovare media e varianza. Soluzione a) X= “numero di dipendenti single” X~Bin(10, 0,35) P( X 2) = 1 P( X 1) =10,0860 = 0.914 b) P(2 X 4) P( X 4) P( X 1) 0,7515 0,0860 0,6655 b) Prendiamo n=100 allora X tende ad avere una distribuzione normale con media E(X)=1000,35=35 e Var(X)=1000,350,65=22,75 35 0,5 35 PZ 0,10 0,5398 P X 35 P Z 22 , 75 3. [7] La durata di vita di una componente elettronica è una variabile casuale X con distribuzione esponenziale negativa di media E(X)=, cioè f ( x; ) 1 e 1 x , x0 e 0 Al fine di stimare , sono state prese in considerazione 4 componenti la cui durata è risultata pari a 2,3,5,7 anni. a) Determinate lo stimatore di massima verosimiglianza di . b) Calcolarne la stima in corrispondenza dei campione osservato. c) Lo stimatore di massima verosimiglianza trovato è consistente in media quadratica? Dimostrare. d) Definire la proprietà di consistenza di uno stimatore. Lo stimatore trovato è anche consistente? Soluzione a) Scriviamo la funzione di verosimiglianza 1 L( ) f ( xi ; ) e i i 1 xi 1 xi e i La funzione di log-verosimiglianza è n 1 ( ) n log 1 xi i Ne calcoliamo la derivata rispetto a e la poniamo uguale a zero: d( ) n 1 2 xi 0 . Semplificando si ottiene d i 1 n xi 0 e quindi n xi i Pertanto lo stimatore di massima verosimiglianza è ̂ 1 Xi n i Per esserne sicuri calcoliamo la derivata seconda d 2 ( ) n 2 n 2 n 2 3 xi 2 3 nˆ 2 0. 2 d ˆ ˆ ˆ ˆ ˆ ˆ 2357 4,25 b) ˆ 4 c) Per le proprietà della media campionaria, lo stimatore trovato è consistente in media quadratica. Dimostriamolo 1 1 1 E (ˆ ) E X i E ( X i ) n n n i n i 1 1 1 2 Var (ˆ ) Var X i 2 Var ( X i ) 2 n2 0 n n n n i n i Quindi lo stimatore trovato è non distorto e ha varianza asintoticamente nulla pertanto esso è consistente in media quadratica. d) La consistenza in media quadratica è condizione sufficiente per la consistenza, quindi ̂ è uno stimatore consistente. 4. [4] Ad un campione di 80 giovani in età compresa tra 25 e 35 anni è stato chiesto se sono laureati e se hanno un’occupazione. Il risultato della rilevazione è contenuto nella tabella seguente Stato occupazionale Occupato Disoccupato Titolo di studio Laureato 22 8 30 Non laureato 16 34 50 38 42 80 a) C’è dipendenza o indipendenza tra il titolo di studio e lo stato occupazionale? Usare l’indice opportuno. b) Valutare se c’è indipendenza anche mediante l’opportuno test statistico. c) Lasciando inalterata la marginale del titolo di studio, costruire la tabella di massima dipendenza. Soluzione a) Per valutare se due variabili statistiche sono indipendenti o meno si può ricorrere all’indice 2 i j n ij nij 2 nij Costruiamo la tabella teorica di indipendenza Titolo di studio Laureato Non laureato 2 Stato occupazionale Occupato Disoccupato 14,25 15,75 23,75 26,25 (22 14,25) 2 (8 15,75) 2 (16 23,75) 2 (34 26,25) 2 12,845 14,25 15,75 23,75 26,25 b) eseguiamo il test del chi-quadrato per l’indipendenza. Nel punto precedente abbiamo 2 12,845 . Asintoticamente la statistica chi-quadrato ha distribuzione (221)( 21) . trovato oss Facciamo il test calcolando il livello di significatività osservato p P( 12 12,845 | H 0 ) Dalle tavole si trova che p<0,001 e quindi si rifiuta l’ipotesi di indipendenza. d) la tabella di massima dipendenza è la seguente Titolo di studio Laureato Non laureato Stato occupazionale Occupato Disoccupato 30 0 0 50 30 50 30 50 80 5. [2] Date due variabili statistiche X e Y, se si trova che =1,09 allora X e Y A sono indipendenti B sono dipendenti in modo quadratico C hanno una fortissima dipendenza lineare D chi ci ha dato il risultato ha sbagliato i conti. Soluzione: la risposta esatta è D. 6. [2] Se la distanza interquartile di un insieme di dati è nulla allora A la media è uguale a 0 B i numeri sono tutti uguali C i dati sono distribuiti normalmente D tutti i quartili sono uguali. Soluzione: la risposta esatta è D. 7. [6] Siano X e Y due variabili casuali normali con E(X)=2 e E(Y)= e Var(X)=Var(Y)=2. Sia Z=Y-2X+2 a) qual è la distribuzione di Z? Perché? b) Supponendo che XY 1 , calcolare E(Z) e Var(Z). 2 c) Se X e Y sono indipendenti, qual è il valore atteso di (2Z-4+6)2? Soluzione a) Z ha distribuzione normale perché è una combinazione lineare di variabili casuali normali. b) E ( Z ) E (Y ) 2 E ( X ) 2 4 2 2 3 1 1 Cov( X , Y ) 2 2 1 x Y 2 2 Var ( Z ) Var (Y ) 4Var ( X ) 4Cov( X , Y ) 2 4 2 4 (1) 14 XY Cov( X , Y ) c) X e Y indipendenti allora Cov(X,Y)=0 E (2Z 4 6 ) 2 E (2Z E (2Z )) 2 Var (2Z ) 4Var ( Z ) 40 Var ( Z ) Var (Y ) 4Var ( X ) 10