Esame di Statistica I – 3 ottobre 2001 docente: Prof.ssa J. Mortera SOLUZIONI degli esercizi Nelle soluzioni seguenti non sono stati inseriti i commenti ai risultati. Si ricorda che tali commenti sono, però, parte integrante delle risposte che gli studenti dovevano dare. 1. [5] Un’indagine su un campione di 20 comuni governati dall’alleanza A mostra che essi spendono in media una somma di 175 Euro annui per ciascun contribuente in spese di amministrazione, con una deviazione standard campionaria di 25 Euro mentre una simile indagine su un campione di 15 comuni governati dall’alleanza B trova una media di 158 Euro con deviazione standard campionaria di 30 Euro. a) Costruire un intervallo di confidenza per la differenza tra le spese medie delle due amministrazioni comunali al livello di confidenza 99%. b) Verificare l’ipotesi che l’alleanza B spende in media significativamente meno dell’alleanza A? N.B. si supponga che le deviazioni standard campionarie fornite siano quelle non distorte. soluzione a) Supponiamo che i due campioni provengano da due popolazioni normali con la stessa varianza (sconosciuta): X1 ~N(1, 2) e X2 ~N(2, 2). Dai dati sappiamo che: x1 175 x 2 158 s’1=25 s’2=30 n1=20 n2=15 2 Una stima di è: 2 S P2 2 (n 1) s1' (n2 1) s2' 19 25 2 14 30 2 1 741,6 n1 n2 2 33 Gli estremi dell’intervallo di confidenza si ottengono dall’espressione 1 1 . ( x1 x2 ) t33,0.995 (n1 n2 2) S P2 n1 n2 t33, 0.005 = 2.73 quindi l’intervallo è 1725.39 e pertanto [-8.39, 42.39] b) Verifichiamo l’ipotesi nulla H0: 1 = 2 Contro l’alternativa H0: 2 < 1 La statistica test è X 2 X1 0 1 1 S P2 n1 n2 In corrispondenza dei nostri dati la statistica test assume il seguente valore: t oss 158 175 1 1 741.6 20 15 Calcoliamo il livello di significatività osservato 17 1.83 9.302 P(t33 < -1.83| H0) = p con 0.025 < p < 0.05 2. [7] Il numero di clienti che si presentano ad uno sportello bancario in un giorno è descritto da una variabile casuale X con distribuzione di Poisson di parametro , cioè x , x0 e 0 f ( x; ) e x! Al fine di stimare , è stato rilevato per cinque giorni il numero di clienti che si sono presentati a questo sportello e si è osservato: 12, 10, 4, 10, 18. a) Determinate lo stimatore di massima verosimiglianza di . b) Calcolarne la stima in corrispondenza del campione osservato. c) Definire la proprietà di consistenza di uno stimatore. Lo stimatore trovato è anche consistente? soluzione a) Scriviamo la funzione di verosimiglianza x xi n i i n L( ) f ( xi ; ) e e xi ! i i ixi ! La funzione di log-verosimiglianza è ( ) n xi log ilog( xi !) i Ne calcoliamo la derivata rispetto a e la poniamo uguale a zero: d( ) 1 Quindi n xi n xi 0 . d i i Pertanto lo stimatore di massima verosimiglianza è 1 ̂ X i n i Per esserne sicuri calcoliamo la derivata seconda d 2 ( ) 1 n 2 xi 0. 2 ˆ d ˆ ˆ b) ˆ 12 10 4 10 18 10,8 5 c) Per le proprietà della media campionaria, lo stimatore trovato è consistente in media quadratica. Dimostriamolo 1 1 1 E (ˆ ) E X i E ( X i ) n n n i n i 1 1 1 2 Var (ˆ ) Var X i 2 Var ( X i ) 2 n2 0 n n n n i n i Quindi lo stimatore trovato è non distorto e ha varianza asintoticamente nulla pertanto esso è consistente in media quadratica. La consistenza in media quadratica è condizione sufficiente per la consistenza, quindi ̂ è uno stimatore consistente. 3. [4] Illustrare le principali proprietà della distribuzione normale e motivare la rilevanza della distribuzione normale nell’inferenza statistica. 4. [3] Presa una variabile casuale X di media e varianza 2, dimostrare che la variabile standardizzata Z ha media pari a zero e varianza pari uno. 5. [8] Una bibita viene venduta in due tipi di confezioni: una bottiglia grande e una piccola. La quantità di bevanda, in ml, contenuta in ciascuna bottiglia è distribuita normalmente come segue Media Varianza 2 Piccola 252 4 Grande 1012 25 a) Quattro bottiglie piccole sono scelte a caso. Trovare la probabilità che almeno una di esse abbia contenuto superiore alla media. b) Trovare la probabilità che il contenuto totale delle quattro bottiglie piccole sia maggiore di 1012 ml. c) Un bottiglia grande e quattro bottiglie piccole sono scelte a caso. Trovare la probabilità che il contenuto della bottiglia grande superi quello totale delle quattro bottiglie piccole. d) Un bottiglia grande e una bottiglia piccola sono scelte a caso. Trovare la probabilità che il contenuto della bottiglia grande sia maggiore di quattro volte quello della bottiglia piccola. soluzione a) Sia X il contenuto di una bottiglia piccola, con X~N(252, 4). La probabilità che X sia maggiore della media è 0.5 per la simmetria della distribuzione normale intorno alla sua media. Le bottiglie si suppongono indipendenti. La probabilità che il contenuto di almeno una bottiglia su 4 sia maggiore della media è 1 – P(tutte le bottiglie hanno contenuto inferiore alla media) = = 1 – P(il contenuto di una bottiglia è sotto la media)4 = 1 2 4 = 1 15 0.9375 16 b) S=X1+X2+X3+X4 è il contenuto totale delle 4 bottiglie piccole. E(S) = 4E(X) = 1008 Var(S) = 4Var(X) = 16 Quindi S ~ N(1008, 16) P(S > 1012) = P(Z > 1) = 1– P(Z < 1) = 0.1587 c) Sia Y il contenuto della bottiglia grande, Y ~ N(1012, 25) P(Y > S) = P(Y – S >0). Poichè Y e S sono indipendenti, Y – S ~ N(1012– 1008, 16+25) = N(4, 41) P(Y – S >0) = P Z 4 1 (0.625 ) (0.625 ) 0.7324 41 d) Si vuole trovare P(Y > 4X). Poichè E(4X) = 4E(X) e Var(4X) = 16Var(X) ne segue che 4X ~ N(1008, 64) da cui Y – 4X ~ N(4, 89). Pertanto P(Y > 4X) = P(Y – 4X > 0) = P Z 4 1 (0.424 ) (0.424 ) 0.6628 89 6. [4] Un’azienda rileva su un campione 15 famiglie il numero di volte che è stato acquistato il prodotto “saponetta” nell’arco di 3 anni 18 14 21 27 3 8 14 17 28 33 40 36 39 20 12 a) Ricavare il valore mediano, i quantili e disegnare il box-plot. b) Sulle stesse famiglie è stato rilevato anche il numero di biglietti dell’autobus acquistati nello stesso intervallo di tempo: 118 27 3 0 87 121 8 48 152 67 80 0 0 234 99 Si confronti la variabilità osservata nei due insiemi di dati mediante il calcolo del coefficiente di variazione. Commentare il risultato. soluzione a) Questo è il caso del calcolo dei quartili per distribuzioni per unità. Ordinando le osservazioni in ordine non decrescente rispetto alle modalità del carattere, cioè 3 8 12 14 14 17 18 20 21 27 28 33 36 39 40 si vede che la mediana è la modalità assunta dall’unità che occupa la posizione n 1 , cioè dalla modalità presentata dall’ottava unità. In modo analogo si 2 calcolano il primo e il terzo quartile e si trova Me = 20 Q1 = 14 Q3 = 33 b) Per calcolare il coefficiente di variazione degli acquisti di saponette occorre calcolare X e x. X = 22 X = 13744 22 2 11.02 15 CV X X 11.02 100 100 50.09 X 22 allora Per calcolare il coefficiente di variazione degli acquisti di biglietti occorre calcolare Y e Y. Y = 69.6 allora Y = 137790 69.6 2 65.89 15 65.89 CVY Y 100 100 94.67 Y 69.6