Esercitazioni di Statistica Metodologica June 22, 2009 1 Esercizio La compagnia di telefonia fissa Happy Line ha svolto una indagine sul numero di telefonate effettuate dai suoi clienti la settimana scorsa. Le telefonate sono state classificate in base alla loro durata in secondi. I dati rilevati sono riportati nella tabella seguente: Durata [0,60] (60, 120] (120, 240] (240, 600] (600, 1800] Numero Telefonate 500 400 500 200 400 1. Si rappresenti attraverso un opportuno grafico la variabile Durata. (2 punti) 2. Calcolare media e moda della variabile Durata. (3 punti) 3. Si rappresenti attraverso un opportuno grafico la variabile Numero Telefonate. (2 punti) 4. Calcolare media e moda della variabile Numero Telefonate. (3 punti) 2 Esercizio Una indagine svolta intervistando alcune persone all’uscita da un centro commerciale di Reggio Calabria ha fornito i seguenti risultati (ogni riga rappresenta una persona intervistata): dove, Pi provincia residenza, Ci numero componenti nucleo familiare, Ni numero negozi visitati e Si P importo spesa P12 12 in euro. Si conoscono inoltre i seguenti dati: C = 33, i i=1 i=1 Ni = 31, P12 P12 2 P12 P12 2 2 N = 105, S = 103174.3. S = 991.7, C = 107, i=1 i i=1 i i=1 i i=1 i 1. Calcolare moda, mediana e media del numero di negozi visitati. (2 punti) 2. Rappresentare graficamente la variabile provincia di residenza. (2 punti) 3. Dopo avere riclassificato negli intervalli [0, 50), [50, 100) e [100, 200) la variabile importo spesa in euro, riportare la distribuzione di frequenza e calcolarne la media. (3 punti) 1 Pi RC RC RC ME RC RC CS RC CS RC CS RC Ci 2 3 2 4 1 1 3 4 3 5 2 3 Ni 1 4 3 1 1 2 5 2 3 1 5 3 Si 103.5 52.7 186 31 76.8 120.5 56 67.3 48 39.9 112 98 4. Calcolare mediante un opportuno indice relativo l’eterogeneita’ della variabile provincia di residenza. Commentare il risultato. Provate a riprodurre una situazione di perfetta omogeneita’ e una di perfetta eterogeneita’. (3 punti) 3 Esercizio In riferimento alla tabella del problema precedente, stabilire mediante un opportuno indice quale tra le variabili Ci e Ni presenta maggiore variabilita’. (3 punti) 1. Nella seguente tabella sono riportate le frequenze relative osservate in relative osservate in relazione all’ammissione ad un corso di dottorato, dove X = Sesso ed Y = Ammissionealcorso: Determinare le distribuzioni X/Y Donne Uomini SI 0.5 0.15 NO 0.1 0.25 marginali di X e di Y ed utilizzarle per stabilire se le variabili X ed Y sono indipendenti. (3 punti) 2. Determinare la proporzione di donne. Inoltre determinare la proporzione di donne che non sono state ammesse al corso. Indipendentemente dal sesso, quanti sono gli ammessi al corso? Quale risulta la proporzione di uomini ammessi al corso? Relativamente alla amissione al corso, sono migliori gli uomini o le donne? (4 punti) 4 Esercizio Uno studente che deve seguire il corso di statistica metodologica chiede a tutti i suoi amici che hanno superto l’esame alcune informazioni: il voto registrato, il numero esami sostenuti con successo e la percentuale di lezioni frequentate del corso di statistica metodologica. ogni riga rappresenta P10 un amico P10Nella tabellaP 10 dello studente. Sapendo che i=1 Vi = 240, i=1 Ei = 46, i=1 Fi = 5.65, P10 P10 P10 2 2 2 i=1 Vi = 5904, i=1 Ei = 220, i=1 Fi = 3.9275: 2 Voto=V 30 25 26 19 18 28 27 20 24 23 Numero Esami=E 6 4 5 3 4 6 4 4 5 5 Sesso=S F M M F F F M F M M Lezioni=F (%F requenza) 0.9 0.5 0.95 0.1 0.2 0.7 0.75 0.35 0.7 0.5 1. Quale carattere tra V e E presenta maggiore variabilita’. Motivare la risposta. (2 punti) 2. Sono mediamente piu’ bravi in Statistica Metodologica le amiche o gli amici dello studente? (2 punti) 3. Rappresentare graficamente la variabile S. (2 punti) 4. Dopo avere riclassificato la variabile F nelle classi [0, 0.30), [0.30, 0.70), [0.70, 1), calcolare la distribuzione congiunta di F ed S. (4 punti) 5 Esercizio Negli anni 2003-2004 sul mercato inglese sono stati venduti 1200 aerei; sullo stesso mercato sono state potenzialmente attive dal punto di vista commerciale 10 imprese. I risultati sono rappresentati nella tabella sottostante: Impresa A B C D E F G H I L Numero Aerei 20 100 150 120 100 500 60 60 70 20 1. Valutare media e varianza della variabile numero di aerei prodotti. (2 punti) 2. Valutare il livello di concentrazione delle vendite. (4 punti) 3. Mantenendo invariato il numero totale di aerei venduti, scrivere un esempio di distribuzione delle vendite per impresa nel caso di massima concentrazione. (2 punti) 4. Mantenendo invariato il numero totale di aerei venduti, scrivere un esempio di distribuzione delle vendite per impresa nel caso di equidistribuzione. (2 punti) 3 6 Esercizio Supponiamo di avere rilevato, per 10 titoli del settore assicurativo, la quotazione di borsa X e il volume scambiato Y ad una certa data: Titolo A B C D E F G H I L Prezzo 100 105 105 100 95 100 100 100 105 100 Volume scambiato 400 405 400 395 390 395 390 400 405 400 1. Rappresentate la distribuzione congiunta di (X, Y ) mediante la tabella a doppia entratae poi graficamente in un diagramma cartesiano. (2 punti) 2. Quotazione e volume scambiato risultano concordi? In che misura? (3 punti) 3. Esiste correlazione lineare tra X e Y ? (2 punti) 4. Sulla base delle variabili considerate, inventate dati tali da generare una situazione di perfetta concordanza, perfetta discordanza e, infine, assenza di concordanza. (3 punti) 7 Esercizio Il numero di incidenti aerei nella compagnia XY che succedono in un anno nella tratta Milano-Londra risulta essere mediamente pari a 1. 1. Scrivere la distribuzione di probabilita’ corrispondente. (1 punto) 2. Calcolare la probabilita’ che succedano almeno 2 incidenti. (2 punti) 3. Calcolare la probabilita’ che non succedano incidenti. (2 punti) 4. Determinare la varianza. (2 punti) 5. Considerando ora 10 aeromobili, determinare la probabilita’ che per almeno due di essi non vengano registrati incidenti. (3 punti) 8 Esercizio Consideriamo un soggetto che evidenzia una probabilita’ di essere negativo ad un test per il virus XY pari a 0.6. 1. Scrivere la distribuzione di probabilita’ corrispondente. (1 punto) 4 2. Considerate ora dieci soggetti (tra loro indipendenti e identicamente disP10 tribuiti) e in particolare la nuova variabile aleatoria Z = i=1 Xi ; che distribuzione di probabilita’ ha Z? Determinare la media e la varianza di Z. (3 punti) 3. Calcolare la probabilita’ che almeno 3 soggetti risultino positivi al test per il virus. (2 punti) 4. Calcolare la probabilita’ che due soggetti risultino negativi al test per il virus. (2 punti) 5. Come cambierebbe il punto 2 del presente esercizio, considerando 5 studenti ognuno dei quali presenta una probabilita’ di essere positivi al test pari a 0.4? (2 punti) 9 Esercizio La duarata della batteria di un computer e’ pari a 3 ore. 1. Determinare la probabilita’ che la batteria duri almeno 4 ore. (2 punti) 2. Determinare la probabilita’ che la batteria duri tra 4 e 6 ore. (2 punti) 3. Determinare la durata media della batteria e la varianza. (1 punti) 4. Considerate ora 5 computer. Determinate la proababilita’ che almeno due di questi abbiano una batteria con durata tra 4 e 6 ore. (3 punti) 5. Relativamente al punto 4, determinare mediamente quanti computer hanno una batteria con durata tra 4 e 6 ore. (2 punti) 10 Esercizio La produzione di aghi per siringhe sterili X viene approssimata da una distribuzione normale, X ∼ N (µ = 3, σ 2 = 9). 1. Determinare la probabilita’ che vengano prodotti almeno 7 aghi. (2 punti) 2. Determinare la probabilita’ che vengano prodotti un numero di aghi compreso tra 7 e 20. (2 punti) Pn 3. Sia Z = i=1 Xi , i = 1, . . . , n una nuova variabile aleatoria. Che distribuzione ha Z? (2 punti) 4. Considerate ora n = 10. Come cambierebbero i risultati al punto precedente? 5. Siano W e K due nuove variabili aleatorie derivate da X e da Z. In particolare, W = 2X + 5 e K = 3Z − 6. Che distribuzione avranno W e Z? Calcolare rispettivamente medie e varianze. 5 11 Esercizio Sia X1 , . . . , Xn un campione casuale di ampiezza n, Xi ∼ P o(λ), λ incognito. 1. Proporre uno stimatore G non distorto per λ. (2 punti) 2. Che distribuzione ha lo stimatore proposto? Calcolarne media e varianza. (2 punti) 3. Sia T = X1 +X2n+...+Xn uno stimatore alternativo di λ. Preferireste G o T ? Motivare la risposta. (3 punti) 4. Proporre uno stimatore per h(λ) = 3λ + 5. Motivare la risposta. (3 punti) 12 Esercizio Sia x1 , . . . , x2 5 la realizzazione di un campione casuale estratto da una popo2 lazione P25normale con media µ incognita e varianza σ = 16. Si supponga inoltre che i=1 xi = 200. 1. Proporre uno stimatore non distorto per µ. Successivamente indicare la stima di µ. (2 punti) 2. Specificare un intervallo di confidenza per µ ad un livello di confidenza 1 − α = 0.99. (2 punti) 3. Cosa cambierebbe alla lunghezza dell’intervallo ottenuto al punto 2, diminuendo il livello di confidenza? (3 punti) 4. Determinare la stima di massima verosimiglianza di h(µ) = 2e−µ . (2 punti) 13 Esercizio Sia X1 , . . . , Xn un campione casuale estratto da una popolazione X distribuita secondo una legge esponenziale negativa di parametro λ incognito. 1. Si proponga uno stimatore non distorto di 1 λ. (2 punti) 2. Si valuti l’errore quadratico medio dello stimatore proposto al punto 1. (2 punti) 3. Si dimostri che lo stimatore proposto al punto 1 risulta essere consistente in senso forte.(3 punti) 4. Calcolare l’errore quadratico medio dello stimatore proposto al punto 1. (2 punti) 6 14 Esercizio Supponiamo che (X1 , X2 ) sia un campione casuale di osservazioni da una popolazione con media µ e varianza σ 2 . Si considerino i seguenti stimatori per µ: X = 12 X1 + 12 X2 , Y = 14 X1 + 34 X2 e Z = 13 X1 + 23 X2 . 1. Dimostrare che tutti e tre gli stimatori sono non distorti per µ. (3 punti) 2. Quale risulta lo stimatore efficiente? (3 punti) 3. Considerare ora T = 2X1 + X2 . T risulta distorto per µ? In caso affermativo calcolarne la distorsione. (3 punti) 4. Proporre uno stimatore non distorto per la media µ. (1 punto) 15 Esercizio Una clinica propone un programma di dimagrimento. Analizzando i dati di un campione casuale di 10 suoi pazienti si sono registrate, dopo un anno di trattamento, le seguenti diminuzioni (in Kg): 18, 25, 6, 11, 15, 20, 16, 19, 12, 17. 1. Trovare un intervallo di confidenza per la media della popolazione al livello 1 − α = 0.99. (2 punti) 2. Senza svolgere calcoli, spiegate se un intervallo di confidenza al livello 1 − α = 0.90 per la media della popolazione dovrebbe essere in termini di ampiezza minore o maggiore rispetto a quello proposto al punto 1. (3 punti) 3. Determinare la lunghezza dell’intervallo proposto al punto 1. Cosa succede se l’ampiezza campionaria aumenta? (3 punti) 4. Considerando la lunghezza di un intervallo di confidenza, fissata l’ampiezza campionaria, cosa succede se la media del campione aumenta? E se diminuisce? (2 punti) 16 Esercizio Considerate una popolazione composta da 40 persone. La distribuzione che meglio descrive il dosaggio di emoglobina nel sangue risulta una normale con media µ incognita e varianza σ 2 = 9. 1. Proporre uno stimatore non distorto per la media. (2 punti) 2. Calcolare P40 la distribuzione dello stimatore proposto al punto 1, sapendo che i=1 xi = 500. (2 punti) 3. Calcolare un intervallo di confidenza per la media, considerando un livello di confidenza pari a 95%. (2 punti) 4. Sulla base dei risultati ottenuti al punto 3, volendo verificare la seguente ipotesi, H0 : µ = 14 verso H1 : µ 6= 14, accettate o rifiutate H0 ? (3 punti) 7