SIMULAZIONE ESAME DI STATISTICA SOLUZIONI ESERCIZIO 1 Il direttore di una fabbrica vuole ridurre il numero di pezzi difettosi prodotti dalla sua industria. A questo scopo ha esaminato la produzione di mercoledì scorso rilevando 100 pezzi difettosi. Le cause di difettosità sono descritte dalla tabella sottostante Difetti Montaggio errato Errata dimensione Prestazione non conforme Altre cause Totale Numero di pezzi difettosi 30 50 5 15 100 a) Fornire una rappresentazione grafica dei dati osservati sulla variabile difetti. b) Proporre un indicatore di misura della tendenza centrale per questa variabile Soluzione a) Una rappresentazione grafica idonea per una variabile qualitativa è il diagramma a barre. b) Dato che la variabile difetti è ti tipo qualitativo non ordinabile, proponiamo la moda come indicatore per misurare la tendenza centrale. La moda corrisponde alla modalità errata dimensione. ESERCIZIO 2 Su un collettivo di 11 clienti di una palestra sono state rilevate le seguenti quantità Abbonamento (A=Annuale, M=Mensile, S=Semestrale) Presenza (Numero di giorni alla settimana in cui frequenta la palestra) Sesso (M=Maschio, F=Femmina) Età2 Abbonamento Età Presenza Presenza2 324 1 M 18 1 529 4 M 23 2 529 9 A 23 3 784 16 S 28 4 900 4 M 30 2 361 16 A 19 4 529 4 A 23 2 484 4 S 22 2 324 16 S 18 4 484 4 A 22 2 625 1 M 25 1 Totale Totale Totale Totale 5873 79 251 27 Sesso F M M F F M F M M F M Età X Presenza 18 46 69 112 60 76 46 44 72 44 25 Totale 612 a) Confrontare l’età media dei maschi che frequentano la palestra e quella delle femmine. b) Calcolare la media della variabile età indipendentemente dal sesso. Dopo aver classificato la variabile età nelle classi [18,21) [21,24) [24,27) [27,31) calcolare nuovamente la media della variabile età considerando la distribuzione in classi. c) Calcolare la covarianza tra Età e Presenza, commentare il risultato ottenuto. d) Calcolare il coefficiente di correlazione tra Età e Presenza. Soluzione a) Indichiamo l’età del cliente con X ed isoliamo le osservazioni sui maschi e sulle femmine; otteniamo: 121 130 xF 24.2 xM 21.6667 5 6 Si evince dunque che il sesso ha una certa influenza sull’età del cliente. b) L’età media del collettivo considerato è xetà 121 130 251 22.82 11 11 Otteniamo la seguente distribuzione in classi per la variabile età. Età Frequenze Valore centrale Val. cent. X Freq. 3 19.5 58.5 [18,21) 5 22.5 112.5 [21,24) 1 25.5 25.5 [24,27) 2 29 58 [27,31) 11 254.5 Totale L’età media calcolata sulla base della distribuzione in classi è xetà 254.5 23.14 11 c) Indichiamo l’età del cliente con X e la presenza con Y. Utilizzando le somme fornite dal testo, si ottiene: 27 2.45 11 xi yi Nxy 612 11 22.82 2.45 2.999 0.273 COV ( X , Y ) N 11 11 x 251 22.82 11 y Il valore negativo della covarianza informa che esiste un’associazione negativa tra le due variabili. Per valutarne l’intensità occorrerebbe calcolare il coefficiente di correlazione. d) Per calcolare il coefficiente di correlazione è necessario calcolate prima la deviazione standard delle due variabili. Utilizzando le informazioni nel testo si ottiene: X x 2 i Nx 2 N y 2 Ny 2 5873 11 22.82 2 3.63 11 79 11 2.45 2 1.09 N 11 COV ( X , Y ) 0.273 CORR ( X , Y ) 0.07 XY 3.63 1.09 Y i ESERCIZIO 3 Una banca valuta che la probabilità che un suo cliente non restituisca entro il termine stabilito un prestito sia pari a 1%. a) Su 10 clienti che hanno richiesto un prestito alla banca qual è la probabilità che almeno due non paghino il prestito entro il termine stabilito? b) Su 200 clienti della banca quanti ci si aspetta non rimborsino il prestito entro il termine stabilito? c) Su 1000 clienti della banca qual è la probabilità che al massimo 12 non restituiscano il prestito entro il termine stabilito? Soluzione Indichiamo con p = 0.01 la probabilità che un cliente non restituisca il prestito entro il termine stabilito. Indichiamo inoltre con X la variabile aleatoria che descrive il numero di clienti che, in un insieme di n, non restituiscono il prestito. E’ noto che X ha una distribuzione binomiale di parametri n e p. La stessa distribuzione può essere approssimata con la Normale qualora n sia elevato, ossia se np(1 p) 9 . a) In questo caso n = 10; dunque P( X 2) 1 P( X 2) 10! 10! 1 (0.01)0 (0.99)10 (0.01)1 (0.99)9 0!10! 1!9! 1 (0.99)10 (10)(0.01)(0.99)9 1 0.9044 0.0913 0.0043 b) In questo caso n = 200; dunque E ( X ) np (200)(0.01) 2 c) In questo caso n = 1000; dunque E ( X ) np (1000)(0.01) 10 Var ( X ) np (1 p ) (1000)(0.01)(0.99) 9.9 9 X N (10,9.9) Possiamo ora calcolare 12 10 P( X 12) P Z P( Z 0.6356) FZ (0.64) 0.7389 9.9 ESERCIZIO 4 Un’azienda, per collocare nel mercato un nuovo tipo di detersivo, effettua una vendita promozionale in due soli supermercati di Bologna. Il supermercato A solitamente è più frequentato del supermercato B. Infatti, la probabilità che un cliente entri nel supermercato A è tre volte più grande della probabilità di entrare nel supermercato B. Il gestore nel negozio B sostiene che il 30% dei clienti acquista il prodotto in promozione, mentre il gestore del negozio A ha verificato che il 65% dei clienti acquista il nuovo prodotto. Dato che un cliente ha acquistato questo detersivo, calcolare la probabilità che l’abbia acquistato nel supermercato B. Soluzione Dal testo dell’esercizio si ha che, P( A) 0.75 , P( B) 0.25 Chiamando con D l’evento acquisto del detersivo in promozione, P( D | A) 0.65 , P( D | B) 0.30 . Applicando il teorema di Bayes si ha che P ( B | D) P( D | B) P( B) 0.30 0.25 0.133 P( D | B) P( B) P( D | A) P( A) (0.30 0.25) (0.65 0.75) ESERCIZIO 5 Da un censimento condotto nel 2003 riguardante il mezzo utilizzato dagli abitanti di un comune della provincia di Bologna per raggiungere il posto di lavoro si sono ottenuti i seguenti risultati Mezzo di trasporto Frequenza relativa Auto 0.55 Mezzo pubblico 0.35 Altro 0.10 Da un’analoga indagine del 2007 effettuata su un campione di 1000 individui si sono ottenuti i seguenti risultati Mezzo di trasporto Frequenza assoluta Auto 530 Mezzo pubblico 390 Altro 80 a) Stimare la percentuale di individui che nel 2007 hanno utilizzato l’auto per raggiungere il luogo di lavoro. b) Si verifichi al livello di significatività del 1% se dal 2003 al 2007 vi è stato un aumento delle percentuale di individui che utilizzano il mezzo pubblico. c) Calcolare l’intervallo di confidenza al 95% per la percentuale di coloro che non si recano al lavoro in auto. d) Spiegare brevemente cosa si intende per livello di confidenza pari al 95%. Soluzione 530 0.53 . 1000 b) Si tratta di effettuare una verifica delle seguenti ipotesi: H 0 : p 0.35 contro H1 : p 0.35 , dove p rappresenta la proporzione di coloro che nel 2007 si recano al lavoro utilizzando il mezzo pubblico. Possiamo utilizzare la seguente regola: a) Possiamo utilizzare la proporzione campionaria come stimatore; pertanto pˆ rifiuto H 0 se pˆ p0 p0 (1 p0 ) n z . Nel nostro caso p0 = 0.35 e, essendo α = 0.01, z 0.01 2.32 . Si ha quindi 0.39 0.35 2.5934 2.32 0.39(1 0.39) 1000 Pertanto l’ipotesi nulla viene rifiutata. c) Ricordiamo che l’intervallo di confidenza per una proporzione ha la seguente struttura: pˆ (1 pˆ ) pˆ (1 pˆ ) ; pˆ z / 2 pˆ z / 2 n n In questo caso, si ha 1000 530 0.47 1000 z / 2 z0.025 1.96 pˆ e quindi (0.47)(0.53) (0.47)(0.53) ;0.47 1.96 0.47 1.96 ossia 0.4391;0.5009 . 1000 1000 d) Il livello di confidenza esprime l’affidabilità dello strumento inferenziale che si sta utilizzando: se l’intervallo venisse applicato ad un grande numero di campioni, nel 95% dei casi si otterrebbe un intervallo contenente il valore del parametro incognito. ESERCIZIO 6 (4 punti inferenza ) Si considera un campione di 50 lavoratori di cui 15 lavorano in un’azienda alimentare e 35 in un’azienda manifatturiera. Si osserva che la durata in media del contratto (in anni) di coloro che lavorano nel settore alimentare è 3, mentre per coloro che lavorano nel settore manifatturiero è 5. Considerando che la varianza della durata del contratto (in anni2) nelle due popolazioni è rispettivamente 0.02 e 0.001. Sotto l’ipotesi che le due popolazioni sono normali ed indipendenti, a) si costruisca un intervallo di confidenza al 90% per la differenza delle medie A M b) si verifichi l’ipotesi che A M con un livello di significatività del 5% Soluzione Anche se non conosciamo la distribuzione delle due popolazioni, data la presenza di due grandi campioni, utilizzando il teorema del limite centrale, possiamo fare inferenza con la distribuzione Normale. a) Ricordiamo che l’intervallo di confidenza per la differenza di due medie in popolazioni normali indipendenti ha la seguente struttura: A2 M2 A2 M2 ( x x ) z ; ( x x ) z A M /2 A M /2 n n n nM A M A da cui, A2 M2 0.02 0.001 ; ( x A x M ) z / 2 (3 5) 1.64 15 35 n n A M ossia 2 1.64 0.037;2 1.64 0.037 (2.06;1.94). b) Si tratta di porre a verifica di ipotesi H 0 : A M 0 contro H1 : A M 0 . Rifiuto H 0 se x A xM A2 nA Si ha quindi x A xM 2 A nA 2 M nM M2 nM z / 2 o se x A xM A2 nA M2 z / 2 nM 35 2 che è minore di z 0.025 1.96 . 0.037 0.02 0.001 15 35 Perciò si rifiuta l’ipotesi nulla.