Esercizi di Statistica per gli studenti di Scienze Politiche Università di Firenze Esercizi svolti da una selezione di compiti degli Esami scritti di Statistica VERSIONE PROVVISORIA Maggio 2003 A cura di L. Matrone F.Mealli L.Mencarini A.Petrucci 1 Ai nostri studenti dei corsi di Statistica Con questa nuova versione delle dispense di esercizi svolti di Statistica ci proponiamo, ancora una volta, l’obiettivo di aiutarvi a superare la prova scritta dell’esame di Statistica che tante preoccupazioni, non del tutto fondate, vi crea. Ed è proprio per tener conto di queste vostre preoccupazioni che, sin dalla prima stesura, abbiamo puntato non a presentare semplicemente degli esercizi di statistica ma ad illustrare lo svolgimento di esercizi di statistica proposti in alcune sedute d’esame; inoltre la scelta degli esercizi raccolti è stata fatta in modo da fornire un panorama completo dei possibili temi d’esame sia dal punto di vista formale che da quello sostanziale. In questa nuova edizione, ampliata ed integrata, per ciascun problema sono stati messi in evidenza i presupposti teorici e concettuali e sono stati indicati i dettagli del procedimento di calcolo necessario per la determinazione dei risultati numerici richiesti nel tentativo di far comprendere come le formalizzazioni algebriche delle varie misure statistiche si traducano in valutazioni numeriche a partire dai dati disponibili. Gli esercizi proposti sono stati raggrupparti secondo grandi temi: a) statistica descrittiva, b) probabilità e variabili casuali, c) inferenza statistica, in modo da rendere più agevole la consultazione. Naturalmente non vi sfuggirà che i molti richiami teorici costituiscono un utile aiuto per fornire le risposte ai quesiti della cosiddetta Parte teorica della prova d’esame. Vogliamo concludere questo nostro messaggio con un invito a voi tutti di segnalarci, non solo gli eventuali errori, ma tutto ciò che vi sembrerebbe utile aggiungere e/o eliminare per migliorare questo supporto didattico e renderlo più utile per la vostra preparazione all’esame. Buon lavoro! I docenti di Statistica della Facoltà di Scienze Politiche dell’Università di Firenze L.Matrone [email protected] F.Mealli [email protected] L.Mencarini [email protected] A.Petrucci [email protected] 2 A. ESERCIZI DI STATISTICA DESCRITTIVA Esercizio 1A. Si consideri la seguente distribuzione delle industrie tessili secondo il fatturato annuo in milioni di vecchie lire: Fatturato Aziende [300,500] 20 ]500,800] 45 ]800,1500] 56 ]1500,2000] 50 a) Determinare la distribuzione di frequenze relative. Le frequenze relative si ottengono dividendo ciascuna frequenza assoluta per la numerosità del 4 collettivo N =∑ ni =20455650=171 i =1 Classi di modalità Frequenze assolute ] X i , X i1 ] ni [300,500] 20 ]500,800] ]800,1500] ]1500,2000] Totale 45 56 50 171 Frequenze relative ni N 20 =0.117 171 0.2632 0.3275 0.2924 Ampiezza di classe i= X i1− X i 500-300=200 800-500=300 1500-800=700 2000-1500=500 Densità di frequenza ni d i= i Valore centrale 20 =0.10 200 0.15 0.08 0.10 300500 =400 2 650 1150 1750 c i= X i X i1 2 1.0000 b) Qual è la percentuale di industrie con fatturato annuo superiore a 500 milioni e non superiore a 1.5 miliardi? Il numero di industrie con tali caratteristiche risulta dalla somma delle frequenze assolute delle classi ] 4556 ⋅100=59.06 % 500,800] e ]800,1500]. La percentuale richiesta è quindi 171 c) Calcolare la classe modale del fatturato E' la classe con la densita di frequenza più elevata, che risulta essere la classe ]500, 800]. d) Calcolare il fatturato medio Essendo le modalità raggruppate in classi è necessario fare qualche ipotesi sulla distribuzione del fatturato all'interno di ciascuna classe. Si può ipotizzare, ad esempio, che le frequenze siano concentrate sul valore centrale c i di ogni classe, oppure che il fatturato medio in ogni classe sia pari al valore centrale. Entrambe queste ipotesi conducono al calcolo del fatturato medio come: 4 X = 1 ∑ c n =400⋅20650⋅451150⋅561750⋅50171=1106.14 N i=1 i i 3 Esercizio 2A. I tentativi di suicidio nel 1995 secondo l'età sono descritti dalla seguente distribuzione di frequenza: Età ] X i , X i1 ] N° tentativi ni [14,18[ [18,25[ [25,45[ [45,65[ [65,75] 133 499 1400 885 409 Si sa inoltre che la somma delle età di coloro che hanno tentato il suicidio è pari a 141233 anni, N ovvero ∑ x i =141233 . i=1 a) Calcolare l'età media 5 La numerosità del collettivo è N =∑ ni =3326 . Inoltre, poiché la somma delle età di coloro che i =1 hanno tentato il suicidio è uguale a 141233, l'età media sarà data da X = 141233 =42.46 3326 In questo caso non è necessaria alcuna ipotesi semplificatrice per il calcolo della media come invece è stato necessario nell'esercizio 1 in quanto è noto l'ammontare complessivo del carattere età nel collettivo. b) Calcolare la percentuale di minorenni che hanno tentato il suicidio Essendo i minorenni coloro che hanno età nella classe [14,18[ , tale percentuale risulta pari a 133 ⋅100=3.99 % 3326 c) Calcolare la percentuale di coloro che hanno tentato il suicidio di età non inferiore a 18 anni e minore di 65 anni Il numero di persone che soddisfano la condizione richiesta è dato dalla somma delle frequenze assolute delle tre classi di età [18,25[, [25,45[ e [45,65[. Dunque la percentuale è pari a 4991400885 ⋅100=83.7% 3326 d) Calcolare la classe modale Essendo le classi di ampiezza diversa, è necessario individuare la classe a cui corrisponde la densità di frequenza più elevata: 4 Classi di età ] X i , X i1 ] Frequenze assolute ni Ampiezza intervallo i= X i1− X i Densità di frequenza ni d i= i [14, 18[ [18, 25[ [25, 45[ [45, 65[ [65, 75] Totale 133 499 1400 885 409 3326 4 7 20 20 10 33.25 71.29 70.00.00 44.25 40.90 La classe modale è dunque la classe [18,25[. Esercizio 3A. Sia data la variabile X = reddito mensile in milioni di vecchie lire, rilevata su un collettivo di famiglie come segue: Reddito Xi N° di famiglie ni 1 2 3 4 1 0 5 4 a) Trovare la moda del reddito La moda è la modalità che si presenta più frequentemente (ovvero che presenta frequenza assoluta più elevata); il reddito modale è dunque pari a 3 milioni. b) Trovare lo scarto quadratico medio del reddito Lo scarto quadratico medio σ, o deviazione standard, è la media quadratica degli scarti dalla media µ = La media del reddito è data da 1 N 4 ∑ X i −2 n i 4 dove i =1 = N =∑ ni=10 i=1 1⋅12⋅03⋅54⋅4 32 = =3.2 10 10 e quindi 1−3.22⋅1 2−3.22⋅03−3.22⋅54−3.22⋅4 = =0.76 10 2 ed infine = 0.76=0.87 5 Ricordando che la varianza si può anche determinare utilizzando la relazione: k 2 = 1 ∑ X 2 n −2 N i=1 i i si ottiene lo stesso risultato eseguendo i calcoli per la determinazione della varianza come segue: 2 = c) 1 2⋅12 2⋅032⋅54 2⋅4 14564 −3.22= −10.24=0.76 10 10 Trovare lo scarto quadratico medio del reddito nell'ipotesi che ad ogni famiglia venga dato un aumento di stipendio di 500 mila lire Lo scarto quadratico medio, così come la varianza, è invariante per traslazione, ovvero se viene aggiunta una costante α a ciascuna determinazione del carattere lo scarto quadratico medio non cambia: X = X =0.87 Si ricordi, più in generale, che date le costanti α e β si ha 2 X =2 2X e di conseguenza X =∣∣ X d) Trovare il rapporto di concentrazione per il reddito ovvero come rapporto fra la differenza media 2 semplice e il valore che tale indice di variabilità assume nel caso di massima concentrazione. La differenza media semplice è data da Il rapporto di concentrazione è definito come: R= k k ∑ ∑∣X i −X j∣n i n j = i =1 j =1 N N −1 Per determinare i k 2 addendi (k=4 numero di modalità) che compaiono al numeratore dell'espressione precedente si possono costruire due tabelle nelle quali vengono calcolate le differenze ∣X i− X j∣ ed i prodotti n i n j : ∣X i− X j∣ Xj ni n j nj Xi 1 2 3 4 ni 1 0 5 4 1 2 3 4 0 1 2 3 1 0 1 2 2 1 0 1 3 2 1 0 1 0 5 4 1 0 5 4 0 0 0 0 5 0 25 20 4 0 20 16 6 A questo punto il numeratore della differenza media semplice si ottiene moltiplicando elemento per elemento le due tabelle precedenti e sommando i prodotti ottenuti: = 0⋅11⋅02⋅53⋅41⋅00⋅01⋅02⋅02⋅51⋅00⋅251⋅203⋅42⋅01⋅200⋅16 1010−1 = 84 =0.993 90 e quindi il rapporto di concentrazione è dato da R= 0.993 =0.146 2⋅3.2 Esercizio 4A. Nell'a.a. 1988-89, il numero degli iscritti in corso all'Università in Italia per Facoltà è riportato nella tabella che segue: Facoltà Studenti in corso (in migliaia) Scientifiche 146 Mediche 100 Ingegneria 193 Economiche-Giuridiche-Sociali 520 Letterarie 239 Come è evidente dai dati, l'unità statistica di rilevazione è la Facoltà ed il carattere è il “Numero di studenti in corso”, i valori forniti x i costituiscono quindi una successione di osservazioni sulla variabile “Numero di studenti in corso” e la numerosità del collettivo è N=5. a) Disegnare il diagramma di Lorenz del numero di studenti. Il diagramma di Lorenz è una rappresentazione grafica che permette di evidenziare la concentrazione di un carattere trasferibile. Per costruire il grafico è necessario ordinare le intensità del carattere in i senso non decrescente; si calcolano poi le cumulate delle intensità assolute c i=∑ x j i=1 N , le cumulate delle intensità relative q i= ci cN j=1 e le cumulate di frequenza relative p i= i , come risulta N nella seguente tabella: i xi Intensità cumulate ci Intensita relative cumulate qi Frequeze relative cumulate pi 1 100 100 0.083 0.2 2 146 246 0.210 0.4 3 193 439 0.360 0.6 4 239 678 0.560 0.8 5 520 1198 1 1 Il diagramma di Lorenz si ottiene costruendo la spezzata di concentrazione i cui vertici sono i punti di coordinate p i , q i i =0 N con la posizione p 0 , q 0≡0,0 7 Diagramma di Lore nz 1 0,8 q 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 p b) Calcolare il rapporto di concentrazione. Il rapporto di concentrazione può essere calcolato utilizzando l'indice di Gini dato da: N −1 R= ∑ pi−qi i=1 N −1 ∑ pi i=1 Dalla precedente tabella risulta: i 1 2 3 4 Σ pi qi p i−qi 0.2 0.4 0.6 0.8 2 0.083 0.205 0.366 0.566 0.116 0.195 0.233 234 0.779 e quindi R= 0.779 =0.389 2 Allo stesso risultato si può giungere calcolando il rapporto di concentrazione come rapporto fra la differenza media semplice e il doppio della media come di seguito indicato: ∣x i −x j∣ xj xi 100 146 193 239 520 100 146 193 239 0 46 93 139 46 0 47 93 93 47 0 46 139 93 46 0 420 374 327 281 8 520 420 374 327 281 0 Si può osservare che questa tabella è simmetrica rispetto alla diagonale costituita dai valori zero derivanti dalle differenze di intensità di una unità statistica con se stessa; di conseguenza il calcolo del numeratore della differenza media semplice può essere abbreviato moltiplicando per 2 la somma dei valori al di sopra della diagonale indicata e quindi N = N ∑ ∑∣x i− x j∣ 24693139420479337446327281 3732 = =186.6 N N −1 5⋅4 20 100146193239520 1198 = = =239.6 2 =479.2 5 5 i =1 j =1 = ed in definitiva R= 186.6 = =0.389 2 479.2 9 Esercizio 5A. Il capitale (in miliardi di lire) di una Società è suddiviso tra i soci nel seguente modo: Socio Capitale 1 3 2 1 3 0,5 4 10 5 5 a) Calcolare la variabilità del capitale mediante la differenza media semplice. Le informazioni fornite costituiscono una successione di osservazioni sulla variabile Capitale e quindi per calcolare la differenza semplice media si può seguire la stessa procedura dell'esercizio precedente. ∣x i −x j∣ xj = xi 0.5 1 3 5 10 0.5 1 3 5 10 0 0.5 2.5 4.5 9.5 0.5 0 2 4 9 2.5 2 0 2 7 4.5 4 2 0 5 9.5 9 7 5 0 2⋅0.52.54.59.5249275 2⋅46 46 = = =4.6 5⋅4 5⋅4 10 b) Rappresentare la concentrazione del capitale mediante la spezzata di Lorenz. Si può procedere come fatto al punto a) dell'esercizio precedente. i xi 1 2 3 4 5 0.5 1 3 5 10 Intensità cumulate ci Intensità relative cumulate qi Frequeze relative cumulate pi 0.5 1.5 4.5 9.5 19.5 0.0256 0.0769 0.2307 0.4871 1 0.2 0.4 0.6 0.8 1 Diagramma di Lorenz 1,1 0,9 0,7 q 0,5 0,3 0,1 -0,1 -0,1 0,1 0,3 0,5 0,7 0,9 1,1 p 10 c) Determinare il rapporto di concentrazione. Avendo nel punto a) già calcolato la differenza media semplice, per determinare il rapporto di concentrazione si deve calcolare la media: 0.513510 19.5 = = =3.9 5 5 e quindi R= 4.6 = =0.5897 2 7.8 Esercizio 6A. Su un collettivo formato da 120 maschi e 80 femmine è stata rilevata l'età in anni compiuti ottenendo la seguente distribuzione percentuale per genere: Età 0 - 19 20 - 29 30 - 49 50 - 89 Totale % Maschi 10 10 30 50 100 % Femmine 20 20 30 30 100 Le informazioni fornite si riferiscono ad una variabile statistica discreta suddivisa in classi della quale vengono fornite le distribuzioni percentuali in due sottocollettivi (maschi e femmine). La frequenza percentuale è il numero di unità statistiche per ogni 100 unità del collettivo, ovvero valgono le seguenti relazioni p i= ni N 100 ni = 100 N ⇔ { ni = pi= f i 100 pi N 100 ⇔ f i= pi 100 nella quale p i è la frequenza percentuale, n i è la frequenza assoluta, f i è la frequenza relativa ed N è la numerosità del collettivo. a) Trovare il numero di unità statistiche nel collettivo di età minore di 20 anni Per determinare tale numero (q), date le informazioni disponibili, bisognerà sommare il 10% dei maschi di età inferiore a 20 anni al 10% delle femmine con la stessa caratteristica q= 10 20 120 180=1216=28 100 100 b) Trovare la percentuale di unità statistiche nel collettivo di età maggiore o uguale a 50 anni Bisognerà prima determinare il numero di unità statistiche (n) dell'intero collettivo che soddisfano alla condizione richiesta e poi calcolarne la percentuale (p) rispetto all'intero collettivo: 50 30 84 n= 120 80=6024=84 e quindi la percentuale richiesta è p= 100=42 % 100 100 12080 11 c) Trovare il numero di maschi di età maggiore o uguale a 30 anni Il numero richiesto è dato da 3050 120=96 100 d) Trovare le classi modali di età per i maschi e le femmine Sarà necessario individuare per ciascun sottocollettivo la classe cui corrisponde la massima densità di frequenza; determinare tale classe è equivalente a determinare la classe con la massima densità di frequenza relativa in quanto, dette d i , i e i rispettivamente la densità di frequenza assoluta, quella relativa e il numero di modalità per la classe i-ma, si ha: n ni N N f i d i= = = N =i N i i i dalla quale si deduce che, qualunque sia la classe, la densità di frequenza assoluta è proporzionale secondo N alla densità di frequenza relativa i Classe a i , bi Frequenze relative Maschi fiM Frequenze relative Femmine fiF Numero di modalità della classe i=bi−a i1 (0 , 19) (20 , 29) (30 , 49) (50 , 89) 0.10 0.10 0.30 0.50 0.20 0.20 0.30 0.30 20 10 20 40 Densità di frequenza relativa Maschi i M Densita di frequenza relativa Femmine i F 0.0050 0.0100 0.0150 0.0125 0.0100 0.0200 0.0150 0.0075 Pertanto la classe modale per i maschi è (30 , 49) anni, mentre per le femmine è la classe (20 , 29) anni. Esercizio 7A. In un collettivo di 200 studenti, di cui 30 sono lavoratori, è stato rilevato il voto ad un certo esame ottenendo la seguente distribuzione percentuale del voto per condizione occupazionale dello studente: Voto 18 - 22 23 - 25 26 - 28 29 - 30 Totale % Studenti non lavoratori 10 10 30 50 100 % Studenti lavoratori 20 40 20 20 100 12 L'ESERCIZIO È SIMILE AL PRECEDENTE, QUINDI VENGONO FORNITI SOLO I RISULTATI a) Trovare il numero di unità statistiche nel collettivo con voto minore di 23 23 unità b) Trovare la percentuale di unità statistiche nel collettivo con voto maggiore o uguale a 29 45.5% c) Trovare il numero di studenti lavoratori con voto maggiore o uguale a 26 12 d) Trovare le classi modali del voto per gli studenti e gli studenti lavoratori La classe modale per gli studenti è quella di voto 29-30, per gli studenti lavoratori invece è quella 2325. Esercizio 8A. Le abitazioni di una città vengono distinte in quelle abitate dai proprietari e in quelle abitate da affittuari. Le distribuzioni di frequenza relativa delle abitazioni per numero di vani vengono riportate nella tabella che segue; si sa inoltre che il numero di abitazioni abitate dai proprietari è 4000 e quello delle abitazioni in affitto è 6000. Numero di vani Abitate da proprietari Abitate da affittuari 1 0,05 0,17 2 0,10 0,21 3 0,15 0,22 4 0,16 0,18 5 0,23 0,13 6 0,31 0,09 Totale 1 1 a) Calcolare il numero totale di abitazioni con un numero di vani non inferiore a 5 Si sa che le abitazioni abitate da proprietari sono 4000, mentre quelle abitate da affittuari sono 6000. Il numero di abitazioni, abitate da proprietari, con un numero vani5 sarà dato da 0.230.31 4000=0.54⋅4000=2160 mentre quello per le case abitate da affittuari sarà 0.130.09 6000=0.22⋅6000=1320 e quindi il numero di abitazioni richiesto è dato da 2160+1320= 3480 b) Calcolare il numero medio di vani per il complesso delle abitazioni Si può determinare la media richiesta in due modi: 1) costruendo la tabella delle frequenze assolute a partire da quella delle frequenze relative date dal problema Numero vani Xi Abitate da proprietari ni p Abitate da affittuari ni a Totale ni 1 2 3 4 5 200 400 600 640 920 1240 4000 780 540 6000 1220 1660 1920 1720 1700 1780 10000 1020 1260 1320 1080 6 Totale 13 e calcolando la media nel modo usuale = 1⋅12202⋅16603⋅19204⋅17205⋅17006⋅1780 =3.636 10000 2) oppure calcolando le medie per le due sottopopolazioni (proprietari e affittuari) e determinando la media richiesta come media delle due medie 1⋅2002⋅4003⋅6004⋅6405⋅9206⋅1240 =4.35 4000 1⋅10202⋅12603⋅13204⋅10805⋅7806⋅540 a= =3.16 6000 4.35⋅40003.16⋅6000 = =3.636 10000 p= c) Rappresentare graficamente le abitazioni per numero di vani abitate da affittuari Si vuole mettere in evidenza che, nel grafico 1, i bastoncini sono stati disegnati con l'obiettivo di mettere in evidenza le ordinate dei punti X i , ni e che lo spessore dei bastoncini è del tutto arbitrario e non ha nessun significato. Il grafico andrebbe fatto rappresentando in un riferimento cartesiano i punti X i , ni come nel grafico 2. Abitazioni abitate da affittuari per numero di vani 1400 N° Abitazioni 1200 1000 800 600 400 200 0 1 2 3 4 5 6 N° vani Grafico 1 Abitazioni abitate da affittuari per numero di vani 2000 1800 N° Abitazioni 1600 1400 1200 1000 800 600 400 200 0 0 1 2 3 4 N° Vani 5 6 7 Grafico 2 14 Esercizio 9A. In un collettivo di pazienti sono stati rilevati la quantità di colesterolo in milligrammi per 100 millilitri di sangue ed il genere. Dallo spoglio delle osservazioni si è ottenuta la seguente distribuzione doppia di frequenze Colesterolo [120,160] ]160,180] ]180,200] ]200,240] ]240,300] Maschio 40 10 20 10 45 Femmina 20 12 10 20 10 a) Rappresentare graficamente la distribuzione del colesterolo Lo spoglio effettuato per il carattere quantità di colesterolo ha generato una variabile quantitativa continua, suddivisa in classi, pertanto la rappresentazione grafica opportuna è costituita dall'istogramma. Per costruire l'istogramma bisogna valutare la densità di frequenza per classe, tale valutazione si effettua ipotizzando una uniforme distribuzione della variabile in ciascuna classe e calcolando quindi la densità come rapporto fra frequenza e ampiezza di classe Classi ] X i , X i1] [120, 160] ]160, 180] ]180, 200] ]200, 240] ]240, 300] Frequenze assolute ni 60 22 30 30 55 Ampiezza della classe i= X i1− X i 40 20 20 40 60 Densità di frequenza d i= ni Valori centrali c i= X i X i1 2 i 1.5 1.1 1.5 0.75 0.91 140 170 190 220 270 La rappresentazione per istogrammi avviene costruendo tanti rettangoli quante sono le classi, le cui basi hanno lunghezza uguale all'ampiezza di classe, con gli estremi negli estremi di classe, e le cui altezze sono pari alla densità di classe, l'area di ciascun rettangolo è quindi pari alla frequenza assoluta della classe. 15 b) Calcolare la media del colesterolo per ciascuno genere I dati sono raggruppati in classi quindi si può determinare solo una media approssimata nell'ipotesi di uniforme distribuzione nella classe, sotto tale ipotesi la media della classe concide con il punto medio della classe stessa e quindi l'ammontare del carattere nella classe si può valutare come prodotto fra il il valore centrale di classe c i e la frequenza di classe n i Di conseguenza per determinare la media aritmetica approssimata si utilizza l'espressione: = ∑i=1k ci ni N e quindi 140⋅40170⋅10190⋅20220⋅10270⋅45 =203.6 125 140⋅20170⋅12190⋅10220⋅20270⋅10 femmine = =192.2 72 maschi = c) Calcolare la classe modale del colesterolo per i maschi La classe (o le classi modali) sono quelle con densità di frequenza più elevate Classi Frequenze assolute Ampiezza di classe Densità di frequenza (maschi) [120, 160] ]160, 180] ]180, 200] ]200, 240] ]240, 300] 40 10 20 10 45 40 20 20 40 60 1 0,5 1 0,25 0,75 Ci sono due classi modali: [120, 160] e ]180, 200]. 16 Esercizio 10A. In un collettivo di 10 studenti è stato rilevato il voto riportato all'esame di Statistica e quello riportato all'esame di Storia Contemporanea: 1 28 30 Studente Voto a Statistica (X) Voto a Storia Contemporanea (Y) 2 22 28 3 18 27 4 18 18 5 20 28 6 30 28 7 20 28 8 23 27 9 23 27 10 27 18 a) Costruire la distribuzione doppia di frequenze (X,Y) Bisogna costruire una tabella a doppia entrata nella quale viene riportato il numero di unità statistiche sulle quali si osserva la stessa coppia di modalità X i ,Y j Si ottiene così la seguente distribuzione bivariata Voto a Storia contemporanea(Y) Voto a Statistica (X) 18 20 22 23 27 28 30 Totale di colonna 18 1 0 0 0 1 0 0 2 27 1 0 0 2 0 0 0 3 28 0 2 1 0 0 0 1 4 30 0 0 0 0 0 1 0 1 Totale di riga 2 2 1 2 1 1 1 10 I totali per riga e per colonna costituiscono le frequenze corrispondenti alle variabili marginali X e Y . b) Calcolare il voto mediano dell'esame di Statistica Occorre ordinare i voti riportati all'esame di Statistica, ottenendo la seguente successione ordinata 18, 18, 20, 20, 22, 23, 23, 27, 28, 30 Poichè il numero di unità statistiche è N=10, quindi pari, bisognerà considerare i voti riportati dalle N N =5 e 1=6 ,tali voti sono rispettivamente 22 e 23, unità statistiche che occupano le posizioni 2 2 la mediana è per definizione un qualunque valore fra i due voti individuati: per convenzione si assume 2223 =22.5 . come mediana la media fra i due valori e quindi si ha M e = 2 c) Stabilire se vi è indipendenza in media di X da Y Vi è indipendenza in media di X da Y, se al variare di Y le medie delle condizionate X /Y =Y j rimangono costanti. Determiniamo quindi tali medie: 17 18⋅127⋅1 =22.5 2 18⋅123⋅2 X / Y =27= =21.3 3 20⋅222⋅130⋅1 X / Y =28= =23 4 28⋅1 X / Y =30= =28 1 X / Y =18= Le medie condizionate non sono uguali fra loro e quindi si può dire che non c'è indipendenza in media di X da Y. Esercizio 11A. In un collettivo di giovani si è osservato l'atteggiamento verso il fumo per classi di età ottenendo la seguente distribuzione di frequenze: Classi di età ]18 , 22] ]22 , 25] [16 , 18] 7 16 Fuma Non fuma 8 18 ]25 , 30] 21 9 30 10 a) Calcolare la classe modale per l'età di chi fuma e di chi non fuma ] X i , X i1] Frequenze assolute Non Fumatori fumatori ni , F n i , NF [16, 18] ]18, 22] ]22, 25] ]25, 30] 7 8 21 30 16 18 9 10 Totale 66 53 Densità di frequenza Non fumatori ni 7 8 4.5 3 6 2 23 26 30 40 Ampiezza della classe Valore centrale 2 4 3 17 20 23.5 3.5 2 5 27.5 Fumatori 119 La classe modale per i fumatori è ]22, 25] e per i non fumatori è ]16, 18] b) Calcolare il rapporto di correlazione dell'età dall'atteggiamento verso il fumo. Poiché la variabile è suddivisa in classi tutti gli indici statistici coinvolti saranno calcolati utilizzando i valori centrali delle classi. Il rapporto di correlazione è così definito: 18 h X /Y = ∑ j−2⋅n . j Devianza fra i gruppi D B j=1 = = k Devianza totale DT ∑ C i−2⋅ni. i=1 nella quale j e sono rispettivamente la media di X nel j-mo gruppo e nella popolazione e C i sono i valori centrali delle classi. 4 = ∑ C i n i. i=1 N = 17⋅2320⋅2623.5⋅3027.5⋅40 =22.8235 119 4 fumatori = ∑ C i ni1 i=1 n.1 = 17⋅720⋅823.5⋅2127.5⋅30 =24.2045 66 4 non fumatori = ∑ C i ni2 i =1 n.2 = 17⋅1620⋅1823.5⋅927.5⋅10 =21.1037 53 2 2 D B = 24.2045−22.8235 ⋅6621.1037−22.8235 ⋅53=282.5 2 2 2 2 D T =17−22.8235 ⋅2320−22.8235 ⋅2623.5−22.8235 ⋅30 27.5−22.8235 ⋅40= =1875.87 2 X ∣Y = 282.5 =0.1506 1875.87 Esercizio 12A. In un collettivo di 420 volontari si è osservato la frequenza di attività di volontariato per classi di età ottenendo la seguente distribuzione di frequenze relative percentuali: Classi di età (X) Frequenza di attività di volontariato (Y) Almeno una volta la settimana Una o più volte al mese [14,20] ]20,35] ]35,55] ]55,60] 10 15 10 5 10 20 20 10 19 a) Quanti sono i volontari con età superiore a 20 anni e non superiore a 55 anni. La frequenza richiesta è data da 15102020 ⋅420=273 100 b) Quanti sono i volontari che prestano la loro attività almeno una volta la settimana e che hanno un'età superiore a 55 anni e non superiore a 60 anni. Il numero di volontari richiesto è dato da: c) 5 ⋅420=21 100 Determinare il rapporto di correlazione dell'età dalla regolarità del servizio di volontariato. Prima di procedere nel calcolo del rapporto di correlazione sarà necessario individuare i valori centrali di classe per la variabile X e la sua distribuzione marginale di frequenze percentuali. Ci Valore centrali pi Frequenza percentuale 17 27.5 45.0 57.5 20 35 30 15 Indicando con n 1i e p1i rispettivamente la frequenza assoluta e percentuale di coloro che svolgono attività di volontariato almeno una volta la settimana e hanno un'età della classe i-ma, con n 2i e p 2i le corrispondenti frequenze di coloro che svolgono attività di volontariato una o più volte al mese, con N la numerosità del collettivo, con 1 l'età media di coloro che svolgono attività di volontariato almeno una volta la settimana, con 2 l'età media di coloro che svolgono attività di volontariato una o più volte al mese, con µ l'età media del collettivo di volontari e tenendo conto di quanto detto nell'esercizio 6A, si ha p1i = 1 = n1i ⋅100 N e quindi 4 4 i=1 i=1 ∑ C i⋅n1i ∑ n1. = n N C i⋅ 1i ⋅100⋅ N 100 4 ∑ n1i i =1 1 = 4 = 4 ∑ C i⋅p1i ∑ C i⋅p 1i i=1 4 100 ∑ n i1⋅ N i=1 = i =14 ∑ p1i i =1 17⋅1027.5⋅1545⋅1057.5⋅5 1320 = =33 40 40 ed analogamente 2 = = 17⋅1027.5⋅2045⋅2057.5⋅10 =36.8 60 17⋅2027.5⋅3545⋅3057.5⋅15 =35.15 100 Possiamo ora determinare il rapporto di correlazione dell'età dalla frequenza di attività di volontariato Devianza fra i gruppi D B 2X ∣Y = = Devianza totale DT 20 2 D B =∑ i−2⋅p j · =33−35.152⋅4036.58−35.152⋅60=307.594 j=1 4 D T =∑ C i −2⋅pi i=1 D T =17−35.152⋅2027.5−35.152⋅3545−35.152⋅3057.5−35.152⋅15=19040.23 2X ∣Y = 307.59 =0.01615 19040.23 Esercizio 13A. Su un collettivo di individui sono stati rilevati i caratteri X (Peso in Kg) e Y (Altezza in cm) ottenendo la seguente distribuzione congiunta di frequenze: 60 165 2 Y 170 0 175 0 70 80 0 1 1 0 0 1 X a) Ricostruire la successione ordinata dell'altezza Al fine di rispondere al quesito costruiamo la distribuzione di frequenze della marginale Y Y n. j 165 170 175 3 1 1 dalla quale otteniamo la successione richiesta 165 , 165 , 165 , 170 , 175 b) Calcolare la media e la mediana dell'altezza Essendo N=5 (dispari) la mediana è il valore che occupa il terzo posto N 1 =3 2 nella successione ordinata; quindi la mediana è pari a 165 Per calcolare la media della Y utilizziamo la distribuzione di frequenze costruita al punto precedente y= c) 163⋅3170⋅1175⋅1 840 = =168 5 5 Calcolare il peso medio per gli individui che hanno un'altezza di 165 cm X∣Y =165 = 60⋅270⋅080⋅1 =66.66 3 21 d) Calcolare il coefficiente di correlazione lineare tra peso e altezza Il coefficiente di correlazione lineare è dato da: XY = 1 X = N XY X Y = Cov X , Y Var X Var Y 3 350 = =70 ∑ X i⋅ni⋅= 60⋅270⋅180⋅2 5 5 i=1 3 1 60−702⋅270−702⋅180−702⋅2 2 = ∑ X i− X ⋅ni⋅= =80 N i=1 5 2 X X = 80=8.94 Y2 = 1 N 3 ∑ Y j−Y 2⋅n⋅j= i =1 165−1682⋅3170−1782⋅1175−1682⋅1 =16 5 Y = 16=4 3 3 XY = 1 N XY = 60−70165−168⋅280−70165−168⋅1 5 XY = ∑ ∑ X i− X Y j −Y nij i =1 j=1 70−70170−168⋅180−70175−168⋅1 5 60−30070 100 = =20 5 5 XY = 20 =0.56 4⋅8.94 Esercizio 14A. Lo stipendio medio annuo (X), in migliaia di euro, dei dirigenti e il numero di dipendenti (Y) di 9 aziende sono riportati nella tabella che segue: Azienda 1 2 3 4 5 6 7 8 9 Stipendio 45 30 84 63 62 61 46 43 42 N°Dipendenti 14 16 46 32 22 21 28 17 24 22 a) Calcolare il coefficiente di correlazione lineare fra X e Y I dati forniti costituiscono quella che si chiama una successione doppia, infatti per ciascuna delle 9 unità statistiche di rilevazione (aziende) sono riportati i valori delle due variabili Stipendio medio annuo dei dirigenti e Numero di dipendenti, ciò determina una semplificazione delle espressioni per il calcolo degli tutti indici statistici da utilizzare come appresso indicato { 9 X = 9 1 ∑x 9 i=1 i 2 X = 9 9 1 1 2 2 2 x i−X = ∑ x i − X ∑ 9 i=1 9 i=1 9 1 Y = ∑ y i 9 i=1 9 1 1 = ∑ y i−Y 2= ∑ y 2i −2Y 9 i=1 9 i =1 2 Y 9 9 1 1 XY = ∑ x i−X y i −Y = ∑ xi y i − X Y 9 i=1 9 i=1 XY XY = X⋅ Y e quindi 453084636261464342 476 = =52.89 9 9 141646322221281724 220 Y = = =24.44 9 9 45230 284 2632 622612462432422 27244 2X = −52.89 2= −2797.23=229.88 9 9 14 216246 2322 222 212 282 172242 6166 2 Y = −24.442= −597.53=87.58 9 9 X = 45⋅1430⋅1684⋅4663⋅3261⋅2146⋅2843⋅1742⋅24 −52.89⋅24.44= 9 12662 = −1292.84=114.05 9 114.05 114.05 XY = = =0.8 15.16⋅9.36 229.88⋅ 87.58 XY = b) Determinare la mediana del numero di dipendenti Ricordiamo che la mediana è l'intensità del carattere ordinabile posseduta dall'unità statistica che, nella sucessione ordinata delle modalità, è preceduta e seguita dallo stesso numero di unità statistiche del collettivo; per individuare quindi la mediana sarà necessario ordinare le unità statistiche in ordine crescente (descrescente) secondo il numero di dipendenti, la successione ordinata delle osservazioni date è la seguente Azienda 1 2 8 6 5 9 7 4 3 N°Dipendenti 14 16 17 21 22 24 28 32 46 l'unità statistica preceduta e seguita dallo stesso numero di unità statistiche (4) è l' Azienda 5 che possiede un numero di dipendenti pari a 22, quindi la mediana è proprio 22; in generale, quando la numerosità del collettivo è dispari, la posizione nella successione ordinata delle modalità dell'unita statistica mediana è data da N 1/2 nella quale N è la numerosità del collettivo; così, nel nostro caso, la posizione mediana è 91/ 2=5 e di conseguenza la mediana è il 5° valore nella successione ordinata su costruita, cioè 22. 23 B. ESERCIZI DI PROBABILITA' E VARIABILI CASUALI 24 B1. Calcolo delle probabilità Esercizio 1B1. In una popolazione di 400 laureati in Scienze Politiche la distribuzione secondo il sesso e lo stato lavorativo a due anni dalla laurea è la seguente: Maschio Femmina Occupato 100 150 Disoccupato 50 100 Si estrae a caso un laureato. Premessa Al fine di poter effettuare una estrazione casuale di una unità statistica del collettivo si può pensare di associare a ciascuna di esse una pallina, di diametro costante e di un dato materiale in determinate condizioni fisico-chimiche, sulla quale annotare genere e stato occupazionale. Le 400 palline così costruite vengono inserite in una scatola e mescolate accuratamente. La prova consiste nell'estrarre una sola pallina dalla scatola. In queste condizioni ciascuna pallina ha la stessa probabilità di essere estratta. Si è così costruito uno spazio di eventi (le 400 palline) necessari (una pallina verrà estratta), incompatibili (una sola pallina verrà estratta) ed equiprobabili (ciascuna pallina ha la stessa probabilità di 1 essere estratta): ciascuna pallina ha probabilità data da 400 . Il problema di calcolare la probabilita di estrarre una pallina con una particolare annotazione, per esempio femmina, si risolve considerando tale annotazione (femmina) come un evento composto dalla disgiunzione (unione) di un numero k (le 250 palline con femmina) di eventi incompatibili ed equiprobabili e quindi la sua probabilità sarà data dalla somma 1 delle probabilità di questi k eventi equiprobabili cioè k⋅400 (la probabilità di femmina sarà 250 /400), ovvero dal rapporto fra il numero di casi favorevoli (le 250 palline con femmina) e il numero di casi possibili (le 400 palline). Dalle considerazioni esposte si può concludere che la frequenza relativa di una modalita di un carattere può essere vista come la probabilità di un evento: quello individuato dalla modalità fissata. a) Qual è la probabilità che sia disoccupato? Occupato Disoccupato 100 50 150 Maschio 150 100 250 Femmina 250 150 400 Si considerino gli eventi A:={essere disoccupato} e B:={essere maschio}, dalle considerazioni svolte in premessa si ha: 150 Pr A= =0.375 400 b) Qual è la probabilità che sia disoccupato e maschio? Pr A∩B= c) 50 =0.125 400 Qual è la probabilità che sia disoccupato dato che è stato estratto un maschio? 25 50 Pr A∩B 400 50 Pr A∣B= = = =0.125 Pr B 150 150 400 Esercizio 2B1. Un collettivo di 200 studenti è stato classificato secondo il voto riportato ad un dato esame e a seconda che l'esame in oggetto sia stato il primo ad essere sostenuto o meno Primo esame si no 40 15 45 100 Voto voto ≤ 24 voto ≥ 25 Si estrae a caso dal collettivo uno studente. Si considerino gli eventi A:={voto ≤ 24} e B:={è il primo esame sostenuto} a) Calcolare Pr(A) Primo esame Voto si no voto ≤ 24 40 15 55 voto ≥ 25 45 100 145 85 115 200 Pr A= 55 =0.275 200 Pr B= 85 =0.425 200 b) Calcolare Pr(B) c) Calcolare Pr A∪B Pr A∪B=Pr APr B−Pr A∩ B= 55 85 40 100 − = =0.5 200 200 200 200 d) Calcolare Pr B∣A 40 Pr A∩B 200 40 Pr B∣A= = = =0.727 Pr A 55 55 200 26 Esercizio 3B1. Un collettivo di 200 donne è stato classificato secondo lo stato civile e l'età come segue: Età fino a 25 anni più di 25 anni Stato civile Nubile Coniugata 40 15 45 100 Si estrae dal collettivo casualmente una donna. Si considerino gli eventi A:={avere una età fino a 25 anni} e B:={essere coniugata} a) Calcolare Pr(A) fino 25 anni più di 25 anni Nubile 40 45 85 Coniugata 15 100 115 Pr A= 55 =0.275 200 Pr B= 115 =0.575 200 55 145 200 b) Calcolare Pr(B) c) Calcolare Pr A∩B Pr A∩B= 15 =0.075 200 d) Calcolare Pr A∪B Pr A∪B=Pr APr B−Pr A∩ B=0.2750.575−0.075=0.775 e) Calcolare Pr B∣A Pr B∣A= f) Pr A∩B 0.075 = =0.273 Pr A 0.275 A e B sono eventi indipendenti? Due eventi si dicono stocasticamente indipendenti se Pr B∣A= Pr B dai risultati ottenuti ai precedenti punti b) ed e) si deduce che la condizione di indipendenza non è verificata. 27 Esercizio 4B1. Un collettivo di 200 giovani è stato classificato secondo lo stato civile e la condizione lavorativa come segue: Stato civile Condizione lavorativa lavora non lavora Celibe 50 70 Coniugato 60 20 Si estrae dal collettivo casualmente un giovane. Si considerino gli eventi A:={non lavora} e B:={essere celibe}. a) Calcolare Pr(A) Celibe 50 70 120 lavora non lavora Coniugato 60 20 80 Pr A= 110 90 200 90 =0.45 200 b) Calcolare Pr A∩B Pr A∩B= c) 70 =0.35 200 A e B sono eventi indipendenti? Due eventi si dicono stocasticamente indipendenti se Pr A∣B= Pr A ; determiniamo quindi la probabilità a primo membro della precedente Pr B= 120 =0.6 200 Pr A∣B= Pr A∩ B 0.35 = =0.583 Pr B 0.6 poiché risulta, tenendo conto del punto a), che eventi non sono indipendenti. Pr A∣B≠ Pr A possiamo concludere che i due d) Calcolare Pr A∪B Pr A∪B=Pr APr B−Pr A∩ B=0.450.6−0.35=0.7 28 Esercizio 5B1. Delle auto prodotte da una certa casa automobilistica si sa che 1 su 100 presenta difetti di carrozzeria e che 4 su 180 presentano difetti meccanici, inoltre fra le auto con difetti di carrozzeria la probabilità di trovarne una con difetti meccanici è pari a 0.002. Calcolare la probabilità di produrre un'auto con difetti di un tipo o dell'altro. Definiamo i seguenti eventi: A:={l'auto presenta difetti di carrozzeria} B:={l'auto presenta difetti meccanici} Bisognerà determinare la Pr A∪B Dai dati del problema sappiamo che: Pr A= 1 =0.01 100 Pr B= 4 =0.022 180 Pr B∣A=0.002 dalle quali otteniamo: Pr A∩B =Pr A⋅Pr B∣A=0.01⋅0.002=0.00002 ed in conclusione Pr A∪B=Pr APr B−Pr A∩ B=0.010.022−0.00002=0.0319 Esercizio 6B1. Con riferimento ad un collettivo di 600 studenti dell'Università di Firenze si considerino i seguenti eventi: A := {ha superato l'esame di Economia} B := {frequenta il corso di Statistica}. Sapendo che 400 studenti hanno superato l'esame di Economia, che 300 studenti frequentano il corso di Statistica e che 200 sono gli studenti che hanno superato l'esame di Economia e frequentano il corso di Statistica a) Calcolare Pr(A) Pr A= 400 =0.66 600 b) Calcolare Pr A∩B Pr A∩B= c) 200 =0.33 600 Calcolare Pr A∪B Pr A∪B=Pr APr B−Pr A∩ B= 400 300 200 500 − = =0.83 600 600 600 600 29 Esercizio 7B1. Per un paziente con certi sintomi si considerino i seguenti eventi: A := { ha l'influenza } B := { ha la polmonite } C := { ha la febbre a 40} sapendo che: A∩B=∅ Pr A=0.7 A∪B=I Pr C∣A=0.3 Pr C∣B=0.8 dove si è posto I :={evento certo} e ∅ :={evento impossibile } a) Calcolare la probabilità che il paziente abbia la polmonite Poiché gli eventi A e B sono necessari ed incompatibili si ha Pr B=1−Pr A=0.3 b) Calcolare la probabilità che abbia l'influenza dato che ha la febbre a 40 Tenendo conto delle notazioni adottate nel testo del problema bisogna calcolare la Pr A∣C che è Pr A∩C data da Pr C Si può ora notare che (vedi anche figura) Pr C =Pr C ∩I =Pr C∩ A∪B=Pr [C ∩A∪C∩B] e tenendo conto del fatto che gli eventi C∩ A e C∩B sono incompatibili, in quanto lo sono A e B, si ha Pr C =Pr C ∩APr C ∩B e poichè Pr C∩ A=Pr C∣A⋅Pr A=0.3⋅0.7=0.21 Pr C∩B=Pr C∣B⋅Pr B=0.8⋅0.3=0.24 e quindi Pr C =0.45 ed in definitiva la probabilità richiesta è data da Pr A∩C 0.21 Pr A∣C = = =0.47 Pr C 0.45 Naturalmente quanto è stato fatto non è altro che la derivazione della probabilità a posteriori dell'evento A sapendo che si è verificato C data dal teorema di Bayes. A C = A∩C ∪ B∩C A∩C B B∩C 30 Esercizio 8B1. Uno studente al primo anno di università vuole conoscere le sue possibilità di laurearsi entro 4 anni. Gli vengono fornite le seguenti informazioni: 1) il 15% degli iscritti si laurea entro 4 anni; 2) su 10 laureati entro 4 anni 6 hanno riportato il massimo dei voti all'esame di diploma di scuola media superiore; 3) su 100 laureati con tempi superiori ai 4 anni 10 hanno riportato il massimo dei voti all'esame di diploma di scuola media superiore. Sapendo che lo studente in questione ha riportato il massimo dei voti all'esame di diploma di scuola media superiore, qual è la probabilità che si laurei entro 4 anni? Si considerino i seguenti eventi: A:={laurea conseguita entro 4 anni} B:={riportare il massimo dei voti all'esame di diploma di scuola media superiore} In base ai dati del problema sarà: Pr A= 15 =0.15 100 Pr B∣A=0.6 Pr B∣ A =0.1 Si deve quindi calcolare Pr A∣B , con considerazioni analoghe a quelle dell'esercizio precedente si ha: Pr B∩ A=Pr A⋅Pr B∣A=0.15⋅0.6=0.09 Pr A =1−Pr A=0.85 ⇒ Pr B∩ A =Pr A⋅Pr B∣ A =0.85⋅0.1=0.085 Pr B=Pr B∩APr B∩ A =0.090.085=0.175 ed in definitiva Pr A∣B= Pr A∩B 0.09 = =0.514 Pr B 0.175 Esercizio 9B1. Un giovane deve decidere se iscriversi all'Università per conseguire una laurea o mettersi sul mercato del lavoro. Egli sa che tra i giovani lavoratori il 30% ha la laurea mentre tra i disoccupati il 20% è laureato. Inoltre, data la situazione economica, la probabilità per un giovane di lavorare è 0.8. Consigliereste al giovane di iscriversi all'Università per conseguire una laurea? Si considerino gli eventi: A:={il giovane lavora} B:={il giovane ha la laurea} I:={evento certo} Dai dati del problema si ha: Pr A=0.8⇒ P A =0.2 Pr B∣A=0.3 =0.2 Pr B∣A Al fine di dare una risposta al quesito si dovrà stabilire quale fra le due probabilità Pr A∣B e 31 è maggiore. Pr A∣B Con i dati disponibili possiamo calcolare le seguenti probabilità Pr B∩ A=Pr A⋅Pr B∣A=0.8⋅0.3=0.24 ⋅Pr B∣ A=0.2⋅0.2=0.04 Pr B∩ A =Pr A =0.72 Pr B=Pr B∩APr B∩ A =0.240.04=0.28 ⇒ Pr B Osservando che A=A∩ I = A∩ B∪ B = A∩B∪ A∩ B si ha ⇒ Pr A∩ B = Pr A−Pr A∩B=0.8−0.24=0.56 Pr A= Pr A∩ BPr A∩ B ed in definitiva quindi Pr A∣B= Pr A∩ B 0.24 = =0.857 Pr B 0.28 Pr A∣B = Pr A∩ B 0.56 = =0.778 Pr B 0.72 si può quindi concludere che conviene conseguire una laurea in quanto, possedendo tale titolo, è maggiore la probabilità di trovare un lavoro. Esercizio 10B1. In un ufficio le pratiche relative ad una certa procedura amministrativa vengono affidate casualmente a tre impiegati che indicheremo con A,B,C. La probabilità che una pratica venga completata entro una settimana per ciascun impiegato è indicata nella tabella che segue: Impiegato Probabilità A 0.4 B 0.8 C 0.3 Avendo ricevuto una pratica espletata entro una settimana qual è, secondo voi, l'impiegato al quale era stata affidata? Si considerino i seguenti eventi: S:={la pratica è completata entro una settimana} A:={la pratica è affidata all'impiegato A} B:={la pratica è affidata all'impiegato B} C:={la pratica è affidata all'impiegato C} Dai dati del problema si ha: Pr A= Pr B=Pr C = 1 3 in quanto la pratica viene affidata casualmente ad uno dei tre impiegati, inoltre Pr S∣A=0.4 Pr S∣B=0.8 Pr S∣C =0.3 32 Per rispondere alla domanda posta sarà necessario stabilire qual è la maggiore fra le seguenti tre probabilità: Pr A∣S Pr B∣S Pr C∣S Utilizzando il teorema di Bayes si ha: Pr A∣S = Pr A⋅Pr S∣A Pr A⋅Pr S∣APr B⋅Pr S∣BPr C ⋅Pr S∣C Calcoliamo il denominatore della precedente che non è altro che la Pr S Pr S = Pr A⋅Pr S∣APr B⋅Pr S∣BPr C ⋅Pr S∣C 1 1 1 1 1 Pr S = ⋅0.4 ⋅0.8 ⋅0.3= ⋅0.40.80.3= ⋅1.5 3 3 3 3 3 e quindi 1 ⋅0.4 Pr A⋅Pr S∣A 3 0.4 Pr A∣S = = = =0.267 Pr S 1 1.5 ⋅1.5 3 ed analogamente 1 ⋅0.8 Pr B⋅Pr S∣B 3 0.8 Pr B∣S = = = =0.533 Pr S 1 1.5 ⋅1.5 3 1 ⋅0.3 Pr C ⋅Pr S∣C 3 0.3 Pr C∣S = = = =0.2 Pr S 1 1.5 ⋅1.5 3 Si può quindi concludere che l'impiegato B è quello che, con maggiore probabilità, ha espletato la pratica riconsegnata. Esercizio 11B1. Si consideri un mazzo di 40 carte costituito da 10 carte per ciascun seme (♣,♦,♥,♠) e per ciascun seme le carte sono numerate da 1 a 10. Si estraggano da tale mazzo due carte senza reintroduzione. a) Calcolare la probabilità che entrambe siano ♥ Poiché le estrazioni sono effettuate senza reintroduzione, gli eventi nella prima e seconda prova non sono indipendenti, inoltre, in ciascuna prova, la probabilità di estrarre una determinata carta è data da 1 k nella quale k è il numero di carte rimaste nel mazzo. Consideriamo ora i seguenti eventi: C 1 :={si verifica una carta di cuori alla prima estrazione} C 2 :={si verifica una carta di cuori alla seconda estrazione} 33 Bisognerà calcolare la probabilità dell'evento C 1∩C 2 Pr C 1∩C 2= Pr C 1⋅Pr C 2∣C 1 = 10 9 ⋅ =0.25⋅0.23=0.0575 40 39 b) Calcolare la probabilità che la seconda sia ♠ dato che la prima è un 2 Consideriamo gli eventi. 21 :={si verifica una carta due alla prima estrazione } P 2 :={si verifica una carta di picche alla seconda estrazione } 2P1 :={si verifica un due di picche alla prima estrazione} 2Q1 :={si verifica un due di quadri alla prima estrazione} 2C1 :={si verifica un due di cuori alla prima estrazione} 2F1 :={si verifica un due di fiori alla prima estrazione} ed osserviamo che 21=2P1∪2Q1∪2C1∪2F 1 Pr 21 =Pr 2P1Pr 2Q1 Pr 2C1 Pr 2F 1= 1 1 1 1 4 = 40 40 40 40 40 21∩P 2= 2P1∪2Q1∪2C1∪2F1∩P 2= 2P1∩P 2 ∪2Q1∩P 2 ∪ 2C1∩P 2 ∪ 2F1∩ P 2 Pr 21∩ P 2= Pr 2P1∩P 2 ∪ 2Q1 ∩P 2 ∪ 2C1 ∩P 2 ∪ 2F1∩P 2 = =Pr 2P1∩P 2Pr 2Q1∩P 2 Pr 2C1∩P 2 Pr 2F1∩P 2 = =Pr 2P1 ⋅Pr P 2∣2P1 Pr 2Q1 ⋅Pr P 2∣2Q1Pr 2C1 ⋅Pr P 2∣2C1Pr 2F1 ⋅Pr P 2∣2F1= = 1 9 1 10 1 10 1 10 1 9 1 10 39 1 ⋅ ⋅ ⋅ ⋅ = ⋅ 3⋅ ⋅ = = 40 39 40 39 40 39 40 39 40 39 40 39 40⋅39 40 e quindi 1 Pr 2 1∩P 2 40 1 Pr P 2∣21 = = = =0.25 Pr 21 4 4 40 c) Calcolare la probabilità che la seconda sia ♦ Consideriamo gli eventi: Q 1 :={si verifica una carta di quadri alla prima estrazione} Q 2 :={si verifica una carta di quadri alla seconda estrazione} Possiamo osservare che l'evento Q2 si verificherà quando si verificherà uno dei seguenti due eventi Q1∩Q 2 oppure Q1∩Q 2 che sono incompatibili e quindi 34 Pr Q2 =Pr Q1 ∩Q2 Pr Q1∩Q2 =Pr Q 1⋅Pr Q 2∣Q1 Pr Q1⋅Pr Q 2∣Q1= 10 9 30 10 10 9 10 10 39 1 = ⋅ ⋅ = ⋅ = ⋅ = =0.25 40 39 40 39 40 39 39 40 39 4 Osservazione: Naturalmente sarà 0.25 la probabilità di estrarre alla seconda prova una carta di uno qualunque degli altri semi e ricordando dal punto b) che Pr P 2∣21 =0.25=Pr P 2 possiamo concludere che, il sapere il numero della carta alla prima estrazione, non modifica la probabilità del colore della carta alla seconda estrazione; in altre parole saper il numero non aiuta a prevedere il colore. Esercizio 12B1. Vengono estratte, senza reintroduzione, tre carte da un mazzo di 52 contenente 13 carte di ciascun seme (fiori, quadri, picche, cuori), per ciascun seme le carte sono contrassegnate dai numeri da 2 a 10, da fante, regina, re, asso. Nella presentazione della soluzione utilizzeremo per gli eventi notazioni analoghe a quelle dell'esercizio precedente. a) Trovare la probabilità che abbiano tutte lo stesso contrassegno L'evento E:={tre carte con lo stesso contrassegno} è costituito dalla disgiunzione dei 13 eventi incompatibili ed equiprobabili S i1∩S i2 ∩S i3 nel quale S ij con i =113 e j =13 rappresenta una carta con un determinato contrassegno, l'i-mo, alla j-ma estrazione, per esempio S 32 indica il verificarsi della carta 3 alla seconda estrazione, con queste posizioni calcoliamo la probabilità richiesta Pr E= Pr 13 ∪ S i=1 i 1 13 ∩S ∩S =∑ Pr S i1∩S i2∩S i3 =13⋅Pr S 21∩S 22∩S 23 = i 2 i 3 i=1 4 3 2 =13⋅Pr S 21 ⋅Pr S 22∣S 21 ⋅Pr S 23∣ S 12∩S 22 =13⋅ ⋅ ⋅ =13⋅0.077⋅0.059⋅0.04=0.0024 52 51 50 b) Trovare la probabilità che nessuna delle tre carte sia asso Pr nessuna sia asso= Pr A1∩ A2∩ A3 =Pr A1 ⋅Pr A2∣ A1⋅Pr A3∣ A1∩ A2 = = 48 47 46 ⋅ ⋅ =0.923⋅0.922⋅0.92=0.783 52 51 50 35 B2.1. Variabili casuali discrete Esercizio 1B2.1. Vi propongono di giocare al seguente gioco: si lanciano due monete, se si verificano due teste si vince 1 euro, se si verificano due croci si vince 0.5 euro, in tutti gli altri casi non si vince nulla. Per partecipare al gioco si paga 0.5 euro. Conviene giocare a questo gioco? (calcolare la vincita media) Indicando con T 1 e C 1 gli eventi Testa e Croce per una delle due monete e con T 2 e C 2 i corrispondenti eventi per l'altra moneta, lo spazio degli eventi Ω generato dal lancio delle due monete è dato da: ={T 1∩T 2 ,T 1∩C 2 ,C 1∩T 2 ,C 1∩C 2 } Supponendo che le due monete siano bilanciate, cioè siano uguali le probabilità di Testa e di Croce e quindi entrambe uguali ad 12 , la probabilità di ciascuno dei 4 eventi di Ω sarà data da 14 in quanto ciascuna coppia di risultati è costituita da eventi indipendenti e di conseguenza la sua probabilità è data dal prodotto delle probabilità dei due eventi che la costituiscono. Costruiamo ora una variabile casuale G che associa a ciascun evento di Ω la differenza fra vincita e costo di partecipazione al gioco { T 1∩T 2 1−0.5=0.5 G : C 1∩C 2 0.5−0.5=0 C 1∩T 2 ∪T 1∩C 2 0−0.5=−0.5 Pr 0.5= Pr 0= 1 4 1 4 1 1 1 Pr −0.5= = 4 4 2 Il valore atteso della variabile casuale G ci fornirà il guadagno atteso del gioco proposto e quindi la risposta al quesito posto 1 1 1 E [G]=0.5⋅ 0⋅ −0.5⋅ =−0.125 4 4 2 poiché il guadagno atteso è negativo non conviene partecipare al gioco proposto. Esercizio 2B2.1. Un’urna contiene palline bianche e nere con probabilità rispettivamente uguale 0.3 e 0.7. La prova consiste nell’estrarre ripetutamente una pallina dall’urna rimettendo la pallina nell’urna dopo ogni estrazione. a) Calcolare la probabilità di ottenere la prima pallina bianca alla decima estrazione. Poiché le estrazioni sono effettuate con reintroduzione non cambia, da un'estrazione all'altra, la 36 composizione dell'urna e quindi la probabilità dei due risultati possibili: la probabilità di ottenere una pallina di un determinato colore ad una certa estrazione è sempre la stessa ad ogni estrazione, ciò si sintetizza dicendo che le estrazioni sono indipendenti. Indicando con N i l'evento {pallina nera alla i-ma estrazione} e con Bi l'evento {pallina bianca alla i-ma estrazione} bisogna calcolare la probabilità dell'evento E 10 := N 1∩N 2 ∩N 3∩N 4∩N 5∩ N 6∩N 7∩ N 8 ∩N 9∩B 10 e quindi ∏ 9 Pr E 10 = 1 Pr N i ⋅Pr B 10=0.7 9⋅0.3 b) Calcolare la probabilità di ottenere la prima pallina bianca fra la settima e la nona estrazione. Indicando con E j l'evento {la prima pallina bianca si ottiene alla j-ma estrazione} si dovrà determinare la probabilità dell'evento B := E 7∪E 8∪ E 9 nel quale i tre eventi E 7 , E 8 ed E 9 sono incompatibili e quindi: 6 7 8 Pr B= Pr E 7∪E 8∪ E 9= Pr E 7 Pr E 8 Pr E 9=0.7 ⋅0.30.7 ⋅0.30.7 ⋅0.3=0.077 Esercizio 3B2.1. Un’urna contiene 7 palline gialle e 3 rosse. a) Calcolare la probabilità che, estraendo dall’urna due palline senza reintroduzione, alla seconda estrazione si verifichi pallina gialla Utilizzando notazioni analoghe a quelle dell'esercizio 1B2.1 e tenendo conto che in questo caso le estrazioni non sono indipendenti in quanto la pallina estratta non viene rimessa nell'urna, si ha: G 2=G 1∩G 2∪ R1∩G 2 Pr G 2 =Pr G1∩G 2∪ R1∩G 2 =Pr G 1∩G 2 Pr R1∩G 2 = 7 6 3 7 7 =Pr G 1⋅Pr G 2∣G 1 Pr R1 ⋅Pr G2∣R1 = ⋅ ⋅ = =0.7 10 9 10 9 10 b) Calcolare la probabilità che, estraendo dall’urna due palline senza reintroduzione, si verifichi pallina rossa alla prima estrazione e gialla alla seconda Pr R1 ∩G 2 =Pr R1 ⋅Pr G 2∣R1 = 3 7 ⋅ =0.23 10 9 37 Esercizio 4B2.1. La proporzione di studenti di una certa Facoltà che hanno superato un determinato esame è 0.3 e si ipotizza di estrarre un campione casuale di 50 studenti della stessa Facoltà. a) Stabilire la probabilità di ottenere una proporzione campionaria di studenti che hanno superato quell’esame pari a 0.4. X La proporzione campionaria è una variabile casuale definita da n nella quale X rappresenta il numero di successi nelle n estrazioni, in questo caso il valore fissato della proporzione campionaria è 0.4 in un campione di numerosità 50 e quindi x=0.4⋅50=20 . Si dovrà quindi calcolare la probabilità di ottenere 20 successi in 50 prove di Bernoulli indipendenti, ciascuna con probabilità di successo θ pari a 0.3; a tale scopo utilizziamo la funzione di distribuzione di probabilità della variabile casuale binomiale (X) che fornisce appunto la probabilità di ottenere x successi in n prove bernoulliane x n− x Pr X = x= n ⋅1− x x=0,1 , 2, n la probabilità richiesta sarà quindi 50! Pr X =20= 50 0.320⋅1−0.350− 20 = ⋅0.320⋅0.7 30=0.037 20!⋅50−20! 20 Esercizio 5B2.1. I corsi di Statistica offerti negli atenei italiani richiedono agli studenti di acquistare un numero variable di libri di testo. Sia X la variabile casuale che rappresenta il numero di libri di testo richiesti da un corso di Statistica scelto a caso. X può assumere soltanto i valori 0, 1, 2, 3, 4, 5 e la tabelle sottostante fornisce la distribuzione di probabilità della variabile causuale X (a meno di una delle probabilità che è mancante): Numero di libri richiesti x Probabilità Pr(X=x) 0 ? 1 0.45 2 0.24 3 0.12 4 0.09 5 0.05 a) Che valore ha la probabilità mancante? Affinchè la funzione di distribuzione di probabilità Pr(X=x) sia ben definita dovrà essere: Pr X = x ≥0 ∀ x=0,1 ,2 ,3,4 ,5 5 ∑ Pr X = x=1 x=0 di conseguenza, tenendo conto della seconda delle precedenti condizioni, si dovrà avere Pr X =0Pr X =1Pr X =2Pr X =3Pr X =4Pr X =5=1 Pr X =00.450.240.120.090.05=1 Pr X =0=1−0.450.240.120.090.05=0.05 quindi la probabilità richiesta è pari a 0.05, notiamo infine che anche la prima delle condizioni poste è soddisfatta. 38 b) Qual è la probabilità che un corso scelto a caso richieda 2 o più libri di testo? Bisogna determinare la Pr X ≥2 Pr X ≥2=Pr X =2Pr X =3Pr X =4Pr X =5=0.240.120.090.05=0.5 c) Si calcoli il valore atteso della variabile casuale X. 5 E X =∑ x⋅Pr X =x = x=0 =0⋅Pr X =01⋅Pr X =12⋅Pr X =23⋅Pr X =34⋅Pr X =45⋅Pr X =5= =0⋅0.051⋅0.452⋅0.243⋅0.124⋅0.095⋅0.05=1.9 Esercizio 6B2.1. Sapendo che un certo partito politico ha ottenuto in un determinato collegio elettorale il 35% dei voti e supponendo di estrarre casualmente,con reintroduzione, fra le schede depositate nell’urna 30 schede, calcolare a) la probabilità di ottenere 15 schede favorevoli al partito L'urna dalla quale si effettuano le estrazioni può essere descritta da una variabile casuale di Bernoulli X { X : scheda non favorevole 0 scheda favorevole 1 Pr X =0=1−0.35=0.65 Pr X =1=0.35 e di conseguenza il numero di schede favorevoli nelle 30 estrazioni è rappresentato da una variabile casuale binomiale Y di parametri n=30 e p=0.35 la cui funzione di distribuzione di probabilità sarà k 30−k Pr Y=k = 30 0.35 0.65 k k =0,1,2 ,,30 la probabilità richiesta sarà quindi 30! Pr Y =15= 30 0.3515 0.6530−15= 0.3515 0.6515=0.035 15!⋅30−15! 15 b) la probabilità di ottenere non meno di 27 schede favorevoli al partito Sulla base di quanto detto al punto a) la probabilità richiesta è data da 30 Pr Y ≥27= ∑ 30 0.35k 0.6530− k =0.0000000005786 k k=27 39 B2.2. Variabili casuali continue Esercizio 1B2.2. Si è rilevato che il tempo di percorrenza di un tratto autostradale da parte degli automobilisti è descritto da una variabile casuale con la seguente distribuzione di probabilità: Tempo (minuti) [15,20] ]20,23] ]23,27] ]27,31] Probabilità 0.15 0.25 0.40 0.20 a) Calcolare la probabilità che un automobilista percorra il tratto autostradale in non più di 23 minuti Indicando con T il tempo di percorrenza, la probabilità richiesta è data da Pr T 23=Pr [15T 20∪20T 23]= =Pr [15T 20]Pr [20T 23]=0.150.25=0.4 b) Calcolare la probabilità di percorrere il tratto autostradale in un tempo non superiore a 27 minuti Pr T 27=1−Pr T 27=1−Pr 27T 31=1−0.20=0.8 b) Calcolare la probabilità di percorrere il tratto autostradale in un tempo T tale che 20<T≤27 Pr 20T 27=Pr [20T 23∪23T 27]= =Pr 20T 23Pr 23T 27=0.250.40=0.65 Esercizio 2B2.2. La quantità P in grammi di farina erogati in ogni confezione da una macchina si distribuisce normalmente con media 500 g. e scarto quadratico medio 10 g. a) Calcolare la probabilità che vengano erogati meno di 485 g. Ricordiamo innanzitutto che, data una qualunque variabile casuale normale (X) di media µ e scarto quadratico medio σ che indichiamo con X ~N , . Per la simmetria rispetto alla retta x= della sua funzione di densità f(x;µ,σ), che per brevità indicheremo con f(x), si ha f −k = f k per qualunque k 0 di conseguenza, con semplici trasformazioni della variable di integrazione, ed indicando con X x la funzione di ripartizione di X si ha 40 − k k ∞ ∞ −∞ ∞ k k Pr X −k = X −k = ∫ f x dx=−∫ f − y dy= ∫ f − y dy=∫ f y dy= ∞ = ∫ f x dx=Pr X k =1−Pr X k =1− X k k Sappiamo inoltre che la standardizzata (Z) di una normale è ancora normale con, ovviamente, media zero e scarto quadratico medio uno, quindi la relazione precedente per Z si scrive Pr Z 0−k =Pr Z −k = Z −k =1−Z k ricordiamo infine che, preso un qualunque numero reale h si avrà X h= Pr X h= Pr X − h− h− h− =Pr Z = Z Con queste premesse possiamo calcolare la probabilità richiesta. Sappiamo che P ha distribuzione normale di media µ=500 e varianza 100 e quindi scarto quadratico medio σ=10, di conseguenza si ha Pr P≤485=Pr P− 485− P−500 485−500 = Pr =Pr W ≤−1.5 10 10 nella quale con W si è indicata la standardizzata di P, tenendo ora conto delle proprietà della normale ricordate prima ed utilizzando la tavola della normale standardizzata si ha Pr W −1.5=Pr W 1.5=1−Pr W 1.5=1− W 1.5=1−0.93319=0.06681 b) Calcolare la probabilità che la quantità erogata sia compresa fra 490 g. e 512 g. 490−500 P−500 512−500 = Pr −1W 1.2= 10 10 10 = W 1.2−W −1= W 1.2−1−W 1=0.88493−1−0.84134=0.72627 Pr 490P512=Pr c) Stabilire quel peso p 0 per il quale la probabilità che la macchina eroghi una quantità di farina maggiore di p 0 è pari a 0.14 Dobbiamo determinare un p 0 tale che Pr P p 0=0.14 ; possiamo scrivere Pr P p 0 =1−Pr P p 0 =1−Pr nella quale si è posto w 0= standardizzata tale che p0 −500 10 P−500 p0 −500 =1−Pr W w0 =0.14 10 10 e quindi si tratterà di determinare quel valore w 0 della normale Pr W w 0= W w 0 =1−0.14=0.86 dalla tavola della normale standardizzata il valore di probabilità più vicino a 0.86 è 0.85993 cui corrisponde il valore di W dato da 1.08; quindi p 0=50010⋅w0=50010⋅1.08=510.8 La probabilità che la macchina eroghi una quantità di farina maggiore di 510.8 grammi è pari a 0.14. 41 Esercizio 3B2.2. I laureati di una certa facoltà hanno una votazione di laurea media di 100 con uno scarto quadratico medio di 4. Supponiamo che la distribuzione dei voti sia normale. a) Calcolare la probabilità che un laureato riporti un voto alla laurea compreso tra 96 e 104 La variabile V, voto alla laurea, è per sua natura discreta e quindi assume valori interi, v i ,fra 66 e 110; supporre che sia normale, come indicato nel testo del problema, vuol dire fare le seguenti ipotesi: i. La variabile V viene prolungata per continuità associando a ciascun valore v i l'intervallo ]v i −0.5 , v i0.5 ] ; costruendo, cioè, una nuova variabile casuale continua L che assume valori nell'intervallo [ 66−0.5 , 1100.5 ]≡[ 65.5 , 110.5 ] . ii. La variabile L sia uniformememente distribuita in ciascun intervallo ]v i −0.5 , v i0.5 ] con funzione di densità data da g l = { Pr v i 0 ∀ l ∈ ] v i−0.5 , v i 0.5 ] Altrove i=1 45 nella quale v i =i65 e quindi v i 0.5 Pr v i−0.5Lv i 0.5= ∫ v i 0.5 g l dl= v i −0.5 ∫ v i −0.5 vi 0.5 Pr v i dl= Pr v i ∫ dl= vi −0.5 =Pr v i [v i 0.5−v i −0.5]=Pr v i il che evidenzia che la probabilità di ottenere un certo voto si può calcolare utilizzando la funzione di densità della variabile L anziché la funzione di distribuzione di probabilità di V. iii. La variabile normale F ~N 100,4 costituisce una “buona” approssimazione di L nel senso che ∀ f ∈ℝ ⇒ Pr L f ≈Pr F f ovvero che la funzione di ripartizione di L è “bene” approssimata da quella di F. Con le ipotesi poste possiamo perciò scrivere Pr 96V 104=Pr 96−0.5L≤1040.5=Pr 95.5L≤104.5= L 104.5− L 95.5≈ ≈ F 104.5− F 95.5 effettuando la standardizzazione di F ed utilizzando le tavole della normale standardizzata si ha 104.5−100 95.5−100 − Z = Z 1.125− Z −1.125= 4 4 = Z 1.125−1− Z 1.125=2⋅ Z 1.125−1=2⋅0.86864−1=0.73728 F 104.5− F 95.5= Z b) Calcolare la probabilità che un laureato ottenga un voto maggiore di 108 Pr V 108=1−Pr V 108=1−Pr L108.5≈1−Pr F 108.5=1−Z 108.5−100 = 4 =1− Z 2.125=1−0.983=0.017 42 c) Calcolare la differenza interquartile Bisogna determinare la quantità D=Q3−Q1 nella quale Q 1 e Q3 sono rispettivamente il primo ed il terzo quartile; non disponendo della distribuzione empirica di V per determinare i due quartili necessari utilizzeremo la distribuzione della variabile F. Q 1 : Pr F Q1 =0.25 ⇒ F Q1 =0.25 ⇒ Z ⇒ 1− Z − Q1−100 4 =0.25 ⇒ Q1−100 Q −100 =0.25 ⇒ Z − 1 =0.75 4 4 ed utilizzando la tavola della normale standardizzata si ha infine − Q 1−100 4 =0.68 ⇒ Q 1=100−4⋅0.68=97.28 procedendo in maniera del tutta analoga alla precedente si ha Q 3 : Pr F Q 3=0.75 ⇒ F Q3 =0.75 ⇒ Z ⇒ Q3=1004⋅0.68 ⇒ Q3 =102.72 Q 3−100 Q 3−100 =0.75 ⇒ =0.68 ⇒ 4 4 e quindi D=Q3−Q1=102.72−97.28=5.44 43 C. INFERENZA STATISTICA 44 C1. Stima per intervalli Esercizio 1C1. Per analizzare la riuscita scolastica degli adolescenti si estrae un campione casuale semplice con reintroduzione di 600 studenti della prima classe superiore. In tale campione il numero di ragazzi bocciati è pari a 220. Calcolare l’intervallo di confidenza al 90% per la percentuale dei bocciati nell’intera popolazione. Indichiamo con X la v.c. che rappresenta l’esito della prima classe superiore: { X = 0 ⇔ promosso 1 ⇔ bocciato Pr X =0=1− p Pr X =1= p Se B è il numero di studenti bocciati in n prove Bernoulliane, la v.c. P=B /n , che è la proporzione campionaria di bocciati, segue una distribuzione binomiale relativa con parametri n e p: B ~ Bin R n , p P= n che ha valore atteso p e varianza p 1− p/ n . Dato che la numerosità del campione è pari a 600, la distribuzione della variabile B /n può essere approssimata con una distribuzione normale B ≃N n p, p 1− p n A questo punto possiamo quindi ricondurci al caso della stima di un intervallo di confidenza per la media di una normale con varianza incognita. Il corrispondente intervallo di confidenza asintotico per il parametro p (proporzione di bocciati per l’intera popolazione) con livello di confidenza 1− è dato da: IC 1− p:= { z P− 1− 2 P 1− P z p P n 1− 2 P 1− P n } nella quale z 1− /2 è il quantile di ordine 1− / 2 della normale standardizzata Z z 1− 2 : Pr Z ≤z 1− 2 =1− 2 La stima di p sulla base delle informazioni campionarie è data da p =220/600=0.36 ; inoltre dai dati del problema si ha 1−=0.90 ⇒ =0.10 ⇒ =0.05 ⇒ 1− =0.95 2 2 di conseguenza dalla tavola della normale standardizzata si ha z 1− /2 =z 0.95=1.65 e in definitiva la 45 stima dell’intervallo di confidenza è data da IC 0.95 p:= { p −z { 1− 2 p 1− p p p z n 1− 2 p 1− p n } ⇒ 0.361−0.36 0.36 1−0.36 p0.361.65 600 600 ⇒ {0.328 p≤0.329 } ⇒ 0.36−1.65 } ⇒ Esercizio 2C1. In una città ci sono 100000 persone di età compresa fra i 18 e i 25 anni; si estrae da questa popolazione un campione casuale semplice di 500 soggetti, 194 di questi risultano iscritti all’Università. Determinare un intervallo di confidenza al 95% per la proporzione di persone con età compresa fra i 18 e i 25 anni che sono iscritte all’ Università. LA SOLUZIONE È ANALOGA AL PRECEDENTE ESERCIZIO In questo situazione si ha 1−=0.95 ⇒ =0.05 ⇒ z 1− 2 p= =z 0.975=1.96 =0.025 ⇒ 1− =0.975 2 2 194 =0.388 500 e quindi la stima dell'intevallo di confidenza per la proporzione p di iscritti all'Università è data da IC 0.95 p:= { p −z { 1− 2 p 1− p p p z n 1− 2 p 1− p n } ⇒ 0.3881−0.388 p0.3881.96 500 ⇒ {0.345 p≤0.431 } ⇒ 0.388−1.96 0.3881−0.388 500 } ⇒ 46 Esercizio 3C1. Per studiare l’effetto della marijuana sulle capacità intellettuali di soggetti (senza esperienze precedenti) alcuni ricercatori hanno verificato su un campione di soggetti i cambiamenti nei punteggi ad opportuni test dopo aver fumato della marijuana. I risultati sono presentati nella seguente tabella: Soggetto Differenza punteggio 1 5 2 -17 3 -7 4 -3 5 -7 6 -9 7 -6 8 1 9 3 Si determini l’intervallo di confidenza per la media della differenza dei punteggi al 99%. Si tratta di un problema di stima di un intervallo di confidenza per la media di una popolazione con varianza incognita. Per dare una risposta al problema bisogna ipotizzare che la differenza dei punteggi si distribuisca normalmente e quindi si tratta di determinare l'intervallo di confidenza per il valore medio θ di una normale di varianza incognita. Esso è dato da: IC 1− := { X n−t 2 Sn ,n −1 n X nt 2 Sn , n−1 n } nella quale n 1 X n= ∑ X i n i=1 n 1 2 2 S n= X i− X ∑ n−1 i=1 è la media campionaria è la varianza campionaria corretta S n= S 2n t 2 ,n−1 : Pr T n−1t 2 ,n−1 =1− 2 della variabile T di 2 Student con n−1 gradi di di libertà è il quantile di ordine 1− Per stimare l'intervallo di confidenza dovremo determinare i valori della media campionaria e della varianza campionaria sulla base del campione osservato xn= 5−17−7−3−7−9−613 −40 = = −4.44 9 9 Ricordando ora che la varianza si può esprimere come media dei quadrati delle determinazioni meno il quadrato della media, si ha n 2 S n= n n 1 n 1 n 1 2 2 X i − X n = X i − X n = ∑ ∑ ∑ X i − X n2= n−1 i=1 n n−1 i=1 n−1 n i=1 [ n n 1 = X 2i − X 2 ∑ n−1 n i=1 ] e quindi la varianza campionaria corretta osservata sarà data da 47 9 s= 8 2 n = {[ ] } 52−172−72−32−72−92−62123 2 −4.44 2 = 9 9 548 9 −19.75 = 41.13=46.28 ⇒ s n= s 2n= 46.28=6.803 8 9 8 inoltre 1−=0.99 ⇒ =0.005 ⇒ t 0.005,8=3.355 2 Dunque, la stima dell'intevallo di confidenza richiesto è { −4.44−3.355 } 6.803 6.803 ≤≤−4.443.355 ≡ {−12.05≤3.17} 9 9 48 C2. Verifica delle ipotesi In questa sezione sono proposti test sui parametri di una popolazione normale. In tutti gli esercizi proposti si ipotizza che la/le popolazione/i dalla/e quale/i si effettua il campionamento sia/siano normale/i. Esercizio 1C2. Una macchina per il riempimento delle buste di patatine ha uno scarto quadratico medio di 6 grammi e una media incognita. La macchina è stata costruita per un riempimento medio delle buste di patatine di 100 grammi. Per verificare la conformità del riempimento a quello previsto dalle specifiche costruttive si estrae un campione di 100 buste ottenendo un contenuto medio di 99 grammi. Effettuare un test delle ipotesi per stabilire se il riempimento medio di 100 grammi è accettabile al livello di significatività 0.05. Il test da effettuare riguarda la media di una normale X ~ N ,6 di cui è nota la varianza. Si deve sottoporre a test l’ipotesi H 0 : =0 =100 contro H 1 : ≠0=100 come previstodalle specifiche costruttive Il test è quindi bidirezionale, la statistica test da utilizzare è la media campionaria X che sotto l'ipotesi H 0 si distribuisce come una normale X ~N 0 , n e la regione critica “migliore” di ampiezza α è così definita: RC : { X ≤0−z 1− 2 }{ ∪ X 0 z 1− n n 2 } nella quale z 1− /2 è il quantile di ordine 1− / 2 della normale standardizzata Z. Nel nostro caso quindi la regione critica è così individuata RC : { X ≤100−1.96 }{ } 6 6 ∪ X ≥1001.96 ≡ { X ≤98.82}∪{ X ≥101.76 } 100 100 di conseguenza la regione di non rifiuto dell'ipotesi nulla è data da RC : {98.82 X 101.76 } Il valore osservato della media campionaria è pari a 99 che appartiene alla regione di non rifiuto per cui possiamo concludere che, sulla base delle risultanze campionarie non possiamo rifiutare quanto affermato nelle specifiche costruttive. Vogliamo a questo punto aggiungere che la regione critica individuata può anche essere scritta, effetuando delle semplici trasformazioni, come segue 49 RC : { { X ≤0−z 1− 2 ⇔ X −0≤−z ⇔ { X −0 n 1− 2 ≤−z }{ }{ } } ∪ X 0 z 1− n n 2 1− 2 ∪ X −0≥z 1− n n 2 }{ ∪ X −0 n ≥z 1− 2 } ⇔ ⇔ nella quale la statistica test è data da Z= X −0 n ~ N 0,1 e di conseguenza si rifiuterà l'ipotesi nulla se il suo valore calcolato in corrispondenza del campione osservato cade nella regione critica. Dato che Z c= 99−100 =−1.67−1.96 6 10 non rifiutiamo l'ipotesi nulla. Esercizio 2C2. Su un campione di giovani fra i 20 e 25 anni è stato rilevato X:=“numero di libri letti in un anno” ottenendo i seguenti risultati campionari Numero di libri letti 4 5 5 2 6 1 4 Si può confutare l’ipotesi di un editore che il numero medio di libri letti è 2 con un livello di significatività di 0.05? Si deve effettuare un test sul valore medio di una popolazione la cui varianza è incognita. Se ipotizziamo che X è distribuita normalmente con una media µ e una varianza σ2, bisognerà effettuare un test delle ipotesi sulla media di una normale di varianza incognita; le ipotesi da mettere a confronto sono H 0 : =0 =2 contro H 1 : ≠0=2 come affermato dall'editore in questo caso, poiché la varianza della popolazione non è nota, la regione critica “migliore” è data da { RC : T −t 2 ,n −1 }∪{T t } , n−1 2 nella quale la statistica test T che, sotto l'ipotesi H 0 si distribuisce come una t di Student con n-1 50 gradi di libertà, è così definita T= X −0 S n in cui S è la varianza campionaria corretta, inoltre t /2 ,n−1 è il quantile di ordine 1− / 2 della t di Student con n-1 gradi di libertà; nel nostro caso la regione critica sarà data: { RC 0.05 : T = }{ X −2 X −2 −2.447 ∪ T = 2.447 S S n n } Per effettuare il nostro test dovremo determinare il valore che la statistica test assume dato il campione osservato; i valori osservati di media campionaria e varianza campionaria corretta sono x= 4552614 =3.857 7 [ ] [ ] 7 42 525 22 26 21242 7 123 2 2 s= −3.857 = −3.857 =3.143 ⇒ s=1.773 6 7 6 7 2 e quindi T c= 3.857−2 1.857 = =2.77 1.773 0.67 7 Poiché il valore campionario della statistica test appartiene alla regione critica in quanto è maggiore del punto critico possiamo rifiutare l'ipotesi nulla. Se il quesito posto fosse stato L'editore afferma che il numero medio di libri letti è 2 mentre il responsabile dell'ufficio vendite è convinto che in media si leggono più di 2 libri, è possibbible confutare l'affermazione dell'editore al livello di significatività di 0.05? In questa situazione le ipotesi da mettere a confronto sono H 0 : =0 =2 contro H 1 : ≠02 come affermato dall'editore come affermato dal responsabile delle vendite e la regione critica è data da RC : {T t , n−1} ⇒ RC 0.05 : {T 1.943 } anche in questo caso, come era da attendersi, il valore campionario della statistica test appartiene alla regione critica e quindi si può rifiutare l'ipotesi che in media si leggono 2 libri. 51 Esercizio 3C2. In un campione di pazienti trattati con una terapia per l’abbassamento del colesterolo si sono osservati i seguenti valori di colesterolo in milligrammi per 100 millilitri di sangue: 130 145 128 169 132 138 141 153 129 135 140 Sapendo che in una popolazione di persone sane la quantità di colesterolo in media è pari a 130 cosa fareste per stabilire se la terapia adottata ha avuto effetto? SOLUZIONE UGUALE AL PRECEDENTE ESERCIZIO Le ipotesi da sottoporre a test sono H 0 : =0 =130 contro H 1 : ≠0130 colesterolo per persone sane colesterolo alterato la regione critica è data da: RC : {T t , n−1} ⇒ RC 0.05 : {T 1.812 } T c= 140−130 10 = =2.714 12.22 3.684 11 Il valore campionario della statistica test appartiene alla regione critica, quindi rifiutiamo l'ipotesi nulla. Possiamo concludere che, al livello di significatività di 0.05, la cura non ha avuto effetto sui pazienti. Esercizio 4C2. Per un’indagine sul lavoro femminile sono state rilevate le ore lavorate giornalmente di un campione di 60 lavoratrici residenti in Toscana e di un campione di 45 lavoratrici residenti in Lombardia. I risultati sono i seguenti: Regione Toscana Lombardia Media Varianza Campionari campionaria a 5.5 4 6.5 9 Numerosità campionaria 60 45 Verificare se le osservazioni campionarie possono suffragare l’ipotesi che in Toscana ci sia una tendenza maggiore all’uso del part-time (α=0.05). Precisiamo innanzitutto che assumeremo i valori osservati delle varianze campionarie come stime delle varianze campionarie corrette, inoltre ipotizzeremo che le due popolazioni hanno la stessa varianza (ipotesi di omoschedasticità) e che i due campioni siano indipendenti. Con queste premesse il “migliore” stimatore della varianza comune è dato da: 52 S 2n ,m = S 2T⋅n−1S 2L⋅ m−1 nm−2 nella quale i pedici T :=Toscana e L:=Lombardia stanno ad indicare, qui e nel seguito, a quale delle due popolazioni si riferiscono gli indici, n è la numerosità campionaria per la Toscana e m quella della Lombardia ed infine S 2T e S 2L sono le varianze campionarie corrette. Per dare risposta al quesito posto bisogna effettuare un test di confronto tra le medie delle due popolazioni, ovvero mettere a confronto le ipotesi H 0 : T = L ⇔ H 0 : T − L =0 contro H 1 : T L ⇔ H 1 : T −L 0 nessuna differenza tra le regioni più part-time in Toscana (ovvero numero medio di ore lavorate inferiore) La statistica test da utilizzare in questo caso è la seguente T= X T − X L −T − L S n,m che sotto l'ipotesi H 0 diventa T= 1 1 n m X T− X L S n ,m 1 1 n m che si distribuisce come una t di Student con n+m-2 gradi di libertà; la regione critica per effettuare il test richiesto al livello α è data da RC : {T −t , nm−2 } che nel caso in esame diventa RC 0.05 : {T −t 0.05,103}≡{T −1.66 } La statistica test, calcolata sul campione osservato, è così determinata 60−1⋅445−1⋅9 632 = =6.136 ⇒ s n.m=2.477 6045−2 103 5.5−6.5 −1 T c= = =−2.047 1 1 0.488 2.477⋅ 60 45 s 2n.m= Poiché il valore campionario della statistica test appartiene alla regione critica possiamo rifiutare l'ipotesi nulla a favore dell'ipotesi alternativa; possiamo qundi affermare, al livello di significatività di 0.05, che in Toscana vi è una maggiore propensione delle lavoratrici al part-time che in Lombardia. 53 Esercizio 5C2. Si supponga di voler comparare la durata media delle lampadine prodotte da due fabbriche e di disporre delle seguenti informazioni campionarie Fabbrica A Fabbrica B Numerosità 100 80 Durata media (ore) 107 122 S /n 22 10 nella quale S / n è la deviazione standard (o errore) della media campionaria. Sottoporre a test l’ipotesi di uguaglianza fra le medie al livello di significatività 0.01 L’ESERCIZIO È SIMILE AL PRECEDENTE. Le ipotesi da sottoporre a verifica sono in questo caso H 0 : A= B ⇔ H 0 : A− B=0 contro H 1 : A≠B ⇔ H 1 : A−B ≠0 nessuna differenza di durata differenza di durata Ipotizzando, come nell'esercizio precedente, l'uguaglianza delle varianze delle due popolazioni, lo stimatore della varianza comune è dato da S 2 n ,m S 2A⋅ n−1S 2B⋅m−1 = nm−2 nella quale S 2A e S 2B si determinano, sulla base delle informazioni fornite, nel modo seguente 2 A S = 2 B S = 2 SA ⇒ S A= ⋅m ⇒ S B= n 2 SB m ⋅n SA n SB m ⋅ n ⋅ m e quindi le corrispondenti stime nel nostro caso sono s A = 22 ⋅100=484⋅100=48400 2 2 s B = 10 ⋅80=100⋅80=8000 2 2 Di conseguenza la stima della varianza comune è s 2n.m= 100−1⋅4840080−1⋅8000 5423600 = =30469.66 ⇒ sn.m =174.55 10080−2 178 La statistica test è la stessa dell'esercizio precedente e, tenendo conto che in questo caso il test è bilaterale, la regione critica è data da RC 0.01 : {T −t 0.005,178 }∪{T t 0.005,178 }≡{T −2.58 }∪{T 2.58 } Il valore della statistica test corrispondente alle informazioni campionarie è 54 107−122 T c= 174.55⋅ 1 1 100 80 = −15 =−0.57 26.33 poiché tale valore non appartiene alla regione di rifiuto si deve concludere che le risultanze campionarie non ci permettono di rifiutare l’ipotesi nulla: cioè non possiamo rifiutare l'ipotesi che la durata media delle lampadine delle due fabbriche sia la stessa. Esercizio 6C2. Si è misurata la durata in ore delle pile prodotte da due diverse industrie su due campioni casuali estratti dalla produzione di pile delle due marche, i risultati campionari sono riportati nella tabella che segue: Marca A Marca B 1094 1159 1137 1224 1161 1153 1092 1229 1123 1260 1084 Stabilire attraverso un test di ampiezza 0.05 se vi è differenza fra la durata delle pile delle due marche. Il problema è del tutto simile al precedente tranne per il fatto che bisognerà stimare le medie e la varianza comune sulla base delle informazioni campionarie. 109411371161109211231084 =1115.167 6 11591224115312291260 xB = =1205 5 xA = 6 n−1⋅s 2A=∑ x i− xA 2=4594.83 i=1 5 m−1⋅s2B=∑ x i − xB 2 =8782 i =1 e di conseguenza 2 s n.m= 4594.838782 13376.83 = =1486.314 ⇒ sn.m =38.55 65−2 9 anche in questo caso le ipotesi da porre a confronto sono H 0 : A= B ⇔ H 0 : A− B=0 contro H 1 : A≠B ⇔ H 1 : A−B ≠0 nessuna differenza nelle durate medie differenza tra le durate medie e la regione critica è data da RC 0.05 : {T −t 0.025,9 }∪{T t 0.025,9}≡{T −2.262}∪{T 2.262 } Il valore della statistica test corrispondente alle informazioni campionarie è 55 T c= 1115.167−1205 −89.833 = =−3.848 23.34 1 1 38.55⋅ 6 5 che appartiene alla regione critica in quanto minore di -2.262 e quindi possiamo rifiutare, al livello di significatività 0.05, l'ipotesi che la durata media delle pile delle due marche sia uguale. 56