Prova scritta di Calcolo delle Probabilità e Statistica Matematica 26 Settembre 2013 1. I seguenti dati sono stati ottenuti da un generatore di numeri pseudocasuali gaussiano. Per comodità sono in ordine crescente: -2.08, -1.91, -1.20, -0.80, 0.28, 0.77, 1.06, 1.59, 1.81, 2.12, 2.55, 2.65, 2.82, 2.99, 3.95, 4.24, 6.45, 6.72, 6.92, 8.11. (a) Calcolare gli indici di posizione e commentarli opportunamente. (b) Costruire un istogramma. (c) Stabilire con un test chi-quadrato di adattamento se il campione ha effettivamente legge gaussiana. 2. Si tira cinque volte una moneta non truccata. Trovare le probabilità dei seguenti eventi: (a) I primi tre risultati sono uguali; (b) I primi tre risultati o gli ultimi tre risultati sono uguali; (c) Vi sono almeno due teste nei primi tre lanci ed almeno due croci negli ultimi tre lanci. Soluzioni prova scritta di Calcolo delle Probabilità e Statistica Matematica 26 Settembre 2013 1. (a) Gli indici di posizione sono la media, la mediana e la moda. La media si ottiene sommando tutti i dati e dividendoli per la taglia del campione casuale (20), ossia x = −2.08 + L + 8.11 = 2.45 . La 20 mediana è quel valore, non necessariamente appartenente al campione casuale, tale da dividere il campione in due parti uguali, poiché gli elementi centrali sono 2.12 e 2.55, la mediana è il punto medio tra i due, ossia 2.335. Infine la moda è quel valore che appare più spesso nel campione casuale: in tal caso non esiste, ma è possibile fornire come moda il punto medio della classe dell’istogramma con frequenza assoluta maggiore. Pertanto questo valore verrà calcolato al prossimo punto, nel quale verrà discussi anche il significato di tali indici. (b) Per la costruzione dell’istogramma è necessario ripartire il campione in classi. A questo scopo si calcola il campo di variazione (massimo dei dati – minimo dei dati = 10.19) e si divide tale valore per il numero delle classi m (regola empirica m = 20 = 4.47 che viene approssimato a 5) . Pertanto l’ampiezza di ciascuna classe risulterà 10.19/5=2.038 che viene approssimata a 2.1. Le 5 classi contingue coprono un intervallo di ampiezza 10.5 maggiore di 10.19. Pertanto la differenza 10.5-10.19=0.31 va equamente ripartita tra la prima e l’ultima classe. La prima classe ha estremo sinistro pari al minimo dei dati (-2.08) – 0.31/2, ossia -2.235, estremo al quale va aggiunta l’ampiezza della classe 2.1, ottenendo -0,135. Allo stesso valore va aggiunta l’ampiezza 2,1 ottenendo 1,965 e così via. Alla fine le classi costruite sono riportate in tabella: (-2,235;-0,135) (-0,135; 1,965) (1,965; 4,065) (4,065; 6,165) (6,165; 8,265) 4 5 6 1 3 L’istogramma risulta essere: freq.ass 7 6 5 4 freq.ass 3 2 1 0 -1,185 0,915 3,015 5,115 7,215 Pertanto la classe modale è quella centrale e il valore della moda risulta essere il centro 3,015. I tre indici di posizione risultano essere diversi tra di loro, e quindi la distribuzione è asimmetrica, con una coda destra. (c) Per effettuare il test chi-quadrato è necessario completare la tabella di cui sopra con una colonna, quella delle frequenze attese, per ciascuna classe. Le frequenze attese si ottengono moltiplicando la taglia del campione casuale per la probabilità che la variabile aleatoria, che descrive la popolazione da cui il campione è estratto, appartenga a quella classe. Per calcolare tale probabilità usando le tavole statistiche è necessario calcolare oltre alla media anche la varianza campionaria, ossia s 2 = (−2.08 − x )2 + L + (8.11 − x ) 2 = 8.75 e quindi la deviazione standard 19 s = 8.75 = 2.95 . Le classi standardizzate sono state inserite in tabella: Prob Freq.att Freq.oss Diff -1,58417 -0,87438 0,190954 3,819089 4 0,00857 -0,87438 -0,1646 0,243674 4,873484 5 0,003284 -0,1646 0,545181 0,272557 5,451133 6 0,055265 0,545181 1,254963 0,188069 3,761372 1 2,027232 1,254963 1,964745 0,104746 2,094922 3 0,391025 2,485376 2 2 Il quantile di confronto nel test è χ 0.05;5 − 2 −1 = χ 0.05;2 = 5.99 ; pertanto essendo maggiore del valore della statistica test, l’ipotesi di legge gaussiana sulla popolazione non si rigetta. 2. Per risolvere l’esercizio conviene elencare i punti campionari dello spazio campione, in numero di 2^5=32, poiché per ogni estrazione ci sono due scelte. Lo spazio campione è S={TTTTT, TCCCC, CTCCC, CCTCC, CCCTC, CCCCT, CCCTT, TCCCT, TTCCC, CTTCC, CCTTC, CCTCT, TCCTC, CTCCT, TCTCC, CTCTC, CCTTT, TCCTT, TTCCT, TTTCC, CTTTC, CTCTT, TCTCT, TTCTC, CTTCT, TCTTC, TTTTC, CTTTT, TCTTT, TTCTT, TTTCT, CCCCC}. La risposta al primo quesito è la probabilità dell’evento A=”i primi tre risultati sono uguali”= {TTTTT, CCCTC, CCCCT, CCCTT, TTTCC, TTTTC, TTTCT, CCCCC}, ossia P(A)=|A|/|S|=8/32. La U B) = P( A) + P( B) − P( AI B) dove B=”gli ultimi tre risultati risposta al secondo quesito è P( A sono uguali”={TTTTT, TCCCC, CTCCC, TTCCC, CCTTT, CTTTT, TCTTT, CCCCC}. Pertanto anche I B = {TTTTT,CCCCC} e dunque P( AI B) =| AI B | / | S |= 2 / 32 . P(B)=|B|/|S|=8/32. Invece A U B) = 14 / 32. La risposta all’ultimo quesito è Pertanto P( A data dalla probabilità dell’evento C I D dove C=”almeno due teste nei primi tre lanci” e D=”almeno due croci negli ultimi tre lanci”. Siccome è C I D ={TTCCC, CTTCC, TCTCC, TTCCT, TTTCC, TTCTC} la probabilità cercata è 6/32.