Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. SCIENZE NATURA LI - MODULO DI STATISTICA A.A. 2011/12 – Esercizi di Probabilità e Statistica NOTA: gli esercizi seguenti sono da svolgere in preparazione dell'esame del modulo di Statistica, ma alcuni sono pensati da svolgere con l'ausilio di strumenti di calcolo o di software superiori a quelli richiesti per la prova scritta. 1. Se in una specie animale le nascite di maschi e femmine hanno la stessa probabilità e se ogni nascita non influenza le altre, qual è la probabilità che di otto figli, cinque siano femmine e tre maschi? E quella che le femmine siano almeno cinque? {1,2} sulla diversa dalla probabilità di vincere giocando l'ambo {31, 49 } ? 2. Qual è la probabilità di vincere giocando l'ambo ruota di Milano? E' 3. Se si gioca un ambo su tutte e dieci le ruote del lotto, si vince se esce in almeno una di esse. Qual è la probabilità di vincere? (Suggerimento: si calcoli prima la probabilità di non vincere). 4. Un mazzo di carte piacentine da briscola è composto da quattro "semi" di 10 carte ciascuna: asso, due, tre, quattro, cinque, sei, sette, fante, cavallo, re. I semi sono: denari, coppe, spade e bastoni. Ad un giocatore sono date tre carte. Che probabilità c'è che siano tre re? E che siano un re, un fante ed un asso? O che siano di tre semi diversi? 5. La densità di probabilità di una grandezza è una gaussiana di media µ = 6 e deviazione standard ! = 1 . Qual è la probabilità di trovare una grandezza di misura inferiore a 4? 6. In un pollaio ci sono 12 anatre, 15 galline faraone, 16 galline e 9 tacchini. Si traccino diagrammi a colonne, a torta e a ideogrammi per illustrare questi dati. 7. Secondo la formula di Poisson, se la media delle misure di una grandezza è m = 9, che probabilità c'è di trovare una misura uguale a 7? 8. Mediante alcuni esperimenti sono state ricavate le seguenti coppie di dati: x !2 !1 0 1 2 3 . y 3 4 5 6, 5 8 10, 5 Si provi dapprima a calcolarne il polinomio interpolatore, (di 5° grado). Si trovi poi la retta di regressione ed il coefficiente di correlazione. Infine, passando per un diagramma semilogaritmico, si trovi la Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. regressione esponenziale y = a ! em!x ed il coefficiente di correlazione. Quale dei tre modelli sembra "migliore" per rappresentare matematicamente i dati? 9. Mediante alcuni esperimenti sono state ricavate le seguenti coppie di dati: x !2 !1 0 1 2 3 . Si trovi la retta di regressione ed il coefficiente di y !5 !2 0 2 3 4 correlazione. Seguendo poi il procedimento geometrico illustrato negli appunti, si provi a trovare anche la regressione quadratica y = a ! x2 + b ! x + c . Si riporti poi il tutto su un grafico cartesiano. 10. A due gruppi di volontari malati di una stessa patologia sono stati somministrati un farmaco ed un placebo (ossia uno pseudo-farmaco senza principio attivo). Il farmaco è stato somministrato a 60 pazienti e ne sono migliorati 42. Il placebo invece è stato somministrato a 54 pazienti e ne sono migliorati 20. Qual è la probabilità che l'effetto sia lo stesso, ossia che il farmaco sia inutile? 11. Un conteggio di ragnatele in una vecchia ala di 10 aule di una scuola ha dato il risultato seguente. La distribuzione è da considerarsi casuale? aula 1 2 3 4 5 6 7 8 9 10 ragnatele 78 18 64 24 30 70 59 10 15 22 . 12. Decidiamo di "investire" denaro giocando al lotto su un numero fisso (il 30) sulla ! ruota di Genova. Il "budget" a disposizione è 50.000 euro. In caso di uscita del nostro numero (a proposito, che probabilità ha?) la Sisal paga 11,2 volte l'importo che abbiamo giocato: se puntiamo un euro, ne vinceremmo 11,20, quindi il guadagno netto è 10,20 euro. Decidiamo però di non volere guadagnare, ma solo di non rimetterci, perciò cominciamo con un euro e, se non esce per 11 volte, la dodicesima aumentiamo la giocata in modo che in caso di vincita recuperiamo per intero la somma spesa fino a quel momento (12 euro). E così ci comporteremo anche nelle giocate successive finché non vinceremo o fino a che avremo denaro sufficiente. Se siamo sfortunati, dopo quante giocate al massimo dovremo interrompere il gioco perché non abbiamo più denaro sufficiente per la giocata successiva? E se volessimo guadagnare alla fine 10,2 ? 13. Si stabilisca la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino” di G. Carducci (1835-1907) (professore ordinario a Bologna e premio Nobel per la lettereratura). (Suggerimento: si scriva il testo in Word e una per una si sostituiscano le 21 lettere con il simbolo =; automaticamente Word fornisce il numero di sostituzioni). Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. Rispo ste 1. Secondo la formula di Bernoulli, la probabilità di cinque femmine e tre maschi è !8 $ ! 1 $5 ! 1 $3 !8$ # &'# & '# & = # & # 5& # 2 & # 2 & #3& " % " % " % " % ! 1$ 8 8'7'6 7 ' ## && = = = 0,21875 ( 21,9% . La probabilità che 2 3' 2 '1 ' 256 32 " % almeno cinque siano femmine, oltre al caso precedente, comprende anche sei, sette 1 256 od otto femmine, quindi, ricordando ! n$ ! n $ # & =# & # k& # n ' k& , " % " % che si ottiene: " "8 % "8% "8% "8% % 56 + 28 + 8 + 1 93 ! $$ $$ '' + $$ '' + $$ '' + $$ '' '' = = ( 36, 3% 256 256 # # 3& #2& #1& #0& & 2. La probabilità di un ambo su una ruota si calcola prendendo come spazio ! 90 $ campionario l'insieme delle cinquine possibili, che sono ## && e considerando come " 5% evento l'uscita di una cinquina con i due numeri che abbiamo giocato: queste devono avere oltre ai nostri due numeri, altri tre fra i 90-2 = 88 rimanenti, ossia ce !88 $ ne sono ## && . Pertanto la probabilità di vincere giocando un qualunque ambo è: " 3% !88 $ # & # 3& " % !90 $ # & = 88 ' 87 ' 86 ' 5' 4 ' 3' 2 '1 = 5' 4 = 10 ( 0,25% . # 5 & 3 ' 2' 1' 90 '89 ' 88 ' 87 ' 86 90 ' 89 4005 " % Un a p pr occ io alte r nativ o : il primo numero deve essere uno dei cinque numeri estratti sui 90 disponibili, quindi ha probabilità 5/90 di uscire; se esce, il secondo deve essere uno degli altri quattro numeri estratti sui restanti 89, quindi ha probabilità 4/89. Pertanto, la probabilità è: 5 4 10 . ! = 90 89 4005 3. Calcoliamo la probabilità dell'evento complementare, ossia la non uscita del nostro ambo su nessuna delle 10 ruote. Dall'esercizio precedente, su ogni ruota la probabilità di non uscita è 1 ! influenza quello sulle 10 3995 = " 99,75% . Il risultato su una ruota non 4005 4005 altre, perciò la probabilità di perdere è pari a ! 3995 $ 10 # & ' 97,53% . Dunque, la probabilità di vincere è 100 ! 97, 53 % " 2, 47% . # 4005 & " % ( ) 4. Dal testo appare chiaro che ogni carta estratta non viene rimessa nel mazzo. Ciò posto, la probabilità che prima carta sia un re è 4/40 = 1/10; se la prima è un re, la probabilità che lo sia anche la seconda è 3/39 = 1/13; se le prime due sono dei Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. re, la probabilità che lo sia anche la terza è 2/38 = 1/19. Dunque, la terna di tre re 1 1 1 1 ! ! = " 0, 04% . (Un a pp r occi o alt er n ativo : le terne 10 13 19 2470 ha probabilità ! 40 $ ! 4$ ! 4$ possibili sono ## && ; quelle formate da tre re sono ## && = ## && = 4 ; allora la probabilità di tre " 3% " 3% " 1% ! 40 $ 4'6 1 = re è 4 ## && = ). Ragionando come sopra, se l'ordine di estrazione 3 40 ' 39 '38 2470 " % è (re, fante, asso) il re ha probabilità 4/40, il fante 4/39 e l'asso 4/38, quindi 4 !4!4 4 = " 0,1% . Se invece l'ordine di estrazione non ha importanza, ma 40 ! 39 !38 3705 contano le tre carte che il giocatore ha in mano, allora occorre moltiplicare per 3! = 6, ottenendo 4 8 !6 = " 0, 65% . 3705 1235 (U n ap pr occ io alte r nat ivo : ci sono 43 = 64 terne ordinate costituite ciascuna da un re, un fante ed un asso; le terne non ordinate di carte ! 40 $ # & # 3& " % sono e quindi abbiamo, come sopra, ! 40$ 64 ' 6 8 64 ## && = = ). Nell'ultimo caso, la prima carta è indifferente 3 40 '39 ' 38 1235 " % (probabilità = 1), la seconda deve essere una delle 30 su 39, di seme diverso dalla prima (30/39 = 10/13), e la terza una delle 20 su 38, di seme diverso dalle prime due (20/38 = 10/19); ne segue 1! 10 10 100 ! = " 40,5% . 13 19 247 alte r nativ o : una terna con tre semi diversi, quindi uno escluso, ha 10 (Un 3 app ro cci o possibili scelte; poiché le scelte del seme escluso sono 4, ci sono 4000 terne possibili con tre semi ! 40 $ 4000 ' 6 100 = diversi. Ne segue 4000 ## && = ). " 3 % 40 ' 39 '38 247 5. La funzione gaussiana di media µ = 6 e scarto quadratico medio σ = 1 ha equazione: y= 1 2! # 1 x#6 "e 2 ( ) 2 . E' noto che nell'intervallo [µ ! 2", µ + 2"] = [4, 8 ] è racchiuso circa il 95% dell'area tra la gaussiana e l'asse x, (più precisamente, il 95,45%) che ] ] in totale vale 1; pertanto, per simmetria, nell'intervallo !", 4 è racchiusa metà dell'area residua, ossia 1 1 ! 0, 95 = 0,025 ; allora la probabilità dell'evento !", 4 , 2 ( ) ] ] ossia di trovare un dato di misura minore di 4 è del 2,5%. (Più precisamente, la probabilità è p(E) ≈ 2,275%). Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. 6. Per rappresentare 12 anatre, 15 faraone, 16 galline e 9 tacchini del pollaio mediante istogrammi possiamo servirci di carta millimetrata o di un banale software da disegno o Excel. Per un diagramma a torta occorre calcolare il totale del pollame, ossia 52, poi (se si lavora in gradi) fare le 4 proporzioni: per le anatre, 12:52 = x:360, da cui x ! 83° ; idem per gli altri tre tipi di animali da cortile (o ne bastano altri due?) ed infine col goniometro o con software apposito tracciare un cerchio e i quattro angoli al centro trovati. Oppure, con Excel si fa in automatico ed è calcolata la percentuale di ogni categoria sul totale. Per gli ideogrammi, occorrerebbe trovare una figurina per ciascuno dei quattro tipi di pollame e ripeterla tante volte quant'è il numero di capi. Potete provare per divertimento! 7. La formula di Poisson, dice che la probabilità che una variabile aleatoria x di media ( ) m sia uguale ad un valore h è p x = h = m h #m 97 #9 " e . Allora, p x = 7 = "e $ 0,117 . h! 7! ( ) x !2 !1 0 1 2 3 ! y 3 4 5 6, 5 8 10, 5 8. Il polinomio interpolatore della tabella ! è del tipo y = a5 " x5 + a 4 " x4 + a3 " x3 + a 2 " x2 + a1 " x + a 0 . Si impone il passaggio di questa curva per i sei punti ! ("2, 3), ( ) K , 3, 10.5 , ottenendo un sistema lineare di sei equazioni nelle sei incognite a 0,K, a5 . Chi, come me, preferisce i calcoli in forma simbolica, al posto ! di 6,5 si scriva 13/2, e al posto di 10,5 si scriva 21/2. ! Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. # "32a + 16a " 8a + 4a " 2a + a 5 4 3 2 1 0 % "a5 + a 4 " a3 + a 2 " a1 + a 0 % % a0 $ a5 + a 4a3 + a 2 + a1 + a 0 % % 32a + 16a + 8a + 4a + 2a + a 5 4 3 2 1 0 % &243a5 + 81a 4 + 27a3 + 9a 2 + 3a1 + a 0 $#32 16 #8 4 #2 1 =3 3 ' & ) =4 4 ) & #1 1 #1 1 #1 1 & 0 =5 0 0 0 0 1 5 ) "C=& ) = 13 2 1 1 1 1 1 13 2) & 1 & 32 16 8 4 2 1 =8 8 ) & ) = 21 2 %243 81 27 9 3 1 21 2( Il sistema si risolve applicando alla matrice C l’algoritmo di Gauss-Jordan (conviene ! prima scambiare di posto la prima e la quarta riga e poi portare la terza riga all’ultimo ! posto)(1). Alla fine si ottiene il polinomio y = 1 5 1 4 5 3 7 2 4 x " x " x + x + x + 5 . La 48 24 48 24 3 retta di regressione si ottiene invece come indicato nel cap. 3: "x = ! 19 1 105 # = $ 1,7078 $ 1,7 . Poi, y = 37 6 " 6,17 e " y = 6 4 6 Infine, c xy = 44 6 " 37 12 = 17 4 = 4,25. ! 230 # 2,5276 # 2,53 . 6 ! ! & 2 17 36 51 # = $ 1, 457 (( m = c xy " x = 4 105 35 * y = 1, 457x + 5, 438 . Allora la retta è: ' ! (q = y % m # x = 37 % 51 # 1 = 571 $ 5, 438 () 6 35 2 105 ! Il coefficiente di correlazione è r= c!xy 17 6 6 = # # $ 0, 9845 . "x # "y 4 105 230 Infine, ! per calcolare la regressione esponenziale, facciamo uso di un diagramma semilogaritmico, sostituendo ai dati y i loro logaritmi: x "2 y# = ln y () "1 0 1 2 3 1,10 1,38 1, 61 1,87 2, 08 2,35 . Allora y" # 1,73, " y# $ 0,5 e c xy" # 0,72 . Ne ! x = 1 2 = 0,5 ; segue y" = 0,246x + 1, 61, con r " 0, 999 . ! ! ! Allora, y = e1,61 " e0,246x # 5 " e0,246x . ! ! I grafici sono eseguiti con Geogebra : in rosa il polinomio interpolatore; in nero la retta e ! in blu l’esponenziale. Quest’ultima approssima meglio i dati rispetto alla retta. (1) Esiste però una formula di Lagrange per calcolarlo. Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. 9. Nella tabella pertanto "y = ! x !2 !1 0 1 2 3 i dati x sono gli stessi dell’esercizio precedente, y !5 !2 0 2 3 4 x = 1 2 = 0,5 ; 58 1 # = 6 9 "x = 19 1 105 # = $ 1,7078 $ 1,7 . 6 4 6 86 $ 3, 09 . Infine, 3 ! c xy = ! Imponiamo ora che il vettore Y’-Y sia perpendicolare ! !ai vettori T,!X, U, ! ponendo = 0 il loro prodotto scalare. Otteniamo il sistema: % T " Y# $ Y = 0 ' ' & X " Y# $ Y = 0 ) ' '( U " Y# $ Y = 0 ( ( ( ) ) ) % T " Y# = T " Y ' & X " Y# = X " Y . ' U " Y# = U " Y ( Sostituiamo Y" = a # T + b # X + c # U : $ T" T #a + T" X # b+ T" U #c = T" Y & & " T #a + X " X # b+ X " U #c = X " Y . % X! & &' U " T # a + U " X # b + U " U # c = U " Y ( ( ( ) ) ) ( ( ( ) ) ) ( ( ( ) ) ) Ora eseguiamo quei prodotti scalari: ! "115a + 27b + 19c = 28 $ # 27a + 19b + 3c = 32 & $ 19a + 3b + 6c = 2 % " a = '1 4 $ # b = 283 140 . $ c = 4 35 % Pertanto, in forma approssimata abbiamo ! la retta y = 1,77x " 0,55 e la parabola y = "0,25x2 + 2, 02x + 0,114 . ! ! y= 1 " 0,33, 3 31 " 5,17. La retta di regressione ha 6 ! 31 36 62 1 62 1 58 " = # 1,77 , q = " # =" $ "0,55 , ed il coefficiente di 6 105 35 3 35 2 105 ! 31 6 3 " " # 0, 979 . Per trovare la parabola di regressione, correlazione è r = 6 105 86 ! ! #"2& "4% #"5& "1% % ( $ ' % ( $ ' "1( 1' "2( % $ % $1' ! % 0( $ ' % ( $1' 0 0 poniamo: X = % ( , T = X 2 = $ ' , Y = % ( , U = $ ' , Y" = a # T + b # X + c # U . % 1( $ 1' % 2( $1' % 2( $4' % 3( $1' % ( $ ' % ( $ ' $ 3' #9& $ 4' ! #1& quindi m = ! Poi, Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. 10. Dei due gruppi di volontari malati, col farmaco sono migliorati 42 e non migliorati 60-42 = 18; col placebo sono migliorati 20 e non migliorati 54-20 = 34. Abbiamo migliorati non m. totali farmaco 42 18 60 allora la seguente tabella di contingenza: . Se il placebo 20 34 54 totali 62 52 114 farmaco ha circa lo stesso effetto del placebo, la probabilità di miglioramento è 62/114, mentre quella di non miglioramento è 52/114. Allora, i numeri attesi nei ! migliorati non m. totali farmaco 32, 63 27,37 60 due casi sono: . La matrice delle differenze è placebo 29,37 24, 63 54 totali 62 52 114 # 9,37 "9,37& H " H0 = % (; "9,37 9,37 ' !$ ( eleviamo dividiamo per H0 : H " H0 ! ) 2 al (H " H0 ) quadrato: 2 $87,80 87,80' #& ), %87,80 87,80( poi $2, 69 3,21' : H0 # & ) e poi sommiamo: " 2 = 12, 45. C’è un %2, 99 3,56 !( solo grado di libertà, perciò dalla prima riga della tavola troviamo che la ! ! probabilità !di avere " 2 = 12, 45 è fuori tabella, ossia minore dello 0,005. Allora, come del resto era intuibile, l’ipotesi nulla è respinta ed il farmaco è efficace. ! 11. Valutiamo la distribuzione col test di Poisson calcolando il rapporto v/m tra varianza e media: m= ! 1 10 1 2 3 4 5 6 7 8 9 10 ( . Si ha: ) " 78 + 18 + ... + 22 = 39 ; ! $ 2 2 1 v= # && 78 " 38 + 18 " 38 + K + 22 " 38 10 " 1 % ( Allora ! aula ragnatele 78 18 64 24 30 70 59 10 15 22 ) ( ) ( ) 2' )) = ( 5960 * 662. 9 v " 16, 97 >> 1 , e quindi la distribuzione è di tipo aggregato. m 12. Questo non è un esercizio di Probabilità e neppure di Statistica, ma lo vediamo ! ugualmente, perché qualche attinenza ce l’ha e come esempio di creazione di un modello matematico per affrontare un problema. Per cominciare, osserviamo che la probabilità di uscita di un numero è 5/90 = 1/18, ma la Sisal paga 11,2 volte l'importo che abbiamo giocato. Ciò posto, poiché stabiliamo di uscirne alla pari, vediamo che cosa succede: fino alla undicesima giocata la vincita è superiore alla somma spesa fino a quel momento. Dalla dodicesima in poi dobbiamo aumentare man mano la quota. Infatti, la spesa totale di 12 euro sarebbe superiore alla eventuale vincita di 11,2 euro. Sia x la somma giocata alla dodicesima estrazione: la spesa è 11+x, la vincita eventuale 11,2⋅x, quindi abbiamo l’equazione Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. 11 + x = 11,2 " x # x = 11 $ 1, 07843 . 10,2 Per ottenere una formula generale, sia sn , n " 11 , la somma complessivamente giocata alla n-esima puntata. Allora alla ! successiva, detta x la somma puntata, si ha sn + x = 11,2 " x # x = ! sn +1 = sn + sn = sn 10,2 sn , quindi: 10,2 # 1 & 11,2 " %%1 + ) 1, 098 " sn (( = sn " 10,2 $! 10,2 ' Poiché s11 = 11 , allora s11+k = 11 "1, 098k . Supponiamo che il nostro numero non esca ! per varie volte; a che punto finiremo i 50.000 euro? Risolviamo l’equazione ! ( ) ln 4545, 45 ! 50000 50000 = 11 "1, 098 k # 1, 098k = $ 4545, 45 # k = $ 90 . 11 ln 1, 098 ( ) Pertanto, se il numero non esce per 90+11 = 101 estrazioni, avremo speso circa 49614 euro, ossia quasi tutto, e non avremo abbastanza denaro per un’ulteriore giocata. ! Per curiosità, se fossimo partiti con 115.000 €, li avremmo finiti dopo 110 giocate... Si può generalizzare ipotizzando di voler vincere qualcosa di più di quanto speso, diciamo m " sn + q , con m ≥ 1 e q ≥ 0. Sia s1 la somma giocata alla prima puntata. Alla n+1-esima si ha l’equazione: m " sn + q + x = 11,2 " x # x = ! m " sn + q , 10,2 ! m # sn + q 11,2 = m # sn + q # " sn +1 = 1, 098 # m # sn + q . 10,2 10,2 ! Poniamo ora s1 = 1, m = 1, q = 10,2 . Poniamo poi r = 1, 098 . Allora s2 = r " 1 + q , poi: " sn +1 = m # sn + q + ( ) ( ) ( ) ! s3 = r " s2 + q = r " r " 1 + q + q = r 2 + q " r " 1 + r , # & # & s4 = r "!s3 + q = r " %r 2 + q " r " 1 + r + q ( = r3 + q!" r " %1 + r + r 2 ( … ,! $ ' $ ' ( ( ! ) ) sn +1 = r n + q " r " ( ( ( ) n#1 $ i=0 ! ) ) ( ) rn # 1 r i = rn + q " r " = 11,2 "1, 098n + 0, 9955 r #1 L’equazione 11,2 "1, 098 x + 0, 9955 = 50.000 ha per soluzione x = 89,89. Per voler ! vincere appena 10,2€ i 50.000 € finiscono dopo solo 90 giocate. ! Ne segue che il denaro finisce tanto più in fretta quanto più m o q sono grandi, ossia quanto più siamo avidi … Modulo di Statistica per Scienze Naturali, A.A. 2011/112, esercizi per casa. 13. Per stabilire la frequenza delle 21 lettere del nostro alfabeto nella poesia “San Martino” di G. Carducci, 4 strofe di 4 versi ciascuna, seguiamo il suggerimento. Intanto vediamo il testo della poesia: La nebbia a gl’irti colli ma per le vie del borgo piovigginando sale, dal ribollir de’ tini e sotto il maestrale va l’aspro odor de i vini urla e biancheggia il mar; l’anime a rallegrar. Gira su’ ceppi accesi tra le rossastre nubi lo spiedo scoppiettando: stormi d’uccelli neri, sta il cacciator fischiando com’esuli pensieri, sull’uscio a rimirar nel vespero migrar. Ecco il risultato, escluso il titolo: a 31 b 6 c 14 d 10 e 29 f 1 g 9 h 2 i 40 l 27 m 8 n 13 o 22 p 10 q 0 r 27 s 19 t 12 u 7 v 5 z 0 Ecco qualche elaborazione e qualche grafico: Si contano 292 lettere (escluso il titolo), delle quali 129 sono vocali, il 44% del totale. La moda è la vocale “i”, seguita dalla “a” e dalla “e”. vocale frequenza a 31 e 29 i 40 o 22 u 7 Le consonanti più usate sono la “l” e la “r”. La “q” e la “z” non ci sono. NOTA: ci anche ben apostrofi. sono 8