STATISTICA E CALCOLO DELLE PROB. Mercoledì 17 novebre 2010 Prof. Cesare Svelto Tempo a disposizione 1 ora 50 min (25+25+20+20+20) 1A P.I. AA 2010/2011 Aula V.s.8 ore 13.15 Cognome e nome: ___________________________________ _____________________ Matricola e firma __ __ __ __ __ __ (stampatello) _____________________(firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (6+8+6+7+6 = 33p) (crocettare) N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una penalità. SOLUZIONI Esercizio 1 (tempo stimato 25 minuti) (svolgere su questo foglio e sul retro) 1) 1a) 1b) 1c) 1d) In una classe di scuola media 12 alunni maschi svolgono una gara sugli 80 metri piani, riportando i seguenti tempi di corsa: T = X [s] = 11.5 9.6 11.3 10.8 12.2 8.9 11.1 10.9 10.1 9.3 11.4 14.5 Si calcolino media e varianza campionaria del tempo di corsa, spiegando l’utilità di queste statistiche. Si costruisca un diagramma rami e foglie dai dati misurati. Si disegni l’istogramma della frequenza cumulativa, sia assoluta che relativa, dei dati. Si dia la definizione di percentile, si calcoli il 70-esimo percentile e si rappresenti il box-plot dei dati, riportando i calcoli fatti per ottenerne i valori significativi. 1a) media campionaria = x 1 n xi 10.97 s n i 1 n varianza campionaria = s 2 (x x) 2 i 2.21 s2 n 1 La media campionaria è uno stimatore non polarizzato del valor medio della popolazione che si sta campionando. Si può dimostrare che è uno stimatore più efficiente che non il singolo campione, in quanto presenta un errore quadratico medio inferiore. La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura del grado di dispersione della popolazione attorno alla media. i 1 1b) Disponendo di N dati si ottiene: Diagramma rami e foglie, con Rami Foglie 8 9 9 3 6 10 1 8 9 11 1 3 4 12 2 14 5 N = 12 5 _______ Pag. 1/8 Esercizio 1 (continua) Frequenza cumulativa 1c) 10 5 F. cumulativa relativa 0 8 9 10 11 Tempo [s] 12 13 14 8 9 10 11 Tempo [s] 12 13 14 1 0.5 0 1d) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari all’intero prima e dopo di Ik ). Il 70-esimo percentile ha indice I70% = (12+1)70 /100 = 9.1, quindi il 70-esimo percentile è pari a 70-esimo percentile = 11.4+(11.5-11.4)0.1 = 11.41 s Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I 12 dati ordinati sono X [s]: 8.9 9.3 9.6 10.1 10.8 10.9 11.1 11.3 11.4 11.5 12.2 14.5 La mediana è il 50-esimo percentile, per cui Imediana = (12+1)50 /100 = 6.5, quindi la mediana è pari alla media del sesto e del settimo dato. Mediana= (10.9+11.1)/2=11 s Il primo quartile è il 25-esimo percentile, con I1Q = (12+1)25 /100 = 3.25, quindi il primo quartile è dato da: primo quartile= 9.6+(10.1-9.6)0.25 = 9.725 s = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (12+1)75 /100 = 9.75, quindi il terzo quartile è compreso tra il nono e il decimo dato, per interpolazione otteniamo: terzo quartile= 11.4+(11.5-11.4)0.75 = 11.475 s = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 1.75 s I baffi si possono estendere fino a 1.5DIQ = 2.625 s, quindi fino a 9.725-2.625=7.1 s e 11.475+2.62514.1 s. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite: in questo caso sino al dato 1 (baffo inferiore) pari a 8.9 s, e sino al dato 11 (baffo superiore) pari a 12.2 s. Minimo dato=8.9 s Massimo dato=14.5 s 1 8 9 10 11 12 Tempo [s] 13 14 15 16 In figura sono riportati anche i punti sperimentali. _______ Pag. 2/8 Esercizio 2 (25 minuti) (svolgere su questo foglio e sul retro) 2a) 2b) 2c) 2d) Un docente universitario riceve mediamente 5 studenti a settimana, che richiedono spiegazioni o informazioni. Giustificando il tipo di distribuzione utilizzata, si calcoli la probabilità che in un singolo giorno si presenti almeno uno studente. Statisticamente il 70 % degli studenti venuti a ricevimento supera l’esame. Su 10 studenti venuti a ricevimento quanto vale la probabilità che almeno 9 superino l’esame? Il voto medio del corso è 24, con deviazione standard dei voti pari a 2. Quanto vale la probabilità che la media dei voti di un appello con 9 studenti sia maggiore di 25? Si valutano 10 anni di corso, per un totale di 1000 studenti. Considerando sempre il 70% come probabilità di superamento d’esame, quanto vale la probabilità che ci siano state più di 290 bocciature? 2a) Utilizziamo una distribuzione di probabilità poissoniana, supponendo che le visite degli studenti non siano correlate tra loro. e x La funzione di probabilità di una variabile poissoniana X vale f ( x) , x 0,1,2... x! il suo valor medio vale = e la sua varianza vale 2 = . Considerando che ci sono 5 giorni lavorativi a settimana, il valor medio vale = 5 studenti/settimana ∙ 1/5 settimana = 1 studente. La probabilità che arrivi almeno 1 studente in un giorno è uguale a 1 meno la probabilità che non ne sia arrivato nessuno e 0 1 e 1 e1 0.6321 =63.21 % P(x1)= 1 P( x 0) 1 0! 2b) Dato che ogni prova è un processo di Bernoulli, le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x studenti promossi su n segue la distribuzione binomiale, con probabilità di successo p =0.7 : n 10 9 P(9 successi su 10 prove ) p x (1 p) nx 0.7 (0.3)109 12.1% x 9 e dunque P(x=9)12.1 %. n n! avendo ricordato che e dunque x x!(n x)! 10 10! 10 =45 9 9!1! Viene richiesta la probabilità che almeno 9 studenti siano promossi, che vale quindi: P( x 9) P( x 9) P( x 10) 0.121 0.028 14.9% e dunque P(x9)14.9 %, avendo calcolato le probabilità come descritto in precedenza. 2c) Per calcolare la probabilità consideriamo la variabile “voto medio” X su 9 studenti. Il suo valor medio vale = 24 e la sua deviazione standard X n 0.67 . Calcoliamo quindi la probabilità per standardizzazione. 25 25 24 P z P( x 25) P z P( z 1.5) P( z 1.5) (1.5) 6.7% X 0.67 e dunque P(“voto medio”>25)6.7 %. 2d) Data la complessità del calcolo tramite la formula della binomiale, decidiamo di sfruttare l’approssimazione gaussiana. Il valor medio vale np = 10000.7 = 700. La varianza vale invece np(1-p)=210. _______ Pag. 3/8 L’approssimazione è valida in quanto np e n(1-p) sono entrambi molto maggiori di 1 (tipicamente si considera attendibile l’approssimazione per valori superiori a 5): in questo caso sicuramente l’approssimazione è molto buona. Calcoliamo quindi la probabilità tramite standardizzazione, considerando che più di 290 bocciature implica meno di 710 promozioni: 709.5 np 709.5 700 P( x 710) P z z P( z 0.656) 74.4% 14.49 np(1 p) e dunque P(“bocciature”>290)74.4 %. Il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità pari a 74.3%, praticamente identica al valore ottenuto con l’approssimazione effettuata. _______ Pag. 4/8 Esercizio 3 (20 minuti) (svolgere su questo foglio e sul retro) 3) L'inflazione si misura attraverso la costruzione di un indice dei prezzi al consumo, uno strumento statistico che misura le variazioni nel tempo dei prezzi di un insieme di beni e servizi, chiamato paniere. Il valor medio del prezzo di 1 kg di pane riportato nel paniere è 2.2 €/kg. Si registrano i valori di prezzo al pubblico in 20 negozi, ottenendo un valor medio pari a 2.5 €/kg e una varianza campionaria pari a 1 (€/kg)2: 3a) Si effettui un test statistico allo scopo di valutare se il prezzo riportato dal paniere debba essere aggiornato. Si impieghi un livello di significatività del 5 %. 3b) Si calcoli il valore P del test effettuato. 3c) Il numero di negozi inclusi nel campione da noi analizzato viene portato da 20 a 100 ottenendo comunque la stessa media e varianza campionaria. Si ripeta il test in queste condizioni. 3a) Facciamo un test t perché dobbiamo eseguire una verifica del valor medio con varianza non nota, il numero di gradi di libertà è = n – 1 = 19. La deviazione standard campionaria, è sC=1 k€. 1. Il parametro di interesse è il prezzo medio 2. H0: = 2.2 €/kg 3. H1: > 2.2 €/kg (il test è a un lato solo, in quanto vogliamo dimostrare che il prezzo di vendita al pubblico è superiore a quello indicato nel paniere) 4. livello di significatività richiesto = 0.05 (attenzione, su un solo lato) 5. La statistica di test è la statistica t: t 0 X X sX s/ n 6. Rifiutiamo H0 se t0 > t,19 = 1.729. (questo risultato si ricava dalla tabella dei punti percentuale della distribuzione t, con = 19 in corrispondenza di una probabilità = 0.05) 7. Calcoliamo quindi t0: t0 X X 2.5 2.2 1.34 sC sC / n 1 / 20 8. Conclusione: dato che t0 =1.34 < 1.729 non possiamo rifiutare l’ipotesi nulla con livello di significatività 0.05: non c’è abbastanza evidenza che l’ipotesi nulla sia falsa. Secondo questo test, quindi, non abbiamo abbastanza informazioni per dichiarare non attendibile il prezzo indicato nel paniere. 3b) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può ricavare direttamente dalla tabella dei valori della funzione cumulativa (della statistica t): tP,19 = t0 = 1.34, per cui valore ricavato è Pt 10 %. L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di significatività maggiore del 10 %. In questo caso con = 5 % non si è potuto rifiutare H0. 3c) La deviazione standard campionaria su un campione di 100 negozi è ancora sC=1 k€. La deviazione è ora sC sC / n 1 / 100 k€/kg 0.1 k€/kg . Ripetendo il test t, per = 99 gradi di libertà, si ha ora t0 X X 2.5 2.2 3 , mentre la soglia di accettazione diventa t,99 t,120 = 1.66. sC sC / n 1 / 100 In questo caso rifiutiamo l’ipotesi nulla concludendo che il prezzo di vendita del pane è effettivamente superiore a quello dichiarato dal paniere. _______ Pag. 5/8 Esercizio 4 (20 minuti) (svolgere su questo foglio e sul retro) 4) In un forno elettrico la resistenza riscaldante è da 2 k con incertezza estesa di 100 , corrispondente a un fattore di copertura del 95 %. La corrente che attraversa la resistenza viene misurata con un amperometro digitale a 3 cifre che fornisce la lettura di 1.31 A. 4a) Si ricavi il valore e l’incertezza standard della potenza elettrica (P) dissipata. 4b) Misurando, indipendentemente, la stessa potenza elettrica con un wattmetro che ha incertezza del 5 %, si è ottenuta la lettura Pw=3456.7 W. Si ricavi la misura di Pw, esprimendo l’incertezza standard in notazione concisa, e discuta la compatibilità tra le due misure indipendenti (P e Pw). 4c) Si ricavi la miglior stima (Pstima) della potenza elettrica considerata. 4a) L’incertezza estesa è U(R)=k×u(R)=100 con k=2 (95%) e dunque u(R)=50 e ur(R)=50/2000=2.5 %. La risoluzione dell’amperometro è I=0.01 A e allora u(I)=uq(I)=I/ 12 =2.9 mA e ur(I)=2.9/1310=0.22 %. L’equazione della misura è P=R×I2, relazione funzionale espressa come produttoria generalizzata delle variabili di ingresso R e I. Il valore della potenza elettrica è P=R×I2=2000×(1.31)2=3432.2 W, con una incertezza relativa ur(P)= u r2 ( R) 4u r2 ( I ) = 6.25 0.19 %= 6.45 %2.5 % e dunque una incertezza standard u(P)=ur(P)×P=87 W. Infine P=343287 W=3.432(87) kW. 4b) Nella misura con wattmetro l’incertezza è u(Pw)=ur(Pw)×Pw=5×10-2×3456.7173 W=170 W e dunque Pw=3460170 W=3.46(17) kW. La compatibilità tra le due misure di potenza, assunte indipendenti, viene valutata con il criterio di compatibilità standard: P Pw k u 2 ( P) u 2 ( Pw ) che, esprimendo i valori in kilowatt, si può scrivere come 30k 1702 1702 k×238 da cui si ricava k0.126 le due misure sono compatibili già per k=1 e, a maggior ragione, anche per k=2 e k=3. 4c) La miglior stima della misura si ottiene dalla media pesata delle misure compatibili: P P 2 w 2 u ( P) u ( Pw ) Pstima=PMP= =3437.2 W 1 1 u 2 ( P) u 2 ( Pw ) con una incertezza della media pesata: 1 u(PMP)= =78 W 1 1 u 2 ( P ) u 2 ( Pw ) _______ Pag. 6/8 Esercizio 5 (20 minuti) (svolgere su questo foglio e sul retro) 5) Si vuole studiare la caduta di un corpo (grave) con massa M e quota di partenza h, osservando l’energia cinetica finale Ec,FIN all’impatto al suolo facendo variare la sua velocità iniziale v0 (già verso il basso) alla quota di partenza. Si ipotizza un “valore esatto” g=9.8 m/s2 per l’accelerazione di gravità. L’equazione semplificata (avendo trascurato le dissipazioni come ad es. l’attrito con l’aria) che descrive il fenomeno fisico studiato è: 1 Mv02 Mgh 2 Ec,FIN = Ec,INI +Ep,INI = dove Ec,INI è l’energia cinetica iniziale ed Ep,INI è l’energia potenziale iniziale. I dati sperimentali sono riportati in tabella: i (1) 1 2 3 4 5 v0,i (m/s) 0 2 5 10 20 Ec,FIN,i (J) 95 96 105 140 250 5a) Si disegni in un diagramma cartesiano i valori sperimentali di Ec,FIN in funzione di v0 e si commenti il grafico ottenuto. 5b) Utilizzando la regressione lineare ai minimi quadrati e i dati sperimentali raccolti, si stimi la massa M del corpo e la sua quota iniziale h. 5c) Si disegni un opportuno diagramma cartesiano, con assi quantitativi, che mostra la retta di regressione unitamente ai punti sperimentali (magari opportunamente riscalati). Nota: per la retta di regressione ai minimi quadrati vale: m n xi yi xi y i n x xi 2 2 i b 2 xi y i xi xi y i n xi2 xi 2 y i m xi n y mx 5a) Il diagramma cartesiano dei punti sperimentali () è mostrato nella figura seguente: 300 250 E c,FIN (J) 200 150 100 50 0 0 5 10 v 0 (m/s) 15 20 L’andamento di Ec,FIN vs. v0 sembra essere di tipo parabolico, come previsto dalla teoria, ma non è semplice stimare da questi punti l’equazione della parabola o i valori cercati di M e h. _______ Pag. 7/8 5b) Per linearizzare la relazione tra Ec,FIN e v0, conviene adottare due nuove variabili y=Ec,FIN e x= v0 , così da 1 M ottenere l’equazione della retta: y=mx+b con coefficiente angolare m= 2 e termine noto b=Mgh. Dopo la trasformazione di coordinate così individuata, i nuovi dati divengono: i (1) 1 2 3 4 5 2 2 2 x = v 0,i (m /s ) 0 4 25 100 400 y = Ec,FIN,i (J) 95 96 105 140 250 2 Eseguendo i calcoli secondo le due formule note e già citate nel testo del problema, m n xi yi xi y i xi yi xi xi y i yi m xi b y mx n n xi2 xi 2 2 n xi2 xi 2 si ottengono per la retta di regressione ai minimi quadrati un coefficiente angolare m = 0.387 kg e dunque M = 2m = 0.775 kg = 775 g, per la massa del corpo e un termine noto b = 96.2 Nm e dunque h = b / (Mg) = 12.6688 m 12.67 m 13 m, per la quota iniziale. 5c) Riportiamo in figura i punti sperimentali yi vs. xi e la retta di regressione. 300 y or E c,FIN (J) 250 E_c_meas E_c_regr 200 150 100 50 0 0 50 100 150 200 250 2 2 2 x or v 0 (m /s ) 300 350 400 I punti misurati e la corrispondente retta di regressione risultano molto bene sovrapposti. OPZIONALE (poi domanda eliminata). Visto il diagramma del punto 4c), si osserva – con occhio molto fino – che effettivamente i punti sperimentali qui rappresentati sono interpolabili con una curva che rivolge la concavità verso il basso, e dunque aumenta via via più lentamente all’aumentare della velocità iniziale v0. L’energia cinetica finale (e dunque anche la velocità finale) siano via via più basse del previsto (su queste scale si prevederebbe un andamento rettilineo) al crescere della velocità iniziale e dunque della velocità in genere durante la caduta. Tale fatto può essere spiegabile con l’attrito dell’aria che – nell’ipotesi di un regime viscoso – è direttamente proporzionale alla velocità (in un regime turbolento l’attrito andrebbe con il quadrato della velocità e il fenomeno diverrebbe ancora più accentuato). A causa dell’attrito, durante la caduta del grave si ottiene una forza che si oppone al moto - e quindi una de-celerazione verso il basso direttamente proporzionale a v: ne consegue un calo nella velocità finale – e ovviamente pure nell’energia cinetica finale -, rispetto a quello teoricamente previsto senza attrito, che aumenta al crescere delle velocità in questione. Rispetto al modello semplificato senza attrito, a velocità iniziali v0 più elevate il calo di velocità finale, diviene più sensibile, provocando una concavità della curva interpolante che è verso il basso. _______ Pag. 8/8