STATISTICA E CALCOLO DELLE PROB. Giovedì 17 febbraio 2011 1o Appello AA 2010/2011 Aula V.s.9 ore 14.00 Prof. Cesare Svelto Tempo a disposizione 1 ora 50 min Cognome e nome: ___________________________________ _____________________ Matricola e firma __ __ __ __ __ __ (stampatello) _____________________(firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (6+8+7+8+4 = 33p) (crocettare) N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una penalità. SOLUZIONI Esercizio 1 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 1) I giudizi di un corso sono riportati in scala da 0 a 4 con una cifra decimale: Giudizi = 2.8, 3.5, 3.4, 4.0, 3.6, 2.9, 2.7, 3.5, 4.0, 3.8, 3.0, 3.9. 1a) Si individuino media, deviazione standard e varianza campionaria dei dati. 1b) Si riportino i dati in un diagramma a rami e foglie. 1c) Si dia la definizione di k-esimo percentile e si calcoli il 60-esimo percentile dei dati. 1d) Dopo avere calcolato, con le formule e spiegazioni del caso, i valori caratteristici del box-plot dei dati, si disegni questa rappresentazione grafica (con tutti i punti misurati) commentando il box-plot ottenuto. Si riporti sulla stessa scala anche il diagramma a punti dei dati. 1a) Il numero di dati contenuti nel campione è n=12. 1 n La media campionaria dei dati è G Gi 3.425 . n i 1 La varianza campionaria dei dati è s 2 n 1 n Gi G 2 1 Gi2 nG 2 0.222 n 1 i 1 n 1 i 1 La deviazione standard campionaria dei dati è s s 2 0.471 . 1b) Riportiamo i dati ordinati (secondo valori crescenti): Giudizi =2.7, 2.8, 2.9, 3.0, 3.4, 3.5, 3.5, 3.6, 3.8, 3.9, 4.0, 4.0. In questo caso possiamo scegliere come ramo la cifra intera e come foglia la prima cifra decimale dei valori numerici dei dati: Rami foglie 2 7 8 9 3 0 4 5 5 6 8 9 4 0 0 Sono stati ottenuti m=3 rami/intervalli con m n 3.5. 1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari all’intero prima e dopo di Ik ). Il 60-esimo percentile ha indice I60% = (12+1)60 /100 = 7.8, quindi il 60-esimo percentile è pari a un valore intermedio tra il settimo e l’ottavo dato: 60-esimo percentile = 3.5+(3.6-3.5)0.8 = 3.58 _______ Pag. 1/8 1d) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana, il primo e terzo quartile. La mediana è il 50-esimo percentile, per cui Imediana = (12+1)50 /100 = 6.5, quindi la mediana è la media tra il sesto ed il settimo dato, che valgono entrambi 3.5. Mediana=3.5. Il primo quartile è il 25-esimo percentile, per cui I1Q = (12+1)25 /100 = 3.25, quindi il primo quartile è dato da: primo quartile = [ 2.9 + (3.0 – 2.9) 0.25 ] = 2.925 = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (12+1)75 /100 = 9.75, quindi il terzo quartile è dato da: terzo quartile = [ 3.8 + (3.9 – 3.8) 0.75 ] =3.875 = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 0.95. I baffi si possono estendere fino a 1.5DIQ = 1.425 al di là del primo e terzo quartile, quindi fino a 2.925-1.425=1.5 e 3.875+1.425=5.3. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro questo limite (di 1.5DIQ): in questo caso sino al primo e all’ultimo dato del campione (non ci sono outliers). In figura (box-plot) sono riportati anche i punti sperimentali. Giudizi del corso _______ Pag. 2/8 Esercizio 2 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 2a) Si supponga che la quantità di miele prodotta da un alveare segua una distribuzione normale, con valor medio 2 kg e deviazione standard 0.4 kg. Quanto vale la probabilità che 10 alveari producano meno di 17 kg di mele? 2b) Negli alveari ci sono circa 500 api. La probabilità che un’ape punga un passante vale lo 0.2 %. Si calcoli la probabilità che una persona senza protezione venga punta almeno una volta, passando a fianco agli alveari. Si effettui il calcolo sia utilizzando una distribuzione binomiale sia utilizzando una distribuzione poissoniana. Si descrivano le ipotesi fatte per risolvere il problema e si commentino i risultati ottenuti. 2c) Considerando le stesse ipotesi del punto b), si stimi la probabilità che il passante riceva meno di 100 punture, dopo aver attraversato la zona degli alveari per 100 volte. 2a) La quantità di miele prodotta da 10 alveari è pari alla somma di dieci variabile casuali a distribuzione normale, che si possono considerare statisticamente indipendenti. Quindi è ancora una variabile casuale a distribuzione normale, con valor medio pari alla somma dei 10 valori medi e varianza pari alla somma delle dieci varianze: = 10 2 kg = 20 kg, 2= 10 (0.4 kg)2 = 1.6 kg2 da cui = 1.265 kg. Per calcolare la probabilità richiesta, standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo x che z è la VNS ricavata da x. 17 17 20 P( x 17) P z P z P( z 2.37) 0.89 % <1 % 1.265 2b) In prima approssimazione possiamo utilizzare una statistica poissoniana, in quanto le api che possono pungere sono molte, ciascuna con una probabilità molto bassa. Inoltre in prima approssimazione le punture si possono considerare scorrelate. e x La funzione di probabilità di una variabile poissoniana X vale f ( x) , x 0,1,2... x! con valor medio = e varianza 2 = . Nel caso considerato, il valor medio vale = 500 api0.002 punture/ape = 1 puntura. La probabilità che una persona venga punta almeno una volta vale: e x e 110 1 1 e 1 63.2 %. P(x1)=1-P(x=0)=1x! 0! Si poteva ottenere lo stesso risultato anche considerando una distribuzione binomiale, in quanto la distribuzione poissoniana non è altro che una approssimazione della binomiale per alto numero di estrazioni e bassa probabilità di successo: n 500 0 0.002 (0.998) 500 1 (0.998) 500 63.2% 1 P(0 successi su 500 prove ) 1 p x (1 p) nx 1 x 0 Le ipotesi fatte sono: - nessuna correlazione tra le punture - probabilità di puntura costante Entrambe queste ipotesi potrebbero non essere vere: ad esempio se il passante per qualche motivo infastidisse le api (magari avvicinandosi troppo all’alveare) sicuramente la probabilità aumenterebbe. 2c) Data la complessità del calcolo tramite la formula della binomiale e anche della poissoniana, decidiamo di sfruttare l’approssimazione gaussiana. Il valor medio vale =np = = 500 api0.002 punture/ape100 passaggi= 100 punture La varianza vale invece 2=np(1-p)= 100 punture(1-0.002)=99.8100= . _______ Pag. 3/8 L’approssimazione è valida in quanto np e n(1-p) sono entrambi molto maggiori di 1 (tipicamente si considera attendibile l’approssimazione per valori superiori a 5): in questo caso sicuramente l’approssimazione è molto buona. Calcoliamo quindi la probabilità tramite standardizzazione: 100 np 100 100 P( x 100) P z P z P( z 0) =50 %. 10 np ( 1 p ) Il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità pari a 52.6%, abbastanza in linea con l’approssimazione effettuata. Commento: si osserva che tale risultato di P50 % vale ogniqualvolta per una distribuzione simmetrica (quale la PDF gaussiana) si valuta la probabilità di avere valori inferiori alla media . In questo caso si aveva infatti =np=100 e si cercava la probabilità di ricevere meno di 100 punture. _______ Pag. 4/8 Esercizio 3 (tempo stimato 20 m) (svolgere su questo foglio e sul retro) 3) Intendiamo verificare la carica di un modello di batteria. La ditta produttrice dichiara 550 mAh. Effettuiamo misure su un campione di 11 batterie ottenendo un valor medio di 517 mAh e una deviazione standard campionaria pari a 42 mAh. 3a) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare se la carica della batteria è inferiore a quella dichiarata dalla casa produttrice. 3b) Se la deviazione standard non fosse stata misurata su 11 batterie, ma fosse stata ricavata da uno studio statistico, effettuato da altri, su centinaia di batterie di quel tipo, che cosa sarebbe cambiato? 3a) Effettuiamo un test t (verifica del valor medio con varianza non nota). 1. Il parametro di interesse è la carica media 2. H0: = 550 mAh 3. H1: < 550 mAh (il test è a un lato solo, in quanto vogliamo dimostrare che la carica media è inferiore a quella dichiarata) 4. livello di significatività richiesto = 0.01 (attenzione, su un solo lato) 5. La statistica di test è ora la statistica t: t 0 X X sX s/ n 6. Rifiutiamo H0 se t0 < -t,10 = -2.764. (questo risultato si ricava dalla tabella dei punti percentuale della distribuzione t, con =n-1 = 10) 7. Calcoliamo quindi t0, t 0 X X 517 550 2.606 sX s/ n 42 / 11 8. Conclusione: dato che t0 =-2.606 > -2.764 non possiamo rifiutare l’ipotesi nulla con livello di significatività 0.01. 3b) In questo caso la varianza sarebbe stata molto più attendibile, per cui avremmo effettuato un test Z, considerando = s. 1. Il parametro di interesse è la carica media 2. H0: = 550 mAh 3. H1: < 550 mAh 4. livello di significatività richiesto = 0.01 5. La statistica di test è la statistica Z: z0 X X X / n 6. Rifiutiamo H0 se Z < Z -2.326. Questo risultato si ricava dalla tabella della funzione cumulativa (z) in corrispondenza di un valore di probabilità = 0.01. 7. Calcoliamo quindi z0: z 0 X X X / n 517 550 42 / 11 2.606 8. Conclusione: dato che z0=-2.606 < Z -2.326 rifiutiamo l’ipotesi nulla con livello di significatività 0.01: c’è abbastanza evidenza che l’ipotesi nulla sia falsa. Come si può notare il procedimento è identico a prima, cambia solo il valore critico, in quanto la distribuzione di probabilità normale decade più velocemente della t di Student. _______ Pag. 5/8 Esercizio 4 (25 minuti) (svolgere su questo foglio e sul retro) 4) Un recipiente cilindrico con base circolare di raggio r e altezza h contiene azoto (N2) alla pressione p=5 kPa, misurata con un manometro tarato 1 anno prima con incertezza dichiarata 10-3+10-3/anno. 4a) La misurazione dell’altezza del recipiente è stata ripetuta più volte, fornendo i seguenti risultati: h=[32.00, 32.20, 29.99, 31.31, 33.00, 32.00, 30.00] cm (7 misure ripetute) Si ricavi la misura hu(h) 4b) La temperatura del sistema risulta T =400 K con U(T)=10 K per fattore di copertura k=2.5. Il raggio interno del recipiente è stato stimato r =30 cm, con arrotondamento a 1 cm. La costante molare dei gas vale R=8.31 Jmol-1K-1 con incertezza relativa pari all’1.7 %. Si ricavi la misura del numero di moli di gas n presenti nel recipiente, supponendo applicabile l’equazione dei gas perfetti pV=nRT. Se ne esprima l’incertezza in notazione concisa. 4c) Una misura indipendente ha fornito, per lo stesso numero di moli, il valore n2=0.1440 mol con una incertezza estesa U(n2)=8.410-3 mol con un fattore di copertura pari a 2. Si valuti la compatibilità tra le due misure e si calcoli la miglior stima del numero di moli di gas. 4a) Dalle n=7 misure ripetute, si ricava un valor medio h= h 1 n hi =31.50 cm n i 1 e una incertezza di categoria A u(h)=uA(h)= n 1 hi h nn 1 i 1 2 =0.43 cm La misura è h=31.50 0.43 cm. 4b) Dalla legge dei gas perfetti, pV=nRT, si ricava il numero di moli n= pV/(RT), dove il volume del cilindro vale V=h×r2. Secondo questa misurazione indiretta, il numero di moli è dunque espresso da n phr 2 . RT Per ottenere il valore di n, sostituiamo nella sua espressione i valori dati : R=8.31 J mol-1K-1 T=(127+273.15) K(127+273) K=400 K 3 p=5 kPa=5×10 Pa r=30.0 cm=0.3 m h=31.50 cm phr 2 0.1340 mol RT Dato che l’equazione della misura è una produttoria delle grandezze d’ingresso, l’incertezza relativa dell’uscita è semplicemente legata alle incertezze relative degli ingressi dall’espressione n= ur(n)= u r2 p u r2 h 4u r2 r u r2 R u r2 T Calcoliamo le incertezze relative dei singoli ingressi: ur(p) 10-3+10-3/anno ×1 anno= 0.2 % ur(R)=1.7 % ur(T)=u(T)/T=[U(T)/k]/T=[4 K]/(400 K)=1 % La misura del raggio è stata arrotondata, per cui è affetta da una incertezza di quantizzazione u(r)=r/ 12 2.9 mm e quindi l’incertezza relativa sul raggio risulta ur(r)=u(r)/r=[2.9×10-3/3×10-1] = 0.97 % _______ Pag. 6/8 ur(h)= u(h)/h=0.43 cm/31.5 cm 1.4 % Da queste si ottiene l’incertezza relativa su n: ur(n)= u r2 p u r2 h 4u r2 r u r2 R u r2 T 0.04 1.96 4 0.94 2.89 1 % 3.1 % e quindi una incertezza assoluta u(n)=ur(n)×n=4.2×10-3 mol La misura indiretta di n espressa in notazione concisa è infine n=0.1340(42) mol. 4c) L’incertezza tipo sul numero di moli ottenuto nella seconda misura è u(n2)=U(n2)/2=4.210-3 mol: quindi le due misure risultano avere proprio la stessa incertezza. Per verificare la compatibilità tra le 2 misure del numero di moli, supposte indipendenti, dobbiamo valutare se: n n2 k u 2 (n) u 2 (n2 ) con un fattore di copertura ragionevole (k=1, 2, o 3). Si ottiene 0.01 k610-3 per cui k 1.67 e quindi la compatibilità è verificata con k=2. Possiamo dunque ritenere le due misure compatibili con un fattore di copertura k=2. Per la miglior stima del numero di moli, occorre eseguire una media pesata tra n e n2, secondo la formula della media pesata tra misure compatibili: n n 2 2 2 u (n) u (n2 ) nmp= 1 1 2 2 u (n) u (n2 ) ma essendo le due incertezze, e dunque i due pesi uguali, tale media pesata si riduce in questo caso a una semplice media aritmetica: nmp=(n+n2)/2=0.139 mol. _______ Pag. 7/8 Esercizio 5 (15 minuti) (svolgere su questo foglio e sul retro) 5) Si misura con un wattmetro la potenza elettrica P sviluppata su un resistore di valore R al variare corrente I (in continua) che lo attraversa. I dati sperimentali sono riportati in tabella: Ii (A) Pi (W) 0 2 2 2.5 5 12 10 48 20 195 5a) Si disegni in un diagramma cartesiano i valori sperimentali di P in funzione di I. 5b) Utilizzando la regressione lineare ai minimi quadrati e i dati sperimentali raccolti, si stimi la resistenza R. m n xi yi xi y i n xi2 xi 2 Nota: per la retta di regressione ai minimi quadrati vale: 2 xi y i xi xi y i y i m xi b y mx 2 n n xi2 xi 5a) Il diagramma cartesiano dei punti sperimentali (P vs. I) è mostrato nella figura seguente: 200 P (W) 150 100 50 0 0 5 10 I (A) 15 20 5b) Per linearizzare la relazione tra P e I, conviene adottare due nuove variabili y=P e x=I2, così da ottenere l’equazione della retta: y=mx+b con m=R e b=0 (idealmente). Dopo la trasformazione di coordinate individuata, i nuovi dati sono: i (1) I2 (A2) P (W) 1 0 2 2 4 2.5 3 25 12 4 100 48 5 400 195 Eseguendo i calcoli secondo le due formule note m n xi yi xi y i n xi2 xi 2 xi yi xi xi y i yi m xi y mx 2 n n xi2 xi 2 b si ottengono per la retta di regressione ai minimi quadrati un coefficiente angolare m = 0.485 0.5 , per la resistenza, e dunque R 0.5 , e un termine noto b = 0.55 W, probabilmente dovuto ad un offset del wattmetro _______ Pag. 8/8