STATISTICA E MISURAZIONE lunedì 2 marzo 2009 Prof. Cesare Svelto Tempo a disposizione 2 ore e 15 minuti Primo appello AA 2008/2009 Aula V.S.8 ore 13.00 Cognome: __________________________ Nome: _____________________ (stampatello) Matricola: __ __ __ __ __ __ Firma: _____________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (7+7+7+6+7=34pt) (crocettare) N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”. SOLUZIONI Esercizio 1 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 1) 1a) 1b) 1c) 1d) Si misurano le altezze dei ragazzi di una classe di liceo, ottenendo i seguenti valori: x [cm] = 173 193 182 184 180 182 178 170 164 187 179 183 182 179 177 189 181 177. Si descriva che cosa rappresentano la media campionaria, la mediana e la moda di un insieme di dati. In che situazione questi 3 valori coincidono? Se ne calcolino i valori per il campione in esame. Si disegni un istogramma della frequenza relativa dei dati. Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i valori significativi. Se l’altezza dei ragazzi in tutta Italia seguisse una distribuzione normale, con valor medio 180 cm e deviazione standard 8 cm, quanto varrebbe il ventesimo percentile? Si descriva il significato di questo valore. 1a) Riportiamo i 18 dati ordinati: x [cm] = 164 170 173 177 177 178 179 179 180 181 182 182 182 183 184 187 189 193 La media campionaria è uno stimatore del valore atteso della popolazione, rappresenta il “baricentro” della distribuzione di probabilità: 1 n x xi 180 cm n i 1 La mediana è il valore che divide in due parti uguali la popolazione (quindi è il valore corrispondente al 50% dei dati). In questo caso di 18 dati, corrisponde alla media tra il nono e il decimo dato: M=(180+181)/2=180.5 cm La moda è il valore più probabile (in questo caso il valore con maggior numero di apparizioni): Moda=182 cm. La mediana è uguale alla media campionaria nel caso di distribuzioni di probabilità simmetriche. Il loro valore coincide con la moda quando il centro di simmetria è anche il massimo della PDF (tipicamente per PDF “a campana”, come ad esempio la distribuzione gaussiana). 1b) Con 18 dati un numero sensato di classi è 5 (ricordiamo la legge 1+log2(n), o anche n ), in questo caso possiamo scegliere un intervallo di 7 cm, ad esempio suddiviso nelle seguenti classi: classi 161-167 168-174 175-181 182-188 189-195 dati 164 170 177 182 189 frequenza 173 177 178 179 179 180 181 182 182 183 184 187 193 1 2 7 6 2 freq. relativa 0.056 0.111 0.389 0.333 0.111 Pag. 1/11 Frequenza relativa 0.4 0.3 0.2 0.1 0 164 171 178 185 Altezza [cm] 192 1c) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I 18 dati ordinati sono x [cm] = 164 170 173 177 177 178 179 179 180 181 182 182 182 183 184 187 189 193 La mediana, pari al 50-esimo percentile, per cui Imediana = (18+1)50 /100 = 9.5, quindi la mediana è pari alla media tra il nono e il decimo dato. Mediana= 180.5 cm. Il primo quartile è il 25-esimo percentile, per cui I1Q = (18+1)25 /100 = 4.75, quindi: primo quartile= 177+(177-177) 0.75 = 177 cm = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (18+1)75 /100 = 14.25, quindi: terzo quartile= 183+(184-183) 0.25 = 183.25 cm = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 6.25 cm. I baffi si possono estendere fino a 1.5DIQ = 9.375 cm al di là del primo e del terzo quartile, quindi fino a 167.625 cm e 192.625 cm. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite calcolato: in questo caso sino al dato 2 (baffo inferiore) pari a 170 cm, e sino al dato 17 (baffo superiore) pari a 189 cm. Il primo e l’ultimo dato sono outliers. In figura è riportato anche il diagramma a punti (dot-plot). 1 165 170 175 180 Altezza [cm] 185 190 195 1d) Partendo dall’ipotesi che l’altezza segua una distribuzione normale, con valor medio = 180 cm e deviazione standard = 8 cm, il decimo percentile si ricava dalla tabella dei valori della funzione cumulativa di una variabile casuale standard. Per il 20%=0.2 di probabilità si legge il valore standardizzato z -0.84. Per cui il ventesimo percentile x vale: x z -0.848+180 cm = 173.28 cm Il valore del percentile ci indica una soglia: il 20% dei ragazzi è alto meno di 173.28 cm, mentre l’80% è più alto di questo valore. Pag. 2/11 Esercizio 2 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 2a) Un telaio per la filatura di tessuti produce in un ora mediamente 50 m di tessuto con deviazione standard 2 m e distribuzione gaussiana. Quanto vale la probabilità che una fabbrica dotata di 20 telai produca meno di 980 m di tessuto in un’ora? 2b) Entro quale intervallo di valori, attorno alla media, cadrà la produzione della fabbrica con un livello di confidenza (probabilità) del 90 %? 2c) Tipicamente in un mese si guasta un telaio su 5: quanto vale la probabilità che in un mese, e in assenza di interventi di riparazione, la produttività della fabbrica dimezzi (cioè che si guastino esattamente 10 telai su 20)? 2d) Ciascun telaio possiede 200 bulloni, che sono posti in vibrazione durante il normale funzionamento della macchina: mediamente dai telai della fabbrica si stacca un bullone ogni settimana. Che tipo di distribuzione statistica possiamo utilizzare per descrivere il fenomeno di distacco dei bulloni? Quanto vale la probabilità che in 4 settimane si distacchino esattamente 5 bulloni? 2a) La quantità di tessuto prodotto in un’ora da 20 telai è pari alla somma di 20 variabile casuali (produzione oraria di un telaio) ciascuna con distribuzione normale, che si possono considerare statisticamente indipendenti. Quindi è ancora una variabile casuale a distribuzione normale, con valor medio pari alla somma dei 20 valori medi e varianza pari alla somma delle 20 varianze: = 20 50 m = 1000 m, 2= 20 (2 m)2 = 80 m2 da cui = 8.94 m. Per calcolare la probabilità richiesta, standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo x che z è la VNS ricavata da x. 980 980 1000 P(x<980)= P z P z P( z 2.236) 0.0127 1.3 % (all’incirca l’1 %) 8.94 2b) Se l’area attorno al centro della gaussiana è del 90 %, vuole dire che l’area nella coda sinistra (e pure nella destra) è p=((100-90)/100)/2=5 %. Cercando nella tabella della cumulativa (z) il valore di probabilità del 5 %, si trova un valore z=-1.645 al quale corrisponde una produzione x=(-z) =1000 m14.7 m, avendo ricordato che = 8.94 m. L’intervallo di valori cercato è dunque [985.3, 1014.7], come metri di tessuto prodotto in un’ora dalla fabbrica. 2c) Dato che ogni prova è un processo di Bernoulli (un telaio può essere guato oppure no, ovvero successo o insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x telai guasti su n telai in totale segue la distribuzione binomiale, con probabilità di successo p =1/5=0.2: n 20 P(10 successi su 20 prove) p x (1 p)nx 0.2 10 (0.8)10 184756 1.024 10 7 0.107 0.002 x 10 n n! avendo ricordato che x x!(n x)! Dunque la probabilità che in un mese, e in assenza di interventi di riparazione, la produzione della fabbrica dimezzi vale circa il 2 ‰. 2d) In prima approssimazione possiamo utilizzare una statistica poissoniana, in quanto i bulloni che possono distaccarsi sono moltissimi, e ciascuno con una probabilità di distacco in un determinato istante molto bassa. Inoltre in prima approssimazione i singoli distacchi si possono considerare scorrelati (un distacco non è influenzato dagli altri). e x , x 0,1,2... La funzione di probabilità di una variabile poissoniana X vale f ( x) x! con valor medio = e varianza 2 = . Pag. 3/11 Nel caso considerato, il valor medio vale = 1 distacco/settimana 4 settimane = 4 distacchi. la probabilità che si distacchino esattamente 5 bulloni in 4 settimane vale: e x e 4 4 5 0.0183 1024 P(x=5)= 15.6 %. x! 5! 120 Pag. 4/11 Esercizio 3 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 3) L’associazione consumatori vuole verificare il volume di un tetrabrick per succhi di frutta con valore nominale 200 ml e deviazione standard del 2 %, secondo i dati della casa costruttrice. Si esegue uno studio su un campione di 10 tetrabrick ottenendo i seguenti valori per il volume: Vi = 199, 198, 200, 197, 199, 200, 198, 201, 198, 199 [ml]. 3a) Si dia una definizione di Potenza di un test statistico. 3b) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare se la quantità di succo di frutta è inferiore a quella dichiarata dalla casa produttrice. Si utilizzi la varianza dichiarata. 3c) Quanto vale il valore P del test effettuato? 3d) Decidiamo di non fidarci della varianza dichiarata dalla casa produttrice ed effettuiamo quindi un nuovo test sulla base del campione osservato. Possiamo in questo caso giudicare non attendibile il volume del tetrabrick dichiarato dalla casa, sempre con livello significatività pari all’1 %? 3a) La potenza di un test statistico è la probabilità di rifiutare l’ipotesi nulla quando questa è falsa. È uguale a 1- la probabilità di errore di tipo II: Potenza = 1 - = 1 - P(errore di tipo II) = 1 - P(accettare H0 quando H0 è falsa) La potenza è un parametro che ci descrive la capacità del test di rivelare le differenze della realtà rispetto all’ipotesi H0. 3b) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria): 1 n X X i 198.9 ml n i 1 Effettuiamo quindi il test statistico richiesto (test Z, in quanto vogliamo verificare il valor medio di una popolazione a varianza nota, = 2 % × 200 ml= 4 ml). Seguiamo gli 8 passi descritti nel libro di testo: 1. Il parametro di interesse è il volume medio 2. H0: = 200 ml 3. H1: < 200 ml (il test è a un lato solo, in quanto vogliamo dimostrare che il tetrabrick ha un volume inferiore a quello dichiarato) 4. livello di significatività richiesto = 0.01 (attenzione, su un solo lato) 5. La statistica di test è la statistica Z: z0 X X X / n 6. Rifiutiamo H0 se Z < Z = -2.326. (questo risultato si ricava dalla tabella della funzione cumulativa in corrispondenza di un valore di probabilità ) 7. Calcoliamo quindi z0, z0 X X X 198.9 200 0.869 / n 4 / 10 8. Conclusione: dato che z0 = -0.869 > -2.326 non possiamo rifiutare l’ipotesi nulla con livello di significatività 0.01: non c’è abbastanza evidenza che l’ipotesi nulla sia falsa. Il volume del tetrabrick dichiarato dalla casa produttrice, secondo questo test, deve dunque essere ritenuto attendibile. 3c) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può ricavare direttamente dalla tabella dei valori della funzione cumulativa: ZP = z0 = -0.869, per cui il valore P =(z0)=19.2 %. Pag. 5/11 L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di significatività maggiore del 19.2 %. In questo caso con = 1 % non si è potuto rifiutare H0. 3d) Ripetiamo ora il test, non fidandoci della varianza (deviazione standard) fornita dalla casa costruttrice. Dovremo utilizzare la varianza dei dati disponibili nel campione selezionato. Il numero di gradi di libertà è = n – 1 = 9. Calcoliamo la deviazione standard campionaria. s X 1 n X k X 2 1.197 ml n 1 k 1 Effettuiamo quindi un test t (verifica del valor medio con varianza non nota). 1. Il parametro di interesse è il volume medio 2. H0: = 200 ml 3. H1: < 200 ml (il test è a un lato solo, in quanto vogliamo dimostrare che il tetrabrick ha un volume inferiore a quello dichiarato) 4. livello di significatività richiesto = 0.01 (attenzione, su un solo lato) 5. La statistica di test è ora la statistica t: t 0 X X sX s/ n 6. Rifiutiamo H0 se t0 < -t,9 = -2.821. (questo risultato si ricava dalla tabella dei punti percentuale della distribuzione t, con = 9) 7. Calcoliamo quindi t0, t 0 X X 198.9 200 2.906 sX s / n 1.197 / 10 8. Conclusione: dato che t0 =-2.906 < -2.821 possiamo adesso rifiutare l’ipotesi nulla con livello di significatività 0.01. Pag. 6/11 Esercizio 4 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 4) 4a) 4b) 4c) Con un generatore a corrente costante si alimentano, in successione, 5 diversi carichi resistivi. Con una singola misura per ciascuna resistenza, si legge la tensione prodotta ai capi delle resistenze. Le 5 resistenze hanno valori nominali: Ri = 100, 200, 500, 1000, 2000 () e i 5 valori di tensione letta sono Vi = 0.3, 0.5, 1.4, 2.3, 4.9 (V) I resistori hanno tutti una tolleranza/incertezza del 10 % con fattore di copertura k=2. Si disegni, utilizzando la carta millimetrata fornita e rappresentando dei punti “pieni”, il diagramma cartesiano con l’andamento dei dati sperimentali che descrivono la relazione R=f(V), ovvero y=f(x). Avendo espressamente calcolato le incertezze tipo dei 5 valori Ri, si riportino nel grafico le corrispondenti barre d’errore (a 1 dalla media), sui punti sperimentali. Dopo avere ipotizzato un modello teorico (equazione della misura) per la legge R=f(V), si stimino i coefficienti dell’equazione descrittiva attraverso un metodo di regressione ai minimi quadrati (ricavare m e b) e in particolare si ricavi il valore della corrente I erogata dal generatore. Si commentino i risultati ottenuti. N.B. Si riportano qui sotto le formule che esprimono il coefficiente angolare m e l’intercetta b sull’asse Y della retta di regressione ai minimi quadrati: 1 m xi y i xi y i n xi y i b m n 1 2 xi2 n xi Nei calcoli numerici e passaggi intermedi si consiglia di conservare un buon numero di cifre significative (almeno 4 o 5). Pag. 7/11 100 200 500 R () [1 quadretto = 50 ] 1000 2000] 4a) Il diagramma cartesiano che mostra l’andamento dei 5 punti sperimentali è riportato nella figura sottostante. 0 1 2 3 V (V) [1 quadretto = 0.1 V] 4 5 A occhio, anche disponendo del grafico con solo i punti sperimentali, si evidenzia un andamento approssimativamente lineare tra i valori di resistenza Ri, in ordinata, e i corrispondenti valori di tensione Vi, in ascissa. 4b) Ciascuna resistenza Ri ha una incertezza relativa del 10 %, come incertezza estesa con k=2 e dunque una incertezza standard (a 1 level) del 5 %. In termini assoluti: u(R1)=ur(R1)R1=0.05100 =5 [1/10 di quadretto verticale nel grafico] u(R2)=ur(R2)R2=0.05200 =10 [1/5 di quadretto verticale nel grafico] u(R3)=ur(R3)R3=0.05500 =25 [1/2 di quadretto verticale nel grafico] u(R4)=ur(R4)R4=0.051000 =50 [1 di quadretto verticale nel grafico] u(R5)=ur(R5)R5=0.052000 =100 [2 di quadretto verticale nel grafico] Le barre d’errore corrispondenti agli intervalli larghi 1 incertezza standard, ovvero a 1 dalla media, sono riportate nel grafico seguente unitamente alla retta di regressione ai minimi quadrati ricavata al punto 4c). 4c) Per quanto previsto dalla legge di Ohm, la tensione V ai capi di un resistore di valore R è legata alla corrente I che lo attraversa dalla relazione: V=RI. Pertanto, un modello teorico (analitico) che descrive l’andamento dei valori di resistenza con i valori di tensione è fornito dall’equazione: Pag. 8/11 R=(1/I)V ovvero y=mx+b con m=1/I e b=0 (idealmente) 2000] Applicando ai dati xi (tensione)e yi (resistenza) il metodo della regressione ai minimi quadrati, si ricavano il coefficiente angolare e il termine noto di tale retta: m=415.42 /V e b=-20.99 , da cui I=1/m=0.00241 A2.4 mA Si osserva che rispetto al modello previsto dalla legge di Ohm i dati sperimentali evidenzierebbero un valore di “resistenza spuria” (per V=0 si ha R0) pari a R00=b-21 che sicuramente origina dalle inesattezze nelle misure sperimentali dei valori Ri e Vi. Dal grafico con le barre d’errore, è evidente come tenendo conto di questi intervalli di confidenza (anche solo al 68 % per 1 ) la retta di regressione calcolata è solo una delle possibili rette che potrebbero passare all’interno di tali intervalli di incertezza sui punti sperimentali. 100 200 500 R () [1 quadretto = 50 ] 1000 y = 415.42 x -20.99 0 1 2 3 V (V) [1 quadretto = 0.1 V] 4 5 Pag. 9/11 Esercizio 5 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 5) Si vuole cucinare un pollo di massa 1.0 kg, misurata attraverso una bilancia da cucina con risoluzione Δm = 0.1 kg. Il calore specifico del pollo, considerato per semplicità come un solido di materiale uniforme, vale c = 3140.1 J/(kg K) con una incertezza dello 0.2 %. Il pollo viene posto in un forno che si trova inizialmente alla temperatura ambiente T0 della cucina: questa è nota attraverso 5 misure ripetute (T0,i = 25.8, 24.7, 25.4, 24.3, 24.8 °C) ottenute da un termometro posto nella cucina. Il forno viene quindi portato alla temperatura di cottura Tc = 180 °C conosciuta con incertezza estesa di 2 °C al 95 %. 5a) Ricavare le misure (i valori e le incertezze tipo) della massa m del pollo, del suo calore specifico c, della temperatura T0 e Tc. 5b) Si calcoli l’energia necessaria (ΔQ = m × c ΔT) e la sua incertezza per portare il pollo alla temperatura T c. 5c) Si spieghi quale tipo di misura è stata effettuata (diretta/indiretta) per conoscere l’energia ΔQ. Si indichi la causa principale di incertezza in questa misura. 5a) La massa del pollo presenta un’incertezza dovuta alla quantizzazione causata dalla limitata risoluzione della bilancia: u(m)=m/ 12 =0.1 kg / 12 = 0.029 kg Quindi possiamo esprimere il peso come m = 1.000 0.029 kg. L’incertezza relativa vale quindi: ur(m) = u(m) / m = 2.9 %. L’incertezza sul calore specifico si calcola partendo dall’incertezza relativa fornita dal testo: u(c)= c × ur(c) = 6.3 J/(kg K) Quindi possiamo esprimere il calore specifico come c = 3140.1 6.3 J/(kg K). Per quanto riguarda la temperatura T0, il valor medio delle N=5 misure ripetute è: 1 N T0= T0 ,i =30 °C N i1 Calcoliamo quindi la sua deviazione standard campionaria: 1 N 2 s(T0,i)= T0,i T0 0.5958 °C N - 1 i1 da cui si calcola lo scarto tipo del valor medio (incertezza di categoria A) come: sT 0.5958 u(T0)= 0 ,i = °C 0.27 °C 5 N La temperatura iniziale vale quindi: T0 = 30.00 0.27 °C. L’incertezza relativa vale quindi: ur(T0) = u(T0) / T0 = 1.1%. L’incertezza sulla temperatura finale Tf vale u(Tf) = (2 °C) / 2 = 1 °C, essendo il fattore di copertura dell’incertezza estesa k2 per P = 95 %. Quindi la temperatura finale vale Tf = 180 1 °C L’incertezza relativa sulla temperatura finale è ur(Tf) = u(Tf) / Tf = 0.56 %. 5b) Il calcolo dell’energia spesa si ottiene attraverso la misura indiretta del calore necessario per portare il pollo a Tf = 180 °C partendo da T0 =25 °C: ΔQ = m × c ΔT = 1 kg × 3140.1 J/(kg K) × (180 °C - 25 °C) = 486.7155 kJ L’incertezza totale può essere determinata prima calcolando l’incertezza su ΔT = Tf – T0 e quindi quella di ΔQ come somma delle incertezze relative dei singoli componenti della misura. L’incertezza di ΔT vale: u(ΔT) = u 2 T0 u 2 Tf 0.073 1 °C 1.1 °C. L’incertezza relativa vale quindi: ur(ΔT) = u(ΔT) / ΔT = 0.71 %. L’incertezza totale sull’energia spesa vale quindi: ur(ΔQ) = ur2 m ur2 c ur2 T 0.03 = 3 %. Pag. 10/11 Quindi l’incertezza assoluta di ΔQ vale: u(ΔQ) = ur(ΔQ) × ΔQ 15 kJ Possiamo esprimere l’energia come ΔQ = 487 ± 15 kJ. 5c) La misura di energia effettuata è sicuramente una misurazione indiretta in quanto il misurando viene ricavato, indirettamente, dalla conoscenza di più parametri di ingresso. Un esempio di misurazione diretta sarebbe stata in questo caso la lettura della massa m ottenuta posizionando il pollo sulla bilancia. La causa principale di incertezza sulla misura di ΔQ è sicuramente dovuta alla misura della massa m del pollo in quanto la scarsa risoluzione della bilancia implica la causa di incertezza più elevata. Per migliorare la misura bisognerebbe utilizzare una bilancia che presenti una risoluzione superiore. La misura indiretta inoltre può essere soggetta ad errori “di modello”, conseguenti anche alle ipotesi di lavoro fatte, per cui l’equazione della misura indiretta potrebbe essere anche differente da quella utilizzata. Pag. 11/11