STATISTICA E MISURAZIONE lunedì 12 luglio 2005 Prof. Cesare Svelto Tempo a disposizione 2 ore e 15 minuti Primo appello AA 2004/2005 Aule V.0.7 ore 12.30 Cognome: __________________________ Nome: _____________________ (stampatello) Matricola: __ __ __ __ __ __ Firma: _____________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (6+7+7+9+4=33pt) (crocettare) N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”. SOLUZIONI Esercizio 1 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 1) 1a) 1b) 1c) Intendiamo effettuare uno studio statistico della massa di un libro. Ne pesiamo 13 copie ottenendo i seguenti valori : X [g] = 102.3; 102.7; 101.6; 103.4; 106.0; 103.6; 103.8; 104.0; 103.7; 102.9; 103.6; 103.2; 103.4 Si calcolino media e varianza campionaria della massa del libro, spiegando l’utilità di queste statistiche. Si rappresenti un istogramma della frequenza cumulativa dei dati. Si rappresenti il box-plot dei dati, riportando le spiegazioni e i calcoli fatti per ottenere i valori significativi di questo diagramma. 1a) Numeri di dati nel campione = N = 13 1 n media campionaria = x xi 103.40 g n i 1 n varianza campionaria = s 2 (x x) i 1 i 2 1.0567 g2 n 1 La media campionaria è uno stimatore non polarizzato del valor medio della popolazione che si sta campionando. Si può dimostrare che è uno stimatore più efficiente che non il singolo campione, in quanto presenta un errore quadratico medio inferiore. La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura del grado di dispersione della popolazione attorno alla media. Intervallo 101.1-102.0 102.1-103.0 103.1-104.0 104.1-105.0 105.1-106.0 frequenza 1 3 8 0 1 freq. cumulativa 1 4 12 12 13 Frequenza cumulativa 1b) Riportiamo i dati ordinati (secondo valori crescenti): X [g] = 101.6; 102.3; 102.7; 102.9; 103.2; 103.4; 103.4; 103.6; 103.6; 103.7; 103.8; 104.0; 106.0; Con 13 dati un numero sensato di classi è 4 o 5 (ricordiamo la legge 1+log2(n)), ad esempio possiamo 14 scegliere i seguenti intervalli per l’istogramma: 12 10 8 6 4 2 0 100 101 102 103 104 Massa del libro [g] 105 106 Pag.1/10 Esercizio 1 [30 minuti] (continua) 1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici uguali all’intero prima e dopo di Ik ). Il 70-esimo percentile ha indice I70% = (12+1)70 /100 = 9.1, quindi il 70-esimo percentile è pari a 70-esimo percentile = 11.4+(11.5-11.4)0.1/1 = 11.41 s Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I 13 dati ordinati sono X [g] = 101.6; 102.3; 102.7; 102.9; 103.2; 103.4; 103.4; 103.6; 103.6; 103.7; 103.8; 104.0; 106.0; La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana è pari al settimo dato. Mediana= 103.4 g. Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è dato dalla media tra il terzo e il quarto dato (si osservi che 0.5/1=50 %): primo quartile= (102.7+102.9)/2 = 102.8 g = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è dato dalla media tra il decimo e l’undicesimo dato (ancora 0.5/1=50 %) terzo quartile= (103.7+103.8)/2 = 103.75 = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 0.95 g. I baffi si possono estendere fino a 1.5DIQ = 1.425 g al di là del primo e terzo quartile, quindi fino a 102.8-1.425=101.375 g e 103.75+1.425=105.175 g. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro questo limite (di 1.5DIQ): in questo caso sino al dato 1 (baffo inferiore) pari a 101.6 g, e sino al dato 12 (baffo superiore) pari a 104.0 g. outlier In figura sono riportati anche i punti sperimentali. 1 101 102 103 104 Massa [g] 105 106 Pag.2/10 Esercizio 2 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 2) 2a) 2b) 2c) 2d) Un giocatore di beach volley deve decidere se battere in salto. Quando mette in campo la battuta al salto fa punto 2 volte su 3, ma la sbaglia una volta su 5. Quando invece batte normalmente sbaglia solo una volta su 10, ma, quando la mette in campo, fa solo 2 punti su 5. È vantaggioso per il giocatore battere al salto? Quanto vale la probabilità che su 10 battute al salto ne faccia 8 in campo? Durante le partite serali il campo è assaltato dalle zanzare, tanto che mediamente il giocatore viene punto una volta al minuto. Che tipo di distribuzione segue il numero di punture in un intervallo di tempo? (Si motivi la risposta). Quanto vale la probabilità che il giocatore venga punto 3 volte in 5 minuti? Nel corso di una partita che dura un’ora, quanto vale la probabilità che il giocatore sia punto più di 50 volte? 2a) Calcoliamo la speranza matematica P di fare punto nei due casi 2 4 8 53.3% Battuta al salto: P 3 5 15 2 9 9 36% Battuta normale: P 5 10 25 Per cui è conveniente battere al salto. 2b) Dato che ogni prova è un processo di Bernoulli (la battuta o entra o non entra in campo, ovvero successo o insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x battute (al salto) in campo su n segue la distribuzione binomiale, con probabilità di successo (ossia di fare punto) p =4/5=0.8: n 10 8 P(8 successi su 10 prove ) p x (1 p) n x 0.8 (0.2)108 30.2 % x 8 n 10 10! 10 9 n! avendo ricordato che e dunque = 45 x x!(n x)! 8 8!2! 2 1 2c) Questo fenomeno segue una distribuzione di probabilità poissoniana, in quanto la variabile in gioco è una variabile di Bernoulli (o punge o non punge), il numero di zanzare è molto alto e la probabilità che una zanzara decida di pungere proprio quel giocatore è bassa. Inoltre gli eventi “puntura” si possono considerare in prima approssimazione scorrelati. e x , x 0,1,2... La funzione di probabilità di una variabile poissoniana X vale f ( x) x! il suo valor medio vale = e la sua varianza vale 2 = . Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono casualmente in un dato intervallo di tempo. Il valor medio vale = 1 puntura/minuto × 5 minuti = 5 punture La probabilità che in 5 minuti venga punto 3 volte vale e x e 5 53 P( x 3) 14% x! 3! Pag.3/10 2d) Data la complessità del calcolo tramite la formula della poissoniana (che richiederebbe di calcolare e sommare 50 probabilità, con fattoriali dal valore molto alto), decidiamo di sfruttare l’approssimazione gaussiana della poissoniana.Valor medio e varianza sono uguali e pari a = 1 puntura/minuto × 60 minuti = 60 punture. L’approssimazione è valida in quanto è molto maggiore di 1 (tipicamente si considera attendibile l’approssimazione per valori superiori a 5). Calcoliamo quindi la probabilità tramite standardizzazione, considerando che l’approssimazione è più precisa se si sceglie come estremo dell’intervallo di integrazione il valor medio tra l’ultimo valore escluso ed il primo accettato: 50.5 50.5 50.5 60 P( x 50.5) P z z P z P( z 1.226) P( z 1.226) 89% 7.746 con ==60 e ==60. In effetti il calcolo esatto tramite la distribuzione poissoniana (effettuato a calcolatore) fornisce una probabilità pari a 89.2%, in ottimo accordo con l’approssimazione effettuata. Pag.4/10 Esercizio 3 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 3) Per controllare il consumo medio di un nuovo modello di automobile la facciamo guidare per 100 km a testa da 10 automobilisti e registriamo ogni volta i litri di benzina consumati: B = 5.8, 5.9, 6.2, 6.1, 5.7, 6, 6, 5.6, 5.8, 5.9 [l/100 km]. La casa produttrice dichiara un consumo medio di 5.7 l/100 km con varianza 0.9 (l/100 km)2, dovuta ai diversi stili di guida. 3a) Si dia una definizione di Potenza di un test statistico. 3b) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare se il consumo dell’automobile è superiore a quello dichiarato dalla casa produttrice. Si consideri attendibile la varianza dichiarata. 3c) Quanto vale il valore P del test effettuato? 3d) Decidiamo di non fidarci della varianza dichiarata dalla casa produttrice ed effettuiamo quindi un nuovo test. Possiamo in questo caso giudicare falsi i consumi dichiarati dalla casa, sempre con livello significatività pari all’1 %? 3a) La potenza di un test statistico è la probabilità di rifiutare l’ipotesi nulla quando questa è falsa. È uguale a 1- la probabilità di errore di tipo II: Potenza = 1 - = 1 - P(errore di tipo II) = 1 - P(accettare H0 quando H0 è falsa) La potenza è un parametro che ci descrive la capacità del test di rivelare le differenze della realtà rispetto all’ipotesi H0. 3b) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria): 1 n X X i 5.90 l/100 km n i 1 Effettuiamo quindi il test statistico richiesto (test Z, in quanto vogliamo verificare il valor medio di una popolazione a varianza nota, = 0.3 l/100 km). Seguiamo gli 8 passi descritti nel libro di testo. 1. Il parametro di interesse è il consumo medio 2. H0: = 5.7 l/100 km 3. H1: > 5.7 l/100 km (il test è a un lato solo, in quanto vogliamo dimostrare che l’automobile consuma più di quanto dichiarato) 4. livello di significatività richiesto = 0.01 (attenzione, su un solo lato) 5. La statistica di test è la statistica Z: z0 X X X / n 6. Rifiutiamo H0 se Z > Z = 2.326. (questo risultato si ricava dalla tabella della funzione cumulativa in corrispondenza di un valore di probabilità ) 7. Calcoliamo quindi z0, z0 X X X 5.9 5.7 0.667 / n 0.95 / 10 8. Conclusione: dato che z0=0.667 < 2.326 non possiamo rifiutare l’ipotesi nulla con livello di significatività 0.01: non c’è abbastanza evidenza che l’ipotesi nulla sia falsa. Il consumo dichiarato dalla casa produttrice, secondo questo test, deve dunque essere ritenuto attendibile. Pag.5/10 3c) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può ricavare direttamente dalla tabella dei valori della funzione cumulativa: ZP = z0 = 0.667, per cui il valore P =1-(z0)=1-0.747=0.253. L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di significatività maggiore del 25 % (praticamente mai, essendo un livello di significatività molto alto). In questo caso con = 1 % non si è potuto rifiutare H0. 3d) Ripetiamo ora il test, non fidandoci della varianza dichiarata dalla casa costruttrice. Dovremo utilizzare la varianza dei dati disponibili nel campione selezionato. Il numero di gradi di libertà è = n – 1 = 9. Calcoliamo la deviazione standard campionaria. s X 1 n X k X 2 0.1826 l/100 km n 1 k 1 Effettuiamo quindi un test t (verifica del valor medio con varianza non nota). 1. Il parametro di interesse è il consumo medio 2. H0: = 5.7 l/100 km 3. H1: > 5.7 l/100 km (il test è a un lato solo, in quanto vogliamo dimostrare che l’automobile consuma più di quanto dichiarato) 4. livello di significatività richiesto = 0.01 (attenzione, su un solo lato) 5. La statistica di test è ora la statistica t: t 0 X X sX s/ n 6. Rifiutiamo H0 se t0 > t,9 = 2.821. (questo risultato si ricava dalla tabella dei punti percentuale della distribuzione t, con = 9) 7. Calcoliamo quindi t0, t 0 X X 5.9 5.7 3.464 sX s / n 0.1826 / 10 8. Conclusione: dato che t0 =3.464 >2.821 rifiutiamo l’ipotesi nulla con livello di significatività 0.01: ora c’è abbastanza evidenza che l’ipotesi nulla sia falsa (si cade ora nella regione di rifiuto). Pag.6/10 Esercizio 4 (tempo stimato 45 m) (svolgere su questo foglio e sul retro) 4) Si vuole misurare la potenza erogata per alimentare la scheda madre di un PC. Vengono quindi effettuate una serie di misure della corrente di alimentazione in continua assorbita dalla scheda I [A]= 3.12, 2.98, 3.06, 2.95, 2.94, 2.93. Inoltre, con un multimetro (display digitale a 3 ½ cifre e fondo scala 20 V) viene misurata una tensione costante V=5.00 V di alimentazione della scheda madre. 4a) Si calcoli la potenza erogata alla scheda e la sua incertezza tipo. 4b) Si esprima la potenza erogata alla scheda in dBm e la sua incertezza ancora in unità logaritmiche. 4c) Si calcoli la temperatura del processore Tcpu e la sua incertezza sapendo che la potenza dissipata dal processore è pari al 20 % di quella erogata all’intera scheda. La relazione che lega la temperatura alla potenza dissipata è Tcpu=f(Tamb, Pdis, Rdis)=Tamb+PdisRdis (le temperature sono espresse in gradi centigradi). La temperatura dell’ambiente circostante il processore è Tamb= 50 °C misurata con una incertezza dell’1 %, e la resistenza termica del dissipatore è Rdis= 12 °C/W misurata con una incertezza estesa di 0.1 °C/W per un fattore di copertura k=2. 4d) Si valuti la compatibilità tra la misura di temperatura effettuata (Tcpu) e il valore dichiarato dalla casa costruttrice: Tfactory=89.52.0 °C. 4e) Qual è la migliore stima della temperatura Tstima della CPU? 4a) La potenza erogata al processore si calcola come P=V×I La corrente I si ricava come: 1 N I= I i = 2.9967 A 3 A N i 1 Le 6 letture Ii di corrente presentano uno scarto tipo sperimentale: 1 s(Ii)= N 1 I I 0.077 A N 2 i i 1 da cui si calcola lo scarto tipo del valor medio (incertezza di categoria A) come s I i 0.077 mA 0.031 A N 6 L’incertezza relativa alla corrente vale quindi ur(I)= u(I)/I = 1.0 %. L’incertezza della tensione V vale u(V)=ΔV/ 12 = 0.01 V/ 12 2.9 mV. Da cui un’incertezza relativa pari a: ur(V)= u(V)/V=2.9 mV/5 V=0.058 % Quindi P= V×I= 15 W e la sua incertezza relativa è: u(I)= = ur(P)= ur2 ( I ) ur2 (V ) = 0.012 0.000582 1 % Quindi u(P)= ur(P)P 0.15 W. 4b) P= 15 W ±0.15 W, che in dBm corrispondono a P 15 W P dBm 10 log 10 10 log 10 41.76 dBm 1 mW 1 mW L’incertezza si ottiene valutando l’estremo inferiore e l’estremo superiore, entrambi in dBm: 14.85 W Pmin dBm 10 log 10 41.72 dBm 1 mW 15.15 W Pmax dBm 10 log 10 41.80 dBm 1 mW Per cui P= 41.76 dBm ±0.04 dB. 4c) La potenza dissipata dal processore vale Pdis=P×0.2= 3 W. L’incertezza relativa di Pdis resta uguale a quella di P, mentre l’incertezza tipo diventa u(Pdis)= ur(P)Pdis = 0.03 W. Pag.7/10 L’incertezza sulla temperatura vale u(Tamb)= ur(Tamb)Tamb= 0.01×50 °C= 0.5 °C. La resistenza termica Rdis vale 12 °C/W e presenta incertezza estesa con fattore di copertura k=2 pari a 0.1 °C/W (semiampiezza dell’intervallo di confidenza del 95.5 %, quindi a 2). L’incertezza tipo di Rdis vale u(Rdis)=U(Rdis)/k=U(Rdise)/2=0.05 °C/W. Il valore della temperatura del processore vale: Tcpu=Tamb+PdisRdis=50 °C+3 W×12 °C/W=86 °C La sua incertezza si calcola come la somma delle incertezze standard delle variabili che costituiscono la legge: 2 2 2 f 2 f 2 f 2 u(Tcpu)= u Tamb u Pdis u Rdis = T P R amb dis dis = u 2 Tamb Rdis u 2 Pdis Pdis u 2 Rdis °C 0.63 °C 2 2 4d) Per verificare la compatibilità tra le 2 misure di temperatura, supposte indipendenti, dobbiamo valutare se: Tcpu Tfactory k u 2 (Tcpu ) u 2 (Tfactory ) con un fattore di copertura ragionevole (k=1, 2, o 3). La compatibilità è verificata con k=2 (k≥ 1.67). Possiamo dunque ritenere le due misure compatibili con un fattore di copertura k=2. 4e) Per la misura della miglior stima Tstima della temperatura della cpu, disponendo di 2 misure compatibili, ricorriamo al criterio della media pesata tra misure compatibili: Tcpu T 2 factory 2 u (Tcpu ) u (Tfactory ) Tstima= 86.32 °C , molto vicina a Tcpu essendo 1/u2(Tcpu)>>1/u2(Tfactory) 1 1 u 2 (Tcpu ) u 2 (Tfactory ) con una incertezza della media pesata 1 u(Tstima)= 0.60 °C. 1 1 u 2 (Tcpu ) u 2 (Tfactory ) Pag.8/10 Esercizio 4 (continua) 4b) P= 15 W ±0.18 W, che in dBm corrispondono a P 15 W P dBm 10 log 10 10 log 10 41.76 dBm 1 mW 1 mW L’incertezza si ottiene valutando l’estremo inferiore e l’estremo superiore, entrambi in dBm: 14.82 W Pmin dBm 10 log 10 41.71 dBm 1 mW 15.18 W Pmax dBm 10 log 10 41.81 dBm 1 mW Per cui P= 41.76 dBm ±0.05 dB. 4c) La potenza dissipata dal processore vale Pdis=P×0.2= 3 W. L’incertezza relativa di Pdis resta uguale a quella di P, mentre l’incertezza tipo diventa u(Pdis)= ur(P)Pdis = 0.054 W. L’incertezza sulla temperatura vale u(Tamb)= ur(Tamb)Tamb= 0.01×50 °C= 0.5 °C. La resistenza termica Rdis vale 12 °C/W e presenta incertezza estesa con fattore di copertura k=2 pari a 0.1 °C/W (semiampiezza dell’intervallo di confidenza del 95.5 %, quindi a 2). L’incertezza tipo di Rdis vale u(Rdis)=U(Rdis)/k=U(Rdise)/2=0.05 °C/W. Il valore della temperatura del processore vale: Tcpu=Tamb+PdisRdis=50 °C+3 W×12 °C/W=86 °C La sua incertezza si calcola come la somma delle incertezze standard delle variabili che costituiscono la legge: 2 2 2 f 2 f 2 f 2 u(Tcpu)= u Tamb u Pdis u Rdis = Tamb Pdis Rdis = u 2 Tamb Rdis u 2 Pdis Pdis u 2 Rdis °C 0.83 °C 2 2 4d) Per verificare la compatibilità tra le 2 misure di temperatura, supposte indipendenti, dobbiamo valutare se: Tcpu Tfactory k u 2 (Tcpu ) u 2 (Tfactory ) con un fattore di copertura ragionevole (k=1, 2, o 3). La compatibilità è verificata con k=2 (k≥ 1.62). Possiamo dunque ritenere le due misure compatibili con un fattore di copertura k=2. 4e) Per la misura della miglior stima Tstima della temperatura della cpu, disponendo di 2 misure compatibili, ricorriamo al criterio della media pesata tra misure compatibili: Tcpu Tfactory u 2 (Tcpu ) u 2 (Tfactory ) Tstima= 86.51 °C , molto vicina a Tcpu essendo 1/u2(Tcpu)>>1/u2(Tfactory) 1 1 u 2 (Tcpu ) u 2 (Tfactory ) con una incertezza della media pesata 1 u(Tstima)= 0.77 °C. 1 1 u 2 (Tcpu ) u 2 (Tfactory ) Pag.9/10 Esercizio 5 (tempo stimato 15 m) (svolgere su questo foglio e sul retro) 5a) Quali sono le unità di misura fondamentali del Sistema Internazionale e con che incertezza sono realizzati i relativi campioni primari? 5b) Si dia la definizione dell’unità di tempo (intervallo di tempo) discutendone anche la realizzazione pratica e l’accuratezza del campione primario. 5a) Si veda il libro di testo e gli appunti del corso. 5b) Si veda il libro di testo e gli appunti del corso. Pag.10/10