STATISTICA E MISURAZIONE giovedì 6 luglio 2006 Prof. Cesare Svelto Tempo a disposizione 2h5min secondo appello AA 2005/2006 Aula V.s.9 ore 16.15 Cognome: _________________________ Nome: _______________________ Matricola e firma __ __ __ __ __ __ (stampatello) _______________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (4 + 8 + 7 + 7 + 7=33p) (crocettare) N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una penalità; se possibile, si chiede di crocettare anche i sottopunti svolti. SOLUZIONI (15 min) Esercizio 1 (svolgere su questo foglio e sul retro) 1a) Dopo aver indicato le relazioni tra unità lineari e logaritmiche di potenza elettrica, si convertano in watt i seguenti valori logaritmici di potenza: -76 dBm, -27 dBm, -9 dBm, +16 dBm, +33 dBm. 1b) Esistono costanti fisiche note senza incertezza? Se ne spieghi il motivo. 1a) P(dBm)=10 log 10 PmW 1 mW P( d Bm) e P(mW)= 10 P (dBm) -76 -27 -9 +16 +33 10 . P (mW) 10 (0.5)2=0.2510-7 10-32=210-3 (0.5)3=0.125 1022=40 1032=2103 -7 P (W) 2.510-11 210-6 1.2510-4 410-2 2 1b) Sì, si vedano nel testo del corso le definizioni delle unità di misura (costanti c, 0, 0) _______ Pag. 1/8 (35 min) Esercizio 2 (svolgere su questo foglio e sul retro) 2) La misura del livello h dell’acqua dal fondo di un pozzo con profondità L=100 m viene eseguita secondo tre metodi indipendenti: 1. in un primo caso dalla sommità del pozzo si solleva una corda che ha toccato il fondo del pozzo e se ne misura la lunghezza della parte bagnata h1=44.5 m con un metro che risolve il decimetro; 2. in un secondo caso si lascia partire dalla superficie dell’acqua un palloncino riempito con elio, che sale in aria alla velocità costante vp=1.000(4) m/s, e se ne cronometra il tempo di uscita dal pozzo: Tp uguale a un minuto, con incertezza estesa 9×10-3 al 99.7%; 3. in un terzo caso si lancia un impulso elettromagnetico dalla superficie del pozzo verso l’acqua e si misura il tempo di andata e ritorno con un circuito di conteggio quarzato. La frequenza di clock è fc=100 MHz e si contano Nc=37 impulsi di clock. 2a) Si ricavino le 3 misure (h1, h2, h3) del livello dell’acqua nel pozzo, esprimendo i risultati con l’incertezza assoluta a 2 cifre significative. Si indichino anche le incertezze relative delle 3 misure. 2b) Quante e quali misure sono tra loro compatibili per un fattore di copertura k=2? 2a) h1=44.5 m e u(h1)=h1/ 12 =10cm/ 12 =2.9 cm con risultato di misura h1=44.500(29) m e ur(h1)=u(h1)/h1=6.510-4. Per la seconda e terza misura, indichiamo con l la lunghezza del tratto di pozzo non riempito d’acqua (dal pelo dell’acqua alla sommità del pozzo): l=L-h e dunque l’altezza h cercata è h=L-l. (2) l2=vpTp=60 m e h2=L-l2=40 m. (1) ur(vp)=410-3 e ur(Tp)=Ur(Tp)/3=310-3 per cui ur(l2)= u r2 v p u r2 Tp 16 9 10 3 =510-3 e u(l2)=l2ur(l2)=0.3 m=30 cm da cui u(h2)=u(l2)=30 cm e infine h2=40.00(30) m e ur(h2)=u(h2)/h2=7.510-3. T=NcTc=Nc/fc=3710ns=370 ns con incertezza tipo (3) Il tempo di volo dell’impulso e.m. è u(T)=T/ 12 =10ns/ 12 =2.9 ns. L3=(c/2)T=55.5 m e h3=L-l3=44.5 m. u(l3)=(c/2)u(T)=0.45 m e u(h3)=u(l3)=0.45 m=45 cm da cui h3=44.50(45) m e ur(h3)=u(h3)/h3=1.010-2. 2b) Per decidere se vi è compatibilità, con un fattore di copertura k, tra due misure indipendenti si deve valutare se sussiste la disuguaglianza hi h j k u 2 hi u 2 hi . Nel caso della 1a e 3a misura, non occorre fare conti in quanto h2=h1 e quindi h2-h1=0: e la compatibilità è verificata per qualsiasi k. Nel caso della 1a e 2a misura, si verifica che per k=2 non vi è compatibilità: ragionando in centimetri, infatti, 450 non è ≤ di 2(30.14). Nel caso della 2a e 3a misura, si verifica che per k=2 non vi è compatibilità: ragionando in centimetri, infatti, 450 non è ≤ di 2(54.08). Pertanto, con un fattore di copertura k=2 sono tra loro compatibili 2 misure su 3 e in particolare la 1a e la a 3 misura. _______ Pag. 2/8 (25 min) Esercizio 3 (svolgere su questo foglio e sul retro) 3) Un ospedale tiene la statistica delle masse dei suoi neonati. I dati dell’ultima settimana sono: M (kg) =2.7, 3.5, 4.0, 3.8, 3.0, 3.9, 2.8, 3.5, 3.4, 4.0, 3.6, 2.9. 3a) Si individuino media, deviazione standard, e varianza campionaria dei dati. 3b) Si riportino i dati in un diagramma a rami e foglie. 3c) Si dia la definizione di k-esimo percentile e si calcoli il 90-esimo percentile dei dati. 3d) Dopo avere calcolato, con le formule e spiegazioni del caso, i valori caratteristici del box-plot dei dati, si disegni questa rappresentazione grafica (con tutti i punti misurati) commentando il box-plot ottenuto. Si riporti sulla stessa scala anche il diagramma a punti dei dati. 3a) Il numero di dati contenuti nel campione è n=12. 1 n La media campionaria dei dati è M M i 3.425 kg . n i 1 La varianza campionaria dei dati è s 2 1 n 1 n 2 2 2 2 M M M i nM 0.222 kg i n 1 i 1 n 1 i 1 La deviazione standard campionaria dei dati è s s 2 0.471 kg . 3b) Riportiamo i dati ordinati (secondo valori crescenti): M (kg) =2.7, 2.8, 2.9, 3.0, 3.4, 3.5, 3.5, 3.6, 3.8, 3.9, 4.0, 4.0. In questo caso possiamo scegliere come ramo la cifra intera e come foglia la prima cifra decimale dei valori numerici dei dati: Rami 2 3 4 foglie 7 8 9 0 4 5 5 6 8 9 0 0 3c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari all’intero prima e dopo di Ik ). Il 90-esimo percentile ha indice I90% = (12+1)90 /100 = 11.7, quindi il 90-esimo percentile è pari a un valore intermedio tra gli ultimi due dati: 90-esimo percentile = 4.0+(4.0-4.0)0.7 = 4.0 kg (gli ultimi due dati sono uguali!) 3d) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana, il primo e terzo quartile. La mediana è il 50-esimo percentile, per cui Tmediana = (12+1)50 /100 = 6.5, quindi la mediana è la media tra il sesto ed il settimo dato, che valgono entrambi 3.5 kg. Mediana=3.5 kg. Il primo quartile è il 25-esimo percentile, per cui I1Q = (12+1)25 /100 = 3.25, quindi il primo quartile è dato da: primo quartile= [ 2.9 + (3.0 – 2.9) 0.25 ] s= 2.925 kg = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (12+1)75 /100 = 9.75, quindi il terzo quartile è dato da: terzo quartile= [ 3.8 + (3.9 – 3.8) 0.75 ] s=3.875 kg = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 0.95 kg. I baffi si possono estendere fino a 1.5DIQ = 1.425 kg al di là del primo e terzo quartile, quindi fino a 2.925-1.425=1.5 kg e 3.875+1.425=5.3 kg. Ricordiamo comunque che i baffi si fermano all’ultimo dato _______ Pag. 3/8 contenuto entro questo limite (di 1.5DIQ): in questo caso sino al primo e all’ultimo dato del campione (non ci sono outliers). In figura (box-plot) sono riportati anche i punti sperimentali. _______ Pag. 4/8 (25 min) (svolgere su Esercizio 4 questo foglio e sul retro) 4) L’associazione consumatori decide di controllare la correttezza del peso dei sacchetti di arance da 3 kg. Il peso del sacchetto è predeterminato all’origine, con una deviazione standard di 50 g (dovuta al numero intero di arance e alla naturale dispersione del peso di una singola arancia). Vengono quindi pesati 25 sacchetti, ottenendo un peso medio di 2.980 kg. 4a) Si dia la definizione di livello di significatività e di potenza di un test statistico. 4b) Si effettui un test statistico per cercare di dimostrare, con significatività del 5 %, che il peso dei sacchetti è inferiore al peso dichiarato. Che tipo di test si è svolto, perché? 4c) Si calcoli il valore P per il test effettuato. 4d) (OPZIONALE) Supponendo che un’arancia pesi circa 200 g, quanto vale la deviazione standard del peso di un sacchetto? (si supponga che il produttore riempia i sacchetti con correttezza). 4a) Il livello di significatività di un test statistico è la probabilità di rifiutare l’ipotesi nulla, quando questa è vera. Si denota tipicamente con la lettera greca , e corrisponde alla probabilità di commettere un errore di tipo I: Livello di significatività = P(errore di tipo I) = P(rifiutare H0 quando H0 è vera) La potenza di un test statistico è la probabilità di rifiutare l’ipotesi nulla quando questa è falsa. È uguale a 1la probabilità di errore di tipo II: Potenza = 1 - = 1 - P(errore di tipo II) = 1 - P(accettare H0 quando H0 è falsa) La potenza è un parametro che ci descrive la capacità del test di rivelare le differenze della realtà rispetto ad H0. 4b) Effettuiamo il test statistico richiesto (test Z, in quanto vogliamo verificare il valor medio di una popolazione a varianza nota, =50 g). Seguiamo gli 8 passi descritti nel libro di testo. 1. Il parametro di interesse è il peso medio 2. H0: = 3000 g 3. H1: < 3000 g (il test è a un lato solo, in quanto vogliamo dimostrare che il peso medio è inferiore a quello dichiarato) 4. livello di significatività richiesto = 0.05 (attenzione, su un solo lato) 5. La statistica di test è la statistica Z: z0 X X X / n 6. Rifiutiamo H0 se Z < Z -1.64. Questo risultato si ricava dalla tabella della funzione cumulativa in corrispondenza di un valore di probabilità , ossia da P=1-(Z)=(-Z)=0.05 Z -1.64 7. Calcoliamo quindi z0: z 0 X X X / n 2980 3000 50 / 25 2 8. Conclusione: dato che z0=-2 < Z -1.64 rifiutiamo l’ipotesi nulla con livello di significatività 0.05: c’è abbastanza evidenza che l’ipotesi nulla sia falsa. 4c) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può ricavare direttamente dalla tabella dei valori della funzione cumulativa (della statistica Z o t a seconda del caso): ZP = z0 = -2, per cui il valore ricavato è PZ = ( z0 ) 0.02275 2.3 %. L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di significatività maggiore del 2.3 %. In questo caso, infatti, con = 5 % si è potuto rifiutare H0. Invece, con significatività minore del 2.3 % l’ipotesi H0 sarebbe stata accettata. _______ Pag. 5/8 4d) Un venditore onesto, sapendo che il peso medio di un’arancia è 200 g, riempie il sacchetto finché non supera i 2900 g (mediamente con N=15 arance), quindi lo chiude. In questo modo si ottiene una distribuzione pressoché uniforme del peso tra 2900 g e 3100 g, che ha una deviazione standard (si veda il calcolo per l’incertezza di quantizzazione) pari a P 12 200 g 12 57.7 g o anche N 200 g 200 g 57.7 g 12 12 _______ Pag. 6/8 (25 min) Esercizio 5 (svolgere su questo foglio e sul retro) 5a) Si supponga che la quantità di mele prodotta da un albero segua una distribuzione normale, con valor medio 20 kg e deviazione standard 4 kg. Quanto vale la probabilità che un frutteto con 10 meli produca meno di 170 kg di mele? 5b) Normalmente al primo luglio due alberi su 3 hanno già dei frutti. Quanto vale la probabilità che sui 10 alberi solo 3 abbiano frutti a quella data? 5c) Arrivati a novembre da ogni albero cade mediamente una foglia ogni minuto. Che tipo di distribuzione statistica possiamo utilizzare per descrivere il fenomeno di caduta delle foglie? Quanto vale la probabilità che in 10 minuti cadano esattamente 7 foglie? 5d) Se tenessimo in conto la possibilità di forti raffiche di vento, che cosa cambierebbe nell’analisi fatta al punto c)? 5a) La quantità di mele prodotta da 10 alberi è pari alla somma di dieci variabile casuali a distribuzione normale, che si possono considerare statisticamente indipendenti. Quindi è ancora una variabile casuale a distribuzione normale, con valor medio pari alla somma dei 10 valori medi e varianza pari alla somma delle dieci varianze: = 10 20 kg = 200 kg, 2= 10 (4 kg)2 = 160 kg2 da cui = 12.65 kg. Per calcolare la probabilità richiesta, standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo x che z è la VNS ricavata da x. 170 170 200 P( x 170) P z P z P( z 2.37) 0.00889 0.89 % (meno dell’1 %) 12.65 5b) Dato che ogni prova è un processo di Bernoulli (un albero ha oppure non ha i frutti, ovvero successo o insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x alberi con frutti su n alberi in totale segue la distribuzione binomiale, con probabilità di successo p =2/3=0.67: n 10 3 P(3 successi su 10 prove ) p x (1 p) nx 0.67 (0.33)103 0.01625 1.6 % x 3 n n! avendo ricordato che x x!(n x)! 5c) In prima approssimazione possiamo utilizzare una statistica poissoniana, in quanto le foglie che possono cadere sono moltissime, ognuna con una probabilità di caduta in un determinato istante molto bassa. Inoltre in prima approssimazione le singole cadute si possono considerare scorrelate. e x , x 0,1,2... La funzione di probabilità di una variabile poissoniana X vale f ( x) x! con valor medio = e varianza 2 = . Nel caso considerato, il valor medio vale = 1 foglia/minuto 10 minuti = 10 foglie. la probabilità che cadano esattamente 7 foglie in 10 minuti vale: e x e 1010 7 P ( x 7) 9.0% x! 7! 5d) In caso di forti raffiche di vento non sarebbe più valida l’ipotesi di cadute scorrelate: infatti, quando arriva una raffica di vento probabilmente cadono molte foglie. Questo significa che i singoli eventi non sono _______ Pag. 7/8 più indipendenti: il fatto che sia appena caduta una foglia aumenta notevolmente la probabilità che ne cada un’altra molto presto. In conclusione la statistica poissoniana non sarebbe più applicabile. _______ Pag. 8/8