STATISTICA E MISURAZIONE giovedì 17 febbraio 2005 Prof. Cesare Svelto Primo appello AA 2004/2005 Tempo a disposizione 2 ore e 15 min (1 ora e 45 min metà prova) Aula Vs.9 ore 12.30 Cognome: __________________________ nome: _____________________ Matricola e firma __ __ __ __ __ __ (stampatello) _____________________ (firma leggibile) N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una penalità. Crocettare la scelta e gli esercizi svolti (almeno parzialmente) SOLO PRIMA PARTE (1 2 3) SOLO SECONDA PARTE(4 5 6) ESAME INTERO (1bc 2 4 5) Punteggi: (10+12+11=33 p) (11+13+9=33 p) (5+9+9+10=33 p) SOLUZIONI Esercizio 1 (svolgere su questo foglio e sul retro) 1) 1a) 1b) 1c) Intendiamo valutare la velocità di esecuzione di un applicativo su una determinata macchina di calcolo, al variare delle condizioni di utilizzo (altri programmi lanciati). Lo facciamo eseguire 12 volte e misuriamo il tempo di esecuzione impiegato, ottenendo i seguenti valori: X [s] = 11.5 9.6 11.3 10.8 12.2 8.9 11.1 10.9 10.1 9.3 11.4 14.5 (SOLO PRIMA PARTE) Si calcolino media e varianza campionaria del tempo di esecuzione, spiegando l’utilità di queste statistiche. Si costruisca un diagramma rami e foglie dai dati misurati. Si dia la definizione di percentile, si calcoli il 70-esimo percentile e si rappresenti il box-plot dei dati, riportando i calcoli fatti per ottenerne i valori significativi. 1a) media campionaria = x 1 n xi 10.97 s n i 1 n (x x) varianza campionaria = s 2 2 i 2.21 s2 n 1 La media campionaria è uno stimatore non polarizzato del valor medio della popolazione che si sta campionando. Si può dimostrare che è uno stimatore più efficiente che non il singolo campione, in quanto presenta un errore quadratico medio inferiore. La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura del grado di dispersione della popolazione attorno alla media. i 1 1b) Disponendo di N dati si ottiene: Diagramma rami e foglie, con Rami Foglie 8 9 9 3 6 10 1 8 9 11 1 3 4 12 2 14 5 N = 12 5 _______ Pag. 1/10 Esercizio 1 [30 minuti] (continua) 1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari all’intero prima e dopo di Ik ). Il 70-esimo percentile ha indice I70% = (12+1)70 /100 = 9.1, quindi il 70-esimo percentile è pari a 70-esimo percentile = 11.4+(11.5-11.4)0.1 = 11.41 s Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I 12 dati ordinati sono X [s]: 8.9 9.3 9.6 10.1 10.8 10.9 11.1 11.3 11.4 11.5 12.2 14.5 La mediana è il 50-esimo percentile, per cui Imediana = (12+1)50 /100 = 6.5, quindi la mediana è pari alla media del sesto e del settimo dato. Mediana= (10.9+11.1)/2=11 s Il primo quartile è il 25-esimo percentile, per cui I1Q = (12+1)25 /100 = 3.25, quindi il primo quartile è dato da: primo quartile= 9.6+(10.1-9.6)0.25 = 9.725 s = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (12+1)75 /100 = 9.75, quindi il terzo quartile è compreso tra il decimo e l’undicesimo dato, per interpolazione otteniamo: terzo quartile= 11.4+(11.5-11.4)0.75 = 11.475 s = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 1.75 s I baffi si possono estendere fino a 1.5DIQ = 2.625 s, quindi fino a 9.725-2.625=7.1 s e 11.475+2.62514.1 s. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite: in questo caso sino al dato 1 (baffo inferiore) pari a 8.9 s, e sino al dato 11 (baffo superiore) pari a 12.2 s. Minimo dato=8.9 s Massimo dato=14.5 s 1 8 9 10 11 12 Tempo [s] 13 14 15 16 In figura sono riportati anche i punti sperimentali. _______ Pag. 2/10 Esercizio 2 (svolgere su questo foglio e sul retro) 2) 2a) 2b) 2c) 2d) Si consideri un canale digitale di trasmissione dati con bit error rate pari a 10-9, in cui i singoli errori si possono considerare completamente scorrelati (non si presentano burst di errori). Che tipo di distribuzione può descrivere la variabile casuale “numero di errori su n bit”? Spiegare i motivi della propria scelta. Quanto vale la probabilità che in 2 Gbit trasmessi ci siano esattamente 3 errori? Per il danneggiamento di un ripetitore si verifica un crollo del rapporto segnale-rumore, che porta il ricevitore a compiere un errore ogni 10 bit ricevuti. Si utilizza un codice a correzione di errore in grado di riparare 1 bit su 10. Quanto vale la probabilità che una singola parola di 10 bit sia letta correttamente? Considerando la situazione del punto c) quanto vale la probabilità che su 1000 parole trasmesse quelle errate siano meno di 250? 2a) La variabile casuale “numero di errori” segue una distribuzione poissoniana. Infatti in questo caso si parte da un processo di Bernoulli (un bit può essere solo giusto o sbagliato), con una probabilità di “successo” molto bassa ed un numero molto alto di estrazioni (i bit trasmessi sono moltissimi). Inoltre gli errori si possono considerare scorrelati. Siamo quindi nelle condizioni in cui si può considerare valido il limite per n→ di una distribuzione e x binomiale: è possibile dimostrare che f ( x) , x 0,1,2... si ottiene matematicamente dalla x! distribuzione binomiale quando il numero di estrazioni n è molto alto e la probabilità di successo p è molto bassa, con = np. 2b) Su 2 Gbit il valor medio di errore vale = 10-9 errori/bit 2109 bit= 2. La probabilità di avere esattamente 3 errori è pari a e 3 e 2 2 3 P( x 3) 18 % 3! 3! 2c) In questo caso utilizziamo una distribuzione binomiale (non vale più l’approssimazione di n→ del punto 3a), dato che ogni prova è un processo di Bernoulli, le prove sono indipendenti e la probabilità di successo in ogni prova è costante p =1/10=0.1. Una parola di 10 bit è letta correttamente se contiene 0 o 1 errore (che viene corretto dal codice). La probabilità che una parola di 10 bit (n=10) contenga meno di due errori vale: P(parola letta correttame nte ) P(0 errori su 10 prove ) P(1 errore su 10 prove ) n n p 0 (1 p) n 0 p1 (1 p) n 1 0.3487 0.3874 73.6% 0 1 2d) Siamo ancora di fronte ad un processo binomiale, con probabilità di successo p=1-0.736=0.264 (probabilità di avere una parola errata, dopo il codice a correzione di errori). Dato l’elevato numero di parole il calcolo manuale della probabilità tramite la distribuzione binomiale è impossibile. Decidiamo quindi di utilizzare l’approssimazione gaussiana, con valor medio np264 e varianza np(1-p)194.3. L’approssimazione è valida in quanto sia np che n(1-p) sono molto maggiori di 1 (tipicamente si considera attendibile l’approssimazione per valori superiori a 5). Calcoliamo quindi la probabilità tramite standardizzazione (consideriamo come estremo 249.5 per approssimare meglio il minore stretto): 249.5 np 249.5 264 P( x 249.5) P z z P( z 1.04) 0.1492 14.92% 13.94 np(1 p) In effetti il calcolo esatto tramite la distribuzione binomiale cumulativa (effettuato a calcolatore) fornisce una probabilità del 14.90%, veramente in ottimo accordo con l’approssimazione effettuata. _______ Pag. 3/10 Esercizio 3 (SOLO PRIMA PARTE) (svolgere su questo foglio e sul retro) 3) 3a) 3b) 3c) Un docente universitario, non volendo correggere i compiti d’esame, attribuisce i voti agli esercizi lanciando un dado. Ogni compito è fatto da 5 esercizi, che valgono 6 punti ciascuno e il voto finale è la somma dei 5 punteggi. Gli studenti, sapendolo, sostituiscono il dado con uno astutamente truccato, che ha le seguenti probabilità: p(1)=p(2)=p(3)=p(4)=p(5)=0.1, p(6)=0.5. Quanto valeva il valor medio dei voti con il dado normale? E con il nuovo dado? Quanto vale la probabilità che il valor medio dei voti di 50 esercizi sia maggiore di 5 (con il nuovo dado)? Su una classe di 20 studenti quanto vale la probabilità che ci sia un solo studente bocciato? 3a) In questo caso abbiamo una distribuzione di probabilità discreta, con 6 valori possibili, che consideriamo equiprobabili con p=f(xj)=1/6 (supponiamo che il dado non sia truccato). Il valore atteso di questa distribuzione di probabilità vale (si veda il capitolo 3): Δ Δ n E ( X ) x j f ( x j ) =(1+2+3+4+5+6)/6=3.5 j 1 Per cui il valore atteso del voto (dato dalla somma di 5 lanci) vale 3.5 5 = 17.5. (insuff.) Ripetiamo il calcolo per il dado truccato: Δ Δ n E ( X ) x j f ( x j ) =(1+2+3+4+5)×0.1+6×0.5 = 4.5 j 1 Per cui il valore atteso del voto vale 4.5 5 = 22.5. (più che suff.) 3b) Dato che è troppo lungo calcolare la probabilità dal conteggio di tutti i casi positivi rispetto al numero di casi totali (6 valori possibili per 50 lanci = 650 casi possibili, per ognuno bisognerebbe fare il conto della media e infine contare quante medie sono maggiori di 5), decidiamo di sfruttare il teorema del limite centrale: il valor medio dei voti tende a seguire una distribuzione gaussiana, con varianza data dalla varianza della singola estrazione divisa per il numero di estrazioni. La varianza della singola estrazione vale (si veda il capitolo 3): n n i 1 i 1 2 V ( X ) ( xi ) 2 f ( xi ) xi 2 f ( xi ) 2 =(12+22+32+42+52)×0.1+62×0.5 - 4.52 = 3.25 La deviazione standard del valor medio su 50 prove vale dunque: 1.803 x 0.255 n 50 Calcoliamo quindi la probabilità per standardizzazione: 5 5 4.5 z P( x 5) P z P( z 1.96) 1 P( z 1.96) 2.5% x 0.255 3c) La Probabilità di promozione/bocciatura di un singolo studente può essere calcolata esattamente, ma il calcolo dei casi a mano è ancora proibitivo, per cui decidiamo ancora di ricorrere all’approssimazione gaussiana, questa volta su 5 lanci (l’approssimazione ora non sarà particolarmente accurata, ma almeno ci fornirà un risultato rapido e abbastanza attendibile). Uno studente è bocciato quando la media degli esercizi è inferiore a 18/5=3.6. La deviazione standard del valor medio su 5 prove vale: 1.803 x 0.806 n 5 _______ Pag. 4/10 Esercizio 3 [30 minuti] (continua) Calcoliamo quindi la probabilità per standardizzazione: 3.6 3.6 4.5 z P( x 3.6) P z P( z 1.117) 13.2% x 0.806 Per il calcolo di questo caso (probabilità di avere un solo studente bocciato) utilizziamo una distribuzione binomiale, dato che ogni prova è un processo di Bernoulli (uno studente è promosso o bocciato), le prove sono indipendenti e la probabilità di successo in ogni prova (bocciatura) è costante p =0.132. La probabilità che venga bocciato uno studente su 20 vale quindi: n 20 P( x 1) p1 (1 p) n1 0.132(1 0.132)19 18% 1 1 _______ Pag. 5/10 Esercizio 4 (svolgere su questo foglio e sul retro) 4) Intendiamo controllare lo spessore di pentole di acciaio di una televendita di un nostro concorrente. L’offerta al pubblico garantisce 1 cm di spessore del fondo. Prendiamo quindi 15 pentole e ne misuriamo lo spessore, ottenendo un valor medio pari a 0.85 cm e una varianza campionaria di 0.04 cm2. 4a) Si dia una definizione di Potenza di un test statistico, e delle probabilità di errore di tipo I e di tipo II. 4b) Si effettui un test statistico con lo scopo di verificare se lo spessore del fondo è diverso dal valore nominale (ovviamente ci interessa dimostrare che è inferiore), con livello di significatività pari a 1 %. 4c) Intendiamo anche valutare la percentuale di pentole ammaccate che vengono vendute. La ditta dichiara che la percentuale è inferiore all’1%. Noi controlliamo 250 pentole e ne troviamo 5 ammaccate. È possibile smentire la dichiarazione della ditta con livello di significatività del 5%? 4a) La potenza di un test statistico è la probabilità di rifiutare l’ipotesi nulla quando questa è falsa. È uguale a 1- la probabilità di errore di tipo II: Potenza = 1 - = 1 - P(errore di tipo II) = 1 - P(accettare H0 quando H0 è falsa) La potenza è un parametro che ci descrive la capacità del test di rivelare le differenze della realtà rispetto ad una ipotesi fatta (ipotesi nulla). Si commette un errore di tipo I se si rifiuta l’ipotesi nulla quando è vera. Si commette un errore di tipo II se non si rifiuta l’ipotesi nulla quando è falsa. 4b) Si tratta di un test t, in quanto dobbiamo stimare il valor medio di una popolazione con varianza ignota. Il numero di gradi di libertà = n – 1 = 14. La deviazione standard campionaria vale. s x s 2 ( x) 0.04 0.2 cm Effettuiamo quindi un test t. 1. Il parametro di interesse è lo spessore del fondo delle pentole 2. H0: = 1 cm 3. H1: < 1 cm (il test è a un solo lato, in quanto vogliamo dimostrare che le pentole hanno uno spessore inferiore a quello dichiarato) 4. Livello di significatività richiesto = 0.01 5. La statistica di test è la statistica t: t 0 X X sX s/ n 6. Rifiutiamo H0 se t0 < -t,14 = -2.624 (questo risultato si ricava dalla tabella dei punti percentuale della distribuzione t, con = 14 e = 0.01) 7. Calcoliamo quindi t0, t 0 X X 0.85 1 2.905 sX s / n 0.2 / 15 8. Conclusione: rifiutiamo l’ipotesi nulla con livello di significatività 0.01. _______ Pag. 6/10 Esercizio 4 (continua) 4c) Ora dobbiamo effettuare un test di proporzioni. Seguiamo gli otto passi consueti. 1. Il parametro di interesse è la percentuale di pentole ammaccate 2. H0: p = 1% 3. H1: p > 1% (il test è a un solo lato anche in questo caso) 4. livello di significatività richiesto = 0.05 X np0 5. La statistica di test è Z o dove X = 5, n = 250 e p0 = 0.01 np0 (1 p0 ) 6. Rifiutiamo H0 se Z0 > Z0.05 = 1.645 (vedi tabella) 5 250 0.01 1.589 7. Calcolo: Z o 250 0.01(1 0.01) 8. Conclusione: dato che Z0 < Z0.05 non possiamo rifiutare l’ipotesi nulla: non c’è abbastanza evidenza che la percentuale di pentole ammaccate sia veramente maggiore dell’1%. _______ Pag. 7/10 Esercizio 5 (svolgere su questo foglio e sul retro) 5) Un fornelletto elettrico è costituito da una resistenza di valore nominale R=50 Ω, caratterizzata da una PDF di valori triangolare da 40 Ω a 60 Ω. Il resistore è alimentato direttamente dalla tensione di rete (in Europa 220 V efficaci), che ha una incertezza del 5% sul valore di ampiezza. La potenza termica, sviluppata per effetto Joule, è impiegata per riscaldare un volume di acqua. Il volume di acqua considerato è un cilindro a base circolare con diametro D=10 cm±1 mm e altezza h misurata in 6 letture ripetute (hi= 5.0; 5.3; 4.9; 4.7; 5.0; 5.1 cm). 5a) Calcolare la potenza termica sviluppata sul resistore e la sua incertezza tipo, sia in watt che in unità logaritmiche (si utilizzi il dBW). 5b) Ricavare il volume V dell’acqua riscaldata e la sua incertezza estesa con un fattore di copertura k=3. 5c) Si calcoli il tempo T che occorre per innalzare la temperatura del volume d’acqua da 20 ºC a 50 ºC (in assenza di dissipazione del calore). 5d) Se il tempo T è misurato con un orologio analogico tradizionale (3 lancette: hh, mm, ss). Si indichi la risoluzione ΔT della misura. 5e) Supponendo di voler ricavare il volume dell’acqua a partire dalla nostra misura di tempo, come inciderebbe l’incertezza della misura di tempo sull’incertezza del volume (ricavare l’espressione analitica, trascurando tutti gli altri contributi di incertezza e facendo i commenti del caso)? Si ottenga anche il risultato numerico in termini di incertezza relativa, ur(V). Nota: Si ricordi che 1g di acqua si scalda di 1ºC per ogni caloria fornita (1cal=4.18J). 5a) L’espressione della potenza è: P=V2/R con V=220 V valore efficace della tensione di rete e carico di R=50 Ω. Dunque P=(220 V)2/(50 Ω)=968 W. Inoltre P(dBW)=10 log10(P/1 W)= 29.9 dBW30 dBW. L’incertezza su R, PDF triangolare di piena larghezza Δx=20 Ω, è u(R)= Δx/ 24 =4.1 Ω, con una incertezza relativa ur(R)= u(R)/R=4.1/50=8×10-2. L'incertezza su V è pari al 5% del valore di V e dunque u(V)=5×10-2×V=11 V. L'incertezza di P si calcola come: ur(P)= 4u r2 (V ) u r2 ( R) = 4 25 10 4 64 10 4 13×10-2=13% u(P)= ur(P)×P=124 W 1.3×102 W. Quindi P=968±124 W ovvero: P(dBW)30 dBW P2(dBW)=10log10(1092)=30.4 dBW P1(dBW)=10log10(844)=29.3 dBW Per cui la notazione dell’incertezza è P(dBW) 29.9 dBW 0.5 dB - 0.6 dB _______ Pag. 8/10 Esercizio 5 (continua) 5b) Per stimare il volume dell’acqua del cilindro calcoliamo il valor medio delle altezze h= h = 1 6 hi =5.0 cm. 6 i 1 La deviazione standard campionaria vale Sh= 2 1 n hi h = 0.2 cm. n 1 i 1 L’incertezza tipo su 6 misure vale quindi u(h)=Sh / n 8.2×10-2cm. Per il volume dell’acqua può essere calcolato come: V=π(D2/4)h=392.7 cm3 corrispondenti a 392.7 g (ρH2O=1 g/cm3). Per cui l’incertezza relativa dell’altezza è: ur(h)=(8.2×10-2)/5=16.4×10-31.7×10-2. Quella del diametro del cilindro: ur(D)=(0.1/10)=10-2.Per cui l’incertezza totale sul volume è: ur(V)= 4u r2 ( D) u r2 (h) = 4 2.9 ×10-2=2.6×10-2. Quindi il valor medio del volume è: u(V)= ur(V)×V=10.31 cm310 cm3. Quindi la sua incertezza estesa con un fattore di copertura k=3 è: U(V)=ku(V)30 cm3. 5c) Per calcolare il tempo necessario ad innalzare la temperatura dobbiamo calcolare l’energia necessaria al sistema per evolvere dal suo stato: E=ΔE=[30ºC]×[4.18 J/(gºC)]×[392.7 g]=49.245 kJ. Sapendo che: E J E = W = t s T Possiamo calcolare facilmente il tempo: T=E/P49 kJ/1 kW=49 s P= 5d) La risoluzione, minima variazione apprezzabile, di un orologio analogico è ΔT=1 s. 5e) Dato che il tempo di riscaldamento è direttamente proporzionale al volume da riscaldare, considerando nulle le incertezze degli altri fattori (differenza di temperatura e potenza termica), l’incertezza relativa delle due grandezze è uguale. L’incertezza sul tempo è data dalla sola quantizzazione, quindi 1 s 0.29 s u (T ) 12 che corrisponde ad un’incertezza relativa ur(T)= u(T)/T =0.29 / 49 0.59 %= ur(V) _______ Pag. 9/10 Esercizio 6 (SOLO SECONDA PARTE) (svolgere su questo foglio e sul retro) 6a) Quali sono le unità di misura fondamentali del SI e che grandezze definiscono. 6b) Si illustrino le principali differenze (vantaggi/svantaggi) dei riferimenti manufatti rispetto ai riferimenti “universali”. 6c) Si devono calcolare le potenze elettriche su un carico R=50 per i seguenti valori di corrente o tensione (in continua) sul carico: I1=1 A; I2=1 mA; V3=5 V; V4=10 V; I5=1 nA. Si scrivano e si spieghino le espressioni analitiche che consentono di effettuare i calcoli richiesti. 6d) Si esprimano le 5 potenze Pi (i=1,2,…,5) sia in watt che in dBm. 6e) Nei casi i=3,4 si calcolino i rapporti di ampiezze, r3,4=(V3/V4), e di potenze, R3,4=(P3/P4), sia in unità lineari che logaritmiche. 6a) Si vedano il libro e gli appunti del corso. 6b) Si vedano il libro e gli appunti del corso. 6c) La potenza elettrica su un carico vale P=VI dove V e I sono, rispettivamente, la tensione ai capi del carico e la corrente che lo attraversa. Se il carico è un resistore di valore R attraversato da corrente I la potenza è P=RI2, considerando la tensione ai capi del resistore P=V2/R. Inoltre, per trasformare un valore di potenza P espresso in watt nel corrispondente valore espresso in dBm, si usa la formula: P(dBm)=10log10[P(W)/(1 mW)]. 6d) Grazie alle relazioni precedentemente indicate, si ottiene: I (A) 1 I (A) 1,00E-03 V (V) 5 V (V) I (A) 1,00E-05 1,00E-09 P (W) 50 P (W) 0,00005 P (W) 0,5 P (W) 2E-12 P (W) 5E-17 P (mW) 50000 P (mW) 0,05 P (mW) 500 P (mW) 2E-09 P (mW) 5E-14 P (dBm) 46,9897 47,0 47 P (dBm) -13,0103 -13,0 -13 P (dBm) 26,9897 27,0 27 P (dBm) -86,9897 -87,0 -87 P (dBm) -133,01 -133,0 -133 R (ohm) 5,00E+01 Dunque, Pi,(W)=50 W, 50 W, 0.5 W, 2 pW; 50 aW o anche Pi,(dBm)=+47 dBm; -13 dBm; +27 dBm; -87 dBm; -133 dBm. 6e) r3,4=(V3/V4)=5105 [in ampiezza]=114 dB, e potenze, R3,4=(P3/P4)=2.51012 [in potenza]=114 dB. _______ Pag. 10/10