STATISTICA E MISURAZIONE venerdì 10 febbraio 2006 Prof. Cesare Svelto Tempo a disposizione 2 ore e 10 minuti Prova in itinere AA 2005/2006 Aule V.0.8 ore 12.30 Cognome: __________________________ Nome: _____________________ (stampatello) Matricola: __ __ __ __ __ __ Firma: _____________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 (7+8+8+10=33pt) (crocettare) N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”. SOLUZIONI Esercizio 1 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 1) 1a) 1b) 1c) 1d) Intendiamo effettuare uno studio statistico dell’altezza dei ragazzi in una classe di 13 persone. Le altezze misurate valgono : x [cm] = 160; 183; 174; 169; 182; 187; 176; 177; 164; 191; 179; 170; 177. Si calcolino media e varianza campionaria dell’altezza, spiegando l’utilità di queste statistiche. Si riportino i dati in un diagramma rami e foglie ordinato. Si definisca il k-esimo percentile, indicandone l’espressione generale di calcolo; si calcoli il 44-esimo percentile dell’insieme considerato. Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i valori significativi. 1a) media campionaria = x 1 n xi 176.0769 cm n i 1 n (x x) varianza campionaria = s 2 2 i 77.5769 cm2 n 1 La media campionaria è uno stimatore non polarizzato del valor medio della popolazione rappresentata dal campione. Si può dimostrare che è uno stimatore più efficiente che non il singolo dato, in quanto presenta un errore quadratico medio inferiore. La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura del grado di dispersione della popolazione attorno alla media. i 1 1b) Riportiamo i dati ordinati: x [cm] = 160; 164; 169; 170; 174; 176; 177; 177; 179; 182; 183; 187; 191. Con 13 dati un numero sensato di rami è 4 o 5 (ricordiamo la legge 1+log2(n), o anche n ), in questo caso possiamo scegliere le decine come rami e le unità come foglie, individuando 4 classi/rami: rami 16 17 18 19 foglie 0 4 9 0 4 6 7 7 9 2 3 7 1 Pag.1/8 Esercizio 1 [30 minuti] (continua) 1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice ottenuto si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici uguali all’intero prima e dopo di Ik ). Il 44-esimo percentile ha indice I44% = (13+1)44 /100 = 6.16, quindi il 44-esimo percentile è pari a 44-esimo percentile = 176+(177-176)0.16 = 176.16 cm 1d) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I 13 dati ordinati sono x [cm] = 160; 164; 169; 170; 174; 176; 177; 177; 179; 182; 183; 187; 191. La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana è pari al settimo dato. Mediana= 177 cm. Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è dato dalla media tra il terzo e il quarto dato: primo quartile= (169+170)/2 = 169.5 cm = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è dato dalla media tra il decimo e l’undicesimo dato: terzo quartile= (182+183)/2 = 182.5 cm = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 13 cm. I baffi si possono estendere fino a 1.5DIQ = 19.5 cm al di là del primo e del terzo quartile, quindi fino a 169.5-19.5=150 cm e 182.5+19.5=202 cm. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite calcolato: in questo caso sino al dato 1 (baffo inferiore) pari a 160 cm, e sino al dato 13 (baffo superiore) pari a 191 cm. In figura è riportato anche il diagramma a punti (dot-plot). 1 160 165 170 175 180 Valori di altezza [cm] 185 190 195 Pag.2/8 Esercizio 2 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 2) 2a) 2b) 2c) 2d) Un gestore di un sito web è interessato a controllare gli accessi al suo sito. Nel sito è presente un banner pubblicitario che mediamente viene selezionato da un visitatore su 4. Quanto vale la probabilità che su 10 visitatori, almeno 2 selezionino il banner pubblicitario? Il numero medio di visitatori del sito è 100 all’ora (pressoché costante e indipendente dall’ora del giorno considerata, essendo un sito internazionale). Che distribuzione di probabilità segue il numero di visitatori in un tempo prefissato? Perché? Si calcoli la probabilità che in 6 minuti si connettano esattamente 8 visitatori. Lo sponsor propone due metodi di pagamento: o 10 000 € fissi all’anno oppure 1 € ogni 20 visitatori che selezionano il banner. Quale metodo è più conveniente per il gestore del sito? Quanto vale la probabilità che in un anno ci siano più di 875 000 visite al sito web? 2a) Dato che ogni prova è un processo di Bernoulli (ogni visitatore seleziona oppure non seleziona il banner, ovvero successo o insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x selezioni su n visite segue la distribuzione binomiale, con probabilità di successo p =1/4=0.25 : n n P(almeno 2 successi su 10 prove ) 1 P( x 0) P( x 1) 1 p x (1 p) n x p x (1 p) n x x x x 0 x 1 10 10 0 1 1 0.25 (0.75)100 0.25 (0.75)101 1 0.0563 0.1877 75.6 % 0 1 n n! avendo ricordato che x x!(n x)! 2b) Questo fenomeno segue una distribuzione di probabilità poissoniana. Infatti il singolo evento “visita” è un processo di Bernoulli, che si può ritenere scorrelato (anche per l’ipotesi che il valor medio resta costante), con un numero altissimo di utenti possibili ed una probabilità di visita del sito specifico, per singolo utente, molto bassa. e x La funzione di probabilità di una variabile poissoniana X vale f ( x) , x 0,1,2... x! il suo valor medio vale = e la sua varianza vale 2 = . Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono casualmente in un dato intervallo di tempo. Il valor medio in questo caso vale = 100 visite/ora × 1/10 ora = 10 visite La probabilità che in 6 minuti si connettano esattamente 8 visitatori vale quindi e x e 10108 P( x 8) 11.26 % x! 8! 2c) Calcoliamo prima di tutto il numero atteso di visitatori all’anno Nanno Nanno = 365 giorni × 24 ore/giorno × 100 visitatori/ora = 876 000, Il numero atteso di visitatori che selezionano il banner vale Nanno /4 = 219 000. Con la modalità di pagamento proporzionale alle visite, il valore atteso del pagamento vale 219 000 visite × 1 € / 20 visite= 10 950 € In conclusione per il gestore del sito è conveniente accettare questa modalità di pagamento (proporzionale), in quanto il suo valore atteso è superiore a 10 000 € (prezzo fisso dell’altra modalità). Pag.3/8 2d) Data la complessità del calcolo tramite la formula della poissoniana, decidiamo di sfruttare l’approssimazione gaussiana della poissoniana. Il valor medio del numero di visite all’anno è stato calcolato nel punto c): = 876 000 visite. Ricordiamo che questo valore rappresenta anche la varianza della distribuzione poissoniana. L’approssimazione gaussiana è valida in quanto è molto maggiore di 1 (tipicamente si considera attendibile l’approssimazione per valori superiori a 5): in questo caso sicuramente l’approssimazione è molto buona. Calcoliamo quindi la probabilità tramite standardizzazione: 875000 875000 876000 P( x 875000) P z z P( z 1.068) P( z 1.068) 85.7% 936 Il calcolo esatto tramite la distribuzione poissoniana (effettuato a calcolatore) fornisce una probabilità pari a 85.72%, praticamente identica al valore ottenuto con l’approssimazione effettuata (in effetti calcolando il valore della funzione normale cumulativa tramite PC si ottiene proprio 85.72 %; a partire dalle tabelle ovviamente non si riescono a stimare 4 cifre significative). Pag.4/8 Esercizio 3 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 3) Siamo interessati a controllare l’attendibilità di un fornitore di componenti elettronici passivi. Compriamo quindi un set di resistenze dal valore nominale di 1 kΩ e deviazione standard dichiarata pari a 12 Ω. Misuriamo 61 resistenze ottenendo un valor medio pari a 996 Ω e una varianza campionaria pari a 225 Ω2. 3a) Si definisca l’efficienza relativa di due stimatori dello stesso parametro, in funzione dei loro errori quadratici medi. Si proponga un esempio di due stimatori di una stessa variabile, valutandone l’efficienza relativa. 3b) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare il valore nominale della resistenza. Non si consideri attendibile la varianza dichiarata dal produttore. 3c) Quanto vale il valore P del test effettuato? 3d) Intendiamo quindi controllare la varianza dichiarata. Si effettui un test statistico con livello significatività pari al 5 %. 3a) L’efficienza relativa di due stimatori ̂1 e ̂ 2 di un parametro è definita come Efficienza relativa ˆ E ˆ dove MSE ˆ MSE 1 ˆ MSE 2 2 è l’errore quadratico medio dello stimatore, pari alla somma della varianza dello stimatore e della sua polarizzazione al quadrato. Un esempio può essere ̂1 la media campionaria di n estrazioni e ̂ 2 la singola estrazione, entrambi stimatori del valore atteso della popolazione, con efficienza relativa pari a: ˆ MSE 2 n 1 1 Efficienza relativa 2 ˆ n MSE 2 3b) Effettuiamo il test statistico richiesto (test t, in quanto vogliamo verificare il valor medio di una popolazione a varianza ignota). Il numero di gradi di libertà = n – 1 = 60. Seguiamo gli 8 passi descritti nel libro di testo. 1. 2. 3. 4. Il parametro di interesse è il valore medio delle resistenze H0: = 1 kΩ H1: 1 kΩ (il test è a due lati, in quanto vogliamo verificare l’esattezza del valore) livello di significatività richiesto = 0.01 (attenzione, su due lati) 5. La statistica di test è la statistica t: t 0 X X sX s/ n 6. Rifiutiamo H0 se |t0| > t/2,60 = 2.660. (questo risultato si ricava dalla tabella dei punti percentuale della distribuzione t, con = 60) 7. Calcoliamo quindi t0, t 0 X X 996 1000 2.08 sX s/ n 15 / 61 8. Conclusione: dato che |t0|=2.08 < t/2,60 = 2.660 non rifiutiamo l’ipotesi nulla con livello di significatività 0.01: non c’è abbastanza evidenza che l’ipotesi nulla sia falsa. Pag.5/8 3c) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può ricavare direttamente dalla tabella t: tP/2,60 = t0 = -2.08, per cui il valore P/2 0.025, da cui il valore P 0.05. L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di significatività maggiore del 5 %. In questo caso con = 1 % non si è potuto rifiutare H0. 3d) Intendiamo valutare se la varianza dichiarata non sia attendibile in questo caso. Effettuiamo quindi un test 2, seguendo gli 8 passi descritti nel libro di testo: 1. Il parametro di interesse è la varianza del valore di resistenza 2. H0: 2 =02 = (12 Ω)2=144 Ω2 3. H1: 2 > 02 (il test è a un solo lato perché ci interessa dimostrare che la dispersione dei valori è maggiore di quella dichiarata) 4. livello di significatività richiesto = 0.05 5. La statistica di test è la statistica X 2 0 (n 1) s 2 02 6. Rifiutiamo H0 se X02 > 02.05,60 79.08 (questo valore si ricava dalla tabella della distribuzione 2, con 60 gradi di libertà, in corrispondenza del 5 %) 7. Calcoliamo quindi X 02 (n 1) s 2 2 0 60 225 93.75 144 8. Conclusione: dato che X02 =93.75 > 02.05,60 79.08 possiamo rifiutare l’ipotesi nulla con livello di significatività 0.05: c’è forte evidenza che la varianza del valore di resistenza sia superiore a 144 Ω2 Pag.6/8 Esercizio 4 (tempo stimato 40 m) (svolgere su questo foglio e sul retro) 4) La potenza elettrica dissipata da un microprocessore per PC è direttamente proporzionale alla sua frequenza di clock fc, e al quadrato della sua tensione di alimentazione VAL, attraverso una costante caratteristica =2×10-8(Hz×Ω)-1, fornita dal costruttore con incertezza estesa 4.8×10-2 per un fattore di copertura k=2. Si dispone di un processore che lavora ad una frequenza fc, misurata attraverso un contatore elettronico (frequenzimetro) mediante una serie di misure ripetute fc,i=2007, 2006, 1999, 1997, 1998, 2005 [MHz]. La tensione di alimentazione del processore è VAL = 1500 mV, e viene misurata con un multimetro ideale, a display digitale con risoluzione 10 mV. 4a) Si esprimano i valori e le incertezze tipo di fc, VAL e . 4b) Si calcoli la potenza elettrica Palim erogata al microprocessore e la sua incertezza tipo. 4c) Sapendo che la temperatura del microprocessore è Tcpu= 86 °C, misurata con incertezza dell’1 %, e la resistenza termica del dissipatore è Rdis= 0.404(2) °C/W, si calcoli la potenza dissipata dal processore Pcpu e la sua incertezza tipo. La relazione che lega la temperatura alla potenza dissipata è Tcpu=Tamb+PcpuRdis e la temperatura dell’ambiente (in prossimità del dissipatore) è Tamb= 50 °C±1 °C. 4d) Si valuti la compatibilità tra le due misure di potenza effettuate ai punti precedenti (naturalmente, in assenza di altri alementi dissipativi, dovrebbe essere Pcpu= Palim) 4a) I parametri del sistema sono: la frequenza di clock fc che è pari a: fc = 1 N N f c ,i = 2002 MHz i 1 la sua incertezza è un tipico esempio di incertezza calcolata attraverso metodi statistici (categoria A): u(fc) = uA(fc) = 1 N ( N 1) f N f c = 1.8 MHz 2 c,i i 1 Risulta quindi fc = 2002.0 MHz ± 4.5 MHz. Con una incertezza relativa ur(fc)= u(fc)/ fc =0.09 % La costante presenta un’incertezza estesa relativa Ur() = 4.8×10-2, con k=2. La sua incertezza relativa è quindi ur() = Ur()/2 = 2.4×10-2 = 2.4 %. La sua incertezza tipo è: u() = ur()× = 4.8×10-10(Hz×Ω)-1. Il multimetro ha una risoluzione ΔVAL = 10 mV. La sua incertezza è dovuta unicamente alla quantizzazione (categoria B) ed è quindi: u(VAL) = uB(VAL) = 10 mV/ 12 = 2.9 mV. La sua espressione VAL = 1.5000(29) V. La sua incertezza relativa è: ur(VAL)= u(VAL)/ VAL =0.2 % in notazione coincisa è: 4b) La potenza erogata dall’alimentatore al microprocessore sarà dunque: Palim= fc VAL2 = 90.1 W Per quanto riguarda la sua incertezza essendo la misura di Palim una produttoria possiamo calcolare la sua incertezza relativa come la somma quadratica dei suoi fattori: ur Palim ur2 ur2 f c 4ur2 VAL ur() 2.4 % Quindi la sua incertezza tipo è: u(Palim) = ur(Palim)×Palim 2.2 W Pag.7/8 4c) La potenza dissipata da processore sarà: Pcpu = (Tamb-Tcpu) / Rdis = 89.12 W La sua incertezza sarà uguale alla somma quadratica delle incertezze (non le relative non è una produttoria!) delle temperature e del coefficiente di resistenza termica del dissipatore, pesate con i rispettivi coefficienti di sensitività: u(Tamb) = 1 °C u(Tcpu) = ur(Tcpu)Tcpu = 0.86 °C u(Rdis) = 0.002°C/W L’incertezza di Pcpu sarà quindi: T T 1 2 1 2 u Tamb u TCPU amb 2 CPU u 2 Rdis u PCPU Rdis Rdis Rdis 2 2 2 = 6.13 4.53 0.19 W 3.3 W L’incertezza sulla resistenza termica del dissipatore di fatto risulta trascurabile. 4d) Per verificare la compatibilità tra le 2 misure di potenza, supposte indipendenti, dobbiamo valutare se PCPU Palim k u 2 PCPU u 2 Palim con un fattore di copertura ragionevole (k=1, 2, o 3) La compatibilità è verificata con k=1 (k=0.25). Possiamo dunque ritenere le due misure compatibili con un fattore di copertura k=1. Pag.8/8