STATISTICA E MISURAZIONE lunedì 22 novembre 2004 Prof. Cesare Svelto Tempo a disposizione 2 ore e 15 minuti Prima prova in itinere AA 2003/2004 Aula V.S.8 ore 15.15 Cognome e nome: __________________________ _____________________ (stampatello) Matricola e firma __ __ __ __ __ __ _____________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (punteggi: 7 6 8 6 6) (crocettare) N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una penalità. SOLUZIONI Esercizio 1 [30 minuti] (svolgere su questo foglio e sul retro) 1) 1a) 1b) 1c) Siamo interessati a controllare il nostro consumo di energia elettrica giornaliero. Misuriamo quindi i valori del contatore per 13 giorni, ottenendo: E [kWh]: 11.5 9.6 11.3 10.8 12.2 8.9 11.1 10.6 10.9 10.1 9.3 11.4 13.9 Si calcolino media e varianza campionaria del consumo giornaliero di energia, descrivendo il significato e l’utilità di queste statistiche. Si costruisca un diagramma rami e foglie dai dati misurati e un istogramma della frequenza cumulativa. Si dia la definizione di mediana e di quartile (primo, secondo e terzo) e si rappresenti il box-plot dei dati. 1a) media campionaria = x 1 n xi 10.8923 kWh n i 1 n varianza campionaria = s 2 (x x) i 1 2 i 1.7074 (kWh)2 n 1 La media campionaria è uno stimatore non polarizzato del valor medio della popolazione che si sta campionando. Si può dimostrare che è uno stimatore più efficiente del singolo campione, in quanto presenta un errore quadratico medio inferiore (si veda l’inizio del capitolo 4) La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura del grado di dispersione della popolazione attorno alla media. 1b) Diagramma rami e foglie, con N = 13 Freq. 12 F.cum 8 9 1 1 9 36 2 3 10 1689 4 7 11 1345 4 11 12 2 1 12 13 9 1 13 Frequenza cumulativa Rami Foglie ISTOGRAMMA CUMULATIVO 14 10 8 6 4 2 0 8 9 10 11 12 13 Energia consumata [kWh] 14 _______ Pag. 1/8 Esercizio 1 [30 minuti] (continua) 1c) Mediana: è una misura del centro del campione che divide i dati in due parti uguali (tante misure al di sopra quante al di sotto). Se il numero di dati è pari, la mediana è a metà tra i due valori centrali. Se dispari, la mediana coincide con il valore centrale. Primo quartile (quartile basso o di sx): valore tale che un quarto delle osservazioni abbia un valore inferiore; corrisponde al 25-esimo percentile. Secondo quartile: valore tale che due quarti delle osservazioni abbiano un valore inferiore; corrisponde al 50esimo percentile e alla mediana. Terzo quartile (quartile alto o di dx): valore tale che tre quarti delle osservazioni abbiano un valore inferiore; corrisponde al 75-esimo percentile. Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari all’intero prima e dopo di Ik ). I 13 dati ordinati sono Ei [kWh]: 8.9 9.3 9.6 10.1 10.6 10.8 10.9 11.1 11.3 11.4 11.5 12.2 13.9. La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana coincide con il settimo dato (ricordiamo infatti che per un numero dispari di dati corrisponde al valore centrale). Quindi, mediana= 10.9 kWh =M = Q2 Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è la media tra il terzo ed il quarto dato, per cui primo quartile= 9.85 kWh = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è la media tra il decimo e l’undicesimo dato, per cui terzo quartile= 11.45 kWh = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 1.6 kWh I baffi si possono estendere fino a 1.5DIQ = 2.4 kWh, quindi fino a 9.85-2.4= 7.45 kWh e 11.45+2.4= 13.85 kWh. Minimo dato=8.9 kWh Massimo dato=13.9 kWh Sulla parte inferiore tutti i dati sono contenuti nel baffo, che dunque termina a 8.9 kWh, mentre nella parte superiore c’è un outlier, con il baffo che termina a 12.2 kWh. Ricordiamo comunque che i baffi si fermano sempre all’ultimo dato contenuto. Frequenza assoluta 4 3 2 1 0 8 9 10 11 12 13 14 9 10 11 12 Energia consumata [kWh] 13 14 1 8 In figura sono riportati anche i punti sperimentali e un possibile istogramma per confronto. _______ Pag. 2/8 Esercizio 2 [20 minuti] (svolgere su questo foglio e sul retro) 2) 2a) 2b) 2c) La potenza consumata da un monitor ha un valor medio di 130 W con deviazione standard pari a 22 W, mentre la potenza consumata da un PC ha un valor medio di 220 W con deviazione standard pari a 50 W (si considerino entrambe le potenze distribuite con densità di probabilità gaussiana). Quanto vale la probabilità che il monitor consumi meno di 100 W? Quanto vale la probabilità che il PC ed il monitor consumino insieme più di 400 W? Quanto vale la probabilità che il monitor consumi più del PC? 2a) Per calcolare la probabilità standardizziamo la variabile casuale gaussiana, sapendo che = 130W e = 22 W, e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile x normale standard (VNS). Ricordiamo che z è la VNS ricavata da x. 100 100 130 P( x 100) P z P z P( z 1.3636) ( z 1.3636) 0.086 8.6% 22 2b) Creiamo una nuova variabile casuale W data dalla somma delle due potenze consumate. La nuova variabile ha il valor medio dato dalla somma dei 2 valori medi e la varianza data dalla somma delle due varianze (si vedano le formule di una combinazione lineare di variabili gaussiane): W = monitor + PC =130 W+ 220 W= 350 W. 2W = 2monitor + 2PC =484 W2+2500 W2= 2984 W2 W = 54.626 W Effettuiamo quindi il calcolo per standardizzazione: 400 W 400 350 P Z P(W 400) P Z P( Z 0.915) 1 P( Z 0.915) W 54.626 1 (0.915) 1 0.82 18% 2c) Costruiamo la variabile Y=Pmonitor - PPC . Chiedere che il monitor consumi più del PC corrispondere a chiedere che Y > 0 W. Calcoliamo quindi il valor medio e la deviazione standard di Y (si vedano le formule di una combinazione lineare di variabili gaussiane): Y = monitor - PC =130 –220 = - 90 W. 2Y = 2monitor + 2PC =484+2500= 2984 W2 Y = 54.626 W Per calcolare la probabilità standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo che x z è la VNS ricavata da x. 0 Y 0 (90) P Z P(Y 0) P Z P( Z 1.648) 1 P( Z 1.648) Y 54.626 1 (1.648) 1 0.949 5.1% _______ Pag. 3/8 Esercizio 3 [40 minuti] (svolgere su questo foglio e sul retro) 3) 3a) 3b) 3c) 3d) Siamo interessati a stimare la probabilità di errori di battitura su un documento dattiloscritto. Sappiamo che la nostra segretaria mediamente compie 2 errori per pagina (tipicamente si battono più di 2000 caratteri per pagina, una percentuale molto bassa dei caratteri battuti è quindi sbagliata). Che tipo di distribuzione può descrivere la variabile casuale “numero di errori di battitura”? Spiegare i motivi della propria scelta. Quanto vale la probabilità che in 4 pagine ci siano esattamente 7 errori? Quanto vale invece la probabilità che in documento di 50 pagine ci siano più di 105 errori di battitura? Assumiamo una seconda segretaria, molto meno pratica di PC, che mediamente compie un errore ogni 4 caratteri battuti. Quanto vale la probabilità che una parola di 6 caratteri contenga almeno un errore? (anche in questo caso si motivi il procedimento utilizzato) 3a) La variabile casuale “numero di errori di battitura” segue una distribuzione poissoniana. Infatti in questo caso si parte da un processo di Bernoulli (un carattere può essere solo giusto o sbagliato), con una probabilità di “successo” molto bassa (inferiore a 1/1000) ed un numero molto alto di estrazioni. Inoltre gli errori di battitura si possono (in prima approssimazione) considerare scorrelati: aver sbagliato un carattere non cambia la probabilità di sbagliare il successivo. Siamo quindi nelle condizioni in cui si può considerare valido il limite per n→ di una distribuzione e x binomiale: è possibile dimostrare che f ( x) , x 0,1,2... si ottiene matematicamente dalla x! distribuzione binomiale quando il numero di estrazioni n è molto alto e la probabilità di successo p è molto bassa, con = np. 3b) Su 4 pagine il valor medio vale = 2 errori/pagina 4 pagine = 8. La probabilità di avere esattamente 7 errori è pari a e 7 e 8 8 7 P ( x 7) 13.96 % 7! 7! 3c) In questo caso il numero di calcoli da effettuare sarebbe troppo grande (dovremmo calcolare 105 valori di probabilità e poi fare 1-…) e con valori non computabili su di una normale calcolatrice. Decidiamo quindi di effettuare un’approssimazione gaussiana alla distribuzione considerata (sicuramente valida, ricordiamo che basterebbe un valor medio >5). Il valor medio della distribuzione vale = = 2 errori/pagina 50 pagine = 100 e la sua varianza vale 2 = =100. Calcoliamo quindi la probabilità tramite standardizzazione, scegliendo come estremo di integrazione 105.5, in quanto non vogliamo comprendere il valore 105 (stiamo passando da una distribuzione discreta ad una continua): 105.5 105.5 100 P( x 105.5) P z z P( z 0.55) 10 1 P( z 0.55) 1 0.709 29.1% Il calcolo esatto effettuato a PC fornisce una probabilità pari al 28.7 %, valore molto vicino alla nostra approssimazione. L’errore residuo è dovuto alla scelta “arbitraria” dell’estremo di integrazione, posto pari alla metà tra l’ultimo valore escluso ed il primo accettato. Dato che la gaussiana è fortemente non-lineare questa scelta comporta un errore (il risultato è comunque più corretto rispetto a scegliere come estremo 105 o 106). _______ Pag. 4/8 Esercizio 3 [40 minuti] (continua) 3d) In questo caso utilizziamo una distribuzione binomiale (non vale più l’approssimazione di n→ del punto 3a), dato che ogni prova è un processo di Bernoulli, le prove sono indipendenti e la probabilità di successo in ogni prova è costante p =1/4=0.25. La probabilità che una parola di 6 lettere (n=6) contenga almeno un errore vale 1-P(0 errori), quindi: n 6 0 P(almeno 1 errore su 6 prove ) 1 P(0 errori su 6 prove ) 1 p x (1 p) n x 1 0.25 (0.75) 6 x 0 1 (0.75) 6 0.822 82.2 % _______ Pag. 5/8 Esercizio 4 [25 minuti] (svolgere su questo foglio e sul retro) 4) 4a) 4b) In un quiz televisivo il montepremi della serata è determinato dal lancio di un dado. Sulle 6 facce del dado sono riportate le potenze di 2 (1, 2, 4, 8, 16, 32) che indicano le migliaia di euro di montepremi. Quanto deve aspettarsi di spendere la produzione, se il quiz televisivo andrà in onda per 25 puntate, supponendo che mediamente il montepremi venga vinto una volta su due? Se un concorrente molto bravo vincesse il montepremi per tutte e 25 le puntate, quanto varrebbe la probabilità che la sua vincita complessiva abbia superato i 200 000 €? 4a) In questo caso abbiamo una distribuzione di probabilità discreta, con 6 valori possibili, che consideriamo equiprobabili con p=f(xj)=1/6 (supponiamo che il dado non sia truccato). Il valore atteso di questa distribuzione di probabilità vale (si veda il capitolo 3): Δ Δ n E ( X ) x j f ( x j ) =(1+2+4+8+16+32)/6=10.5 j 1 Per cui il montepremi atteso per ogni puntata vale 10 500 €. Se si suppone che venga vinto una volta su due, la produzione si aspetta di spendere mediamente 10 500 € / 2 = 5 250 € a puntata. In 25 puntate quindi ci si aspetta di spendere 5 250 € 25 = 131 250 € 4b) Dato che è troppo lungo calcolare la probabilità dal conteggio di tutti i casi positivi rispetto al numero di casi totali (6 valori possibili per 25 puntate = 150 casi possibili, per ognuno bisognerebbe fare il conto del montepremi totale e infine contare quanti montepremi su 150 sono maggiori di 200 000 €), decidiamo di sfruttare il teorema del limite centrale: il valor medio del montepremi tende a seguire una distribuzione gaussiana, con varianza data dalla varianza della singola estrazione divisa per il numero di estrazioni. Svolgiamo tutti i calcoli sui valori del dato, alla fine terremo conto che i numeri corrispondono a migliaia di euro. La varianza della singola estrazione vale (si veda il capitolo 3): n n i 1 i 1 2 V ( X ) ( xi ) 2 f ( xi ) xi 2 f ( xi ) 2 =(12+22+42+82+162+322)/6 - 10.52 = 117.25 La deviazione standard del valor medio su 25 prove vale dunque: 10.83 x 2.17 n 25 Aver guadagnato più di 200 000 € in 25 puntate corrisponde ad aver guadagnato mediamente più di 200 000 € /25 = 8 000 € a puntata. Calcoliamo quindi la probabilità per standardizzazione (ricordando che i valori della variabile sono in migliaia di euro): 8 8 10.5 P z P( x 8) P z P( z 1.152) 1 P( z 1.152) 0.875 87.5% 2 . 17 x _______ Pag. 6/8 Esercizio 5 [20 minuti] (svolgere su questo foglio e sul retro) 5a) Che cosa si intende per “errore quadratico medio” di uno stimatore? 5b) Supponiamo di dover verificare se il costo medio sul mercato di un particolare modello di PC portatile è pari a 1000 €. Decidiamo una regione di accettazione [990;1010] €. Ci informiamo quindi sui prezzi di 25 fornitori, ottenendo un valor medio pari a 1020 €, con una deviazione standard campionaria pari a 20 € (che si può considerare la deviazione standard del processo, dato l’elevato numero di campioni). Calcolare il livello di significatività del test. Si mostri questa situazione (che ha portato al rifiuto dell’ipotesi nulla), attraverso il grafico della PDF della media campionaria. 5a) L’errore quadratico medio (MSE mean square error) di uno stimatore ̂ di un parametro è definito come: MSE ˆ E ˆ 2 Rappresenta quindi il valore atteso della differenza quadratica tra lo stimatore ed il parametro da stimare. Si può dimostrare che è dato dalla somma della varianza dello stimatore più il quadrato della sua polarizzazione: E ˆ 2 MSE ˆ E ˆ E ˆ E ˆ 2 V ˆ bias 2 2 5b) Il livello di significatività del test (probabilità di errore di tipo I, di rifiutare un’ipotesi nulla vera) si ottiene calcolando la probabilità che la media campionaria esca dalla regione di accettazione, supponendo vera l’ipotesi nulla, che in questo caso è H 0 : 1000 €. La deviazione standard della media campionaria vale X X n 20 25 4 € (avendo considerato X = sX dato l’elevato numero di dati). Per calcolare la probabilità standardizziamo la variabile casuale x (media dei campioni, gaussiana per il teorema del limite centrale) e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa normale standard, (z). Si ottiene 990 z 1010 Px 990 o x 1010 con 1000 P z P X X 990 1000 1010 1000 P z P z Pz 2.5 P z 2.5 0.00621 0.00621 0.0124 4 4 Il livello di significatività del test è pari dunque all’ 1.24%. Riportiamo in figura il significato grafico di : è l’area sotto le due code (di sinistra e di destra) della gaussiana corrispondente alla PDF della media campionaria. _______ Pag. 7/8 Esercizio 5 [20 minuti] (continua) 0.1 PDF della variabile PDF della media campionaria 0.09 0.08 Densità di probabilità 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 970 980 990 /2 1000 variabile X 1010 /2 1020 1030 valore misurato _______ Pag. 8/8