s_041122

STATISTICA E MISURAZIONE
lunedì 22 novembre 2004
Prof. Cesare Svelto
Tempo a disposizione 2 ore e 15 minuti
Prima prova in itinere AA 2003/2004
Aula V.S.8 ore 15.15
Cognome e nome: __________________________
_____________________
(stampatello)
Matricola e firma __ __ __ __ __ __
_____________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (punteggi: 7 6 8 6 6)
(crocettare)
N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una
penalità.
SOLUZIONI
Esercizio 1 [30 minuti]
(svolgere su questo foglio e sul retro)
1)
1a)
1b)
1c)
Siamo interessati a controllare il nostro consumo di energia elettrica giornaliero. Misuriamo quindi i
valori del contatore per 13 giorni, ottenendo:
E [kWh]: 11.5 9.6 11.3 10.8 12.2 8.9 11.1 10.6 10.9 10.1 9.3 11.4 13.9
Si calcolino media e varianza campionaria del consumo giornaliero di energia, descrivendo il
significato e l’utilità di queste statistiche.
Si costruisca un diagramma rami e foglie dai dati misurati e un istogramma della frequenza cumulativa.
Si dia la definizione di mediana e di quartile (primo, secondo e terzo) e si rappresenti il box-plot dei
dati.
1a)

media campionaria = x 
1 n
 xi  10.8923 kWh
n i 1
n

varianza campionaria = s 2 
(x  x)
i 1
2
i
 1.7074 (kWh)2
n 1
La media campionaria è uno stimatore non polarizzato del valor medio della popolazione che si sta
campionando. Si può dimostrare che è uno stimatore più efficiente del singolo campione, in quanto presenta
un errore quadratico medio inferiore (si veda l’inizio del capitolo 4)
La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura del
grado di dispersione della popolazione attorno alla media.
1b) Diagramma rami e foglie,
con N = 13
Freq.
12
F.cum
8
9
1
1
9
36
2
3
10
1689
4
7
11
1345
4
11
12
2
1
12
13
9
1
13
Frequenza cumulativa
Rami Foglie
ISTOGRAMMA CUMULATIVO
14
10
8
6
4
2
0
8
9
10
11
12
13
Energia consumata [kWh]
14
_______
Pag. 1/8
Esercizio 1 [30 minuti]
(continua)
1c) Mediana: è una misura del centro del campione che divide i dati in due parti uguali (tante misure al di
sopra quante al di sotto). Se il numero di dati è pari, la mediana è a metà tra i due valori centrali. Se dispari, la
mediana coincide con il valore centrale.
Primo quartile (quartile basso o di sx): valore tale che un quarto delle osservazioni abbia un valore inferiore;
corrisponde al 25-esimo percentile.
Secondo quartile: valore tale che due quarti delle osservazioni abbiano un valore inferiore; corrisponde al 50esimo percentile e alla mediana.
Terzo quartile (quartile alto o di dx): valore tale che tre quarti delle osservazioni abbiano un valore inferiore;
corrisponde al 75-esimo percentile.
Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile.
La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100
Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari
all’intero prima e dopo di Ik ).
I 13 dati ordinati sono Ei [kWh]: 8.9 9.3 9.6 10.1 10.6 10.8 10.9 11.1 11.3 11.4 11.5 12.2 13.9.
La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana coincide con il
settimo dato (ricordiamo infatti che per un numero dispari di dati corrisponde al valore centrale).
Quindi, mediana= 10.9 kWh =M = Q2
Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è la
media tra il terzo ed il quarto dato, per cui
primo quartile= 9.85 kWh = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è la
media tra il decimo e l’undicesimo dato, per cui
terzo quartile= 11.45 kWh = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 1.6 kWh
I baffi si possono estendere fino a 1.5DIQ = 2.4 kWh, quindi fino a 9.85-2.4= 7.45 kWh e
11.45+2.4= 13.85 kWh.
Minimo dato=8.9 kWh
Massimo dato=13.9 kWh
Sulla parte inferiore tutti i dati sono contenuti nel baffo, che dunque termina a 8.9 kWh, mentre nella parte
superiore c’è un outlier, con il baffo che termina a 12.2 kWh. Ricordiamo comunque che i baffi si fermano
sempre all’ultimo dato contenuto.
Frequenza assoluta
4
3
2
1
0
8
9
10
11
12
13
14
9
10
11
12
Energia consumata [kWh]
13
14
1
8
In figura sono riportati anche i punti sperimentali e un possibile istogramma per confronto.
_______
Pag. 2/8
Esercizio 2 [20 minuti]
(svolgere su questo foglio e sul retro)
2)
2a)
2b)
2c)
La potenza consumata da un monitor ha un valor medio di 130 W con deviazione standard pari a 22 W,
mentre la potenza consumata da un PC ha un valor medio di 220 W con deviazione standard pari a
50 W (si considerino entrambe le potenze distribuite con densità di probabilità gaussiana).
Quanto vale la probabilità che il monitor consumi meno di 100 W?
Quanto vale la probabilità che il PC ed il monitor consumino insieme più di 400 W?
Quanto vale la probabilità che il monitor consumi più del PC?
2a)
Per calcolare la probabilità standardizziamo la variabile casuale gaussiana, sapendo che  = 130W e
 = 22 W, e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile
x
normale standard (VNS). Ricordiamo che z 
è la VNS ricavata da x.

100   
100  130 


P( x  100)  P z 
  P z 
  P( z  1.3636)   ( z  1.3636)  0.086  8.6%
 
22



2b)
Creiamo una nuova variabile casuale W data dalla somma delle due potenze consumate. La nuova
variabile ha il valor medio dato dalla somma dei 2 valori medi e la varianza data dalla somma delle due
varianze (si vedano le formule di una combinazione lineare di variabili gaussiane):
W = monitor +  PC =130 W+ 220 W= 350 W.
2W = 2monitor + 2PC =484 W2+2500 W2= 2984 W2
W = 54.626 W
Effettuiamo quindi il calcolo per standardizzazione:

400  W 
400  350 
  P Z 
P(W  400)  P Z 
  P( Z  0.915)  1  P( Z  0.915) 
W
54.626 



 1   (0.915)  1  0.82  18%
2c)
Costruiamo la variabile Y=Pmonitor - PPC . Chiedere che il monitor consumi più del PC corrispondere a
chiedere che Y > 0 W.
Calcoliamo quindi il valor medio e la deviazione standard di Y (si vedano le formule di una combinazione
lineare di variabili gaussiane):
Y = monitor -  PC =130 –220 = - 90 W.
2Y = 2monitor + 2PC =484+2500= 2984 W2
Y = 54.626 W
Per calcolare la probabilità standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla tabella dei
valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo che
x
z
è la VNS ricavata da x.


0  Y 
0  (90) 

  P Z 
P(Y  0)  P Z 
  P( Z  1.648)  1  P( Z  1.648) 
Y 
54.626 


 1   (1.648)  1  0.949  5.1%
_______
Pag. 3/8
Esercizio 3 [40 minuti]
(svolgere su questo foglio e sul retro)
3)
3a)
3b)
3c)
3d)
Siamo interessati a stimare la probabilità di errori di battitura su un documento dattiloscritto. Sappiamo
che la nostra segretaria mediamente compie 2 errori per pagina (tipicamente si battono più di 2000
caratteri per pagina, una percentuale molto bassa dei caratteri battuti è quindi sbagliata).
Che tipo di distribuzione può descrivere la variabile casuale “numero di errori di battitura”? Spiegare i
motivi della propria scelta.
Quanto vale la probabilità che in 4 pagine ci siano esattamente 7 errori?
Quanto vale invece la probabilità che in documento di 50 pagine ci siano più di 105 errori di battitura?
Assumiamo una seconda segretaria, molto meno pratica di PC, che mediamente compie un errore ogni
4 caratteri battuti. Quanto vale la probabilità che una parola di 6 caratteri contenga almeno un errore?
(anche in questo caso si motivi il procedimento utilizzato)
3a)
La variabile casuale “numero di errori di battitura” segue una distribuzione poissoniana. Infatti in
questo caso si parte da un processo di Bernoulli (un carattere può essere solo giusto o sbagliato), con una
probabilità di “successo” molto bassa (inferiore a 1/1000) ed un numero molto alto di estrazioni. Inoltre gli
errori di battitura si possono (in prima approssimazione) considerare scorrelati: aver sbagliato un carattere
non cambia la probabilità di sbagliare il successivo.
Siamo quindi nelle condizioni in cui si può considerare valido il limite per n→ di una distribuzione
e   x
binomiale: è possibile dimostrare che f ( x) 
,
x  0,1,2... si ottiene matematicamente dalla
x!
distribuzione binomiale quando il numero di estrazioni n è molto alto e la probabilità di successo p è molto
bassa, con  = np.
3b)
Su 4 pagine il valor medio vale  = 2 errori/pagina  4 pagine = 8.
La probabilità di avere esattamente 7 errori è pari a
e   7 e 8 8 7
P ( x  7) 

 13.96 %
7!
7!
3c)
In questo caso il numero di calcoli da effettuare sarebbe troppo grande (dovremmo calcolare 105
valori di probabilità e poi fare 1-…) e con valori non computabili su di una normale calcolatrice. Decidiamo
quindi di effettuare un’approssimazione gaussiana alla distribuzione considerata (sicuramente valida,
ricordiamo che basterebbe un valor medio  >5).
Il valor medio della distribuzione vale  =  = 2 errori/pagina  50 pagine = 100 e la sua varianza vale
2 =  =100.
Calcoliamo quindi la probabilità tramite standardizzazione, scegliendo come estremo di integrazione 105.5,
in quanto non vogliamo comprendere il valore 105 (stiamo passando da una distribuzione discreta ad una
continua):

105.5    
105.5  100 
P( x  105.5)  P z 
   z 
  P( z  0.55) 
10
  


 1  P( z  0.55)  1  0.709  29.1%
Il calcolo esatto effettuato a PC fornisce una probabilità pari al 28.7 %, valore molto vicino alla nostra
approssimazione. L’errore residuo è dovuto alla scelta “arbitraria” dell’estremo di integrazione, posto pari
alla metà tra l’ultimo valore escluso ed il primo accettato. Dato che la gaussiana è fortemente non-lineare
questa scelta comporta un errore (il risultato è comunque più corretto rispetto a scegliere come estremo 105 o
106).
_______
Pag. 4/8
Esercizio 3 [40 minuti]
(continua)
3d)
In questo caso utilizziamo una distribuzione binomiale (non vale più l’approssimazione di n→ del
punto 3a), dato che ogni prova è un processo di Bernoulli, le prove sono indipendenti e la probabilità di
successo in ogni prova è costante p =1/4=0.25.
La probabilità che una parola di 6 lettere (n=6) contenga almeno un errore vale 1-P(0 errori), quindi:
 n
 6
0
P(almeno 1 errore su 6 prove )  1  P(0 errori su 6 prove )  1    p x (1  p) n x  1   0.25 (0.75) 6 
x
0
 
 
 1  (0.75) 6  0.822  82.2 %
_______
Pag. 5/8
Esercizio 4 [25 minuti]
(svolgere su questo foglio e sul retro)
4)
4a)
4b)
In un quiz televisivo il montepremi della serata è determinato dal lancio di un dado. Sulle 6 facce del
dado sono riportate le potenze di 2 (1, 2, 4, 8, 16, 32) che indicano le migliaia di euro di montepremi.
Quanto deve aspettarsi di spendere la produzione, se il quiz televisivo andrà in onda per 25 puntate,
supponendo che mediamente il montepremi venga vinto una volta su due?
Se un concorrente molto bravo vincesse il montepremi per tutte e 25 le puntate, quanto varrebbe la
probabilità che la sua vincita complessiva abbia superato i 200 000 €?
4a) In questo caso abbiamo una distribuzione di probabilità discreta, con 6 valori possibili, che
consideriamo equiprobabili con p=f(xj)=1/6 (supponiamo che il dado non sia truccato).
Il valore atteso di questa distribuzione di probabilità vale (si veda il capitolo 3):
Δ
Δ
n
  E ( X )   x j f ( x j ) =(1+2+4+8+16+32)/6=10.5
j 1
Per cui il montepremi atteso per ogni puntata vale 10 500 €. Se si suppone che venga vinto una volta su due,
la produzione si aspetta di spendere mediamente 10 500 € / 2 = 5 250 € a puntata. In 25 puntate quindi ci si
aspetta di spendere 5 250 €  25 = 131 250 €
4b) Dato che è troppo lungo calcolare la probabilità dal conteggio di tutti i casi positivi rispetto al numero
di casi totali (6 valori possibili per 25 puntate = 150 casi possibili, per ognuno bisognerebbe fare il conto del
montepremi totale e infine contare quanti montepremi su 150 sono maggiori di 200 000 €), decidiamo di
sfruttare il teorema del limite centrale: il valor medio del montepremi tende a seguire una distribuzione
gaussiana, con varianza data dalla varianza della singola estrazione divisa per il numero di estrazioni.
Svolgiamo tutti i calcoli sui valori del dato, alla fine terremo conto che i numeri corrispondono a migliaia di
euro. La varianza della singola estrazione vale (si veda il capitolo 3):


n
n
i 1
i 1
 2  V ( X )   ( xi   ) 2 f ( xi )   xi 2 f ( xi )   2 =(12+22+42+82+162+322)/6 - 10.52 = 117.25
La deviazione standard del valor medio su 25 prove vale dunque:
 10.83
x 

 2.17
n
25
Aver guadagnato più di 200 000 € in 25 puntate corrisponde ad aver guadagnato mediamente più di
200 000 € /25 = 8 000 € a puntata.
Calcoliamo quindi la probabilità per standardizzazione (ricordando che i valori della variabile sono in
migliaia di euro):

8 
8  10.5 
  P z 
P( x  8)  P z 
  P( z  1.152)  1  P( z  1.152)  0.875  87.5%

2
.
17


x


_______
Pag. 6/8
Esercizio 5 [20 minuti]
(svolgere su questo foglio e sul retro)
5a) Che cosa si intende per “errore quadratico medio” di uno stimatore?
5b) Supponiamo di dover verificare se il costo medio sul mercato di un particolare modello di PC portatile è
pari a 1000 €. Decidiamo una regione di accettazione [990;1010] €. Ci informiamo quindi sui prezzi di 25
fornitori, ottenendo un valor medio pari a 1020 €, con una deviazione standard campionaria pari a 20 € (che
si può considerare la deviazione standard del processo, dato l’elevato numero di campioni).
Calcolare il livello di significatività del test. Si mostri questa situazione (che ha portato al rifiuto dell’ipotesi
nulla), attraverso il grafico della PDF della media campionaria.
5a) L’errore quadratico medio (MSE mean square error) di uno stimatore ̂ di un parametro  è definito
  
come: MSE ˆ  E ˆ  

2
Rappresenta quindi il valore atteso della differenza quadratica tra lo stimatore ed il parametro da stimare. Si
può dimostrare che è dato dalla somma della varianza dello stimatore più il quadrato della sua polarizzazione:
   
 

   E ˆ    
2
MSE ˆ  E ˆ    E ˆ  E ˆ
2
 V ˆ  bias 
2
2
5b) Il livello di significatività del test (probabilità di errore di tipo I, di rifiutare un’ipotesi nulla vera) si
ottiene calcolando la probabilità che la media campionaria esca dalla regione di accettazione, supponendo
vera l’ipotesi nulla, che in questo caso è H 0 :   1000 €.
La deviazione standard della media campionaria vale  X 
X
n

20
25
 4 € (avendo considerato X = sX dato
l’elevato numero di dati).
Per calcolare la probabilità standardizziamo la variabile casuale x (media dei campioni, gaussiana per il
teorema del limite centrale) e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa normale
standard, (z). Si ottiene



990   
 z  1010    
  Px  990 o x  1010 con   1000  P z 

P

 X 
 X 


990  1000 
1010  1000 


 P z 
  P z 
  Pz  2.5  P z  2.5  0.00621  0.00621  0.0124
4
4




Il livello di significatività del test è pari dunque all’ 1.24%.
Riportiamo in figura il significato grafico di : è l’area sotto le due code (di sinistra e di destra) della
gaussiana corrispondente alla PDF della media campionaria.
_______
Pag. 7/8
Esercizio 5 [20 minuti]
(continua)
0.1
PDF della variabile
PDF della media campionaria
0.09
0.08
Densità di probabilità
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
970
980
990
/2
1000
variabile X
1010
/2
1020
1030
valore misurato
_______
Pag. 8/8