s_031111

STATISTICA E MISURAZIONE
martedì 11 novembre 2003
Prof. Cesare Svelto
Tempo a disposizione 2 ore e 30 minuti
Prima prova in itinere AA 2003/2004
Aula V.S.8 ore 9.15
Cognome e nome: __________________________
_____________________
(stampatello)
Matricola e firma __ __ __ __ __ __
_____________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 6
(crocettare)
N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una
penalità.
Esercizio 1
(svolgere su questo foglio e sul retro)
1)
a. Definire la media e la varianza campionaria e spiegare a che cosa servono queste statistiche.
b. Dimostrare che sono stimatori non polarizzati del valor medio e della varianza di una popolazione.
Soluzione:
1a) Se n osservazioni in un campione sono x1, x2, …, xn, la media campionaria è definita come
 1 n
x  x  ...  xn
x   xi  1 2
n i 1
n
n
(x  x)
 
mentre la varianza campionaria è definita come s 2 
2
i
i 1
n 1
Queste statistiche servono a stimare il valor medio e la varianza della popolazione campionata.
1 n
 X  X 2  ...  X n  1 n
1b) E X   E  1
   EX i      
n
n i 1

 n i 1
n

2
(Xi  X ) 
1
1
n

n


E s 2  E  i 1
E  ( X i  X ) 2  
E  X i2  nX 2  
n 1

 n  1  i 1
 n  1  i 1



 
 2  2 
1 n
1 n 2
2
2 
2
  
 
E
(
X
)

nE
(
X
)





n
 i
 n  1 
n  1  i 1
n 


 i 1
1

n 2  n 2  n 2   2   2
n 1




 X
n
ricordando che
i 1
 X    X i2  nX 2 ,
n
i
i 1
   EX        EX

e infine E X    
n
e inoltre E X

2
2
i
i

 
    2E X i     E  2   2   2
2
i
2
2
2
_______
Pag. 1/6
Esercizio 2
(svolgere su questo foglio e sul retro)
2)
Per valutare l’affidabilità di una CPU viene misurata la temperatura del microprocessore una volta al
minuto per un quarto d’ora. Sono stati registrati i seguenti valori:
Temperatura del microprocessore (°C): 43, 36, 39, 46, 70, 63, 58, 55, 59, 72, 29, 49, 51, 38, 49, 60.
a. Calcolare la media e la varianza campionaria.
b. Riportare i dati in un diagramma rami-e-foglie e da questo disegnare l’istogramma corrispondente.
Dotplot for temperatura
b. Rappresentare il box-plot della misura.
Soluzione:
Diagramma a punti (non richiesto)
30
40
50
60
70
temperatura

media campionaria = x 
1 n
 xi  51.06 °C
n i 1
n

varianza campionaria = s 2 
(x  x)
i 1
i
n 1
2
 151.66 °C2
Diagramma rami e foglie,
con N = 16
Foglie
9
689
3699
1589
03
02
4
Frequenza
1
3
4
4
2
2
3
Frequency
Rami
2
3
4
5
6
7
ISTOGRAMMA
2
1
0
25
35
45
55
65
75
BOX PLOT:
minimo=29
primo quartile= 40
mediana= 50
terzo quartile= 59.75
massimo=72
I baffi comprendono tutti i punti rimanenti, in
quanto contenuti all’interno di 1.5 volte la
dinamica interquartile.
temperatura di un transistor
temperatura di un transistor
70
60
50
40
30
_______
Pag. 2/6
Esercizio 3
(svolgere su questo foglio e sul retro)
3)
Distribuzione di probabilità Poissoniana.
a. Descrivere le proprietà della distribuzione di probabilità Poissoniana, indicando inoltre quale
casistica di eventi tipicamente è descritta da questo tipo di distribuzione.
b. Sapendo che il flusso di dati in una connessione IP segue una statistica poissoniana con valor medio
di 400 kbyte al secondo, quanto vale la probabilità che in 1 s arrivi almeno 1 byte?
c. Quanto vale invece la probabilità che in 10 s arrivino esattamente 4 byte?
Soluzione:
2)
La funzione di probabilità di una variabile poissoniana X vale f ( x) 
e   x
,
x!
x  0,1,2...
il suo valor medio vale  =  e la sua varianza vale 2 = .
Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono
casualmente in un dato intervallo di tempo. È possibile dimostrare che f(x) si ottiene matematicamente
dalla distribuzione binomiale quando il numero di estrazioni n è molto alto e la probabilità di successo
p è molto bassa, con  = np.
3a)
3b)
Il valor medio vale  = 400'000 byte/s ∙ 10-6 s = 0.4 byte.
La probabilità che arrivi almeno 1 byte è uguale a 1 meno la probabilità che non ne sia arrivato
nessuno
e  0
P( x  1)  1  P( x  0)  1 
 1  e   1  e 0.4  0.3297  32.97 %
0!
Il valor medio in questo caso vale  = 400'000 byte/s ∙ 10∙10-6 s = 4 byte.
La probabilità che arrivino esattamente 4 byte è pari a
e  4 e4 44
P( x  4) 

 0.1954  19.54 %
4!
4!
_______
Pag. 3/6
Esercizio 4
(svolgere su questo foglio e sul retro)
4)
Un fascio laser viene utilizzato per tagliare delle lamiere. La larghezza del solco (materiale asportato) è
una variabile casuale a statistica gaussiana, con valor medio pari a 2.3 mm e scarto quadratico medio di
0.25 mm.
a. Quanto vale la probabilità che il solco sia più largo di 3 mm?
c. Quanto vale invece la probabilità che sia compreso tra 2 mm e 2.5 mm?
c. (facoltativo) Rispetto alla posizione programmata, il sistema di taglio commette un errore di
posizionamento (che si può considerare gaussiano e a media nulla) con deviazione standard di 0.2 mm.
Ciascuna lamiera tagliata dovrebbe essere lunga 1 m (valore atteso che tiene conto della larghezza
media del taglio).
i. Quanto vale la probabilità che una lamiera sia lunga meno di 999.9 mm?
ii. Se la tolleranza sulla lunghezza delle lamiere è pari a 0.5 mm, mediamente, quante lamiere su
1000 verranno scartate (in quanto fuori tolleranza)?
Soluzione:
4a)
4b)
4c)
Per calcolare la probabilità standardizziamo la variabile casuale gaussiana, sapendo che  = 2.3 mm e
 = 0.25 mm, e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una
x
variabile normale standard (VNS). Ricordiamo che z 
è la VNS ricavata da x.

3  
3  2.3 


P( x  3)  P z 
  P z 
  P( z  2.8)  1  P( z  2.8) 
 
0.25 


 1  (2.8)  1  0.9974  0.26%
Effettuiamo il calcolo ripetendo la standardizzazione:
2.5   
2.5  2.3 
2
 2  2.3
P(2  x  2.5)  P
z
z
  P

 
0.25 
 
 0.25
 P( z  0.8)  P( z  1.2)  (0.8)  (1.2)  0.78814  0.11507  67.31%
La nuova variabile casuale è la larghezza della lamiera L, che si può ottenere come combinazione
lineare delle due variabili X=“posizionamento” e W=“larghezza del solco”:
L=X–W/2
Infatti, fissata la posizione centrale del taglio X, la larghezza della lamiera viene diminuita rispetto a X
di metà della larghezza del solco (W / 2).
Sia X che W hanno distribuzione gaussiana, per cui anche la variabile L sarà gaussiana.
Il suo valor medio ci viene dato per ipotesi L = 1 m, dato che la posizione di puntamento tiene già in
conto la larghezza del taglio, mentre la sua varianza è pari a:
L2 = X2 + W2 /4 = 0.0556 mm2
da cui L = 0.236 mm
i. Calcoliamo la probabilità tramite standardizzazione:

999.9   L 
999.9  1000 

  P z 
P( L  999.9)  P z 
  P( z  0.4237)  (0.4237)  33.6%

0
.
236


L


ii. La probabilità di uscire dalla tolleranza vale:

999.5   L 
 
P( L  999.5)  P( L  1000.5)  2  P( L  999.5)  2  P z 

L


999.5  1000 

 2  P z 
  2  P( z  2.12)  2(2.12)  2  0.0170  3.4%
0.236


Quindi mediamente verranno scartate 34 lamiere su 1000.
_______
Pag. 4/6
Esercizio 5
(svolgere su questo foglio e sul retro)
5)
In Piemonte piove mediamente due giorni a settimana. Consideriamo per semplicità che la probabilità
di pioggia sia costante e indipendente da un giorno all’altro.
a. Quanto vale la probabilità che in un mese di 30 giorni ci siano esattamente 8 giornate di pioggia?
b. Quanto vale invece la probabilità che in un anno di 365 giorni piova per più di 100 giorni?
Soluzione:
5a)
Dato che ogni prova è un processo di Bernoulli (o piove o non piove, ovvero successo o insuccesso),
le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x
giorni di pioggia su n segue la distribuzione binomiale, con probabilità di successo p =2/70.2857 (2
giorni piovosi su 7 giorni di settimana):
n
 30 
8
P(8 successi su 30 prove )    p x (1  p) n  x   2 / 7  (5 / 7)308  0.1585  15.85 %
 x
8
n
n!
avendo ricordato che   
e dunque
 x  x!(n  x)!
 30  30! 30  29  28  27  26  25  24  23
  
=5852925

8  7  6  5  4  3  2 1
 8  8!22!
5b)
Data la complessità del calcolo tramite la formula della binomiale (che richiederebbe di calcolare e
sommare 100 probabilità, con fattoriali dal valore molto alto), decidiamo di sfruttare
l’approssimazione gaussiana della binomiale, con valor medio np104.286 e varianza np(1-p)74.5.
L’approssimazione è valida in quanto sia np che n(1-p) sono molto maggiori di 1 (tipicamente si
considera attendibile l’approssimazione per valori superiori a 5). Calcoliamo quindi la probabilità
tramite standardizzazione:

100  np  
100  104.286 
P( x  100)  P z 
 z 
  P( z  0.4966) 


8.63
np(1  p)  


 1  P( z  0.4966)  1   (0.4966)  1  0.31  69 %
Se si volesse un’approssimazione più precisa, bisognerebbe considerare l’intervallo di integrazione a
partire da 100.5, in quanto si scarta il valore 100 e si accetta il valore 101, quindi:

100.5  np  
100.5  104.286 
P( x  100.5)  P z 
 z 
  P( z  0.4386) 

 
8
.
63
np
(
1

p
)



 1  P( z  0.4386)  1   (0.4386)  1  0.33  67%
In effetti il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una
probabilità del 66.7%, veramente in ottimo accordo con l’approssimazione effettuata.
_______
Pag. 5/6
Esercizio 6
(svolgere su questo foglio e sul retro)
6)
Una popolazione ha valor medio  =143 e deviazione standard  =5.
a. Se acquisiamo un campione di n = 100 dati, quanto vale la probabilità che la sua media campionaria
sia maggiore di 144?
Soluzione:
6)
Non ci viene detto nulla sul tipo di distribuzione della popolazione originaria, però il teorema del
limite centrale ci assicura che, all’aumentare di n, la media campionaria tende a diventare distribuita
in maniera gaussiana, con lo stesso valor medio  x = 143 della popolazione e una deviazione standard
pari a  x   / n = 5/10 = 0.5.
Possiamo quindi calcolare la probabilità richiesta mediante standardizzazione:

144   
144  143 
  P z 
P( x  144)  P z 
  P( z  2)  1  P( z  2) 
x 
0.5 


 1  ( z )  1  0.9772  2.28%
_______
Pag. 6/6