Soluzioni Tema d`Esame

STATISTICA E MISURAZIONE
lunedì 18 settembre 2006
Prof. Cesare Svelto
Tempo a disposizione 2h
terzo appello AA 2005/2006
Aula A.s.4 ore 12.15
Cognome: _________________________
Nome: _______________________
Matricola e firma __ __ __ __ __ __
(stampatello)
_______________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (7 + 6 + 8 + 6 + 6=33p)
(crocettare)
N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno
una penalità; se possibile, si chiede di crocettare anche i sottopunti svolti.
SOLUZIONI
(25 min)
1)
1a)
1b)
1c)
Esercizio 1
(svolgere su questo foglio e sul retro)
Intendiamo effettuare uno studio statistico del peso (massa!) di un PC portatile. Ne pesiamo 13 modelli
ottenendo i seguenti valori :
X [kg] = 2.3; 2.7; 1.6; 3.4; 6.0; 3.6; 3.8; 4.0; 3.7; 2.9; 3.6; 3.2; 3.4
Si calcolino media e varianza campionaria della massa del laptop, spiegando l’utilità di queste
statistiche. Quanto vale e cosa rappresenta la deviazione standard campionaria?
Si rappresenti un istogramma della frequenza cumulativa dei dati.
Si rappresenti il box-plot dei dati, riportando le spiegazioni del caso e i calcoli fatti per ottenere i valori
significativi di questo diagramma.

media campionaria = x 
1a) Numeri di dati nel campione = N = 13
1 n
 xi  3.40 kg
n i 1
n
(x  x)
 
varianza campionaria = s 2 
i 1
2
i
n 1
 1.0567 kg2 deviazione standard campionaria = s =
n 2 = 1.03 kg
La media campionaria è uno stimatore non polarizzato del valor medio della popolazione che si sta
campionando. Si può dimostrare che è uno stimatore più efficiente che non il singolo campione, in quanto
presenta un errore quadratico medio inferiore.
La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura del
grado di dispersione della popolazione attorno alla media.
La deviazione standard campionaria rappresenta la disperisone dei dati dalla media. Rispetto alla varianza ha
il pregio di avere la stessa unità di misura della media e di essere con questa direttamente confrontabile (ad
esempio esprimendo il rapporto in percentuale).
Intervallo
1.1-2.0
2.1-3.0
3.1-4.0
4.1-5.0
5.1-6.0
freq.
1
3
8
0
1
freq. cum.
1
4
12
12
13
Frequenza cumulativa
1b) Riportiamo i dati ordinati (secondo valori crescenti):
X [kg] = 1.6; 2.3; 2.7; 2.9; 3.2; 3.4; 3.4; 3.6; 3.6; 3.7; 3.8; 4.0; 6.0.
Con 13 dati un numero sensato di classi è 4 o 5
14
(ricordiamo la legge: n° classi  1+log2(n)), ad
12
esempio possiamo scegliere i seguenti intervalli
10
per l’istogramma:
8
6
4
2
0
1.1-2.0
2.1-3.0
3.1-4.0
4.1-5.0
5.1-6.0
Massa [kg]
_______
Pag. 1/6
Esercizio 1 [30 minuti]
(continua)
1c) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile.
I 13 dati ordinati sono:
X [kg] = 1.6; 2.3; 2.7; 2.9; 3.2; 3.4; 3.4; 3.6; 3.6; 3.7; 3.8; 4.0; 6.0.
La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana è pari al settimo
dato:
Mediana= 3.4 g.
Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è dato
dalla media tra il terzo e il quarto dato (si osservi che 0.5/1=50 %):
primo quartile= (2.7+2.9)/2 = 2.8 kg = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è dato
dalla media tra il decimo e l’undicesimo dato (ancora 0.5/1=50 %)
terzo quartile= (3.7+3.8)/2 = 3.75 kg = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 0.95 kg.
I baffi si possono estendere fino a 1.5DIQ = 1.425 kg al di là del primo e terzo quartile, quindi fino a
2.8-1.425=1.375 kg e 3.75+1.425=5.175 kg. Ricordiamo comunque che i baffi si fermano all’ultimo dato
contenuto entro questo limite (di 1.5DIQ): in questo caso sino al dato 1 (baffo inferiore) pari a 1.6 kg, e sino
al dato 12 (baffo superiore) pari a 4.0 kg.
outlier
In figura, oltre al box-plot, sono riportati anche i singoli punti sperimentali.
1
1
2
3
4
Massa [kg]
5
6
7
_______
Pag. 2/6
(20 min)
(svolgere su
Esercizio 2
questo foglio e sul retro)
2) Per valutare l’attendibilità delle dichiarazioni della ditta produttrice, effettuiamo un test statistico sul
riempimento medio di una bottiglia di aranciata. La bottiglia è da 1.5 l, ne misuriamo un campione di 20
bottiglie, ottenendo un valor medio pari a 1.48 l e una deviazione standard campionaria pari a 40 ml.
2a) Si effettui un test statistico per cercare di dimostrare, con significatività del 5 %, che le bottiglie sono
riempite meno di quanto dichiarato sull’etichetta. Che tipo di test si è svolto, perché, qual è l’esito?
2b) Si calcoli il valore P per il test effettuato.
2c) Si definisca la potenza di un test statistico.
2a) Effettuiamo il test statistico richiesto (test t, in quanto vogliamo verificare il valor medio di una
popolazione a varianza ignota. Seguiamo gli 8 passi descritti nel libro di testo. Il numero di gradi di libertà è
 = n – 1 = 20 -1 = 19.
1. Il parametro di interesse è il riempimento medio 
2. H0:  = 1.5 l
3. H1:  < 1.5 l (il test è a un lato solo, in quanto vogliamo dimostrare che le bottiglie sono riempite
meno di quanto indicato sull’etichetta)
4. livello di significatività richiesto  = 0.05 (attenzione, su un solo lato)
5. La statistica di test è ora la statistica t: t 0 
X  X 

sX
s/ n
6. Rifiutiamo H0 se t0 < -t,19 = -1.729. Questo valore si ricava dalla tabella dei punti percentuale della
distribuzione t, con  = 19 in corrispondenza di una probabilità  = 0.05
7. Calcoliamo quindi t0: t 0 
X 
C 
1.48  1.5
 0.02



 2.24
sX
s X / n 0.04 / 20 0.00894
8. Conclusione: dato che t0 =-2.24 < t,19 = -1.729 possiamo rifiutare l’ipotesi nulla con livello di
significatività 0.05: c’è abbastanza evidenza che l’ipotesi nulla sia falsa.
Possiamo dunque dichiarare, che con significatività del 5 % le bottiglie sono effettivamente riempite
meno di quanto dichiarato sull’etichetta.
2b) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si
può ricavare direttamente dalla tabella dei valori della funzione cumulativa (della statistica Z o t a seconda
del caso):
tP,19 = t0 = 2.24, per cui il valore ricavato è 1%< Pt < 2.5%. Per interpolazione si può stimare Pt  2 %.
L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di
significatività  maggiore del 2 %. In questo caso infatti, con  = 5 %, si è potuto rifiutare H0.
2c) La potenza di un test statistico è la probabilità di rifiutare l’ipotesi nulla quando questa è falsa.
Potenza = 1 - 
La potenza è un parametro che ci descrive la capacità del test di rivelare le differenze della realtà rispetto ad
H0.
_______
Pag. 3/6
(35 min)
Esercizio 3
(svolgere su questo foglio e sul retro)
3a) Si spieghi come, e perché, la moderna teoria della misurazione ha sostituito il concetto e l’uso dell’errore
di misura con un corretto parametro statistico quale l’incertezza di misura.
3b) Quando e secondo quali procedimenti (fare un esempio) è possibile stimare un’incertezza di categoria A?
3c) Quando e secondo quali procedimenti (fare un esempio) è possibile stimare un’incertezza di categoria B?
3d) Si spieghi il concetto di compatibilità tra differenti misure di una stessa grandezza fisica.
Si valuti la compatibilità tra le tre seguenti misurazioni della massa di 1 dm3 di acqua distillata:
X) mX=1030 g ottenuta da una bilancia digitale ideale con risoluzione 1/100 kg;
Y) densità  =1.002 kg/dm3 assegnata, con PDF triangolare di semilarghezza 2.5 g/dm3; dal venditore
dell’acqua distillata;
Z) 5 misure ripetute: mZ,i=1 kg+mi con variazioni mi=+4; -3; -2; -1; +2 espresse in grammi.
Si ricavi la miglior stima di m e l’incertezza Ur(m) con k=2.
N.B. per le risposte al quesito 3e), si raccomanda di eseguire i calcoli e con la massima precisione ( “ =
no approssimazioni “ ) e di riportare i valori e le incertezze in maniera coerente con quanto richiesto dalla
normativa internazionale.
3a-c) Vedi Libro di Testo e appunti del Corso.
3d) Vedi Libro di Testo e appunti del Corso.
mX=1030 g, mX=10 g, u(mX)=mX/ 12 =3 g (incertezza di quantizzazione).
Quindi mX=1.0300.003 kg.
mY= V=(1.002 kg/dm3)(1 dm3)=1.002 kg e u(mY)=(22.5 g)/ 24 =1 g (PDF triangolare di piena
larghezza 5 g).
Quindi mY=1.0020.001 kg.
1 n
Il valore di misura è la media delle n=5 misure ripetute: mZ= m   mZ ,i  1 kg
n i 1
L’incertezza di misura, di categoria A, è u(mZ)=uA(mZ)=
1 1 n
mZ ,i  m 2 =1.3 g.

n n  1 i1
Quindi mZ=1.00000.0013 kg.
Valutando la compatibilità tra coppie di misura risulta che mY è compatibile con mZ per un fattore di
copertura k’=2. Invece mY è incompatibile con mX e anche mZ è incompatibile con mX, sia con k’=2 che con
k’=3.
Possiamo dunque ottenere la miglior stima della misura dalla media pesata tra le due misure compatibili:
mY
m
 2 Z
2
u (mY ) u (mZ )
m=mMP=
=1.001 257 kg
1
1

u 2 (mY ) u 2 (mZ )
L’incertezza della media pesata è:
1
u(m)=u(mMP)=
=0.000 8 kg
1
1

u 2 (mY ) u 2 (mZ )
Quindi m=1.001 30.000 8 kg con ur(m)=810-3.
L’incertezza relativa, estesa con k=2, è dunque:
Ur(m)=kur(m)=k[u(m)/m]=2[(1001.3 g)/(0.8 g)]=1.610-3.
_______
Pag. 4/6
(20 min)
Esercizio 4
(svolgere su questo foglio e sul retro)
4) È stato acquistato un nuovo cellulare con un contratto telefonico per il quale non si conosce la
tariffazione. Si conducono una serie di misure (telefonate) per stimare il costo dello scatto alla risposta (che
non include alcuna durata di conversazione) e il costo nel tempo dopo lo scatto alla risposta.
Da 6 telefonate eseguite si è ottenuto:
telefonata (1)
1
2
3
4
5
6
durata (s)
100
48
390
500
60
140
costo (€)
0.49
0.31
1.48
1.86
0.40
0.67
4a) Si riportino in un diagramma cartesiano i costi in € in funzione delle durate in secondi.
4b) Si ricavi l’espressione analitica (con coefficienti numerici) della retta di regressione ai minimi quadrati
per i dati misurati.
Si aggiunga tale retta di regressione al grafico per punti disegnato alla risposta 4a).
NOTA: si ricorda che per la retta di regressione ai minimi quadrati è
 x i2  y i   x i  x i y i
2
2
n x i2   x i 
n x i2   x i 
4c) Si valuti il costo dello scatto alla risposta (in €) e la tariffazione (in €-cent./minuto).
m
n x i y i   x i  y i
b

 y i  m x i
n
4a-b) Il calcolo della retta di regressione fornisce come coefficiente angolare m=0.337 €-cent./s e intercetta
b=17.3 €-cent..
2.0
1.8
1.6
Costo [€]
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0
100
200
300
400
500
600
Tem po [s]
4c) Il costo dello scatto alla risposta è individuato dall’intercetta della retta di regressione con l’asse Y (costi
in €-cent.), ossia è il costo per una durata t=0: lo scatto alla risposta ha dunque un costo di 0,17 €.
La tariffazione al minuto si ottiene dalla pendenza della retta di regressione (€-cent./s) moltiplicata per
60 (quanti sono i secondi in un minuto): pertanto la tariffazione è di 20.2 €-cent./minuto.
_______
Pag. 5/6
(20 min)
5a)
5b)
5c)
Esercizio 5
(svolgere su questo foglio e sul retro)
Supponendo che la dimensione di una mail segua una distribuzione normale, con valor medio 100 kB e
deviazione standard 30 kB, si calcoli la probabilità che 11 mail occupino complessivamente meno di
1 MB.
Durante le ore lavorative un impiegato riceve mediamente una mail ogni 20 minuti. Quanto vale la
probabilità che in un’ora riceva più di una mail?
Il 70 % delle mail ricevute è di spam. Quanto vale la probabilità che su 9 mail ricevute esattamente 5
siamo spam?
5a)
La variabile casuale “spazio occupato da 11 mail” è pari alla somma di 11 variabili casuali normali,
scorrelate, per cui ha valor medio pari alla somma dei valori medi e varianza pari alla somma delle varianze:
La media 11=11=1100 kB
 11  11   2  99.5 kB
Per calcolare la probabilità richiesta, standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla
tabella dei valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo
x
che z 
è la VNS ricavata da x.


1000   11 
1000  1100 
  P z 
P( x  1000)  P z 
  P( z  1.005)  15.7 %

99
.
5


11


Questo valore è ottenuto nell’ipotesi semplificativa che 1 MB = 1000 kB. Tuttavia, ricordando che 1 MB =
1024 kB, si può ottenere il valore più corretto:

1024  11 
1024  1100 

  P z 
P( x  1024)  P z 
  P( z  0.764)  22 %
 11
99.5




Entrambe le risposte sono accettabili, pur di avere motivato la scelta del fattore utilizzato per la conversione
da kB a MB.
2b)
La variabile casuale “numero di mail” ricevute segue una distribuzione poissoniana. Infatti in questo
caso si parte da un processo di Bernoulli (in un dato istante c’è oppure non c’è una nuova mail), con una
probabilità di “successo” molto bassa ed un numero molto alto di estrazioni (basta considerare un intervallo
di tempo molto piccolo). Inoltre l’arrivo delle mail si può considerare scorrelato.
Su 1 ora il valor medio del numero di mail ricevute vale  = 1 mail/20 minuti  60 minuti/ora= 3 mail/ora.
La probabilità di ricevere più di una mail in 1 ora di tempo è pari a
e   0 e   1
P( x  1)  1  P( x  0)  P( x  1)  1 

 1  0.0498  0.1494  80%
0!
1!
5c)
In questo caso utilizziamo una distribuzione binomiale, dato che ogni prova è un processo di
Bernoulli (la singola mail può essere spam oppure no), le prove sono indipendenti e la probabilità di successo
in ogni prova è costante p =0.7.
La probabilità che su 9 mail ricevute esattamente 5 siano spam vale
n
9
9!
362880
P(5 spam su 9 mail )    p x (1  p) n x   0.7 5 (1  0.7) 95 
0.7 5 0.34 
 0.1681  00081
5!9  5!
120  24
 x
 5
P(5 spam su 9 mail )  17.15 %
_______
Pag. 6/6