s_090209

STATISTICA E MISURAZIONE
lunedì 9 febbraio 2009
Prof. Cesare Svelto
Tempo a disposizione 2 ore e 5 minuti
Prova in itinere AA 2008/2009
Aula V.S.8 ore 13.00
Cognome: __________________________
Nome: _____________________
(stampatello)
Matricola: __ __ __ __ __ __
Firma: _____________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (8+8+7+3+7=33pt)
(crocettare)
N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una
penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”.
SOLUZIONI
Esercizio 1 (tempo stimato 30 min)
(svolgere su questo foglio e sul retro)
1)
1a)
1b)
1c)
1d)
1e)
1f)
Si vuole studiare la distribuzione delle altezze degli studenti universitari in Italia. Si analizza, a
campione, un insieme di 10 studenti del Politecnico di Milano. Nel campione considerato le altezze
misurate (in cm) risultano essere:
hi = xi = 174, 170, 176, 172, 177, 172, 165, 178, 168, 171.
Si ricavino gli indici di tendenza centrale (media, moda, mediana) e di dispersione (range, varianza,
deviazione standard) dei dati.
Si disegni un istogramma della frequenza dei dati, impiegando 3 classi di altezza.
Si scriva la definizione di k-esimo percentile e si spieghi come ricavarlo in generale.
Si disegni il box-plot dei dati, ricavando prima i 3 quartili.
Si ricavi la tabella di distribuzione cumulativa osservata dei dati.
Si verifichi la gaussianità dei dati, disegnando il grafico di probabilità normale su doppia scala
normalizzata.
21a)
Il numero di dati è n=10.
 1 n
La media campionaria è x   xi  172.3.
n i 1
La moda, ovvero il valore più probabile e dunque con la maggiore occorrenza/frequenza nei dati, è
xmoda=172 cm.
Un insieme ordinato dei dati è xi (cm) = 165, 168, 170, 171, 172, 172, 174, 176, 177, 178 e la mediana,
valore che divide in due parti uguali (50 % e 50 %) l’insieme dei dati ordinato è xmediana=172 cm.
Il range, o dinamica o escursione picco-picco, dei dati è xrange=xmax-xmin=(178-165) cm=13 cm.
n

La varianza (campionaria) è s 2 
 (x
i 1
i
 x)2
 16.68 cm2.
n 1
n

La deviazione standard (campionaria) è s  s 2 
 (x  x)
i 1
i
n 1
2
 4.08 cm.
_______
Pag. 1/10
11b)
Scegliamo di disegnare l’istogramma su 3 classi di larghezza 5 cm:
6
Frequenza
5
4
3
2
1
0
165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180
Altezza [cm]
11c) k-esimo
percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%.
La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100
Dall’indice, anche non intero, si ricava quindi il valore esatto del percentile con un’interpolazione lineare tra i
due dati (con indici Ik,low e Ik,high corrispondenti all’intero prima e dopo di Ik).
21d)
I dati ordinati sono
xi (cm) = 165, 168, 170, 171, 172, 172, 174, 176, 177, 178.
I valori delle soglie che corrispondono ai 3 quartili (50°, 25° e 75° percentile) sono:
Il 50° percentile ha indice I50% = (10+1)50 /100 = 5.5, per cui
50° percentile = Q2 = M = 172 + (172 - 172)0.5 = 172 cm
2° quartile
Il 25° percentile ha indice I25% = (10+1)25 /100 = 2.75, per cui
25° percentile = Q1 = 168 + (170 - 168)0.75 = 169.5 cm
1° quartile
Il 75° percentile ha indice I75% = (10+1)75 /100 = 8.25, per cui
75° percentile = Q3 = 176 + (177 - 176)0.25 = 176.25 cm
3° quartile
La dinamica interquartile è DIQ=Q3-Q1=6.75 cm. I baffi del box-plot si possono estendere fino a 1.5DIQ, in
questo caso tutti i dati sono contenuti all’interno dei baffi, che quindi si estendono dl primo all’ultimo dato.
Nel grafico è riportato anche il corrispondente dot-plot:
1
164
166
168
170
172
174
Altezza [cm]
176
178
180
_______
Pag. 2/10
21e)
La tabella di distribuzione cumulativa osservata, indicando xj=hj è:
j
xj
F *(x j )
1
2
3
4
5
6
7
8
9
10
165
168
170
171
172
172
174
176
177
178
0.05
0.15
0.25
0.35
0.45
0.55
0.65
0.75
0.85
0.95
Aggiungendo alla tabella del punto 1e) anche la colonna dei dati normalizzati (standardizzati) x*j e i
corrispondenti valori zj (ottenuti leggendo dalla tabella della cumulativa gaussiana (z) in corrispondenza
delle probabilità sperimentalmente osservate F*(xj)), si ottiene:
(x j -m )/s z j da  (x *j )
21f)
j
xj
F *(x j )
x *j
zj
1
2
3
4
5
6
7
8
9
10
165
168
170
171
172
172
174
176
177
178
0.05
0.15
0.25
0.35
0.45
0.55
0.65
0.75
0.85
0.95
-1.787532
-1.05293
-0.563195
-0.318328
-0.07346
-0.07346
0.416275
0.906009
1.150877
1.395744
-1.64
-1.04
-0.67
-0.39
-0.13
0.13
0.39
0.67
1.04
1.64
da cui il grafico di probabilità normale (bi-normalizzato) di zj in funzione di x*j:
2.0
1.5
1.0
0.5
0.0
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
-0.5
-1.0
-1.5
-2.0
Poiché i punti sul grafico di probabilità normale, corrispondenti ai 10 dati nel campione, sono abbastanza
bene allineati lungo una retta, con pendenza 45°, si evidenzia una buona gaussianità dei dati d’origine.
_______
Pag. 3/10
Esercizio 2 (tempo stimato 30 min)
(svolgere su questo foglio e sul retro)
L’università compra un lotto di PC difettosi, con il 10 % di probabilità di difetti all’origine. Quanto
vale la probabilità di trovare un solo PC guasto in una partita di 20?
Considerando tutti i PC in possesso dell’università, mediamente al tecnico informatico viene segnalato
un guasto al mese. Quanto vale la probabilità che in un anno vengano segnalati esattamente 11 guasti?
Una connessione wireless a internet, in una zona malservita, ha il 50 % di probabilità di connettersi via
GPRS (a 54 kbit/s), 40 % di connettersi via EDGE (a 223 kbit/s) e 10 % di connettersi via UMTS (a
4000 kbit/s). Quanto vale la velocità media di trasmissione?
Supponendo che la tipologia di connessione possa variare ogni 60 s (ogni volta con le stesse
probabilità, senza correlazioni), si calcoli la probabilità che entro 2 ore si riescano a scaricare
3.8106 kbit (circa 460 MByte), trascurando eventuali tempi di riconnessione.
2a)
2b)
2c)
2d)
2a) Dato che ogni prova è un processo di Bernoulli (ogni PC o è difettoso oppure non lo è, ovvero successo o
insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di
x PC guasti su n segue la distribuzione binomiale, con probabilità di successo p =0.1:
 n
 20 
1
P(1 successo su 20 prove )    p x (1  p) n x   0.1 (0.9) 201  0.27  27%
 x
1
n
 20  20!
n!
avendo ricordato che   
e dunque   
 20
 x  x!(n  x)!
 1  19!1!
2b)
La variabile casuale “numero di PC guastati in un determinato tempo” segue una distribuzione
poissoniana. Infatti in questo caso si parte da un processo di Bernoulli (un PC può essere solo funzionante o
guasto), con una probabilità di “successo” molto bassa ed un numero molto alto di estrazioni (i PC in
università sono molti). Inoltre i guasti si possono considerare scorrelati. Siamo quindi nelle condizioni in cui
si può considerare valido il limite per n→ di una distribuzione binomiale: è possibile dimostrare che
e   x
f ( x) 
,
x  0,1,2... si ottiene matematicamente dalla distribuzione binomiale quando il numero di
x!
estrazioni n è molto alto e la probabilità di successo p è molto bassa, con  = np.
Su 12 mesi il valor medio di guasti vale  = 1/mese ×12 mesi = 12.
La probabilità di avere esattamente 11 guasti è pari a
e   11 e 121211
P( x  11) 

 11.4 %
11!
11!
2c) In questo caso abbiamo una distribuzione di probabilità discreta, con 3 valori possibili. Esprimiamo
tutti i dati in kbit/s.
Il valore atteso di questa distribuzione di probabilità vale (si veda il capitolo 3):
Δ
Δ
n
m  E ( X )   x j p( x j ) =54×0.5+223×0.4+4000×0.1=516.2 kbit/s
j 1
2d) Per effettuare il calcolo è possibile sfruttare il teorema del limite centrale: il valor medio della velocità
di trasmissione tende a seguire una distribuzione gaussiana (in 2 h avvengono 120 riconnessioni), con
varianza data dalla varianza della singola estrazione divisa per il numero di estrazioni. Supponendo che la
tipologia di connessione possa variare ogni 60 s, è come se si effettuasse una nuova estrazione ogni minuto,
quindi in 2 ore si effettuano 120 estrazioni.
La varianza della singola estrazione, per la PDF discreta a 3 valori qui considerata, vale (si veda il capitolo
3):


n
n
i 1
i 1
s 2  V ( X )   ( xi  m ) 2 p( xi )   xi 2 p( xi )  m 2 =542×0.5+2232×0.4+40002×0.1–516.22= 1 354 887 (kbit/s)2
_______
Pag. 4/10
La deviazione standard vale s = 1164 kbit/s.
Il valor medio vale ancora m = 516.2 kbit/s
La deviazione standard del valor medio su 120 prove vale infine:
s
1164
sx 

 106.26 kbit/s
n
120
Il valore richiesto di 3.8106 kbit su 2 ore corrisponde ad avere una velocità media sperimentata di
3.8106 kbit /(23600 s)= 527.78 kbit/s, che è di “un po’” superiore alle media m del processo studiato.
Calcoliamo infine la probabilità, mediante standardizzazione, che la velocità media sperimentata sia
maggiore di 527.78 kbit/s, in questo modo sicuramente i 3.8106 kbit saranno scaricati in meno di 2 ore:

527.78  m  
527.78  516.2 
   z 
P( x  527.78)  P z 
  P( z  0.109)  P( z  0.109)  45.6%
sx
106.26


 
_______
Pag. 5/10
Esercizio 3 (tempo stimato 25 min)
(svolgere su questo foglio e sul retro)
3) Una nota azienda di biscotti ha lanciato sul mercato un nuovo prodotto dietetico, che vuole dichiarare
contenente meno dello 0.1% di grassi (0.4 g di grassi in un pacchetto da 400 g). Lo studio legale della ditta le
consiglia di effettuare un test statistico, che dimostri tale affermazione con un livello di significatività
dell’1%. La ditta fa quindi analizzare un campione casuale di 20 pacchetti di biscotti, ottenendo un valor
medio di grassi per pacchetto pari a 0.37 g, con deviazione standard campionaria di 0.1 g.
3a) Si effettui il test statistico richiesto.
3b) Si definisca il valore P di un test statistico e se ne descriva l’utilità. Si calcoli il valore P per il test
effettuato dall’azienda.
3c) Supponendo che la media e la varianza campionaria misurati corrispondano a valor medio e varianza
reali dell’intera popolazione di biscotti, quanti sacchetti dovrebbe far analizzare la ditta per dichiarare lo
0.1% di grassi con il livello di significatività richiesto?
3a) Si tratta di un test t, in quanto dobbiamo stimare il valor medio di una popolazione con varianza ignota. Il
numero di gradi di libertà è  = n – 1 = 19. La deviazione standard campionaria vale 0.1 g
Effettuiamo quindi un test t.
1.
2.
3.
4.
Il parametro di interesse è la quantità di grassi in un pacchetto
H0: m = 0.4 g
H1: m < 0.4 g (il test è a un solo lato, in quanto la ditta vuole dimostrare il basso contenuto di grassi)
Livello di significatività richiesto  = 0.01
5. La statistica di test è la statistica t: t 0 
X m X m

sX
s/ n
6. Rifiutiamo H0 se t0 < -t, = -2.539 (questo risultato si ricava dalla tabella dei punti percentuale della
distribuzione t, con  = 19 e  = 0.01)
7. Calcoliamo quindi t0, t 0 
X  m X  m 0.37  0.4


 1.34
sX
s/ n
0.1 / 20
8. Conclusione: non essendo t0 < -t0.01,19, non possiamo rifiutare l’ipotesi nulla con livello di
significatività 0.01.
3b) Il valore P di un test statistico è il più piccolo livello di significatività  che porterebbe a rifiutare
l’ipotesi nulla H0.
In questo caso dalla tabella t si ricava che il valore di  che fornisce t,19  1.34 è circa 0.1, per cui il valore P
in questo caso vale circa il 10%, abbastanza lontano dall’1% richiesto.
3c) Lo scopo della ditta è di poter dichiarare che i biscotti hanno meno dello 0.1% di grassi, con livello di
significatività dell’1%. All’aumentare della numerosità del campione analizzato, è previsto che la deviazione
standard del valor medio vada diminuendo, con un conseguente abbassamento del valore P del test.
Mantenendo fissati il valor medio e la deviazione standard campionaria, è necessario che t0 < -t, ( = 0.01)
con  = n – 1 pari al numero di campioni. L’equazione non è risolvibile in forma chiusa (perché sia t0 che t,
variano con n), però la soluzione si può trovare con buona approssimazione in un paio di tentativi iterati: si
trova il valore di n partendo da t,
_______
Pag. 6/10
t0 
X  m X  m 0.37  0.4


 t ,  2.326
sX
s/ n
0.1 / n
 n
 2.326  0.1
 7.75  n  60
0.37  0.4
A questo punto ripetiamo il calcolo considerando t,59  t,60 (valore disponibile in tabella)
t0 
X  m X  m 0.37  0.4


 t ,60  2.390
sX
s/ n
0.1 / n
 n
 2.39  0.1
 7.97 
0.37  0.4
n > 63
Dato che il numero di campioni n è un intero, la soluzione trovata è esatta (l’approssimazioni di usare nella
disequazione t,62  t,60 è assolutamente ininfluente). In conclusione, ci si aspetta che la ditta debba fare il
test su più di 63 pacchetti di biscotti, per avere una buona probabilità di successo.
_______
Pag. 7/10
Esercizio 4 (tempo stimato 10 min)
(svolgere su questo foglio e sul retro)
4a) Si dia la definizione delle seguenti unità di misura del Sistema Internazionale:
 metro
 secondo
 ampere
4b) Come mai l’unità di massa è ancora definita tramite un manufatto?
74a) Vedi
Libro di testo e Appunti del Corso.
34b) Vedi
Libro di testo e Appunti del Corso.
_______
Pag. 8/10
Esercizio 5 (tempo stimato 30 min)
(svolgere su questo foglio e sul retro)
1) Per realizzare un campione primario del kilogrammo, si costituisce un cilindro (cilindro retto a base
circolare) di platino-iridio con diametro di base (D) uguale all’altezza (h). La lega metallica contiene
“esattamente” il 90 % di platino e il 10 % di iridio (percentuali in volume).
La densità (volumica, di massa) del platino è nota dalla letteratura: Pt=21.450.02 kg/dm3.
La densità dell’iridio, Ir viene misurata per 6 volte con una bilancia analogica ideale, in condizioni di
ripetibilità. I valori letti Ir,k sono: 22.65, 22.70, 22.55, 22.60, 22.65, 22.75, espressi in g/cm3.
L’altezza del cilindro viene misurata con un calibro centesimale (risoluzione 1/100 mm), ottenendo un valore
di 3.9 cm, mentre per il diametro ci si fida dell’ipotesi che sia uguale all’altezza.
1a) Ricavare il valore e le incertezze tipo (assoluta e relativa) della densità Ir dell’iridio.
1b) Si esprima la misura del volume V e della densità  del cilindro di platino-iridio indicando l’incertezza
in notazione compatta e ricavando anche le incertezze relative.
1c) Si ottengano il valore e l’incertezza standard della massa m del cilindro e si esprima questo risultato di
misura indicando l’incertezza estesa per un fattore di copertura k=2.
31a)
La densità dell’iridio si ottiene dalla media delle 6 misure ripetute:
Ir=  Ir,k 
1 6
  Ir,k =22.65 kg/dm3
6 k 1
e la sua incertezza tipo è la deviazione standard delle media campionaria:
u(Ir)= s(  Ir,k ) 
1 6
Ir,k  Ir,k 2 =0.029 kg/dm3

6  5 k 1
con una incertezza relativa ur(Ir)=u(Ir)/Ir=(0.029)/(22.65)=1.310-3.
Per la densità dell’iridio, nota da misure ripetute, possiamo dunque scrivere Ir=22.6500.029 kg/dm3.
Si esegue una sola misura dimensionale dell’altezza del cilindro h=3.9 cm, e per ipotesi tale altezza è
esattamente uguale anche al diametro: hD. Nel seguito dunque possiamo ritenere h=d=L, dimensione che
viene misurata con risoluzione L=10 mm (risoluzione del calibro) e pertanto con incertezza di
41b)
quantizzazione u(L)=L/ 12 3 mm.
Conoscendo L=3.9 cm3 mm=0.39000(3) dm, il volume del cilindro è calcolabile come:
V=(D2/4)h=(/4)L3=46.58910-3 dm3.
ur(V)=3ur(L)=3(3 mm)/(39 000 mm)=2.310-4.
u(V)=ur(V)V=1.110-5 dm3.
Pertanto V=(46.58900.011)10-3 dm3=46.589(11)10-3 dm3.
La densità  della lega Pt-Ir è allora
ρ=0.9ρPt+0.1ρIr=(19.305+2.265) kg/dm3=21.57 kg/dm3
con una incertezza standard
u(ρ)=
0.92 u 2 Pt   0.12 u 2 Ir   324  8.4 ×10-3 kg/dm³=0.018 kg/dm³
Pertanto ρ=21.570±0.018 kg/dm³=21.570(18) kg/dm³.
E infine ur(ρ)=u(ρ)/ρ=8.3×10-4.
_______
Pag. 9/10
31c)
m=ρV=1.0049 kg
ur(m)= ur2    ur2 V   (8.3) 2  (2.3) 2 104 =8.610-4
u(m)=ur(m)m=8.310-4 kg=0.87 g
U(m)=ku(m)=1.7 g
m=1.0049 kg±1.7 g con incertezza estesa per k=2
Commento:
L’incertezza relativa ur(m), sulla massa del prototipo realizzato, è di circa 0.8 parti per mille, cioè
praticamente uguale alla incertezza relativa sulla densità ρ del manufatto.
_______
Pag. 10/10