s_080205

STATISTICA E MISURAZIONE
martedì 5 febbraio 2008
Prof. Cesare Svelto
Tempo a disposizione 2 ore e 10 minuti
Primo appello AA 2007/2008
Aule V.S.8 ore 12.30
Cognome: __________________________
Nome: _____________________
(stampatello)
Matricola: __ __ __ __ __ __
Firma: _____________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (7+7+7+8+4=33pt)
(crocettare)
N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una
penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”.
SOLUZIONI
Esercizio 1 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
1)
Intendiamo effettuare uno studio statistico del numero x di tiri in porta effettuati in una partita di calcio.
Si analizzano 13 partite, ottenendo i seguenti numeri :
x = 16, 8, 17, 19, 31, 15, 21, 17, 14, 9, 17, 20, 13.
Si calcolino la moda, la media e la varianza campionaria del numero di tiri in porta.
Si riportino i dati in un diagramma rami e foglie ordinato.
Si definisca il k-esimo percentile, indicandone l’espressione generale di calcolo. La stampa
specializzata definisce “spettacolare” solo il 20% delle partite. Se l’unico criterio fosse il numero di tiri
in porta, quale sarebbe il numero minimo x per definire una partita “spettacolare”?
Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i
valori significativi.
1a)
1b)
1c)
1d)
1a) moda= valore più probabile (che si è ripetuto più volte) = 17
 1 n
media campionaria = x   xi  16.6923
n i 1
n

varianza campionaria = s 2 
(x  x)
i
i 1
n 1
2
 33.2308
1b) Riportiamo i dati ordinati:
x = 8, 9, 13, 14, 15, 16, 17, 17, 17, 19, 20, 21, 31.
Con 13 dati un numero sensato di rami è 4 o 5 (ricordiamo la legge 1+log2(n), o anche  n ), in questo caso
possiamo scegliere le decine come rami e le unità come foglie, individuando 4 classi/rami:
rami
0
1
2
3
foglie
8 9
3 4 5 6 7 7 7 9
0 1
1
1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%.
La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100
Dall’indice ottenuto, se Ik non è intero, si ricava quindi il valore esatto con un’interpolazione lineare tra i due
dati (con indici uguali all’intero prima e dopo di Ik ).
Pag.1/8
Una partita è definita “spettacolare” se ha più tiri in porta dell’80% delle partite, quindi la soglia di
“spettacolarità” non è altro che l’80-esimo percentile.
L’80-esimo percentile ha indice I80% = (13+1)80 /100 = 11.2, quindi l’80-esimo percentile è pari a
80-esimo percentile = 20+(21-20)0.2 = 20.2
Concludendo: una partita è giudicata “spettacolare” se vengono effettuati più di 20 tiri in porta.
1d) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile.
I 13 dati ordinati sono
x = 8, 9, 13, 14, 15, 16, 17, 17, 17, 19, 20, 21, 31.
La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana è pari al settimo
dato.
Mediana= 17.
Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è dato
dalla media tra il terzo e il quarto dato:
primo quartile= (13+14)/2 = 13.5 = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è dato
dalla media tra il decimo e l’undicesimo dato:
terzo quartile= (19+20)/2 = 19.5 = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 6.
I baffi si possono estendere fino a 1.5DIQ = 9 al di là del primo e del terzo quartile, quindi fino a 4.5 e 28.5.
Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite calcolato: in questo
caso sino al dato 1 (baffo inferiore) pari a 8, e sino al dato 13 (baffo superiore) pari a 21.
In figura è riportato anche il diagramma a punti (dot-plot).
1
5
10
15
20
Numero di tiri in porta
25
30
Pag.2/8
Esercizio 2 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
2a)
2b)
2c)
2d)
Un tecnico informatico gestisce un piccolo server di posta elettronica, con 10 utenti. Tra le 14 e le 15
del pomeriggio la probabilità che uno dei singoli utente si sia connesso è pari al 20%. Quanto vale la
probabilità che meno di due utenti si siano connessi durante quell’ora?
Nel pomeriggio il server riceve mediamente 20 messaggi mail all’ora. In prima approssimazione quale
distribuzione di probabilità segue il numero di messaggi in un tempo prefissato? Si calcoli la
probabilità che in 12 minuti arrivino 5 messaggi.
Se invece di limitarci al pomeriggio considerassimo un’intera giornata di 24 ore, potremmo utilizzare la
stessa distribuzione di probabilità? Si giustifichi la risposta.
Il tecnico informatico passa quindi a gestire un server con 10 000 utenti, sempre con il 20% di
probabilità di connessione tra le 14 e le 15 del pomeriggio. Quanto vale la probabilità che non più di
1950 utenti si siano connessi durante quell’ora?
2a) Dato che ogni prova è un processo di Bernoulli (ogni utente si è connesso oppure no), le prove sono
indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x connessioni su n utenti
segue la distribuzione binomiale, con probabilità di successo p =0.2 :
n
n
P(meno di 2 successi su 10 prove )  P( x  0)  P( x  1)    p x (1  p) n  x
   p x (1  p) n  x

x
 x


x 0
x 1
10 
10 
0
1
  0.2 (0.8)100   0.2 (0.8)101  10.74%  26.84  37.58 %
0
1
n
n!
avendo ricordato che   
 x  x!(n  x)!
2b) Questo fenomeno segue una distribuzione di probabilità poissoniana. Infatti il singolo evento “ricezione
di un messaggio” è un processo di Bernoulli, che si può ritenere scorrelato (anche per l’ipotesi che il valor
medio resta costante), con un numero altissimo di messaggi possibili ed una probabilità istantanea di
ricezione molto bassa.
e   x
La funzione di probabilità di una variabile poissoniana X vale f ( x) 
,
x  0,1,2...
x!
il suo valor medio vale  =  e la sua varianza vale 2 = .
Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono casualmente in
un dato intervallo di tempo.
Il valor medio in questo caso vale  = 20 messaggi/ora × 1/5 ora = 4 messaggi
La probabilità che in 12 minuti si ricevano esattamente 5 messaggi vale quindi
e    x e 4 4 5
P( x  5) 

 15.63 %
x!
5!
2c) Se consideriamo un’intera giornata di 24 ore, viene a cadere l’ipotesi che la probabilità di ogni singolo
evento resti costante: sicuramente di notte la probabilità di ricevere messaggi sarà inferiore. In questo caso
l’approssimazione poissoniana del fenomeno non sarebbe corretta.
2d) Data la complessità del calcolo tramite la formula della binomiale, decidiamo di sfruttare
l’approssimazione gaussiana. Il valor medio vale np = 2 000 utenti. La varianza vale invece np(1-p)=1600.
L’approssimazione è valida in quanto np e n(1-p) sono entrambi molto maggiori di 1 (tipicamente si
considera attendibile l’approssimazione per valori superiori a 5): in questo caso sicuramente
l’approssimazione è molto buona. Calcoliamo quindi la probabilità tramite standardizzazione:

1950.5  np  
1950.5  2000 
P( x  1950.5)  P z 
 z 
  P( z  1.2375)  10.8%


40
np(1  p)  


Pag.3/8
Il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità pari a
10.77%, praticamente identica al valore ottenuto con l’approssimazione effettuata.
Pag.4/8
Esercizio 3 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
3) Siamo interessati a controllare il corretto funzionamento di un sistema meccanico di taglio di piastrelle.
La deviazione standard del processo di taglio correttamente funzionante vale 0.5 mm. Viene misurata la
dimensione di 81 piastrelle, ottenendo un valor medio di 39.950 cm.
3a) Si definisca il significato di “intervallo di confidenza” di una misura.
3b) Si determini l’intervallo di confidenza al 90% per il valor medio della dimensione di una piastrella.
3c) Sulle 81 piastrelle misurate si è ottenuta una varianza campionaria s2=0.5 mm2. Si effettui un test
statistico con livello significatività pari al 5 %, per verificare se la varianza di taglio è peggiorata rispetto al
corretto funzionamento.
3a) L’intervallo di confidenza a una data percentuale p% è l’intervallo che presenta la probabilità p% di
contenere la variabile casuale in questione.
3b) Per il teorema del limite centrale, il valor medio della dimensione di una piastrella, calcolato su 81
piastrelle, segue in buona approssimazione una distribuzione gaussiana, con valor medio  = 39.950 cm e

0.5 mm
 55.6 μm .
deviazione standard  X  X 
9
n
Per calcolare l’intervallo di confidenza al 90% ritroviamo sulla tabella dei valori integrali, Φ(z), di una
distribuzione normale il valore Zα corrispondente ad α = 5% (90% all’interno dell’intervallo implica 5% a
sinistra e 5% a destra): Zα  1.645.
I due estremi dell’intervallo di confidenza sono quindi distanti 1.645  X dal valor medio, per cui l’intervallo
di confidenza al 90% ricavato è:
X  Z  X ; X  Z  X   39.950  1.645  0.00556;39.950  1.645  0.00556 cm  [39.941 ; 39.959] cm
3c) Intendiamo valutare se la varianza di corretto funzionamento non sia più attendibile. Effettuiamo quindi
un test 2, seguendo gli 8 passi descritti nel libro di testo:
1. Il parametro di interesse è la varianza del taglio
2. H0:  2 =02 = (0.5 mm)2=0.25 mm 2
3. H1:  2 > 02 (il test è a un solo lato perché ci interessa dimostrare che la dispersione dei valori è
aumentata)
4. livello di significatività richiesto  = 0.05
5. La statistica di test è la statistica X 02 
(n  1) s 2
 02
6. Rifiutiamo H0 se X02 >  02.05,80  101.88 (questo valore si ricava dalla tabella della distribuzione 2,
con 80 gradi di libertà, in corrispondenza del 5 %)
7. Calcoliamo quindi X 02 
(n  1) s 2
 02

80  0.5 mm 2
 160
0.25 mm 2
8. Conclusione: dato che X02 =160 >  02.05,80  101.88 possiamo rifiutare l’ipotesi nulla con livello di
significatività 0.05: c’è forte evidenza che la varianza del processo di taglio sia maggiore di 0.25 mm2
Pag.5/8
Esercizio 4 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
4a) La misura della velocità di un’automobile viene ricavata con un misuratore ottico a correlazione che
fornisce 7 valori ripetuti v0,i=131,135,136,129,131,128,134 km/h. Si ricavi il valore della velocità v0 e la
sua incertezza tipo.
4b) La velocità viene inoltre misurata con altri due strumenti:
1. il tachimetro della vettura, a display digitale con risoluzione 2 km/h, che mostra un valore
v1=140 km/h;
2. un autovelox a fotocellule, distanziate d=80 cm2 mm, che ha misurato un tempo di attraversamento
T=21.4 ms, contato con un orologio al quarzo (fc=10 kHz), da cui ha calcolato la velocità v2.
Si ricavino le ulteriori due misure di velocità e le loro incertezze.
4c) Si discuta la compatibilità tra le tre misure indipendenti, commentando il risultato ottenuto.
N.B. In tutto l’esercizio, si richiede di esprimere le diverse velocità in km/h.
4a) Il valore di v4 si ottiene come media campionaria delle 7 misure ripetute:
v0= v 0 
1 n
 v 0 ,i =132.0 km/h
n i 1
L’incertezza tipo, di categoria A, si ottiene come:
u(v0)=uA(v0)=
n
1
v 0 ,i  v 0 2 =1.2 km/h

nn  1 i 1
4b) Nella prima misurazione, la risoluzione finita è v1=2 km/h, per cui la corrispondente incertezza di
quantizzazione è v1/ 12 0.58 km/h.
La prima misura è dunque v1=140.000.58 km/h.
Nella seconda misurazione, la velocità è v2=d/T=37.38 m/s = 134.58 km/h.
Inoltre
ur(d)=u(d)/d=0.2/80=0.25 %
ur(T)=u(T)/T=29/21400=0.14 %.
e,
essendo
u(T)=T/ 12 =(1/fc)/ 12 =29 µs,
si
ha
Quindi ur(v2)= ur2 d   ur2 T  =0.29 % e infine si ottiene u(v2)=v2×ur(v2)=0.39 km/h.
La seconda misura è dunque v2=134.580.39 km/h.
4c) Siamo in presenza di tre misure indipendenti della stessa grandezza che hanno fornito valori di misura diversi
tra loro. Valutiamo la compatibilità tra le misure, a due a due, secondo il criterio di compatibilità standard che
prevede di confrontare la distanza tra i due valori con una combinazione delle due incertezze standard, attraverso
la relazione: vi  v j  kcomp u 2 ( vi )  u 2 ( v j ) .
Sostituendo i valori del caso, si ottiene kcomp(0,1) ≥ 7.5, kcomp(0,2) ≥ 2.044, kcomp(1,2) ≥ 7.8. Pertanto solo due
misure sono compatibili con kcomp = 2 mentre la misura del tachimetro non è compatibile con le altre neppure per
kcomp=3.
Si deduce che la misura 1 è incompatibile con le altre due, che risultano invece compatibili tra loro.
Commento: molto probabilmente l’incertezza del tachimetro non è data solo dalla sua quantizzazione. Infatti
normalmente i tachimetri hanno un fattore di scala tarato in eccesso, con errore dell’ordine di qualche percento.
Pag.6/8
Pag.7/8
Esercizio 5 (tempo stimato 10 m)
(svolgere su questo foglio e sul retro)
5a)
5b)
5c)
Si espliciti con un esempio la differenza tra risoluzione e sensibilità di un sensore.
Dopo avere indicato l’espressione analitica da utilizzare, si trasformino in dBm i seguenti valori di
potenza elettrica: P1=4 W; P2=200 nW; P3=5 mW.
Un’onda acustica ha una potenza pressoria, misurata in dBA rispetto alla soglia dell’udibile (0 dBA). Se
una televisione accesa a basso volume ha un livello sonoro di +24 dBA e un aereo al decollo è a
+90 dBA, si esprima in unità lineari il rapporto tra queste due potenze sonore.
5a) Vedi Libro e Appunti del Corso.
5b) P(dBm)=10log10[(P(W)/(1 mW)] e quindi P1=4 W=+36 dBm; P2=200 nW=-37 dBm; P3=5 mW=+7 dBm..
5c) Il rapporto cercato è R=90 dBA-24 dBA=+66 dB=4106 e dunque il rumore dell’aereo al decollo è quattro
milioni di volte più intenso di quello della televisione.
Pag.8/8