s_090302

advertisement
STATISTICA E MISURAZIONE
lunedì 2 marzo 2009
Prof. Cesare Svelto
Tempo a disposizione 2 ore e 15 minuti
Primo appello AA 2008/2009
Aula V.S.8 ore 13.00
Cognome: __________________________
Nome: _____________________
(stampatello)
Matricola: __ __ __ __ __ __
Firma: _____________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (7+7+7+6+7=34pt)
(crocettare)
N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una
penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”.
SOLUZIONI
Esercizio 1 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
1)
1a)
1b)
1c)
1d)
Si misurano le altezze dei ragazzi di una classe di liceo, ottenendo i seguenti valori:
x [cm] = 173 193 182 184 180 182 178 170 164 187 179 183 182 179 177 189 181 177.
Si descriva che cosa rappresentano la media campionaria, la mediana e la moda di un insieme di dati. In
che situazione questi 3 valori coincidono? Se ne calcolino i valori per il campione in esame.
Si disegni un istogramma della frequenza relativa dei dati.
Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i
valori significativi.
Se l’altezza dei ragazzi in tutta Italia seguisse una distribuzione normale, con valor medio 180 cm e
deviazione standard 8 cm, quanto varrebbe il ventesimo percentile? Si descriva il significato di questo
valore.
1a) Riportiamo i 18 dati ordinati:
x [cm] = 164 170 173 177 177 178 179 179 180 181 182 182 182 183 184 187 189 193
La media campionaria è uno stimatore del valore atteso della popolazione, rappresenta il “baricentro” della
distribuzione di probabilità:
 1 n
x   xi  180 cm
n i 1
La mediana è il valore che divide in due parti uguali la popolazione (quindi è il valore corrispondente al 50%
dei dati). In questo caso di 18 dati, corrisponde alla media tra il nono e il decimo dato:
M=(180+181)/2=180.5 cm
La moda è il valore più probabile (in questo caso il valore con maggior numero di apparizioni):
Moda=182 cm.
La mediana è uguale alla media campionaria nel caso di distribuzioni di probabilità simmetriche. Il loro
valore coincide con la moda quando il centro di simmetria è anche il massimo della PDF (tipicamente per
PDF “a campana”, come ad esempio la distribuzione gaussiana).
1b) Con 18 dati un numero sensato di classi è 5 (ricordiamo la legge 1+log2(n), o anche  n ), in questo
caso possiamo scegliere un intervallo di 7 cm, ad esempio suddiviso nelle seguenti classi:
classi
161-167
168-174
175-181
182-188
189-195
dati
164
170
177
182
189
frequenza
173
177 178 179 179 180 181
182 182 183 184 187
193
1
2
7
6
2
freq. relativa
0.056
0.111
0.389
0.333
0.111
Pag. 1/11
Frequenza relativa
0.4
0.3
0.2
0.1
0
164
171
178
185
Altezza [cm]
192
1c) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I
18 dati ordinati sono
x [cm] = 164 170 173 177 177 178 179 179 180 181 182 182 182 183 184 187 189 193
La mediana, pari al 50-esimo percentile, per cui Imediana = (18+1)50 /100 = 9.5, quindi la mediana è pari alla
media tra il nono e il decimo dato.
Mediana= 180.5 cm.
Il primo quartile è il 25-esimo percentile, per cui I1Q = (18+1)25 /100 = 4.75, quindi:
primo quartile= 177+(177-177) 0.75 = 177 cm = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (18+1)75 /100 = 14.25, quindi:
terzo quartile= 183+(184-183) 0.25 = 183.25 cm = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 6.25 cm.
I baffi si possono estendere fino a 1.5DIQ = 9.375 cm al di là del primo e del terzo quartile, quindi fino a
167.625 cm e 192.625 cm. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il
limite calcolato: in questo caso sino al dato 2 (baffo inferiore) pari a 170 cm, e sino al dato 17 (baffo
superiore) pari a 189 cm. Il primo e l’ultimo dato sono outliers.
In figura è riportato anche il diagramma a punti (dot-plot).
1
165
170
175
180
Altezza [cm]
185
190
195
1d) Partendo dall’ipotesi che l’altezza segua una distribuzione normale, con valor medio
 = 180 cm e deviazione standard  = 8 cm, il decimo percentile si ricava dalla tabella dei valori della
funzione cumulativa di una variabile casuale standard. Per il 20%=0.2 di probabilità si legge il valore
standardizzato z  -0.84. Per cui il ventesimo percentile x vale:
x  z      -0.848+180 cm = 173.28 cm
Il valore del percentile ci indica una soglia: il 20% dei ragazzi è alto meno di 173.28 cm, mentre l’80% è più
alto di questo valore.
Pag. 2/11
Esercizio 2 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
2a) Un telaio per la filatura di tessuti produce in un ora mediamente 50 m di tessuto con deviazione standard
2 m e distribuzione gaussiana. Quanto vale la probabilità che una fabbrica dotata di 20 telai produca meno di
980 m di tessuto in un’ora?
2b) Entro quale intervallo di valori, attorno alla media, cadrà la produzione della fabbrica con un livello di
confidenza (probabilità) del 90 %?
2c) Tipicamente in un mese si guasta un telaio su 5: quanto vale la probabilità che in un mese, e in assenza di
interventi di riparazione, la produttività della fabbrica dimezzi (cioè che si guastino esattamente 10 telai su
20)?
2d) Ciascun telaio possiede 200 bulloni, che sono posti in vibrazione durante il normale funzionamento della
macchina: mediamente dai telai della fabbrica si stacca un bullone ogni settimana. Che tipo di distribuzione
statistica possiamo utilizzare per descrivere il fenomeno di distacco dei bulloni? Quanto vale la probabilità
che in 4 settimane si distacchino esattamente 5 bulloni?
2a) La quantità di tessuto prodotto in un’ora da 20 telai è pari alla somma di 20 variabile casuali (produzione
oraria di un telaio) ciascuna con distribuzione normale, che si possono considerare statisticamente
indipendenti. Quindi è ancora una variabile casuale a distribuzione normale, con valor medio pari alla somma
dei 20 valori medi e varianza pari alla somma delle 20 varianze:
 = 20  50 m = 1000 m,  2= 20  (2 m)2 = 80 m2 da cui  = 8.94 m.
Per calcolare la probabilità richiesta, standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla
tabella dei valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo
x
che z 
è la VNS ricavata da x.

980   
980  1000 


P(x<980)= P z 
  P z 
  P( z  2.236)  0.0127 1.3 % (all’incirca l’1 %)
 
8.94 


2b) Se l’area attorno al centro della gaussiana è del 90 %, vuole dire che l’area nella coda sinistra (e pure
nella destra) è p=((100-90)/100)/2=5 %. Cercando nella tabella della cumulativa (z) il valore di probabilità
del 5 %, si trova un valore z=-1.645 al quale corrisponde una produzione x=(-z) =1000 m14.7 m,
avendo ricordato che  = 8.94 m. L’intervallo di valori cercato è dunque [985.3, 1014.7], come metri di
tessuto prodotto in un’ora dalla fabbrica.
2c) Dato che ogni prova è un processo di Bernoulli (un telaio può essere guato oppure no, ovvero successo o
insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di
x telai guasti su n telai in totale segue la distribuzione binomiale, con probabilità di successo p =1/5=0.2:
 n
 20 
P(10 successi su 20 prove)    p x (1  p)nx   0.2 10 (0.8)10  184756  1.024  10 7  0.107  0.002
x
 10 
n
n!
avendo ricordato che   
 x  x!(n  x)!
Dunque la probabilità che in un mese, e in assenza di interventi di riparazione, la produzione della fabbrica
dimezzi vale circa il 2 ‰.
2d) In prima approssimazione possiamo utilizzare una statistica poissoniana, in quanto i bulloni che possono
distaccarsi sono moltissimi, e ciascuno con una probabilità di distacco in un determinato istante molto bassa.
Inoltre in prima approssimazione i singoli distacchi si possono considerare scorrelati (un distacco non è
influenzato dagli altri).
e   x
,
x  0,1,2...
La funzione di probabilità di una variabile poissoniana X vale f ( x) 
x!
con valor medio  =  e varianza  2 = .
Pag. 3/11
Nel caso considerato, il valor medio vale  = 1 distacco/settimana  4 settimane = 4 distacchi.
la probabilità che si distacchino esattamente 5 bulloni in 4 settimane vale:
e  x e 4 4 5 0.0183  1024
P(x=5)=
15.6 %.


x!
5!
120
Pag. 4/11
Esercizio 3 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
3) L’associazione consumatori vuole verificare il volume di un tetrabrick per succhi di frutta con valore
nominale 200 ml e deviazione standard del 2 %, secondo i dati della casa costruttrice. Si esegue uno studio su
un campione di 10 tetrabrick ottenendo i seguenti valori per il volume:
Vi = 199, 198, 200, 197, 199, 200, 198, 201, 198, 199 [ml].
3a) Si dia una definizione di Potenza di un test statistico.
3b) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare se la
quantità di succo di frutta è inferiore a quella dichiarata dalla casa produttrice. Si utilizzi la varianza
dichiarata.
3c) Quanto vale il valore P del test effettuato?
3d) Decidiamo di non fidarci della varianza dichiarata dalla casa produttrice ed effettuiamo quindi un nuovo
test sulla base del campione osservato. Possiamo in questo caso giudicare non attendibile il volume del
tetrabrick dichiarato dalla casa, sempre con livello significatività pari all’1 %?
3a) La potenza di un test statistico è la probabilità di rifiutare l’ipotesi nulla quando questa è falsa. È uguale
a 1- la probabilità  di errore di tipo II:
Potenza = 1 -  = 1 - P(errore di tipo II) = 1 - P(accettare H0 quando H0 è falsa)
La potenza è un parametro che ci descrive la capacità del test di rivelare le differenze della realtà rispetto
all’ipotesi H0.
3b) Calcoliamo il valore medio delle 10 misure effettuate (media campionaria):
 1 n
X   X i  198.9 ml
n i 1
Effettuiamo quindi il test statistico richiesto (test Z, in quanto vogliamo verificare il valor medio di una
popolazione a varianza nota,  = 2 % × 200 ml= 4 ml). Seguiamo gli 8 passi descritti nel libro di testo:
1. Il parametro di interesse è il volume medio 
2. H0:  = 200 ml
3. H1:  < 200 ml (il test è a un lato solo, in quanto vogliamo dimostrare che il tetrabrick ha un volume
inferiore a quello dichiarato)
4. livello di significatività richiesto  = 0.01 (attenzione, su un solo lato)
5. La statistica di test è la statistica Z: z0 
X 
X

X 
/ n
6. Rifiutiamo H0 se Z < Z = -2.326. (questo risultato si ricava dalla tabella della funzione cumulativa in
corrispondenza di un valore di probabilità )
7. Calcoliamo quindi z0, z0 
X 
X

X   198.9  200

 0.869
/ n
4 / 10
8. Conclusione: dato che z0 = -0.869 > -2.326 non possiamo rifiutare l’ipotesi nulla con livello di
significatività 0.01: non c’è abbastanza evidenza che l’ipotesi nulla sia falsa.
Il volume del tetrabrick dichiarato dalla casa produttrice, secondo questo test, deve dunque essere ritenuto
attendibile.
3c)
Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può
ricavare direttamente dalla tabella dei valori della funzione cumulativa:
ZP = z0 = -0.869, per cui il valore P =(z0)=19.2 %.
Pag. 5/11
L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di
significatività  maggiore del 19.2 %. In questo caso con  = 1 % non si è potuto rifiutare H0.
3d)
Ripetiamo ora il test, non fidandoci della varianza (deviazione standard) fornita dalla casa costruttrice.
Dovremo utilizzare la varianza dei dati disponibili nel campione selezionato. Il numero di gradi di libertà è
 = n – 1 = 9. Calcoliamo la deviazione standard campionaria.
s X  
1 n
X k  X 2  1.197 ml

n  1 k 1
Effettuiamo quindi un test t (verifica del valor medio con varianza non nota).
1. Il parametro di interesse è il volume medio 
2. H0:  = 200 ml
3. H1:  < 200 ml (il test è a un lato solo, in quanto vogliamo dimostrare che il tetrabrick ha un volume
inferiore a quello dichiarato)
4. livello di significatività richiesto  = 0.01 (attenzione, su un solo lato)
5. La statistica di test è ora la statistica t: t 0 
X  X 

sX
s/ n
6. Rifiutiamo H0 se t0 < -t,9 = -2.821. (questo risultato si ricava dalla tabella dei punti percentuale della
distribuzione t, con  = 9)
7. Calcoliamo quindi t0, t 0 
X   X   198.9  200


 2.906
sX
s / n 1.197 / 10
8. Conclusione: dato che t0 =-2.906 < -2.821 possiamo adesso rifiutare l’ipotesi nulla con livello di
significatività 0.01.
Pag. 6/11
Esercizio 4 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
4)
4a)
4b)
4c)
Con un generatore a corrente costante si alimentano, in successione, 5 diversi carichi resistivi. Con una
singola misura per ciascuna resistenza, si legge la tensione prodotta ai capi delle resistenze. Le 5 resistenze
hanno valori nominali:
Ri = 100, 200, 500, 1000, 2000 ()
e i 5 valori di tensione letta sono
Vi = 0.3, 0.5, 1.4, 2.3, 4.9 (V)
I resistori hanno tutti una tolleranza/incertezza del 10 % con fattore di copertura k=2.
Si disegni, utilizzando la carta millimetrata fornita e rappresentando dei punti “pieni”, il diagramma
cartesiano con l’andamento dei dati sperimentali che descrivono la relazione R=f(V), ovvero y=f(x).
Avendo espressamente calcolato le incertezze tipo dei 5 valori Ri, si riportino nel grafico le
corrispondenti barre d’errore (a 1 dalla media), sui punti sperimentali.
Dopo avere ipotizzato un modello teorico (equazione della misura) per la legge R=f(V), si stimino i
coefficienti dell’equazione descrittiva attraverso un metodo di regressione ai minimi quadrati (ricavare m e
b) e in particolare si ricavi il valore della corrente I erogata dal generatore. Si commentino i risultati ottenuti.
N.B. Si riportano qui sotto le formule che esprimono il coefficiente angolare m e l’intercetta b sull’asse Y della retta di
regressione ai minimi quadrati:
1
 m xi   y i
 xi y i  n  xi  y i
b
m
n
1
2
 xi2  n  xi 
Nei calcoli numerici e passaggi intermedi si consiglia di conservare un buon numero di cifre significative (almeno 4 o 5).
Pag. 7/11
100 200
500
R () [1 quadretto = 50 ]
1000
2000]
4a) Il diagramma cartesiano che mostra l’andamento dei 5 punti sperimentali è riportato nella figura
sottostante.
0
1
2
3
V (V) [1 quadretto = 0.1 V]
4
5
A occhio, anche disponendo del grafico con solo i punti sperimentali, si evidenzia un andamento
approssimativamente lineare tra i valori di resistenza Ri, in ordinata, e i corrispondenti valori di tensione Vi, in
ascissa.
4b) Ciascuna resistenza Ri ha una incertezza relativa del 10 %, come incertezza estesa con k=2 e dunque una
incertezza standard (a 1  level) del 5 %. In termini assoluti:
u(R1)=ur(R1)R1=0.05100 =5 
[1/10 di quadretto verticale nel grafico]
u(R2)=ur(R2)R2=0.05200 =10 
[1/5 di quadretto verticale nel grafico]
u(R3)=ur(R3)R3=0.05500 =25 
[1/2 di quadretto verticale nel grafico]
u(R4)=ur(R4)R4=0.051000 =50 
[1 di quadretto verticale nel grafico]
u(R5)=ur(R5)R5=0.052000 =100 
[2 di quadretto verticale nel grafico]
Le barre d’errore corrispondenti agli intervalli larghi 1 incertezza standard, ovvero a 1  dalla media,
sono riportate nel grafico seguente unitamente alla retta di regressione ai minimi quadrati ricavata al punto
4c).
4c) Per quanto previsto dalla legge di Ohm, la tensione V ai capi di un resistore di valore R è legata alla
corrente I che lo attraversa dalla relazione: V=RI. Pertanto, un modello teorico (analitico) che descrive
l’andamento dei valori di resistenza con i valori di tensione è fornito dall’equazione:
Pag. 8/11
R=(1/I)V ovvero y=mx+b con m=1/I e b=0 (idealmente)
2000]
Applicando ai dati xi (tensione)e yi (resistenza) il metodo della regressione ai minimi quadrati, si ricavano il
coefficiente angolare e il termine noto di tale retta:
m=415.42 /V e b=-20.99 , da cui I=1/m=0.00241 A2.4 mA
Si osserva che rispetto al modello previsto dalla legge di Ohm i dati sperimentali evidenzierebbero un
valore di “resistenza spuria” (per V=0 si ha R0) pari a R00=b-21  che sicuramente origina dalle
inesattezze nelle misure sperimentali dei valori Ri e Vi. Dal grafico con le barre d’errore, è evidente come
tenendo conto di questi intervalli di confidenza (anche solo al 68 % per 1 ) la retta di regressione
calcolata è solo una delle possibili rette che potrebbero passare all’interno di tali intervalli di
incertezza sui punti sperimentali.
100 200
500
R () [1 quadretto = 50 ]
1000
y = 415.42 x -20.99
0
1
2
3
V (V) [1 quadretto = 0.1 V]
4
5
Pag. 9/11
Esercizio 5 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
5) Si vuole cucinare un pollo di massa 1.0 kg, misurata attraverso una bilancia da cucina con risoluzione
Δm = 0.1 kg. Il calore specifico del pollo, considerato per semplicità come un solido di materiale uniforme,
vale c = 3140.1 J/(kg  K) con una incertezza dello 0.2 %. Il pollo viene posto in un forno che si trova
inizialmente alla temperatura ambiente T0 della cucina: questa è nota attraverso 5 misure ripetute
(T0,i = 25.8, 24.7, 25.4, 24.3, 24.8 °C) ottenute da un termometro posto nella cucina. Il forno viene quindi
portato alla temperatura di cottura Tc = 180 °C conosciuta con incertezza estesa di 2 °C al 95 %.
5a) Ricavare le misure (i valori e le incertezze tipo) della massa m del pollo, del suo calore specifico c, della
temperatura T0 e Tc.
5b) Si calcoli l’energia necessaria (ΔQ = m × c ΔT) e la sua incertezza per portare il pollo alla temperatura
T c.
5c) Si spieghi quale tipo di misura è stata effettuata (diretta/indiretta) per conoscere l’energia ΔQ. Si indichi
la causa principale di incertezza in questa misura.
5a) La massa del pollo presenta un’incertezza dovuta alla quantizzazione causata dalla limitata risoluzione
della bilancia:
u(m)=m/ 12 =0.1 kg / 12 = 0.029 kg
Quindi possiamo esprimere il peso come m = 1.000  0.029 kg.
L’incertezza relativa vale quindi: ur(m) = u(m) / m = 2.9 %.
L’incertezza sul calore specifico si calcola partendo dall’incertezza relativa fornita dal testo:
u(c)= c × ur(c) = 6.3 J/(kg  K)
Quindi possiamo esprimere il calore specifico come c = 3140.1  6.3 J/(kg  K).
Per quanto riguarda la temperatura T0, il valor medio delle N=5 misure ripetute è:
1 N
T0=  T0 ,i =30 °C
N i1
Calcoliamo quindi la sua deviazione standard campionaria:
1 N
2
s(T0,i)=
 T0,i  T0  0.5958 °C
N - 1 i1
da cui si calcola lo scarto tipo del valor medio (incertezza di categoria A) come:
sT
0.5958
u(T0)= 0 ,i =
°C  0.27 °C
5
N
La temperatura iniziale vale quindi: T0 = 30.00  0.27 °C.
L’incertezza relativa vale quindi: ur(T0) = u(T0) / T0 = 1.1%.
L’incertezza sulla temperatura finale Tf vale u(Tf) = (2 °C) / 2 = 1 °C, essendo il fattore di copertura
dell’incertezza estesa k2 per P = 95 %.
Quindi la temperatura finale vale Tf = 180  1 °C
L’incertezza relativa sulla temperatura finale è ur(Tf) = u(Tf) / Tf = 0.56 %.


 
5b) Il calcolo dell’energia spesa si ottiene attraverso la misura indiretta del calore necessario per portare il
pollo a Tf = 180 °C partendo da T0 =25 °C:
ΔQ = m × c ΔT = 1 kg × 3140.1 J/(kg  K) × (180 °C - 25 °C) = 486.7155 kJ
L’incertezza totale può essere determinata prima calcolando l’incertezza su ΔT = Tf – T0 e quindi quella di
ΔQ come somma delle incertezze relative dei singoli componenti della misura.
L’incertezza di ΔT vale:
u(ΔT) = u 2 T0   u 2 Tf   0.073  1 °C  1.1 °C.
L’incertezza relativa vale quindi: ur(ΔT) = u(ΔT) / ΔT = 0.71 %.
L’incertezza totale sull’energia spesa vale quindi:
ur(ΔQ) = ur2 m  ur2 c   ur2 T   0.03 = 3 %.
Pag. 10/11
Quindi l’incertezza assoluta di ΔQ vale:
u(ΔQ) = ur(ΔQ) × ΔQ  15 kJ
Possiamo esprimere l’energia come ΔQ = 487 ± 15 kJ.
5c) La misura di energia effettuata è sicuramente una misurazione indiretta in quanto il misurando viene
ricavato, indirettamente, dalla conoscenza di più parametri di ingresso. Un esempio di misurazione diretta
sarebbe stata in questo caso la lettura della massa m ottenuta posizionando il pollo sulla bilancia.
La causa principale di incertezza sulla misura di ΔQ è sicuramente dovuta alla misura della massa m del
pollo in quanto la scarsa risoluzione della bilancia implica la causa di incertezza più elevata. Per migliorare la
misura bisognerebbe utilizzare una bilancia che presenti una risoluzione superiore. La misura indiretta inoltre
può essere soggetta ad errori “di modello”, conseguenti anche alle ipotesi di lavoro fatte, per cui
l’equazione della misura indiretta potrebbe essere anche differente da quella utilizzata.
Pag. 11/11
Scarica