s_060307

annuncio pubblicitario
STATISTICA E MISURAZIONE
martedì 7 marzo 2006
Prof. Cesare Svelto
Tempo a disposizione 2 ore
Primo appello AA 2005/2006
Aula V.S.9 ore 12.30
Cognome: __________________________
Nome: _____________________
(stampatello)
Matricola: __ __ __ __ __ __
Firma: _____________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 (7+8+8+10=33pt)
(crocettare)
N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una
penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”.
SOLUZIONI
Esercizio 1 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
1)
1a)
1b)
1c)
Si vuole valutare la massa media di un’automobile utilitaria. Raccogliamo i dati per 11 vetture:
x [kg] = 865, 970, 923, 1080, 994, 1012, 899, 1109, 943, 976, 1004.
Si calcolino media, varianza e deviazione standard campionaria della massa delle vetture.
Si disegni un istogramma della frequenza relativa dei dati.
Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i
valori significativi.

1a) media campionaria = x 
1 n
 xi  979.5455 kg
n i 1
n

varianza campionaria = s 2 
(x  x)
i 1
i
n 1
2
 5295.5 kg2

deviazione standard campionaria = s  s 2  72.77 kg
1b) Riportiamo i dati ordinati:
x [kg] = 865, 899, 923, 943, 970, 976, 994, 1004, 1012, 1080, 1109.
Con 11 dati un numero sensato di classi è 4 (ricordiamo la legge 1+log2(n), o anche  n ),
Una scelta possibile può essere intervalli spaziati di 80 kg, da 830 a 1150 (con valori centrali delle classi a
870, 950, 1030 e 1110 kg):
0.4
frequenza
2
4
3
2
freq. relativa
0.1818
0.3636
0.2727
0.1818
0.35
0.3
Frequenza relativa
classe
830-910
910-990
990-1070
1070-1150
0.25
0.2
0.15
0.1
0.05
0
870
950
1030
Massa della macchina [kg]
1110
Pag.1/9
1c) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile.
La mediana è il 50-esimo percentile, per cui Imediana = (11+1)50 /100 = 6, quindi la mediana è pari al sesto
dato (nella sequenza ordinata).
Mediana= 976 kg.
Il primo quartile è il 25-esimo percentile, per cui I1Q = (11+1)25 /100 = 3, quindi il primo quartile è pari al
terzo dato:
primo quartile= 923 kg = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (11+1)75 /100 = 9, quindi il terzo quartile è pari al
nono dato:
terzo quartile= 1012 kg = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 89 kg.
I baffi si possono estendere fino a 1.5DIQ = 133.5 kg al di là del primo e del terzo quartile, quindi fino a
923-133.5=789.5 kg e 1012+133.5=1145.5 kg. Ricordiamo comunque che i baffi si fermano all’ultimo dato
contenuto entro il limite calcolato: in questo caso sino al dato 1 (baffo inferiore) pari a 865 kg, e sino al dato
11 (baffo superiore) pari a 1109 kg.
In figura è riportato anche il diagramma a punti (dot-plot).
1
850
900
950
1000
Valori di altezza [cm]
1050
1100
Pag.2/9
Esercizio 2 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
2a)
2b)
2c)
2d)
2e)
La nostra stampante a getto d’inchiostro inceppa mediamente un foglio ogni 20 fogli stampati. Quanto
vale la probabilità di stampare 10 fogli senza inceppamenti?
Quanto vale la probabilità di incepparsi esattamente 2 volte su 37 pagine stampate?
Una cartuccia di inchiostro ci consente mediamente di stampare 5000 pagine, con deviazione standard
pari a 500 pagine. Che tipo di distribuzione può approssimare bene il numero di pagine stampabili?
Perché? Quanto vale la probabilità di stampare più di 6000 pagine con una sola cartuccia?
La stampante di un ufficio negli orari lavorativi stampa mediamente 1 pagina ogni 10 secondi.
Supponendo che questo processo segua una statistica poissoniana, si calcoli la probabilità di stampare
esattamente 5 pagine in un minuto.
E’ sensato supporre che il processo di stampa segua una statistica poissoniana? Si motivi la risposta.
2a) Dato che ogni prova è un processo di Bernoulli (ogni foglio stampato o si inceppa oppure non si inceppa,
ovvero “successo” o “insuccesso”), le prove sono indipendenti e la probabilità di successo in ogni prova è
costante, la probabilità di x inceppamenti su n fogli stampati segue la distribuzione binomiale, con probabilità
di successo p =1/20=0.05 :
n
10 
P(0 successi su 10 prove )  P( x  0)    p x (1  p) n x
  0.050 (0.95)100  0.9510  0.5987  60 %
 x
0
x 0
n
n!
avendo ricordato che   
 x  x!(n  x)!
2b) Ripetiamo il calcolo con x=2 e n= 37
 37 
2
P(2 successi su 37 prove )   0.05 (0.95) 372  27.65 %
2
2c) Il numero di pagine stampabili segue una distribuzione all’incirca gaussiana, in quanto l’inchiostro totale
utilizzato è dato dalla somma dell’inchiostro impiegato per ogni singola pagina (scorrelato dalla pagina
successiva), che contribuisce poco al consumo totale (circa per una parte su 5000): siamo pienamente nelle
ipotesi del teorema del limite centrale.
Un’altra interpretazione possibile è considerare la variabile “inchiostro medio per pagina”, da cui dipende
direttamente il numero di pagine, che segue una distribuzione gaussiana, sempre per il teorema del limite
centrale.
Calcoliamo la probabilità per standardizzazione
6000    
6000  5000 

P( x  6000)  P z 
  z 
  P( z  2)  P( z  2)   (2)  2.275%

500

 

Come si legge dalla tabella dei valori di (z).
2d) Supponendo che questo processo segua una distribuzione poissoniana, di valor medio 1 pagina ogni 10
secondi, calcoliamo la probabilità di stampare 5 pagine in 60 secondi.
Il valor medio su un minuto vale  = 1 pagina/ 10 secondi × 60 secondi = 6 pagine
La probabilità che in un minuto si stampino esattamente 5 pagine vale quindi
e    x e 6 6 5
P( x  5) 

 16 %
x!
5!
Pag.3/9
2e) In questo caso l’ipotesi di distribuzione poissoniana non è corretta. Infatti i singoli eventi non si possono
ritenere statisticamente indipendenti: i documenti in stampa spesso sono più lunghi di un foglio, per cui la
probabilità di stampa di un foglio è maggiore se ne è appena stato stampato uno.
L’evento “stampa di un foglio” segue quindi una distribuzione temporale “a pacchetti”, che non è descritta da
una statistica poissoniana.
Pag.4/9
Esercizio 3 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
3) L’associazione consumatori intende controllare la durata di un nuovo modello di pneumatici per auto. La
casa costruttrice dichiara che questi pneumatici permettono di percorrere in media 60 000 km. Vengono
quindi montati questi pneumatici su 10 automobili diverse che riescono a effettuare le seguenti percorrenze
chilometriche:
D = 48000, 59000, 53000, 61000, 57000, 58000, 49000, 64000, 55000, 56000 [km].
3a) Si dia una definizione di Potenza di un test statistico.
3b) Si effettui un test statistico con lo scopo di verificare la percorrenza media del nuovo modello di
pneumatico, con livello di significatività pari all’ 1 %.
3c) Quanto vale il valore P del test effettuato?
3a) La potenza di un test statistico è la probabilità di rifiutare l’ipotesi nulla quando questa è falsa. È uguale
a 1- la probabilità  di errore di tipo II:
Potenza = 1 -  = 1 - P(errore di tipo II) = 1 - P(accettare H0 quando H0 è falsa)
La potenza è un parametro che ci descrive la capacità del test di rivelare le differenze della realtà rispetto ad
H0.
3b) Si tratta di un test t, in quanto dobbiamo stimare il valor medio di una popolazione con varianza ignota.
Il numero di gradi di libertà  = n – 1 = 9. Calcoliamo il valor medio e la deviazione standard campionaria.

X
1 n
 X i  56000 km
n i 1
s X  
1 n
X k  X 2  5011 km

n  1 k 1
Effettuiamo quindi un test t.
1. Il parametro di interesse è la percorrenza media
2. H0:  = 60000 km
3. H1:  < 60000 km (il test è a un solo lato, in quanto vogliamo verificare se i pneumatici percorrono
almeno 60000 km)
4. livello di significatività richiesto  = 0.01
5. La statistica di test è la statistica t: t 0 
X  X 

sX
s/ n
6. Rifiutiamo H0 se t0 < -t,9 = -2.821 (questo risultato si ricava dalla tabella dei punti percentuale della
distribuzione t, con  = 9 e  = 0.01)
7. Calcoliamo quindi t0, t 0 
X   X   56000  60000


 2.524
sX
s/ n
5011 / 10
8. Conclusione: non possiamo rifiutare l’ipotesi nulla con livello di significatività 0.01.
Pag.5/9
3c) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può
ricavare dalla tabella punti percentuale della distribuzione t, con  = 9 (data la simmetria della distribuzione
lavoriamo per valori positivi):
ZP = Z = 2.524. Il valore di  che si ricava è all’incirca a metà tra 0.01 e 0.025, stimabile in 0.017 (il valore
esatto calcolato a PC è 0.0163), per cui il valore cercato è P1.7 %.
L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di
significatività  maggiore dell’ 1.7 %. In questo caso con  = 1 % non si è potuto rifiutare H0.
Pag.6/9
Esercizio 4 (tempo stimato 40 m)
(svolgere su questo foglio e sul retro)
4) Una bilancia da farmacista è impiegata per misurare la quantità di principio attivo contenuto in un
farmaco, che la casa farmaceutica produttrice specifica essere una percentuale =0.050±0.001 del peso
complessivo del farmaco. Si sa anche che il principio attivo ha una massa molare MM=25 g (massa in grammi
di una mole di sostanza), con incertezza estesa pari a 1 g (con fattore di copertura k=3).
Per le misurazioni utilizziamo una bilancia digitale con risoluzione 1 g. La bilancia viene tarata
ricorrendo alle seguenti “pesate campione” (si suppone ora che tutti i pesi campione siano noti con incertezza
trascurabile):
I) peso campione da 200 g, con valore di lettura 0.231 kg;
II) massa di 100 ml di acqua, con valore di lettura 0.134 kg;
III) vaschetta di gelato da 1 kg, con valore di lettura 0.990 kg;
IV) massa di 500 ml di acqua, con valore di lettura 0.513 kg;
4a) Si disegnino i punti sperimentali di taratura su un diagramma cartesiano. A prima vista, vi sembra che la
bilancia sia affetta da errori di misura? Quali tipi di non-idealità sono evidenti? Di che entità?
4b) Considerando i 4 punti sperimentali (di taratura), si individui l’equazione della retta di regressione ai
minimi quadrati e si disegni tale retta sul diagramma cartesiano dei punti sperimentali.
4c) Dopo aver tarato la bilancia si stima un’incertezza residua pari all’1% del valore letto. Si vuole
conoscere il numero di moli presenti in un campione di farmaco. La sua pesata fornisce una lettura
MTOT=50 g. Si ricavi indirettamente il numero di moli nmoli di principio attivo presenti nel campione
considerato. Si esprima in formato standard l’incertezza di misura su tale numero di moli: u(nmoli).
4d) Prendendo come esempio questa bilancia digitale, si illustrino i concetti di ripetibilità, stabilità, e
riproducibilità per uno strumento di misura.
4e) (FACOLTATIVO) Sapendo che il numero di Avogadro è NA6.0221023 mol-1 (con incertezza in questo
caso trascurabile), si verifichi la compatibilità tra il numero di molecole presenti nel campione di farmaco e il
dato fornito dal produttore Nmolecole,farm= 6.41022 ±2 %.
NOTA: si ricorda che per la retta di regressione ai minimi quadrati è
m
n x i y i   x i  y i
n
x i2
  x i 
2
b
 x i2  y i   x i  x i y i
2
n x i2   x i 

 y i  m x i
4a) Il diagramma cartesiano dei punti sperimentali è:
Pag.7/9
n
1,0
0,9
Lettura bilancia (kg)
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0
0,2
0,4
0,6
0,8
1,0
Massa campione (kg)
Dalla figura appare evidente che i punti sono ben allineati (strumento lineare) ma che la retta che “a occhio”
passa per i 4 punti sperimentali non parte dall’origine. In particolare, l’intercetta di questa retta per i punti
sperimentali (linea tratteggiata in figura) con l’asse delle ordinate è sopra lo zero, indicando dunque un errore
di offset positivo (di poco inferiore a 50 g). Sempre “a occhio” non risulta immediato evidenziare se c’è un
errore di guadagno (pendenza della retta) e tantomeno quantificarlo.
4b) L’equazione della retta di regressione ai minimi quadrati si ottiene ricavando il suo coefficiente angolare
m e la sua intercetta b, in funzione di valori sperimentali, dalle espressioni:
m
n xi yi   xi  y i
n xi2   xi 
2
=0.95 kg/kg
xi2  yi   xi  xi y i  yi  m xi

=0.0395 kg=39.5 g
b

2
n
n xi2   xi 
Inoltre, il coefficiente di correlazione tra le variabili x e y risulta essere
n xi yi   xi  y i
r
 1
2
2
2
2
n xi   xi  n yi   yi 



indicando un perfetto allineamento tra i punti sperimentali.
4c) Il numero di moli di principio attivo è dato dalla massa di principio attivo MPA divisa per la sua massa
molare MM. La massa di principio attivo si ottiene direttamente come MPA=  MTOT. Quindi otteniamo
nmoli =MPA/ MM=  MTOT/ MM = 0.1 mol
Esprimiamo ora l’incertezza relativa di ogni variabile in gioco.
L’incertezza di  è direttamente data nel testo.
u ( )
 0.02
=0.050
u()=0.001 u r ( ) 

L’incertezza di MTOT è dovuta a due cause: la quantizzazione della pesa digitale e l’incertezza dell’1%.
1g
L’incertezza di quantizzazione vale uq(MTOT)=
 0.29 g
12
L’incertezza dovuta al fattore di scala vale us(MTOT)= MTOT0.01=0.5 g.
Essendo due contributi scorrelati si possono sommare quadraticamente:
u ( M T OT )  u q2 ( M T OT )  us2 ( M T OT )  0.58 g
MTOT=50 g
u(MTOT)=0.58 g
u r (M T OT ) 
u(M T OT )
 0.012
M T OT
Pag.8/9
L’incertezza di MM si ricava direttamente dalla sua incertezza estesa, dividendola per il fattore di copertura
u(M M )
U (M M ) 1 g
MM=25 g
u r (M M ) 
 0.013
u(M M ) 

 0.33 g
MM
k
3
L’incertezza relativa di nmoli =   MTOT/ MM , essendo una produttoria semplice a esponenti unitari, si
ottiene come somma quadratica delle incertezze relative:
ur (nmoli )  ur2 ( )  ur2 (M T OT )  ur2 (M M )  0.027
u(nmoli )  nmoli  u r (nmoli )  0.0027 mol
4d) Facendo riferimento all’esempio considerato, la ripetibilità dello strumento è la capacità della bilancia di
fornire, per uno stesso misurando (e.g. sempre per il medesimo peso campione) e nelle stesse condizioni di
misura e nel breve periodo, valori di lettura poco dispersi (molto vicini fra loro). La stabilità, sempre nelle
stesse condizioni della ripetibilità, è la capacità dello strumento di mostrare valori vicini fra loro in un
determinato intervallo di tempo, che deve essere specificato (quindi il valore di lettura per lo stesso peso
campione “non cambia nel tempo e nelle prove si varia la durata dell’intervallo di tempo su cui si effettua
l’esperimento). La riproducibilità, per lo strumento bilancia, è la capacità di ottenere risultati vicini tra loro,
sempre per uno stesso misurando, variando magari l’esemplare di bilancia impiegata (sempre dello stesso
tipo naturalmente) o variando l’operatore e il luogo della misura o anche alcune condizioni di lavoro e
ambientali.
4e) Calcoliamo il numero di molecole, pari al numero di moli per il numero di Avogadro
Nmolecole,mis = nmoli  NA= 0.1 mol 6.0221023 mol-1 =6.0221022
Dato che il numero di Avogadro è noto con incertezza in questo caso trascurabile, l’incertezza relativa del
numero di molecole è pari all’incertezza relativa del numero di moli:
u r ( N molecole,mis )  u r (nmoli )  0.027
u( N molecole,mis )  N molecole,mis  u r ( N molecole,mis )  1.6  10 21
Il dato fornito dal produttore Nmolecole,farm= 6.41022 ±2 % ha un’incertezza standard
u( N molecole,farm )  N molecole,farm  u r ( N molecole,farm )  1.3  10 21
Per verificare la compatibilità tra le 2 misure, sicuramente indipendenti, dobbiamo valutare se
N molecole,mis  N molecole,farm  k u 2 N molecole,mis   u 2 N molecole,farm  con un fattore di copertura ragionevole
(k=1, 2, o 3)
3.8 1021  k  2.110 21
La compatibilità è verificata con k=2. Possiamo dunque ritenere le due misure compatibili con un fattore di
copertura k=2 (non con k=1 e sicuramente con k=3).
Pag.9/9
Scarica