s_091109

STATISTICA E CALCOLO DELLE PROB.
Prof. Cesare Svelto
Tempo a disposizione 2 ore
giovedì 19 novembre 2009
Prima prova in itinere AA 2009/2010
Aula Vs.8 ore 13.00
Cognome e nome: ___________________________________ _____________________
Matricola e firma __ __ __ __ __ __
(stampatello)
_____________________(firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (7+7+7+5+7 = 33p)
(crocettare)
N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una
penalità.
SOLUZIONI
Esercizio 1 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
1)
1a)
1b)
1c)
1d)
Intendiamo effettuare uno studio statistico della taglia x di scarpe. Prendiamo un campione casuale di
13 ragazzi, ottenendo i seguenti numeri:
x = 37,42,44,34,40,43,43,38,39,40,46,43,37.
Si calcolino la moda, la media e la varianza campionaria della taglia di scarpe.
Si riportino i dati in un diagramma rami-e-foglie ordinato.
Si definisca il k-esimo percentile, indicandone l’espressione generale di calcolo. Quanto vale
l’80-esimo percentile dei dati?
Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i
valori significativi.
1a) moda= valore più probabile (che si è ripetuto più volte) = 43
 1 n
media campionaria = x   xi  40.4615
n i 1
n

varianza campionaria = s 2 
(x  x)
i 1
i
n 1
2
 11.6026
1b) Riportiamo i dati ordinati:
x = 34,37,37,38,39,40,40,42,43,43,43,44,46.
Con 13 dati un numero sensato di rami è circa 4 (ricordiamo la legge 1+log2(n), o anche  n ), in questo
caso scegliere le decine come rami renderebbe il diagramma poco significativo, per cui dividiamo le decine in
upper (U) and lower (L), individuando 4 classi/rami:
rami
3L
3U
4L
4U
foglie
4
7 7 8 9
0 0 2 3 3 3 4
6
1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%.
La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100
Dall’indice ottenuto, se Ik non è intero, si ricava quindi il valore esatto con un’interpolazione lineare tra i due
dati (con indici uguali all’intero prima e dopo di Ik ).
L’80-esimo percentile ha indice I80% = (13+1)80 /100 = 11.2, quindi l’80-esimo percentile è pari a
_______
Pag. 1/8
80-esimo percentile = 43+(44-43)0.2 = 43.2
1d) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile.
I 13 dati ordinati sono
x = 34,37,37,38,39,40,40,42,43,43,43,44,46.
La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana è pari al settimo
dato.
Mediana= 40.
Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è dato
dalla media tra il terzo e il quarto dato:
primo quartile= (37+38)/2 = 37.5 = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è dato
dalla media tra il decimo e l’undicesimo dato:
terzo quartile= (43+43)/2 = 43 = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 5.5.
I baffi si possono estendere fino a 1.5DIQ = 8.25 al di là del primo e del terzo quartile, quindi fino a 29.25 e
51.25. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite calcolato: in
questo caso sino al dato 1 (baffo inferiore), pari a 34, e sino al dato 13 (baffo superiore) pari a 46.
In figura è riportato anche il diagramma a punti (dot-plot).
1
32
34
36
38
40
42
Numero di scarpe
44
46
48
_______
Pag. 2/8
Esercizio 2 (25 minuti)
(svolgere su questo foglio e sul retro)
2a)
2b)
2c)
2d)
Un tecnico di laboratorio gestisce un’aula informatizzata, con 20 postazioni a PC. La probabilità media
di occupazione di una postazione è il 70%. Quanto vale la probabilità che su 20 postazioni ce ne siano
18 occupate?
Nell’orario di apertura entra mediamente una persona ogni 10 minuti. Si stimi la probabilità che in 1
ora entrino esattamente 5 persone.
Il tempo di rimanenza di un utente ha un valor medio di 1 ora con deviazione standard di 30 minuti.
Considerando che gli utenti si susseguano senza interruzioni, quanto vale la probabilità che 10 utenti di
fila occupino la postazione per più di 9 ore? Si motivi il procedimento di stima adottato.
Considerando che le postazioni a PC dell’intero politecnico sono 400, sempre con probabilità di
occupazione del 70%, quanto vale la probabilità che più di 110 postazioni siano libere?
2a) Dato che ogni prova è un processo di Bernoulli (ogni postazione è occupata oppure no), le prove sono
indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x utenti su n postazioni
segue la distribuzione binomiale, con probabilità di successo p =0.7:
 n
 20 
18
P(18 successi su 20 prove )  P( x  18)    p x (1  p) n  x   0.7  (0.3) 2018  2.8 %
 x
 18 
n
n!
avendo ricordato che   
 x  x!(n  x)!
2b) Questo fenomeno segue una distribuzione di probabilità poissoniana. Infatti il singolo evento “ingresso”
è un processo di Bernoulli, che possiamo in prima approssimazione ritenere scorrelato (non si considerano
ingressi di gruppi di amici), con un numero altissimo di ingressi possibili ed una probabilità istantanea di
ingresso molto bassa.
e   x
La funzione di probabilità di una variabile poissoniana X vale f ( x) 
,
x  0,1,2...
x!
il suo valor medio vale  =  e la sua varianza vale 2 = .
Il valor medio in questo caso vale  = 1 ingresso/(10 minuti) × 60 minuti = 6 ingressi
La probabilità che in 1 ora entrino esattamente 5 persone vale quindi
e    x e 6 6 5
P( x  5) 

 16.1 %
x!
5!
2c) Dato che le 10 permanenze hanno durate che possiamo considerare statisticamente indipendenti, la
variabile “tempo totale” avrà valor medio e varianza pari rispettivamente a  =101 ora= 10 ore e
 2 = 10(0.5 ore)2 =2.5 ore2 (si vedano gli appunti sulla combinazione lineare di variabili statisticamente
indipendenti). Il teorema del limite centrale ci assicura che la somma delle 10 variabili casuali segue una
distribuzione all’incirca gaussiano, per cui possiamo stimare la probabilità attraverso una standardizzazione
x
con z 
:


9
9  10 

P( x  9 ore)  P z 
  P( z  0.6324)  P( z  0.6324)  (0.6324)  73.6 %
  P z 
 
2.5 


2d) Data la complessità del calcolo tramite la formula della binomiale, decidiamo di sfruttare
l’approssimazione gaussiana. Il valor medio vale np = 280. La varianza vale invece np(1-p)=84.
L’approssimazione è valida in quanto np e n(1-p) sono entrambi molto maggiori di 1 (tipicamente si
considera attendibile l’approssimazione per valori superiori a 5): in questo caso sicuramente
l’approssimazione è molto buona. La probabilità che più di 110 postazioni siano libere corrisponde alla
probabilità che meno di 290 siano occupate. Calcoliamo quindi la probabilità tramite standardizzazione,
_______
Pag. 3/8
ricordando di fissare la soglia a metà tra i valori interi, in modo da comprendere l’ultimo valore accettato
(289) e non comprendere il primo valore non accettato (290):

289.5  np  
289.5  280 
P( x  289.5)  P z 
  z 
  P( z  1.036)  85.0%


np
(
1

p
)
84




Il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità pari a
85.0%, esattamente lo stesso valore ottenuto a 3 cifre significative.
_______
Pag. 4/8
Esercizio 3 (25 minuti)
(svolgere su questo foglio e sul retro)
3) Siamo interessati a controllare il corretto funzionamento di un sistema di posizionamento a braccio
robotico. La deviazione standard dichiarata del posizionatore vale 1 mm. Nella catena di produzione vengono
posizionati 101 oggetti, ottenendo una posizione media sul rullo pari a 400.0 mm.
3a) Si definisca il significato di “intervallo di confidenza” di una misura.
3b) Si determini l’intervallo di confidenza all’80% per la posizione degli oggetti sul rullo.
3c) Dalle 101 misure di posizione si è ottenuta una varianza campionaria s2=2 mm2. Si effettui un test
statistico con livello significatività pari al 5 %, per verificare se la varianza di posizionamento è peggiore di
quella dichiarata.
3a) L’intervallo di confidenza a una data percentuale p% è l’intervallo che presenta la probabilità p% di
contenere la variabile casuale in questione.
3b) Si intende calcolare l’intervallo di confidenza della posizione media degli oggetti. Per il teorema del
limite centrale, il valor medio della posizione, calcolato su 100 misure, segue in buona approssimazione una
distribuzione gaussiana, con valor medio  = 400.0 mm e deviazione standard

1 mm
X  X 
 0.0995 mm
n 10.05
Per calcolare l’intervallo di confidenza all’80% ritroviamo sulla tabella dei valori integrali, Φ(z), di una
distribuzione normale il valore Zα corrispondente ad α = 10% (80% all’interno dell’intervallo implica 10% a
sinistra e 10% a destra): Zα  1.28.
I due estremi dell’intervallo di confidenza sono quindi distanti 1.28  X dal valor medio, per cui l’intervallo di
confidenza all’80% ricavato è:
X  Z  X ; X  Z  X   400  1.28  0.0995;400  1.28  0.0995 mm  [399.873 ; 400.127] mm
NOTA: se si fosse voluto calcolare l’intervallo di confidenza della posizione di un singolo oggetto (intervallo
di posizioni che racchiude l’80% di probabilità di trovare l’oggetto al suo interno), avremmo dovuto seguire
lo stesso procedimento, ma con  X al posto di  X .
3c) Intendiamo valutare se la varianza di corretto funzionamento non sia attendibile. Effettuiamo quindi un
test 2, seguendo gli 8 passi descritti nel libro di testo:
1. Il parametro di interesse è la varianza della posizione
2. H0:  2 =02 = (1 mm)2
3. H1:  2 > 02 (il test è a un solo lato perché ci interessa dimostrare che la dispersione dei valori è
aumentata)
4. livello di significatività richiesto  = 0.05
5. La statistica di test è la statistica X 02 
(n  1) s 2
 02
6. Rifiutiamo H0 se X02 >  02.05,100  124.34 (questo valore si ricava dalla tabella della distribuzione 2,
con 100 gradi di libertà, in corrispondenza del 5 %)
7. Calcoliamo quindi X 02 
(n  1) s 2
 02

100  2 mm 2
 200
1 mm 2
8. Conclusione: dato che X02 =200 >  02.05,100  124.34 possiamo rifiutare l’ipotesi nulla con livello di
significatività 0.05: c’è forte evidenza che la varianza del posizionamento sia maggiore di 1 mm2.
_______
Pag. 5/8
Esercizio 4 (20 minuti)
(svolgere su questo foglio e sul retro)
4) Lo stipendio mensile di un neolaureato in ingegneria viene osservato per 10 anni dopo la prima
assunzione, con cadenza biennale. I dati registrati sono riportati in tabella:
anno
(1)
2
4
6
8
10
stipendio
(k€/mese)
1.10
1.25
1.36
1.48
1.66
4a) Si disegni il diagramma cartesiano degli stipendi mensili in funzione del tempo. Si fornisca una stima
qualitativa (ottenuta dal grafico) del tasso di crescita annuo dello stipendio.
4b) Si ricavi la retta di regressione ai minimi quadrati per i dati sperimentali raccolti. Si disegni tale retta sul
grafico con i punti sperimentali.
4c) Si ricavi dalla retta di regressione il tasso di crescita annuo - tendenziale e misurato in (k€/mese)/anno –
per lo stipendio considerato.
4d) Estrapolandolo con pendenza di crescita costante, si stimi il valore atteso dello stipendio mensile a 20
anni dal primo impiego.
Nota: per la retta di regressione ai minimi quadrati vale:
n xi yi   xi  y i
 xi2  yi   xi  xi yi   yi  m xi
b

m
2
2
n
n xi2   xi 
n xi2   xi 
4a) Il diagramma cartesiano degli stipendi mensili in funzione del tempo è mostrato nella figura seguente:
I punti sperimentali sembrano già bene allineati e, ad occhio dal grafico, si può stimare un tasso di crescita
dello stipendio di circa 0.07 (k€/mese)/anno ovvero +70 (€/mese)/anno. Ad esempio tale valore è ottenibile
dai punti osservati sul grafico come:
k=(1.6-1.0) k€/mese / (9.25-0.6) anno=0.6/8.65 (k€/mese)/anno=0.06937 (k€/mese)/anno
4b) Eseguendo i calcoli secondo le due formule
_______
Pag. 6/8
m
n xi yi   xi  y i
n x   xi 
2
2
i
 x  y   x  x y   y  m x
b
n
n x   x 
2
i
i
i
i
i
i
i
2
2
i
i
e avendo considerato come variabile x il tempo in anni e come y lo stipendio in k€/mese, si ottengono per la
retta di regressione ai minimi quadrati un coefficiente angolare
m = 0.0675 (k€/mese)/anno; o anche +67.5 (€/mese)/anno
e un termine noto
b = 0.965 k€; che corrisponde a uno stipendio di primo impiego pari a 965 €/mese.
Riportiamo in figura i punti sperimentali e la retta di regressione. Visti i punti sperimentali e confrontati
con la retta di regressione si può concludere che l’andamento dello stipendio mensile è crescente con il tempo
in maniera approssimativamente lineare.
y or S (k€/month)
1,8
1,6
1,4
1,2
1,0
0,8
0
2
4
6
8
10
x or year (yr)
4c) Il tasso di crescita richiesto altri non è che la pendenza m della retta di regressione: quindi la crescita
(tendenziale) dello stipendio nel tempo è di +67.5 (€/mese)/anno.
4d) Estrapolandolo con la pendenza di crescita trovata al punto 4c) il valore atteso dello stipendio a 20 anni
dal primo impiego, si ottiene S20=S0+m20=2.315 k€/mese, avendo considerato uno stipendio iniziale
S0=b=0.965 k€/mese.
_______
Pag. 7/8
Esercizio 5 (25 minuti)
(svolgere su questo foglio e sul retro)
5) Una sfera di vetro si sta muovendo con velocità costante v=8 m/s (senza rotolare), misurata con una
incertezza del 4 % a un livello di confidenza del 95 %. Il vetro ha una densità volumica di massa
 =2.2(1) kg/dm3. Il raggio della sfera r=3.0 cm è stato misurato con un righello la cui tacca elementare
risolve L=2 mm.
5a) Si ricavi il valore dell’energia cinetica Ec della sfera di vetro.
5b) Si ricavi l’incertezza tipo, assoluta e relativa, dei 3 parametri/variabili di ingresso (v, , r).
5c) Si ricavi l’incertezza estesa di Ec per un fattore di copertura k=3.
5d) Si esprima/scriva la misura di Ec utilizzando la notazione compatta per l’incertezza standard.
5e) Se una seconda misurazione indipendente ha fornito per l’energia cinetica della sfera una misura
Ec,2=101 J, si discuta la compatibilità tra le due misure (Ec ed Ec,2).
5a) La massa della sfera di vetro, come valore, è m=V con V=4/3r3 e dunque m=248.8 g
Il valore dell’energia cinetica è ricavabile come
1
Ec= mv 2 7.96 J
2
5b) L’incertezza sulla velocità è Ur(v)=410-2 per un fattore di copertura k=2 (confidenza del 95 %). Pertanto,
l’incertezza
tipo
relativa
è
ur(v)=Ur(v)/k=210-2
e
la
corrispondente
incertezza
assoluta
è
u(v)=ur(v)v=0.16 m/s.
L’incertezza tipo sulla densità del vetro è u()=0.1 kg/dm3 e la corrispondente incertezza relativa è
ur()=u()/=4.610-2.
Il raggio r della sfera, essendo stato misurato con uno strumento che ha risoluzione finita L=r=2 mm
avrà una incertezza tipo u(r)=r/ 12 =0.58 mm e una incertezza relativa ur(r)=u(r)/r =1.910-2.
5c) La relazione funzionale che esprime Ec in funzione delle altre variabili di ingresso è scrivibile come:
1
1
1 4
2
Ec= mv 2  Vv2   r 3 v 2   1r 3 v 2
2
2
2 3
3
ed è dunque esprimibile come produttoria semplice dei 3 ingressi , r, V.
Pertanto, l’incertezza standard relativa sull’energia cinetica e agevolmente ricavabile come:
ur(Ec)= ur2 (  )  9ur2 (r )  4ur2 ( v)
Sostituendo i valori delle incertezze relative calcolate al punto precedente e calcolando, si ottiene
ur(Ec)=8.4 %, u(Ec)=ur(Ec)Ec=0.67 J e infine l’incertezza estesa cercata: U(Ec)= 3u(Ec)=2.0 J.
5d) La misura di Ec, con l’incertezza in notazione compatta, è Ec=7.96(67) J.
5e) Valutiamo secondo il criterio di compatibilità standard la compatibilità tra le due misure indipendenti
della stessa energia cinetica:
Ec  Ec 2  k u 2 Ec   u 2 Ec 2  con un fattore di copertura ragionevole (k=1, 2, o 3)
Si ottiene 2  k1.2  k  2/1.2  1.7 e pertanto le misure sono compatibili con k=2.
_______
Pag. 8/8