s_131129

STATISTICA E CALCOLO DELLE PROB.
Venerdì 29 novembre 2013
Prof. Cesare Svelto
1° Appello (1a P.I.) AA 2013/2014
Tempo a disposizione 1 ora 50 min (30+25+20+15+20)
Aula V.S7 ore 13.15
Cognome e nome: ___________________________________ _____________________
Matricola e firma __ __ __ __ __ __
(stampatello)
_____________________(firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (8+7+6+5+7 = 33p)
(crocettare)
N.B. Per consegnare il compito occorre svolgere, almeno parzialmente, tutti gli esercizi. Si richiede di
crocettare tutti gli esercizi e sottopunti, tipo 1a) 1b) 1c) 1d) 1e), almeno parzialmente svolti.
SOLUZIONI
Esercizio 1 (tempo stimato 30 minuti)
(svolgere su questo foglio e sul retro)
1)
In una classe di scuola media 12 alunni maschi svolgono una gara sugli 80 metri piani, riportando i
seguenti tempi di corsa:
T = X [s] = 11.5 9.6 11.3 10.8 12.2 8.9 11.1 10.9 10.1 9.3 11.4 14.5
1a)
Si calcolino media e varianza campionaria del tempo di corsa, spiegando l’utilità di queste statistiche.
1b)
Si riportino i dati su un foglio di probabilità gaussiana nel quale l’asse delle ordinate è stato riscalato da
valori P (probabilità) a valori z (variabile normale standard). Si commenti il risultato ottenuto,
motivando i ragionamenti svolti e le regole e convenzioni seguite.
1c)
Si costruisca un diagramma rami e foglie dai dati disponibili.
1d)
Si disegni l’istogramma della frequenza cumulativa, sia assoluta che relativa, dei dati.
1e)
Si dia la definizione di percentile e si calcoli il 70-esimo percentile dei dati.
1f)
Riportando i calcoli fatti per ottenerne i valori significativi e si rappresenti il box-plot dei dati,
unitamente ai punti sperimentali (dot-plot).
21a)
Secondo le loro definizioni, a partire dai dati del campione possiamo calcolare:

media campionaria = x 
1 n
 xi  10.97 s
n i 1
n

varianza campionaria = s 2 
(x  x)
2
i
 2.21 s2
n 1
La media campionaria è uno stimatore non polarizzato del valor medio della popolazione che si sta campionando.
i 1
Si può dimostrare che è uno stimatore più efficiente che non il singolo campione, in quanto presenta un errore
quadratico medio inferiore. La varianza campionaria è uno stimatore non polarizzato della varianza della
popolazione. È una misura (quadratica) del grado di dispersione della popolazione attorno alla media.
31b)
Gli n=12 dati ordinati e la corrispondente distribuzione cumulativa osservata, F*(xj)=(j-0.5)/n, sono:
j
1
2
3
4
5
6
7
8
9
10
11
12
xj
8.9
9.3
9.6
10.1
10.8
10.9
11.1
11.3
11.4
11.5
12.2
14.5
F*(xj)=P
4.2% 12.5% 20.8% 29.2% 37.5% 45.8% 54.2% 62.5% 70.8% 79.2% 87.5% 95.8%
_______
Pag. 1/11
Dai valori P di probabilità osservata sperimentalmente si possono ricavare i corrispondenti valori z per una
VNS, andando a leggere in tabella di (z) della gaussiana standard in corrispondenza di P il valore z:
zj
-1.72 -1.15 -0.81 -0.55 -0.32 -0.11
0.11
0.32
0.55
0.81
1.15
1.73
Il grafico di probabilità corrispondente, zj in funzione di xj (su scale lineari), è mostrato in figura:
2
1.5
1
zj (1)
0.5
0
-0.5
-1
-1.5
-2
8
9
10
11
12
13
14
15
x j (s)
Se i dati di origine fossero distribuiti in maniera perfettamente gaussiana, i corrispondenti punti sul
foglio/grafico di probabilità gaussiana dovrebbero risultare tutti perfettamente allineati lungo una retta.
Si osserva che i punti sperimentali (xj, zj) riportati sul foglio di probabilità gaussiana seguono abbastanza bene
un andamento rettilineo (si veda la retta tratteggiata riportata nel grafico), ad eccezione del punto con valore
x12=14.5 s che sembra non appartenere alla distribuzione simil-gaussiana dei rimanenti 11 punti.
Dato che i punti si allineano “discretamente” bene tra loro secondo una retta, si può dire che i dati di origine
(scartato un punto singolare che risulta “anormale”) seguono con discreta approssimazione una distribuzione
gaussiana. Tuttavia, osservando il grafico attentamente si può anche concludere che i punti non seguono
molto bene un andamento rettilineo e dunque i dati non sono distribuiti in maniera gaussiana.
In conclusione, dato l’andamento non chiaramente rettilineo (ma neppure chiaramente non rettilineo) dei
punti disegnati sul grafico di probabilità, per verificare con maggiore accuratezza la corrispondenza dei dati a
una distribuzione gaussiana occorrerebbe disporre di un numero maggiore di dati.
11c)
Disponendo di N dati si ottiene il seguente diagramma rami (secondi) e foglie (decimi di secondo):
Rami
Foglie
8
9
9
3 6
10
1 8 9
11
1 3 4 5
12
2
13
14
5
Dal diagramma a rami e foglie così ottenuto si evidenzia una discreta, ma non ottima, gaussianità dei dati di
origine. Ancora una volta, i dati sono pochi per consentire di trarre conclusioni affidabili sulla loro distribuzione.
_______
Pag. 2/11
Frequenza cumulativa
11d)
10
5
F. cumulativa relativa
0
9
10
11
Tempo [s]
12
13
14
8
9
10
11
Tempo [s]
12
13
14
1
0.5
0
11e) k-esimo
8
percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%.
La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100
Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari
all’intero prima e dopo di Ik ).
Il 70-esimo percentile ha indice I70% = (12+1)70 /100 = 9.1, quindi il 70-esimo percentile è pari a
70-esimo percentile = 11.4+(11.5-11.4)0.1 = 11.41 s
21f)
Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e il terzo
quartile. I 12 dati ordinati sono X [s]: 8.9 9.3 9.6 10.1 10.8 10.9 11.1 11.3 11.4 11.5 12.2 14.5
La mediana è il 50-esimo percentile, per cui Imediana = (12+1)50 /100 = 6.5, quindi la mediana è pari alla
media del sesto e del settimo dato.
Mediana = (10.9+11.1)/2=11 s = Q2
Il primo quartile è il 25-esimo percentile, con I1Q = (12+1)25 /100 = 3.25, quindi il primo quartile è dato da:
primo quartile = 9.6+(10.1-9.6)0.25 = 9.725 s = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (12+1)75 /100 = 9.75, quindi il terzo quartile è
compreso tra il nono e il decimo dato, per interpolazione otteniamo:
terzo quartile = 11.4+(11.5-11.4)0.75 = 11.475 s = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 1.75 s
I baffi si possono estendere fino a 1.5DIQ = 2.625 s, quindi fino a 9.725-2.625=7.1 s e
11.475+2.62514.1 s. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite:
in questo caso sino al dato 1 (baffo inferiore) pari a 8.9 s, e sino al dato 11 (baffo superiore) pari a 12.2 s.
Minimo dato = 8.9 s Massimo dato = 14.5 s
1
8
9
10
11
12
Tempo [s]
13
14
15
16
_______
Pag. 3/11
Esercizio 2 (25 minuti)
(svolgere su questo foglio e sul retro)
2a)
Una escort riceve mediamente 21 telefonate a settimana con nuove proposte di accompagnamento
serale (per ipotesi tutte effettuate da uomini sposati). Giustificando il tipo di distribuzione utilizzata, si
calcoli la probabilità che in un singolo giorno la escort riceva almeno due telefonate.
2b)
Statisticamente il 5 % degli uomini sposati che contattano una escort verrà scoperto dalla moglie. Su 10
uomini sposati che hanno contattato una escort quanto è la probabilità che meno di 2 vengano scoperti?
2c)
L’introito medio per una uscita serale di una singola escort è di 400 €, con deviazione standard di
200 €. Quanto vale la probabilità che per un gruppo di 16 escort la media degli introiti raccolti da
ciascuna escort in una sera sia maggiore di 500 €?
2d)
Si considera un gruppo di 500 mariti che contattano una escort e si mantiene al 5 % la probabilità che
ciascuno di questi venga scoperto dalla moglie. Quanto vale la probabilità che nel gruppo considerato
meno di 35 mariti siano stati scoperti?
2.52a)
Utilizziamo una distribuzione di probabilità poissoniana, perché la variabile casuale che individua il
tempo di arrivo di una telefonata è una variabile continua e dunque suddivisibile in sottointervalli di durata
talmente piccola per cui la probabilità di ricevere più di una telefonata nel sottointervallo è zero. Supponendo
che gli arrivi delle telefonate non siano correlati tra loro e che la probabilità di ricevere una telefonata in un
dato intervallo dipenda dalla estensione temporale dell’intervallo, la probabilità di ricevere x telefonate
nell’intervallo di tempo cercato è calcolabile dalla PMF di Poisson, con parametro :
PMF di una variabile poissoniana X vale f ( x) 
e   x
,
x!
x  0,1,2...
il suo valor medio vale  =  e la sua varianza vale  2 = .
In questo caso, considerato che ci sono 7 giorni in una settimana, il valor medio delle telefonate ricevute
nell’intervallo di tempo di 1 giorno è  = 21 telefonate/settimana / (7 giorni/settimana) = 3 telefonate/giorno.
La probabilità che arrivino almeno 2 telefonate in un giorno è uguale a 1 meno la probabilità che non ne sia
arrivata nessuna e meno la probabilità che ne sia arrivata una sola:
P(x2) = 1  P( x  0)  P( x  1)  1 
e  0 e  1

 1  e    e   1  1  e  3  e  3  3 
0!
1!
 1  4  e3  0.8009  80 %
supponendo che le telefonate non siano correlate tra loro.
2.52b)
Dato che ogni prova è un processo di Bernoulli, le prove sono indipendenti e la probabilità di successo
in ogni prova è costante, la probabilità di x mariti scoperti su n segue la distribuzione binomiale, con
probabilità di “successo” (venire scoperti dalla moglie!) p=5%=0.05. Per cercare la probabilità che meno di 2
mariti vengano scoperti, possiamo calcolarla come la probabilità che ne vengano scoperti 0 più la probabilità
che ne venga scoperto 1.
 n
10 
0
P(0 successi su 10 prove )  P( x  0)    p x (1  p) n  x   0.05 (0.95)10  59.9 %
 x
0
_______
Pag. 4/11
 n
10 
1
P(1 successi su 10 prove )  P( x  1)    p x (1  p) n  x   0.05 (0.95)101  31.5 %
x
1
 
 
n
n!
avendo ricordato che   
e dunque
 x  x!(n  x)!
10  10!
  
1 e
 0  0!10!
10  10!
  
 10
 1  1!9!
Viene richiesta la probabilità che meno di 2 mariti siano scoperti, che vale quindi:
P( x  2)  P( x  0)  P( x  1)  0.599  0.315  91.4%
e dunque P(x<2)91.4 %, avendo calcolato le probabilità come descritto in precedenza.
22c) Per
calcolare la probabilità cercata, consideriamo la variabile “introito medio” X su un campione di 16
escort. Il suo valor medio vale  = 400 € e la sua deviazione standard  X 

n

200 €
 50 € . Calcoliamo
4
quindi la probabilità cercata mediate standardizzazione della v.c. X :

500   
500  400 
  P z 
P( x  500)  P z 
  P( z  2)  P( z  2)  (2)  2.3 %


50


X


e dunque P(“introito medio”>500 €)2.3 %.
32d) Data
la complessità del calcolo tramite la formula della binomiale (occorrerebbe sommare 35 probabilità
puntuali, per x da 0 fino a 34, calcolate con la PMF della distribuzione binomiale), decidiamo di sfruttare
l’approssimazione gaussiana alla binomiale. Il valor medio vale  = np = 5000.05 = 25. La varianza vale
invece  2=np(1-p)=23.75 e quindi la deviazione standard è  =4.87.
L’approssimazione gaussiana è valida quando np e n(1-p) sono entrambi molto maggiori di 1 (tipicamente si
considera attendibile l’approssimazione per valori superiori a 5). Nel caso considerato sicuramente
l’approssimazione è buona, perché np=25 e n(1-p)=475, e dunque per il calcolo della probabilità cercata
possiamo utilizzare una distribuzione gaussiana con =25 e  =4.87. Calcoliamo infine la probabilità tramite
standardizzazione:

34.5  np  
34.5  25 
P( x  35)  P z 
 z 
  P( z  1.95)  97.4 %


4.87 
np(1  p)  

e dunque P(“mariti scoperti”<35)97.4 %. Si è usato il valore di soglia continua (la PDF gaussiana è
continua) a 34.5 in quanto valore intermedio tra i due interi 34 e 35 (la PMF binomiale è discreta e il
problema considerato è in termini di “mariti interi”). Così facendo il calcolo con l’approssimazione gaussiana
risente meno dell’errore di quantizzazione limitandosi ai numeri interi (a cui la gaussiana non è vincolata).
Il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità pari a
97.0 %, che è praticamente identica al valore ottenuto con l’approssimazione effettuata.
Poisson
Bernoulli
Gauss ST
Gauss APPR
80 %
91.4 %
2.3 %
97.4 %
_______
Pag. 5/11
Esercizio 3 (20 minuti)
(svolgere su questo foglio e sul retro)
3) Siamo interessati a controllare la massa del riempimento di bibita GatoradeTM di una sacca in cellophane
(la massa del cellophane viene sottratta e si considera solo quella del liquido di riempimento). Il produttore
delle sacche di GatoradeTM dichiara una massa di liquido per sacca pari a 1 kg. Misuriamo quindi la massa di
GatoradeTM contenuta in 200 sacche, ottenendo un valor medio mi =987 g con una deviazione standard
campionaria s(mi)=60 g.
3a) Si effettui un test statistico con lo scopo di verificare se la massa di riempimento da noi controllata è
inferiore a quella dichiarata, con un livello di significatività dell’1 %.
3b) Si fornisca una definizione di errore di tipo I e di errore di tipo II per un test statistico:
83a) Possiamo
effettuare un test z, in quanto dobbiamo stimare il valor medio di una popolazione con
varianza nota, “nota” in quanto ricavata da un numero molto alto di misure (200, quindi la varianza
campionaria s2 si può ritenere un ottimo stimatore della varianza della popolazione  2).
Seguiamo gli 8 passi illustrati a lezione e descritti nel libro di testo.
1. Il parametro di interesse è la massa di riempimento 
2. L’ipotesi nulla, che vogliamo verificare o meno, è H0:  = 1000 g
3. L’ipotesi alternativa H1:  < 1000 g (test a un solo lato come espressamente richiesto dal testo)
4. Livello di significatività richiesto  = 0.01
5. La statistica di test è la statistica Z: z0 
X 
X

X 
/ n
6. Rifiutiamo H0 se z0 < -Z = -2.326 (questo valore si ricava dalla tabella della funzione cumulativa per
una VNS in corrispondenza di un valore di probabilità =0.01)
7. Calcoliamo quindi z0: z 0 
X 
X

X 
/ n

987  1000
60 / 200
 3.06
8. Conclusione: dato che z0 = -3.06 < -Z = -2.326 dobbiamo rifiutare l’ipotesi nulla con livello di
significatività 0.01: c’è abbastanza evidenza che l’ipotesi nulla sia falsa.
Concludiamo che la massa di riempimento è significativamente inferiore a 1000 g (l’ipotesi nulla
H0: =1000 g è falsa mentre l’ipotesi alternativa H1:  <1000 g è vera).
23b) Si
commette un errore di tipo I se si rifiuta l’ipotesi nulla quando questa è vera.
Si commette un errore di tipo II se non si rifiuta l’ipotesi nulla quando questa è falsa.
_______
Pag. 6/11
Esercizio 4 (15 minuti)
(svolgere su questo foglio e sul retro)
4) Si vuole ricavare indirettamente il valore di una resistenza R da misure di corrente e tensione su un resistore
(caratterizzazione I-V). Con un generatore si applicano diversi valori di corrente I, variabile di comando, e si
legge la corrispondente tensione V ai capi del resistore. I risultati sperimentali sono riportati in tabella (si
affronta il problema da un punto di vista puramente teorico-analitico, trascurano le incertezze di misura):
V [V]
I [mA]
1
0.50
2
1.83
5
4.19
10
7.21
20
14.54
4a) Supponendo, naturalmente, che la tensione ai capi del resistore vari linearmente con la quantità di
corrente che lo attraversa, si calcoli, tramite la regressione lineare, il valore R della resistenza incognita e si
valuti, quantificandola, la presenza di un eventuale offset di tensione V0.
NOTA: Si ricorda che il coefficiente angolare ed il termine noto della retta di regressione ai minimi quadrati si calcolano come:
m
n xi yi   xi  y i
n x   xi 
2
i
2
 x  y   x  x y   y  m x
b
n
n x   x 
2
i
i
i
2
i
i
i
i
i
2
i
4b) Si riporti in un diagramma cartesiano il grafico della retta di regressione, unitamente ai punti
sperimentali. Si commenti il risultato ottenuto.
OPZIONALE (per 3 punti addizionali)
4c) A partire dal funzionale che descrive la sommatoria degli scarti quadratici, dei punti sperimentali dalla
retta di regressione, si ricavino le equazioni – già indicate sopra nella NOTA – che forniscono il coefficiente
angolare e il termine noto della retta di regressione ai minimi quadrati.
54a) Consideriamo
la corrente come variabile indipendente (x) e la tensione come variabile dipendente (y).
Svolgiamo i calcoli e otteniamo:
resistenza R = m = 1.39 V/mA =1.39 k 1.4 k
offset di tensione V0 = b = -0.25 V -250 mV
54b) Riportiamo
sul grafico in figura i punti sperimentali e la retta di regressione. Visti i punti
sperimentali e confrontati con la retta di regressione, si può concludere che la dipendenza della tensione dalla
corrente è effettivamente lineare. Si individua un modesto offset di tensione (tensione di uscita anche senza
applicare corrente di ingresso, dunque V00 quando I=0), che a occhio sembra essere sicuramente inferiore a
mezzo volt ma risulta difficile da quantificare in maniera precisa dal grafico.
_______
Pag. 7/11
Tensione V (V)
20
18
16
14
12
10
8
6
4
2
0
y = 1.3885x - 0.2504
R 2 = 0.9968
0
5
10
15
Corrente I (mA)
OPZIONALE (per 3 punti addizionali)
+34c)
Lo scarto i-esimo tra la retta di regressione di equazione y=mx+b e il punto sperimentale i-esimo di
coordinate (xi, yi), è i = yi – [ mxi + b ]
Il funzionale dato dalla sommatoria degli scarti quadratici è:
n
n
i 1
i 1
 (m, b)    i2    yi  mxi  b 2
Per minimizzare tale funzionale, calcoliamo le sue derivate parziali prime, rispetto a m e rispetto a b, e
imponiamole uguali a zero:

 0   m xi2   b xi   xi yi
m
Φ
 0   m xi   nb   yi
b
Abbiamo ottenuto un sistema di due equazione in due incognite, m e b,risolvendo il quale si ricava:
m
b
n xi yi   xi  y i
n xi2   xi 2
 x  y   x  x y   y  m x
n
n x   x 
2
i
i
2
i
i
i
2
i
i
i
 y  mx
i
_______
Pag. 8/11
Per verificare che la soluzione ottenuta corrisponde effettivamente a un minimo (e non a un massimo), si può
derivare ulteriormente la derivata parziale prima e verificare agevolmente che entrambe le derivate seconde
sono positive.
_______
Pag. 9/11
(20 min)
Esercizio 5
(svolgere su questo foglio e sul retro)
5) La misura della velocità v di un’automobile viene ricavata in due maniere indipendenti:
1. il tachimetro della vettura, a display digitale con risoluzione 2 km/h, mostra un valore v1=134 km/h;
2. conoscendo la massa della vettura, m=1020 kg nota con incertezza U(m)=50 kg per k=2, e la sua
energia cinetica, E=666 kJ nota con incertezza tipo del 2 %.
5a) Si ricavino le due misure di velocità: valori v1 e v2 e incertezze u(v1) e u(v2). Si esprimano i risultati
anche in notazione standard, xu(x), con l’incertezza a una sola cifra significativa.
5b) Si discuta la compatibilità tra i due risultati di misura.
5c) Si ricavi la miglior stima della velocità v dell’auto, ottenuta come media pesata tra le misure compatibili
e la sua incertezza tipo u(v). Si discuta il risultato ottenuto
N.B. In tutto l’esercizio, si richiede di esprimere le diverse velocità in km/h.
55a) Nella
prima misurazione, con valore v1=134 km/h, la risoluzione di misura è finita (con un passo di
quantizzazione v1=2 km/h) e la corrispondente incertezza di quantizzazione è u(v1)=v1/ 12 0.58 km/h.
La prima misura è dunque v1=134.000.58 km/h (o anche v1=134.00.6 km/h).
Nella
seconda
misurazione,
dalla
formula
dell’energia
cinetica
E=(1/2)mv2,
si
ricava
v2= 2e / m =130.1 km/h. Inoltre u(m)=U(m)/k=25 kg e ur(m)=u(m)/m=25/10202.5 %.
Pertanto ur(v2)=
1
1 2
1
4  6.25 ×10-2=1.6 % e infine si ottiene u(v2)=v2×ur(v2)=2.1 km/h.
ur E   ur2 m =
2
4
4
La seconda misura è dunque v2=130.12.1 km/h (o anche v2=1302 km/h).
25b) Siamo
in presenza di due misure indipendenti della stessa grandezza che hanno fornito valori diversi tra loro.
Valutiamo la compatibilità tra i risultati delle misure secondo il criterio di compatibilità standard, che prevede di
confrontare la distanza tra i due valori con una combinazione delle due incertezze standard, attraverso la relazione:
vi  v j  kcomp u 2 ( vi )  u 2 ( v j )
Sostituendo i valori del caso, si ottiene kcomp(1,2) ≥ 1.9 e pertanto le due misure sono compatibili con kcomp = 2.
35c) La
miglior stima della velocità dell’auto si ottiene come media pesata tra le due misure compatibili,
utilizzando come pesi i reciproci delle corrispondenti incertezze al quadrato:
v1
v
 2 2
u v1  u v2 
v=vMP=
=133.67 km/h
1
1

u 2 v1  u 2 v2 
2
L’incertezza della media pesata è poi:
u(v)=u(vMP)=
1
1
1
 2
u v1  u v2 
2
u 2 v1   u 2 v2 
=0.57 km/h

u 2 v1   u 2 v2 
_______
Pag. 10/11
Come prevedibile, la media pesata vMP è compresa tra i valori di v1 e v2 mentre l’incertezza della media pesata
u(vMP) risulta inferiore sia a u(v1) che a u(v2): abbiamo aumentato il nostro livello di conoscenza sulla velocità
dell’auto.
Il risultato, miglior stima della velocità dell’auto, è dunque vMP=(133.670.57) km/h o anche
vMP=(133.70.6 km/h).
_______
Pag. 11/11