STATISTICA E CALCOLO DELLE PROB.
Giovedì 17 febbraio 2011
1o Appello AA 2010/2011
Aula V.s.9 ore 14.00
Prof. Cesare Svelto
Tempo a disposizione 1 ora 50 min
Cognome e nome: ___________________________________ _____________________
Matricola e firma __ __ __ __ __ __
(stampatello)
_____________________(firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (6+8+7+8+4 = 33p)
(crocettare)
N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una
penalità.
SOLUZIONI
Esercizio 1 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
1) I giudizi di un corso sono riportati in scala da 0 a 4 con una cifra decimale:
Giudizi = 2.8, 3.5, 3.4, 4.0, 3.6, 2.9, 2.7, 3.5, 4.0, 3.8, 3.0, 3.9.
1a) Si individuino media, deviazione standard e varianza campionaria dei dati.
1b) Si riportino i dati in un diagramma a rami e foglie.
1c) Si dia la definizione di k-esimo percentile e si calcoli il 60-esimo percentile dei dati.
1d) Dopo avere calcolato, con le formule e spiegazioni del caso, i valori caratteristici del box-plot dei dati, si
disegni questa rappresentazione grafica (con tutti i punti misurati) commentando il box-plot ottenuto. Si
riporti sulla stessa scala anche il diagramma a punti dei dati.
1a) Il numero di dati contenuti nel campione è n=12.
1 n
La media campionaria dei dati è G   Gi  3.425 .
n i 1
La varianza campionaria dei dati è s 2 
n
1 n
Gi  G 2  1   Gi2   nG 2   0.222

n  1 i 1
n  1  i 1


La deviazione standard campionaria dei dati è s  s 2  0.471 .
1b) Riportiamo i dati ordinati (secondo valori crescenti):
Giudizi =2.7, 2.8, 2.9, 3.0, 3.4, 3.5, 3.5, 3.6, 3.8, 3.9, 4.0, 4.0.
In questo caso possiamo scegliere come ramo la cifra intera e come foglia la prima cifra decimale dei valori
numerici dei dati:
Rami
foglie
2
7 8 9
3
0 4 5 5 6 8 9
4
0 0
Sono stati ottenuti m=3 rami/intervalli con m n 3.5.
1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%.
La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100
Dall’indice si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici pari
all’intero prima e dopo di Ik ).
Il 60-esimo percentile ha indice I60% = (12+1)60 /100 = 7.8, quindi il 60-esimo percentile è pari a un valore
intermedio tra il settimo e l’ottavo dato:
60-esimo percentile = 3.5+(3.6-3.5)0.8 = 3.58
_______
Pag. 1/8
1d) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana, il primo e terzo quartile.
La mediana è il 50-esimo percentile, per cui Imediana = (12+1)50 /100 = 6.5, quindi la mediana è la media tra il
sesto ed il settimo dato, che valgono entrambi 3.5.
Mediana=3.5.
Il primo quartile è il 25-esimo percentile, per cui I1Q = (12+1)25 /100 = 3.25, quindi il primo quartile è dato
da:
primo quartile = [ 2.9 + (3.0 – 2.9)  0.25 ] = 2.925 = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (12+1)75 /100 = 9.75, quindi il terzo quartile è dato da:
terzo quartile = [ 3.8 + (3.9 – 3.8)  0.75 ] =3.875 = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 0.95.
I baffi si possono estendere fino a 1.5DIQ = 1.425 al di là del primo e terzo quartile, quindi fino a
2.925-1.425=1.5 e 3.875+1.425=5.3. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto
entro questo limite (di 1.5DIQ): in questo caso sino al primo e all’ultimo dato del campione (non ci sono
outliers).
In figura (box-plot) sono riportati anche i punti sperimentali.
Giudizi del corso
_______
Pag. 2/8
Esercizio 2 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
2a) Si supponga che la quantità di miele prodotta da un alveare segua una distribuzione normale, con valor
medio 2 kg e deviazione standard 0.4 kg. Quanto vale la probabilità che 10 alveari producano meno di 17 kg
di mele?
2b) Negli alveari ci sono circa 500 api. La probabilità che un’ape punga un passante vale lo 0.2 %. Si calcoli
la probabilità che una persona senza protezione venga punta almeno una volta, passando a fianco agli alveari.
Si effettui il calcolo sia utilizzando una distribuzione binomiale sia utilizzando una distribuzione poissoniana.
Si descrivano le ipotesi fatte per risolvere il problema e si commentino i risultati ottenuti.
2c) Considerando le stesse ipotesi del punto b), si stimi la probabilità che il passante riceva meno di 100
punture, dopo aver attraversato la zona degli alveari per 100 volte.
2a) La quantità di miele prodotta da 10 alveari è pari alla somma di dieci variabile casuali a distribuzione
normale, che si possono considerare statisticamente indipendenti. Quindi è ancora una variabile casuale a
distribuzione normale, con valor medio pari alla somma dei 10 valori medi e varianza pari alla somma delle
dieci varianze:
 = 10  2 kg = 20 kg,  2= 10  (0.4 kg)2 = 1.6 kg2 da cui  = 1.265 kg.
Per calcolare la probabilità richiesta, standardizziamo la variabile casuale gaussiana e ricorriamo quindi alla
tabella dei valori della distribuzione cumulativa (z) per una variabile normale standard (VNS). Ricordiamo
x
che z 
è la VNS ricavata da x.

17   
17  20 


P( x  17)  P z 
  P z 
  P( z  2.37)  0.89 % <1 %
 
1.265 


2b) In prima approssimazione possiamo utilizzare una statistica poissoniana, in quanto le api che possono
pungere sono molte, ciascuna con una probabilità molto bassa. Inoltre in prima approssimazione le punture si
possono considerare scorrelate.
e   x
La funzione di probabilità di una variabile poissoniana X vale f ( x) 
,
x  0,1,2...
x!
con valor medio  =  e varianza  2 = .
Nel caso considerato, il valor medio vale  = 500 api0.002 punture/ape = 1 puntura.
La probabilità che una persona venga punta almeno una volta vale:
e  x
e 110
 1
 1  e 1  63.2 %.
P(x1)=1-P(x=0)=1x!
0!
Si poteva ottenere lo stesso risultato anche considerando una distribuzione binomiale, in quanto la
distribuzione poissoniana non è altro che una approssimazione della binomiale per alto numero di estrazioni e
bassa probabilità di successo:
n
 500 
0
0.002 (0.998) 500  1  (0.998) 500  63.2%
1  P(0 successi su 500 prove )  1    p x (1  p) nx  1  
 x
 0 
Le ipotesi fatte sono:
- nessuna correlazione tra le punture
- probabilità di puntura costante
Entrambe queste ipotesi potrebbero non essere vere: ad esempio se il passante per qualche motivo infastidisse
le api (magari avvicinandosi troppo all’alveare) sicuramente la probabilità aumenterebbe.
2c) Data la complessità del calcolo tramite la formula della binomiale e anche della poissoniana, decidiamo di
sfruttare l’approssimazione gaussiana.
Il valor medio vale =np =  = 500 api0.002 punture/ape100 passaggi= 100 punture
La varianza vale invece  2=np(1-p)= 100 punture(1-0.002)=99.8100= .
_______
Pag. 3/8
L’approssimazione è valida in quanto np e n(1-p) sono entrambi molto maggiori di 1 (tipicamente si
considera attendibile l’approssimazione per valori superiori a 5): in questo caso sicuramente
l’approssimazione è molto buona. Calcoliamo quindi la probabilità tramite standardizzazione:

100  np 
100  100 

P( x  100)  P z 

P
z


  P( z  0) =50 %.

10
np
(
1

p
)




Il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità pari a
52.6%, abbastanza in linea con l’approssimazione effettuata.
Commento: si osserva che tale risultato di P50 % vale ogniqualvolta per una distribuzione simmetrica
(quale la PDF gaussiana) si valuta la probabilità di avere valori inferiori alla media . In questo caso si aveva
infatti =np=100 e si cercava la probabilità di ricevere meno di 100 punture.
_______
Pag. 4/8
Esercizio 3 (tempo stimato 20 m)
(svolgere su questo foglio e sul retro)
3) Intendiamo verificare la carica di un modello di batteria. La ditta produttrice dichiara 550 mAh.
Effettuiamo misure su un campione di 11 batterie ottenendo un valor medio di 517 mAh e una deviazione
standard campionaria pari a 42 mAh.
3a) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare se la
carica della batteria è inferiore a quella dichiarata dalla casa produttrice.
3b) Se la deviazione standard non fosse stata misurata su 11 batterie, ma fosse stata ricavata da uno studio
statistico, effettuato da altri, su centinaia di batterie di quel tipo, che cosa sarebbe cambiato?
3a) Effettuiamo un test t (verifica del valor medio con varianza non nota).
1. Il parametro di interesse è la carica media 
2. H0:  = 550 mAh
3. H1:  < 550 mAh (il test è a un lato solo, in quanto vogliamo dimostrare che la carica media è
inferiore a quella dichiarata)
4. livello di significatività richiesto  = 0.01 (attenzione, su un solo lato)
5. La statistica di test è ora la statistica t: t 0 
X  X 

sX
s/ n
6. Rifiutiamo H0 se t0 < -t,10 = -2.764. (questo risultato si ricava dalla tabella dei punti percentuale della
distribuzione t, con  =n-1 = 10)
7. Calcoliamo quindi t0, t 0 
X   X   517  550


 2.606
sX
s/ n
42 / 11
8. Conclusione: dato che t0 =-2.606 > -2.764 non possiamo rifiutare l’ipotesi nulla con livello di
significatività 0.01.
3b) In questo caso la varianza sarebbe stata molto più attendibile, per cui avremmo effettuato un test Z,
considerando  = s.
1. Il parametro di interesse è la carica media 
2. H0:  = 550 mAh
3. H1:  < 550 mAh
4. livello di significatività richiesto  = 0.01
5. La statistica di test è la statistica Z: z0 
X 
X

X 
/ n
6. Rifiutiamo H0 se Z < Z  -2.326. Questo risultato si ricava dalla tabella della funzione cumulativa
(z) in corrispondenza di un valore di probabilità = 0.01.
7. Calcoliamo quindi z0: z 0 
X 
X

X 
/ n

517  550
42 / 11
 2.606
8. Conclusione: dato che z0=-2.606 < Z  -2.326 rifiutiamo l’ipotesi nulla con livello di significatività
0.01: c’è abbastanza evidenza che l’ipotesi nulla sia falsa.
Come si può notare il procedimento è identico a prima, cambia solo il valore critico, in quanto la
distribuzione di probabilità normale decade più velocemente della t di Student.
_______
Pag. 5/8
Esercizio 4 (25 minuti)
(svolgere su questo foglio e sul retro)
4) Un recipiente cilindrico con base circolare di raggio r e altezza h contiene azoto (N2) alla pressione
p=5 kPa, misurata con un manometro tarato 1 anno prima con incertezza dichiarata 10-3+10-3/anno.
4a) La misurazione dell’altezza del recipiente è stata ripetuta più volte, fornendo i seguenti risultati:
h=[32.00, 32.20, 29.99, 31.31, 33.00, 32.00, 30.00] cm (7 misure ripetute)
Si ricavi la misura hu(h)
4b) La temperatura del sistema risulta T =400 K con U(T)=10 K per fattore di copertura k=2.5. Il raggio
interno del recipiente è stato stimato r =30 cm, con arrotondamento a 1 cm. La costante molare dei gas vale
R=8.31 Jmol-1K-1 con incertezza relativa pari all’1.7 %.
Si ricavi la misura del numero di moli di gas n presenti nel recipiente, supponendo applicabile
l’equazione dei gas perfetti pV=nRT. Se ne esprima l’incertezza in notazione concisa.
4c) Una misura indipendente ha fornito, per lo stesso numero di moli, il valore n2=0.1440 mol con una
incertezza estesa U(n2)=8.410-3 mol con un fattore di copertura pari a 2. Si valuti la compatibilità tra le due
misure e si calcoli la miglior stima del numero di moli di gas.
4a) Dalle n=7 misure ripetute, si ricava un valor medio
h= h 
1 n
 hi =31.50 cm
n i 1
e una incertezza di categoria A
u(h)=uA(h)=
n
1
 hi  h
nn  1 i 1

2
=0.43 cm
La misura è h=31.50 0.43 cm.
4b) Dalla legge dei gas perfetti, pV=nRT, si ricava il numero di moli n= pV/(RT), dove il volume del cilindro
vale V=h×r2. Secondo questa misurazione indiretta, il numero di moli è dunque espresso da n 
phr 2
.
RT
Per ottenere il valore di n, sostituiamo nella sua espressione i valori dati :
R=8.31 J mol-1K-1
T=(127+273.15) K(127+273) K=400 K
3
p=5 kPa=5×10 Pa r=30.0 cm=0.3 m
h=31.50 cm
phr 2
0.1340 mol
RT
Dato che l’equazione della misura è una produttoria delle grandezze d’ingresso, l’incertezza relativa
dell’uscita è semplicemente legata alle incertezze relative degli ingressi dall’espressione
n=
ur(n)= u r2  p   u r2 h   4u r2 r   u r2 R   u r2 T 
Calcoliamo le incertezze relative dei singoli ingressi:
ur(p) 10-3+10-3/anno ×1 anno= 0.2 %
ur(R)=1.7 %
ur(T)=u(T)/T=[U(T)/k]/T=[4 K]/(400 K)=1 %
La misura del raggio è stata arrotondata, per cui è affetta da una incertezza di quantizzazione
u(r)=r/ 12 2.9 mm e quindi l’incertezza relativa sul raggio risulta
ur(r)=u(r)/r=[2.9×10-3/3×10-1] = 0.97 %
_______
Pag. 6/8
ur(h)= u(h)/h=0.43 cm/31.5 cm  1.4 %
Da queste si ottiene l’incertezza relativa su n:
ur(n)= u r2  p   u r2 h   4u r2 r   u r2 R   u r2 T  


0.04  1.96  4  0.94  2.89  1 %  3.1 %
e quindi una incertezza assoluta
u(n)=ur(n)×n=4.2×10-3 mol
La misura indiretta di n espressa in notazione concisa è infine n=0.1340(42) mol.
4c) L’incertezza tipo sul numero di moli ottenuto nella seconda misura è u(n2)=U(n2)/2=4.210-3 mol: quindi
le due misure risultano avere proprio la stessa incertezza. Per verificare la compatibilità tra le 2 misure del
numero di moli, supposte indipendenti, dobbiamo valutare se:
n  n2  k u 2 (n)  u 2 (n2 ) con un fattore di copertura ragionevole (k=1, 2, o 3).
Si ottiene 0.01  k610-3 per cui k  1.67 e quindi la compatibilità è verificata con k=2. Possiamo dunque
ritenere le due misure compatibili con un fattore di copertura k=2.
Per la miglior stima del numero di moli, occorre eseguire una media pesata tra n e n2, secondo la formula
della media pesata tra misure compatibili:
n
n
 2 2
2
u (n) u (n2 )
nmp=
1
1
 2
2
u (n) u (n2 )
ma essendo le due incertezze, e dunque i due pesi uguali, tale media pesata si riduce in questo caso a una
semplice media aritmetica: nmp=(n+n2)/2=0.139 mol.
_______
Pag. 7/8
Esercizio 5 (15 minuti)
(svolgere su questo foglio e sul retro)
5) Si misura con un wattmetro la potenza elettrica P sviluppata su un resistore di valore R al variare
corrente I (in continua) che lo attraversa. I dati sperimentali sono riportati in tabella:
Ii (A)
Pi (W)
0
2
2
2.5
5
12
10
48
20
195
5a) Si disegni in un diagramma cartesiano i valori sperimentali di P in funzione di I.
5b) Utilizzando la regressione lineare ai minimi quadrati e i dati sperimentali raccolti, si stimi la resistenza R.
m
n xi yi   xi  y i
n xi2   xi 
2
Nota: per la retta di regressione ai minimi quadrati vale:
2
 xi  y i   xi  xi y i  y i  m  xi
b

 y  mx
2
n
n xi2   xi 
5a) Il diagramma cartesiano dei punti sperimentali (P vs. I) è mostrato nella figura seguente:
200
P (W)
150
100
50
0
0
5
10
I (A)
15
20
5b) Per linearizzare la relazione tra P e I, conviene adottare due nuove variabili y=P e x=I2, così da ottenere
l’equazione della retta: y=mx+b con m=R e b=0 (idealmente). Dopo la trasformazione di coordinate
individuata, i nuovi dati sono:
i (1)
I2 (A2)
P (W)
1
0
2
2
4
2.5
3
25
12
4
100
48
5
400
195
Eseguendo i calcoli secondo le due formule note
m
n xi yi   xi  y i
n xi2   xi 
2
 xi  yi   xi  xi y i  yi  m xi

 y  mx
2
n
n xi2   xi 
2
b
si ottengono per la retta di regressione ai minimi quadrati un coefficiente angolare m = 0.485   0.5 , per
la resistenza, e dunque R  0.5 , e un termine noto b = 0.55 W, probabilmente dovuto ad un offset del
wattmetro
_______
Pag. 8/8