s_111115

annuncio pubblicitario
STATISTICA E CALCOLO DELLE PROB.
Martedì 15 novembre 2011
1a P.I. AA 2011/2012
Aula VS.9 ore 13.00
Prof. Cesare Svelto
Tempo a disposizione 1 ora 50 min (40+25+25+20)
Cognome e nome: ___________________________________ _____________________
Matricola e firma __ __ __ __ __ __
(stampatello)
_____________________(firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 (10+8+8+7 = 33p)
(crocettare)
N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una
penalità.
SOLUZIONI
Esercizio 1 (tempo stimato 40 minuti)
(svolgere su questo foglio e sul retro)
1) La notte del 31 dicembre in una clinica ospedaliera nascono 7 bambini maschi con peso (massa):
m = X (g) = 3230, 3210, 3160, 3470, 2990, 3210, 3130
1a) Si calcolino media, mediana, moda, e quartili del campione considerato.
1b) Si ricavi la dinamica interquartile e si disegni il box-plot dai dati.
1c) Dopo avere ricavato le corrispondenti tabelle di frequenza (sia assoluta che relativa), si disegnino gli
istogrammi della frequenza relativa (sia come frequenza normale che come frequenza cumulativa) per i dati.
1d) Si riporti la formula e si calcoli la varianza campionaria dei dati.
Si spieghi che cosa rappresenta questa statistica/stimatore.
1e) Si ricavi la tabella della frequenza cumulativa osservata F*(xj) per i dati considerati e il corrispondente
grafico di probabilità cumulativa, F*(xj) vs xj, su semplici scale lineari. Cosa si può osservare dal grafico?
Si standardizzi l’asse delle ascisse ottenendo xjx*j e si ri-scali l’asse delle ordinate in valori zj ricavati
dalla cumulativa della gaussiana standard: si riporti la nuova tabella e si disegni il nuovo grafico. Cosa si può
osservare da quest’ultimo grafico?
1f) Si ricavi la retta di regressione ai minimi quadrati dell’ultimo grafico rappresentato e la si aggiunga al
disegno precedente.
Se non si riesce a completare questo punto, si spieghi che cosa si intendeva fare e con quale scopo.
1g) Dai diversi grafici ottenuti, cosa (e come? e perché?) si può dedurre sulla gaussianità dei dati?
1f-BIS) In alternativa alla prima parte del punto 1f), si ricavi la retta di regressione ai minimi quadrati per il
seguente traffico dati nel tempo: tempo (settimane);traffico (GB) 1;1.5, 3;5, 4;7.5, 8;14,5, 10;18, 15;26.5.
Si disegni il grafico dei punti osservati e della retta di regressione. Dalla pendenza della retta si ricavi il
tasso di incremento del traffico su base giornaliera e si spieghi il significato del termine noto.
NOTA: Si ricorda che il coefficiente angolare ed il termine noto della retta di regressione ai minimi quadrati si calcolano come:
m
n xi yi   xi  y i
n x   xi 
2
2
i
b
 x  y   x  x y   y  m x
n
n x   x 
2
i
i
2
i
i
i
i
i
i
2
i
1a)

media campionaria = x 
1 n
 xi  3200 g
n i 1
la mediana è il valore che divide in due parti uguali il campione (50% dei dati sotto e 50% dei dati sopra);
essendo in numero di dati n=7 un numero dispari, la mediana, o 50-esimo percentile, coinciderà con un dato
nel campione e in particolare il dato centrale del campione ordinato:
Xordin (g) = 2990, 3130, 3160, 3210, 3210, 3230, 3470
l’indice di posizione della mediana è I50% = (7+1)50/100 = 4, quindi il 50-esimo percentile coincide con il
4° dato del campione ordinato ed è mediana = Q2 = 3210 g
_______
Pag. 1/10
la moda è il dato che compare più di frequente e dunque: moda = 3210 g
Il primo quartile è il 25-esimo percentile, con I1Q = (7+1)25/100 = 2, quindi il primo quartile, ovvero il
25-esimo percentile, coincide con il 2° dato del campione ordinato ed è Q1 = 3130 g
Il terzo quartile è il 75-esimo percentile, con I3Q = (7+1)75 /100 = 6, quindi il terzo quartile, ovvero il
75-esimo percentile, coincide con il 6° dato del campione ordinato ed è Q3 = 3230 g
1b) Per disegnare il box-plot, ricaviamo prima la dinamica interquartile:
DIQ=Q3-Q1=100 g
I baffi si possono estendere fino a 1.5DIQ = 150 s dal quartile basso (quindi fino 2980 g verso il basso, sotto
il 25-esimo percentile) e così pure dal quartile alto (quindi fino a 3380 g in alto, sopra il 75-esimo percentile)
Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il loro limite di posizione: in
questo caso sino al dato 1 (baffo inferiore) pari a 2990 g, e sino al dato 6 (baffo superiore) pari a 3230 g.
Minimo dato=2990 g. Massimo dato=3470 s
In figura sono riportati anche i punti osservati nel campione; c’è un outlier.
1c) Possiamo dividere i dati in 5 classi di peso, larghe 100 g ciascuna. Così si ottengono le seguenti tabelle di
frequenza:
(g)
(1)
m
freq.ass.
2900-2999
1
3000-3199
2
3200-3299
3
3300-3399
0
3400-3499
1
(1)
freq.rel.
14.3%
28.6%
42.9%
0.0%
14.3%
(g)
(1)
m
cum.ass.
2900-2999
1
3000-3199
3
3200-3299
6
3300-3399
6
3400-3499
7
(1)
cum.rel.
14.3%
42.9%
85.7%
85.7%
100.0%
_______
Pag. 2/10
1d) La varianza campionaria è definita e si calcola come:
n
  ( xi  x )
2
varianza campionaria = s2  i 1
= 20 766.7 g2
n 1
La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una
misura/indicatore del grado di dispersione della popolazione attorno alla media.
1e) Cominciamo col rappresentare i dati ordinati in una tabella con un indice i progressivo da 1 a n (Tabella
a sinistra).
Subito dopo, raggruppiamo in un unica elemento/cella i valori che occorrono più volte e rappresentiamo la
tabella con i valori xj, la loro frequenza di occorrenza F(xj) e la corrispondente frequenza cumulativa
osservata F*(xj)=[F(xj)-0.5]/n (Tabella al centro).
(1)
i
1
2
3
4
5
6
7
(g)
xj
2990
3130
3160
3210
3230
3470
(g)
m
2990
3130
3160
3210
3210
3230
3470
(1)
j =F (x j )
1
2
3
5
6
7
(1)
F * (x j )
0.07
0.21
0.36
0.64
0.79
0.93
(1)
x *j
-1.46
-0.49
-0.28
0.07
0.21
1.87
(1)
zj
-1.47
-0.80
-0.36
0.74
0.81
1.48
(j -0.5)/7
(x j -m )/s
da f (z j )=f (x j )=F *(x j )
Il grafico di probabilità corrispondente (su semplici scale lineari) è:
1.00
0.90
0.80
0.70
0.50
*
F (xj )
0.60
0.40
0.30
0.20
0.10
0.00
2900
3000
3100
3200
3300
3400
3500
x *j
Con un po’ di impegno e fantasia, avendo aggiunto ai punti anche la curva punteggiata in grigio, il grafico
con la cumulativa dei dati (frequenza cumulativa osservata F*(xj) per i dati in funzione dei dati xj) ricorda la
cumulativa di una gaussiana.
Come passo successivo standardizziamo le ascisse mediante l’operazione x*j=(xj-m)/s, dove utilizzeremo
m= x =3200 g e s=s=144 g. Quindi ricostruiamo le ordinate prendendo i valori zj dalla Tabella dei valori
f(zj)=f(xj)=F*(xj).dopo, raggruppiamo in un unica elemento/cella i valori che occorrono più volte e
rappresentiamo la tabella con i valori xj, la loro frequenza di occorrenza F(xj) e la corrispondente frequenza
cumulativa osservata F*(xj)=[F(xj)-0.5]/n (Tabella al centro).
_______
Pag. 3/10
(1)
i
1
2
3
4
5
6
7
(g)
xj
2990
3130
3160
3210
3230
3470
(g)
m
2990
3130
3160
3210
3210
3230
3470
(1)
j =F (x j )
1
2
3
5
6
7
(1)
F * (x j )
0.07
0.21
0.36
0.64
0.79
0.93
(1)
x *j
-1.46
-0.49
-0.28
0.07
0.21
1.87
(1)
zj
-1.47
-0.80
-0.36
0.74
0.81
1.48
(j -0.5)/7
(x j -m )/s
da f (z j )=f (x j )=F *(x j )
Il grafico di probabilità sulle nuove scale normalizzate o ri-scalate è:
2.00
1.50
1.00
zj
0.50
0.00
-0.50
-1.00
-1.50
-2.00
-2.00 -1.50
-1.00 -0.50
0.00
0.50
1.00
1.50
2.00
x *j
Aggiungendo ai punti la retta a 45° (bisettrice 1°-3° quadrante) si osserva un buon allineamento, come
dovrebbe essere se i punti provenissero da dati distribuiti in maniera gaussiana.
1f) Utilizzando le formule della regressione lineare ai minimi quadrati, dai dati (x*j,zj) dell’ultima Tabella(e
anche dell’ultimo grafico) si ottiene:
n xi yi   xi  y i
 yi  m xi
m=
=0.93890.941
e
b=
=0.07750.10
2
2
n
n xi   xi 
2.00
1.50
1.00
zj
0.50
0.00
-0.50
-1.00
-1.50
-2.00
-2.00
-1.50 -1.00
-0.50
0.00
0.50
1.00
1.50
2.00
x *j
_______
Pag. 4/10
Lo scopo di disegnare un grafico di probabilità gaussiana su scale normalizzate e ri-scalate è di valutare se in
tale diagramma i punti risultano, o meno, bene allineati con la bisettrice del 1°-3° quadrante (m=1 e
b=0). Per dati perfettamente gaussiani i punti starebbero esattamente su tale retta. Se invece i punti sono
lontani da tale andamento rettilineo, la gaussianità dei dati non è verificata.
1g) Dal grafico della frequenza cumulativa osservata F*(xj) per i dati in funzione dei dati xj, che assomiglia
molto alla cumulativa della gaussiana, si può dedurre che i dati sono distribuiti in maniera normale
(gaussiana) con buona approssimazione.
Dal grafico di probabilità gaussiana, normalizzato e ri-scalato con zj in funzione di x*j, si osserva un buon
allineamento dei punti, il che è indice di buona gaussianità dei dati di origine.
Dal grafico della retta di regressione ai minimi quadrati sui punti zj in funzione di x*j, si ricava che tale
retta ha una pendenza circa unitaria e offset circa zero, come previsto dalla teoria per dei dati di origine
distribuiti in maniera gaussiana.
Questi grafici aiutano a verificare, molto meglio di quanto si riesce a fare con le tabelle di frequenza e i
relativi istogrammi, la gaussianità dei dati.
1f-BIS) Utilizzando le formule della regressione lineare ai minimi quadrati, dai dati del consumo in funzione
del tempo si ottiene:
n xi yi   xi  y i
 yi  m xi
m=
=1.788631.79 GB/sett. e
b=
=-0.0556-0.56 GB
2
2
n
n xi   xi 
Il grafico è:
30
Traffico (GB)
25
20
15
10
5
0
0
5
10
15
20
Tempo (settimane)
I punti risultano molto bene allineati (a indicare che il traffico cresce in maniera circa costante nel tempo)
Dalla pendenza della retta di regressione si ricava che l’incremento medio giornaliero del traffico è di
+1.79GB/sett./7giorni/sett.=+0.26 GB/giorno.
Il termine noto della retta starebbe a significare il consumo al tempo zero (e naturalmente dovrebbe essere
uguale a zero). Il fatto che tale parametro risulti negativo ma molto prossimo a zero non deve preoccupare in
quanto il modello della retta è ben verificato dall’allineamento dei punti e l’intercetta per t=0, in particolare
essendo quasi di valore nullo, in questo caso non ha un vero significato fisico.
_______
Pag. 5/10
Esercizio 2 (25 minuti)
(svolgere su questo foglio e sul retro)
2a)
2b)
2c)
2d)
Sapendo che la potenza consumata da una lampada al neon segue una distribuzione normale, con valor
medio pari a 50 W e varianza di 16 W2, si calcoli la probabilità che l’illuminazione di un’aula, che
utilizza 25 di questi neon, richieda più di 1260 W.
Questi neon sono abbastanza difettosi, mediamente 1 su 20 non funziona. Quanto vale la probabilità
che, appena installati, nel locale ci siano 2 neon non funzionanti?
Considerando tutte le aule di una sede universitaria, mediamente si brucia un neon ogni settimana.
Giustificando la risposta, si valuti la probabilità che in 4 settimane si bruci più di 1 neon.
Dobbiamo prevedere una stima di spesa su 10 anni, per il costo delle sostituzioni dei neon. Supponendo
che le condizioni restino inalterate nel tempo, si stimi la probabilità di dover sostituire non più di 530
neon in 10 anni.
2a)
Dato che i 16 neon hanno potenze che possiamo considerare statisticamente indipendenti, la variabile
(sempre gaussiana) “potenza consumata da 16 neon” avrà valor medio e varianza pari rispettivamente a
m =2550 W= 1250 W e s 2 = 2516 W2 =400 W2 (si vedano gli appunti sulla combinazione lineare di
variabili statisticamente indipendenti). Per calcolare la probabilità standardizziamo la variabile casuale
gaussiana, e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile
xm
normale standard (VNS). Ricordiamo che z 
è la VNS ricavata da x.
s
1260  m 
1260  1250 


P( x  1260)  P z 
  P z 
  P( z  0.5)  1  P( z  0.5)  30.85%
s
20




2b) Dato che ogni prova è un processo di Bernoulli (o è guasto oppure non lo è, ovvero successo o
insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di
x termosifoni guasti (“successo”) su n segue la distribuzione binomiale, con probabilità di successo p =0.05:
 n
 25 
2
P(2 successi su 20 prove )    p x (1  p) n  x   0.05 (0.95) 25 2  23 %
 x
2
n
 25  25! 25  24
n!
avendo ricordato che   
e dunque   
=300

2 1
 x  x!(n  x)!
 2  23!2!
2c) In prima approssimazione possiamo utilizzare una statistica poissoniana, in quanto i neon sono molti,
ognuno con una probabilità di rottura in un determinato istante molto bassa. Inoltre in prima approssimazione
il singolo evento di rottura si può considerare scorrelato dagli altri.
e   x
,
x  0,1,2...
La funzione di probabilità di una variabile poissoniana X vale f ( x) 
x!
con valor medio m =  e varianza s2 = .
Nel caso considerato, il valor medio vale  = 1 neon/settimana  4 settimane = 4 neon.
La probabilità che si bruci più di 1 neon in 4 settimane vale:
e 4 4 0 e 4 41
P( x  1)  1  P( x  0)  P( x  1)  1 

 1  0.018  0.073  90.9%
0!
1!
2d)
Data la complessità del calcolo tramite la formula della poissoniana (che richiederebbe di calcolare e
sommare più di 500 probabilità elementari), decidiamo di sfruttare l’approssimazione gaussiana. Valor medio
e varianza valgono m =s2 =  = 5210 = 520 (le settimane in un anno sono 52).
L’approssimazione è valida in quanto  >>5. Calcoliamo quindi la probabilità tramite standardizzazione,
considerando che l’approssimazione è più precisa se si sceglie come estremo dell’intervallo di integrazione il
valor medio tra l’ultimo valore escluso ed il primo accettato:
_______
Pag. 6/10

530.5  m 
530.5  520 

  P( z  0.46)  67.7 %
P( x  530.5)  P z 
  P z 
s
520 



In effetti il calcolo esatto tramite la distribuzione poissoniana (effettuato a calcolatore) fornisce una
probabilità pari a 67.9%, in ottimo accordo con l’approssimazione effettuata.
_______
Pag. 7/10
Esercizio 3 (25 minuti)
(svolgere su questo foglio e sul retro)
3) Intendiamo verificare la durata della batteria di un telefono cellulare. La ditta produttrice dichiara un
valore medio di 160 ore. Effettuiamo misure su un campione di 20 cellulari, ottenendo un valor medio di 150
ore e una deviazione standard campionaria pari a 25 ore.
3a) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare se la
durata della batteria è inferiore a quella dichiarata dalla casa produttrice.
3b) Se la deviazione standard fosse stata ricavata da uno studio statistico su centinaia di cellulari di quel tipo,
ottenendo un valore di 18 ore, che cosa sarebbe cambiato? Si ripeta il test.
3a) Effettuiamo un test t (verifica del valor medio con varianza non nota, perché da “soli” 20 dati utilizzare
la varianza campionaria per stimare la varianza della popolazione non è attendibile).
1. Il parametro di interesse è la durata media m
2. H0: m = 160 ore
3. H1: m < 160 ore (il test è a un lato solo, in quanto vogliamo dimostrare che la durata media è inferiore
a quella dichiarata)
4. livello di significatività richiesto  = 0.01 (attenzione, su un solo lato)
5. La statistica di test è ora la statistica t: t 0 
X m X m

sX
s/ n
6. Rifiutiamo H0 se t0 < -t,19 = -2.539 (questo risultato si ricava dalla tabella dei punti percentuale della
distribuzione t, con  = 19 e  = 0.01)
7. Calcoliamo quindi t0, t 0 
X  m X  m 150  160


 1.789
sX
s/ n
25 / 20
8. Conclusione: dato che t0 = -1.789 > -2.539 non possiamo rifiutare l’ipotesi nulla con livello di
significatività 0.01.
3b) In questo caso la varianza sarebbe stata molto più attendibile, per cui avremmo effettuato un test Z,
considerando s = s.
1. Il parametro di interesse è la durata media m
2. H0: m = 160 ore
3. H1: m < 160 ore
4. livello di significatività richiesto  = 0.01
5. La statistica di test è la statistica Z: z0 
X m
sX

X m
s/ n
6. Rifiutiamo H0 se Z < Z  -2.326. Questo risultato si ricava dalla tabella della funzione cumulativa
(z) in corrispondenza di un valore di probabilità = 0.01.
7. Calcoliamo quindi z0, z 0 
X m
sX

X m
s/ n

150  160
 2.484
18 / 20
8. Conclusione: dato che z0=-2.484 < Z  -2.326 rifiutiamo l’ipotesi nulla con livello di significatività
0.01: c’è abbastanza evidenza che l’ipotesi nulla sia falsa.
Come si può notare il procedimento è identico a prima, cambiano solo la deviazione standard e il valore
critico, in quanto la distribuzione di probabilità normale decade più velocemente della t di Student.
_______
Pag. 8/10
Esercizio 4 (20 minuti)
(svolgere su questo foglio e sul retro)
4) Come mostrato in figura, un generatore di corrente eroga una corrente continua, I=20 mA con incertezza
U(I)=2 mA per k=2, su un carico resistivo con resistenza R=200  e incertezza tipo del 10 %.
4a) Si ricavi la misura indiretta (valore, incertezza e anche incertezza relativa) della potenza P sviluppata
sulla resistenza.
4b) In una misura indipendente della medesima potenza sul resistore indicato in figura, effettuata con un
wattmetro digitale con risoluzione 25 mW, si ottiene PW=100 mW. Si discuta la compatibilità tra le due
misure indipendenti.
4c) Si ricavi la miglior stima della potenza sul resistore e la sua incertezza tipo (assoluta e relativa).
4a) La potenza elettrica si ricava dalla relazione indiretta P=RI2=(200 )(200×10-3 A)2=8×10-2 W=80 mW.
L’incertezza
sulla
corrente
è
u(I)=U(I)/k=1 mA
con
una
corrispondente
incertezza
relativa
ur(I)=u(I)/I=(1 mA)/(20 mA)=5×10-2=5 % mentre ur(R)=10 %. Data la relazione funzionale a produttoria
semplice, l’incertezza relativa composta sulla potenza è ur(P)=[u2r(R)+4u2r(I)]1/2=14 % ed infine l’incertezza
assoluta è u(P)=ur(P)P110 mW.
La misura indiretta della potenza è P=8011 mW=80(11) mW.
4b) Nella misura con wattmetro la risoluzione è PW=25 mW con una incertezza di quantizzazione
u(PW)=PW/ 12 7.2 mW e dunque Pw=100.07.2 mW=100.0(72) mW.
La compatibilità tra le due misure di potenza, assunte indipendenti, viene valutata con il criterio di
compatibilità standard:
P  Pw  k u 2 ( P)  u 2 ( Pw )
che, esprimendo i valori in milliwatt, si può scrivere come
20k
112  7.22 k×13.4
da cui si ricava
k1.49  le due misure sono compatibili per k=2 e, a maggior ragione, anche per k=3 mentre non risultano
compatibili per k=1.
4c) La miglior stima della misura si ottiene dalla media pesata delle misure compatibili:
_______
Pag. 9/10
P
P
 2 w
u ( P) u ( Pw )
Pstima=PMP=
=94.2 mW
1
1

u 2 ( P) u 2 ( Pw )
2
con una incertezza (tipo) della media pesata:
1
u(PMP)=
=6.1 mW
1
1

u 2 ( P) u 2 ( Pw )
mentre la corrispondente incertezza relativa è:
ur(PMP)=u(PMP)/PMP=6.5×10-2=6.5 %.
_______
Pag. 10/10
Scarica