s_070205

annuncio pubblicitario
STATISTICA E MISURAZIONE
lunedì 5 febbraio 2007
Prof. Cesare Svelto
Tempo a disposizione 2 ore e 15 minuti
Prova in itinere AA 2006/2007
Aula V.S.9 ore 13.00
Cognome: __________________________
Nome: _____________________
(stampatello)
Matricola: __ __ __ __ __ __
Firma: _____________________ (firma leggibile)
Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (8+6+6+7+6=33pt)
(crocettare)
N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una
penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”.
SOLUZIONI
Esercizio 1 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
1)
1a)
1b)
1c)
1d)
I neonati di un ospedale vengono pesati alla nascita, ottenendo i seguenti valori:
x [kg] = 3.1 2.5 3.4 4.3 1.9 2.7 3.1 2.9 3.6 3.0 3.1 4.6 2.7 2.8 3.4 3.7 2.2 3.0.
Si descriva che cosa rappresentano la media campionaria, la mediana e la moda di un insieme di dati. In
che situazione questi 3 valori coincidono? Se ne calcolino i valori per il campione in esame.
Si disegni un istogramma della frequenza relativa dei dati.
Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i
valori significativi.
Se il peso di un neonato seguisse una distribuzione normale, con valor medio 3 kg e deviazione
standard 0.5 kg, quanto varrebbe il decimo percentile?
1a) Riportiamo i 18 dati ordinati:
x [kg] = 1.9 2.2 2.5 2.7 2.7 2.8 2.9 3.0 3.0 3.1 3.1 3.1 3.4 3.4 3.6 3.7 4.3 4.6
La media campionaria è uno stimatore del valore atteso della popolazione, rappresenta il “baricentro” della
distribuzione di probabilità:
 1 n
x   xi  3.11 kg
n i 1
La mediana è il valore che divide in due parti uguali la popolazione (quindi è il valore corrispondente al 50%
dei dati). In questo caso di 18 dati, corrisponde alla media tra il nono e il decimo dato:
M=(3.0+3.1)/2=3.05 kg
La moda è il valore più probabile (in questo caso il valore con maggior numero di apparizioni):
Moda=3.1 kg.
La mediana è uguale alla media campionaria nel caso di distribuzioni di probabilità simmetriche. Il loro
valore coincide con la moda quando il centro di simmetria è anche il massimo della PDF (tipicamente per
PDF “a campana”, come ad esempio la distribuzione gaussiana).
1b) Con 18 dati un numero sensato di classi è 5 (ricordiamo la legge 1+log2(n), o anche  n ), in questo
caso possiamo scegliere un intervallo di 0.6 kg, ad esempio suddiviso nelle seguenti classi:
classi
1.7-2.2
2.3-2.8
2.9-3.4
3.5-4.0
4.1-4.6
dati
1.9 2.2
2.5 2.7 2.7 2.8
2.9 3.0 3.0 3.1 3.1 3.1 3.4 3.4
3.6 3.7
4.3 4.6
frequenza
2
4
8
2
2
freq. relativa
0.111
0.222
0.444
0.111
0.111
Pag.1/7
0.45
0.4
0.35
Frequenza relativa
Per il grafico si sarebbero potute scegliere
anche solo 4 classi, spaziate di 1 kg,
ottenendo
un
istogramma
meno
dettagliato, ma forse più facilmente
leggibile.
0.3
0.25
0.2
0.15
0.1
0.05
0
1.5
2
2.5
3
3.5
4
Valori di peso [kg]
4.5
3
3.5
4
4.5
5
1c) Per disegnare il box-plot dei dati
Peso del neonato [kg]
dobbiamo innanzitutto calcolare la
mediana e il primo e terzo quartile. I 18 dati ordinati sono
x [kg] = 1.9 2.2 2.5 2.7 2.7 2.8 2.9 3.0 3.0 3.1 3.1 3.1 3.4 3.4 3.6 3.7 4.3 4.6
La mediana, pari al 50-esimo percentile, per cui Imediana = (18+1)50 /100 = 9.5, quindi la mediana è pari alla
media tra il nono e il decimo dato.
Mediana= 3.05 kg.
Il primo quartile è il 25-esimo percentile, per cui I1Q = (18+1)25 /100 = 4.75, quindi:
primo quartile= 2.7+(2.7-2.7) 0.75 = 2.7 kg = Q1
Il terzo quartile è il 75-esimo percentile, per cui I3Q = (18+1)75 /100 = 14.25, quindi:
terzo quartile= 3.4+(3.6-3.4) 0.25 = 3.45 kg = Q3
La dinamica interquartile vale DIQ= Q3-Q1= 0.75 kg.
I baffi si possono estendere fino a 1.5DIQ = 1.125 kg al di là del primo e del terzo quartile, quindi fino a
1.575 kg e 4.575 kg. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite
calcolato: in questo caso sino al dato 1 (baffo inferiore) pari a 1.9 kg, e sino al dato 17 (baffo superiore) pari a
4.3 kg. L’ultimo dato (4.6 kg) è un outlier.
In figura è riportato anche il diagramma a punti (dot-plot).
1
1
1.5
2
2.5
5
5.5
6
1d) Partendo dall’ipotesi che il peso di un neonato segua una distribuzione normale, con valor medio
 = 3 kg e deviazione standard  = 0.5 kg, il decimo percentile si ricava dalla tabella dei valori della
funzione cumulativa di una variabile casuale standard. Per il 10%=0.1 di probabilità si legge il valore
standardizzato z  -1.28. Per cui il decimo percentile x vale:
x  z      1.28  0.5  3  2.36 kg
Pag.2/7
Esercizio 2 (tempo stimato 25 m)
(svolgere su questo foglio e sul retro)
2a) Si descrivano le proprietà della distribuzione di probabilità Poissoniana, indicando inoltre quale casistica
di eventi tipicamente è descritta da questo tipo di distribuzione.
2b) Sapendo che il flusso di dati in una connessione IP segue una statistica poissoniana con valor medio di
8 kbyte al secondo, quanto vale la probabilità che in 0.1 ms arrivino almeno 2 byte?
2c) Se il numero di utenti connessi a un server segue una statistica normale con valor medio 17 000 e
deviazione standard 2 500, quanto vale la probabilità che ci siano più di 20 000 utenti connessi?
2d) Un PC non riesce ad avviarsi una volta su 4, a causa di un settore della memoria RAM danneggiato. Per
quante volte almeno occorre provare ad accenderlo per avere una probabilità superiore al 95% di averlo visto
partire?
2a) La funzione di probabilità di una variabile poissoniana X vale f ( x) 
e  x
,
x!
x  0,1,2...
il suo valor medio vale  =  e la sua varianza vale  2 = .
Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono casualmente
in un dato intervallo di tempo, in maniera indipendente (devono essere scorrelati). È possibile
dimostrare che f(x) si ottiene matematicamente dalla distribuzione binomiale quando il numero di estrazioni n
è molto alto e la probabilità di successo p è molto bassa, utilizzando un valor medio  = np.
2b) La velocità di trasmissione e V=81024 byte/s=8192 byte/s. In un tempo di 0.1 ms il valor medio di byte
ricevuti è  = 8192 byte/s ∙ 10-4 s  0.82 byte.
La probabilità che arrivino almeno 2 byte è uguale a 1 meno la probabilità che non ne sia arrivato nessuno
meno la probabilità che ne sia arrivato uno solo:
e  0 e  1
P(x2)= 1  P( x  0)  P( x  1)  1 

 1  e   e   1  e 0.82  0.82e 0.82  0.1984 =19.84 %
0!
1!
Quindi P(x2)20 %
2c)
Calcoliamo la probabilità tramite standardizzazione:
20000    
20000  17000 

P( x  20000)  P z 
  z 
  P( z  1.2)  11.5%

2500

 

2d) La probabilità che il PC si sia acceso almeno una volta si ricava dalla statistica binomiale: dato che ogni
prova è un processo di Bernoulli (il PC parte o non parte), le prove sono indipendenti e la probabilità di
successo in ogni prova è costante. La probabilità di x accensioni su n tentativi segue la distribuzione
binomiale, con probabilità di successo p =3/4=0.75 :
n
n
P(almeno 1 successo su n prove )  1  P( x  0)  1    p x (1  p) n x
 1   0.750 (0.25) n0  1  0.25 n
 x
0
x 0
Questa probabilità deve essere maggiore del 95%, per cui
P(almeno 1 successo su n prove )  1  0.25 n  0.95
Da cui 0.25n < 0.05, che è verificata già per n=3.
Occorre dunque accendere il PC almeno 3 volte.
Pag.3/7
Esercizio 3 (tempo stimato 20 m)
(svolgere su questo foglio e sul retro)
3) Una ditta produttrice di PC assemblati vuole controllare l’affidabilità di un modello di scheda madre. La
casa produttrice garantisce una probabilità di malfunzionamento inferiore all’1%. Su 300 PC assemblati, 5
ritornano al costruttore perché la scheda madre non funziona correttamente.
3a) Si effettui un test statistico, con livello di significatività pari al 5 %, con lo scopo di verificare se la
probabilità di rottura della scheda madre è superiore a quella dichiarata dalla casa produttrice.
3b) Quanto vale il valore P del test effettuato?
3c) Che cosa si intende per stimatore non polarizzato? Si faccia un esempio.
3a) Effettuiamo il test statistico richiesto (test di proporzioni). Seguiamo gli 8 passi descritti nel libro di
testo.
1. Il parametro di interesse è la probabilità di malfunzionamento p
2. H0: p = 0.01
3. H1: p > 0.01 (il test è a un solo lato, in quanto vogliamo dimostrare che la probabilità di
malfunzionamento è maggiore dell’1 %)
4. livello di significatività richiesto  = 0.05
X  np0
X 

5. La statistica di test è la statistica Z: Z 0 
dove X = 5, n = 300 e p0 = 0.01.

np0 (1  p 0 )
6. Rifiutiamo H0 se Z0 > Z0.05 = 1.645 (vedi tabella)
X  np 0
7. Calcoliamo quindi Z 0 
 1.16
np 0 (1  p 0 )
8. Conclusione: dato che Z0 = 1.645 < Z0.05 = 1.16 non rifiutiamo l’ipotesi nulla con livello di
significatività 0.05: non c’è abbastanza evidenza che l’ipotesi nulla sia falsa.
Dunque non si può sostenere, con significatività del 5 %, che quanto dichiarato dalla casa costruttrice non sia
attendibile
3b)
Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può
ricavare direttamente dalla tabella:
ZP = Z0 = 1.16, per cui il valore P 0.123.
L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di
significatività  maggiore del 12.3 %. In questo caso con  = 5 % non si è potuto rifiutare H0.
3c)
Uno stimatore puntuale A di un parametro  di una generica popolazione è non polarizzato se il suo valore
atteso coincide con : E(A)= .
Un esempio può essere la media campionaria, stimatore non polarizzato del valor medio della popolazione,
infatti E (x )   .
Pag.4/7
Esercizio 4 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
4) Un obice spara un proiettile alla velocità v=55(2) m/s. Il proiettile è costituito da una sfera in piombo
(densità =11.34 kg/dm3 con U()=1080 g/dm3 per k=3). Il diametro, D=32 cm, della sfera è stato misurato
con un metro da sarta che ha risoluzione 1 cm.
4a) Dai dati del problema, si ricavi il risultato della misurazione indiretta dell’energia cinetica E1 del
proiettile.
4b) Immaginando di essere costretti a non trascurare la correlazione tra densità, diametro, e velocità del
proiettile (ipotesi invece assunta al punto a)), si scriva e si commenti l’espressione analitica per l’incertezza
composta uc(E1). Può questa incertezza essere inferiore a quella ottenuta al punto a)? Perché?
4c) Se una seconda misura dell’energia cinetica del proiettile, del tutto indipendente dalla misura del punto
a), ha fornito un risultato E2=(3003) kJ, si discuta la compatibilità tra la seconda e la prima misura.
4a) La massa del proiettile è M=V con V volume della sfera dato da
4 3 4 D3  3
V  R  
 D
3
3 
6
L’energia cinetica ricavata in maniera indiretta è
1

E1= Mv 2  D 3 v 2 =294.28 kJ
2
12
Essendo l’equazione della misura una produttoria generalizzata delle variabili d’ingresso e assumendo
che queste siano incorrelate tra loro, l’incertezza relativa dell’uscita è legata molto semplicemente alle
incertezze relative degli ingressi:
ur2 ( E1 )  ur2 (  )  9ur2 ( D)  4ur2 ( v)
ur()=u()/=U()/(3=(0.36 kg/dm3)/(11.34 kg/dm3)=3.2×10-2
u(D)=D/ 12 = 0.29 cm
ur(D)=u(D)/D=(0.29 cm)/(32 cm) = 9.1×10-3
ur(v)=u(v)/v=(2 m/s)/(55 m/s)  3.6×10-2
ur2 ( E1 ) =1.0×10-3+7.5×10-4+5.2×10-3  7.0×10-3 (i tre contributi sono dello stesso ordine di grandezza)
Da cui u r ( E1 )  8.4 % e pertanto u(E1)=E1ur(E1)  25 kJ con un risultato della misurazione indiretta
E1=294 kJ25 kJ.
4b) Tenendo in conto anche la correlazione tra gli ingressi, ad esempio con coefficienti di correlazione rij tra
ingresso i e ingresso j, l’incertezza composta dell’energia cinetica misurata indirettamente è uc(E1) =
2
2
2
E1 E1
E1 E1
E1 E1
 E1  2
 E1  2
 E1  2
   u (  )   D  u (D)   v  u ( v)  2rD  D u (  )u ( D)  2rv  v u (  )u ( v)  2rDv D v u ( D)u ( v)






Essendo rij[-1, +1], l’incertezza ottenuta in presenza delle correlazioni può anche essere inferiore (in
particolare per coefficienti di correlazione negativi) a quella ottenuta per ingressi correlati, anche se
tutte le derivate parziali sono positive.
4c) Siamo in presenza di due misure indipendenti della stessa grandezza che hanno fornito valori di misura
diversi tra loro. Valutiamo la compatibilità tra le due misure secondo il criterio di compatibilità standard che
prevede di confrontare la distanza tra i due valori con una combinazione delle due incertezze standard, secondo la
relazione: E1  E2  kcomp u 2 (E1 )  u 2 (E2 )  kcomp u(E1 ) , essendo u2(E1)>>u2(E2). Sostituendo i valori del caso, si
ottiene (6 kJ) ≤ kcomp(25.2 kJ) che è verificata già con kcomp=1 e dunque a maggior ragione per kcomp=2 e kcomp=3.
Le due misure sono tra loro compatibili, con qualsiasi fattore di copertura (kcomp=1, 2 ,3).
Pag.5/7
Esercizio 5 (tempo stimato 30 m)
(svolgere su questo foglio e sul retro)
5) Una software house ha avuto i seguenti fatturati nell’ultimo triennio:
1° sem. 2004
420 k€
2° sem. 2004 650 k€
1° sem. 2005
350 k€
2° sem. 2005 740 k€
1° sem. 2006
490 k€
2° sem. 2006 810 k€
5a) Si rappresenti il diagramma cartesiano della serie temporale con i fatturati F in funzione del tempo t.
Quali indicazioni si possono dedurre dall’andamento nel tempo?
5b) Quanto valgono la media F e la deviazione standard campionaria s(F) per il fatturato?
5c) Da un modello di regressione lineare ai minimi quadrati, su tutti i punti del grafico, si deduca se dai dati
raccolti emerge un trend positivo o negativo del fatturato nel tempo. In particolare quanto vale
l’aumento/riduzione del fatturato su base mensile?
5d) Si aggiunga al grafico precedente la retta di regressione ai minimi quadrati.
5e) Nel corso di una giornata la potenza elettrica consumata dalla software house, rapportata al numero di
dipendenti, è stata osservata su quattro intervalli di tempo:
P1(notte)=20 µW;
P2(mattina)=50 W;
P3(mezzogiorno)=400 mW;
P4(pomeriggio)=8 W.
Si convertano tali valori di potenza in dBm. Si valuti il rapporto in dB e in unità lineari tra il consumo
pomeridiano e quello mattutino.
Nota: Si ricorda che il coefficiente angolare ed il termine noto della retta di regressione lineare valgono
m
n xi yi   xi  y i
b
n x   xi 
2
2
i
 x  y   x  x y   y  m x
n
n x   x 
2
i
i
2
i
i
i
i
i
i
2
i
5a) Il diagramma cartesiano della serie temporale è:
1000
y o F (k€)
800
600
400
200
0
0
0.5
1
1.5
2
2.5
3
x o t (anni)
Dai punti sperimentali riportati in forma grafica, si osserva un ciclico aumento/decremento del fatturato nel
corso di ciascun anno (il fatturato è più alto al 1° semestre e più basso al 2° semestre). Dal grafico dei 6 punti
osservati si può già evidenziare una tendenza alla crescita nel tempo del fatturato (trend positivo) ma non è
immediato stimare visivamente la pendenza di questa crescita.
1 6
5b) La media campionaria è F   Fi  576.7 k€
6 i 1
La deviazione standard campionaria è s( F ) 

1 6
1 6 2
2


F

F

Fi  nF 2   184.4 k€


i

6  1 i 1
5  i 1

5c) Valutando il coefficiente angolare e il termine noto della retta di regressione ai minimi quadrati, si
ottiene:
m=106.3 k€/anno=8.86 k€/mese e b=390.7 k€ (non chiesto).
Pag.6/7
Emerge dunque un trend positivo (m>0) del fatturato nel tempo e in particolare si osserva una aumento
medio mensile del fatturato pari a 9 k€/mese.
5d) Con l’aggiunta della retta di regressione, il grafico diventa:
1000
y o F (k€)
800
600
400
200
0
0
0.5
1
1.5
2
2.5
3
x o t (anni)
5e) Ricordando che P(dBm)=10log10(P/1mW), si ottiene:
P1=20 µW=2×10-2 mW=-17 dBm
P2=50 W=5×104 mW=+47 dBm
2
P3=400 mW=4×10 mW=+26 dBm
P4=8 W=8×103 mW=+39 dBm
Il
rapporto
tra
il
consumo
pomeridiano
e
quello
mattutino
R=(P4/P2)(dB)=+39 dBm-47 dBm=-8 dB=1.6×10-1 o anche R=(P4/P2)=(8 W)/(50 W)=1.6×10-1=-8 dB.
Pag.7/7
è
Scarica