Tema - Andreadd.it

annuncio pubblicitario
24.07.2014 - appello ENE - docente: E. Piazza
obbligatorio - n. iscrizione sulla lista
se non ve lo ricordate siete fritti; o no?
il presente elaborato si compone di x (ics) pagine
Cognome
Nome
matr.n.
Avvertimento: nello svolgimento degli esercizi se una quantità è indicata con il simbolo x continuare a chiamarla x, e se si chiama W non chiamarla X, e se si chiama ti non chiamarla xi , e se si
chiama T̄n non indicarla con X̄n . Se volete scrivere dipendenti non scrivete indipendenti, se dovete
sottrarre non sommate. Si fanno troppi errori di distrazione. Mi raccomando: concentrazione.
–––––––––––––––––––––––––––––––––––––––
Si consiglia di lavorare con 3 decimali, arrotondando opportunamente.
Problema 1. Leonard Leakey Hofstadter considera l’isocronismo del pendolo semplice per oscillazioni di
piccola ampiezza descritto da Galileo: a prescindere dalla loro ampiezza, le oscillazioni di piccola ampiezza si
svolgono tutte nello stesso tempo T (detto periodo), dipendente solo dalla lunghezza del pendolo.
Tuttavia, quando uno studente del Caltech deve verificare sperimentalmente tale legge con il pendolo
dell’Istituto, a ogni misura ottiene un risultato T affetto da errore. Leonard suppone T ∼ N(t, σ2 ).
1.i Sapendo che il 5% delle misure dà valori inferiori o uguali a 1.515 e che l’8% delle misure dà valori
maggiori o uguali a 1.542, quanto valgono la media t e la varianza σ 2 di T .
4
P [T ≤ 1.515] = 0.05;
P[
1.515 − t
T −t
≤
] = 0.05;
σ
σ
P[
P [T ≥ 1.542] = 0.08
T −t
1.542 − t
T −t
1.542 − t
≥
] = 0.08 =⇒ P [
≤
] = 0.92
σ
σ
σ
σ
Detta Φ la funzione di ripartizione della N(0; 1) abbiamo il sistema:
 1.515 − t

= Φ−1 (0.05) = −Φ−1 (0.95) = −1.6449


σ


 1.542 − t = Φ−1 (0.92) = 1.4051
σ
=⇒
2
t = 1.5296,
σ = 0.00885
1.ii Calcolare la probabilità che una singola misura dia un risultato T > t.
P (T > t) = 0.5.
5
1.iii Calcolare la probabilità che su 120 misure almeno 72 diano un risultato Tk > t.
Costruiamo 120 nuove variabili aleatorie Wi di Bernoulli così definite:
Wi =
1
0
se Ti > t
se Ti ≤ t
=⇒ P [Wi = 1] = 0.5;
P [Wi = 0] = 0.5
120
Y =
i=1
Wi ∼ B(120; 0.5)
Le condizioni per l’approssimazione gaussiana via Teorema Centrale sono soddisfatte. Dunque:
120
Y =
i=1
P (Y ≥ 72) = P (Y > 71.5) = P
Wi ≈ N (120 · 0.5; 120 · 0.52 ) = N (60; 30)
Y − 60
71.5 − 60
√
> √
30
30
≃ 1 − Φ(2.10) = 0.018.
1
Problema 2. L’ingegnere aerospaziale Howard Wolowitz, del California Institute of Technology, è chiamato, dopo il suo soggiorno sulla Stazione Spaziale Internazionale, a svolgere alcune analisi sul numero X di
orbite giornaliere compiute dalla stazione stessa. In particolare si vuole confrontare X col numero Y di orbite
giornaliere compiute da una nuova stazione spaziale, da poco operante nell’orbita terrestre, per capire se questa
compia in media lo stesso numero di orbite giornaliere.
Per la Stazione Spaziale Internazionale si intende quindi osservare un campione X1 , . . . , XnX di orbite giornaliere
per nX giorni consecutivi. Analogamente, per la nuova stazione spaziale si intende osservare un campione
Y1 , . . . , YnY di orbite giornaliere per nY giorni consecutivi.
Si supponga che X e Y siano variabili aleatorie normali a media incognita e varianza nota, pari a 2 per la
Stazione Spaziale Internazionale e a 1.8 per la nuova stazione spaziale. Si supponga anche che i suddetti
campioni risultino casuali e indipendenti fra di loro.
Per ciascuna stazione si chiede di...
2.i Introdurre uno stimatore corretto del numero medio di orbite giornaliere e calcolarne l’errore quadratico
medio.
2
µX = X nX
µY = Y nY
3
MSE(X nX ) = σ2X /nX = 2/nX
⇒
MSE(Y nY ) = σ 2Y /nY = 1.8/nY .
⇒
2.ii Determinare il numero di giorni minimo durante i quali devono essere raccolti i dati affinché i due
stimatori abbiano un errore quadratico medio non superiore a 0.1.
MSE(X nX ) = σ 2X /nX = 2/nX ≤ 0.1 → nX ≥ 20
M SE(Y nY ) = σ2Y /nY = 1.8/nY ≤ 0.1 → nY ≥ 18.
A questo punto vengono messi a disposizione di Wolowitz i dati relativi al numero di orbite giornaliere compiute
dalle due stazioni spaziali durante il mese di aprile 2014, ottenendo una media campionaria pari a 15.7 per la
Stazione Spaziale Internazionale e una media campionaria pari a 16 per la nuova stazione spaziale.
2
2.iii Costruire un intervallo di confidenza bilatero, al 95%, per la differenza tra le due medie.
Siano ora nX = nY = 30 e γ = 0.95. Ricaviamo
ICγ (µX − µY ) = x − y ± z 1−γ
2
ICγ (µX − µY ) = x − y ± Φ−1 (
2
2
σ2X
σ2
+ Y = −0.3 ± 0.7 = (−1; 0.4).
nX
nY
1+γ
)
2
σ2X
σ2
+ Y = −0.3 ± 0.7 = (−1; 0.4).
nX
nY
2.iv Si consideri un test di significatività all’1% per testare l’ipotesi che le due medie siano diverse. Indicare,
senza ulteriori calcoli e con opportune giustificazioni, la risposta del test. Si tratta di una conclusione forte o
debole?
Dato che lo zero è contenuto nell’intervallo di confidenza al 95%, significa che con un test al 5% non potremmo
rifiutare l’ipotesi nulla di uguaglianza fra le due medie. A maggior ragione non possiamo rifiutare neanche a un
livello di significatività dell’1%. Si tratta di una conclusione debole.
2.v Calcolare il p-value dei dati relativo al test precedente.
x−y
z0 =
= −0.84, quindi p-value = 2 P (Z > |z0 |) = 0.4.
2
2
σ
X
nX
σ
+ nY
Y
2
Problema 3. L’astrofisico Raj Koothrappali ha raccolto per mesi dati relativi ad alcune stelle della Via
Lattea. Il motivo del suo meticoloso studio è valutare cosa caratterizza la luminosità di una stella nella nostra
galassia. Il dataset che è riuscito a comporre consta alla fine di 43 osservazioni in cui vengono registrate per
ogni stella la luminosità, la temperatura e la costante di riflettività.
L’astrofisico elabora un primo modello in cui cerca di spiegare la luminosità utilizzando entrambe le covariate
a disposizione e la loro interazione, cioè utilizza il seguente modello
ε ∼ N (0, σ2 ).
Y = b0 + b1 x1 + b2 x2 + b3 x1 x2 + ε,
dove Y è la luminosità, x1 la temperatura e x2 la costante di riflettività.
Facoltativo: considerazioni sulla teoria.
Supponiamo di avere il seguente modello
Y = b0 + b1 x1 + · · · + bk xk + ε,
ε ∼ N (0, σ2 ).
Si vuole confrontare il modello completo (quello che utilizza tutti i bi ) con un modello dove qualche bi è uguale
a 0 per capire se tutti i predittori servono o se ci si può accontentare di un numero minore eliminandone r.
Siccome è il numero dei predittori a essere messo in disussione, b0 non entra nelle congetture. Senza perdere di
generalità i bi nulli possono essere considerati gli ultimi r. Si esegue quindi un test di questo genere
H0 : bk−r+1 = bk−r+2 = . . . = bk = 0 vs H0 : almeno uno di questi bi = 0.
Per questo test si utilizza la statistica test:
F0 =
(SSE0 − SSE )/r
∼ Fr,n−(k+1)
SSE /(n − (k + 1))
(1)
dove r è il numero dei predittori azzerati, n è il numero dei valori attribuiti a ciascun predittore, k è il numero
totale dei preditori, SSE è la somma totale degli errori del modello completo, SSE0 è la somma degli errori del
modello ridotto. Se si suppone che il modello ridotto abbia tutti i bi = 0 tranne b0 allora SSE0 = SY Y .
3.i Si rifiuta H0 se il rapporto (1) è grande. Perché secondo voi?
Suggerimento: SY Y = SSE + SSR nel modello completo, SY Y = SSE0 + SSR0 nel modello ridotto. Poiché la
variabilità spiegata dai due modelli è, rispettivamente, SSR e SSR0 , se SSR − SSR0 è grande spiega meglio il
primo e H0 è da rifiutare.
Da SY Y = SSE + SSR = SSE0 + SSR0 si ricava:
L
O
D
E
SSE0 − SSE = SSR − SSR0
Quindi, se SSE0 − SSE è grande anche SSR − SSR0 è grande. Il che significa che la variabilità spiegata dalla
regressione nel modello completo SSR è più grande di quella spiegata dalla regressione nel modello ridotto SSR0 .
Quindi è chiaro che H0 (cioè modello ridotto) va rifiutata.
Fine della parte facoltativa.
2
3.ii Alla luce di quanto detto al punto 3.i, se il rapporto (1) è grande, la statistica test osservata dovrà dare
luogo a un p − value grande o piccolo?
Ovviamente piccolo.
Raj Koothrappali sottopone i suoi dati a un’analisi con R ponendo
H0 : b1 = b2 = b3 = 0; b0 = 0 vs H1 : almeno uno dei bi : i = 1; 2; 3 diverso da 0
cioè nessuno dei predittori serve.
Esaminando l’output di R, Raj si rende conto subito che non può rinunciare a tutti i bi ; i = 1; 2; 3, perché il
valore della F-statistic è troppo grande e il relativo p − vale troppo piccolo. Ma ha ancora la sensazione che il
modello sia ridondante, e prova quindi ad eliminare la variabile x1 tenendo le altre due. Anche in questo caso
il valore della F-statistic è troppo grande e il relativo p − vale troppo piccolo.
Per entrambi i modelli Raj non ha motivo di dubitare della bontà dell’ipotesi gaussiana. Confortato da questa
convinzione, si ripromette di calcolare la Regione Critica per un nuovo test.
H0 : b2 = b3 = 0
vs
H1 : b2 = 0 oppure b3 = 0
3
2
3.iii Trovare la regione critica per il test avendo fissato un livello si significatività pari a α = 1 − γ = 0.05,
e utilizzando la statistica test F0 del punto (1) con gli opportuni gradi di libertà. Si tenga presente che lo
0.95−quantile della Fisher (con i gradi di libertà che dovete trovare) è 3.2381.
La Regione Critica RC è la seguente:
RC = {F0 > Fγ,3−1,43−4 } = {F0 > 3.2381},
1
2
3
F0 =
(SSE0 − SSE )/(3 − 1)
SSE /(43 − 4)
dove Fγ,2,39 è lo 0.95-quantile di una Fisher a 2 e 39 gradi di libertà.
Il valore della statistica test osservato è risultato 1.3154, con un p-value pari a 0.72 come mostra questo output
di R e con una stima di b1 pari a 2.047.
3.iv Indicare a Raj la corretta interpretazione di questo p-value.
Il p-value alto (>> 5%) indica che non vi è evidenza per ritenere che il modello ridotto sia meno valido di
quello completo, in termini di capacità previsiva.
Convintosi della bontà del suo ragionamento, Raj vuole ora utilizzare il modello ridotto per fare inferenza
sulla luminosità delle stelle in funzione della loro temperatura. Come prima cosa, vuole ricavare una relazione
immediata per capire di quanto ci si può aspettare che incrementi la luminosità di una stella con il crescere
della sua temperatura.
3.v Stimare il tasso di incremento medio nella luminosità di una stella al crescere di un grado di temperatura,
ricavandolo dall’output di R.
Quanto richiesto corrisponde alla stima del coefficiente b1 del modello di regressione scelto, ovvero b1 = 2.047.
Raj vuole essere ulteriormente sicuro in relazione ai conti che ha fatto, pertanto vorrebbe accertarsi, con un
test all’1% di significatività, che tale tasso sia maggiore di 1.
3.vi Impostare un test opportuno che consenta a Raj di verificare la sua congettura, definendo ipotesi nulla,
ipotesi alternativa, regione critica, quindi rispondere all’astrofisico.
H0 : b1 ≤ 1 vs H0 : b1 > 1.
1
b̂1 −1
Statistica test: T0 = se(
= 2.492. Regione critica: RC = {T0 > tn−1 (γ) = tα,n−1 }, dove α = 0.01.
b̂1 )
Si ottiene pertanto T0 > t42 (γ) = tα,42 , quindi Raj può rifiutare l’ipotesi nulla e affermare con la confidenza
richiesta che b1 è maggiore di 1.
3.vii Calcolare l’intervallo di previsione al 95% per la luminosità una stella di temperatura pari a 4, sapendo
che per i dati raccolti la media delle temperture ( x̄) è pari a 4.386 e la somma degli scarti dalla media al
quadrato (Sxx ) è pari a 0.933.
Sfruttando la stima della retta −4.0565 + 2.0467 ∗ 4 e di σ2 = 0.40582 dall’output di R, sapendo che il
1+γ
quantile di ordine (1 − α/2) =
di una t a (43 − 2 = 41) df vale 2.019, e sfruttando le informazioni date,
2
si ottiene
1
0.3862
IP0.95 (y4 ) = −4.0565 + 2.0467 ∗ 4 ± 2.019 ∗ 0.40582 ∗ (1 +
+
) .
43
0.933
4
Scarica