Testi e soluzioni dei compiti di esame di STATISTICA AVANZATA c.l. Economia dello Sviluppo Avanzata 17 gennaio 2013 1 Elenco 1. Compito del 11.06.2009 2. Compito del 25.06.2009 3. Compito del 09.07.2009 4. Compito del 10.09.2009 5. Compito del 17.12.2009 6. Compito del 28.01.2010 7. Compito del 25.02.2010 8. Compito del 21.07.2010 2 1 1.1 Compito del 11.06.2009 Testo Premessa: Si parla dei servizi sociali (asili nido, case ad affitti calmierati, servizi sociali ed assistenza sanitaria per anziani, sconti su tariffe, ecc.) offerti alla cittadinanza da una apposita società creata da alcuni anni dai comuni appartenenti ad un’ampia area metropolitana. Esercizio 1. Nel 2007 è stata intrapresa un’attività di controllo delle autocertificazioni richieste (relative al reddito familiare) al fine di stabilire le rette degli asili nido. I controlli, su base campionaria, hanno indicato che su 361 posizioni controllate, quelle in cui è stata riscontrata una palese evasione sono 62. In base ai dati del campione: (A) Stimare la proporzione di evasori nell’intera popolazione mediante lo stimatore di massima verosimiglianza. Fornire anche lo standard error. (B) Altre esperienze simili hanno dato una percentuale di evasione del 12.5%. Quella che emerge dai dati del campione è significativamente diversa? Rispondere mediante il p-value. Esercizio 2. Relativamente alle posizioni in cui è stata riscontrata evasione, è stata analizzata l’eventuale relazione esistente fra reddito evaso e reddito dichiarato. La tabella che segue riporta alcune statistiche calcolate sul campione a disposizione (redditi espressi in migliaia di euro; abbreviazioni autoesplicative). osservazioni 62 media(Dich) 21.7 media(Evas) 15.42 dev.st(Dich) 5.32 dev.st(Evas) 4.29 correlazione(Dich, Evas) 0.713 Si formuli un opportuno modello che risponda alle esigenze espresse nel testo e si risponda alle seguenti domande. (A) Stimare tutti i parametri del modello mediante il metodo dei minimi quadrati. (B) L’ammontare evaso tende ad aumentare in modo significativo all’aumentare del valore dichiarato? Rispondere impostando il problema come test delle ipotesi (α = 0.05). (C) Indicare quanta parte della variabilità della variabile dipendente è spiegata dal modello considerato. (D) Calcolare il residuo stimato per una osservazione del campione i cui valori dichiarato ed evaso sono risultati, rispettivamente, di 23.39 e 16.26 migliaia di euro. Esercizio 3. Una simulazione effettuata prima di intraprendere i controlli (basata su valutazioni di consulenti) prevedeva che la probabilità di autocertificare un reddito palesemente sottovalutato rispetto a quello reale fosse 0.123 per i lavoratori dipendenti, 0.241 per i professionisti, di 0.412 per gli altri. In uno scenario di questo tipo, con riferimento ad una popolazione composta per il 45.3% da dipendenti e il 14.6% da professionisti: (A) Presa a caso un’autocertificazione, calcolare la probabilità che questa sia non in regola. (B) Presa a caso un’autocertificazione fra quelle non in regola, calcolare la probabilità che sia di un professionista. 1.2 Soluzione Esercizio 1. Assunzioni: X =’Evasore?’∼ Be(p) (X = 1 sta per evasore). (A) Lo stimatore di massima verosimiglianza di p è la media campionaria. Stima puntuale: 0.172; standard error: 0.01985. (B) Test di H0 : p = 0.125 contro H1 : p p 6= 0.125. Per semplicità, da ora in poi si indica 0.125 con p0 . Statistica test sotto H0 : (X − p0 )/ p0 q0 /n con distribuzione approssimata N (0, 1) (n è infatti sufficientemente p elevato). Valore campionario della statistica test sotto H0 : zcamp = 2.6855; p − value = 2P [(X − p0 )/ p0 q0 /n > |zcamp ||H0 ] = 2P [Z > 2.6855|H0 ] = 2 ∗ 0.00362 = 0.00724. p √ Pn Pn Calcoli e valori utili: n = 361, p x(1 − x)/n = 0.00039 = i=1 xi = 62,√x = i=1 xi /n = 0.172, se = 0.01985; p0 = 0.125, q0 = 0.875, p0 q0 /n = 3e − 04 = 0.01741. 3 Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui x = reddito autocertificato, y = reddito evaso. (A) βb1 = 0.575, βb0 = 2.9434, σ b2 = 9.3496. (B) Test di H0 : β1 = 0 contro H1 : β1 > 0. Statistica test sotto H0 : (βb1 − 0)/s(βb1 ) con distribuzione approssimata T (n − 2). Valore campionario della statistica test sotto H0 : tcamp = 7.8767; regione rifiuto per α = 0.05: (1.6706, ∞). (C) R2 = 0.5084. (D) Residuo in corrispondenza dell’osservazione (xi = 23.39, yi = 16.26): u bi = −0.1317. Valori e calcoli utili: n = 62, dev(x) = nV ar(x) = 1754.7488, dev(y) = nV ar(y) = 1141.0542, q codev(x, y) = corr(x, y) dev(x)dev(y) = 1008.9047, βb1 = codev(x, y)/dev(x) = 0.575, βb0 = y − βb1 x = p √ 2.9434, σ b2 = (dev(y) − βb12 dev(x))/(n − 2) = 9.3496, se(βb1 ) = σ b2 /dev(x) = 0.0053 = 0.073, dev(RES) = dev(y) − βb12 dev(x) = 560.9776, dev(REG) = dev(y) − dev(RES) = 580.0766, R2 = dev(REG)/dev(y) = 0.5084; ybi = βb0 + βb1 xi = 16.3917, u bi = yi − ybi = −0.1317. Esercizio 3. Assunzioni: E =’Evasore’, D =’Dipendente’, R =’Professionista’; A =’Altro’; P (E|D) = 0.123, P (E|R) = 0.241, P (E|A) = 0.412, P (D) = 0.453, P (R) = 0.146. (A) P (E) = P (E|D)P (D) + P (E|R)P (R) + P (E|A)P (A) = 0.2561. (B) P (R|E) = P (E|R)P (R)/P (E) = 0.1374. Valori e calcoli utili: P (A) = 1 − P (D) − P (R) = 0.401 4 2 2.1 Compito del 25.06.2009 Testo Premessa: Nell’ambito di un progetto di cooperazione, la catena commerciale CPD fa produrre alcuni prodotti alimentari (fuori stagione per l’Italia) in Burchina Faso. Esercizio 1. Uno degli obiettivi CPD è quello di ridurre al minimo possibile l’uso di pesticidi nella coltivazione dei prodotti. A titolo di esprerimento, relativamente alla produzione di fagiolini è stata fatta una comparazione per verificare l’eventuale perdita di produzione nel caso non si usino pesticidi. La seguente tabella riporta i risultati ottenuti su due distinti campioni casuali (dati espressi in qli/ettaro). Senza pesticidi Con pesticidi 1.8 3.3 2.6 2.7 2.5 3.8 1 2.7 2.7 2.9 Assumendo che la produzione su ciascuna unità del campione si distribuisca in modo normale ed evitando assunzioni sulle varianze: (A) Stimare la differenza fra le produzioni medie delle due diverse metodologie; fornire il corrispondente standard error. (B) Il fatto di non usare pesticidi fa mediamente diminuire la produzione? (α = 0.01) (C) Effettuare il calcolo dello standard error richiesto al punto A nel caso in cui si assuma l’uguaglianza delle due varianze. Confrontare il risultato con quello ottenuto al punto A e spiegare. Esercizio 2. Produzioni di tipo biologico o, comunque, di lotta integrata richiedono il monitoraggio della quantità parassiti che possono attaccare le produzioni. Il monitoraggio è spesso effettuato mediante ’trappole’ per catturare e contare i parassiti presenti al momento. I dati che seguono (rilevati in assenza di ogni intervento) possono aiutare a percepire in che misura la presenza di parassiti danneggia le produzioni (presenza del parassita yellow fly rilevato dalle trappole espressa in unità standardizzate; produzione in qli/ettaro). Produzione di fagiolini Presenza yellow fly 3.3 2.2 2.7 2.6 3.2 4.7 1.7 7.4 3.2 5.4 Si formuli un opportuno modello e si risponda alle seguenti domande. (A) Stimare tutti i parametri del modello mediante il metodo dei minimi quadrati. (B) Calcolare lo standard error dei coefficienti di regressione. (C) Indicare quanta parte della variabilità della variabile dipendente è spiegata dal modello considerato. Esercizio 3. Nel 2008 sono state coinvolte nella produzione di fagiolini 61 persone. Si assuma che la probabilità di una persona di infortunarsi nell’arco della stagione sia il 2% e che gli eventuali infortuni avvengano in modo indipendente l’uno dall’altro. (A) Calcolare la probabilità che, complessivamente, si infortunino meno di 2 persone. (B) Seppure in modo approssimato, il calcolo precedente può essere effettuato ricorrendo ad un’altra distribuzione (fra quelle a voi note). Effettuare il calcolo spiegandone le ragioni teoriche. 2.2 Soluzione 2 Esercizio 1. Assunzioni: X =’Produzione senza pesticidi’∼ N (µX , σX ); Y =’Produzione con pesticidi’∼ 2 N (µY , σY ); (A) La quantità da p stimare è µY − µX ;√lo stimatore è Y − X; la stima è y − x = 0.96; il corrispondente standard error è s2Y /nY + s2X /nX = 0.1478 = 0.3844. (B) Test di H0 : µY − µX = 0 contro H1 : µY − µX > 0. In assenza di assunzioni sulle varianze possiamo adottare l’approssimazione di Satterthwaite. Statistica test sotto H0 : (Y − X − 0)/se con distribuzione approssimata T (g), dove se indica lo standard error calcolato come sopra e g indica i g.l. calcolati con l’approssimazione di Satterthwaite. Valore campionario della statistica test 2.4971; regione di rifiuto per α = 0.01 (2.998, ∞). 5 p (C) Nel caso in cui le due varianze siano assunte uguali, lo standard error di Y −X è dato da spooled 1/nX + 1/nY = 0.3844. In pratica viene identico a quello calcolato al punto A, cosa che accade ogni volta in cui nX = nY (basta controllare le formule). PnX 2 PnX PnX 2 xi = 10.6, xi − nX x2 = Calcoli e valori utili: nX =P 5, i=1 = i=1 i=1 xi = 24.54, x = 2.12, dev(x) P P n n n Y Y Y 2 2 2 2.068 sX = 0.517, nY = 5, i=1 yi = 15.4, i=1 yi = 48.32, y = 3.08, dev(y) = i=1 yi − nY y 2 = 0.888 2 2 2 s2Y = 0.222, A = p s2X /nX = 0.1034, B = s2Y /nY = 0.0444. g = [A + √ B] /[A /(nX − 1) + B /(nY − 1)] = 2 2 6.9004, spooled = [sX (nX − 1) + sY (nY − 1)]/(nX + nY − 2) = 0.3695 = 0.6079. Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’produzione’, x =’parassiti’. (A) βb1 = −0.2042, βb0 = 3.7306, σ b2 = 0.3438. (B) se(βb1 ) = 0.1376, se(βb0 ) = 0.6675. (C) R2 = 0.4232. Calcoli e valori xi 2.2 yi 3.3 x2i 4.84 yi2 10.89 xi yi 7.26 utili: 2.6 2.7 6.76 7.29 7.02 4.7 3.2 22.09 10.24 15.04 7.4 1.7 54.76 2.89 12.58 5.4 3.2 29.16 10.24 17.28 22.3 14.1 117.61 41.55 59.18 Pn Pn da cui: n = 5, x = 4.46, y = 2.82, dev(x) = i=1 x2i − nx2 = 18.152, dev(y) = i=1 yi2 − ny 2 = 1.788, 2 Pn c1 dev(x) = 1.0314, σ b2 = dev(RES)/(n− codev(x, y) = i=1 xi yi −nxy = −3.706, dev(RES) = dev(y)− β p p √ √ 2 2 2 c1 ) = σ 2) = 0.3438, se(β b /dev(x) = 0.0189 = 0.1376, se(βb0 ) = σ b (1/n + x /dev(x)) = 0.4455 = 0.6675, dev(REG) = dev(y) − dev(RES) = 0.7566, R2 = dev(REG)/dev(y) = 0.4232. Esercizio 3. Assunzioni: X =’totale infortunati nella stagione’ ∼ Bi(n = 61, p = 0.02). (A) P (X < 2) = P (X ≤ 1) = 0.2916 + 0.363 = 0.6546. (B) Essendo p abbastanza vicino a 0, possiamo ricorrere all’approssimazione Bi(n, p) ≈ P o(λ = np = 1.22). P (X < 2) = P (X ≤ 1) = 0.2952 + 0.3602 = 0.6554. 6 3 3.1 Compito del 09.07.2009 Testo Premessa: Si parla di microcredito in Blangladesh e della celebre Grameen Bank. Esercizio 1. La seguente tabella mostra una serie di dati della Bank riferiti al recente periodo di attività. Si vuole analizzare il legame dell’ammontare dei prestiti concessi in funzione del numero di debitori. Anno Prestiti concessi (milioni USD) Numero debitori (milioni) 2004 330 3.9 2005 410 5.3 2006 470 5.8 2007 540 6.2 2008 640 6.1 Formulare un opportuno modello che risponda alle esigenze espresse e rispondere alle seguenti domande: (A) Stimare tutti i parametri del modello. (B) Calcolare devianza di regressione, devianza residua ed indice R2 . (C) In base al modello, stimare il valore dei debiti concessi qualora i debitori salissero del 10% rispetto al 2008. Esercizio 2. La probabilità che una donna restituisca interamente il prestito concesso è del 98.8%; per un uomo tale probabilità è del 90%. Sapendo che i debitori uomini sono il 9.5%: (A) Calcolare la probabilità che un prestito, estratto casualmente, non venga restituito per intero. (B) Calcolare le probabilità a posteriori condizionatamente al fatto che un prestito non venga interamente restituito. (C) Calcolare la probabilità che su 94 prestiti, estratti casualmente con reimmissione, quelli non restituiti interamente siano più di 2. Esercizio 3. La tabella seguente (riferita ad un caso di studio e non a tutta la popolazione) analizza le perdite subita dalla Bank sui debitori che non restituiscono il prestito per intero. Le statistiche riguardano l’ammontare percentuale delle rate non rimborsate sul totale (stante la povertà dei debitori, la variabile in analisi coincide praticamente con la LGD). Debitori Uomini Donne osservazioni 267 378 Statistiche √ media Varianza corretta 47.4 17.5 44.9 16.9 Assumendo che la percentuale non restituita segua una distribuzione Normale (assunzione non completamente giustificata): (A) Stimare la differenza media della percentuale non restituita fra uomini e donne; fornire il corrispondente standard error. (B) Le donne tendono ad avere una perdita percentuale media inferiore agli uomini? Rispondere mediante il p-value. 3.2 Soluzione Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Prestiti concessi’, x =’Numero di debitori’. (A) βb1 = 110, βb0 = −122.7, σ b2 = 4641.7. (B) dev(Res) = 13925.2, dev(Reg) = 42754.8, R2 = 0.7543. (C) x0 = (1 + 10%) ∗ x2008 = 6.71, da cui yb(x0 ) = 615.5. d Calcoli e valori utili: 7 xi yi x2i yi2 xi yi 3.9 330 15.21 108900 1287 5.3 410 28.09 168100 2173 5.8 470 33.64 220900 2726 6.2 540 38.44 291600 3348 6.1 27.3 640 2390 37.21 152.59 409600 1199100 3904 13438 Pn Pn da cui: n = 5, x = 5.46, y = 478, dev(x) = i=1 x2i − nx2 = 3.532, dev(y) = i=1 yi2 − ny 2 = 56680, 2 Pn c1 dev(x) = 13925.2, σ codev(x, y) = i=1 xi yi −nxy = 388.6, dev(RES) = dev(y)− β b2 = dev(RES)/(n− 2) = 4641.7, dev(REG) = dev(y) − dev(RES) = 42754.8, R2 = dev(REG)/dev(y) = 0.7543, yb(x0 ) = βb0 + βb1 x0 = 615.5. Esercizio 2. Assunzioni: F =’Donna’, M =’Uomo’, R =’Restituisce il prestito’. P (R|F ) = 0.988, P (R|M ) = 0.9, P (M ) = 0.095, P (F ) = 1 − P (M ) = 0.905. (A) P (R) = 1 − P (R) = 0.0204, dove P (R) = P (R|F )P (F ) + P (R|M )P (M ) = 0.9796. (B) P (F |R) = P (R|F )P (F )/P (R) = 0.5334, P (M |R) = 1 − P (F |R) = 0.4666. (C) X =’numero prestiti non interamente restituiti’Bi(n = 94, p = 0.0204). P (X > 2) = 1 − P (X ≤ 2) = 1 − (0.1446 + 0.2825 + 0.2731) = 0.2998. 2 ), Y =’Percentuale non Esercizio 3. Assunzioni: X =’Percentuale non restituita da uomo’∼ N (µX , σX 2 restituita da donna’∼ N (µY , σY ), (A) Y . Stimatore X − Y , stima x − y = 2.5; corrispondente standard error se = p Stima di µX − µ√ s2X /nX + s2Y /nY = 1.9026 = 1.3793. (B)pTest di H0 : µX − µY = 0 contro H0 : µX − µY > 0. Statistica test (sotto H0 ) (X − Y − 2 /n + S 2 /n la cui distribuzione è, approssimativamente, N (0, 1) in base alle elevate dimensioni 0)/ SX X Y Y campionarie nX p e nY . Valore campionario della statistica test (sotto H0 ): zcamp = 1.8125; p − value = 2 /n + S 2 /n > z P ((X − Y − 0)/ SX Y camp |H0 ) = P (Z > zcamp |H0 ) = 0.03496 X Y Calcoli e valori utili: nX = 267, nY = 378, x = 47.4, y = 44.9, sX = 17.5, sY = 16.9, s2X = 306.25, s2Y = 285.61. 8 4 4.1 Compito del 10.09.2009 Testo Premessa: Una ricerca ha cercato di fare il punto sullo stato del commercio equo e solidale (di seguito abbreviato in CES) in Italia. Esercizio 1. Sono state prese in esame le vendite di prodotti alimentari CES effettuate nei supermercati. La tabella seguente riporta i dati degli ultimi 5 anni (gli unici ragionevolmente affidabili e confrontabili fra loro). Anno Vendite (milioni euro) 2003 42 2004 51 2005 59 2006 78 2007 86 Sia assuma che le vendite nei supermercati abbiano seguito, nel periodo considerato, un trend approssimativamente lineare nel tempo. (A) Stimare tutti i parametri del modello con i minimi quadrati. (B) Come si interpreta il la stima ottenuta di β1 ? Determinare anche lo standard error dello stimatore utilizzato per stimare tale parametro. (C) Utilizzare il modello utilizzato per stimare quanto saranno le vendite di prodotti alimentari CES nel 2008 e 2009. Esercizio 2. Un’analisi effettuata su un campione di clienti di supermercati ha cercato di valutare la loro propensione all’acquisto di prodotti CES. Fra i 534 maschi intervistati, quelli che ne acquistano abitualmente sono il 12.36%, mentre fra le 824 femmine intervistate, la percentuale di cui sopra è del 16.383%. (A) Fornire una stima della probabilità che un cliente acquisti abitualmente prodotti CES; fornire il corrispondente standard error (la composizione per sesso del campione rispecchia quella della popolazione). (B) I due sessi tendono a comportarsi in modo significativamente diverso riguardo la loro propensione all’acquisto? Rispondere mediante il p-value. Esercizio 3. Limitatamente a coloro che ne acquistano almeno una volta al mese, si sa che, mensilmente, i diplomati spendono in prodotti CES una media di 24 euro con una deviazione standard di 8.3 euro; i non diplomati ne acquistano in media 14 euro con una deviazione standard di 4.8 euro. Assumendo che la spesa mensile abbia distribuzione Normale e che i diplomati siano il 44.6%: (A) Calcolare la probabilità che un acquirente estratto a caso spenda più di 20 euro in un mese. (B) Un acquirente ha speso meno di 20 euro. Calcolare la probabilità che sia un diplomato. (C) Su 129 acquirenti estratti casualmente, il numero di coloro che spendono più di 20 euro in un mese è una variabile casuale. Calcolarne media e deviazione standard. 4.2 Soluzione Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Vendite’, x =’Anno’. (A) βb1 = 11.5, βb0 = −22994.3, σ b2 = 10.7667. (B) La stima di β1 di cui al punto (A) indica che, in media, ogni anno che passa le vendite tendono ad aumentare di 11.5 milioni di euro. Lo standard error richiesto è σ b(βb1 ) = 1.0376. (C) yb(2008) = βb0 + βb1 2008 = 97.7; yb(2009) = βb0 + βb1 2009 = 109.2. Calcoli e valori utili: xi 2003 2004 yi 42 51 x2i 4012009 4016016 yi2 1764 2601 xi yi 84126 102204 2005 59 4020025 3481 118295 2006 78 4024036 6084 156468 2007 86 4028049 7396 172602 9 10025 316 20100135 21326 633695 Pn Pn da cui: n = 5, x = 2005, y = 63.2, dev(x) = i=1 x2i − nx2 = 10, dev(y) = i=1 yi2 − ny 2 = 1354.8, 2 Pn c1 dev(x) = 32, σ codev(x, y) = i=1 xi yi − nxy = 115, dev(RES) = dev(y) − β b2 = dev(RES)/(n − 2) = p √ 2 b /dev(x) = 1.0767 = 1.0376. 10.7667, σ b(βb1 ) = σ Esercizio 2. (A) Be(p). Stimatore di p: pb = p CES’∼ √ Pn Assunzioni: X =’cliente acquista abitualmente prodotti x /n; stima p b = 201/1358 = 0.148; standard error: se = p b q b /n = 9.286e − 05 = 0.00964. i=1 i (B) Assunzioni: X1 =’cliente maschio acquista abitualmente prodotti CES’∼ Be(p1 ); X2 =’cliente maschio acquista abitualmente prodotti CES’∼ Be(p2 ), campioni indipendenti. Test di H0 : p1 − p2 = 0 p contro H0 : p1 −p2 6= 0. La statistica test, sotto H0 , è (b p1 − pb2 −0)/ pbqb(1/n1 + 1/n2 ) la cui distribuzione è, approssimativamente, N (0, 1); pil valore campionario della statistica test è, sotto H0 , zcamp = −2.0392; p − value = 2P ((b p1 − pb2 − 0)/ pbqb(1/n1 + 1/n2 ) > |zcamp ||H0 ) = 2P (Z > 2.0392|H0 ) = 2 ∗ 0.02071 = 0.04143. Calcoli e valori utili: n1 = 534, n2 = 824, pb1 = 0.1236, pb2 = 0.16383, x1 =’numero acquirenti abituali maschi’= acquirenti abituali femmine’= n2 pb2 = 135, pb = (66+135)/(534+824) = p n1 pb1 = 66, x2 =’numero √ 0.148, pbqb(1/n1 + 1/n2 ) = 0.00038919 = 0.01973. Esercizio 3. Assunzioni: X =’spesa mensile in prodotti CES’, D =’diplomato’, X|D ∼ N (µ1 = 24, σ1 = 8.3), X|D ∼ N (µ2 = 14, σ2 = 4.8), P (D) = 0.446, P (D) = 0.554. (A) P (X > c) = P (X > c|D)P (D) + P (X > c|D)P (D) = 0.36407 dove c = 20. (B) P (D|X < c) = P (X < c|D)P (D)/P (X < c) = 0.22087. (C) Y =’numero clienti su √ 129 che spendono più di 20 euro’∼ Bi(n = 129, p = 0.36407). E(Y ) = np = √ 46.96526, σ(Y ) = npq = 29.86653 = 5.46503. Calcoli e valori utili: P (X > c|D) = P ((X − µ1 )/σ1 > (c − µ1 )/σ1 ) = P (Z > −0.48193) = 0.68507, P (X > c|D) = P ((X − µ2 )/σ2 > (c − µ2 )/σ2 ) = P (Z > 1.25) = 0.10565. 10 5 5.1 Compito del 17.12.2009 Testo Premessa: Progetto Formazione–Sicurezza della provincia di Udine, in collaborazione con INAIL e Ispettorato del lavoro, finalizzato alla riduzione degli infortuni sul lavoro. Esercizio 1. Prima di mettere in pratica il progetto è stata fatta una rilevazione puramente conoscitiva. Si ritiene infatti che la preparazione in termini di sicurezza sia spesso adeguata ma che talvolta il personale non ne rispetti le norme per pigrizia o per rendere più semplice e spedito il lavoro. La seguente tabella riporta i principali risultati della rilevazione. La domanda, con una diversa formulazione, è stata fatta sia agli operai che ai loro supervisori (con diversa qualifica) con riferimento all’ultimo anno. No Sı̀ Operai : Le è capitato di non mettere in pratica tutti gli accorgimenti che lei conosce riguardo alla sua sicurezza? 284 303 Supervisori : Ritiene significativo, fra i suoi operai, il ricorso a pratiche ”scorciatoie” riguardo alla sicurezza personale? 355 428 (A) La proporzione di quanti ritengono che vengano adottati comportamenti non sicuri è significativamente diversa nei due gruppi? (α = 0.02) (B) Calcolare la potenza del test costruito al punto A nel caso in cui l’alternativa sia ’le probabilità dei due gruppi differiscono di 0.06’. Esercizio 2. Nell’ambito del progetto in questione è stato selezionato un piccolo campione di imprese ad alto rischio di infortuni. Per un certo periodo, al personale delle stesse sono state somministrate ore di formazione attinenti la sicurezza. L’analisi dei dati raccolti (principali statistiche in tabella, unità di misura rimosse) può consentire di valutare se e in che misura tale attività risulta efficace per la riduzione del rischio di infortunio. Indicatore formazione Indicatore infortuni 57 7.4 62 5.2 60 3.3 45 6 35 5.1 45 7.5 Formulare un opportuno modello di regressione e: (A) Stimarne tutti i parametri. (B) Fornire lo standard error degli stimatori dei coefficienti di regressione. (C) L’attività di formazione risulta efficace allo scopo formulato sopra? Rispondere impostando il problema in termini di test delle ipotesi (α = 0.025). (D) Scomporre la varianza della variabile dipendente nelle sue componenti fornendo un’interpretazione dei valori ottenuti. Esercizio 3. Si considerino due linee di montaggio che lavorano in modo indipendente. Ogni giorno, in media, ci sono 1.3 ricorsi all’infermeria per quanto riguarda la linea 1 e 1.8 per quanto concerne la linea 2. Si assuma che la distribuzione del numero di ricorsi in infermeria segua una distribuzione di Poisson. (A) Calcolare la probabilità che, in un giorno, ci siano complessivamente più di 2 ricorsi all’infermeria. (B) Calcolare la probabilità che, in un giorno, ci siano 2 ricorsi all’infermeria e tutti provenienti dalla stessa linea. 5.2 Soluzione Esercizio 1. Assunzioni: X =’Operaio non mette in pratica. . . ’∼ Be(pX ); Y =’Supervisore ritiene significativo il . . . ’∼ Be(pY ). Campioni indipendenti. 11 (A) Test di H0 : pX − pY = 0 contro H1 : pX − pY 6= 0; statistica test (sotto H0 ): (b pX − pbY − 0)/se la cui distribuzione è, approssimativamente, N (0, 1) in base alle dimensioni campionarie sufficientemente elevate p e se = pbX qbX /nX + pbY qbY /nY ; regione di accettazione per α = 0.02: [−z = −2.3263, z = 2.3263]; valore campionario della statistica test sotto H0 : −1.11721. (B) γ = P (campione ∈ R|H1 ) = 1 − P (campione ∈ A|H1 ) = 1 − P [−z ≤ (b pX − pbY − 0)/se ≤ z|H1 ] = 1−P [−z ×se ≤ pbX − pbY ≤ z ×se|H1 ] = 1−P [(−z ×se−d)/se ≤ (b pX − pbY −d)/se ≤ (z ×se−d)/se|H1 ] = 1 − P [−z − d/se ≤ Z ≤ z − d/se|H1 ] = 1 − P [−4.5291 ≤ Z ≤ 0.1236|H1 ] = 1 − 0.54919 = 0.45081, dove d = 0.06. Calcoli e valori utili: nX =√587, nY = 783, pbX = 303/587 = 0.5162, pbY = 428/783 = 0.5466, se = p pbX qbX /nX + pbY qbY /nY = 0.000742 = 0.02724. Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Indicatore infortuni’, x =’Indicatore formazione’. (A) βb1 = −0.035, βb0 = 7.5245, σ b2 = 2.970383. p p b 1/n + x2 /dev(x) = 3.7394. (B) se(βb1 ) = σ b/ dev(x) = 0.0725, se(βb0 ) = σ (C) Test di H0 : β1p = 0 contro H1 : β1 < 0; statistica test (sotto H0 ): (βb1 − 0)/se la cui distribuzione è T (n − 2) e se = σ b/ dev(x); regione di rifiuto per α = 0.025: (−∞, −2.77645); valore campionario della statistica test sotto H0 : −0.48318. (D) dev(y) = 12.58, dev(REG) = 0.693, dev(RES) = 11.882, da cui R2 = 0.0551, ovvero il modello spiega il 5.51% della variabilità della variabile dipendente. Calcoli xi yi x2i yi2 xi yi e valori 57 7.4 3249 54.76 421.8 utili: 62 5.2 3844 27.04 322.4 60 3.3 3600 10.89 198 45 6 2025 36 270 35 5.1 1225 26.01 178.5 45 304 7.5 34.5 2025 15968 56.25 210.95 337.5 1728.2 Pn Pn da cui: n = 6, x = 50.67, y = 5.75, dev(x) = i=1 x2i − nx2 = 565.33, dev(y) = i=1 yi2 − ny 2 = 12.58, Pn codev(x, y) = i=1 xi yi − nxy = −19.8, dev(RES) = dev(y) − βb12 dev(x) = 11.882, σ b2 = dev(RES)/(n − 2) = 2.970383, σ b = 1.72348, dev(REG) = dev(y) − dev(RES) = 0.693. Esercizio 3. Assunzioni: X1 = numero ricorsi infermeria al giorno linea 1 ∼ P o(λ1 = 1.3), X2 = numero ricorsi infermeria al giorno linea 2 ∼ P o(λ2 = 1.8), X1 , X2 indipendenti. (A) X = X1 + X2 ∼ P o(λ1 + λ2 = 3.1) per l’additività della Poisson. Quindi P (X > 2) = 1 − P (X ≤ 2) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] = 1 − [0.04505 + 0.13965 + 0.21646] = 1 − 0.40116 = 0.59884. (B) P [(X1 = 2, X2 = 0) ∪ (X1 = 0, X2 = 2)] = P (X1 = 2, X2 = 0) + P (X1 = 0, X2 = 2) = P (X1 = 2)P (X2 = 0) + P (X1 = 0)P (X2 = 2) = 0.23029 × 0.1653 + 0.27253 × 0.26778 = 0.11105 12 6 Compito del 28.01.2010 6.1 Testo Premessa: L’attenzione è rivolta a possibili differenze di carattere socio-economico fra le regioni italiane. Esercizio 1. La rilevazione ISTAT Condizioni di vita e distribuzione del reddito in Italia fornisce un’idea su come la situazione economica è percepita nelle diverse regioni. La seguente tabella riporta le percentuali di coloro che hanno risposto affermativamente alla domanda “Arriva a fine mese con molta difficoltà?”. Anno 2007 2008 Piem. 15.5 16.5 Lomb. 10.1 12.8 Centro-Nord Veneto Friuli 12.2 11.4 12.6 10.6 Em.-Rom. 13.2 11 Campania 22 28 Puglia 21.3 24.1 Centro-Sud Calabria Sicilia 22.7 26.4 25.2 29.7 Sardegna 16.6 21.9 Assumendo che la percentuale di risposte affermative si distribuisca in modo normale, rispondere alle seguenti domande. (A) In media, la situazione 2008 appare significativamente peggiorata rispetto al 2007? (α = 0.01) (B) Con riferimento al 2008, esiste una differenza significativa fra la percezione media nelle regioni del centro-nord e quelle del centro-sud? (α = 0.02) Esercizio 2. Si sta tentando di misurare se, nelle diverse regioni italiane, la spesa in consumi alimentari è in relazione col reddito oppure no. A questo scopo, sono stati esaminati il PIL e la spesa alimentare (per entrambi in espressi in termini pro-capite e su scala logaritmica) al 2007 nelle 20 regioni italiane ottenendo le statistiche riportate in tabella (c = ln(spesa alimentare pro-capite), r = ln(PIL pro-capite)). 20 c = 7.6655 r = 10.1068 1 X 2 (ci − c) = 0.2227 20 i=1 20 1 X 2 (ri − r) = 0.4454 20 i=1 20 1 X (ci − c) (ri − r) = 0.1084 20 i=1 (A) Formulare un modello statistico che risponda alle esigenze espresse. Stimarne i parametri. (B) I consumi alimentari tendono a diminuire in modo significativo al diminuire del PIL pro-capite? (α = 0.01). (C) Scomporre la devianza della variabile dipendente nelle sue componenti (di regressione e residua) fornendone i valori. Quale indicazione utile fornisce tale scomposizione? (D) Calcolare valori teorici e residui per le regioni Sicilia e Trentino-Alto Adige, le cui coppie (Spesa alimentare pro-capite; PIL pro-capite) sono risultate pari, rispettivamente, a (2260, 17156) e (1937, 32412). Commentare brevemente il risultato. Esercizio 3. Una variabile casuale discreta ha la distribuzione riportata nella seguente tabella x P (X = x) −1 0.17 0 0.06 1 0.15 2 0.18 3 0.07 4 0.14 5 0.08 6 0.15 (A) Si rappresenti graficamente la distribuzione della variabile casuale (X|X > 2). (B) Si calcolino valore atteso e deviazione standard della variabile casuale costruita al punto A. 6.2 Soluzione Esercizio 1. (A) Test sulla differenza fra medie per campioni appaiati; si assume quindi D = X2008 − X2007 ∼ 2 N (µD , σD ), dove X indica la percentuale di coloro che rispondono affermativamente alla domanda. Test √ di H0 : µD = 0 contro H1 : µD > 0; statistica test (sotto H0 ): (D − 0)/(SD / n) la cui distribuzione è T (n − 1); regione di rifiuto per α = 0.01: (2.8214, ∞); valore campionario della statistica test sotto H0 : 2.5959. Calcoli e valori utili: d 1 2.7 0.4 −0.8 −2.2 6 2.8 2.5 3.3 13 5.3 √ n = 10, d = 2.1, s2D = 6.54444, sD = 2.55821, sD / n = 0.80898. (B) Test sulla differenza fra medie per campioni indipendenti; si assume quindi X1 = ‘% in del centro -nord’ ∼ N (µ1 , σ 2 ), X2 = ‘% in regione del centro-sud’ ∼ N (µ2 , σ 2 ) (varianze uguali). Test di H0 : p µ1 − µ2 = 0 contro H0 : µ1 − µ2 6= 0; statistica test (sotto H0 ): (X 1 − X 2 − 0)/(Sp 1/n1 + 1/n2 ) la cui distribuzione è T (n1 +n2 −2); regione di accettazione per α = 0.02: [−2.8965, 2.8965]; valore campionario della statistica test sotto H0 : −7.5349. Calcoli e valori utili: (A) n1 = 5, n2 = 5, x1 = 12.7, x2 = 25.78, s21 = 5.44, s22 = 9.627, s2p = p [s21 (n1 − 1) + s22 (n2 − 1)]/(n1 + n2 − 2) = 7.5335, sp = 2.74472, sp 1/n1 + 1/n2 = 1.73591. Esercizio 2. Modello di regressione lineare yi = β0 +β1 xi +εi , εi ∼ N (0, σ 2 ), in cui y = ln(Spesa alimentare pro-capite), x = ln(PIL pro-capite). (A) βb1 = 0.2434, βb0 = 5.2057, σ b2 = 0.218131. (B) Test di H0 : β1 = 0 contro H0 : β1 > 0; statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ) la cui distribuzione è T (n − 2); regione di rifiuto per α = 0.01: (2.5524, ∞); valore campionario della statistica test sotto H0 : 1.5553. (C) dev(y) = 4.454, dev(REG) = 0.528, dev(RES) = 3.926. Segue che R2 = 0.1185, ovvero il modello spiega il 11.85% della variabilità della variabile indipendente. (D) ybSIC = βb0 + βb1 ln(17156) = 7.5787, u bSIC = ySIC − ybSIC = ln(2260) − 7.5787 = 0.1444, ybT.A.A. = b b β0 + β1 ln(32412) = 7.7335, u bT.A.A. = yT.A.A. − ybT.A.A. = ln(32412) − 7.7335 = −0.1646. Calcoli e valori utili: da cui: n = 20, x = 10.11, y = 7.67, dev(x) = 8.908, dev(y) = 4.454, codev(x, y) = 2.168, βb1 = codev(x, y)/dev(x) = 0.2434, βb0 = y − βb1 x = 5.2057, dev(RES) = dev(y) − βb12 dev(x) = 3.926, σ b2 = p dev(RES)/(n − 2) = 0.218131, σ b = 0.467045, se(βb1 ) = σ b/ dev(x) = 0.1565. Esercizio 3. Le prime due righe della tabella forniscono la risposta alla domanda (A), per ricavare la quale è sufficiente applicare la definizione di probabilità condizionata: P (X = x|X > 2) = P (X = x, X > 2)/P (X > 2). In tale formula P (X > 2) = 0.44, mentre P (X = x, X > 2) vale 0 se x <= 2 oppure P (X = x) se x > 2. Le altre due righe forniscono il prospetto di calcolo per la risposta alla domanda (B). x P (X = x|X > 2) xP (X = x|X > 2) x2 P (X = x|X > 2) 3 0.15909 0.47727 1.43181 4 0.31818 1.27272 5.09088 5 0.18182 0.9091 4.5455 6 0.34091 2.04546 12.27276 1 4.70455 23.34091 E(X|X > 2) = 4.70455, V (X|X > 2) = E(X 2 |X > 2) − E(X|X > 2)2 = 1.20816, σ(X|X > 2) = √ 1.20816 = 1.09916. 14 7 7.1 Compito del 25.02.2010 Testo Premessa: I dati OECD consentono di analizzare l’andamento della produttività del lavoro in Italia negli ultimi anni, sia in relazione ad altre grandezze che in confronto con altri paesi. La tabella seguente riporta le variazioni percentuali del PIL e della produttività del lavoro da un anno all’altro. Anno Prod. lav. Italia (var%) Prod. lav. Francia (var%) PIL Italia (var%) PIL Francia (var%) 2002 −0.5 5 0.5 1 2003 −1.8 4.5 0 1.1 2004 1.8 2.8 1.4 2.5 2005 1.6 3.8 0.6 1.9 2006 1.5 2.6 2.1 2.2 2007 0.9 1.2 1.4 2.3 2008 −0.5 0.1 −0.9 0.4 Esercizio 1. Molti studiosi ritengono che la produttività del lavoro in Italia sia cresciuta in misura inferiore rispetto ad altri paesi confrontabili. Qui interessa il paragone con la Francia. Rispondere alle seguenti domande formulando le opportune assunzioni: tenere conto che misure macroeconomiche riferite allo stesso anno in paesi cosı̀ affini possono essere correlate. (A) Fornire una stima puntuale del differenziale fra Italia e Francia, in termini di variazione media annuale della produttività del lavoro; fornire anche lo standard error dello stimatore utilizzato. (B) In media, la produttività del lavoro in Italia è variata in misura significativamente inferiore a quella della Francia? (α = 0.01) Esercizio 2. Un’altra analisi, riferita in modo specifico all’Italia, ha cercato di capire l’eventuale legame fra variazione del PIL (vista come variabile indipendente) e variazione della Produttività del lavoro (intesa come variabile dipendente). (A) Formulare un modello statistico che risponda alle esigenze indicate. Stimarne i parametri. (B) L’indicatore di produttività tende variare in modo significativo al variare del PIL? (α = 0.02). (C) La struttura dei dati a disposizione mette in discussione qualcuna delle ipotesi del modello? Spiegare senza fare conti. (D) In Italia, la variazione del PIL nel 2009 sarà del −5.1%. Stimare la variazione di produttività che, in base al modello, si attende per il 2009. Esercizio 3. Una variabile casuale doppia (X, Y ) ha la distribuzione di probabilità congiunta riportata nella seguente tabella. x 0 2 −1 0.0855 0.1045 y 0 0.1755 0.2145 2 0.1890 0.2310 (A) X e Y sono indipendenti? Motivare la risposta. (B) Determinare la funzione di massa della variabile casuale W = XY . 7.2 Soluzione Esercizio 1. In base alla correlazione che verosimilmente esiste fra variabili rilevate in paesi cosi vicini e dai livelli economici relativamente simili, è ragionevole utilizzare la metodologia prevista per i dati 2 appaiati. D = ‘var % prod. lav. Italia’ − ‘var % prod. lav. Francia’ ∼ N (µD , σD ). (A) Si√tratta di stimare eD = d = −2.42857; lo standard error √ µD ; lo stimatore da usare è D; la stima è µ è sD / n = 2.45473/ 7 = 0.9278. √ (B) Test di H0 : µD = 0 contro H0 : µD < 0 per α = 0.01; la statistica test sotto H0 è (D − 0)/(SD / n) con distribuzione T (n − 1); la regione di rifiuto è (−∞, −3.1427); il valore campionario statistica test sotto H0 è −2.6176. 15 Calcoli e valori utili: d −5.5 −6.3 −1 −2.2 −1.1 −0.3 −0.6 Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui y =var.% prod. lavoro, x =var.% PIL. (A) βb1 = 0.9785, βb0 = −0.2843, σ b2 = 1.10744. (B) Test di H0 : β1 = 0 contro H0 : β1 6= 0; statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ) la cui distribuzione è T (n − 2); regione di accettazione per α = 0.02: [−3.3649, 3.3649]; valore campionario della statistica test sotto H0 : 2.284. (C) I dati costituiscono una serie temporale. La correlazione che normalmente esiste fra frenomeni rilevati a tempi vicini mette a rischio l’assunzione di indipendenza dei residui. (D) yb2009 = βb0 + βb1 x2009 = −0.2843 + 0.9785 ∗ −5.1 = −5.2744 Calcoli e valori utili: Anno 2002 2003 2004 2005 2006 2007 2008 Somma xi 0.5 0 1.4 0.6 2.1 1.4 −0.9 5.1 yi −0.5 −1.8 1.8 1.6 1.5 0.9 −0.5 3 x2i 0.25 0 1.96 0.36 4.41 1.96 0.81 9.75 yi2 0.25 3.24 3.24 2.56 2.25 0.81 0.25 12.6 xi yi −0.25 0 2.52 0.96 3.15 1.26 0.45 8.09 Pn Pn da cui: n = 7, x = 0.7286, y = 0.4286, dev(x) = i=1 x2i − nx2 = 6.0343, dev(y) = i=1 yi2 − ny 2 = Pn 11.3143, codev(x, y) = i=1 xi yi − nxy = 5.9043, βb1 = codev(x, y)/dev(x) = 0.9785, βb0 = y − βb1 x = b2 = dev(RES)/(n − 2) = 1.10744, σ b = 1.05235, −0.2843, dev(RES) = dev(y) − βb12 dev(x) = 5.537199, σ p b se(β1 ) = σ b/ dev(x) = 0.4284. Esercizio 3. (A) X e Y sono indipendenti se e solo se f (x, y) = f (x)f (y) per tutte le celle della tabella. Poichè questo è vero, le due variabili sono indipendenti. x 0 2 −1 0.0855 0.1045 0.19 y 0 0.1755 0.2145 0.39 2 0.1890 0.2310 0.42 0.45 0.55 1 (B) Dai valori in tabella si calcolano facilmente i possibili valori che W = XY può assumere con le rispettive probabilità: w f (w) −2 0.1045 0 0.6645 4 0.2310 16 8 8.1 Compito del 21.07.2010 Testo Premessa: Si parla di livello di alfabetizzazione nei diversi paesi africani e della loro relazione con altre variabili. Esercizio 1. Il grado di alfabetizzazione giovanile si presenta in modo assai eterogeneo fra i diversi paesi africani. Per quanto riguarda il differenziale fra sessi, i dati OECD riferiti allo Youth Literacy Rate (periodo 2005-2008) riportano per ciascun paese il tasso di alfabetizzazione giovanile separatamente per maschi e femmine. Da tali dati è stata ricavata la seguente tabella (i valori dello Youth Literacy Rate sono espressi in %; sono stati considerati 36 paesi): Maschi Femmine Differenziale Maschi – Femmine Media 20.76 23.04 −2.29 Varianza corretta 332.06 473.28 87.78 Rispondere alle seguenti domande formulando le opportune assunzioni. (A) In media, nel complesso dei paesi considerati il tasso di alfabetizzazione femminile è significativamente inferiore a quello maschile? (α = 0.01) (B) Se le deviazioni standard riportate in tabella fossero state quelle vere, invece di quelle calcolate, sarebbe cambiato qualcosa nella procedura di test? Motivare la risposta. Nel caso in cui si risponda che nella procedura qualcosa cambia effettuare i nuovi conti. (C) Calcolare la potenza del test, nella situazione di cui al punto (B), nel caso in cui l’ipotesi alternativa sia quella di un differenziale fra sessi di 5.1 punti percentuali. Esercizio 2. Un’altra analisi, di tipo cross-section, ha mirato a vedere se esiste una qualche relazione fra tasso % di alfabetizzazione della popolazione adulta (l) e variazione % del PIL (g). La seguente tabella riporta alcune statistiche (fonte OECD, anni 2005 − 2008). 22 l = 13.69 g = 15.46 2 1 X li − l = 242.59 22 i=1 22 1 X 2 (gi − g) = 263.94 22 i=1 22 1 X li − l (gi − g) = 247.46 22 i=1 Considerando la variazione del PIL come variabile dipendente: (A) Formulare un modello statistico che risponda alle esigenze indicate e stimarne tutti i parametri mediante metodo dei minimi quadrati. (B) Si forniscano gli standard errors dei coefficienti di regressione (C) La variazione del PIL è legata in modo significativo alla variabile indipendente? (α = 0.01). Esercizio 3. Una variabile casuale X ∼ P o(λ). D’altra parte il parametro λ non è noto ma si sa che può assumere o valore 1.08, e questo accade con probabilità 0.48, oppure valore 1.98, con la probabilità rimanente. Tutti gli altri valori di λ sono impossibile. Da X è stato estratto un campione casuale semplice di due osservazioni: x = (x1 = 3, x2 = 3). (A) Quale fra i due valori dei parametri ha la verosimiglianza maggiore? Argomentare la risposta. (B) Quale fra i due valori dei parametri ha la probabilità a posteriori maggiore? Argomentare la risposta. 8.2 Soluzione Esercizio 1. In base alla correlazione che verosimilmente esiste fra tassi di alfabetizzazione di maschi e femmine rilevati nello stesso paese, occorre utilizzare la metodologia prevista per i dati appaiati. D = ‘tasso 2 alfabetizzazione maschile’ − ‘tasso alfabetizzazione femminile’ ∼ N (µD , σD ). 17 √ (A) Test di H0 : µD = 0 contro H0 : µD > 0 la statistica test sotto H0 è (D − 0)/(SD / n) con distribuzione T (n − 1); la regione di rifiuto per α = 0.01 è (2.4377, ∞); il valore campionario statistica test sotto H0 è −1.4665. (B) Se la vera deviazione standard √ fosse risultata nota, sarebbe cambiata la statistica test, che sotto H0 sarebbe divenuta (D − 0)/(σD / n), con distribuzione N (0, 1); la regione di rifiuto per α = 0.01 sarebbe stata (2.3263, ∞), da confrontare con un valore campionario statistica test sotto H0 pari a −1.4665 (lo stesso di prima). (C) Sia H1 : µD = 5.1. Indicando con z il valore critico, con se lo standard error e con µ1 il valore 5.1, allora γ = P (campione ∈ R|H1 ) = P [(D − 0)/se > z|H1 ] = P [D > z × se|H1 ] = P [(D − µ1 )/se > (z × se − µ1 )/se|H1 ] = P [Z > −0.9397|H1 ] = 0.82632. √ Calcoli e valori√utili: n = 36, d = −2.29, sD = 87.78 = 9.3691 (corrispondente anche a σD del punto (B)), se = sD / n = 1.56152. Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui y =var.% PIL, x =tasso % alfabetizzazione maschile. (A) βb1 = 1.0201, βb0 = 1.4952, σ b2 = 12.663458. p p √ √ b2 [1/n + x2 /dev(x)] = 1.0203 = 1.0101, se(βb1 ) = σ b2 /dev(x) = 0.0024 = 0.0487. (B) se(βb0 ) = σ (C) Test di H0 : β1 = 0 contro H0 : β1 6= 0; statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ) la cui distribuzione è T (n − 2); regione di accettazione per α = 0.01: [−2.8453, 2.8453]; valore campionario della statistica test sotto H0 : 20.9413. Calcoli e valori utili: n = 22, x = 13.69, y = 15.46, dev(x) = 5336.98, dev(y) = 5806.68, codev(x, y) = 5444.12, βb1 = codev(x, y)/dev(x) = 1.0201, βb0 = y − βb1 x = 1.4952, dev(RES) = dev(y) − βb12 dev(x) = 253.269162, σ b2 = dev(RES)/(n − 2) = 12.663458, σ b = 3.558575. Esercizio 3. X ∼ P o(λ), dove λ ∈ {λ1 = 1.08, λ2 = 1.98}, P (λ1 ) = 0.48, P (λ2 ) = 0.52. Campione casuale semplice: x = (x1 = 3, x2 = 3). Q2 Q2 (A) Verosimiglianza: L(λ) = f (x; λ) = i=1 f (xi ; λ) = i=1 λxi e−λ /xi !. Facendo i conti separatamente per i due λ abbiamo L(λ1 ) = 0.1426, L(λ2 ) = 0.35725. (Calcoli e valori utili: f (x1 ; λ1 ) = 0.0713, f (x2 ; λ1 ) = 0.0713, f (x1 ; λ2 ) = 0.17862, f (x2 ; λ2 ) = 0.17862). (B) Probabilità a posteriori: P (λ1 |x) = P (x|λ1 )P (λ1 )/P (x) = 0.26925, P (λ2 |x) = 1−P (λ1 |x) = 0.73075. Il numeratore lo abbiamo dal testo (le probabilità a priori) o dal punto (A); il denominatore lo si calcola con la formula della probabilità totale (o marginale) P (x) = P (x|λ1 )P (λ1 ) + P (x|λ2 )P (λ2 ) = 0.25422. 18