STATISTICA (2) – ESERCITAZIONE 7 11.03.2014 Dott.ssa Antonella Costanzo Esercizio 1. Test di indipendenza tra mutabili In un’indagine vengono rilevate le informazioni su settore produttivo (Y) e genere (X) su un campione casuale di occupati: X|Y agricoltura artigianato industria servizi totale F 0 8 12 80 100 M 10 52 58 20 140 totale 10 60 70 100 240 Testare ad un livello di significatività del 5% se i due caratteri possono essere considerati indipendenti. Soluzione Per stabilire se esiste indipendenza tra i caratteri oggetto di analisi dobbiamo utilizzare un test statistico basato sul chi-quadro χ. Il sistema di ipotesi da sottoporre a verifica è il seguente: H : X e Y sono indipendenti H : X e Y non sono indipendenti Livello di significatività α=0.05 Definizione della statistica test sotto l’ipotesi nulla: χ doveE = . ×. (O − E ) = ~χ;()() E .. i = 1, . . h, righe; j = 1, . . k, colonne 1 Regola di decisione (regione di rifiuto) Con il livello di significatività α = 0.05 e con k= 4 e h = 2 otteniamo 2 χ 3;0.05 = 7.815 . 2 = 7.815 si rifiuta l’ipotesi nulla dunque, se χ > χ 3;0.05 Calcolo il valore della statistica test sotto l’ipotesi nulla Tabella teorica sotto l’ipotesi di indipendenza (frequenze teoriche &'( ) X|Y agricoltura artigianato industria servizi totale F 4.17 25 29.17 41.67 100 M 5.83 35 40.83 58.33 140 totale 10 60 70 100 240 χ = (O − E ) (0 − 4.17) (10 − 5.83) = + + ⋯ = 104.738 E 4.17 5.83 Formula alternativa per il calcolo di χ 1 2343 8 7 5'( = 5.. ( − 1) 5'. ∙ 5.( ' ( ovvero: 0 8 12 10 1 2343 = 240 :; + + +. + +. . > − 1? = 104.738 100 ∗ 10 100 ∗ 60 100 ∗ 70 140 ∗ 10 Decisione: Essendo 1 2343 > 1.A,B si rifiuta l’ipotesi nulla al livello di significatività α=5%. 2 Esercizio 2. Test sulla bontà di accostamento In 600 lanci di un dado si sono ottenuti i risultati riportati in tabella. Determinare con un livello di significatività del 5% se il dado può considerarsi truccato. 1 Risultato 2 3 4 5 6 Freq. osservate 94 123 88 102 115 78 Soluzione Se il dado non è truccato dovremmo osservare una distribuzione uniforme dei risultati Risultato 1 2 3 Freq. Osservate 5' 94 123 88 4 5 6 102 115 78 Freq. Teoriche 5C' = 5D' 100 100 100 100 100 100 dove D' = E Sistema di ipotesi F : il dado non è truccato ( la distribuzione di frequenza osservata è una realizzazione di una v.c. uniforme discreta) F : il dado è truccato ( la distribuzione di frequenza osservata non è una realizzazione di una v.c. uniforme discreta) Livello di significatività α=0.05 Costruzione della statistica test 1 2343 7 = ' (5' − 5C' ) ~1G;(7) 5C' dove k rappresenta il numero di modalità. 3 Regola di decisione (regione di rifuto): per il livello di significatività fissato il valore critico è in corrispondenza di: 1.A;(E) = 11.07 per cui se il valore della statistica test 1 2343 è maggiore di 1.A;(E) = 11.07 si rifiuta l’ipotesi nulla Il valore della statistica test sotto l’ipotesi nulla è data da: 1 2343 = (94 − 100) (123 − 100) (88 − 100) + + + ⋯ = 14.22 100 100 100 Decisione Siccome 1 2343 > 1.A;(E) = 11.07 si rifiuta l’ipotesi nulla, quindi rifiuto l’ipotesi di distribuzione uniforme discreta (il dado è truccato) 4 Esercizio 3. Test sulla bontà di accostamento (2) Nell’arco di un triennio, sono stati registrati 1588 incidenti stradali capitati a 706 guidatori di una società di trasporto pubblico. La seguente tabella riporta come tali incidenti sono distribuiti tra i vari autisti: n. di incidenti n. di autisti 0 117 1 157 2 158 3 115 4 78 5 44 6 21 7 16 Verificare al un livello di significatività del 5% se questi dati sono compatibili con l’ipotesi che il numero di incidenti per autista abbia una distribuzione di Poisson? Soluzione Il primo passo nel test di buon adattamento consiste nello stimare il parametro della distribuzione di Poisson. Dalla tabella di frequenza si ottiene: IJ = K̅ = 2.25 Sistema di ipotesi H : i dati seguono una distribuzione di Poisson (IJ = 2.25) H : i dati non seguono una distribuzione di Poisson Livello di significatività α=0.05 5 Definizione della statistica test sotto l’ipotesi nulla: χ = (5' − 5C' ) ~χ;() 5C' dove 5C' = frequenze attese sotto l’ipotesi che i dati seguano una legge di Poisson e k = numero di modalità Regola di decisione (Regione di Rifiuto) Il valore critico in corrispondenza di un livello di significatività del 5% con 8-1=7 gdl è dato da: χ.A,M = 14.07, per cui se χ > χ.A,M rifiutiamo l’ipotesi nulla. Calcoliamo le frequenze attese sotto l’ipotesi che il numero di incidenti per autista segua una legge di Poisson di parametro IJ, ricordando che: N~OPQ(λ); &(N) = STU(N) = λ Distribuzione di probabilità di X: V W λX O(N = K) = K! Es. O(N = 0) = V .A = 0.1053 → 5O(N = 0) = 706 ∙ 0.1053 = 74.41 V .A ∙ 2.25 O(N = 1) = ; > = 0.2371 → 5O(N = 1) = 706 ∙ 0.2371 = 167.42 1! (…) 6 n. di incidenti n. di autisti (freq.osservate) n. di autisti (freq.teoriche sotto F ) 5' 5C' = 5 ∙ O(N = K) 0 117 74.41 1 157 167.42 2 158 188.355 3 115 141.266 4 78 79.46 5 44 35.76 6 21 13.41 7 16 4.31 Il valore della statistica test è pari a: χ = (117 − 74.41) (16 − 4.31) + ⋯+ ≈ 57.9 74.41 4.31 Decisione poiché χ > χ.A,M rifiuto l’ipotesi nulla. I dati non sono compatibili con l’ipotesi che il numero di incidenti per autista segua una legge di Poisson. 7 Esercizio 4. Il modello di regressione: stima, bontà di adattamento, inferenza Si desidera studiare la relazione tra il voto Y conseguito all’esame di statistica e il voto X conseguito nell’esame di matematica. A partire da un campione casuale di n=200 studenti che hanno sostenuto entrambi gli esami in questione si osservano i seguenti risultati campionari: ' ' 1 1 \' = 27.87 ; K' = 25.24 ; 200 200 ' ' 1 1 \' = 787.52; K' = 645.39; 200 200 1 K' \' = 712.51 200 ' a) Ricavare con il metodo dei minimi quadrati (OLS, Ordinary Least Squares), una stima dei parametri del modello di regressione con Y variabile dipendente e X variabile indipendente. b) Calcolare e interpretare il coefficiente di correlazione lineare e l’indice di determinazione lineare c) Sulla base del modello stimato, qual è il voto atteso in statistica di uno studente che ha ottenuto un 24 in matematica? d) Valutare la significatività del modello di regressione (verifica di ipotesi sul coefficiente angolare) con α=0.05. Soluzione a) ] = ^ + ^ N + ε è il modello di regressione lineare per la popolazione La stima della retta di regressione avviene sulla base del campione: ] = ^J + ^J N + V ^J e ^J sono rispettivamente gli stimatori per ^ e ^ della popolazione 8 ^J :coefficiente angolare: inclinazione della retta di regressione, come varia in media Y a fronte di un incremento unitario della X ^J :Intercetta della retta di regressione: indica il valore atteso della variabile di risposta Y quando il predittore X assume valore 0. Con il metodo dei minimi quadrati, il coefficiente angolare1 risulta: 1 c 1 c 1 c `Pa(N, ]) 5 (∑' K' \' ) − (5 ∑' \' ) (5 ∑' K' ) ^J = = STU(N) 1 c 1 c ∑ ∑ 5 ' K' − (5 ' K' ) ^J = 712.51 − 27.87 ∙ 25.24 9.07 = = 1.09 645.39 − 25.24 8.33 e l’intercetta è pari a: ^J = \d − ^J Kd = 27.87 − 1.09(25.24) = 0.36 b) Per determinare eX,f si può sfruttare la seguente relazione: eX,f = `Pa(N, ]) gSTU(N) ∙ STU(]) = 9.07 g8.33 ∙ (787.52 − 27.87 ) = 9.07 √8.33 ∙ 10.78 = 0.96 dove STU(]) = if = c ∑c' \' − (c ∑c' \' ) Il valore prossimo a 1 di eX,f indica la presenza di una forte relazione lineare positiva tra i due voti in questione. 1 Nota: è possibile, in alternativa, esprimere il coefficiente angolare della retta di regressione come: ^J = `PjVa(N, ]) kVa(N) = 5 ∑c' K' \' − ∑c' K' ∑c' \' 5 ∑c' K' − (∑c' K' ) 9 L’indice di determinazione lineare (l ) può essere calcolato anche come: l = eX,f = (0.96) = 0.92 m = 0.36 + 1.09N per cui in c) Il modello di regressione stimato è pari a:] corrispondenza di K = 24 il valore atteso di Y è dato da: \C = 0.36 + 1.09(24) = 26.52 d) Valutare la significatività del modello stimato equivale a testare il seguente sistema di ipotesi: F : ^ = 0 F : ^ ≠ 0 livello di significatività o = 0.05 Per costruire la statistica test dobbiamo studiare la distribuzione campionaria di ^J. Siccome una delle ipotesi del modello di regressione lineare classico è p' ~q(0, i )Q. Q. j allora si dimostra che2: ^J ~q ;^ , i ∑'(K' − K̅ ) > Tuttavia ciò sarebbe vero (e quindi lo stimatore per ^ si distribuirebbe secondo una legge normale) se conoscessimo la varianza degli errori del modello i . Nella realtà, gli errori del modello non sono osservabili, mentre è possibile osservare i residui. In particolare: ∑c'(\' − \C) iC = 5−2 2 Nota: gli stimatori OLS di ^ e ^ sono B.L.U.E (Teorema di Gauss-Markov). 10 per cui la varianza corretta dello stimatore ^J per ^ è pari a: r(s m t) ∑c'(\' − \C) iC 5−2 = = ∑'(K' − K̅ ) ∑'(K' − K̅ ) Sfrutto questo risultato per costruire la statistica test; infatti sotto F essa risulta: u 2343 = ^J − ^ |w yr(smt ) x ~zG⁄;c Nota: per il TLC essendo n sufficientemente grande (n = 200) è ragionevole approssimare la distribuzione di u 2343 ad una normale standardizzata, in particolare: u 2343 = ^J − ^ |w yr|smt } x q(0,1) c→~ Regola di decisione Con un livello di significatività del 5%, essendo il test bidirezionale e sfruttando l’approssimazione normale (TLC) i valori critici da determinare sono in corrispondenza di: ±G⁄ = ±.MA = ±1.96 per cui: se |u 2343 | > .MA rifiuto l’ipotesi nulla. Calcoli Dobbiamo determinare la quantità r|s mt } . Sapendo che: (K' − K̅ ) = 5 ∙ iX = 200 ∙ 8.33 = 1666 ' E, sfruttando il fatto che: l = eX,f = 0.92 lo possiamo scrivere3 come: 3 Ricorda la definizione dell’indice di determinazione lineare 11 ∑c'(\' − \C) l =1− c ∑'(\' − \d) dobbiamo risolvere rispetto alla quantità a numeratore del rapporto (in rosso), per cui: c c ' ' (\' − \C) = (1 − l ) (\' − \d) dove: ∑'(\' − \d) = 5 ∙ if = 200 ∙ 10.78 = 2156 quindi: c (\' − \C) = (1 − 0.92) ∙ 2156 = 172.48 ' Possiamo dunque calcolare: r(s mt ) ∑c'(\' − \C) 172.48 iC 5 − 2 200 −2 = = = 1666 = 0.000522 ∑'(K' − K̅ ) ∑' (K' − K̅ ) E finalmente il valore della statistica test: u 2343 = 1.09 − 0 √0.000522 = 1.09 = 47.81 0.0228 Decisione Siccome |u 2343 | > .MA rifiuto l’ipotesi nulla. 12