Capitolo 1 e 2 Inferenza su Regressione/Correlazione Marcello Gallucci P S I C O M E T R I A [email protected] Lezione: 6 Il problema dell’inferenza Qualunque parametro stimiamo, abbiamo sempre il problema di stabilire quale y =ab xy x sia il suo valore nella popolazione Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error 2.091 .684 .709 .116 Standardized Coefficients Beta .898 t 3.057 6.132 y =2 . 09. 70 x Sig. .014 .000 10 a. Dependent Variable: SMILES 9 8 7 Nel campione: In media, per ogni birra bevuta ci aspettiamo il .7 sorrisi in piu’ 6 5 4 Quale sara’ il valore di b nella popolazione? SORRISI 3 2 1 0 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 BIRRE Lezione: 6 Il problema dell’inferenza Lo stesso problema si ha per la correlazione, o per qualunque altro parametro che uno stima r nel campione v z =. 2x z 0 Quale sara’ la correlazione nella popolazione 0 Lezione: 6 Il problema dell’inferenza II Qualunque stima noi osserviamo nei dati, ci proponiamo di spiegare il motivo che giustifica tale osservazione (es. perchè la birra fa sorridere?) Un pre-requisito per poter trovare una plausibile spiegazione e’ che tale risultato non sia casuale L’inferenza* statistica si propone di escludere, con una ragionevole probabilita’, che il nostro risultato sia solo dovuto al caso * Nella forma che a noi interessa Lezione: 6 Il problema dell’inferenza II Esempio: Osserviamo una correlazione r=.20 fra due variabili X e Y in un campione di 100 persone Prima di poter interpretare tale relazione, dobbiamo escludere che la correlazione nella popolazione sia 0 (nessuna relazione) Se la correlazione fosse in relta’ 0, la correlazione osservata sarebbe solo frutto di un caso La nostra interpretazione (relazione lineare positiva) sarebbe inutile e sbagliata: Avremmo commesso un errore Lezione: 6 Esempio: La media Assumiamo che sia noto che la preparazione media degli studenti di psicometria sia pari ad un voto di 22 Dal vostro esame otteniamo una preparazione pari a 23.73 Vorremmo interpretare tale risultato come dimostrazione che la nostra classe e’ particolarmente brava in statistica Per fare cio’, dobbiamo escludere la possibilita’ che la “vera” media della classe sia 22, e che 23.73 sia venuto fuori per caso Lezione: 6 Voti Esami Distribuzione dei voti Media=23.73 Dev. Stand=3.95 Lezione: 6 Il caso in pratica Per “caso” intendiamo che il nostro risultato provenga da una popolazione con media 22, e che quel 1.73 in piu’ sia frutto di una fluttuazione campionaria Popolazione Media=22 Campione Media=23.73 Lezione: 6 Il caso in pratica Ricordiamo infatti che ad ogni stima e’ associato un errore standard Popolazione Campioni M=22.5 Media=22 M=21.2 M=23.2 Lezione: 6 Inferenza Ci proponiamo di calcolare la probabilita’ p di ottenere una media 23.73 da una popolazione con media 22 Campioni Popolazione M=22.5 Media=22 M=21.2 M=23.2 Lezione: 6 Inferenza Se tale probabilita’ p e’ sufficientemente bassa, possiamo escludere che il nostro risultato (piu’ grande di 22) sia solo dovuto ad un caso Campioni Popolazione Media=22 Lezione: 6 Regionamento inferenziale Esplicitiamo l’ipotesi che vogliamo rifiutare (vogliamo rifiutare l’ipotesi che 22 sia il vero valore della classe) Chiamiamo questa ipotesi: IPOTESI NULLA (media pooplazine =22) H 0 =μ=22 Sotto questa ipotesi, lo scarto dal valore della popolazione (23.7322=1.73) sarebbe solo una fluttuazione casuale Test: Quale e’ la probabilita’ di ottenere uno scarto di 1.73 in un campione come il nostro? Lezione: 6 Distribuzione campionaria della stima Per calcolare la probabilita’ di ottenere un certo scarto, dobbiamo conoscere la distribuzione degli scarti Popolazione Media=22 Lezione: 6 Distribuzione campionaria della stima Immaginiamo di ripetere il campionamento un grande numero di volte Un campione Medie campioni Popolazione 10 campioni 100 campioni Media=22 Lezione: 6 Teorema centrale del limite All’aumentare delle prove, la distribuzione della media tende ad media=media popolazione Medie campioni Popolazione Media=22 Media=22 Lezione: 6 Teorema centrale del limite E tende ad avere una distribuzione normale (Gaussiana) Medie campioni Media=22 Lezione: 6 Teorema centrale del limite E ad restringersi (diminuire la deviazione standard) all’aumentare della numerosità campionaria Deviazione standard della stima 2 S N Lezione: 6 Test inferenziale Se conosco media, varianza e distribuzione posso calcolarmi la probabilita’ di ottenere un risultato da una certa distribuzione Medie campioni Quale e’ la probabilità di ottenere 23.73 campionando da una popolazione con media 22 Data che le probabilità sono note per la normale standardizzata, standardizzo il risultato test M − μ 23 . 73−22 z= = s .e. 3 . 95 N risultato=23.73 Lezione: 6 Test inferenziale Calcolo della probabilità p sotto l’ipotesi nulla Medie campioni standardizzate Quale e’ la probabilità di ottenere 23.73 campionando da una popolazione con media 22 Quale e’ la probabilità che 6.39 provenga da una distribuzione standard con media 0 e varianza 1 M − μ 23 . 73−22 z= = =6 . 39 s .e. 3 . 95 54 risultato=6.39 Lezione: 6 VALORE-P Calcolo della probabilita’ p sotto l’ipotesi nulla Otteniamo (computer!) tale probabilita’ secondo una normale standardizzata Medie campioni standardizzate p z6 . 39 =. 00001 Interpretazione La probabilita’ di ottenere uno z=6.39 o ancora piu’ grande, e’ pari a 0.00001 Rifiutiamo l’ipotesi nulla: Diremo che la classe non proviene da una popolazione 22 risultato=6.39 Lezione: 6 VALORE-P In generale, il valore p indica la probabilità di ottenere il nostro risultato, o ancora più grande, sotto l’ipotesi nulla Probabilità p La probabilità p equivale alla proporzione di possibili campioni i cui scostamenti standardizzati sono distanti dall’ipotesi nulla almeno quanto il campione da noi osservato -2 -1 0 1 2 Lezione: 6 VALORE-P Il valore p indica il rischio che noi prendiamo quando affermiamo che l’ipotesi nulla è falsa Probabilità p Se l’ipotesi nulla è falsa, ci abbiamo azzeccato Se l’ipotesi nulla è vera, abbiamo commesso un errore, detto del Tipo I -2 -1 0 1 2 Lezione: 6 Significativita’ Spesso si suole dire che p e’ significativa, cioe’ lo scarto non e’ casuale, se p.<0.05 (p.<.01) Medie campioni standardizzate p z6 . 39 =. 00001 Interpretazione La media della classe e’ significativamente diversa da 22 Rifiutiamo l’ipotesi nulla: Diremo che la classe non proviene da una popolazione 22 risultato=6.39 Lezione: 6 Punti notevoli Prima abbiamo posto una ipotesi nulla (che descrive lo scenario se il risultato fosse dovuto al caso) H 0=μ=22 Poi abbiamo costruito un test di cui conosciamo la distribuzione (z sappiamo che segue una distribuzione normale standardizzata) Poi abbiamo calcolato la probabilità p di ottenere un valore uguale (o superiore) a z in una normale standardizzata Se tale p e’ molto piccola (minore di 0.05), rifiutiamo l’ipotesi nulla Se tale p non e’ molto piccola (superiore a 0.05), non possiamo escludere che il nostro risultato sia casuale. Dunque sospendiamo il giudizio Lezione: 6 Test per il coefficiente di regressione Per il coefficiente b: se la relazione non c’e’, e cio’ che osserviamo nel campione e’ frutto del caso, B sara’ nullo nella popolazione (H0: =0) Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error 2.091 .684 .709 .116 Standardized Coefficients Beta .898 t 3.057 6.132 Sig. .014 .000 a. Dependent Variable: SMILES Quale e’ la probabilità di osservare un b=.709 campionando da una popolazione con b=0 Lezione: 6 Test per il coefficiente di regressione Trasformiamo b in un test di cui conosciamo la distribuzione Applichiamo la stessa formula che per la media Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error 2.091 .684 .709 .116 Standardized Coefficients Beta .898 t 3.057 6.132 Sig. .014 .000 t= b−Β . 709−0 = =6 . 132 s . e . . 116 a. Dependent Variable: SMILES Il test t si distribuisce secondo una distribuzione nota detta t di Student p t6 . 132 . 0001 P<.05, dunque il nostro risultato e’ significativamente diverso da zero Lezione: 6 La t di Student Un gran numero di test inferenziali si distribuiscono secondo una t di student Nella maggior parte dei casi il test e’ dato dalla stima diviso la deviazione standard par −0 par t= = s.e. s.e. La distribuzione della t di Student dipende dai gradi di libertà (quanti casi avete e quanti parametri) Lezione: 6 La t di Student La distribuzione t cambia a seconda del numero di casi nel campione 2 casi=1 gdl 21 casi=20 gdl 11 casi=10 gdl 31 casi=30 gdl Notiamo che all’aumentare dei casi, la t tende alla normale Lezione: 6 T test In generale, molte stime possono essere testati per escludere l’ipotesi nulla (parametro=0) dividendo la stima per l’errore standard, e calcolando la probabilità p sulla base della distribuzione t di Student t= par par = s.e. var par N Maggiore è t, maggiore è la probabilità di rifiutare l’ipotesi nulla. Ciò avverrà più frequentemente.. Più grande è il parametro Più grande è il campione Minore è la variabilità nel campione Lezione: 6 Test per il coefficiente di correlazione Ricordiamo che il coefficiente di correlazione non è altro che il coefficiente di regressione standardizzato (una variabile indipendente) Coefficientsa Model 1 (Constant) NBEERS Unstandardized Coefficients B Std. Error 2.091 .684 .709 .116 Standardized Coefficients Beta .898 t 3.057 6.132 Sig. .014 .000 Se b=0 allora anche r=0 a. Dependent Variable: SMILES r=beta b yx =r xy sy sx ⇒ r xy = sx sy b yx Dunque il t-test è identico per i due coefficienti Lezione: 6 Test per il coefficiente R2 Ricordiamo che il coefficiente di determinazione R2 indica la varianza spiegata dalla variabile indipendente Vogliamo escludere che la varianza spiegata 2 sia zero (H0: =0) Sicuramente la distribuzione campionaria di R2 non è la t di Student (perché?) Y 2Yzz s ez Xz 2 s regz 2 2 2 s reg s y −s e 2 = =R xy 2 2 sy sy Lezione: 6 Test per il coefficiente R2 Ricordiamo che il coefficiente di determinazione R2 indica la varianza spiegata dalla variabile indipendente Vogliamo escludere che la varianza spiegata 2 sia zero (H0: =0) Sicuramente la distribuzione campionaria di R2 non è la t di Student (perché?) Perché R2 è sempre positivo, mentre la t di Student ammette valori positivi e negativi Y Y 2 zz s ez 2 s regz Xz 2 2 2 s reg s y −s e 2 = =R xy 2 2 sy sy Lezione: 6 Test per il coefficiente R2 Trasformiamo il parametro in un test di cui si conosca la distribuzione Varianza spiegata Gdl errore 2 R xy n−k −1 f= 2 k 1−R Varianza xy errore # variabili indipendenti Il rapporto fra varianza spiegata e varianza di errore (moltiplicato per il rapporto fra gradi di libertà) si distribuisce secondo una distribuzione F con k e n-k-1 gdl Lezione: 6 Distribuzione F La distribuzione F cambia a seconda del numero di casi nel campione e il numero di variabili indipendenti 1 VI, 3 casi =1,1 gdl 10 VI, 12 casi =10,1 gdl 1 VI, 12 casi =1,10 gdl 10 VI, 22 casi =10,10 gdl Notiamo che all’aumentare dei casi, la F tende alla normale Lezione: 6 Test per il coefficiente R2 Da cosa dipende il test? Più grande è il test, minore sarà p Più grande è R2, minore è p 2 R xy n−k −1 f= k 1−R2xy Più grande è il campione (n), minore è p Minore è il numero di variabili indipendenti (k), minore è p Come al solito, più piccolo è p, maggiore è la probabilità di rifiutare l’ipotesi nulla (che sarebbe: la varianza spiegata è in realtà 0) Lezione: 6 Test per la Regressione Output SPSS R2 e deviazione standard Test per R2 Stima regressione e per b Lezione: 6 Fine Fine della Lezione VI Lezione: 6 VALORE-P In generale, il valore p indica la probabilità di ottenere il nostro risultato, o ancora più grande, sotto l’ipotesi nulla Probabilità p La probabilità p equivale alla proporzione di possibili campioni i cui scostamenti standardizzati sono distanti dall’ipotesi nulla almeno quanto il campione da noi osservato -2 -1 0 1 2 Lezione: 6