LA PREDIZIONE O REGRESSIONE 1 DEFINIZIONE DI PREDIZIONE (1) Si usa una misurazione per predire un’altra misurazione di comportamento. Le misurazioni sono generalmente dei test mentali (abilità, profitto, personalità, atteggiamenti, temperamenti) o dati fisici o altre rilevazioni comportamentali. 2 Concetto della predizione statistica (regressione): Se a punteggi alti di un test (predittore) corrispondono punteggi alti di un altro test (comportamento predetto o stimato) e, viceversa, a punteggi bassi del predittore corrispondono punteggi bassi del predetto, si può usare il primo per predire il secondo. Si ricorre al concetto matematico di funzione Una funzione matematica lega un insieme di numeri, usando costanti e variabili (e anche altre funzioni matematiche). Es y= k+x Y= log 10 (x) Y= a+mx Si deve tenere conto che le predizioni non sono precise, e quindi la funzione dovrebbe essere scritta sempre così Y= mx + a + e dove e indica la parte di errore della predizione. Studieremo solo la relazione lineare DEFINIZIONE DI PREDIZIONE (2) Dovremo trasformare il punteggio del test predittore con una equazione di una retta, che predica al meglio (ovvero commettendo meno errori possibili) il punteggio ottenuto dal soggetto nel test predetto. L’equazione per trasformare il punteggio è la seguente: yˆi xi m a 6 EQUAZIONE DI REGRESSIONE yˆi xi m a La costante additiva a è chiamata intercetta. Rappresenta il punto in cui la retta incontra l’asse delle ordinate. La costante moltiplicativa m è chiamata pendenza o coefficiente angolare. Rappresenta il cambiamento in y all’aumentare di una unità in x. 7 ESEMPI DI PREDIZIONE Un test di abilità verbale predice la media dei voti a scuola. Una scala di Stima di sé è usata per predire il Senso di benessere e di salute psicofisica Il punteggio di Coscienziosità predice il livello di efficienza nel lavoro di gruppo. 8 Piccolo esempio numerico Raccogliamo un piccolo numero di osservazioni: Abilità verbale (un test psicometrico) Profitto scolastico (voto scolastico dato da insegnanti) Supponiamo che entrambe le misurazioni siano delle scale a intervalli Osservazioni per otto studenti Voto A Test abilità verbale 12 B C 10 14 7 8 D E F G 9 9 13 11 5 6 9 7 H 8 5 scolastico 8 Riportiamo in un grafico cartesiano le otto coppie di osservazioni In ascissa indichiamo la variabile indipendente (Abilità verbale) In ordinata riportiamo il valore della variabile dipendente (Voto scolastico) Osserviamo la distribuzione dei punteggi La disposizione dei punti indica che c’è una relazione POSITIVA fra le due variabili La relazione POSITIVA fra le due variabili può essere descritta e riassunta con una RETTA Quale retta? Rossa verde o azzurra? Quella che è più vicina a tutti i punti è la migliore Come stabilire i parametri della retta di predizione? Che criterio si può seguire? Stabilendo il criterio dei minimi quadrati: gli errori (ovvero gli scarti tra la retta di predizione e il punteggio realmente ottenuto dal soggetto) devono essere il più possibile piccoli, e il criterio operativo è quello di considerare il quadrato degli scarti, o errori. I metodi dell’analisi matematica forniscono la risposta con un’equazione dei minimi quadrati. 17 Gli errori positivi devono compensare quelli negativi La loro somma è uguale a zero Perciò, il criterio da minimizzare non può essere l’errore semplice, ma l’errore elevato al quadrato e la predizione si chiama Equazione della retta dei minimi quadrati Errore di previsione negativo Errore di previsione positivo Quella che è più vicina a tutti i punti, seguendo il criterio dei MINIMI QUADRATI Variabile dipendente, spiegata, valore osservato Yi mX i a i inclinazione Stima di y, valore predetto intercetta variabile indipendente errore Yˆi mX i a Il criterio può essere espresso con la formula N N 2 ˆ (Yi Yi ) min i 1 2 i i 1 Formula di calcolo mr sy sx ( X X )(Y Y ) N XY X Y N X ( X ) (X X ) i i 2 i a Y bX 2 2 Applicazione della formule 8 * 611 86 * 55 m 2 8 * 956 (86) 4888 4730 158 0,626 7648 7396 252 a 6,875 0,626 *10,75 0,135 Yˆ 0,135 0,626 * X somma media abilità 8 9 9 10 11 12 13 14 86 10,75 voto 5 5 6 7 7 8 9 8 55 6,875 voto_pre detto 5,15 5,78 5,78 6,4 7,03 7,66 8,29 8,91 55 6,875 Predizione usando i punti standardizzati PREDIZIONE CON PUNTI ZETA zˆ yi z xi rxy ẑyi = zeta predetto zxi = zeta predittore rxy = coefficiente di correlazione 27 Test R Test T p1 37 p2 Test R zeta test T zeta 50 1,33 0,45 39 75 1,49 1,58 p3 9 24 -0,86 -0,72 p4 8 11 -0,94 -1,31 p5 6 25 -1,09 -0,68 p6 39 78 1,49 1,71 p7 18 24 -0,16 -0,72 p8 16 20 -0,31 -0,90 p9 8 40 -0,94 0,00 p10 20 53 0,00 0,59 somma 200 400 0,00 0,00 dev stan 12,79 22,17 1,00 1,00 varianza 163,60 491,60 1,00 1,00 20 40 0,00 0,00 soggetti media PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. PRIMO PASSAGGIO: TRASFORMAZION E DEI PUNTEGGI IN PUNTI Z. 28 Sogg. Test R zeta Test T zeta prediz di T p1 1,33 0,45 1,13 p2 1,49 1,58 1,26 p3 -0,86 -0,72 -0,73 p4 -0,94 -1,31 -0,79 p5 -1,09 -0,68 -0,93 p6 1,49 1,71 1,26 p7 -0,16 -0,72 -0,13 p8 -0,31 -0,90 -0,26 p9 -0,94 0,00 -0,79 p10 0,00 0,59 0,00 somma 0,00 0,00 0,000 dev stan 1,00 1,00 0,847 varianza 1,00 1,00 0,718 media 0,00 0,00 0,000 PREDIZIONE DEL PUNTEGGIO OTTENUTO AL TEST T TRAMITE IL PUNTEGGIO AL TEST R CON I PUNTI Z. SECONDO PASSAGGIO: CALCOLO DELLA PREDIZIONE DI T CON LA FORMULA: zˆ yi z xi rxy 29 VARIANZA SPIEGATA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,86 -0,72 0,62 -0,73 P4 -0,94 -1,31 1,23 -0,79 P5 -1,09 -0,68 0,74 -0,93 P6 1,49 1,71 2,55 1,26 P7 -0,16 -0,72 0,11 -0,13 P8 -0,31 -0,9 0,28 -0,26 P9 -0,94 0 0 -0,79 P10 0 0,59 0 0 SOMMA 0 0 8,473 0 DEVIAZIONE STD 1 1 0,877 0,847 VARIANZA 1 1 0,769 0,718 MEDIA 0 0 0,847 0 Correlazione Varianza spiegata 30 VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,86 -0,72 0,62 -0,73 P4 -0,94 -1,31 1,23 -0,79 P5 -1,09 -0,68 0,74 -0,93 P6 1,49 1,71 2,55 1,26 P7 -0,16 -0,72 0,11 -0,13 P8 -0,31 -0,9 0,28 -0,26 P9 -0,94 0 0 -0,79 P10 0 0,59 0 0 SOMMA 0 0 8,473 0 DEVIAZIONE STD 1 1 0,877 0,847 VARIANZA 1 1 0,769 0,718 MEDIA 0 0 0,847 0 La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione. 31 VARIANZA SPIEGATA E RESIDUA SOGGETTO TEST R ZETA TEST T PRODOTTI PREDIZIONE ZETA ZETA DI T P1 P2 P3 1,33 1,49 0,45 1,58 0,6 2,34 1,13 1,26 -0,86 -0,72 0,62 -0,73 P4 -0,94 -1,31 1,23 -0,79 P5 -1,09 -0,68 0,74 -0,93 P6 1,49 1,71 2,55 1,26 P7 -0,16 -0,72 0,11 -0,13 P8 -0,31 -0,9 0,28 -0,26 P9 -0,94 0 0 -0,79 P10 0 0,59 0 0 SOMMA 0 0 8,473 0 DEVIAZIONE STD 1 1 0,877 0,847 VARIANZA 1 1 0,769 0,718 MEDIA 0 0 0,847 0 Correlazione 32 Notiamo che… La varianza spiegata è la varianza dei predetti, cioè la varianza spiegata dalla regressione. 33 PROPRIETÀ DELLA REGRESSIONE La varianza dei predetti è uguale al coefficiente di determinazione: r2 La deviazione standard dei predetti è uguale al coefficiente di correlazione (in quanto radice quadrata della varianza) 34 Per passare dai punti zeta ai punti grezzi Si può costruire o calcolare l’equazione di regressione usando i punti grezzi, senza passare per i punti standardizzati: yˆi zˆyi sy My Ottengo questa formula applicando la formula per passare dai punti zeta al punteggio grezzo: x=z·s+m dove: s = dev. std. m = media 35 PREDIZIONE CON MISURE SINTETICHE DI X E Y sy sy yˆi xi My - rxy Mx sx sx 36 ESEMPIO DI PREDIZIONE CON PUNTI GREZZI SOGGETTI TEST R TEST T P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 37 39 9 8 6 39 18 16 8 20 200 12,79 163,60 20,00 50 75 24 11 25 78 24 20 40 53 400 22,17 491,60 40,00 SOMMA DEVIAZIONE STD VARIANZA MEDIA COEFF ANGOLARE (m) 1,469 INTERCETTA (a) 10,632 0,847 CORRELAZIONE PRODOTTI R·T R2 T2 STIME 1850 2925 216 88 150 3042 432 320 320 1060 10403 1369 1521 81 64 36 1521 324 256 64 400 5636 2500 5625 576 121 625 6084 576 400 1600 2809 20916 64,97 67,91 23,84 22,37 19,44 67,91 37,06 34,12 22,37 40,00 400 18,79 352,96 40,00 37 RIASSUMENDO DALLA TABELLA Il soggetto p1 ha avuto punteggio 37 nel test R e 50 nel test T. Il test R è usato per predire il test T. Per predire il punteggio di p1 si utilizza l’equazione di regressione: T=R·m+a se m = 1.469 e a = 10.623 T= 37 ·1.469 +10.623= 64.97 38 Ricordiamo la correlazione fra le due misurazioni Correlazioni ab_verbale ab_verbale Voto_ scolastico Correlazione 1 ,912** di Pearson Sig. (2-code) ,002 N 8 8 Voto_scolastico Correlazione ,912** 1 di Pearson Sig. (2-code) ,002 N 8 8 **. La correlazione è significativa al livello 0,01 (2-code). Regressione con SPSS... Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 Sig. ,918 ,002 Costante additiva. E’ il valore della VD quando la VI è uguale a zero. In psicologia ha un senso relativo, dovuto all’arbitrarietà delle unità di misura (per i test mentali) Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 t di Student e sua significatività. Se non significativo, può essere omesso nell’equazione di regressione. Sig. ,918 ,002 Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 Sig. ,918 ,002 Errore standard della distribuzione campionaria della costante additiva. Serve per calcolare t e la significatività. In questo caso è molto grande in rapporto a B. La stima di B dà un valore non significativo Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 Perché non c’è niente qui? t ,107 5,460 Sig. ,918 ,002 Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 Ecco la costante moltiplicativa: è il valore che moltiplica il punteggio dell’abilità verbale t ,107 5,460 Sig. ,918 ,002 Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 Cefficiente beta standardizzato: con una sola VI, è uguale a r. Indica l’ammontare di cambiamento della VD per ogni unità della VI. Sig. ,918 ,002 Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 t di Student: se è significativa, si interpreta come valore diverso da zero, utile perciò nella predizione della VD Sig. ,918 ,002 Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 Significativià di t: se inferiore a 0,05, indica significatività del parametro b nella popolazione. Sig. ,918 ,002 Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 Errore standard (=deviazione standard della distribuzione campionaria del parametro moltiplicativo nella popolazione). Serve per calcolare la significatività Sig. ,918 ,002 Coefficientia Coefficienti non standardizzati Modello B Errore std. 1 (Costante) ,135 1,255 ab_verbale ,627 ,115 a. Variabile dipendente: Voto_scolastico Coeffici enti standar dizzati Beta ,912 t ,107 5,460 Errore standard (=deviazione standard della distribuzione campionaria del parametro moltiplicativo nella popolazione). Serve per calcolare la significatività Sig. ,918 ,002 Riepilogo del modello R-quadrato Modello R R-quadrato corretto 1 ,912a ,832 ,805 a. Stimatori: (Costante), ab_verbale Errore std. della stima ,644 R multiplo: indica la precisione della predizione. Importante nella regressione multipla. In quella semplice, R = r. È un valore sempre positivo, anche quando r è negativo. Riepilogo del modello R-quadrato Modello R R-quadrato corretto 1 ,912a ,832 ,805 a. Stimatori: (Costante), ab_verbale Quadrato di R multiplo. Se moltiplicato per 100, dà la percentuale di varianza spiegata dalla VI Errore std. della stima ,644 PERCHÉ STIMARE DEI VALORI CHE ABBIAMO GIÀ IN REALTÀ? Per testare le capacità del test di predizione, per poterlo poi usare in situazioni reali, dove non si conosce il punteggio da predire. 53 PARAMETRI Le rilevazioni eseguite su un campione forniscono dei riassunti (variabili casuali) che stimano i parametri della popolazione. I parametri della popolazione possono essere uguali a zero (e non influenzano la regressione) o diversi da zero (e allora la influenzano). 54 PRECISIONE DELLA STIMA Il punteggio predetto 30 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 30-19.03 e 30+19.03, ossia fra 10.97 e 49.03 Il punteggio predetto 90 è vicino a quello osservato, o reale, che non è conosciuto, ma è stimabile: c’è il 90% di probabilità che il valore esatto o osservato si situi entro l’intervallo 90-19.03 e 90+19.03, ossia fra 70.97 e 119.03 55 RIASSUMENDO La regressione statistica permette di stimare (o predire) il punteggio di un test (o di un’altra misurazione). Nella predizione del singolo caso non è mai possibile sapere se la predizione è esatta o molto sballata. Si può quantificare la predizione totale, fatta su tutti i casi (presenti e futuri): la quota di varianza spiegata (r2) è un utile indice per definire la precisione della predizione. 56 MECCANISMO DELLA PREDIZIONE O DELLA STIMA Per ogni individuo, l’equazione della regressione predice un valore di Y, indicato con Ŷ, simile ma non uguale al valore osservato Y Y sta vicino a Ŷ, con alta probabilità è molto vicino, con bassa probabilità è molto lontano dal valore vero Perciò, se non si può calcolare il punteggio reale, si può affermare che esso deve trovarsi con il 90 % (o altri livelli) di probabilità entro un certo intervallo calcolabile. 57