Regressione Tale tecnica esamina e studia la relazione tra una o più variabili indipendenti e una variabile dipendente. • L’insieme dei parametri riassumono la relazione tra VD e VI, sotto le ipotesi che la VD sia determinata dalle VI. Es. la performance all’esame in relazione alle ore di studio a casa e alle abilità cognitive Scopo della REGRESSIONE Permette di comprendere gli effetti delle VI sulle VD in funzione di un modello teorico Permette di individuare una combinazione lineare di VI per predire il valore della VD ESPLICATIVO PREDITTIVO Matrice di partenza Matrice di correlazione/covarianza che riassume le relazioni lineari tra la VD e le VI e l’eventuale relazione tra le stesse variabili indipendenti. N.B. VD: su scala ad intervalli equivalenti VI: quantitative Matrice di arrivo •parametri che riassumono la relazione tra VD e VI •Statistica per l’esame della significatività dei parametri (t) e valore di probabilità (p) associato ad ogni parametro •Valori che riassumono la variazione complessiva della VD imputabile al movimento delle VI (variazione congiunta): R: è un indice di adattamento che esprime la correlazione tra la VD e le VI R2:è un indice di adattamento del modello lineare ai dati (rapporto tra sommatoria dei quadrati di regressione e sommatoria dei quadrati totali) rappresenta quanto della variazione totale viene spiegata dal modello lineare, ovvero la variabilità condivisa dalle variabili F:è una statistica all’ interno di una distribuzione di probabilità adeguata ad effettuare la verifica di ipotesi sull’ adattamento del modello. Es. È possibile prevedere, in base all’altezza di un soggetto, il suo peso? 1. Individuare le VI su cui regredisce la VD; 2. Ipotizzare che la VI determini/influenzi/predica la VD; 3. Individuare la retta (teorica) che permetta di prevedere al meglio i punteggi della VD a partire da quelli della VI. ALCUNI PASSI FONDAMENTALI… 1.Valutazione dell’adeguatezza delle variabili (livello di misura, collinearità tra i predittori); 2.Scelta della strategia analitica per inserire le VI; 3.Interpretazione della soluzione. 4.Verifica della forza esplicativa dei parametri. Maggiore è l’elevazione dei parametri (standardizzati), maggiore è l’adeguatezza del modello. N.B. Il termine “collinearità” (collinearity) si riferisce alla possibilità che almeno due variabili indipendenti siano perfettamente correlate fra loro oppure che una variabile indipendente sia una combinazione lineare di alcune o di tutte le altre variabili indipendenti. Errore di previsione o residuo: le relazioni tra le variabili non sono perfette, quindi nell’equazione di regressione è presente un termine di errore (o residuo) per ogni caso. Criterio Intercetta: il punto in cui la retta incrocia l’asse delle ordinate e corrisponde al valore atteso di Y quando X= 0 Predittore Coefficiente angolare o Coefficiente di Regressione: l’inclinazione della retta di regressione di Y su X e indica di quante unità cambia Y per una variazione unitaria della X. METODO DEI MINIMI QUADRATI È il metodo che viene usato per scegliere la migliore retta possibile, cioè quella retta che rende MINIMA la somma delle distanze al quadrato tra le y (v. osservate) e le y’ (v. stimate). LARETTA DI REGRESSIONE È LA MIGLIORE TRA TUTTE LE INFINITE RETTE CHE SI POSSONO FAR PASSARE ATTRAVERSO I PUNTI DEL DIAGRAMMA DI DISPERSIONE Tipi di analisi della regressione 1 VI e 1 VD=Regressione lineare semplice Più VI e 1 VD=Regressione lineare multipla Più VI e più VD=Regressione lineare multipla multivariata Regressione lineare multipla (caratterizzata da più VI) La VI deve essere quantitativa e la VD devono essere misurata almeno su scala ad intervalli; La varianza di ogni VI deve essere > 0; Il campionamento deve essere casuale semplice; La relazione tra la VI e la VD deve essere lineare; Non devono essere omesse VI rilevanti, o incluse VI irrilevanti; Assenza dell’errore di misurazione assunta per la VI; Assenza di MULTICOLLINEARITA’: se vi sono più VI nessuna di esse deve essere una combinazione lineare perfetta delle altre. Se i predittori sono troppo correlati tra di loro ciò causa problemi logici (ridondanza) e problemi statistici (aumenta la dimensione dei termini d’errore, indebolendo l’analisi) Una regressione multipla può essere realizzata in un gran numero di modi diversi. Le principali strategie di regressione multipla sono fondamentalmente tre: standard o simultaneo : tutte le variabili indipendenti vengono inserite insieme nell’equazione di predizione. Ogni variabile indipendente viene quindi valutata in termini di cosa aggiunge alla predizione della variabile dipendente rispetto alla predizione garantita da tutte le altre variabili indipendenti. gerarchica o sequenziale: le variabili indipendenti sono inserite nell’equazione in un ordine specificato dal ricercatore, una alla volta, oppure, più comunemente, a blocchi. Ogni variabile o blocco di variabili indipendenti viene valutato in termini di cosa aggiunge alla spiegazione della variabilità della variabile dipendente al momento del suo ingresso. Il ricercatore di solito assegna l’ordine di entrata delle variabili nel modello in base a considerazioni di ordine logico o teorico, per cui non esiste una regola fissa. Statistica: è una procedura in cui l’ordine di entrata nel modello delle variabili è basato unicamente su criteri statistici. Le decisioni circa quali variabili inserire o escludere dall’equazione di regressione sono basate solo sulle statistiche calcolate nel campione oggetto della ricerca. Con SPSS… Per l’elaborazione delle variabili, possono essere utilizzati diversi metodi: • Per blocchi: si valutano contemporaneamente tutti i predittori. Si usa per la regressione standard e gerarchica. • Per passi (Stepwise), Rimozione (Remove), Indietro (Backward), e Avanti (Forward) che si usano nella regressione se si vuole verificare l’apporto di ogni singolo predittore nei confronti di quanto già spiegato dagli altri rispetto alla predicibilità statistica. Si usano per la regressione statistica Assunzioni sui residui •Il valore atteso dei residui deve essere = 0 •Omoschedasticità •La distribuzione dei valori dei residui per ogni X deve essere normale •Le VI non devono essere correlate con i residui Esempio 1: L’intenzione di acquisto di un motorino da parte di un adolescente può essere influenzata da una serie di fattori, quali l’atteggiamento, il comportamento passato d’acquisto e il comportamento d’acquisto dei pari? Si procede dal menu’ Analizza (Analyze): Verrà visualizzata questa schermata nella quale si possono inserire, selezionandole, le variabili indipendenti (o predittori) e la variabile dipendente. Per Blocchi (Enter) si valutano contemporaneamente tutti i predittori /o a blocchi stabilendo un ordine di entrata Per passi (Stepwise), Rimozione (Remove), Indietro (Backward) e Avanti (Foward) si usano per valutare le variabili singolarmente Da questa schermata si selezionano i coefficienti ritenuti necessari. Coefficiente di regressione B errore standard di B Beta standardizzato valore t per B livello di significatività R multiplo R2 e R2 corretto errore standard della stima tabella di analisi della varianza per la signif. di R2 Statistiche Descrittive Media del punteggio totale per ciascuna variabile Deviazione standard per ogni variabile Descriptive Statistics inacquisto compPassato attegg compPari Mean Std. Dev iation 10.4325 8.43085 10.6765 3.10686 9.4067 3.36445 47.5970 11.00557 N°casi validi N 541 541 541 541 Correlazioni Correlazione tra le variabili Correlations Pearson Correlation livello di significatività a una coda Sig. (1-tailed) N inac quisto compPass ato attegg compPari inac quisto compPass ato attegg compPari inac quisto compPass ato attegg compPari inac quisto 1.000 .530 .379 .517 . .000 .000 .000 541 541 541 541 compPass ato .530 1.000 .541 .495 .000 . .000 .000 541 541 541 541 numero di casi per ogni correlazione attegg .379 .541 1.000 .294 .000 .000 . .000 541 541 541 541 compPari .517 .495 .294 1.000 .000 .000 .000 . 541 541 541 541 Variabili inserite/rimosse b Var iab les Enter ed /Remo ved Model 1 Variables Entered com pPari, at tegg, com p a Passato Variables Rem ov ed variabili inserite ed/o eliminate dal modello. variabili inserite contemporaneamente Met hod . Enter a. All request ed v ariables ent ered. b. Dependent Variable: inacquisto Le VI presentano una correlazione multipla (R) con la VD di.61 R2 corretto (Adjusted R square) per i gradi di libertà per rendere lo stimatore efficiente La varianza spiegata è del 37% R-quadrato (R Square) Riepilogo del modello La frazione di varianza spiegata dal modello è statisticamente significativa. Model Summaryb Change Statistics Model 1 R R Square .614a .377 Adjusted R Square .373 Std. Error of the Estimate 6.67550 R Square Change .377 F Change 108.109 df 1 3 df 2 537 Sig. F C hange .000 DurbinWatson 1.806 a. Predictors: (Constant), compPari, attegg, compPassato b. Dependent Variable: inacquisto ANOVAb Model 1 Regress ion Res idual Total Sum of Squares 14452.827 23929.960 38382.787 df 3 537 540 Mean Square 4817.609 44.562 a. Predic tors: (Cons tant), compPari, attegg, c ompPassato b. Dependent Variable: inac quisto F 108.109 Sig. .000a Test F legato alla significatività dell’indice di adattamento R2 (Variazione di F /F) Cambiamento di R quadrato più statistica è importante in particolare per la regressione gerarchica B indica la pendenza della retta nei termini delle unità di scala impiegata Se il valore 0 è compreso tra i limiti superiore ed inferiore, la stima non risulta essere statisticamente diversa da 0. In questo caso sono significativi, poiché lo 0 non è compreso! Coefficienti Il t corrisponde al rapporto tra Be deviazione standard errore Coefficientsa Model 1 (Constant) compPassato attegg compPari Unstandardized Standardized Coeff icients Coeff icients B Std. Error Beta -13.225 1.376 .817 .121 .301 .294 .102 .117 .256 .030 .334 t -9.613 6.750 2.895 8.506 Sig. .000 .000 .004 .000 95% Conf idence Interval f or B Correlations Lower Bound Upper Bound Zero-order Partia l -15.927 -10.522 .579 1.055 .530 .280 .095 .494 .379 .124 .197 .315 .517 .345 Part .230 .099 .290 Collinearity Statistics Tolerance VIF .584 .706 .754 1.713 1.416 1.326 a. Dependent Variable: inacquisto L’errore standard indica la varianza d’errore nella stima del valore esatto di B nella popolazione I valori di probabilità sono inferiori a .05 I B standardizzati (Beta) corrispondono all’R, permettono di vedere quale VI risulta più Importante. Il valore zero non è compreso in questi limiti per nessuno dei parametri, quindi essi risultano tutti statisticamente significativi Tutti i coefficienti sono significativamente diversi da zero. Tutte le variabili predicono il comportamento d’acquisto, il comportamento d’acquisto dei pari ha un peso maggiore. N.B. Gli intervalli di confidenza si utilizzano per valutare l’accuratezza dei punteggi predetti. L’intervallo indicherà con un livello di fiducia del 95% il range dei valori delle Y, in cui dobbiamo attenderci che cada la nostra stima di Y per X=XI. Sappiamo che più stretto è l’intervallo, migliore sarà la nostra predizione. Usando la logica della comprensione dell’inclusione o meno dello zero, equivale a stimare la larghezza dell’intervallo. Se lo zero non è compreso, l’intervallo è più stretto. Sempre nella tabella dei coefficienti analizziamo le correlazioni Coefficientsa dardized Coefficienti di f icients 95% Conf idence Interval f or B Correlations correlazione di Ordine Beta t Sig. Lower Bound Upper Bound Zero-order Partial Zero-9.613 (r di Pearson) tra -10.522 .000 -15.927 ogni 6.750 singolo.000predittore .301 .579 1.055 .530 .280 e la variabile .117 2.895 .004 .095 .494 .379 .124 .334 8.506 .000 .197 .315 .517 .345 dipendente Part .230 .099 .290 Collinearity Statistics Tolerance VIF .584 .706 .754 1.713 1.416 1.326 Coefficienti di correlazione Parziali indicano le correlazioni tra ogni singolo predittore e la variabile dipendente tenendo sotto controllo congiuntamente gli altri predittori. La porzione della varianza la ottengo elevando al quadrato il coefficiente pr2 Coefficienti di correlazione Semiparziali o Indipendenti rappresentano la correlazione tra una VI e la VD quando tutte le altre VI vengono parzializzate per la VI e non per la VD. NB la proporzione della varianza totale della VD spiegata unicamente da una data VI, al netto di tutte le altre si ottiene elevando al quadrato questo indice sr2 Le statistiche di collinearità analizzano la ridondanza tra le variabili indipendenti nterv al f or B Correlat ions pper Bound Zero-order Part ial -10.522 1. 055 .530 .280 .494 .379 .124 .315 .517 .345 Part .230 .099 .290 Collinearity Statistic s Toleranc e VIF .584 .706 .754 La statistica VIF (Variance Inflation Factor) è il reciproco della statistica Tolerance 1. 713 1. 416 1. 326 L’indice di tolleranza viene utilizzato per stimare quanto una variabile indipendente è linearmente correlata alle altre variabili indipendenti. Varia tra 0 e 1. Maggiore è l’indice di tolleranza, minore è la varianza che la variabile condivide con le altre, maggiore è la sua spiegazione della VD. Diagnostiche di collinearità a Collinearity Diagnostics Model 1 Dimension 1 2 3 4 Eigenv alue 3.869 .070 .037 .024 Condition Index 1.000 7.408 10.282 12.727 (Constant) .00 .10 .31 .58 Variance Proportions compPass ato attegg .00 .01 .00 .73 .80 .20 .20 .06 compPari .00 .10 .00 .90 a. Dependent Variable: inac quisto Se gli autovalori (Eingenvalue) sono prossimi allo 0, le variabili sono fortemente correlate Se l’indice di collinearità è compreso tra 15 e 30, indica possibili problemi di collinearità, se è maggiore di 30 la collinearità è grave. Esempio 2: L’autostima correla altamente con diverse componenti del benessere psicologico: autonomia controllo ambientale crescita personale relazioni positive con gli altri scopo nella vita autoaccettazione Una ricerca vuole indagare quali di questi fattori del benessere possa influire sull’autostima di un campione 70 preadolescenti attraverso specifici self-report Descriptive Statistics atostima tot ben autonomia ben controllo ambientale ben crescita personale ben relazioni positiv e con gli altri ben scopo nella v ita ben autoaccettazione Mean Std. Dev iation 296.3286 47.08510 12.8714 2.97780 11.8429 3.28208 13.9429 2.63139 N 70 70 70 70 13.0000 3.45153 70 10.5429 12.6429 2.59702 3.36666 70 70 Correlations Pearson Correlation Sig. (1-t ailed) N at ostima t ot ben autonomia ben controllo ambientale ben crescit a personale ben relazioni positiv e con gli altri ben sc opo nella v ita ben autoac cett azione at ostima t ot ben autonomia ben controllo ambientale ben crescit a personale ben relazioni positiv e con gli altri ben sc opo nella v ita ben autoac cett azione at ostima t ot ben autonomia ben controllo ambientale ben crescit a personale ben relazioni positiv e con gli altri ben sc opo nella v ita ben autoac cett azione at ostima t ot 1. 000 .190 .413 .294 ben aut onomia .190 1. 000 .114 .330 ben controllo ambient ale .413 .114 1. 000 .200 ben crescit a personale .294 .330 .200 1. 000 ben relazioni pos itiv e con gli altri .479 .120 .206 .340 ben sc opo nella v it a .007 -. 131 -. 274 -. 002 ben aut oac cet tazione .412 .484 .163 .336 .479 .120 .206 .340 1. 000 .010 .479 .007 .412 . .058 .000 .007 -. 131 .484 .058 . .175 .003 -. 274 .163 .000 .175 . .048 -. 002 .336 .007 .003 .048 . .010 .479 .000 .162 .044 .002 1. 000 -. 039 .478 .139 .011 .494 -. 039 1. 000 .000 .000 .089 .002 .000 .162 .044 .002 . .468 .000 .478 .000 70 70 70 70 .139 .000 70 70 70 70 .011 .089 70 70 70 70 .494 .002 70 70 70 70 .468 .000 70 70 70 70 . .375 70 70 70 70 .375 . 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 70 b Variables Entered/Removed Model 1 Variables Entered ben aut oac cett azione, ben sc opo nella v it a, ben controllo am bient al e, ben crescit a personale, ben relazioni pos itiv e con gli altri, ben a aut onomia Variables Rem ov ed . Met hod Enter Il test di Durbin-Watson esamina la presenza di autocorrelazione tra i residui . Infatti, i residui non devono essere correlati. Il suo valore è tra 0 e 4. Se non vi è correlazione il suo valore è intorno a 2, valori inferiori indicano correlazione positiva, superiori negativa a. All request ed v ariables ent ered. b. Dependent Variable: atostim a t ot Model Summaryb Change Statistics Model 1 R R Square .617a .380 Adjusted R Square .321 Std. Error of the Estimate 38.78521 R Square Change .380 F Change 6.449 df 1 df 2 6 Sig. F Change 63 .000 DurbinWatson 2.121 a. Predictors: (Constant), ben autoaccettazione, ben scopo nella v ita, ben controllo ambientale, ben crescita personale, ben relazioni positive con gli altri, ben autonomia b. Dependent Variable: atostima tot La varianza spiegata (R2)è del 38% Le variabili presentano una correlazione multipla (R) di .61 con la VD ANOVAb Model 1 Regress ion Res idual Tot al Sum of Squares 58203. 000 94770. 443 152973. 4 df 6 63 69 Mean Square 9700.500 1504.293 F 6. 449 Sig. .000a a. Predic tors: (Cons tant ), ben aut oacc ett azione, ben scopo nella v ita, ben controllo am bient ale, ben crescita personale, ben relazioni posit iv e con gli alt ri, ben aut onomia b. Dependent Variable: at ostim a t ot La statistica F per la verifica delle ipotesi risulta essere significativa, rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa. Le componenti del benessere potrebbero predire l’autostima. Questo dato non è ancora sufficiente per sapere se tutti i predittori mostrano significatività statistica nei confronti della VD. Coefficientsa Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta 1 (Constant) 114.860 40.019 ben autonomia .297 1.883 .019 ben controllo ambientale 4.827 1.533 .336 ben crescita personale .988 2.009 .055 ben relazioni positive 4.034 1.624 .296 con gli altri ben scopo nella vita 1.919 1.892 .106 ben autoaccettazione 2.691 1.817 .192 95% Confidence Interval for B Correlations Lower Bound Upper Bound Zero-order Partial 34.888 194.832 -3.466 4.060 .190 .020 1.764 7.889 .413 .369 -3.025 5.002 .294 .062 t 2.870 .158 3.149 .492 Sig. .006 .875 .003 .624 2.484 .016 .789 7.279 .479 1.015 1.481 .314 .144 -1.861 -.941 5.700 6.323 .007 .412 Part Collinearity Statistics Tolerance VIF .016 .312 .049 .693 .862 .780 1.442 1.160 1.281 .299 .246 .694 1.441 .127 .183 .101 .147 .903 .582 1.107 1.717 a. Dependent Variable: atostima tot Solo il coefficiente t del controllo ambientale e delle relazioni positive con gli altri è significativamente diverso da 0 riuscendo a Influire sull’autostima Solo per questi due parametri lo zero non è compreso negli intervalli di confidenza pr2La proporzione di varianza dell’autostima non spiegata dalle altre VI che è spiegata unicamente da una data VI al netto delle altre. a Coefficients«controllo ambientale» è pari a .392=15% Unstandardized Standardized Coefficients Coefficients Model B Std. Error Beta (Constant) 114.860 40.019 ben autonomia .297 1.883 .019 ben controllo ambientale 4.827 1.533 .336 ben crescita personale .988 2.009 .055 ben relazioni positive 4.034 1.624 .296 con gli altri ben scopo nella vita 1.919 1.892 .106 ben autoaccettazione 2.691 1.817 .192 a. Dependent Variable: atostima tot La correlazione tra la variabile «controllo ambientale» e autostima è di .41 95% Confidence Interval for B Correlations Lower Bound Upper Bound Zero-order Partial 34.888 194.832 -3.466 4.060 .190 .020 1.764 7.889 .413 .369 -3.025 5.002 .294 .062 t 2.870 .158 3.149 .492 Sig. .006 .875 .003 .624 2.484 .016 .789 7.279 .479 1.015 1.481 .314 .144 -1.861 -.941 5.700 6.323 .007 .412 Part Collinearity Statistics Tolerance VIF .016 .312 .049 .693 .862 .780 1.442 1.160 1.281 .299 .246 .694 1.441 .127 .183 .101 .147 .903 .582 1.107 1.717 sr2 (Coefficiente semiparziale al quadrato): proporzione di varianza totale dell’autostima spiegata unicamente da una data VI, al netto di tutte le altre. La variabile «controllo ambientale» è quella che presenta un contributo unico più elevato nella spiegazione della VD (0.312=9.6%) Residuals Statisticsa Minimum Maximum Predicted Value 228.2943 366.4516 Residual -100.220 93.52456 Std. Predicted Value -2.342 2.414 Std. Residual -2.584 2.411 Mean Std. Dev iation 296.3286 29.04345 .00000 37.06055 .000 1.000 .000 .956 a. Dependent Variable: atostima tot La media dei residui standardizzati e grezzi è uguale a 0 il primo assunto è rispettato. a Coll inearity Di agnosti cs Variance Proportions Model 1 Dimension 1 2 3 4 5 6 7 Eigenv alue 6. 743 .083 .063 .052 .028 .020 .011 Condition Index 1. 000 8. 993 10. 382 11. 437 15. 425 18. 267 25. 092 a. Dependent Variable: at ostima t ot (Const ant) .00 .00 .01 .00 .00 .00 .98 ben aut onomia .00 .00 .05 .27 .03 .48 .17 ben controllo ambient ale .00 .21 .46 .00 .16 .00 .18 ben crescit a personale .00 .00 .00 .00 .39 .52 .09 ben relazioni pos itiv e con gli altri .00 .01 .04 .51 .08 .34 .02 ben sc opo nella v it a .00 .39 .04 .00 .13 .00 .42 ben aut oac cet tazione .00 .01 .18 .00 .47 .31 .02 N 70 70 70 70 L’istogramma e il normal probability plot (NPP) dei residui standardizzati, sono utilizzati per verificare se sia plausibile l’assunzione di normalità dei residui. Come possiamo osservare i residui seguono approssimativamente una distribuzione normale, sebbene sia riscontrabile una certa asimmetria nei dati. Nel NPP, i punti tendono a disporsi approssimativamente lungo una retta. Si può concludere che i residui standardizzati sono realizzazioni di una distribuzione normale standard.