Strumenti informatici 7.5 - Realizzare l’analisi di regressione multipla con SPSS Nella sua forma base, Excel non consente di realizzare un’analisi di regressione multipla, mentre SPSS offre un ventaglio di opzioni di analisi molto ampio. Supponiamo di avere a disposizione i dati di 100 studenti di psicometria al primo anno riguardo al Genere, al punteggio in un test di profitto in matematica, al numero di lezioni seguite durante il corso e al punteggio alla scala Spatial di OSIVQ: il criterio da predire è l’ansia nei confronti della statistica, misurata anch’essa mediante apposito test. I dati sono raccolti nel file regressione_esempio.sav. Dopo aver organizzato i dati in colonne come abbiamo visto nel Scheda strumenti informatici 7.4, il percorso da seguire è sempre Analyze → Regression → Linear. Nella finestra che si apre, dovremo inserire la variabile dipendente Ansia nel campo Dependent e i predittori nel campo Independent(s) (Figura 7.5.1) Figura 7.5.1 Impostazione di un’analisi di regressione multipla in SPSS Il riquadro che contiene il campo Independent(s) è indicato come Block 1 of 1. I blocchi sono i gruppi di variabili che possono essere inserite o tutte insieme per realizzare una regressione simultanea, o una o più alla volta per realizzare una regressione gerarchica. Clickando su Next il nome del riquadro diventa Block 2 of 2 e il campo Independent(s) risulta vuoto, in quanto costituisce il secondo blocco di variabili da inserire nell’equazione. Sempre clickando su Next si possono inserire quanti blocchi si desidera. Per tornare ai blocchi precedenti basta clickare su Previous. Sempre nel medesimo riquadro è presente anche il campo Method, con un menu a tendina: mediante questa opzione è possibile scegliere se realizzare per quel blocco una regressione simultanea (tutti i predittori inseriti nel modello simultaneamente, opzione Enter, che è anche quella di default) o statistica. Oltre alle opzioni Stepwise, Forward e Backward descritte nel testo, è presente anche un’ulteriore metodo, Remove. Remove può essere utilizzato solo dal secondo blocco di variabili in avanti, poiché permette di decidere in anticipo la rimozione di alcune variabili dal modello, indipendentemente dagli aspetti statistici. Ad esempio, potremmo inserire nel blocco 1 tutti i predittori, e decidere, al blocco 2, di rimuovere forzatamente il genere. Per far questo inseriremo nel campo Independent(s), Block 1 of 1 tutti i predittori e sceglieremo il metodo Enter. Clickeremo su Next e nel Block 2 of 2 inseriremo nel campo Independent(s) il Genere e sceglieremo il metodo Remove. Ad ogni modo, è una procedura per certi versi insolita e che per essere applicata richiede una notevole competenza nella specificazione del modello. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Il campo Selection Variable permette di specificare una variabile di selezione dei soggetti. Supponiamo di voler realizzare l’analisi di regressione separatamente per maschi e femmine. Inseriamo la variabile Genere nel campo Selection Variable, e clickiamo su Rule. Si aprirà una finestra che ci consentirà di indiacre un valore, Value, e di scegliere la regola: equal to (uguale a), not equal to (diverso da), less than (minore di), less than or equal to (minore o uguale a), greater than (maggiore di), greater than or equal to (maggiore o uguale a). Nel caso del genere sceglieremo dal menu a tendina equal to e nel campo Value inseriremo 0 per le femmine e 1 per i maschi. Si noti che la variabile di selezione non può comparire fra i predittori nel campo Independent(s). Nel campo Case Labels è possibile inserire una variabile che contiene le etichette delle unità di analisi (numeri, nome, etc.). E’ utile perché l’etichetta viene riportata nei diagrammi a dispersione, e consente di identificare direttamente dal grafico quale soggetto corrisponde ad un determinato punto della nube: se è un potenziale outlier, è possibile sapere subito quale soggetto è. Per poter sfruttare questa possibilità, però, occorre aver predisposto una variabile che contenga i nomi o i codici dei soggetti. Nel campo WLS Weight viene inserita una variabile che contiene dei pesi da assegnare ad ogni caso per realizzare in base alla sua varianza. In pratica, i punti vengono pesati per il reciproco della loro varianza, in modo che i soggetti con varianze maggiori abbiano minore impatto sui risultati rispetto a quelli con varianze più contenute. Se il valore del peso è zero, negativo o mancante, il caso viene escluso dall’analisi. Anche questa opzione viene utilizzata in analisi un po’ più complesse e che richiedono una preparazione più approfondita. Clickando su Statistics si apre la finestra in Figura 7.5.2 Figura 7.5.2 Finestra Statistics per la scelta delle statistiche da produrre per un’analisi di regressione multipla Nel riquadro in alto a sinistra (Regression Coefficients) è possibile scegliere quali statistiche ottenere per i coefficienti di regressione. E’ ovviamente spuntato di default Estimates, ossia le stime, ma è possibile richiedere anche Confidence Intervals (intervalli di fiducia), che permette di ottenere i limiti degli intervalli di fiducia delle stime dei parametri ad un livello del 95%, e Covariance Matrix, ossia la matrice di covarianza e di correlazione dei coefficienti di regressione. Questa matrice viene utilizzata per calcolare gli errori standard delle stime, e rappresenta una stima delle correlazioni e delle covarianze che si osserverebbero fra i coefficienti di regressione se dalla popolazione venissero estratti tutti i possibili campioni di n elementi e si stimassero i coefficienti di regressione per ognuno di essi. Nella parte di sinistra della finestra in Figura 7.5.2 troviamo le opzioni per ottenere gli indici che ci permetteranno di valutare la bontà di adattamento del modello ai dati, la dimensione dell’effetto ed eventuali problemi di collinearità. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Model fit produce le tabelle Model Summary e ANOVA che abbiamo visto in Figura 7.4.4 nella scheda Strumenti informatici 7.4 e che permettono di ottenere il valore di R (correlazione del criterio col set di predittori), R2 (proporzione di variabilità del criterio spiegata dai predittori), Adjusted R2 e l’errore standard della stima. L’opzione R squared change è utile nel caso in cui si scelga una strategia di regressione multipla di tipo gerarchico o statistico, in quanto mostrerà come varia il valore di R2 in base alla successive inclusioni e/o esclusioni di predittori (o blocchi di predittori) a partire dal modello iniziale e se questo cambiamento è statisticamente significativo. Questa informazione è fondamentale soprattutto quando si studia la validità incrementale di un test: se l’aggiunta del punteggio al test come predittore nell’equazione di regressione multipla non comporta un aumento significativo della proporzione di variabilità spiegata dal predittore, il test non possiede validità incrementale. Descriptives permette di ottenere le statistiche descrittive (media, deviazions standard e numero di casi validi) del criterio e dei predittori e, soprattutto, la matrice di correlazione bivariata fra tutte le variabili interessate dall’analisi, che ci interessa particolarmente per due motivi: ci consente infatti di: 1. valutare da subito l’entità della correlazione fra il criterio e i predittori, individuando eventualmente i predittori da escludere dal modello poiché la loro correlazione bivariata col criterio è inferiore, a |,20| (o altro valore di correlazione scelto) 2. realizzare un’esame iniziale delle possibili collinearità fra i predittori, indicate da coefficienti di correlazione maggiori di ,50. Ad ogni modo, quale che sia il risultato di questo “screening” iniziale, deve poi essere confermato dalle diagnostiche di collinearità (vedi oltre) L’opzione Part and partial correlations è anch’essa importante perché ci consente di ottenere nella stessa tabella dove compaiono i coefficienti di regressione (Coefficients, vedi Figura 7.4.4 della scheda Strumenti informatici 7.4) la correlazione di ordine zero (ossia le bivariate), la correlazione parziale (Part) e la correlazione parziale indipendente (Partial) fra ogni predittore e il criterio1. La correlazione Part è la correlazione residua fra predittore e criterio dopo che è stata rimossa statisticamente la correlazione dovuta alla loro associazione con le altre variabili, ossia la correlazione che rimane dopo che gli effetti lineari delle altre variabili indipendenti del modello sono state rimosse da sia dal predittore in questione che dal criterio. La correlazione Partial, invece, è la correlazione residua fra un predittore e il criterio dopo che gli effetti lineari degli altri predittori sono stati rimossi solo dal criterio. Se elevato al quadrato, questo valore corrisponde al cambiamento in R2 quando la variabile viene aggiunta all’equazione di regressione. L’opzione Collinearity diagnostics permette di ottenere le diagnostiche di collinearità, ossia il valore di Tolerance e VIF nella tabella Coefficients e un’altra tabella, chiamata proprio Collienarity Diagnostics, che permette un’analisi più approfondita delle eventuali cause di collinearità. Nel riquadro Residuals troviamo due opzioni importanti per la verifica delle assunzioni della regressione e della presenza di outliers. Il Durbin-Watson è un test di autocorrelazione dei residui, ossia degli errori di predizione, che in base alle assunzioni della regressione non devono essere correlati fra loro. Il valore atteso di questo indice in caso di assenza di autocorrelazione fra i residui è 2: se è inferiore a 2 l’autocorrelazione fra gli errori è negativa, se è superiore è positiva. Se l’analisi è condotta su almeno 100 soggetti e con almeno 2 predittori, la gamma di valori accettabili va da 1,5 a 2,2 (Dillon & Goldstein, 1984). L’opzione Casewise diagnostics permette invece di 1 In questo caso purtroppo i termini utilizzati da SPSS sono un po’ fuorvianti, in quanto la correlazione indicata come Part corrisponde alla definizione di correlazione parziale (si veda la sezione 2.3.3 di questo capitolo), mentre la correlazione indicata come Partial corrisponde a quella che usualmente viene chiamata correlazione semiparziale, in quanto gli effetti della terza (o delle altre variabili) sono rimossi solo dalla variabilità di una delle due variabili interessate dall’analisi. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia ottenere informazioni sui possibili outliers, perché produce una tabella con i valori dei residui (sia grezzi che standardizzati), il valore atteso e il valore osservato del criterio per tutti quei casi che presentano un residuo standardizzato superiore al numero di deviazioni standard indicate in Outliers outside o per tutti i casi (All cases) e un’altra tabella, chiamata Residual Statistics che contienele statistiche descrittive (minimo, massimo, media, deviazione standard e numero di casi validi) per i valori predetti, per il residui, per i valori predetti standardizzati e per i residui standardizzati. Se dalla finestra principale (Figura 7.5.1) clickiamo su Plots, otteniamo una finestra che ci consente di richiedere la produzione di alcuni grafici che permettono l’esame visivo delle assunzioni di normalità, linearità, e omogeneità delle varianze e di individuare casi non validi, outliers e i cosiddetti “casi influenti” (influential data) (Figura 7.5.3) Figura 7.5.3 Finestra di SPSS per l’impostazione dei grafici per la regressione multipla Le etichette nel campo sulla sinistra della finestra significano: DEPENDNT = punteggio grezzo nel criterio (variabile dipendente) *ZPRED = punteggi predetti (stimati) standardizzati *ZRESID = residui standardizzati *DRESID = residui “cancellati” (D sta per deleted), ossia residui quando l’unità di analisi viene eliminata dall’analisi *ADJPRED = punteggio teorico “aggiustato” di un caso quando questo viene eliminato dalla regressione *SRESID = residuo “studentizzato” (da cui la S), che è un tipo particolare di residuo standardizzato calcolato dividendolo per la sua deviazione standard e che dipende dalla distanza dei valori di ogni caso sulle variabili indipendenti dalle medie delle variabili indipendenti. *SDRESID = residuo cancellato studentizzato, che viene ottenuto dividendo il residuo per il suo errore standard. La differenza fra un residuo cancellato studentizzato e il suo residuo studentizzato indica quanta differenza fa eliminare quel caso sul suo valore predetto Per costruire un diagramma a dispersione fra due di questi valori basta inserire nel campo Y: e nel campo X: le variabili che si desidera compaiano sull’asse verticale e orizzontale, rispettivamente. Per impostare più di un grafico occorre clickare sul pulsante Next. Dal riquadro Standardized Residual Plots è possibile ottenere l’istogramma (Histogram) e il grafico di probabilità normale (Normal probability plot), che rappresentano la distribuzione dei residui standardizzati e il confronto fra la distribuzione dei residui standardizzati e una distribuzione normale. Se si spunta Produce alla partial plots si ottengono i grafici parziali, ossia i diagrammi a dispersione dei residui di un singolo predittore e dei residui del criterio quando entrambe vengono fatte regredire separatamente sul resto dei predittori (per cui è necessario che nel modello vi siano Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia almeno due variabili). Tali grafici possono essere utilizati per esaminare le assunzioni di linearità, additività e omoschedasticità. Se dalla finestra principale (Figura 7.5.1) clickiamo su Save si apre una finestra con lo stesso nome che permette di scegliere quali risultati o indici salvare come nuove variabili nel file di dati. L’esame di questi valori permette di evidenziare eventuali outliers (Figura 7.5.4). Figura 7.5.4 Finestra di SPSS per la produzione degli indici per la valutazione degli outliers I valori nei riquadri Predicted Value e Residuals sono gli stessi descritti a proposito della finestra Plots. Si noti che Unstandardized in Predicted Values è semplicemente Ŷ e in Residuals è Ŷ−Y. Nel riquadro Distances è possibile chiedere la produzione di indici che permettono di identificare gli outliers determinati da combinazioni rare di valori sui predittori. Mahalanobis: è una misura della distanza di un caso dalla media di tutti i casi sui predittori e consente di individuare quei casi che hanno valori estremi su uno o più dei predittori. E’ utile perché è distribuito come chi-quadrato con gradi di libertà uguali al numero di predittori, da cui la possibilità di valutare statisticamente lo status di outlier di un caso. In questo caso è raccomandato l’uso di un livello α di significatività di ,001. Cook’s: è una misura di quanto i residui di tutti i casi varierebbero se un particolare caso fosse escluso dalla stima dei parametri. Un valore elevato è indice di una variazione sostanziale nei coefficientidi regressione se quel caso non fosse incluso nell’analisi, ma differentemente dal caso delle distanze mahalanobiane quelle di Cook non possono essere sottoposte a verifica delle ipotesi. Norusis (1998) suggerisce comunque di considerare con sospetto valori superiori a 1. Leverage values (o valori di influenza): sono un indice dell’influenza di un caso sulla bontà di adattamento del modello di regressione ai dati. Tali indici variano fra 0 (nessuna influenza) e n/(n − 1) (massima influenza), che è l’influenza massima. I valori dediserabili per questo indice sono quelli inferiori a ,20, mentre valori fra ,20 e ,50 indicano casi sospetti Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia e valori superiori a ,50 identificano casi da prendere in seria considerazione per l’esclusione dall’analisi (Barbaranelli, 2006). Nel riquadro Influence Statistics viene offerta la possibilità di chiedere indici che consentono di esaminare il cambiamento, sia come punteggio grezzo che standardizzato, che avverrebbe nel/nei coefficiente/i di regressione (Dfbeta(s) e Standardized DfBeta(s)) e nei valori predetti dalla regressione (DfFit e Standardized DfFit) se il caso venisse escluso dall’analisi. Cambiamenti in valore assoluto nell’ordine di 2 / n (Norusis, 1998) o 3 / n (Pedhazur, 1997) sono da considerarsi sostanziali. Il Covariance ratio indica quale sarebbe il risultato del rapporto fra il determinante2 della matrice di covarianza se il caso venisse escluso dall’analisi e il determinante della matrice di covarianza includendo nell’analisi tutti i casi. Il rapporto ottimale deve essere vicino ad 1. Nel riquadro Prediction Intervals è possibile chiedere la produzione dei limiti superiore e inferiore degli intervalli dei punteggi previsti nel criterio, sia medi (Mean) che individuali (Individual) per un certo livello di probabilità (Confidence interval). Il primo tipo di intervallo viene ottenuto considerando l’errore standard medio dei punteggi predetti, il secondo tenendo conto di una stima individuale. Per ragioni statistiche, l’intervallo medio sarà sempre più ristretto di quello individuale. L’ultimo riquadro (Export model information to XML file) consente di creare un file in cui le informazioni sul modello siano esportate in un file di formato particolare (XML). Se dalla finestra principale (Figura 7.5.1) clickiamo su Options, si apre la finestra in Figura 7.5.5. Figura 7.5.5 Finestra di SPSS per le opzioni dell’analisi di regressione Nel riquadro Stepping Method Criteria è possibile indicare i criteri statistici in base ai quali i predittori vengono inseriti (Entry) o esclusi (Removal) dal modello di regressione se si usa una strategia statistica (stepwise, remove, backward, forward). Se si seleziona Use probability of F, il predittore è inserito nel modello se il livello di significatività di F è inferiore al valore indicato in Entry ed escluso se il livello di significatività di F è superiore a Removal, oppure, se si seleziona Use F value, il predittore viene inserito nel modello se il valore di F calcolato è maggiore di quello indicato in Entry e viene escluso se il valore di F calcolato è minore di quello di quello indicato in Removal. 2 Il determinante di una matrice è una funzione che associa ad ogni matrice quadrata un particolare valore che ne sintetizza alcune proprietà algebriche. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia L’opzione Include constant in equation, se non spuntata, fa sì che l’intercetta del modello venga fissata a zero. Di default, comunque, è selezionata. Nel riquadro Missing Values si può infine scegliere come trattare i dati mancanti, ossia se considerare solo i casi validi per tutte le variabili (listwise, opzione consigliata), se calcolare i coefficienti di regressione usando tutti i casi validi per le due variabili considerate in quella fase dell’analisi (pairwise, si tenga però conto che i gradi di libertà sono basati sul valore di n minimo per tutte le coppie di variabili analizzate) oppure se sostituire i dati mancanti con la media della variabile interessata (Replance with mean). Questa opzione è in genere sconsigliabile, perché, oltre a rendere disponibile per l’analisi un dato che di fatto non è stato osservato, tende a ridurre la variabilità nei dati. Un caso in cui potrebbe essere utilizzata è quello in cui si hanno pochissimi missing in pochi soggetti di un campione molto ampio e con molte variabili. 7.5.1 Analisi delle assunzioni Prima di procedere con l’analisi di regressione, occorre che siano verificate le assunzioni per la sua applicabilità. Utilizziamo in questo caso i dati nel file regressione_esempio.sav. In primo luogo, dobbiamo assicurarci che tutte le variabili posseggano sufficiente variabilità, perché costanti o in ogni caso variabili con dispersione dei punteggi molto bassa non devono essere presenti nel modello. Inoltre, dobbiamo anche verificare che le variabili presentino valori di skewness e curtosi inferiori a |1,00|, perché l’inclusione nel modello di regressone di variabili la cui distribuzione è troppo diversa dalla normale può portare alla violazione delle assunzioni di linearità, noamlità e omoschedasticità dei residui. Seguiamo il percorso Analyze → Descriptive Statistics → Descriptives, inseriamo tutte le variabili nel campo Variable(s), spuntiamo Save standardized values as variables e mediante Options spuntiamo anche i valori di skewness e curtosi. Il risultato è quello in Figura 7.5.6 Descriptive Statistics Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Punteggio Ansia verso la Statistica Valid N (listwise) N Statistic 100 100 100 100 Minimum Statistic 0 4 0 14 Maximum Statistic 1 28 24 69 Mean Statistic ,55 16,82 15,02 41,08 Std. Deviation Statistic ,500 5,364 5,059 12,188 100 23 79 52,20 12,331 Skewness Statistic Std. Error -,204 ,241 -,153 ,241 -,293 ,241 ,137 ,241 -,282 ,241 Kurtosis Statistic Std. Error -1,999 ,478 -,447 ,478 -,160 ,478 -,293 ,478 -,090 ,478 100 Figura 7.5.6 Statistiche descrittive di predittori e criterio La Figura 7.5.6 mostra che tutte le variabili hanno una deviazione standard sufficientemente superiore a zero e che i valori di skewness e curtosi sono inferiori a |1,00|. L’unico valore al di fuori di questa gamma è la curtosi del Genere, che però è una variabile dummy, ossia dicotomica. In questo caso, poiché si tratta di una distribuzione binomiale, la skewness e la curtosi vanno calcolate con le formule: 1 − 2P 1 − 2×,55 SK Binomiale = = = −0,02 nP(1 − P) 100×,55 × (1−,55) 1 − 6 P(1 − P) 1 − 6×,55 × (1−,55) KU Binomiale = = = −0,02 nP (1 − P) 100×,55 × (1−,55) dove P è la proporzione di casi con valore 1, che corrisponde alla media del Genere riportata in Figura 7.5.6: la media è calcolata come somma dei valori diviso n, per cui se i valori sono tutti 1 o 0, la media risulta uguale alla somma degli 1 diviso il numero di soggetti, ossia la proporzione di Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia soggetti con valore 1, cioè i maschi. Anche nel caso del genere la distribuzione presenta valori di Skewness e Curtosi adeguati. Nel file dei dati sono state aggiunte le colonne relative ai punteggi standardizzati per ogni variabile. Esaminando i valori standardizzati è possibile eseguire primo screening degli outliers eliminando i casi che abbiano un punteggio standardizzato maggiore di 3 o minore di −3 su almeno una delle variabili. Ignoriamo i punteggi standardizzati del genere, e consideriamo solo quelli nelle altre variabili. Per eseguire rapidamente questa procedura, occorre ordinare i valori per ogni variabile: per far questo, seguiamo il percorso Data → Sort Cases (Figura 7.5.7a) e inseriamo nel campo Sort By: la variabile zmate, a cui corrisponde l’etichetta Z score: Profitto in matematica (Figura 7.5.7b). a b Figura 7.5.7 Procedura per ordinare i casi in base ai valori di un variabile in SPSS Clickiamo su OK. A questo punti i casi saranno stati ordinati in base al punteggio nella variabile zmate. Esaminiamo i punteggi più bassi e quelli più alti scorrendo verso l’alto e verso il basso il dataset e troviamo che il punteggio standardizzato minore è −2,38989 del soggetto sogg014 e il il punteggio standardizzato maggiore è 2,08416 del soggetto sogg094, per cui per questa variabile non sono presenti outliers. Eseguiamo la stessa procedura per verificare la presenzadi outliers nelle altre variabili. Non ci sono valori standardizzati superiori a |3,00| in nessuna variabile. Nella variabile relativa al numero di lezioni seguite c’è un valore uguale a −2,96885 (caso sogg076, Figura 7.5.8). Figura 7.5.8 Screening dei valori anomali in base ai punteggi standardizzati delle variabili Non ci sono gli estremi per eliminarlo, ma se proprio lo vogliamo fare non dobbiamo far altro che clickare col tasto destro del mouse sulla cella grigia a sinistra della finestra col numero 1 (e che identifica la prima riga del foglio di dati) e scegliere Clear. Si tenga conto che tutte le volte che si elimina un caso, le analisi per lo screening degli outliers vanno ricondotte da capo, in modo valutare se la variazione nel set di dati prodotta dall’esclusione di quel caso non abbia reso outliers altri casi inizialmente non identificati come tali. La procedura di screening degli outliers può quindi comportare una serie di controlli, basati sull’ispezione degli indici, eliminazione di casi, nuova ispezione degli indici, nuova eliminazione di casi, e così via. Si tenga conto del fatto che per Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia variabili distribuite in modo molto non normale le eliminazioni di casi possono essere numerose, con conseguente di riduzione dell’ampiezza e/o della rappresentatività del campione. Nel caso di individuino variabili con skewness al di fuori del range consigliato si può procedere con la trasformazione dei punteggi vista nella sezione 2.3.1 di questo capitolo, ma non è detto che questo risolva il problema e, in ogni caso, rende più complicata l’interpretazione del risultato. Una volta controllati gli outliers a livello univariato (variabile per variabile), occorre verificare quelli a livello multivariato (nelle variabili nel loro insieme). Per far questo utilizziamo le opzioni offerte dalla procedura di regressione multipla di SPSS. Seguiamo quindi il percorso Analyze → Regression → Linear, inseriamo i predittori nel campo Independent(s) e il criterio nel campo Dependent. Clickiamo su Save e spuntiamo Mahalanobis. Clickiamo su OK e ignoriamo per il momento l’output, concentrandoci sulla nuova variabile, MAH_1 che è stata creata nel dataset. Perché un valore sia considerato un outlier, deve essere maggiore del chi-quadrato critico per α = ,001 e gradi di libertà uguali al numero di predittori. In questo caso abbiamo 4 predittori, per cui il valore di chi-quadrato critico può essere individuato con la funzione di Excel =INV.CHI(,001;4), che è 18.47. A questo punto ordiniamo i dati in base al valore di MAH_1 e vediamo che il valore minimo è 1,01303 (caso sogg047) e il massimo è 11,26022 (caso sogg065). Nessun valore è superiore al valore critico, per cui non sembrano essere presenti outliers univariati. Ci fossero stati, avremmo potuto eliminarli, ma a quel punto avremmo dovuto riprendere tutta la procedura di screening da capo. Grazie ai valori delle distanze mahalanobiane è possibile calcolare anche un indice di normalità multivariata, detto indice di curtosi multivariata di Mardia, che permette di verificare se le relazoni fra le variabili possono essere considerate lineari. Per questo, seguiamo il percorso Transform → Compute (Figura 7.5.9a) Nel campo Target Variable inseriamo il nome della nuova variabile che stiamo per calcolare (ad esempio, MAH2). Selezioniamo la variabile MAH_1 e la spostiamo campo Numeric Expression. Clickiamo sul tasto col doppio asterisco ( ) e aggiungiamo “2”, e poi OK (Figura 7.5.9b) a b Figura 7.5.9 Trasformare una variabile mediante un’operazione matematica in SPSS Questo ci permette di ottenere una nuova variabile, MAH2, che corrisponde alle distanze mahalanobiane elevate al quadrato. Mediante Analyze → Descriptive Statistics → Descriptives, otteniamo la media di questa variabile, che è 21,03. Il valore critico con cui confrontare quello Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia ottenuto è uguale a numero di predittori k moltiplicato per il numero di predittori più due, k(k+2), e perché sia soddisfatta la normalità multivariata il valore calcolato deve essere inferiore a questo. Nel nostro caso abbiamo 4 predittori, quindi 4×(4+2) = 24. Poiché il valore calcolato (21,03) è inferiore a quello critico (24), possiamo concludere che i dati presentano una normalità multivariata. Le assunzioni relative alla specificazione del modello (non omettere predittori rilevanti e non includere predittori irrilevanti) possono essere verificate solo a livello teorico, in base alla conoscenza che si ha del fenomeno, oppure valutando le correlazioni bivariate fra i predittori e il criterio. Per far questo, dalla finestra in Figura 7.5.1, clickiamo su Statistics e spuntiamo l’opzione Descriptives, che produrrà le statistiche descrittive di predittori e criterio e, soprattutto, le correlazioni fra queste variabili. L’output è riportato in Figura 7.5.10 Correlations Punteggio Ansia verso la Statistica Pearson Correlation Sig. (1-tailed) N Punteggio Ansia verso la Statistica Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Punteggio Ansia verso la Statistica Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Punteggio Ansia verso la Statistica Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL 1,000 ,203 ,384 ,469 ,468 ,203 ,384 ,469 ,468 1,000 ,180 ,207 ,218 ,180 1,000 ,145 ,271 ,207 ,145 1,000 ,049 ,218 ,271 ,049 1,000 . ,021 ,000 ,000 ,000 ,021 ,000 ,000 ,000 . ,036 ,019 ,015 ,036 . ,075 ,003 ,019 ,075 . ,313 ,015 ,003 ,313 . 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 Figura 7.5.10 Correlazioni fra i predittori e il criterio Dalla matrice di correlazione in Figura 7.5.10 notiamo che tutti predittori sono correlati almeno a |,20| con il criterio (prima colonna, Punteggio Ansia verso la statistica), per cui sembrerebbe che tutte le variabili inserite nel modello abbiano una sufficiente relazione, almeno a livello bivariato, con il criterio. I predittori sono solo debolmente correlati fra loro, e questo risultato è un primo indice di assenza di collinearità, che comunque andrà verificata anche in seguito con altre statistiche. L’assunzione relativa all’assenza di errori di misurazione può essere verificata consultando l’attendibilità dei punteggi se questi sono stati ottenuti mediante la somministrazione di test psicologici (vedi Volume II). Per gli altri tipi di variabili, occorre assicurarsi prima di raccogliere i dati che la procedura garantisca la raccolta di valori attendibili: ad esempio, per la variabile “numero di lezioni frequentate”, si può tenere un registro delle presenze. Il controllo più importante da eseguire dopo quello degli outliers è quello della collinearità dei predittori. Per questo, seguiamo di nuovo il percorso Analyze → Regression → Linear, clickiamo su Statistics e spuntiamo Collinearity diagnostics. Quindi clickiamo su Continue e poi su OK. Cerchiamo nell’output la tabella Coefficients e consultiamo le colonne a destra (Figura 7.5.11) Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Coefficientsa Model 1 (Constant) Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Unstandardized Coefficients B Std. Error 12,290 4,562 -,205 1,953 ,503 ,183 1,024 ,189 ,394 ,080 Standardized Coefficients Beta -,008 ,219 ,420 ,389 t 2,694 -,105 2,758 5,422 4,896 Sig. ,008 ,917 ,007 ,000 ,000 Collinearity Statistics Tolerance VIF ,904 ,899 ,944 ,896 1,106 1,112 1,059 1,116 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.11 Tabella di output dei coefficienti con le statistiche di collinearità (destra) Abbiamo visto nel testo che i valori di Tolerance devono essere maggiori di ,50 e quelli di VIF inferiori a 2, ed è il caso dei valori riportati in Figura 7.5.10. Nell’output sotto a questa tabella ne è presente un’altra chaimata Collinearity Diagnostics (Figura 7.5.12) Collinearity Diagnosticsa Model 1 Dimension 1 2 3 4 5 Eigenvalue 4,459 ,357 ,092 ,063 ,030 Condition Index 1,000 3,535 6,979 8,415 12,237 (Constant) ,00 ,01 ,00 ,01 ,98 Variance Proportions Numero lezioni Profitto in seguite Genere Matematica ,01 ,00 ,00 ,96 ,01 ,01 ,00 ,11 ,70 ,00 ,77 ,00 ,03 ,11 ,28 Punteggio SPATIAL ,00 ,01 ,16 ,45 ,38 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.12 Tabella di output con le diagnostiche di collinearità Questa tabella ci permette di esaminare la correlazione fra i predittori. In particolare, ci interessa la colonna Condition Index: se anche uno solo dei valori è compreso fra 15 e 30 siamo in una condizione di sospetta collinearità, mentre la collinearità è grave se questo valore è superiore a 30 (Barbaranelli, 2006). Nelle colonne Variance Proportions vi è la proporzione di variabilità spiegata per ogni predittore dalle dimensioni (colonna Dimensions sulla sinistra). Senza stare troppo ad entrare nel dettaglio di questa analisi, diciamo solo che la condizione ideale è quella in cui per ogni riga della sottomatrice Variance Proportions contiene un solo valore superiore a ,40 e tutti gli altri prossimi a zero. Nella Figura 7.5.11, sulla riga della dimensione 4 abbiamo due valori superiori a ,40, relativi ai predittori “Profitto in matematica” e “Punteggio SPATIAL”. Questo significa che i due predittori sono correlati, ma dato che il valore di Tolerance non ha suggerito problemi, possiamo considerare questo risultato trascurabile. Se così non fosse stato, avremmo dovuto pensare a come gestire la collinearità dei due predittori (si veda il testo per le possibili soluzioni). Passiamo adesso a verificare le assunzioni sugli errori (residui). Nella finestra Statistics selezioniamo Durbin-Watson e Casewise Diagnostics (lasciando a 3 la soglia per Outliers outside), mentre nella finestra Plots inseriamo *ZRESID nel campo X e *ZPRED nel campo Y, e spuntiamo Histogram, Normal probability plot e Produce alla partial plots. Eseguiamo quindi l’analisi. Come primo passo, cerchiamo nell’output la tabella Residual Statistics (Figura 7.5.13). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Residuals Statisticsa Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Mahal. Distance Cook's Distance Centered Leverage Value Minimum 24,97 -3,250 Maximum 68,59 1,956 Mean 52,20 ,000 Std. Deviation 8,378 1,000 N 1,314 3,249 2,017 ,448 100 25,24 -22,770 -2,465 -2,497 -23,368 -2,570 1,013 ,000 ,010 68,46 31,564 3,417 3,476 32,663 3,701 11,260 ,084 ,114 52,22 ,000 ,000 -,001 -,018 ,001 3,960 ,009 ,040 8,353 9,048 ,980 1,002 9,466 1,019 2,324 ,015 ,023 100 100 100 100 100 100 100 100 100 100 100 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.13 Tabella di output delle statistiche dei residui Nella tabella in Figura 7.5.13 ci interessa in particolare verificare se la media dei residui (Residual) è uguale a zero, e così è. L’assunzione prevede poi che i residui siano distribuiti normalmente: questo lo verifichiamo ispezionando i grafici *zresid Histogram e *zresid Normal P-P plot (Figura 7.5.14) a b Figura 7.5.14 Grafici con la distribuzione dei residui della regressione La Figura 7.5.14a mostra che la forma della distribuzione dei residui è molto prossima alla normale, conclusione confermata dalla Figura 7.5.14b: in questo tipo di grafico se tutti i punti sono perfettamente allineati sulla linea diagonale che taglia a metà il quadrante significa che la distribuzione è perfettamente normale. Nel caso che stiamo considerando, gli scostamenti da questa linea ideale sono rari e di entità limitata, per cui possiamo concludere che l’assunzione di normalità della distribuzione dei residui (errori) è rispettata. Cerchiamo adesso nell’output il grafico che ha sull’asse orizzontale i residui standardizati e sull’asse verticale i valori predetti standardizzati (*zpred by *resid Scatterplot, Figura 7.5.15). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Figura 7.5.15 Diagramma a dispersione residui standardizzati per valori predetti standardizzati Se nella nube di punti potesse essere distinta una qualche forma particolare (Figura 7.5.16) ci sarebbero gli estremi per supporre una violazione dell’assunzione di linearità degli effetti, che non è però il caso della Figura 7.5.15. Residui Standardizzati Residui Standardizzati Valori Predetti Standardizzati Residui Standardizzati Autocorrelazione errori Valori Predetti Standardizzati Outliers Valori Predetti Standardizzati Non omogeneità delle varianze Residui Standardizzati Non linearità Valori Predetti Standardizzati Non normalità Valori Predetti Standardizzati Valori Predetti Standardizzati Assunzioni rispettate Residui Standardizzati Residui Standardizzati Figura 7.5.16 Esempi di diagrammi a dispersione residui standardizzati per valori predetti standardizzati indicativi di una violazione delle assunzioni per l’applicazione della regressione multipla (adattato da Barbaranelli, 2003) Fin qui abbiamo valutato i predittori nel loro insieme. Vediamo invece nei grafici parziali i predittori uno per uno (Figura 7.5.17). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Figura 7.5.17 Grafici di regressione parziale dei predittori I grafici in Figura 7.5.17 non mostrano particolari relazioni fra i punteggi dei predittori (asse orizzontale) e i residui del criterio (asse verticale), se si esclude forse una debole relazione nel caso del numero di lezioni seguite e del punteggio SPATIAL (per aiutarci nella valutazione potremmo modificare il grafico per inserire la retta di regressione, come abbiamo visto nella scheda Strumenti informatici 7.4). Ad ogni modo, l’assunzione di assenza di relazione fra valori dei predittori e residui sembra confermata. L’assunzione di autocorrelazione dei residui può essere verificata mediante il test DurbinWatson, che può essere richiesto nella finestra Statistics. La statistica comparirà nella tabella Model Summary (Figura 7.5.18) Model Summaryb Model 1 R R Square ,679a ,462 Adjusted R Square ,439 Std. Error of the Estimate 9,236 DurbinWatson 2,284 a. Predictors: (Constant), Punteggio SPATIAL, Numero lezioni seguite, Genere, Profitto in Matematica b. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.18 Tabella Model Summary con la statistica Durbin-Watson per la valutazione dell’assunzione di autocorrelazione degli errori Il valore riportato nella tabella in Figura 7.5.18 è 2,28, di poco al di fuori dell’intervallo 1,5-2,2 indicato in precedenza. Questo risultato sembrerebbe indicare che è presente una certa autocorrelazione positiva fra gli errori, per cui eventuali risultati “anomali” dell’analisi dovranno essere considerati con attenzione, perché potrebbero dipendere da questa lieve violazione di una delle assunzioni. La tabella Casewise Diagnostics (Figura 7.5.19) mostra che un soggetto, il 57, ha un residuo standardizzato maggiore di 3, il che lo rende un caso potenzialmente influente sui risultati. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Casewise Diagnosticsa Case Number 57 Std. Residual 3,417 Punteggio Ansia verso la Statistica 79 Predicted Value 47,44 Residual 31,564 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.19 Tabella per l’analisi dei residui caso per caso Per approfondire la questione, andiamo nella finestra Save e chiediamo che vengano salvate come nuove variabili del dataset le distanze di Cook e i levarage values (riquadro Distances), i residui standardizzati (Standardized in Residuals) e spuntiamo le opzioni Standardized DfBeta(s), Standardized DfFit e Covariance ratio nel riquadro Influence Statistics. Una volta prodotto l’output tutte queste nuove variabili compariranno nel dataset. Innazitutto verifichiamo la correlazione fra i residui standardizzati della variabile dipendente e i predittori mediante il percorso Analyze → Correlate → Bivariate (Figura 7.5.20) Correlations Standardized Residual Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Standardized Residual 1 100 ,000 1,000 100 ,000 1,000 100 ,000 1,000 100 ,000 1,000 100 Genere ,000 1,000 100 1 100 ,180 ,072 100 ,207* ,039 100 ,218* ,029 100 Profitto in Matematica ,000 1,000 100 ,180 ,072 100 1 100 ,145 ,149 100 ,271** ,006 100 Numero lezioni seguite ,000 1,000 100 ,207* ,039 100 ,145 ,149 100 1 100 ,049 ,625 100 Punteggio SPATIAL ,000 1,000 100 ,218* ,029 100 ,271** ,006 100 ,049 ,625 100 1 100 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). Figura 7.5.20 Correlazioni fra residui standardizzati e valori de predittori Le correlazioni fra residui standardizzati e predittori sono tutte uguali a zero (Figura 7.5.20, colonna Standardized Residual). Si noti che questi coefficienti non corrispondono ai grafici parziali di Figura 7.5.17, perché quei grafici sono prodotti dall’analisi di regressione parziale, ossia per un solo predittore alla volta indipendentemente dagli altri, mentre in questo caso vengono cosiderati i residui della regressione con tutti i predittori. Mediante la procedura di ordinamento dei casi in base alle variabili vista in precedenza, ordiniamo il dataset in base ai valori della distanza di Cook (COO_1). Il massimo valore è ,08416, ben al di sotto dell’1 indicato da Norusis (1998) come critico. Allo stesso modo, i valori di leverage (LEV_1) sono tutti al di sotto del valore ,20 considerato il limite superiore dei valori accettabili. Quando andiamo a considerare i valori di rapporto di covarianza (COV_1), notiamo che c’è un caso il cui valore è molto lontano da 1, che, non casualmente, è il soggetto 57, proprio quello che era risultato con un residuo standardizzato troppo alto. Andiamo allora ad esaminare i sui valori di influenza standardizzati (SDB0_1, SDB1_1, SDB2_1, SDB3_1, SDB4_1), che, come detto, non Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia devono essere superiori a a 2 / n o 3 / n in valore assoluto. In questo caso abbiamo 100 soggetti, per cui il primo valore critico è 0,20, il secondo 0,30. In effetti, il soggetto in questione ha valori di influenzza standardizzati maggiori di 0,30 in valore assoluto per SDB01_1 (intercetta), SDB1_1 (Genere) e SDB4_1 (Punteggio SPATIAL). Questo soggetto dovrebbe quindi essere escluso dalle analisi. Naturalmente potremmo ordinare i casi per tutti i valori di influenza standardizzati e valutare quali cadono al di fuori dell’intervallo che va da −0,30 a +0,30, e considerarli per l’esclusione. Tuttavia, per eseguire correttamente questa operazione, i casi dovrebbero essere eliminati uno alla volta, e le analisi ripetute dopo l’esclusione di questo caso. Tale procedimento può essere molto lungo, e potrebbe portare all’esclusione di molti casi, per cui è da eseguire con attenzione soprattutto quando si hanno pochi casi. Inoltre, è importante non decidere l’esclusione solo in base ad un unico indice: il soggetto 83, ad esempio, mostra un indice di influenza uguale ,42586 in SDB2_1, ma ha valori nella norma in tutti gli altri indici, per cui potrebbe essere ragionevolmente mantenuto nel campione. Per semplicità, in questo esempio eseguiremo le analisi escludendo il soggetto 57, che ha mostrato i maggiori problemi in una molteplicità di indici. 7.5.2 Scelta della strategia di regressione da adottare Dopo aver verificato le assunzioni, dobbiamo decidere quale strategia di regressione multipla utilizzare. La Tabella 7.5.1 ci aiuta a capire come sceglierla in base alla domanda di ricerca. Tabella 7.5.1 Scelta della strategia di regressione multipla in base alla domanda di ricerca Strategia di regressione multipla Domande di ricerca da scegliere Qual è la dimensione della relazione generale fra l’ansia nei confronti della statistica e il genere, la competenza matematica di base, il numero di lezioni seguite e il Standard punteggio alla scala Spatial di OSIVQ? A quanta parte della relazione contribuisce singolarmente ogni predittore indipendentemente dagli altri? L’inserimento nel modello del numero di lezioni seguite aumenta significativamente la precisione della predizione dell’ansia nei confronti della statistica? E aggiungendo Gerarchica come ulteriore predittore il punteggio nella scala Spatial di OSIVQ cosa succede? Qual è la migliore combinazione lineare dei predittori per predire con la maggiore precisione possibile l’ansia nei Statistica confronti della statistica? Regressione standard Nella regressione multipla standard i predittori vengono inseriti nel modello simultaneamente. Per realizzare una regressione multipla standard in SPSS seguiamo il percorso Analyze → Regression → Linear e inseriamo tutti i predittori insieme nel campo Independent(s), e lasciamo selezionata l’opzione di default per il metodo (Method: Enter). Clickiamo su Statistics e spuntiamo l’opzione Part and Partial Correlations, che ci forniranno gli indici per calcolare la dimensione dell’effetto. Realizziamo a questo punto l’analisi. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Nella prima tabella di output, Variables Entered/Removed, qui non riportata, vengono indicate tutte le variabili inserite nel modello come blocco unico. Nella tabella successiva, Model Summary, possiamo invece osservare la bontà di adattamento del modello ai dati mediante l’ispezione del valore di R2 e Adjusted R2 (Figura 7.5.21) Model Summary Model 1 R R Square ,712a ,506 Adjusted R Square ,485 Std. Error of the Estimate 8,675 a. Predictors: (Constant), Punteggio SPATIAL, Numero lezioni seguite, Profitto in Matematica, Genere Figura 7.5.21 Valori di bontà di adattamento del modello di regressione multipla standard ai dati I dati in Figura 7.5.21 indicano che il modello ha un buon adattamento ai dati, poiché il valore di R2 è ,508 e quello di Adjusted R2 ,485: in pratica, il modello di regressione spiega quasi il 50% della variabilità della variabile dipendente. La piccola differenza fra i due valori, peraltro, è un ulteriore indice di assenza di ridondanza (collinearità) nei predittori. Non esistono linee guida precise per valutare questi indici, perché R2 dipende dal numero di soggetti e dal numero di predittori: la situazione migliore è quella in cui si riesce a spiegare gran parte della variabilità del criterio (più del 50%) con un numero ristretto di predittori, e il caso che stiamo considerando sembrerebbe ricadere in questa situazione. Nella tabella successiva, ANOVA, viene riportato il test di significatività che verifica l’ipotesi nulla che R2 sia diverso da zero. La Figura 7.5.22 mostra che lo è ad un livello di significatività p < ,001. ANOVAb Model 1 Regression Residual Total Sum of Squares 7254,741 7073,765 14328,505 df 4 94 98 Mean Square 1813,685 75,253 F 24,101 Sig. ,000a a. Predictors: (Constant), Punteggio SPATIAL, Numero lezioni seguite, Profitto in Matematica, Genere b. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.22 Tavola di ANOVA per una regressione multipla standard Poiché questo test statistico è fortemente influenzato dall’ampiezza campionaria, è preferibile eseguire una valutazione della bontà di adattamento del modello ai dati basata sulla dimensione di R2. Nell’ultima tabella, Coefficients, troviamo le stime de parametri e la loro significatività (Figura 7.5.23) Coefficientsa Model 1 (Constant) Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Unstandardized Coefficients B Std. Error 10,867 4,302 -,993 1,847 ,518 ,171 1,021 ,177 ,426 ,076 Standardized Coefficients Beta -,041 ,231 ,429 ,430 t 2,526 -,538 3,021 5,758 5,602 Sig. ,013 ,592 ,003 ,000 ,000 Zero-order ,189 ,402 ,477 ,504 Correlations Partial -,055 ,297 ,511 ,500 Part -,039 ,219 ,417 ,406 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.23 Tavola dei coefficienti di regressione per una regressione multipla standard Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia La colonna della significatività dei predittori (Sig.) mostra che il Genere non è un predittore con un coefficiente di regressione statisticamente diverso da zero (p = ,592), mentre tutti gli altri predittori e l’intercetta lo sono. Questo ci porta concludere che il genere non è un predittore dell’ansia nei confronti della statistica, mentre lo sono il profitto in matematica, il numero di lezioni seguite e il punteggio nella scala Spatial di OSIVQ. Interpretare i coefficienti di regressione non standardizzati non ci aiuta particolarmente, in quanto dovremmo affermare che per ogni punto in più alla prova di profitto in matematica l’ansia nei confronti della statistica aumenta, in media, di ,518 punti, così come per ogni lezione in più seguita il punteggio di ansia umenta di 1,021 punti, e per ogni punto in più alla scala Spatial il punteggio di Ansia aumenta di ,426 punti. Per quanto corretta da un punto di vista statistico, tale interpretazione ha poco significato da un punto di vista pratico. Passiamo allora ad analizzare la dimensione dell’effetto f2 dei vari predittori: R 2 − Rk2−1 ,506 − (,231×,402+,429×,477+,430×,504) 2 = = = −0,02 f Genere 1−,506 1− R2 R 2 − Rk2−1 ,506 − (−0,041×,189+,429×,477+,430×,504) 2 f Profitto matematica = = = 0,19 1−,506 1− R2 R 2 − Rk2−1 ,506 − (−0,041×,189+,231×,402+,430×,504) 2 f Numero = = = 0,41 lezioni 1−,506 1− R2 R 2 − Rk2−1 ,506 − (−0,041×,189+,231×,402+,429×,477) 2 = = = 0,44 f Spatial 1−,506 1− R2 In base alla dimensione dell’effetto, possiamo osservare che il numero di lezioni seguite e il punteggio alla scala Spatial, ossia uno stile cognitivo di tipo analitico, sembrano contribuire in modo consistente (dimensione dell’effetto Grande, vedi Tabella 7.33) alla predizione del punteggio di ansia nei confronti della statistica, mentre il profitto in matematica contribuisce in modo Moderato. Si noti che la dimensione dell’effetto così calcolata riguarda la variabilità spiegata complessivamente dai predittori, comprensiva del loro contributo unico e del contributo simultaneo, dovuto alla loro parziale associazione. Se volessimo separare le due componenti, dovremmo moltiplicare i coefficienti standardizzati beta per le Part Correlations e sommare questi prodotti, in modo da ottenere la quota di variabilità del criterio spiegata in modo unico dai predittori, indipendentemente da effetti di sovrapposizione. In base ai dati in Figura 7.5.23, il contributo unico dei predittori ∑ β rPart è ,406, che sottratto a ,506 dà ,100. Questo significa che un 10% della variabilità del criterio è spiegato da effetti congiunti dei predittori, mentre quasi il 41% è spiegato unicamente dai predittori. In una tesi di laurea o in un articolo scientifico riporteremo la tabella con i coefficienti in Figura 7.5.23 e scriveremo: E’ stata eseguita sui dati provenienti di 100 soggetti un’analisi di regressione multipla standard per la predizione dell’ansia nei confronti della statistica in base al genere, ai punteggi di un test per il profitto in matematica, al numero di lezioni del corso di psicometria seguite e al punteggio nella scala Spatial di OSIVQ. Le analisi preliminari hanno rivelato l’assenza di problemi di collinearità e che un soggetto era probabilmente un outlier, per cui stato escluso dall’analisi. Tutti i predittori tranne il genere sono risultati statisticamente significativi (vedi Tabella coi coefficienti). Il modello spiega il 51% di variabilità dell’ansia nei confronti della statistica (R2 aggiustato = ,485) e in base alla dimensione dell’effetto f2 sono risultati predittori più importanti il punteggio alla scala Spatial (f2 = ,44) e il numero di lezioni seguite (f2 = ,41), mentre il profitto in matematica aveva una dimensione dell’effetto meno forte (f2 = ,19). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Regressione gerarchica Nel caso della regressione gerarchica, la domanda di ricerca di Tabella 7.5.1 indica che vogliamo sapere quanto può contribuire in più alla spiegazione della variabilità del criterio il predittore “numero di lezioni seguite” rispetto al genere e al profitto in matematica, e, in seguito, quanto può contribuire a sua volta il punteggio nella scala Spatial. Questo significa che i predittori devono essere inseriti nel modello in fasi successive. Per farlo, dopo aver seguito il percorso Analyze → Regression → Linear, inseriamo nel campo Independent(s) solo Genere e Profitto in Matematica, poi clickiamo su Next, e inseriamo nel campo Independent(s) il numero di lezioni seguite, clickiamo di nuovo su Next e inseriamo nel campo Independent(s) il punteggio nella scala Spatial. A questo punto il nome del riquadro dovrebbe essere Block 3 of 3. Come Method lasciamo sempre Enter in ogni blocco. Clickiamo su Statistics e spuntiamo R squared change: nella regressione gerarchica questa opzione è fondamentale perché ci permette di verificare che la quota di variabilità spiegata del criterio che aggiungono i predittori o i blocchi di predittori successivi al primo sia statisticamente diversa da zero. Eseguiamo quindi l’analisi. Nella prima tabella di output, Variables Entered/Removed, osserviamo che sono stati verificati tre modelli (colonna Model), e per ogni modello vengono indicate le variabili inserite (Figura 7.5.24). Variables Entered/Removedb Model 1 2 3 Variables Entered Profitto in Matematica a, Genere Numero lezioni a seguite Punteggio a SPATIAL Variables Removed Method . Enter . Enter . Enter a. All requested variables entered. b. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.24 Tabella dei modelli verificati per una regressione multipla gerarchica In gergo ogni modello successivo è detto “step”. Questo significa che allo Step 1 sono state inserite nel modello Profitto in Matematica e Genere, allo Step 2 il numero di lezioni seguite e allo Step 3 il punteggio di Spatial, esattamente come specificato. Nella tabella successiva, Model Summary, vengono riportati i valori di R2 e Adjusted R2 per ognuno dei tre step, con il test di significatività di R2 nel passaggio da un modello all’altro (parte destra della tabella in Figura 7.5.25). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Model Summary Change Statistics Model 1 2 3 R ,418a ,584b ,712c R Square ,175 ,341 ,506 Adjusted R Square ,158 ,321 ,485 Std. Error of the Estimate 11,097 9,966 8,675 R Square Change ,175 ,167 ,165 F Change 10,176 24,027 31,387 df1 df2 2 1 1 96 95 94 Sig. F Change ,000 ,000 ,000 a. Predictors: (Constant), Profitto in Matematica, Genere b. Predictors: (Constant), Profitto in Matematica, Genere, Numero lezioni seguite c. Predictors: (Constant), Profitto in Matematica, Genere, Numero lezioni seguite, Punteggio SPATIAL Figura 7.5.25 Tabella con gli indici di bontà di adattamento dei dati e i test di significatività per gli incrementi di R2 ad ogni step per una regressione multipla gerarchica Il test del cambiamento in R2 (R Square Change) per lo Step 1 riguarda il miglioramento della predizione rispetto ad un modello privo di predittori, ed è statisticamente significativo al pari di tutti gli altri cambiamenti. Questo significa che non solo genere e profitto in matematica premettono una predizione migliore dell’ansia nei confronti della statistica rispetto a quella che potremmo ottenee “tirando a indovinare”, ma anche che l’aggiunta del numero di lezioni seguite, prima, e del punteggio alla scala Spatial, poi, consentono un ulteriore miglioramento della predizione. La tavola di analisi della varianza (ANOVA) che segue mostra i test di significatività di R2 modello per modello (Figura 7.5.26). ANOVAd Model 1 2 3 Regression Residual Total Regression Residual Total Regression Residual Total Sum of Squares 2506,398 11822,107 14328,505 4892,813 9435,692 14328,505 7254,741 7073,765 14328,505 df 2 96 98 3 95 98 4 94 98 Mean Square 1253,199 123,147 F 10,176 Sig. ,000a 1630,938 99,323 16,421 ,000b 1813,685 75,253 24,101 ,000c a. Predictors: (Constant), Profitto in Matematica, Genere b. Predictors: (Constant), Profitto in Matematica, Genere, Numero lezioni seguite c. Predictors: (Constant), Profitto in Matematica, Genere, Numero lezioni seguite, Punteggio SPATIAL d. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.26 Tavola di ANOVA per tutti i modelli verificati in un’analisi di regressione multipla gerarchica Come era prevedibile, in tutti i modelli R2 è statisticamente diverso da zero (Sig. < ,001). Nella tavola successiva, Coefficients, troviamo i coefficienti di regressione e il loro test di significatività ad ogni step dell’analisi (Figura 7.5.27). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Coefficientsa Model 1 2 3 (Constant) Genere Profitto in Matematica (Constant) Genere Profitto in Matematica Numero lezioni seguite (Constant) Genere Profitto in Matematica Numero lezioni seguite Punteggio SPATIAL Unstandardized Coefficients B Std. Error 36,015 3,723 2,863 2,279 ,852 ,212 23,831 4,166 ,980 2,082 ,747 ,191 ,998 ,204 10,867 4,302 -,993 1,847 ,518 ,171 1,021 ,177 ,426 ,076 Standardized Coefficients Beta ,119 ,380 ,041 ,333 ,420 -,041 ,231 ,429 ,430 t 9,675 1,256 4,027 5,720 ,471 3,905 4,902 2,526 -,538 3,021 5,758 5,602 Sig. ,000 ,212 ,000 ,000 ,639 ,000 ,000 ,013 ,592 ,003 ,000 ,000 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.27 Tavola coi coefficienti di regressione e la loro significatività per ogni step di un’analisi di regressione multipla gerarchica La tabella in Figura 7.5.27 permette di osservare se e come sono variate le significatività dei predittori inseriti nei primi step con le aggiunte successive degli altri. Tali analisi vengono condotte come se ad ogni step i predittori presenti nel modello venissero tutti inclusi simultaneamente. Nel caso che stiamo considerando, il genere risulta fin da subito un predittore non significativo, mentre gli altri lo sono appena inseriti nel modello e lo rimangono fino alla fine. Non è però raro trovare che alcuni predittori sono significativi nei primi step e poi cessano di esserlo con l’inclusione di altri predittori (in questi casi va escluso mediante le diagnostiche che questo non avvenga a causa della collinearità). L’ultima tabella, Excluded Variables, presenta i coefficienti standardizzati beta che otterrebbero le variabili che in quel momento non sono inserite nell’analisi se venissero incluse nel modello di regressione multipla allo step successivo rispetto a quello nel quale è esclusa (Figura 7.5.28). Si noti anche che viene riportato il valore di Tolerance, che consente quindi di valutare, passo per passo, eventuali problemi di collinearità Excluded Variablesc Model 1 2 Numero lezioni seguite Punteggio SPATIAL Punteggio SPATIAL Beta In ,420a ,419a ,430b t 4,902 4,730 5,602 Sig. ,000 ,000 ,000 Partial Correlation ,449 ,437 ,500 Collinearity Statistics Tolerance ,945 ,894 ,894 a. Predictors in the Model: (Constant), Profitto in Matematica, Genere b. Predictors in the Model: (Constant), Profitto in Matematica, Genere, Numero lezioni seguite c. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.28 Tavola delle variabili escluse nei vari modelli di regressione multipla gerarchica Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Ad esempio, nello step 1 il numero di lezioni seguite era esclusa: se fosse stata inserita allo step successivo avrebbe ottenuto un beta di ,420, che infatti è quello che troviamo nella tabella in Figura 7.5.27 allo Step 2. In una tesi di laurea o in un articolo scientifico riporteremo la tabella in Figura 7.5.25 con i cambiamenti in R2, quella con i coefficienti in Figura 7.5.27 e scriveremo: E’ stata eseguita sui dati provenienti di 100 soggetti un’analisi di regressione multipla gerarchica per la predizione dell’ansia nei confronti della statistica in base al genere, ai punteggi di un test per il profitto in matematica, al numero di lezioni del corso di psicometria seguite e al punteggio nella scala Spatial di OSIVQ. Le analisi preliminari hanno rivelato l’assenza di problemi di collinearità e che un soggetto era probabilmente un outlier, per cui stato escluso dall’analisi. Genere e profitto in matematica sono stati inseriti nel modello allo Step 1, il numero di lezioni seguite allo Step 2 e il punteggio nella scala Spatial allo Step 3. Il modello finale spiega il 51% di variabilità dell’ansia nei confronti della statistica (R2 aggiustato = ,485) e ad ogni step l’incremento in R2 è risultato statisticamente significativo (vedi tabella con R2). Complessivamente, tutti i predittori tranne il genere sono risultati statisticamente significativi (vedi Tabella coi coefficienti). In base alla dimensione dell’effetto f2 sono risultati predittori più importanti il punteggio alla scala Spatial (f2 = ,44) e il numero di lezioni seguite (f2 = ,41), mentre il profitto in matematica aveva una dimensione dell’effetto meno forte (f2 = ,19). Regressione statistica Se utilizziamo una strategia di regressione multipla di tipo statistico il nostro scopo è fondamentalmente quello di trovare la combinazione di predittori che massimizzi l’accuratezza della previsione dei valori del criterio. Per realizzare una regressione multipla di tipo statistico Stepwise procediamo come nel caso della regressione standard, ma scegliamo Stepwise dal menu a tendina di Method3. In questo tipo di regressione è decisiva la scelta dei criteri statistici di inclusione ed esclusione dei predittori dal modello. I valori di SPSS di default (,05 per l’inclusione e ,10 per l’esclusione) di solito assicurano un buon compromesso fra errori di I e II tipo, ma a seconda delle necessità potrebbero essere reso più restrittivo il criterio di entrata (ad esempio, ,01) se si hanno molti predittori e si vuole mantenere nel modello solo i più importanti, o rilassato il criterio di esclusione (ad esempio, ,15), se si hanno pochi predittori e lo scopo è mantenere più predittori possibile nel modello. Queste modifiche possono essere operate dalla finestra Options. In pratica, la procedura di analisi comincia con un modello senza predittori: ad ogni passo verrà inserito il predittore con la p (o Sig.) più bassa fra quelle che hanno una p inferiore al criterio di entrata, ed escluso il predittore con p più alta fra quelle che hanno una p superiore al criterio di esclusione. Questo significa che una variabile inserita allo Step 2 può essere esclusa in uno di quelli successivi se soddisfa il criterio statistico di esclusione − cosa che non capita nella regressione gerarchica, in cui le variabili vengono incluse in base a criteri teorici e rimangono nel modello fino alla fine. L’analisi termina quando non ci sono più predittori da inserire, le variabili escluse hanno una probabilità associata maggiore del criterio di entrata e quelle incluse hanno una probabilità associata minore del criterio di esclusione. 3 Naturalmente si può scegliere anche un altro metodo di selezione fra quelli disponibili (Remove, Backward e Forward), ma se lo scopo dell’analisi è quello indicato, la procedura Stepwise è quella che garantisce il miglior compromesso fra quelle disponibili. Il lettore è comunque invitato, come esercizio, a valutare i risultati dell’analisi utilizzando queste altre opzioni. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Anche nel caso di una regressione statistica è importante poter esaminare la significatività dei cambiamenti in R2, dato che l’analisi procede per steps come quella gerarchica, per cui è utile scegliere questa opzione nella finestra Statistics. La prima tabella di output è nuovamente Variables Entered/Removed (Figura 7.5.29). Variables Entered/Removeda Model 1 2 Variables Entered Variables Removed Punteggio SPATIAL Numero lezioni seguite Profitto in Matematic a 3 . . . Method Stepwise (Criteria: Probability-of-F-to-enter <= ,050, Probability-of-F-to-remove >= ,100). Stepwise (Criteria: Probability-of-F-to-enter <= ,050, Probability-of-F-to-remove >= ,100). Stepwise (Criteria: Probability-of-F-to-enter <= ,050, Probability-of-F-to-remove >= ,100). a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.29 Tabella dei modelli verificati per una regressione multipla statistica La tabella in Figura 7.5.29 mostra che allo Step 1 è stato inserito il punteggio di Spatial e non è stata rimossa alcuna variabile (la colonna Variables Removed è vuota), che al secondo Step è stato inserito il numero di lezioni seguite e al terzo step è stato inserito il punteggio di profitto in matematica. Il fatto che la colonna Variables Removed sia completamente vuota indica che le varabili inserite non sono mai state rimosse, quindi hanno dapprima soddisfatto il criterio di entrata, e poi non hanno mai soddisfatto quello di uscita. Il fatto che non compaia il Genere non significa che non è mai stato preso in considerazione, ma che non ha mai raggiunto il criterio di entrata. Per ogni step sono riportati i criteri statistici di inclusione/esclusione. Nella tabella che segue, Model Summary, vengono riportati gli indici di fit e i cambiamenti 2 in R (Figura 7.5.30) Model Summary Change Statistics Model 1 2 3 R ,504a ,677b ,710c R Square ,254 ,458 ,505 Adjusted R Square ,247 ,447 ,489 Std. Error of the Estimate 10,494 8,993 8,642 R Square Change ,254 ,204 ,047 F Change 33,112 36,079 8,952 df1 df2 1 1 1 97 96 95 Sig. F Change ,000 ,000 ,004 a. Predictors: (Constant), Punteggio SPATIAL b. Predictors: (Constant), Punteggio SPATIAL, Numero lezioni seguite c. Predictors: (Constant), Punteggio SPATIAL, Numero lezioni seguite, Profitto in Matematica Figura 7.5.30 Tabella con gli indici di bontà di adattamento dei dati e i test di significatività per gli incrementi di R2 ad ogni step per una regressione multipla statistica In questo caso la tabella in Figura 7.5.30 non è molto utile sul piano teorico, in quanto l’ordine di inserimento dei predittori del modello non è stato basato su un’ipotesi di ricerca, ma su criteri statistici “ciechi” alla teoria. Ad ogni modo si può apprezzare come ad ogni step il valore di R2 aumenti significativamente. La tabella di ANOVA che segue riporta la significatività dell’R2 ad ogni passo dell’analisi (Figura 7.5.31). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia ANOVAd Model 1 2 3 Regression Residual Total Regression Residual Total Regression Residual Total Sum of Squares 3646,427 10682,078 14328,505 6564,377 7764,128 14328,505 7232,979 7095,526 14328,505 df 1 97 98 2 96 98 3 95 98 Mean Square 3646,427 110,125 F 33,112 Sig. ,000a 3282,189 80,876 40,583 ,000b 2410,993 74,690 32,280 ,000c a. Predictors: (Constant), Punteggio SPATIAL b. Predictors: (Constant), Punteggio SPATIAL, Numero lezioni seguite c. Predictors: (Constant), Punteggio SPATIAL, Numero lezioni seguite, Profitto in Matematica d. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.31 Tavola di ANOVA per tutti i modelli verificati in un’analisi di regressione multipla statistica Nella tavola dei coefficienti (Coefficients, Figura 7.5.32) possiamo valutare la significatività dei predittori passo per passo. Si noti che, in base ai criteri di inclusione/esclusione dei predittori, ad ogni passo sono inseriti solo quei predittori che a quel passo hanno una p < ,05 e successivamente la loro p non supera mai ,10. Coefficientsa Model 1 2 3 (Constant) Punteggio SPATIAL (Constant) Punteggio SPATIAL Numero lezioni seguite (Constant) Punteggio SPATIAL Numero lezioni seguite Profitto in Matematica Unstandardized Coefficients B Std. Error 31,310 3,735 ,500 ,087 16,133 4,078 ,477 ,075 1,075 ,179 11,077 4,268 ,418 ,074 1,003 ,174 ,508 ,170 Standardized Coefficients Beta ,504 ,481 ,452 ,422 ,422 ,226 t 8,382 5,754 3,956 6,395 6,007 2,596 5,624 5,780 2,992 Sig. ,000 ,000 ,000 ,000 ,000 ,011 ,000 ,000 ,004 a. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.33 Tavola coi coefficienti di regressione e la loro significatività per ogni step di un’analisi di regressione multipla gerarchica Anche in questo caso i predittori statisticamente significativi sono punteggio alla scala Spatial, numero lezioni seguite e profitto in matematica. Ad ogni modo, però, l’ordine di inserimento dei predittori rivela che inizialmente il predittore con la p più bassa era il punteggio Spatial, che infatti è stato inserito per primo, e che nel secondo Step il numero di lezioni seguite aveva una p inferiore a quella del profitto in matematica, che comunque è stato inserito nello Step 3 in quanto la sua p era comunque inferiore a ,05. Parte di queste informazioni sono deducibili anche dall’ultima tabella, Excluded Variables (Figura 7.5.34). Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia Excluded Variablesd Model 1 2 3 Genere Profitto in Matematica Numero lezioni seguite Genere Profitto in Matematica Genere Beta In ,077a ,287a ,452a -,017b ,226b -,041c t ,853 3,305 6,007 -,209 2,992 -,538 Sig. ,396 ,001 ,000 ,835 ,004 ,592 Partial Correlation ,087 ,320 ,523 -,021 ,293 -,055 Collinearity Statistics Tolerance ,947 ,927 ,997 ,909 ,910 ,899 a. Predictors in the Model: (Constant), Punteggio SPATIAL b. Predictors in the Model: (Constant), Punteggio SPATIAL, Numero lezioni seguite c. Predictors in the Model: (Constant), Punteggio SPATIAL, Numero lezioni seguite, Profitto in Matematica d. Dependent Variable: Punteggio Ansia verso la Statistica Figura 7.5.34 Tavola delle variabili escluse nei vari modelli di regressione multipla statistica Anche nel caso della Figura 7.5.34 viene fornito il valore di Tolerance per il controllo di eventuali collinearità. In una tesi di laurea o in un articolo scientifico riporteremo la tabella in Figura 7.5.30 con i cambiamenti in R2, quella con i coefficienti in Figura 7.5.33 e scriveremo: E’ stata eseguita sui dati provenienti di 100 soggetti un’analisi di regressione multipla stepwise per la predizione dell’ansia nei confronti della statistica in base al genere, ai punteggi di un test per il profitto in matematica, al numero di lezioni del corso di psicometria seguite e al punteggio nella scala Spatial di OSIVQ. Le analisi preliminari hanno rivelato l’assenza di problemi di collinearità e che un soggetto era probabilmente un outlier, per cui stato escluso dall’analisi. Per essere completata l’analisi ha richiesto tre step: nel primo è stata inserito nel modello il punteggio alla scal Spatial, nel secondo il numero di lezioni seguite, nel terzo il profitto in matematica. Nessuna delle variabili inserite è stata esclusa negli step successivi a quello di entrate e il genere non ha mai raggiunto il criterio per l’inclusione. Il modello finale spiega il 51% di variabilità dell’ansia nei confronti della statistica (R2 aggiustato = ,485) e ad ogni step l’incremento in R2 è risultato statisticamente significativo (vedi tabella con R2). In base alla dimensione dell’effetto f2 sono risultati predittori più importanti il punteggio alla scala Spatial (f2 = ,44) e il numero di lezioni seguite (f2 = ,41), mentre il profitto in matematica aveva una dimensione dell’effetto meno forte (f2 = ,19). Considerazioni conclusive I lettori più attenti potranno aver avuto delle perplessità, considerando i segni dei coefficienti di regressione, sui risultati ottenuti. Se sembra plausibile, infatti, che i predittori proposti siano effettivamente in relazione con il criterio, appare molto meno logico che siano predittori positivi, ossia che a livelli maggiori di profitto in matematica, di numero di lezioni seguite e di punteggio di stile cognitivo analitico corrispondano livelli maggiori, e non minori (nel qual caso i coefficienti avrebbero avuto segno negativo), di ansia nei confronti della statistica. Il fatto è che seguendo passo per passo le indicazioni di questo e delle altre schede di questo volume il lettore riuscirà con ogni Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia probabilità ad eseguire le analisi statistiche proposte, ma nessuna procedura “meccanica” si potrà mai sostituire alla conoscenza del fenomeno, che può essere ottenuta solo con lo studio approfondito e critico della letteratura scientifica relativa. I risultati in apparenza contradditori delle analisi di questa scheda possono essere spiegati in vari modi: ad esempio, il punteggio di ansia potrebbe essere stato calcolato al contrario, per cui a punteggi alti nella scala corrispondono punteggi bassi di ansia (pensate che questo errore non sia possibile, vero? E invece…), oppure certe relazioni causali possono essere anche al contrario: nei modelli proposti abbiamo supposto che chi segue molte lezioni (predittore,o variabile indipendente) abbia livelli di ansia minori (criterio, o variabile dipendente), ma potrebbe essere il contrario, ossia che le due variabili si scambino i ruoli di predittore e criterio e quindi il fatto di essere molto in ansia porti a seguire il maggior numero di lezioni possibile. Per verificarlo, dovremmo specificare altri modelli di regressione multipla, o procedere con analisi più sofisticate. Oppure le nostre ipotesi di partenza non sono state confermate dai risultati ottenuti. In questo caso il problema non è il non aver avuto ragione: il vero ricercatore non usa la ricerca per soddisfare il proprio narcisismo, sbandierando i risultati “positivi” e tacendo accuratamente quelli “negativi”, ma per placare la propria curiosità e contribuire al progresso della conoscenza: di fronte ad un risultato non compreso fra quelli attesi, il suo primo problema non sarà come torturare ulteriomente i dati pur di aver ragione (posto che abbia eseguito le analisi corrette, ovviamente), ma trovare una spiegazione a quanto ottenuto che possa fungere da base per ulteriori indagini. Carlo Chiorri, Fondamenti di psicometria – Copyright © 2010 The McGraw-Hill Companies S.r.l., Publishing Group Italia