Approfondimento 4.4 Costruzione di un database e

Approfondimento 4.4
Costruzione di un database e introduzione all’uso di SPSS
SPSS è un software per certi aspetti molto sofisticato, e riuscire a sfruttare al massimo le sue potenzialità richiede notevoli competenze sia statistiche sia informatiche. Poiché questa guida è rivolta
principalmente ad utilizzatori non esperti in entrambi i campi, come possono essere degli studenti
universitari di psicologia, si cercherà di semplificare al massimo l'esposizione delle procedure e delle opzioni, in modo che una conoscenza di base dell'uso del computer sia sufficiente per apprendere
le funzioni fondamentali del software.
1. Come organizzare i dati prima di importarli in SPSS
SPSS richiede innanzitutto che i dati siano organizzati in base alla seguente regola:
Le informazioni relative al singolo soggetto devono comparire sulle RIGHE, quelle relative alle variabili sulle COLONNE
I dati possono essere inseriti direttamente in un file di SPSS, ma data la limitata distribuzione o disponibilità del software, spesso i dataset vengono costruiti a partire da fogli di calcolo (ad esempio,
in Excel o in OpenOffice Calc). SPSS è in grado di acquisire dati in una grande varietà di formati,
compreso il .xls che contraddistingue i file di Excel. Se si utilizza OpenOffice Calc occorre evitare
di salvare nel formato di default (.ods), per cui una volta inseriti i dati si consiglia di salvare il documento nel formato Excel mediante la procedura File→Salva con nome→Scelta dal menu Salva
come del formato .xls (Figura 4.4.1)
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
2
Figura 4.4.1 Salvataggio in formato Excel di un file in OpenOffice Calc
Durante l'inserimento dei dati è fondamentale accertarsi che vi sia una colonna per ogni variabile
oggetto di studio, e che in ogni cella di ogni colonna sia presente un solo dato. Se questo può sembrare ovvio per variabili come il genere, o la risposta ad un item di un test, può non esserlo nel caso
in cui il soggetto possa scegliere più di una riposta fra quelle proposte, come nel caso della seguente
domanda:
Quali sono i suoi generi cinematografici preferiti? (è possibile indicare più di una risposta)
Animazione
Drammatico
Horror
Avventura
Erotico
Musicale
Biografico
Fantascienza
Storico
Commedia
Fantasy/Fantastico
Thriller
Documentario
Guerra
Western
Poiché i soggetti possono indicare più di una risposta, e la domanda è una sola, potremmo trovarci
nella scomoda posizione di dover inserire nella stessa cella più di un valore (ad esempio Animazione; Fantasy/Fantastico). In questi casi occorre allora creare una variabile per ogni alternativa di risposta possibile (nel caso dell'esempio avremo quindi 15 variabili: Animazione, Avventura, Biogra-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
3
fico. […], Western), e indicare con 1 se è stata scelta e con 0 se non è stata scelta dal soggetto. In
questo modo si segue la regola "una sola informazione in ogni cella della matrice casi × variabili".
Se si trova una risposta mancante (in gergo, missing), occorre inserire il codice stabilito per i
valori mancanti o scrivere direttamente “missing” nella cella. Se il codice stabilito per i missing è
un numero, deve essere un valore non valido, ossia non compreso fra quelli possibili per quella variabile. Ad esempio, se le risposte da inserire sono punteggi su scala Likert da 1 a 5, i valori possibili sono solo 1, 2, 3, 4 e 5. Il codice per i missing può essere quindi 0, oppure 9. Non esiste un codice
fisso per i missing, in quanto certi valori possono essere impossibili in alcune variabili ma non in
altre: il valore 0 è impossibile nella scala Likert da 1 a 5, ma non nella variabile “Numero di figli”,
per occorre prestare molta attenzione. Il vantaggio di utilizzare il codice numerico per i missing è
che creerà meno problemi nella lettura dei dati quando il file verrà importato in SPSS.
Se vogliamo che SPSS legga i nomi delle variabili così come le abbiamo inserite nel foglio di
calcolo, dobbiamo attenerci ad alcune regole. In primo luogo, è fondamentale che i nomi delle variabili compaiano solo sulla prima riga del foglio del calcolo. SPSS, infatti, rileva i nomi delle variabili solo sulla prima riga, mentre considera le informazioni contenute dalla seconda riga in poi
come dati. In secondo luogo, i nomi delle variabili devono seguire le seguenti indicazioni:
•
Non devono superare gli 8 caratteri
•
Il primo carattere non può essere un numero
•
Devono essere evitati gli spazi e i caratteri speciali1
In base a queste specifiche, il nome "Titolo di studio" non è corretto, in quanto è più lungo di otto
caratteri e contiene uno spazio. Occorrerebbe quindi riscriverlo come, ad esempio, "Tit_stu". Si noti
come l'underscore (o "trattino basso") sia consentito, e possa essere utilizzato al posto dello spazio.
Ogni volta che SPSS trova un nome di variabile che non riesce a "digerire", inserisce un nome
di comodo, come VAR00001, VAR00002, anche se mantiene una traccia del nome originale nella
colonna Label (vedi oltre).
SPSS legge anche dati testuali (ad esempio, M o F nella colonna del genere), ma per quanto
sia possibile eseguire una ricodifica numerica dei dati; è più comodo importarli direttamente come
numerici. In questo senso, è preferibile avere il genere codificato come 0 = F e 1 = M, o il titolo di
studio codificato come 0 = Nessuno, 1 = Licenza Elementare, 2 = Licenza Media, etc. A questo
proposito, però, occorre fare una precisazione. Se i dati vengono inseriti manualmente, e sul carta1
Per le versioni più recenti di SPSS può non essere necessario rispettare queste indicazioni
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
4
ceo non c'è una chiara indicazione di come codificare numericamente la risposta (vedi Figura 4.4.2),
si eviti di fare la codifica "a mente" nel passaggio dal cartaceo al foglio elettronico, in quanto questa
è una procedura ad alta probabilità di errore. Se la codifica numerica non è riportata nel cartaceo è
quindi preferibile inserire il testo ed eseguire su. SPSS le ricodifiche necessarie.
Figura 4.4.2 Codifica di dati testuali in caso di caselle numerate e non numerate
La prima colonna del dataset dovrebbe contenere il codice che deve essere assegnato al soggetto da
chi inserisce i dati provenienti dai protocolli (che potranno essere questionari, batterie, test, etc.). Se
per ragioni di rispetto della privacy non è possibile inserire nome e cognome del soggetto, occorre
generare un codice anonimo oppure una stringa alfanumerica che non consenta a terzi di identificare
con certezza il soggetto. Nel primo caso è fondamentale che il codice anonimo generato da chi inserisce i dati contenga un numero progressivo, così da poter mettere successivamente in ordine i protocolli, e una qualunque sigla che identifichi chi ha eseguito l'inserimento. Il modo più semplice, se
chi inserisce si chiama Mario Rossi, è utilizzare le iniziali seguite da un numero: MR001, MR002,
etc. Questa procedura è utile se in futuro ci sarà bisogno di ri-esaminare il cartaceo e/o interpellare
chi ha inserito i dati. Se però le esigenze di ricerca impongono somministrazioni ripetute nel tempo
e c'è necessità di appaiare i dati relativi agli individui, occorre mettere i soggetti in condizione di
generare autonomamente ogni volta il proprio codice. Una possibile soluzione è quella di chiedere
di inserire lettere o numeri relativi a caratteristiche immutabili (come l'iniziale del nome del padre
e/o della madre) o relativamente immutabili (come le ultime tre cifre del numero di cellulare). Se il
procedimento di generazione del codice è noto solo al ricercatore e al soggetto, chiunque altro possa
venire in possesso del materiale non troverà che una sigla che, per quanto lo riguarda, può significare qualunque cosa. Per esempio, si può costruire una serie di caselle come quella in Figura 4.4.3,
chiedendo di inserire nella prima casella l'iniziale del nome della madre, nella seconda l'iniziale del
nome del padre e nelle ultime tre caselle le ultime tre cifre del numero di cellulare. Se quindi il numero di cellulare del soggetto Antonio Bianchi è 3331234567, sua madre si chiama Stefania e suo
padre Alberto, il codice sarà SA567. Naturalmente le informazioni su come generare il codice non
devono per nessun motivo essere stampate sul foglio dove vengono inseriti i dati.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
5
Figura 4.4.3 Inserimento del codice auto-generato dal soggetto per somministrazioni ripetute. Le istruzioni su come riempire le caselle non devono essere presenti sul foglio
In questo modo ogni volta che dovremo raccogliere informazioni riguardo ad Antonio Bianchi non
avremo il problema che il soggetto potrebbe non ricordarsi il proprio codice, dato che basta ripetere
la procedura di generazione − sperando che non abbia cambiato numero di cellulare nel frattempo!
Quando si inseriscono molti dati nel foglio elettronico, lo schermo scorre a destra e in basso,
per cui la prima colonna e/o la prima riga, contenenti rispettivamente i codici dei soggetti e i nomi
delle variabili, potrebbero non essere più visibili. Per facilitare l’inserimento mantenendo visibili
queste informazioni, basta bloccare sul file di Excel la prima riga e la prima colonna. Si seleziona la
casella B2, si va al menu Finestra e si seleziona Blocca Riquadri (Figura 4.4.4a). A questo punto il
bordo destro della prima colonna e quello inferiore della prima riga saranno neri (Figura 4.4.4b), indicando che la colonna e la riga sono “bloccate”, ossia non scompariranno mai dalla visione anche
quando le altre celle scorreranno. Per togliere il "blocco", basta ripetere la procedura selezionando
questa volta Sblocca Riquadri.
(a)
(b)
Figura 4.4.4 Come bloccare le celle di Excel per mantenere visibili prima riga e prima colonna del dataset durante l'inserimento dei dati.
Una volta completato l'inserimento, il file dovrebbe apparire come nella parte di destra di
Figura 4.4.11 (vedi oltre). Ricordatevi sempre di salvare il file e di chiudere Excel. A questo punto
siamo pronti per l'importazione in SPSS.
2. Come è fatto SPSS
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
6
Prima di illustrare la procedura per importare i nostri dati in SPSS, vediamo le caratteristiche principali del software. Una volta che avete lanciato il programma, vi si aprirà una finestra come quella
in Figura 4.4.5.
Figura 4.4.5 Schermata di dialogo iniziale di SPSS
Lasciando selezionato Open an existing data source, e clickando su OK si aprirà una finestra che
consentirà di rintracciare nelle proprie cartelle il file da aprire. Tutte le altre opzioni al momento
non ci interessano, e di fatto non è necessario interagire con questa finestra per accedere al programma, tanto è vero che può essere esclusa dall'avvio del programma spuntando Don't show this
dialog in the future e clickando su OK. Si accederà a questo punto alla finestra di editor dei dati.
La finestra di editor dei dati appare come un foglio elettronico con le righe numerate e le colonne che recano l'intestazione var grigiata (Figura 4.4.6a).
(b)
(a)
Figura 4.4.6 Editor dei dati di SPSS
In basso a sinistra della finestra notiamo due linguette simili a quelle che identificano i vari fogli di
una cartella di Excel: Data View e Variable View (Figura 4.4.6b). Data View è la matrice casi × va-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
7
riabili, mentre Variable View è il foglio che contiene le informazioni sulle variabili (Figura 4.4.7),
della quale si parlerà più estesamente nella sezione 3.
Figura 4.4.7 Foglio Variable View di SPSS
Ritornando al foglio Data View, notiamo come in alto sia presente il consueto menu di funzioni di
comando.
•
File. In questo menu è possibile creare un nuovo file (New) o aprirne uno già esistente (Open). Scorrendo semplicemente col mouse si apre un sottomenu che permette di scegliere
quale tipo di file si vuole creare o aprire (Figura 4.4.8): nel nostro caso ci interessano soprattutto le opzioni Data (file di dati, estensione .sav), Syntax (file di sintassi, estensione .sps) e
Output (file di output, ossia quello in cui vengono riportati i risultati delle analisi, estensione
.spo, o .spv nelle versioni più recenti). Si noti che in SPSS l'output viene visualizzato in un
file con un formato diverso da quello dei dati.
Figura 4.4.8 Menu File di SPSS
Per quanto grigiata in Figura 4.4.8, dato che il file vuoto, anche le opzioni di salvataggio Save e Save as.. ci saranno utili, perché ci consentono, rispettivamente, di salvare il file in formato SPSS (.sav) o in altro formato (ad esempio, Excel o testo). Recently Used Data permet-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
8
te di accedere più rapidamente ai file di dati aperti di recente, così come Recently Used Files
consente di accedere ai più recenti file di output o altri che non siano file di dati.
•
Edit. In questo menu è possibile eseguire le usuali operazioni di annulla (Undo), ripeti (Redo), taglia (Cut), copia (Copy), incolla (Paste) per le righe e le colonne dell'editor dei dati,
trovare un particolare testo o valore (Find) e accedere al menu per le opzioni del programma
(Options).
•
View. Permette di modificare la barre degli strumenti (Toolbars) e le modalità di visualizzazione delle variabili.
•
Data. In questo menu sono contenuti i comandi che consentono, in particolare, di definire le
proprietà delle variabili (Define Variable Properties), ordinare i casi in base ad una delle variabili (Sort Cases), unire più file (Merge Files), creare in base ad una variabile di riferimento (ad esempio, il genere) sottogruppi di soggetti su cui eseguire separatamente ma simultaneamente le stesse analisi (Split File), selezionare dei casi in base ad una variabile o ad un
criterio di riferimento (Select Cases), definire una variabile che contenga informazioni circa
la frequenza di una cella in una categoria di una tavola di contingenza (Weight Cases).
•
Transform. Come dice il nome, in questo menu si trovano i comandi per eseguire trasformazioni sui valori delle variabili. In particolare ci interessano i comandi Compute, che permette
di creare nuove variabili che siano il risultato di operazioni matematiche applicate ai dati (ad
esempio, calcolo del punteggio ad un test come somma dei punteggi negli item), Recode,
che permette di ricodificare i dati di una variabile (ad esempio, per invertire i valori di un item reverse), e Rank Cases, che ci consente di assegnare un rango ai valori di una variabile
•
Analyze. Questo è il menu principale, per certi aspetti, dato che contiene i comandi per realizzare le analisi dei dati presentate successivamente in quest'opera.
•
Graphs. Questo menu contiene i comandi per realizzare i vari tipi di grafici illustrati nei capitoli successivi.
•
Utilities. Questo menu contiene comandi per la gestione avanzata del database.
•
Window. I comandi di questo menu permettono di spostarsi da una finestra all'altra.
•
?. In questo menu sono contenuti i comandi per ottenere aiuto (tutorial, guide, sintassi, etc.)
3. Importare i dati in SPSS da Excel
Per importare i dati da Excel a SPSS occorre andare al menu File→Open→Data. Si aprirà la finestra Open File, che di default prevede come Tipo file un file di dati di SPSS, che ha estensione .sav.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
9
Scorrendo il menu a tendina relativo, si può scegliere quali altri tipi di file è possibile importare in
SPSS (Figura 4.4.9).
Figura 4.4.9 Finestra Open File di SPSS
Una volta scelta l'opzione Excel (.xls), occorre recuperare il file nella cartella dove l'abbiamo salvato. Una volta selezionato il file e premuto Apri, si apre la finestra Opening Excel Data Source (Figura 4.4.10).
Figura 4.4.10 Finestra Opening Excel Data Source di SPSS
In questa finestra viene indicata la cartella da dove viene importato il file, e di default dovrebbe essere spuntata l'opzione Read variable names from the first row of data, che indica al software di recuperare i nomi delle variabili dalla prima riga di dati del foglio elettronico. Inoltre, poiché i file di
Excel supportano fogli multipli, viene indicato il nome del foglio (Worksheet) dove sono contenuti i
dati. È possibile cambiare il nome del foglio semplicemente attivando il menu a tendina con il pulsante sulla destra del campo. Una volta clickato OK, il file viene importato.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
10
Se non si sono verificati problemi, come ad esempio nomi "illegali" delle variabili o formati
dei dati inattesi, dovremmo visualizzare i dati o nel foglio Variable View o in Data View (dipende
dalla versione di SPSS). Se si sono verificati problemi di importazione, si apre automaticamente un
nuovo file di output che riporta la natura dell'errore, come nel seguente esempio:
>Warning. Command name: GET DATA
>(2101) The column contained no recognized type; defaulting to
>"Numeric[8,2]"
>* Column #: 61
>Warning. Command name: GET DATA
>(2103) The variable name (truncated to 8 bytes) conflicts with a previously
>defined variable.
>* Variable Name #: "Specific"
>* Conflicting Column #: 8
>* Duplicate Column #: 10
Il primo messaggio indica che non è stato riconosciuto il tipo di variabile, il secondo che il nome
della variabile è stato troncato perché eccedeva gli otto caratteri alfanumerici e/o conteneva caratteri
non consentiti. Questi problemi sono comunque facilmente correggibili.
Se ritorniamo al file .sav, e scegliamo il foglio Data View, possiamo confrontare l'aspetto del
dataset in SPSS con quello in Excel (Figura 4.4.11)
Figura 4.4.11 Lo stesso dataset in Excel (sopra) e in SPSS (sotto)
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
11
Ricordatevi sempre di salvare il file, una volta importato, mediante il comando File→Save. Questo
file può a sua volta essere ri-salvato in formato Excel mediante il comando Save as…, scegliendo
nel menu Salva come il formato .xls. Si noti che in questa finestra è presente il pulsante Variables,
che consente di scegliere, semplicemente selezionandole o de-selezionandole, quali variabili salvare. Questo particolare è importante perché un file di dati di SPSS potrebbe avere più di 256 colonne
(variabili), mentre un file di Excel non può eccedere questo limite.
Passiamo adesso ad identificare e definire le caratteristiche delle variabili andando sul foglio
Variable View. Nella Figura 4.4.12 vediamo come può apparire un dataset appena importato da
Excel.
Figura 4.4.12 Foglio Variable View di SPSS
Nella prima colonna (Name) è contenuto il nome della variabile, che, almeno nelle versioni meno
recenti di SPSS, sottostà ai vincoli già esplorati nella Sezione 1 di questo capitolo. Se però volessimo avere una descrizione migliore della variabile, come ad esempio inserire per esteso il testo dell'item test01, possiamo farlo nella colonna Label ("etichetta"), dove non ci sono vincoli di sorta. Ossia, possiamo inserire spazi, punteggiatura, numeri, etc. Così, possiamo inserire l'etichetta "Titolo di
Studio" per la variabile Tit_stu, o "Stato Civile" per St_Civ. Di default nelle tabelle di output viene
presentata l'etichetta della variabile, se è assente il software fa ricorso al nome. Nella colonna Label,
inoltre, il software inserisce i nomi delle variabili che non riesce a leggere quando il file viene importato, dopo aver assegnato un nome generico (ad esempio, VAR00001) nella colonna Name.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
12
La seconda colonna indica il tipo (Type) di variabile. SPSS consente di specificare fino a otto tipi di variabili, ma quelli che a noi interessano sono principalmente Numeric (numerico) e String
(stringa di testo). Nel caso della Figura 4.4.12 notiamo come SPSS abbia letto correttamente come
stringhe le variabili Codice, Genere, Tit_Stu, Profes, St_Civ, ma ci lascia perplessi il fatto che fra le
variabili che rappresentano le risposte gli item del test (test01, test02, etc.) una variabile sia indicata
come stringa (test08). Questo è dovuto probabilmente alla presenza di un dato anomalo (elemento
di testo, o formato irriconoscibile per SPSS e quindi codificato come "?") in quella variabile. A questo punto, se anche correggiamo il problema, il formato della variabile rimane invariato. Per cambiarlo, dobbiamo selezionare la cella della colonna Type relativa alla variabile e clickare sul piccolo
tasto con i tre puntini (
) che compare sulla destra della cella una volta selezionata. Si aprirà a
questo punto il menu che permetterà di spuntare l'opzione Numeric.
La colonna Width indica il numero di caratteri massimo che viene utilizzato per visualizzare
la variabile. In questa sede, quindi, non è possibile modificare la larghezza della colonna così come
appare nel foglio Data View: per questo, occorre modificare il valore nella colonna Columns, più a
destra nel foglio.
Nella colonna Decimals è possibile impostare il numero massimo di decimali da visualizzare
− per le variabili indicate come stringhe di testo naturalmente il valore è immodificabile.
Nella colonna Values si possono impostare le etichette per i diversi valori di una variabile
categoriale. Supponiamo di aver codificato il genere come 0 = Femmina e 1 = Maschio, e di avere
un dataset con i dati in formato numerico. In assenza di altre specificazioni, nelle tabelle di output
SPSS riporterà queste categorie come 0 e 1. Se però vogliamo che venga visualizzato il nome della
categoria corrispondente, occorre selezionare la cella della colonna Values corrispondente alla variabile e clickare sul tastino con i tre puntini. Si aprirà la finestra Value Labels (Figura 4.4.13).
Figura 4.4.13 Finestra Value Labels
Nella finestra occorre inserire il valore numerico corrispondente ad una categoria nel campo Value e
l'etichetta che vogliamo assegnare nel campo Value Label. Ogni volta che abbiamo riempito i due
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
13
campi occorre clickare su Add per confermare l'assegnazione dell'etichetta. Se vogliamo cambiare o
correggere un'etichetta, occorre selezionarla dal campo in basso dove sono elencate le etichette,
modificare il valore o l'etichetta, e clickare su Change. Quando abbiamo terminato, premiamo OK
per tornare al foglio con le variabili. A questo punto la cella della colonna Label non sarà più vuota.
Nella colonna Missing è possibile indicare quali valori devono essere interpretati come valori mancanti. Nella Sezione 1 avevamo visto come per un punteggio su scala Likert da 1 a 5 il valore
0, oppure il valore 9, potessero essere utilizzati come codici per i missing. Se lo abbiamo fatto, possiamo indicarlo in questa colonna. Selezioniamo la cella corrispondente alla variabile, clickiamo sul
tastino con i tre puntini sulla destra, e si apre la finestra Missing Values (Figura 4.4.14).
Figura 4.4.14 Finestra Missing Values
L'opzione Discrete Missing Values può essere utilizzata sia per variabili numeriche che di testo, e si
possono inserire fino a tre diversi valori che rappresentano i missing. L'opzione Range plus one optional discrete missing value, invece, è disponibile solo per le variabili numeriche, e consente di definire come missing un intervallo di valori più un valore discreto. Se non viene indicato niente vengono considerate missing solo le celle vuote (nel gergo di SPSS sono indicati come System Missing).
Nella colonna Align è possibile selezionare l'allineamento del testo all'interno delle celle
(Sinstra [Left], Destra [Right] e Centro [Center]), mentre nella colonna Measure è possibile specificare la scala di misura delle variabile (Nominale [Nominal], Ordinale [Ordinal] e Metrica [Scale]).
Per inserire (Insert) o cancellare (Clear) casi e variabili, basta clickare col tasto destro del
mouse sul numero corrispondente al caso o sul nome della variabile nel foglio Data View e scegliere l'operazione da compiere.
4. Trattamento preliminare dei dati
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
14
Prima di procedere con l'analisi dei dati, spesso sono necessarie alcune operazioni di trasformazione
o ricodifica dei dati. Vediamo le più comuni.
Nel caso del dataset in Figura 4.4.11 il genere è una variabile di testo. Supponiamo di volerla ricodificare in una variabile numerica 0 = Femmina e 1 = Maschio. Per far questo dobbiamo seguire il percorso Transform→Recode, e scegliere se vogliamo ricodificare i valori nella stessa variabile (Into same variables) o in una nuova variabile (Into different variables). In generale, per non
creare confusione, è preferibile ricodificare nella stessa variabile, anche se è consigliabile farlo su
una copia del file con la codifica originale, così da poter agevolmente recuperare i dati iniziali in caso di problemi. Quindi, dopo aver salvato una copia del file originale, procediamo scegliendo Transform→Recode→ Into same variables. Nella finestra che si apre (Figura 4.4.15) dobbiamo spostare
nel campo vuoto di destra le variabili alle quali vogliamo applicare la ricodifica che andremo a definire: nel caso che stiamo illustrando è una sola (il genere), ma se si tratta di ricodificare gli item
reverse di un test (per cui potremmo voler applicare a tutti la seguente ricodifica: 1=5, 2=4; 3=3;
4=2; 5=1), possiamo selezionare più di una variabile. Per spostare le variabili da un campo all'altro
occorre selezionarle e premere il tastino in mezzo ai due campi (
).
Figura 4.4.15 Finestra Recode into same variables
A questo punto possiamo eventualmente scegliere se ricodificare tutti i casi o solo alcuni. Se per assurdo volessimo ricodificare i valori solo per i maggiori di 25 anni, occorrerebbe clikare su If… e
accedere alla finestra Recode into Same Variables: If Cases (Figura 4.4.16).
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
15
Figura 4.4.16 Finestra Recode into same variables: If cases
In questa finestra, dopo aver spuntato Include if case satisfies condition, andremo a selezionare la
variabile Età dal campo di sinistra, la sposteremo con il tasto
nel campo di destra, e aggiunge-
remo da tastiera la dicitura "> 25". Nel campo Functions sono disponibili numerose funzioni matematiche per definire condizioni più complesse. Per tornare alla finestra precedente basta clickare su
Continue. Si tenga presente che a questo punto la trasformazione verrà applicata solo ai casi che
soddisfano la condizione. In generale, comunque, si tende sempre a ricodificare tutti i casi.
Per specificare le regole di ricodifica, nella finestra Recode into same variables dobbiamo
clickare su Old and New Values. La nuova finestra che si apre (Recode into same variables: Old
and New Values, Figura 4.4.17) è divisa in due: sulla destra abbiamo i vecchi valori (Old Value),
sulla destra i nuovi (New Value).
Figura 4.4.17 Finestra Recode into same variables: Old and New Values
In pratica, basta indicare nel campo Value di destra il valore da ricodificare e in quello di sinistra
quello ricodificato, come illustrato in Figura 4.4.17, e clickare su Add. La ricodifica comparirà nel
campo indicato come Old-->New. Per i casi più complessi è possibile utilizzare, dopo averle spun-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
16
tate, le opzioni Range. Nella prima (through) si può specificare gamma di valori: ad esempio, ricodificare nella stessa categoria tutti casi con età comprese fra 20 e 25 anni; analogamente, Lowest
through permette di ricodificare con lo stesso valore tutti i valori inferiori a quello indicato, mentre
through highest permette di ricodificare con lo stesso valori tutti i valori superiori a quello indicato.
All other values permette di ricodificare tutti i valori che non soddisfano le condizioni già impostate. Anche in questo caso è importante ricordarsi di clickare sempre su Add dopo aver impostato la
codifica.
A questo punto basta clickare su Continue per tornare alla finestra iniziale e poi su OK per
ottenere la ricodifica.
I valori nella colonna Genere sono ora tutti 0 e 1. Nondimeno, come già suggerito in precedenza, occorre andare a modificare nel foglio Variable View il tipo di variabile (da String a Numeric) e indicare le etichette per ogni categoria (colonna Values).
Per restare nel menu Transform, vediamo la funzione Compute. Questa funzione permette di
applicare funzioni matematiche anche molto complesse ai dati delle variabili. Nel nostro caso, però,
la utilizziamo per calcolare il punteggio totale di un test. In pratica, dobbiamo sommare, soggetto
per soggetto, i valori delle variabili test01, test02, test03 … fino a test18. Per farlo, seguiamo il percorso Transform→Compute. La finestra che si apre (Compute Variable, Figura 4.4.18) è simile a
quella in Figura 4.4.16.
Figura 4.4.18 Finestra Compute
Per prima cosa dobbiamo inserire il nome della variabile che rappresenterà il punteggio totale al test
nel campo Target Variable. Clickando su Type & Label è possibile impostare l'etichetta (Label) della variabile e il tipo Type (Numeric o String). Per definire le operazioni da compiere, basta selezio-
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
17
nare le variabili nel campo di sinistra, spostarle nel campo di destra (Numeric Expression) col tasto
, e utilizzare la tastiera per inserire le operazioni. Nel nostro caso inseriremo una ad una le 18
variabili che rappresentano gli item di un test separate dal segno di addizione. Per elaborazioni più
complesse possono essere impiegate le funzioni nel campo Function Group. Dopo aver selezionato
il gruppo di funzioni, comparirà un elenco nel campo Functions and Special Variables. Una volta
selezionata la funzione sarà possibile spostarla nel campo Numeric Expression: i suoi argomenti saranno rappresentati da punti interrogativi a cui è possibile sostituire il nome di una variabile o un
valore. Una volta impostata l'espressione numerica, clickando su OK si ottiene la generazione di
una nuova colonna sulla destra del dataset che contiene per ogni soggetto il risultato dell'operazione
matematica impostata − nel nostro caso, il punteggio al test (attenzione a invertire prima i punteggi
degli item reverse se questi sono presenti!). Anche in questo caso, clickando su If…, è possibile
condizionare l'esecuzione del calcolo solo per alcuni gruppi di soggetti. Si presti attenzione al fatto
che se il soggetto presenta un missing o un dato non valido anche in una sola delle variabili utilizzate nella funzione, la cella corrispondente nella nuova variabile risulterà vuota. Inoltre, prima di procedere con i calcoli, ci si accerti di aver impostato i codici missing relativi alle variabili utilizzate
nella funzione.
Altri comandi utili possono essere trovari nel menu Data. Ad esempio, il comando Sort Data permette di scegliere una variabile o più variabili in base ai valori delle quali ordinare, in senso
ascendente o discendente, tutto il dataset.
Il comando Select Cases consente di selezionare solo alcuni soggetti in base a diverse condizioni. Una volta seguito il percorso Data→Select Cases, si apre la finestra in Figura 4.4.19.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
18
Figura 4.4.19 Finestra Select Cases
Di default è spuntata l'opzione All cases (tutti i casi), ma è possibile specificare anche:
•
una condizione (If condition satisfied) come nel caso della Figura 4.4.16 (ad esempio, solo i
maggiori di 25 anni)
•
un campione casuale di soggetti (Random sample of cases), con possibilità di ottenere o una
percentuale approssimata (opzione Approximately dopo aver premuto sul tasto Sample) o il
numero esatto (Exactly) di x casi sui primi n.
•
una gamma specificata di casi (Based on time or case range): ad esempio, dal caso 1 al caso
80 (il numero di ogni caso è il numero della riga su cui compare).
•
una variabile filtro (Use filter variable), per cui vengono selezionati tutti quei casi il cui valore nella variabile è diverso da zero e non è missing
Nel riquadro Unselected Cases Are è possibile indicare se i casi non selezionati devono essere filtrati (Filtered), ossia rimangono visibili ma il numero corrispondente della colonna sulla sinistra
della finestra dell'editor dei dati risulterà barrato, oppure cancellati (Deleted), ossia vengono rimossi
dal dataset. È consigliabile eseguire quest'ultima opzione solo su una copia del dataset originario,
dato che se un nuovo salvataggio del file comporterebbe la perdita definitiva dei dati relativi ai casi
cancellati.
Una volta impostate le condizioni di filtro con l'opzione Filtered per i casi non selezionati e
premuto OK, i numeri corrispondenti ai casi non selezionati risulteranno barrati e in basso a destra
sulla finestra dell'editor dei dati comparirà la dicitura Filter On. Significa che il filtro è attivo e che
le analisi verranno realizzate solo sui casi selezionati (non barrati). Per riselezionare tutti i casi occorrerà ritornate alla finestra Select Cases e spuntare All Cases.
Se invece si vogliono eseguire simultaneamente le stesse analisi su due o più gruppi di soggetti ottenendo nell'output risultati separati, occorre utilizzare il comando Data→Split File (Figura
4.4.20).
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
19
Figura 4.4.20 Finestra Split File
Supponiamo di volere realizzare le analisi separatamente per maschi e femmine. In questo caso non
abbiamo bisogno di utilizzare la funzione filtro, selezionare i maschi, svolgere le analisi, poi selezionare le femmine e ripetere le analisi, ma basta seguire la seguente procedura: selezionare Compare Groups o Organize Output by Groups, e spostare nel campo Groups Based On la variabile che
specifica i gruppi (in questo caso, genere). La differenza fra Compare Groups e Organize Output by
Groups è che nel primo caso i risultati di ogni gruppo vengono presentati giustapposti tabella per
tabella, così da permettere un confronto immediato, mentre nel secondo vengono presentate prima
tutte le tabelle del primo gruppo, poi tutte quelle del secondo e così via. È consigliabile inoltre
spuntare l'opzione Sort the file by the grouping variables ("ordina i dati in base alla variabile di raggruppamento"), in quanto se si sceglie l'alternativa (File is already sorted) e i dati non sono effettivamente già ordinati si possono ottenere risultati molto confusi. Se si attiva una di queste due funzioni, in basso a destra della finestra dell'editor dei dati compare la scritta Split File On. Anche in
questo caso, per rimuovere la suddivisione, occorre ritornare alla finestra di partenza e selezionare
Analyze all cases, do not create groups.
5. Il file di output
Come già accennato, l'output di SPSS viene prodotto in un nuovo file. In questo file vengono riportare tabelle e grafici, come in Figura 4.4.21.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
20
Figura 4.4.21 File di output di SPSS
La finestra è suddivisa in due parti. Sulla sinistra vi è una sorta di "indice" dell'output nel quale sono riportati i titoli di tabelle e grafici: selezionando col mouse uno di questi titoli è possibile spostarsi rapidamente da una parte all'altra dell'output. Se si clicka sulla casella bianca col simbolo del
"meno" sulla sinistra di Frequencies l'indice e l'output sulla destra scompaiono e nella casella compare il simbolo del "più". Questa operazione può essere utile per gli output molto ricchi, in modo da
visualizzare volta per volta solo ciò che interessa. Facendo un click su una voce dell'"indice" dopo
averla selezionata è possibile modificare il testo contenuto. Per cui, si può cambiare il titolo da inglese in italiano. La stessa operazione di modifica è possibile su tabelle e grafici nella parte di destra
dell'output, solo che in questo caso occorre un doppio click dopo la selezione. Dopo aver eseguito il
doppio click è possibile modificare qualunque caratteristica di una tabella (anche i risultati, se non
vi piacciono…) facendo doppio click sulla parte che interessa modificare (ad esempio il titolo, l'intestazione di una colonna o il nome di una variabile) o attivando il menu di modifica col tasto destro
del mouse. (in particolare, le opzioni Table Properties e Cell Properties). Nel caso dei grafici il
doppio click apre una nuova finestra (Chart Editor) con un nuovo menu (Figura 4.4.22), per quanto
anche un click del tasto destro del mouse permetta di accedere a tutte le modifiche più avanzate.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
21
Figura 4.4.22 Finestra Chart Editor
Se si vuole modificare una parte specifica del grafico (ad esempio, il colore della barra di un istogramma, la scala dell'asse verticale, etc.) basta fare doppio click su di essa e interagire col menu che
si apre.
Gli elementi dell'output possono essere facilmente copiati e incollati nel file di output stesso,
in altri file di output oppure in altri programmi. Le tabelle vengono incollate come tali in Word e in
Excel, permettendone una facile rielaborazione, e come immagini, quindi non modificabili, in
Power Point, mentre le figure vengono sempre incollate come tali (anche se in Word vale la pena
incollarle seguendo il percorso Modifica→Incolla Speciale, selezionando poi Bitmap, in quanto la
resa grafica è migliore). Il file di output, in alternativa, può essere esportato in vari formati (come
Word o Excel; vedi File Type, Figura 4.4.23) mediante il comando File→Export.
Figura 4.4.23 Finestra Export Output
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia
Approfondimento 4.4 – Costruzione di un database e introduzione all’uso di SPSS
22
Nel menu di Export si può scegliere se esportare tutto (Output Document), solo le tabelle e il testo
(Output Document (No Charts)) o solo le figure (Charts Only). Clickando su Options si accede ad
un menu (HTML Format) nel quale è possibile scegliere un formato particolare per esportare le
immagini (Image Format).
Nel riquadro Export File si può indicare il nome del file e dove salvarlo. Nel riquadro Export What si può scegliere se esportare tutto (All Objects), solo ciò che è visibile (All Visible Objects) o solo la parte di output selezionata in quel momento (Selected Objects; questo è possibile
anche direttamente selezionando l'oggetto, clickando col tasto destro del mouse e scegliendo Export).
I vari menu File, Edit, View, etc. offrono sostanzialmente gli stessi comando del file di dati.
Carlo Chiorri, Teoria e tecnica psicometrica. Costruire un test psicologico
Copyright © 2011 The McGraw-Hill Companies S.r.l., Publishing Group Italia