Guida Spss - Dipartimento di Scienze sociali e politiche

INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
[email protected]
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
Esercitazione 1
Presentazione di SPSS 15.0 per Windows
la matrice dati
le variabili
la sintassi
i risultati
Inserimento dati
importazione da altri programmi (Excel, Word,…)
data entry
La “pulizia” dei dati
l’analisi delle frequenze
dati mancanti, outlier
1
Testi di riferimento
Marisa Giorgetti, Davide Massaro, Ricerca e percorsi di analisi
dati con SPSS, Milano, Pearson Paravia Bruno Mondadori, 2007
AAVV, L'ABC del programma SPSS : come avviarsi alla pratica
del pacchetto statistico, Milano, F. Angeli, 2004
Roberto Fideli, Come analizzare i dati al computer, Roma,
Carocci, 2002.
Julie Pallant, SPSS survival manual : a step by step guide to data
analysis using SPSS for Windows (version 12) / 2. ed.
Maidenhead Open university press, 2005.
Inoltre:
- Una guida in linea è disponibile all’interno del pacchetto SPSS
- I materiali presentati durante le esercitazioni saranno disponibili sul
sito del Prof. Ferruccio Biolcati Rinaldi, nella sezione del corso.
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
2
Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande
113 variabili
Dalle risposte degli intervistati ai dati
Dom2) Qual è il motivo principale per cui non hai ancora deciso cosa fare dopo
aver conseguito il diploma? (1 sola risposta)
(1) Aspetto di avere maggiori informazioni soprattutto sui corsi di laurea
Aspetto di avere maggiori informazioni soprattutto sui corsi di formazione
professionale post-diploma
Aspetto di avere maggiori informazioni soprattutto sulle possibilità di lavoro
Voglio attendere il risultato della maturità
Regole base per la codifica:
•I casi devono essere contraddistinti da un numero d’ordine corrispondente al
questionario del singolo intervistato
•Le variabili devono essere rappresentate in formato numerico ( un codice
numerico per ciascuna categoria di risposta)
•I codici numerici devono essere mutualmente esclusivi
•I codici numerici devono essere coerenti tra domande ( usare lo stesso numero
per modalità di risposta uguali, ad es. 1 per sì e 2 per no)
•E’ preferibile che i codici numerici siano omogenei rispetto alla modalità di risposta
( ad es. per variabili ordinali 1 per indicare il valore inferiore)
3
Le finestre di SPSS
Data Editor (Data view,Variable View): contiene la
matrice-dati e le informazioni sulle variabili; il file ha
come estensione “Nomefile.sav”
Output Viewer: mostra i risultati delle elaborazioni
statistiche (tabelle, grafici,..); il file ha come estensione
Nomefile.spo
Syntax File: per salvare i comandi lanciati tramite le
finestre di dialogo in linguaggio SPSS e per scriverne di
nuovi; il file ha come estensione Nomefile.sps
La matrice casi x variabili in Excel
variabili
c
a
s
i
Codici
numerici
4
Importazione di un file dati in SPSS da
Excel/1
Importazione di un file dati in SPSS da
Excel/2
5
Importazione di un file dati in SPSS da
Excel/3
La matrice dei dati in SPSS (Data Editor)
Barra Menù
6
La barra Menù
File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come
Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare
tabelle dell’output)
View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili,
WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out )
visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri
Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili
presenti nella matrice dati
Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili
Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le
principali analisi statistiche
Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche
Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili
Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte
Help/?: guida in linea, contiene anche esercitazioni
Salvare la matrice dati (xxx. sav)
7
Salvare la matrice dei dati/2
Le variabili (Variable View)
•Spss consente di definire le caratteristiche delle variabili della
matrice dati (tipo di variabile, scala di misura, nomi delle variabili e
dei valori)
•Queste operazioni sono preliminari all’analisi statistica dei dati e
possono essere fatte tramite le finestre di dialogo (Variable View)
che tramite la sintassi (Syntax file). Quest’ultima modalità è
preferibile, soprattutto per le etichette delle variabili e dei valori!
NB: tutti i comandi di SPSS possono essere importati dalla finestra
di dialogo semplicemente cliccando sul tasto INCOLLA ( PASTE
per la versione inglese). Una volta importato può essere adattato
alle esigenze del ricercatore.
8
Definire il tipo di variabile (Variable View)
Nome della variabile:
Tipo variabile:
Il nome della variabile non
può contenere spazi, deve
iniziare con una lettera, non
deve essere più lungo di 64
caratteri ( 8 per versioni
SPSS precedenti alla 15),
rifiuta alcuni caratteri
speciali
Consente di specificare il
tipo di variabile, in
particolare se ha un formato
di tipo numerico o stringa
(testo). Su una variabile
formato stringa non sono
possibili le analisi statistiche
Definire la scala di misura
Variabili cardinali o quasi cardinali: scala ( es. età in anni,
numero figli)
Variabili ordinali: ordinale (es. età in classi, anno di corso,…)
Variabili nominali: nominale ( es. sesso, indirizzo di studi,..)
9
Le etichette (Variable label, value label)
Variable label: consente di descrivere in
maniera discorsiva la variabile
Value labels: consente di
associare una etichetta verbale
a ciascun valore che può
essere assunto da ciascuna
variabile
Definire le variabili con un file di sintassi
10
Variable label, value label
La procedura per etichettare le variabili e le rispettive modalità con
il linguaggio SPSS è molto semplice.
VARIABLE LABEL ( VAR LAB): assegna un’etichetta alla variabile
VALUE LABEL (VAL LAB): assegna un’etichetta alle modalità della
variabile
Da ricordare:
• i comandi iniziano con VAR LAB O VAL LAB e finiscono sempre
con un punto.
• le etichette sono sempre comprese tra virgolette “….”; ‘….’
•Poiché i punti e le virgolette sono un comando nel linguaggio
SPSS, essi non vanno mai utilizzati nel testo che descrive le
variabili o i valori
•Per lanciare il comando cliccare sul tasto
strumenti
sulla barra degli
La pulizia dei dati
Prima di procedere con l’analisi statistica dei dati è necessario
controllare che in fase di input non siano stati commessi errori
Questa fase preliminare consente inoltre di avere una prima
visione d’insieme della distribuzione delle variabili nella
popolazione
L’analisi delle frequenze ( in SPSS: Analyze
Descriptive
Statistics Frequencies ) consente di:
1)
Verificare che i valori presenti rientrino nella gamma di valori
previsti
2)
Verificare eventuali casi mancanti
3)
Verificare la distribuzione delle risposte su una specifica
variabile
11
L’analisi delle frequenze/Menù
L’analisi delle frequenze/Menù
12
Analisi delle frequenze/ Menu
reset: per annullare
tutti i comandi
impostati e farne di
nuovi
Statistics: per avere informazioni
sulle statistiche descrittive delle
variabili
Charts: per realizzare
rappresentazioni grafiche
Analisi delle frequenze/Syntax
Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di
interesse all’interno di questo comando ( ovviamente in un file di sintassi):
FREQUENCIES
VARIABLES= anno naz scuola classe prov d1 d2 d3
/ORDER= ANALYSIS .
NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo al file di
sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese)
13
Analisi delle frequenze/Output
I casi validi: La tabella riporta: 1) il numero di casi validi per
la variabile di interesse in qs. caso il genere, 2) il numero di
casi mancanti, cioè i casi per i quali questa informazione non
è disponibile, 3) le statistiche descrittive richieste ( in qs.
caso la moda)
La gamma di valori:
La tabella riporta la distribuzione del
campione per sesso ( n, %):
9 maschi, 20 femmine ed 1 caso
codificato come 22
Si tratta di un errore di input che va
corretto nella matrice dati prima di
procedere con l’analisi dei dati,
Correggere l’errore
Trovare il caso nella matrice dati che sulla variabile sex assume valore 22
Controllare sul questionario originale corrispondente al caso quale è la risposta
corretta ( 1 maschio, 2 femmina, 0 non indica)
Modificare il valore nella matrice dati ( manualmente o attraverso sintassi,
preferibile perché resta traccia dell’operazione fatta)
Se non è possibile controllare il questionario:
si può provare, sulla base di altre informazioni e variabili disponibili di desumere il
valore esatto ( ad es. alcune scuole in Italia sono frequentate quasi
esclusivamente da donne, se il ns. caso frequenta una scuola di questo tipo è
altamente probabile che il codice inputato come 22 in realtà fosse 2)
si può attribuire al caso valore 0 ( nella nostra matrice dati corrisponde a “non
indica”) sulla variabile sex o, nel caso di variabili cardinali o quasi cardinali si
attribuisce il valore medio riscontrato nel campione
14
INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
[email protected]
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
15
Esercitazione 2
Giovedì 22 maggio, 14.30 -16. 30 (Aula 2)
Argomenti:
Analisi monovariata (variabili nominali, ordinali, cardinali)
Statistiche descrittive di base
Rappresentazioni grafiche
Analisi bivariata (Cenni)
Base dati per esercitazione :
Scelte postdiploma Lomb2005.sav
Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale
di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia
Testi di riferimento:
P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino,
Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca
sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
16
Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande
113 variabili
Le finestre di SPSS
Data Editor (Data view,Variable View): contiene la matricedati e le informazioni sulle variabili; il file ha come
estensione “Nomefile.sav”
Output Viewer: mostra i risultati delle elaborazioni
statistiche (tabelle, grafici,..); il file ha come estensione
Nomefile.spo
Syntax File: per salvare i comandi lanciati tramite le
finestre di dialogo in linguaggio SPSS e per scriverne di
nuovi; il file ha come estensione Nomefile.sps
17
La barra Menù
File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come
Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare
tabelle dell’output)
View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili,
WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out )
visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri
Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili
presenti nella matrice dati
Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili
Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le
principali analisi statistiche e alcune rappresentazioni grafiche
Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche
Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili
Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte
Help/?: guida in linea, contiene anche esercitazioni
Analisi monovariata
L’analisi delle frequenze ( in SPSS: Analyze
Descriptive
Statistics
Frequencies) consente di:
1)
Verificare che i valori presenti nella matrice dati rientrino nella gamma prevista
( e registrata nel code-book) Cfr. Lezione 1
2)
Identificare eventuali casi mancanti sulle singole variabili (Cfr. Lezione 1)
3)
Verificare la distribuzione delle risposte di una specifica variabile nel campione
4)
Identificare eventuali modalità della variabile sulle quali si collocano pochi casi
SPSS consente di :
Costruire una tabella relativa alla distribuzione di frequenza della variabile di
interesse ( valori assoluti, valori %)
Ottenere una adeguata rappresentazione grafica della distribuzione di
frequenza della variabile
Calcolare gli indici sintetici di ciascuna distribuzione ( misure di tendenza
centrale, misure di variazione e dispersione, indice di concentrazione o
distribuzione)
18
Analisi delle frequenze/ Menù
reset: per annullare
tutti i comandi
impostati e farne di
nuovi
Statistics: per avere informazioni
sulle statistiche descrittive delle
variabili (indici sintetici)
Charts: per realizzare
rappresentazioni grafiche
Analisi delle frequenze/Syntax
Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di
interesse all’interno di questo comando in un file di sintassi:
FREQUENCIES
VARIABLES= anno naz scuola classe prov d1 d2 d3
/ORDER= ANALYSIS .
NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo ad un file di
sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese) prima
di dare l’OK.
19
Analisi monovariata/variabili
nominali/promemoria
Con una variabile nominale ( ad. es. il genere ) sono
possibili le seguenti operazioni:
- creare una tabella con la distribuzione di frequenza
(n, %) di ciascuna modalità di cui la variabile è
composta (quanti sono i maschi e le femmine in valore
assoluto ed in percentuale nel campione?)
- calcolare un indice sintetico della distribuzione ( solo e
soltanto la moda, cioè la modalità che raccoglie il
maggior numero di casi)
- produrre una adeguata rappresentazione grafica
(grafico a torta o grafico a barre)
Analisi monovariata/Variabili nominali/Menù
1)
Selezionare la variabile nominale di interesse
2)
Cliccare su Statistiche (Statistics) e selezionare
statistiche di interesse
3)
Cliccare su Grafici (Charts) e selezionare il grafico
adeguato ( a torta/ piecharts, a barre/bar chart)
4)
Cliccare su Formato; in genere vanno bene le opzioni
di default, ma dipende dalle esigenze di ricerca
le
20
Analisi monovariata/Variabili
nominali/Sintassi
Di seguito si riportano i comandi di sintassi SPSS per
1) produrre la tabella con la distribuzione di frequenza per la variabile ( o le
variabili) di interesse ( nel nostro esempio la variabile d1)
2) calcolare anche alcune statistiche ( nel ns. esempio la moda), o una
rappresentazione grafica (nel ns. esempio PIECHART/grafico a torta)
della distribuzione della variabile di interesse
FREQUENCIES
VARIABLES=d1
/STATISTICS=MODE
/PIECHART PERCENT
/ORDER= ANALYSIS .
NB: ricorda che cliccando sul tasto INCOLLA (PASTE per la versione
inglese) è possibile importare nel file di sintassi i comandi definiti tramite
menù.
Analisi monovariata/Variabili nominali/OUTPUT
N.B= cliccando sulla tabella o sul grafico
si apre una maschera che consente di modificare
l’editing
21
Analisi monovariata/Variabili nominali/OUTPUT
Nome/Etichetta della
variabile
La tabella “Statistiche” riporta:
1) il numero di casi validi (quelli che hanno risposto alla domanda)
Statistiche
Idea su cosa fare dopo sms?
N
Validi
1115
Mancanti
0
Moda
3
Nome/Etichetta della
variabile
Validi
2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
informazione su questa variabile)
3) Il codice numerico corrispondente alla moda della distribuzione della
variabile (3, corrispondente a “Mi iscriverò ad un corso di laurea”)
Idea su cosa fare dopo sms?
Non indica
Cercherò lavoro
Laurea + lavoro
Laurea
Corso fp post sms
Non so
Totale
Frequenza Percentuale
20
1,8
266
23,9
265
23,8
328
29,4
27
2,4
209
18,7
1115
100,0
Informazioni presenti in Tabella:
Percentuale
valida
1,8
23,9
23,8
29,4
2,4
18,7
100,0
Percentuale
cumulata
1,8
25,7
49,4
78,8
81,3
100,0
1)
Frequenza: il numero di casi che si colloca
su ciascuna delle modalità della variabile di
interesse
2)
Percentuale: la frequenza % di ciascuna
modalità della variabile
3)
Percentuale valida: la frequenza % di
ciascuna modalità della variabile calcolata
solo su casi indicati come validi dal
ricercatore/trice ( nel ns. esempio tutti sono
ritenuti validi)
Modalità della variabile
Distribuzione di
frequenza (n, %)
4)
Percentuale cumulata : utile solo per
variabili ordinali/cardinali ( vedi slides
realtive)
Analisi monovariata/Variabili
nominali/Grafici
A torta: l’area di ogni sezione rappresenta la % o il
numero di risposte corrispondenti a ciascun valore della
variabile ( nel ns. esempio %); il grafico è in genere poco
leggibile se le modalità sono più di 7!
A barre/ortogramma: l’altezza delle barre è
proporzionale alla frequenza di valori della variabile;
l’ordine dei valori per varibili nominali è arbitrario in
base alle esigenze di ricerca, anche se in genere si
tende a collocarle in ordine crescente/decrescente di
frequenza
N.B= cliccando sul grafico si apre una maschera che consente di
modificarne l’editing
Statistiche
Idea su cosa fare dopo sms?
N
Validi
1115
Mancanti
0
22
Analisi monovariata/variabili
ordinali/promemoria
Con una variabile ordinale ( ad. es.il titolo di studio) sono
possibili le seguenti operazioni:
- creare una tabella con la distribuzione di frequenza
(n, %) di ciascuna modalità di cui la variabile è
composta (quanti sono i laureati/diplomati/con licenza
elementare/etc in valore assoluto ed in percentuale nel
campione?)
- calcolare indici sintetici della distribuzione (di tendenza
centrale: moda, mediana)
- produrre una adeguata rappresentazione grafica
(ortogramma)
Analisi monovariata/Variabili ordinali/Menù
1)
Selezionare la variabile ordinale di interesse
2)
Cliccare su Statistiche (Statistics) e selezionare
le statistiche di interesse ( media, mediana)
3)
Cliccare su Grafici (Charts) e selezionare il
grafico adeguato ( a barre)
4)
Cliccare su Formato; con una variabile ordinale
fondamentale selezionare valori crescenti o
decrescenti (default) e non i conteggi!
23
Analisi monovariata/Variabili
ordinali/Sintassi
Di seguito si riportano i comandi di sintassi SPSS per
1) produrre la tabella con la distribuzione di frequenza per la variabile ordinale ( o le
variabili) di interesse ( nel nostro esempio la variabile d6)
2) calcolare anche alcune statistiche (media, mediana), o una rappresentazione
grafica (bar charts, grafico a barre) della distribuzione della variabile di interesse
FREQUENCIES
VARIABLES=d6
/STATISTICS=MEDIAN MODE
/BARCHART PERCENT
/ORDER= ANALYSIS .
NB:
I comandi sono identici a quelli usati per le variabili nominali, ma cambiano le
statistiche e il tipo di grafico che è statisticamente sensato richiedere.
Si ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è
possibile importare nel file di sintassi i comandi definiti tramite menù.
Analisi monovariata/Variabili ordinali/OUTPUT
24
Analisi monovariata/Variabili ordinali/OUTPUT
La tabella “Statistiche” riporta:
Statistiche
Quando hai deciso di continuare gli studi?
N
Validi
740
Mancanti
375
Mediana
2,00
Moda
1
1)
il numero di casi validi (quelli che hanno risposto alla domanda)
2)
il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
informazione su questa variabile). Nel ns. esempio si tratta di casi che
NON dovevano rispondere, perché filtrati alla domanda precedente
(definiti da SPSS mancanti di sistema)
3)
Il codice numerico corrispondente alla mediana (2= nel biennio della
scuola media superiore) e alla moda (1 = prima di iniziare la scuola
media superiore) della distribuzione della variabile
Nome/Etichetta della
variabile
Quando hai deciso di continuare gli studi?
Validi
Mancanti
Prima di iniziare la sms
Nel biennio delle sms
Durante il 3° anno
Durante il 4° anno
Durante il 5° anno
Totale
Non indica
Mancante di sistema
Totale
Totale
Frequenza
342
69
91
134
104
740
12
363
375
1115
Percentuale
30,7
6,2
8,2
12,0
9,3
66,4
1,1
32,6
33,6
100,0
Percentuale
valida
46,2
9,3
12,3
18,1
14,1
100,0
Informazioni presenti in Tabella:
Percentuale
cumulata
46,2
55,5
67,8
85,9
100,0
1)
Frequenza: il numero di casi che si colloca su
ciascuna delle modalità della variabile di
interesse
2)
Percentuale: la frequenza % di ciascuna
modalità della variabile
3)
Percentuale valida: la frequenza % di ciascuna
modalità della variabile calcolata solo su casi
indicati come validi dal ricercatore/trice ( nel ns.
esempio non sono validi i “non indica” e i
“mancanti di sistema”)
4)
Modalità della variabile
Distribuzione di
frequenza (n, %)
Percentuale cumulata : indica la quota % di
casi che si collocano entro determinata
posizione della scala ordinale.
Analisi monovariata/Variabili
ordinali/Grafici
A barre/ortogramma: l’altezza delle barre è proporzionale alla frequenza di valori della
variabile; i valori vanno collocati seguendo l’ordine della scala ordinale. Nel ns.
esempio è una scala ordinale temporale che va da prima dell’iscrizione ad una scuola
media superiore al quinto anno della scuola media superiore
25
Analisi monovariata/variabili
cardinali/promemoria
Con una variabile cardinale ( ad. es. numero di esami
sostenuti; valutazioni in una scala 1-10) sono possibili
le seguenti operazioni:
- creare una tabella con la distribuzione di frequenza
(n, %) di ciascuna modalità di cui la variabile è
composta (quanti sono i laureati/diplomati/con licenza
elementare/etc in valore assoluto ed in percentuale nel
campione?)
- calcolare indici sintetici della distribuzione (di tendenza
centrale: moda, mediana, media; indici di
dispersione: varianza, deviazione standard)
- produrre una adeguata rappresentazione grafica
(istogramma)
Analisi monovariata/variabili cardinali/Menù
1)
Selezionare la variabile cardinale di interesse
2)
Cliccare su Statistiche (Statistics) e selezionare le
statistiche di interesse (media, mediana, moda,
deviazione std, valore min-max). Verificare che i casi
validi siano solo quelli previsti dalla scala di
misura; ad es. escludere dall’analisi i “non indica”
o i “non so” codificati con codici numerici (0, 99,
etc…) altrimenti SPSS li userà per calcolare la
media!
3)
Cliccare su Grafici (Charts) e selezionare il grafico
adeguato (istogramma)
4)
Cliccare su Formato; con una variabile cardinale è
importante selezionare valori crescenti o decrescenti
(default) e non i conteggi!
26
Analisi monovariata/
variabili cardinali/Sintassi
Di seguito si riportano i comandi di sintassi SPSS per
1) produrre la tabella con la distribuzione di frequenza per la variabile cardinale ( o le
variabili) di interesse ( nel nostro esempio la variabile d9a)
2) calcolare anche alcune statistiche (media, mediana, moda, deviazione standard,
valori minimo e massimo, intervallo), o una rappresentazione grafica (istogramma)
della distribuzione della variabile di interesse
FREQUENCIES
VARIABLES=d9a
/STATISTICS=STDDEV RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE
/HISTOGRAM NORMAL
/ORDER= ANALYSIS .
NB: I comandi sono identici a quelli usati per le variabili nominali e ordinali , ma cambiano le statistiche
e il tipo di grafico che è statisticamente sensato richiedere. Si ricorda che cliccando sul tasto INCOLLA
(PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù.
La variabile d9a corrisponde alla seguente domanda del questionario:
9) Indipendentemente dal voto dato dagli insegnanti e dalla scuola che si frequenta alcune persone si
sentono più portate per la matematica, altre per la storia, altre ancora per il disegno. E tu, in una scala
da 1 a 10, quanto ti senti portato per le materie elencate ? Posizionati sulla scala considerando che 1
indica che non ti senti per nulla portato per quella materia e 10 che ti senti portato moltissimo
Materie matematiche (matematica, statistica…) 1 2 3 4 5 6 7 8 9 10
Analisi monovariata/variabili
cardinali/Output
27
Analisi monovariata/variabili cardinali/Output
Analisi monovariata/variabili cardinali/Output
La tabella “Statistiche” riporta:
Statistiche
Predisposizione materie: matematiche
N
Validi
1114
Mancanti
1
Media
5,63
Mediana
6,00
Moda
6
Deviazione std.
2,372
Intervallo
9
Minimo
1
Massimo
10
1)
il numero di casi validi (quelli che hanno risposto alla domanda)
2)
il numero di casi mancanti ( quelli per i quali non è disponibile alcuna
informazione su questa variabile).
3)
Il codice numerico corrispondente alla media (5,63) alla mediana (6)
e alla moda (6) della distribuzione della variabile
4)
La deviazione standard (scarto quadratico medio): preferibile alla
varianza nelle analisi monovariate perché è dello stesso ordine di
grandezza della variabile e media.
5)
Valore massimo e minimo assumibile dalla variabile ( 1-10) e relativo
intervallo (9)
Nome/Etichetta della
variabile
Predisposizione materie: matematiche
Validi
Mancanti
Totale
Per nulla portato
2
3
4
5
6
7
8
9
Moltissimo portato
Totale
Non indica
Modalità della variabile
Frequenza
84
59
90
96
151
187
175
174
59
39
1114
1
1115
Percentuale
7,5
5,3
8,1
8,6
13,5
16,8
15,7
15,6
5,3
3,5
99,9
,1
100,0
Percentuale
valida
7,5
5,3
8,1
8,6
13,6
16,8
15,7
15,6
5,3
3,5
100,0
Informazioni presenti in Tabella:
Percentuale
cumulata
7,5
12,8
20,9
29,5
43,1
59,9
75,6
91,2
96,5
100,0
1)
Frequenza: il numero di casi che si colloca su
ciascun valore della variabile di interesse
2)
Percentuale: la frequenza % di ciascun valore
della variabile
3)
Percentuale valida: la frequenza % di ciascun
valore della variabile calcolata solo su casi
indicati come validi dal ricercatore/trice
Percentuale cumulata : indica la quota % di
casi collocati ad una determinata posizione
della scala cardinale.
Distribuzione di
frequenza (n, %)
28
Analisi monovariata/variabili cardinali/Grafici
Gli istogrammi richiesti
tramite la finestra
Frequencies forniscono
solo le frequenze
assolute e non le %
Statistiche
Predisposizione materie: matematiche
N
Validi
Mancanti
Media
1114
1
5,63
Se la variabile è una variabile
cardinale raggruppata in classi
possiamo
rappresentarla
graficamente con un istogramma,
collocando su un asse la variabile,
sull’altro la frequenza e innalzando
dei rettangoli di area proporzionale
alle frequenze.
NB:
Un tipo particolare di istogramma è
dato dalla piramide della popolazione;
dall’Istogramma è possibile derivare il
poligono di frequenza.
Per queste rappresentazioni grafiche
occorre far riferimento al comando
Grafici sulla Barra Menù di SPSS (
vedi SLIDE SUCCESSIVE)
Come generare Grafici con SPSS/1
Oltre alle (poche!) rappresentazioni grafiche previste all’interno della finestra Frequencies/Charts ,
Spss consente di creare numerosi tipi di grafici. Dal comando GRAFICI sulla barra di Menù è
possibile scegliere tra Generatore Grafici, Interattivi, Finestre Legacy: ognuno di quesi
sottomenù prevede vari tipi di grafici. Per rapporti di ricerca, pubblicazioni, etc…è comunque
preferibile usare Excel, che produce grafici esteticamente migliori e più facili da gestire.
29
Come generare Grafici con SPSS/2
2) Trascinare la variabile di
interesse sull’asse delle x
Istogramma prevede:
- Istogrammi semplici e
raggruppati
- Poligono di frequenza
- piramide della
popolazione
1) Selezionare il tipo di
grafico di interesse
Generatore di Grafici/Esempi
ISTOGRAMMA (classi %)
PIRAMIDE DELLA
POPOLAZIONE
30
Missing values: come eliminare dall’analisi i
casi?
Colonna del foglio
variabili da utilizzare per
definire i valori mancanti
(missing) oltre a quelli di
sistema definiti in fase di
input
Cliccare sulla cella
corrispondente alla
variabile di interesse ( nel
ns.esempio d9a) ed
inserire i valori da definire
come mancanti. Nel ns.
caso 0, che corrisponde a
“Non indica”
I casi validi: su quale base calcolare le
frequenze?
1)
Effettuare una distribuzione di frequenza della variabile di interesse prevedendo tutti i
valori che essa può assumere (compresi quelli corrispondenti a non so e non indica);
2)
Per le variabili cardinali, quando si chiedono le statistiche descrittive (media, mediana,
deviazione standard, etc…) ricordarsi sempre di tarsformare in missing i valori che escono
dalla scala di misura (in genere i codici numerici associati a “non so” e o “non indica”)
3)
La scelta di eliminare o meno i non so dall’analisi dipende dalle esigenze di ricerca, dal tipo di
fenomeno che si sta studiando, dall’impostazione metodologica del ricercatore
4)
Come trattare i Non so? Si tratta di una informazione importante che il ricercatore deve
sempre tenere presente per valutare l’affidabilità dei dati su cui lavora. Nel caso in cui si
decida di eliminare i “non so” dall’analisi (in genere quando si tratta di pochi casi, inferiori al
3% del campione) è importante segnalare l’operazione fatta ( nel testo, o in tabella o in una
nota metodologica);
5)
Come trattare i Non indica (mancate risposte)? In primo luogo occorre controllare che non
vi siano errori di input ed eventualmente correggerli nella matrice dati. In genere, a meno che
non si tratti di una quota rilevante del campione, si è soliti eliminare dall’analisi i “non indica”.
Si tenga presente che se la variabile non prevede la modalità di risposta “non so”è probabile
che alcuni intervistati “indecisi” abbiano preferito non rispondere alla domanda ( e quindi sono
stati codificati con “non indica”). Anche in questo caso se si decide di trasformare in missing
values i “non indica” occorre sempre segnalare l’operazione fatta in fase di presentazione dei
dati.
31
Missing values: un esempio
Tab. 1
Validi
Non indica
Cercherò lavoro
Laurea + lavoro
Laurea
Corso fp post sms
Non so
Totale
Idea su cosa fare dopo sms?
Frequenza
20
266
265
328
27
209
1115
Tab. 2
Validi
Mancanti
Totale
Cercherò lavoro
Laurea + lavoro
Laurea
Corso fp post sms
Totale
Non indica
Non so
Totale
Percentuale
1,8
23,9
23,8
29,4
2,4
18,7
100,0
Percentuale
valida
1,8
23,9
23,8
29,4
2,4
18,7
100,0
Percentuale
cumulata
1,8
25,7
49,4
78,8
81,3
100,0
Idea su cosa fare dopo sms?
Frequenza
266
265
328
27
886
20
209
229
1115
Percentuale
23,9
23,8
29,4
2,4
79,5
1,8
18,7
20,5
100,0
Percentuale
valida
30,0
29,9
37,0
3,0
100,0
Percentuale
cumulata
30,0
59,9
97,0
100,0
Come si può notare le percentuali valide
riportate nella prima tabella (distribuzione di
frequenza di tutti i valori della variabile)
differiscono notevolmente dalla seconda che
esclude Non indica e Non so).
Sulla base dei dati presentati in Tab. 1 possiamo
dire che su 100 studenti lombardi : circa 20 non
sanno cosa fare dopo il diploma (18,7%), 30
pensano di iscriversi all’università (29,4%), 24
vogliono conciliare lavoro e università, 24
cercheranno subito un lavoro. Una quota ridotta
( 2 ,4%) sceglie un corso Formazione
Professionale o non fornisce risposta (1,8%).
Se usiamo i dati presentati in Tab.2 e
consideriamo la sola percentuale valida, le
quote variano di molto: circa 37 studenti su 100
pensano di iscriversi all’università, 30 vogliono
conciliare lavoro e università, 30 cercheranno
subito un lavoro. Una quota ridotta ( 3%)
sceglierà un corso Formazione Professionale
Missing values: la matematica è
un’opinione?
Chi è in possesso dei dati presentati in Tab. 1 potrà legittimamente affermare:
“Dai dati emerge una grande difficoltà da parte degli studenti lombardi nel
scegliere il proprio futuro. Ben un quinto di essi non è in grado di formulare
ipotesi sulle scelte che farà dopo il diploma e la quota rimanente si suddivide
quasi equamente tra chi si iscriverà ad un corso di laurea, chi cercherà un lavoro
e chi intende conciliare entrambi i percorsi. L’investimento assoluto in un
percorso qualificante quale quello universitario raccoglie l’interesse di poco meno
di 30 studenti su 100”
Chi è in possesso dei dati presentati in Tab. 2 ( percentuale valida)
legittimamente affermare:
potrà
“I dati evidenziano una fortissima tendenza da parte degli studenti di
scuola superiore ad investire sul proprio futuro professionale con percorsi
di qualità, con l’obiettivo di conseguire un titolo di studio universitario. Infatti, ben
due terzi degli studenti intervistati pensa di iscriversi ad un corso di laurea,
eventualmente affiancando tale percorso ad un impegno lavorativo.”
32
Le variabili quasi-cardinali
Molti fenomeni sociali (religiosità, razzismo, orientamento politico, atteggiamenti verso le istituzioni,
coesione sociale, orientamenti valoriali, etc…) possono essere immaginate come proprietà continue
che variano in maniera graduale far gli individui. Ma quale unità di misura usare per passare da un
concetto di questo tipo ad una variabile cardinale (opertivizzazione)? La “tecnica delle scale”
rappresenta un tentativo di superare tale limite. Le variabili prodotte con queste tecniche (variabili
quasi-cardinali, Marradi 1993) possono plausibilmente essere trattata con gli strumenti statistici propri
delle variabili cardinali, ma è sempre opportuno tenere presente la loro particolare natura.
La scala maggiormente utilizzata nelle scienze sociali è la scala Likert. Il formato delle singole
domande delle scale Likert è rappresentato da una serie di affermazioni per ognuna delle quali
l’intervistato deve dire se e in che misura è d’accordo. La scala può essere a 7 alternative (molto
d’accordo, d’accordo, parzialmente d’accordo, incerto,parzialmente in disaccordo, in dissaccordo,
molto in disaccordo), a 5 (molto d’accordo, d’accordo, incerto, in disaccordo, molto in disaccordo) o a
4 (molto, abbastanza, poco, per nulla d’accordo). Ad ogni modalità di risposta è associato un valore
numerico ( da 1 a 7, o da 1 a 5, o da 1 a 4) con proprietà cardinali.
Esempi di scala nel questionario usato per le esercitazioni (Scelte postdiploma Lomb 2005.doc):
- Dom 13) Parliamo adesso di un lavoro in particolare, quello di chi fa ricerca scientifica, cioè delle persone che fanno
nuove scoperte sul “funzionamento” di vari aspetti del mondo (ad esempio i pianeti, l’atmosfera, il corpo umano…). Le
opinioni della gente sulla ricerca scientifica non sono tutte uguali. Tu come la pensi? Di seguito ti elenchiamo una
serie di affermazioni: per ognuno di esse ti chiediamo di dirci se sei d’accordo e in che misura.
- Dom. 10) Le opinioni degli studenti rispetto alla matematica possono essere molto diverse: tu come la pensi? Ti
elenchiamo una serie di affermazioni: per ognuna di esse ti chiediamo di dirci se sei d’accordo e in che misura
Atteggiamento verso la ricerca scientifica:
analisi monovariata
Affermazioni ricerca scientifica: comporta rischi difficili da controllare
Validi
Non indica
Per nulla d'accordo
Poco d'accordo
Abbastanza d'accordo
Molto d'accordo
Non so
Totale
Frequenza
3
57
320
491
175
69
1115
Percentuale
,3
5,1
28,7
44,0
15,7
6,2
100,0
Percentuale
valida
,3
5,1
28,7
44,0
15,7
6,2
100,0
Percentuale
cumulata
,3
5,4
34,1
78,1
93,8
100,0
Affermazioni ricerca scientifica: difficile da comprendere
Validi
Non indica
Per nulla d'accordo
Poco d'accordo
Abbastanza d'accordo
Molto d'accordo
Non so
Totale
Frequenza
1
112
385
458
122
37
1115
Percentuale
,1
10,0
34,5
41,1
10,9
3,3
100,0
Percentuale
valida
,1
10,0
34,5
41,1
10,9
3,3
100,0
Percentuale
cumulata
,1
10,1
44,7
85,7
96,7
100,0
Posso chiedere l’analisi
delle
frequenze
per
ciascuna
variabile
derivata dalla batteria di
domande, ma la lettura e
il confronto tra variabili
risulta poco agevole
Affermazioni ricerca scientifica: chi la fa è pagato troppo poco
Validi
Non indica
Per nulla d'accordo
Poco d'accordo
Abbastanza d'accordo
Molto d'accordo
Non so
Totale
Frequenza
5
84
177
290
222
337
1115
Percentuale
,4
7,5
15,9
26,0
19,9
30,2
100,0
Percentuale
valida
,4
7,5
15,9
26,0
19,9
30,2
100,0
Percentuale
cumulata
,4
8,0
23,9
49,9
69,8
100,0
33
Atteggiamento verso la ricerca scientifica:
tabelle di frequenza
Tabelle di frequenza/Menu
34
Tabelle di Frequenza/output
Questo formato agevola il confronto tra variabili ( che rappresentano nel
ns. esempio un particolare aspetto associato alla ricerca scientifica)
Affermazioni ricerca
Affermazioni ricerca
scientifica: comporta
Affermazioni ricerca
Affermazioni ricerca
scientifica: indispensabile
scientifica: difficile da
scientifica: chi la fa è
rischi difficili da
x qualità della vita
controllare
comprendere
pagato troppo poco
Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale
Non indica
2
,2
3
,3
1
,1
5
,4
Per nulla d'accordo
9
,8
57
5,1
112
10,0
84
7,5
Poco d'accordo
51
4,6
320
28,7
385
34,5
177
15,9
Abbastanza d'accordo
394
35,3
491
44,0
458
41,1
290
26,0
Molto d'accordo
652
58,5
175
15,7
122
10,9
222
19,9
Non so
7
,6
69
6,2
37
3,3
337
30,2
Totale
1115
100,0
1115
100,0
1115
100,0
1115
100,0
INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
[email protected]
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
35
Esercitazione 3
Argomenti
Trasformazione delle variabili attraverso i comandi:
Ricodifica (RECODE)
Calcola (COMPUTE)
Conteggia (COUNT)
Manipolazione dei casi attraverso i comandi:
Seleziona (SELECT cases)
Distingui (SPLIT FILE)
Base dati per esercitazione :
Scelte postdiploma Lomb2005.sav
Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale
di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia
Testi di riferimento:
P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino,
Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca
sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
36
Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande
113 variabili
Costruire nuove variabili
Spss consente di creare una nuova variabile
tramite:
Trasformazione di una variabile presente nel
data set (es. aggregazione dei valori in classi,
comando RECODE)
Conteggio di un valore presente in una lista di
variabili ( comando COUNT)
Combinazione di più variabili (operazioni
aritmetiche e/o logiche tra le variabili,
comando COMPUTE)
37
L’istruzione RECODE (ricodifica)
Consente di assegnare alle variabili valori
differenti rispetto a quelli di partenza:
Codificare un valore come missing
Accorpare in classi i valori della variabile
Invertire i valori della variabile in coerenza con
la scala usata (ad.es in Scala Likert, 1= per
nulla; 4=molto) ed in generale modificare i
valori associati alle modalità di risposta
Un esempio: accorpamento dei
valori in classi
Tipo sms frequentata
Frequenza
Validi
Non indica
L. classico
L. scientifico
L. artistico
L.
socio-psico-pedagogico
Ist. prof. industriale e
artigianato
Ist. prof. per i servizi
commerciali e turistici
Altri Ist. Prof. e Istituto
d'arte
Ist. Tecnico commerciale
e per geometri
Ist. Tecnico industriale
Altri ist. Tecnici
Totale
Percentuale
Percentuale
valida
Percentuale
cumulata
1
88
233
42
,1
7,9
20,9
3,8
,1
7,9
20,9
3,8
,1
8,0
28,9
32,6
44
3,9
3,9
36,6
73
6,5
6,5
43,1
94
8,4
8,4
51,6
40
3,6
3,6
55,2
276
24,8
24,8
79,9
179
45
1115
16,1
4,0
100,0
16,1
4,0
100,0
96,0
100,0
Come ricodificare la variabile “scuola” passando da 10 modalità a 3?
1 = liceo
2 = ist. professionale
3 = ist. Tecnico
38
Ricodifica in variabili differenti
Utilizzeremo l’istruzione RECODE ( in variabili
differenti) per creare una nuova variabile “scuola_rec”
a tre modalità
TRANSFORM RECODE
INTO DIFFERENT
VARIABLES
Posso ricodificare la variabile “scuola” passando da 10
modalità a 3:
1 = liceo ( comprende i “vecchi” valori 1,2,3,4)
2 = ist. professionale ( comprende i “vecchi” valori 5,6,7)
3 = ist. Tecnico (comprende i “vecchi” valori 8,9,10)
I “non indica” sono codificati come “missing values”
Ricodifica in variabili differenti/Menu
39
Ricodifica: creare una nuova
variabile
1. Selezionare la variabile da modificare e spostarla nel box centrale
2. Indicare nome ed etichetta della variabile che si vuole creare e
cliccare su Cambia per confermare
3. Cliccare su Valori vecchi e nuovi per dare le istruzioni di ricodifica
4. Cliccare su SE,qualora si voglia applicare la ricodifica solo ai csi che
soddisfano una determinata condizione ( ad es. sesso=1)
Ricodifica: assegnare nuovi valori
1. Indicare nell’appropriato box a sinistra il valore/i valori da ricodificare
(vecchio valore), che possono essere singoli o intervalli di valori ( nel ns.
esempio 0, intervallo da 1 a 4, da 5 a7, da 8 a 10)
1. Ib
2. Per ciascun vecchio valore o intervallo di valori indicare ( a destra) la
ricodifica scelta: un valore nuovo, mancante di sistema, un valore uguale
a quello vecchio. Cliccare su aggiungi per confermare
3. Cliccare su continua, e poi su OK nella maschera che compare ( vedi
slide precedente)
40
Ricodifica: la sintassi
I comandi di sintassi consentono di creare la nuova variabile,
assegnare i valori e le etichette ( tramite Menu le etichette dei valori
non possono essere assegnate!). Negli esempi seguenti vengono
create due variabili differenti ( scuola_2, scuola_3, a partire dalla
variabile iniziale “scuola”)
RECODE
scuola
(0=SYSMIS) (1 thru 4=1) (5 thru 7=2) (8 thru 10=3) INTO scuola_3 .
VARIABLE LABELS scuola_3 "Tipo scuola in 3 classi".
EXECUTE .
VAL LAB scuola_3
1 "Liceo"
2 "Istituto Professionale"
3 "Istituto Tecnico" .
RECODE
scuola
(0=SYSMIS) (1 thru 4=1) (5 thru 10=2) INTO scuola_2 .
VARIABLE LABELS scuola_2 "Tipo scuola in 2 classi".
EXECUTE .
VAL LAB scuola_2
1 "Liceo"
2 "Istituto Professionale o Tecnico "
Distribuzione di frequenza delle
nuove variabili (ricodificate)
Tipo scuola in 2 classi
Validi
Mancanti
Totale
Liceo
Istituto Professionale
o Tecnico
Totale
Mancante di sistema
Percentuale
valida
36,5
Percentuale
cumulata
36,5
63,4
63,5
100,0
99,9
,1
100,0
100,0
Frequenza
407
Percentuale
36,5
707
1114
1
1115
Tipo scuola in 3 classi
Validi
Mancanti
Totale
Liceo
Istituto Professionale
Istituto Tecnico
Totale
Mancante di sistema
Frequenza
407
207
500
1114
1
1115
Percentuale
36,5
18,6
44,8
99,9
,1
100,0
Percentuale
valida
36,5
18,6
44,9
100,0
Percentuale
cumulata
36,5
55,1
100,0
41
Ricodificare una batteria di
domande
La batteria seguente produce 10 differenti variabili con uguale scala
di risposta ( da 1 a 4, 1=lo escludo, 4= molto probabile)
7) In quale dei seguenti gruppi disciplinari pensi di scegliere la Facoltà o il corso di formazione
professionale post-diploma al quale iscriverti?
(1 risposta per ogni riga)
•
•
•
•
•
•
•
•
•
•
Lo escludo
Poco Abbastanza Molto
probabile probabile probabile
Gruppo scientifico (matematica, chimica, biologia…)....................... ................ ................
Gruppo medico (medicina, veterinaria ecc.)....................................... ................ ................
Gruppo ingegneria .............................................................................. ................ ................
Gruppo economico (economia e commercio, ecc.)............................. ................ ................
Gruppo politico-sociale (scienze politiche, sociologia…).................. ................ ................
Gruppo psicologico ............................................................................ ................ ................
Gruppo giuridico................................................................................. ................ ................
Gruppo umanistico (lettere, storia, filosofia ecc.)............................... ................ ................
Gruppo architettura............................................................................. ................ ................
Gruppo agrario.................................................................................... ................ ................
Ricodificare le domande di una
batteria/1
Gruppo disciplinare a cui iscriverti: scientifico
Frequenza Percentuale
Non indica
19
1,7
Lo escludo
355
31,8
Poco probabile
183
16,4
Abbastanza probabile 128
11,5
Molto probabile
67
6,0
Totale
752
67,4
Mancanti Mancante di sistema
363
32,6
Totale
1115
100,0
Validi
Percentuale
valida
2,5
47,2
24,3
17,0
8,9
100,0
Percentuale
cumulata
2,5
49,7
74,1
91,1
100,0
Iscrizione Gruppo scientifico?
PercentualePercentuale
Frequenza
Percentuale valida
cumulata
non probabile
538
48,3
73,4
73,4
probabile
195
17,5
26,6
100,0
Totale
733
65,7
100,0
MancantiMancante di sistema382
34,3
Totale
1115
100,0
Validi
Per
semplificare
iniziamo
ricodificando la prima variabile
(d7a) della batteria, creandone
una nuova con 2 modalità.
RECODE d7a
(0=SYSMIS) (1 thru 2=0) (3 thru 4=1)
INTO d7a2 .
VAR LAB d7a2 "Iscrizione Gruppo
scientifico?".
VAL LAB var d7a2
0 "non probabile"
1 "probabile".
42
Ricodificare le domande di una
batteria/2
RECODE
d7b d7c d7d d7e d7f d7g d7h d7i d7l
(0=SYSMIS) (1 thru 2=0) (3 thru 4=1)
INTO d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2.
VARIABLE LABELS d7b2 "Gruppo medico?".
VARIABLE LABELS d7c2 "Gruppo ingegneria?".
VARIABLE LABELS d7d2 "Gruppo economico?".
VARIABLE LABELS d7e2 "Gruppo politico-sociale?"
VARIABLE LABELS d7f2 "Gruppo psicologico ?".
VARIABLE LABELS d7g2 "Gruppo giuridico?".
VARIABLE LABELS d7h2 "Gruppo umanistico ?".
VARIABLE LABELS d7i2 "Gruppo architettura?".
VARIABLE LABELS d7l2 "Gruppo agrario?" .
EXECUTE .
VAL LAB d7b2
0 "non probabile"
1 "probabile".
(….)
VAL LAB d7i2
0 "non probabile"
1 "probabile".
.
Tramite i comandi di sintassi ripetiamo
l’operazione di ricodifica per tutte e 10 le
variabili della batteria (Cfr. File di
sintassi dell’Esercitazione n.3)
Distribuzione di frequenza delle
variabili ricodificate (batteria)
Per creare la tabella riassuntiva della distribuzione delle variabili di una
batteria tramite menu: Analizza/Tabelle/Tabelle di frequenza
non probabile
Iscrizione Gruppo
scientifico?
Frequenza
Gruppo medico?
Frequenza
Percentuale
Percentuale
Gruppo ingegneria?
Frequenza
Percentuale
Gruppo economico?
Frequenza
Percentuale
Gruppo politico-sociale?
Frequenza
Percentuale
Gruppo psicologico ?
Frequenza
Percentuale
Gruppo giuridico?
Frequenza
Percentuale
Gruppo umanistico ?
Frequenza
Percentuale
Gruppo architettura?
Frequenza
Percentuale
Gruppo agrario?
Frequenza
Percentuale
probabile
Totale
538
195
733
73,4%
26,6%
100,0%
564
166
730
77,3%
22,7%
100,0%
526
206
732
71,9%
28,1%
100,0%
529
205
734
72,1%
27,9%
100,0%
547
185
732
74,7%
25,3%
100,0%
534
200
734
72,8%
27,2%
100,0%
596
134
730
81,6%
18,4%
100,0%
570
161
731
78,0%
22,0%
100,0%
576
159
735
78,4%
21,6%
100,0%
683
51
734
93,1%
6,9%
100,0%
43
L’istruzione COUNT
Possiamo costruire un indice che evidenzi la
frequenza con cui un determinato valore ricorre in una
lista di variabili.
Ad esempio, riferendoci alle domande precedenti,
possiamo “contare” quante volte è stato scelto il valore
1 (che indica probabile iscrizione universitaria) sul
totale delle 10 variabili corrispondenti a diversi gruppi
universitari. L’indice potrà variare da 0 (mai indicato) a
10 (indicato per tutte le variabili). Gli intervistati
associati a valore 10, sono dunque coloro che hanno
dichiarato una probabile iscrizione a tutti i gruppi
universitari indicati
La nuova variabile, poiché derivata da un
CONTEGGIO, è una variabile cardinale
L’istruzione COUNT/Menu
44
L’istruzione count/Menu
1. Dare un nome e una etichetta alla nuova variabile
2. Selezionare le variabili, all’interno delle quali SPSS dovrà
conteggiare il valore scelto
3. Cliccare su Definisci valori
4. Se il conteggio si applica solo ad alcuni casi ( ad es. solo alle
donne) cliccare su SE e definire i criteri di selezione
Selezionare i valori da conteggiare
1. Indicare il valore da conteggiare ( nel ns. esempio 1) in un
adeguato box a sinistra, cliccare su aggiungi per spostarlo nel
box a destra
2. I valori da conteggiare possono essere singoli (come nel
ns.esempio) o intervalli di valori.
3. Cliccare su continua, e poi su OK nella maschera che compare (
vedi slide precedente)
45
L’istruzione COUNT/Sintassi e
Output
COUNT
Countd7 = d7a2 d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2 (1) .
VARIABLE LABELS Countd7 'Conteggio probabilità di iscrizione a n gruppi
universitari' .
EXECUTE .
Conteggio probabilità di iscrizione a n gruppi universitari
Validi
,00
1,00
2,00
3,00
4,00
5,00
6,00
8,00
Totale
Frequenza
403
168
271
180
63
22
7
1
1115
Percentuale
36,1
15,1
24,3
16,1
5,7
2,0
,6
,1
100,0
Percentuale
valida
36,1
15,1
24,3
16,1
5,7
2,0
,6
,1
100,0
Percentuale
cumulata
36,1
51,2
75,5
91,7
97,3
99,3
99,9
100,0
La distribuzione di frequenza della
nuova variabile evidenzia che :
- Più di un terzo degli studenti non
ha
indicato
una
probabile
iscrizione
ad
alcun
gruppo
disciplinare
- una minoranza ha indicato un
solo gruppo disciplinare come
probabile (15,1%)
- circa il 40% è indeciso tra 2 o 3
gruppi disciplinari
- una quota marginale (8%) ha
indicato più di 4 gruppi disciplinari
Ricodificare una variabile creata
tramite conteggio
La variabile ottenuta può essere ricodificata in
base alle esigenze di ricerca (ad. es. successive
analisi bivariata o multivariata).
Ad esempio possiamo creare una nuova variabile
con 3 modalità:
studenti
non
interessati
all’iscrizione
universitaria
studenti
interessati ad un solo gruppo
disciplinare’
studenti indecisi tra almeno 2 gruppi disciplinari
46
La nuova variabile: sintassi e
frequenza
Tipologia studenti in base al numero di gruppi disciplinari indicati
Validi
Frequenza Percentuale
non interessati ad alcun
403
36,1
gruppo disciplinare
interessati ad un solo
168
15,1
gruppo disciplinare
indecisi fra almeno 2
544
48,8
gruppi disciplinari
Totale
1115
100,0
Percentuale
valida
Percentuale
cumulata
36,1
36,1
15,1
51,2
48,8
100,0
100,0
RECODE
Countd7
(0=0) (1=1) (ELSE=2) INTO Countd7_rec .
VARIABLE LABELS Countd7_rec 'Tipologia studenti in base al numero di gruppi disciplinari
indicati'.
EXECUTE .
val lab Countd7_rec
0 ' non interessati ad alcun gruppo disciplinare'
1 'interessati ad un solo gruppo disciplinare'
2 'indecisi fra almeno 2 gruppi disciplinari' .
L’istruzione COMPUTE: operazioni
matematiche con le variabili
L’età in anni degli studenti non è disponibile nel
data set, ma può essere ricavata da una semplice
operazione (anno di rilevazione-anno di nascita)
Possiamo calcolare la predisposizione media
degli studenti rispetto a tutte le materie insegnate
a scuola
Possiamo
costruire
una
nuova
variabile
combinando ( attraverso operatori logici) tra loro
2 o più variabili ( di qualsiasi scala)
….e via di seguito. Con l’istruzione Compute si
possono
effettuare
tutte
le
operazioni
matematiche anche le più complesse (ovviamente
le variabili devono essere cardinali o quasi
cardinali!)
47
Transform/Compute Variable/Menu
Compute variable: l’età in anni
Indicare l’operazione
da effettuare
nell’apposito box. Per
gli operatori
matematici e logici è
possibile usare la
calcolatrice presente.
Spss fornisce anche i
comandi per le
principali funzioni (cfr.
slide successiva)
NB: Nella matrice dati
l’anno di nascita è indicato
solo con le ultime due cifre
(1988), se così non fosse
l’operazione corretta
sarebbe 2006-anno)
48
Compute variable: la predisposizione
media per le materie scolastiche
1. Assegnare Nome ed
etichetta alla nuova variabile
2. Indicare manualmente
l’espressione numerica
appropriata (nel ns. caso
chiediamo di calcolare la
media delle variabili tra
parentesi) o …
3. (Preferibile) Cliccare sul
gruppo di funzioni
desiderato (nel ns. caso
Statistica)
4. Selezionare la statistica di
interesse (nel ns. Caso
MEAN)
5. Cliccare sul tasto
per
collocare la statistica nel
box “espressione numerica”
6. Selezionare o scrivere
manualmente le variabili
sulle quali effettuare
l’operazione
Distribuzione di frequenza della
nuova variabile
Statistiche
predisposizione media per materie
N
Validi
Mancanti
Media
Mediana
Moda
Deviazione std.
Minimo
Massimo
Percentili
25
50
75
1115
0
5,5920
5,6667
5,78
1,17393
1,00
9,89
4,8889
5,6667
6,3333
La tabella riporta le statistiche
descrittive relative alla nuova
variabile “predisposizione media per
le materie”. Possiamo derivare da
questa variabile cardinale una
nuova variabile, aggregando i valori
in 2 classi.
predisposizione media per materie in 2 classi
Frequenza Percentuale
Validi sotto la media
523
46,9
sopra la media
592
53,1
Totale
1115
100,0
Percentuale
valida
46,9
53,1
100,0
Percentuale
cumulata
46,9
100,0
RECODE
d9media
(Lowest thru 5.59=1) (ELSE=2)
INTO d9media_2 .
VARIABLE LABELS d9media_2
'predisposizione media per
materie in 2 classi'.
EXECUTE .
val lab d9media_2
1 'sotto la media'
2 'sopra la media' .
49
Compute: una tipologia attraverso
combinazione logica di 2 variabili
Var d9a_2 “Predisposizione per materie scientifiche in 2 classi)
Var d7a_2
Probabilità
di iscrizione
ad un corso
di laurea
scientifico
Probabile iscrizione ad
un gruppo disciplinare
scientifico
Non probabile iscrizione
ad un gruppo
disciplinare scientifico
Predisposti per le
materie scientifiche
(autopercezione)
Non predisposti per le
materie scientifiche
(autopercezione)
Studenti Interessati alle
materie scientifiche, ma
non alle facoltà
scientifiche
Interessati alle facoltà,
ma non alle materie
Non interessati alle
facoltà, ma alle materie
Del tutto disinteressati
Combinazione di variabili: Sintassi e
Output
DO IF (d7a2 = 1) or (d7a2 = 0) .
COMPUTE tipostud = 1 .
IF (d9g_2=1) AND (d7a2=0) tipostud
IF (d9g_2=2) AND (d7a2=0) tipostud
IF (d9g_2=1) AND (d7a2=1) tipostud
IF (d9g_2=2) AND (d7a2=1) tipostud
END IF.
VAR LAB tipostud 'tipologia studenti in base a interesse
per materie scientifiche e per corso di laurea scientifico' .
VAL LAB tipostud
1 ' del tutto disinteressati'
2 ' interessati alle materie scient ma non alle facoltà'
3 ' interessati alle facoltà scient, ma non alle materie'
4 ' interessati alle facoltà scient e alle materie' .
= 1.
= 2.
= 3.
= 4.
tipologia studenti in base a interesse per materie scientifiche e per corso di laurea scientifico
Validi
del tutto disinteressati
interessati alle materie
scient ma non alle facoltà
interessati alle facoltà
scient, ma non alle
materie
interessati alle facoltà
scient e alle materie
Totale
Frequenza
321
Percentuale
54,1
Percentuale
valida
54,1
Percentuale
cumulata
54,1
108
18,2
18,2
72,3
34
5,7
5,7
78,1
100,0
130
21,9
21,9
593
100,0
100,0
50
Combinazioni di variabili/Alcune
note
Nella finestra di dialogo SE (IF) è possibile applicare
trasformazioni di dati al sottoinsieme di casi selezionato
utilizzando le espressioni logiche. Un'espressione logica
restituisce un valore vero, falso, o mancante per ciascun caso.
Se il risultato di un'espressione logica è vero, il caso verrà incluso
nel sottoinsieme selezionato. La maggior parte delle espressioni
condizionali utilizza uno o più dei sei operatori relazionali (<, >,
<=, >=, = e ~=) della calcolatrice.
Le espressioni logiche possono includere nomi di variabili,
costanti, operatori aritmetici, funzioni numeriche e di altro tipo,
variabili logiche e operatori relazionali.
Nella sintassi tale “selezione” è presente nei Comandi che
iniziano con DO IF e terminano con END IF ( come nel
ns.esempio)
Lavorare sui casi: Select cases
Il comando Seleziona casi (Data/Select cases) consente
(tra le altre funzioni):
di selezionare per l’analisi solo i casi che soddisfano
una o più caratteristiche (ad es. donne iscritte al liceo
scientifico)
di estrarre dalla matrice dati un campione casuale di
casi (utile per estrarre un campione da una
popolazione o per condurre analisi statistiche
esplorative)
I casi non selezionati possono essere:
Filtrati ( non vengono considerati durante le analisi fino
a quando il ricercatore non decide di eliminare il filtro)
Cancellati (opzione da usare solo dopo aver fatto
copia della matrice dati originale!)
51
SELECT CASES/Menu
Select cases
Di default il programma lavora su
“Tutti i casi”. E’ possibile però
selezionare i casi :
1. Indicando un criterio di selezione
2. Chiedendo l’estrazione di
campione casuale
un
3. Chiedendo l’estrazione su un
intervallo specificato di casi
4. Usando una variabile filtro
La prima di queste operazioni è
la più frequente quando si
analizzando dati derivati da
indagini campionarie.
52
Selezionare sulla base di un criterio
E’ possibile scegliere la “sorte” dei
casi selezionati e di quelli non
selezionati
Selezionare la variabile ( o combinazione
logica di variabili, ad es. di classe IV e
maschi) usata come criterio di selezione
(nel ns. Caso classe) e il valore (nel ns.
caso 1= quarta classe). In qs. modo
SPSS lavorerà solo sui casi che
soddisfano questa condizione (cioè nel
ns. esempio solo sugli studenti di classe
quarta).
Select cases: la nuova matrice dati
I casi che non corrispondono al
criterio impostato (nel ns esempio
il filtro è classe=1) vengono
segnati nella matrice dati con una
barra diagonale, fino a quando
non il filtro non viene eliminato
dall’utente
NB: SPSS segnala se
il filtro è attivo, ma
non specifica quale è
il criterio di selezione
53
Select cases: il foglio variabili
SPSS crea una nuova variabile filtro
(filter_$) che corrisponde ai criteri di
selezione impostati. In questo modo sarà
possibile richiamarla successivamente.
Lavorare sui casi: Split file
L'opzione Distingui (Split file)) consente di suddividere il file di
dati in gruppi distinti per l'analisi in base ai valori di una o più
variabili di raggruppamento. Se vengono selezionate più variabili
di raggruppamento, i casi verranno raggruppati in base a
ciascuna variabile all'interno delle categorie della variabile
precedente nella lista Gruppi basati su.
Confronta gruppi. Le analisi vengono effettuate sui singoli
gruppi, ma i risultati vengono riportati in una sola tabella
riepilogativa per facilitare i confronti. Per quanto riguarda le
tabelle pivot, viene creata una sola tabella e ciascuna variabile di
distinzione può essere spostata tra le dimensioni della tabella.
Per quanto riguarda i grafici, viene creato un grafico distinto per
ciascun gruppo di analisi; i grafici verranno visualizzati insieme
nel Viewer.
Distingui i risultati per gruppo. Tutti i risultati di ciascuna
procedura verranno visualizzati separatamente per ciascun
gruppo di analisi.
54
Split File/Menu
Distingui per Gruppo (Organize by
groups)
1. Cliccare su Distingui i risultati per gruppo (Organize output by groups)
2. Selezionare la variabile per creare i gruppi ( nel ns. esempio “sesso
dell’intervistato/a”
3. Il file deve essere ordinato in base alle variabili di raggruppamento (default)
55
Organize output by groups/Output
Ogni analisi richiesta, se è attivo il
comando Organize output by
groups/Distingui per gruppi sarà
condotta da SPSS separatamente
per ciascun gruppo definito dalle
modalità della variabile filtro ( nel.
Ns. esempio “sesso”)
a
predisposizione media per materie in 2 classi
Validi
sotto la media
sopra la media
Totale
Frequenza
202
301
503
Percentuale
40,2
59,8
100,0
Percentuale
valida
40,2
59,8
100,0
Percentuale
cumulata
40,2
100,0
a. Sesso intervistato = Femmina
Split file/Compare groups
1. Cliccare su Confronta Gruppi (Compare groups)
2. Selezionare la variabile per creare i gruppi ( nel ns. esempio “sesso
dell’intervistato/a”
3. Il file deve essere ordinato in base alle variabili di raggruppamento (default)
56
Output/Confronta Gruppi
Ogni analisi richiesta, se è attivo il
comando
Compare
groups/Confronta gruppi sarà
condotta da SPSS separatamente
per ciascun gruppo definito dalle
modalità della variabile filtro ( nel.
Ns. esempio “sesso”), e riportato
in un’unica tabella per agevolare il
confronto
Split file: la matrice dati
NB: SPSS segnala se
il filtro è attivo, ma
non specifica quale è
il criterio di selezione
57
INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
[email protected]
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
Esercitazione 4
Giovedì 6 giugno, 14.30 -16. 30 (Aula 2)
Argomenti
Analisi bivariata:
le tabelle a doppia entrata
relazioni tra variabili
rappresentazioni grafiche
Base dati per esercitazione :
Scelte postdiploma Lomb2005.sav
Questionario autocompilato somministrato ad un campione rappresentativo a
livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola
superiore in Lombardia
Testi di riferimento:
P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il
Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e
tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)
58
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande
113 variabili
59
Analisi bivariata
Analisi statistica delle relazioni fra variabili
Relazioni statistiche, cioè di tipo probabilistico
Covariazione non implica causazione
L’interpretazione in senso causale della
relazione statistica è del ricercatore che ( sulla
base della teoria, delle connessioni logiche e
temporali tra variabili)…
…opera una distinzione tra variabili
indipendenti e dipendenti
Tecniche di analisi bivariata
Le tecniche di analisi vanno scelte in funzione del tipo di
variabili dipendente e indipendente
VARIABILE INDIPENDENTE
nominale
VARIABILE
nominale
Tavole di
contingenza
cardinale
Analisi della
varianza
cardinale
DIPENDENTE
Regressione e
Correlazione
60
Tavole di contingenza
Direzione delle percentuali:
Si sceglie la percentuale di colonna quando si
vuole analizzare l’influenza che la variabile
posta in colonna (variabile indipendente) ha
sulla variabile di riga (variabile dipendente)
Si sceglie la percentuale di riga quando si
vuole analizzare l’influenza che la variabile
posta in riga (variabile indipendente) ha sulla
variabile di colonna (variabile dipendente)
Un esempio di domanda di ricerca
Esiste una relazione tra tipo di scuola superiore
frequentata e interesse per l’ iscrizione ad un corso di
laurea dopo il diploma?Il tipo di scuola frequentata
influenza
le
scelte
post-diploma
degli/lle
studenti/studentesse? ( relazione da esplorare)
Gli studenti/le studentesse che provengono dal liceo
hanno maggiori probabilità di essere interessati alla
carriera universitaria rispetto a chi proviene da un
istituto
tecnico
o
professionale?
(ipotesi da
falsificare/verificare)
VARIABILE
INDIPENDENTE
Tipo di scuola
frequentata
VARIABILE DIPENDENTE
domanda d1 del questionario
(“ Cosa pensi che farai dopo
l’esame di stato?”)
61
Tavole di contingenza/Menu SPSS
Analyze
Descriptive Statistics
Crosstabs
Tavole di contingenza
Selezionare la variabile
dipendente
Selezionare la o le
variabili indipendente
(SPSS produrrà una
Crosstabs per ciascuna
variabile indipendente)
Selezionare se si desidera
che SPSS produca una
rappresentazione
grafica
della
relazione
(n.b=
vengono
visualizzati
i
conteggi e non le %)
NB: Le variabili indipendenti possono essere collocate indifferentemente in riga o
in colonna (purchè la direzione delle percentuali sia coerente con la scelta di
analisi fatta). In genere, comunque, è preferibile per agevolare la lettura della
tabella collocare la variabile indipendente in colonna
62
Celle/Statistiche
CELLE
Indicare la direzione percentuale scelta
(nel. Ns. caso “Per colonna” perché
abbiamo collocato la variabile
indipendente in colonna.
NB= Nel riquadro Statistiche selezionare
la misura associazione desiderata
coerente con il tipo di variabili
Tavole di contingenza/La sintassi
CROSSTABS
/TABLES=d1 BY scuola_3 CLASFAM
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT COLUMN
/COUNT ROUND CELL
/BARCHART .
Variabile
dipendente
sex
Direzione
percentuale ( in qs.
Caso % di colonna)
Una o più
variabili
Indipendenti
63
L’output
Tabelle a doppia entrata
Tabella riepilogativa degli
incroci richiesti (var. dip *
var. indip) con info su casi
validi ( cioè casi per i quali
è disponibile l’informazione
su entrambe le variabili)
Riepilogo dei casi
N
Idea su cosa fare
dopo sms? * Tipo
scuola in 3 classi
Validi
Percentuale
1094
98,1%
N
Casi
Mancanti
Percentuale
21
N
1,9%
Totale
Percentuale
1115
100,0%
Tavola di contingenza Idea su cosa fare dopo sms? * Tipo scuola in 3 classi
Idea su
cosa fare
dopo sms?
Cercherò lavoro
Laurea + lavoro
Laurea
Corso fp post sms
Non so
Totale
Conteggio
% entro Tipo
scuola in 3 classi
Conteggio
% entro Tipo
scuola in 3 classi
Conteggio
% entro Tipo
scuola in 3 classi
Conteggio
% entro Tipo
scuola in 3 classi
Conteggio
% entro Tipo
scuola in 3 classi
Conteggio
% entro Tipo
scuola in 3 classi
Tipo scuola in 3 classi
Istituto
Istituto
Professionale
Tecnico
110
143
Liceo
13
Tabella a doppia entrata:
Totale
266
3,3%
53,7%
28,6%
118
36
110
24,3%
264
30,3%
17,6%
22,0%
24,1%
220
15
93
328
56,6%
7,3%
18,6%
30,0%
7
4
16
27
1,8%
2,0%
3,2%
2,5%
31
40
138
209
8,0%
19,5%
27,6%
19,1%
389
205
500
1094
100,0%
100,0%
100,0%
100,0%
-Percentuale
colonna
(base=100)
di
- marginali di riga ( per var.
dipendente)
-Esempio di commento: la
probabilità di appartenere al
gruppo degli indecisi è legata
al tipo di scuola; in particolare
la probabilità è maggiore per
chi proviene dai tecnici rispetto
agli altri tipi di scuola (27,6%
vs. 8,0% dei liceali e 19,1% dei
tecnici)
64
Il Chi-quadrato
Chi-quadrato
Chi-quadrato di Pearson
Rapporto di
verosimiglianza
Associazione
lineare-lineare
N. di casi validi
8
Sig. asint.
(2 vie)
,000
378,889
8
,000
,026
1
,871
Valore
352,071a
df
Il test di indipendenza Chi-quadrato
consente di determinare se esiste una
relazione tra due variabili categoriali ( nel.
Ns. esempio tra tipo di scuola superiore e
scelta post-diploma)
1094
a. 0 celle (,0%) hanno un conteggio atteso inferiore a 5. Il
conteggio atteso minimo è 5,06.
Il test di indipendenza ipotizza che le variabili non sono collegate, ovvero che le proporzioni di
colonna sono uguali nelle colonne e che qualsiasi discrepanza osservata è dovuta a una
variazione anomala. La statistica Chi-quadrato misura la discrepanza globale tra i conteggi di
cella osservati e i conteggi attesi se le proporzioni di colonna sono uguali nelle colonne. Una
statistica Chi-quadrato più ampia indica una discrepanza maggiore tra i conteggi di cella
osservati e attesi, ovvero indica con maggiore chiarezza che le proporzioni di colonna non
sono uguali, che l'ipotesi di indipendenza non è corretta e che le variabili Tipo scuola e Scelta
post diploma sono collegate.
Il valore calcolato per la statistica Chi-quadrato è 352,071. Per stabilire se l'evidenza ottenuta
è sufficiente per scartare l'ipotesi di indipendenza, viene calcolato il livello di significatività
della statistica. Il livello di significatività è la probabilità che un componente casuale ottenuto
da una distribuzione chi-quadrato con 8 gradi di libertà sia maggiore di 352,071. Poiché il
valore è inferiore al livello alfa specificato (0.05 o 0.01), è possibile rifiutare l'ipotesi di
indipendenza al livello 0,05. Le variabili sono in effetti collegate.
Rappresentazioni grafiche/Menu
Grafici
Finestre Legacy
A barre
65
Grafici a barre/Istruzioni
Selezionare % di casi (il
grafico rappresenterà %) o
N casi (il grafico sarà
costruito sui conteggi). Se
si vogliono fare confronti
tra gruppi, selezionare %)
E’ possibile rappresentare
statistiche ( ad es. valori
medi di un indice)
Selezionare la variabile
DIPENDENTE (asse delle
categorie) e la variabile
INDIPENDENTE
(raggruppamenti)
Grafico a barre/Output
66
Confronta medie/Analisi della
varianza
•La procedura Medie consente di calcolare le medie dei sottogruppi e
le statistiche univariate correlate per le variabili dipendenti all'interno
delle categorie di una o più variabili indipendenti. È inoltre possibile
ottenere analisi univariate della varianza (ANOVA), eta e test di
linearità.
•Procedura da usare quando la variabile dipendente è cardinale e
l’indipendente è nominale
•Esempio:Maschi e femmine differiscono rispetto alla predisposizione
(percepita) per le materie scientifiche?
Note: La procedura ANOVA univariata produce un'analisi della varianza univariata
per una variabile dipendente cardinale in base a una singola variabile indipendente
(nominale). L'analisi della varianza consente di verificare l'ipotesi di uguaglianza di più
medie. Oltre a determinare le differenze tra le medie, è possibile individuare la media
che differisce dalle altre. Esistono due tipi di test per il confronto tra le medie: contrasti
a priori e test post hoc ( tecniche escluse dagli argomenti delle esercitazioni SPSS)
Compare means/Menu
67
Medie: definire le variabili
1. Selezionare la variabile dipendente
e una o più più variabili indipendenti (
le
medie
verranno
calcolate
distintamente per ciascuna variabile
indipendente) . E’ possibile introdurre
un secondo livello di stratificazione per
suddividere ulteriormente il campione
(ad.es. per genere e tipo scuola
congiuntamente).
2. Opzioni: Selezionare le statistiche
di interesse relative a ciascun
gruppo definito dalla variabile
indipendnete e la Tabella ANOVA
Compare Means/Output
68
Medie e Tabella ANOVA
Report
Predisposizione materie: scientifiche
Sesso intervistato
Maschio
Femmina
Totale
Media
5,69
5,19
5,46
N
600
498
1098
Deviazione
std.
2,290
2,396
2,351
La tabella REPORT riporta la media
della variabile dipendente per ciascun
gruppo
definito
dalla
variabile
indipendente.
Nell’esempio:
la
predisposizione media per le materie
scientifiche è più bassa tra le donne (
5,19 vs. 5.69 per gli uomini)
La differenza tra medie è dovuta al caso? La tabella ANOVA consente di rispondere a
questa domanda. Sulla base del TEST F e del livello di significatività ( inferiore a valore
critico di alpha: 0,05), possiamo affermare che vi è una relazione statisticamente
significativa tra genere e predisposizione percepita per le materie scientifiche.
Tabella ANOVA
Predisposizione
materie: scientifiche
* Sesso intervistato
Fra gruppi
Entro gruppi
Totale
(Combinati)
Somma dei
quadrati
69,284
5993,830
6063,115
df
1
1096
1097
Media dei
quadrati
69,284
5,469
F
12,669
Sig.
,000
Analisi bivariata: alcune regole
pratiche (inchiesta campionaria)
E’ opportuno:
Non calcolare percentuali su basi inferiori a 50 casi
Commentare solo differenze di almeno 5 punti percentuali
Nel commento ai dati, soffermarsi di volta in volta su una modalità
significativa della variabile dipendente e vedere se e come varia
al variare della variabile indipendente
Presentare tabelle parsimoniose ( ad.es valori assoluti solo per le
basi; indicare solo le percentuali utili per l’analisi; presentare in
forma compatta eventuali batterie) ma complete (riportare sempre
le basi in valori assoluti; intestare con accuratezza le tabelle,
indicare chiaramente le modalità delle variabili, se possibile far
riferimento al questionario)
Dare al lettore indicazioni circa il metodo usato per rilevare i dati
(tipo di campione, domande del questionario)
69
INTRODUZIONE ALL’ANALISI
STATISTICA DEI DATI con SPSS 15.0
Simona Guglielmi
[email protected]
Esercitazioni del Corso di Metodologia delle
Scienze sociali (A-L, SPO) a.a 2008/09
Esercitazione 5
Giovedì 12 giugno, 14.30 -16. 30 (Aula 2)
Argomenti
Introduzione di una terza variabile
le tabelle a tripla entrata
Relazioni spurie, dirette e condizionate
Base dati per esercitazione :
Scelte postdiploma Lomb2005.sav
Questionario autocompilato somministrato ad un campione rappresentativo a
livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola
superiore in Lombardia
Testi di riferimento:
P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il
Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e
tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII)
70
Un esempio di ricerca empirica
Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto
della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura
Azione di sistema
Metodo di rilevazione: questionario autocompilato in classe
Universo di riferimento: studenti di scuola superiore di secondo grado in
Lombardia ( quarto e quinto anno)
Campione: rappresentativo dell’universo di riferimento a livello regionale,
stratificato per tipo di scuola e provincia ( campionamento multistadio a
grappolo)
Consistenza numerica del campione: 1.100 casi
Periodo della rilevazione: Dicembre-Gennaio 2006
Il questionario
Questionario Scelte post-diploma Lomb2005.doc
L’immagine della ricerca scientifica
Atteggiamenti verso le materie tecnico scientifiche
Scelte formative e professionali
Orientamento : fonti, bisogni e aspettative
24 domande
113 variabili
71
Introdurre una terza variabile
L’introduzione di una terza variabile consente
di controllare/depurare la relazione individuata
tra X e Y
Controllo: si rianalizza la relazione tra X e Y
in subcampioni nei quali Z sia costante
(variabili nominali)
Depurazione: note le covariazioni tra x,y,z si
calcola il coefficiente di correlazione tra x,y in
assenza di z. (variabili cardinali)
Tipi di relazione x,y,z
Relazione spuria:
la relazione tra x e y è dovuta ad una terza variabile z
che agisce causalmente sia su x che su y. Il nesso
causale tra x e y non esiste
Si individua tenendo sotto controllo (cioè costante) la
variabile z
Relazione indiretta:
La relazione tra x e y è dovuta al fatto che x agisce su
z, z agisce su y (z è variabile interveniente). Il nesso
causale tra x e y esiste, ma è indiretto
Relazione condizionata:
La relazione tra x e y esiste, ma varia in base al valore
assunto da una terza variabile z
72
Un esempio empirico/Relazione
condizionata
Dall’analisi bivariata tra tipo di scuola frequentata (variabile
indipendente X) e probabilità di iscrizione ad un corso di laurea del
gruppo psicologico (variabile dipendente Y) risulta una relazione
statisticamente significativa: chi proviene dal liceo ha maggiori
probabilità rispetto a chi proviene dall’istituto tecnico di iscriversi ad un
corso di laurea di tipo psicologico (35,1% vs 18,4%).
Tavola di contingenza Gruppo psicologico ? * Tipo scuola in 2 classi
Gruppo psicologico
?
non probabile
probabile
Totale
Conteggio
% entro Tipo
scuola in 2 classi
Conteggio
% entro Tipo
scuola in 2 classi
Conteggio
% entro Tipo
scuola in 2 classi
Tipo scuola in 2 classi
Istituto
Professionale
Liceo
o Tecnico
250
284
Totale
534
64,9%
81,6%
135
64
72,9%
199
35,1%
18,4%
27,1%
385
348
733
100,0%
100,0%
100,0%
Un esempio empirico/Relazione
condizionata
Se controlliamo per genere (Z), la relazione tra tipo di scuola (X) e
probabilità di iscrizione ad un corso di laurea del gruppo psicologico
(Y) esiste ancora?
Tavola di contingenza Gruppo psicologico ? * Tipo scuola in 2 classi * Sesso intervistato
Sesso intervistato
Maschio
Gruppo psicologico
?
non probabile
probabile
Totale
Femmina
Gruppo psicologico
?
non probabile
probabile
Totale
Conteggio
% entro Tipo
scuola in 2 classi
Conteggio
% entro Tipo
scuola in 2 classi
Conteggio
% entro Tipo
scuola in 2 classi
Conteggio
% entro Tipo
scuola in 2 classi
Conteggio
% entro Tipo
scuola in 2 classi
Conteggio
% entro Tipo
scuola in 2 classi
Tipo scuola in 2 classi
Istituto
Professionale
Liceo
o Tecnico
113
200
Totale
313
78,5%
92,6%
31
16
86,9%
47
21,5%
7,4%
13,1%
144
216
360
100,0%
100,0%
100,0%
135
82
217
56,7%
63,1%
59,0%
103
48
151
43,3%
36,9%
41,0%
238
130
368
100,0%
100,0%
100,0%
73
X,Y,Z: un esempio di relazione
condizionata
La relazione resta confermata nel caso dei maschi ( i maschi del liceo
hanno maggiori probabilità di iscriversi ad un corso di laurea psicologico
rispetto ai maschi di un tecnico), ma non nel sub campione delle femmine
(per le donne la probabilità di iscriversi ad un corso di laurea psicologico
non è influenzato dal tipo Chi-quadrato
di scuola).
Sesso intervistato
Maschio
Femmina
Chi-quadrato di Pearson
Correzione di continuitàa
Rapporto di
verosimiglianza
Test esatto di Fisher
Associazione
lineare-lineare
N. di casi validi
Chi-quadrato di Pearson
Correzione di continuitàa
Rapporto di
verosimiglianza
Test esatto di Fisher
Associazione
lineare-lineare
N. di casi validi
1
1
Sig. asint.
(2 vie)
,000
,000
14,878
1
,000
15,134
1
,000
360
1,403c
1,153
1
1
,236
,283
1,411
1
,235
1,399
1
,237
Valore
15,176b
13,958
df
Sig. esatta
(2 vie)
Sig. esatta
(1 via)
,000
,000
,268
,141
368
a. Calcolato solo per una tabella 2x2
b. 0 celle (,0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo è 18,80.
c. 0 celle (,0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo è 53,34.
Un esempio empirico/Relazione
indiretta
Dall’analisi bivariata tra genere (variabile indipendente) e scelta post
diploma (variabile dipendente) risulta che gli uomini esprimono con
maggior frequenza rispetto alle donne il desiderio di andare a lavorare
(30,1% vs. 18,7%). La relazione tiene se controlliamo per tipo di
scuola? Tavola di contingenza scelta post diploma a 3 * Sesso intervistato
scelta post
diploma a 3
lavoro
corso di laurea
con o senza lavoro
indecisi
Totale
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Sesso intervistato
Maschio
Femmina
174
90
30,1%
18,7%
Totale
264
24,9%
277
311
588
47,8%
64,7%
55,5%
128
80
208
22,1%
16,6%
19,6%
579
481
1060
100,0%
100,0%
100,0%
74
Un esempio empirico/Relazione
indiretta
Tavola di contingenza scelta post diploma a 3 * Sesso intervistato * Tipo scuola in 2 classi
Tipo scuola in 2 classi
Liceo
scelta post
diploma a 3
lavoro
corso di laurea
con o senza lavoro
indecisi
Totale
Istituto Professionale
o Tecnico
scelta post
diploma a 3
lavoro
corso di laurea
con o senza lavoro
indecisi
Totale
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Conteggio
% entro Sesso
intervistato
Sesso intervistato
Maschio
Femmina
3
10
Totale
13
2,1%
4,2%
123
212
3,4%
335
87,2%
89,1%
88,4%
15
16
31
10,6%
6,7%
8,2%
141
238
379
100,0%
100,0%
100,0%
171
80
251
39,0%
33,1%
36,9%
154
98
252
35,2%
40,5%
37,1%
113
64
177
25,8%
26,4%
26,0%
438
242
680
100,0%
100,0%
100,0%
Un esempio empirico/Relazione
indiretta
Con l’introduzione della variabile di controllo
(tipo scuola), la relazione tra genere e scelte
post-diploma sparisce.
La relazione tra X e Y è indiretta: la variabile
genere X influenza il tipo scuola Z (le donne si
iscrivono più ai licei che agli istituti tecnici); il
tipo di scuola Z influenza la variabile scelta
post-diploma Y(chi proviene dagli istituti tecnici
tende a non proseguire gli studi)
Z è variabile interveniente
75
Analisi a 3 variabili con SPSS/Menu
Introdurre la variabile di controllo
1. Selezionare sulle righe la
variabile dipendente Y di
interesse (nel ns. esempio:
probabilità di iscrizione a
facoltà del gruppo psicologico)
2. Selezionare sulle colonne la
variabile indipendente X di
interesse (nel ns. esempio: tipo
di scuola frequentata)
3. Selezionare la variabile Z di
controllo (nel ns. esempio:
sesso)
Nb: Come per l’analisi bivariata,
indicare la direzione percentuale
relativa alla variabile indipendente
(nel. Ns. esempio di colonna) nella
finestra CELLE
76
Analisi a 3 variabili con
SPSS/Sintassi
CROSSTABS
/TABLES=d7f2 BY scuola_2 BY sex
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ
/CELLS= COUNT COLUMN
/COUNT ROUND CELL .
Variabile
dipendente
Variabile
indipendente
Variabile di
controllo
77