INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi [email protected] Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 Esercitazione 1 Presentazione di SPSS 15.0 per Windows la matrice dati le variabili la sintassi i risultati Inserimento dati importazione da altri programmi (Excel, Word,…) data entry La “pulizia” dei dati l’analisi delle frequenze dati mancanti, outlier 1 Testi di riferimento Marisa Giorgetti, Davide Massaro, Ricerca e percorsi di analisi dati con SPSS, Milano, Pearson Paravia Bruno Mondadori, 2007 AAVV, L'ABC del programma SPSS : come avviarsi alla pratica del pacchetto statistico, Milano, F. Angeli, 2004 Roberto Fideli, Come analizzare i dati al computer, Roma, Carocci, 2002. Julie Pallant, SPSS survival manual : a step by step guide to data analysis using SPSS for Windows (version 12) / 2. ed. Maidenhead Open university press, 2005. Inoltre: - Una guida in linea è disponibile all’interno del pacchetto SPSS - I materiali presentati durante le esercitazioni saranno disponibili sul sito del Prof. Ferruccio Biolcati Rinaldi, nella sezione del corso. Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 2 Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili Dalle risposte degli intervistati ai dati Dom2) Qual è il motivo principale per cui non hai ancora deciso cosa fare dopo aver conseguito il diploma? (1 sola risposta) (1) Aspetto di avere maggiori informazioni soprattutto sui corsi di laurea Aspetto di avere maggiori informazioni soprattutto sui corsi di formazione professionale post-diploma Aspetto di avere maggiori informazioni soprattutto sulle possibilità di lavoro Voglio attendere il risultato della maturità Regole base per la codifica: •I casi devono essere contraddistinti da un numero d’ordine corrispondente al questionario del singolo intervistato •Le variabili devono essere rappresentate in formato numerico ( un codice numerico per ciascuna categoria di risposta) •I codici numerici devono essere mutualmente esclusivi •I codici numerici devono essere coerenti tra domande ( usare lo stesso numero per modalità di risposta uguali, ad es. 1 per sì e 2 per no) •E’ preferibile che i codici numerici siano omogenei rispetto alla modalità di risposta ( ad es. per variabili ordinali 1 per indicare il valore inferiore) 3 Le finestre di SPSS Data Editor (Data view,Variable View): contiene la matrice-dati e le informazioni sulle variabili; il file ha come estensione “Nomefile.sav” Output Viewer: mostra i risultati delle elaborazioni statistiche (tabelle, grafici,..); il file ha come estensione Nomefile.spo Syntax File: per salvare i comandi lanciati tramite le finestre di dialogo in linguaggio SPSS e per scriverne di nuovi; il file ha come estensione Nomefile.sps La matrice casi x variabili in Excel variabili c a s i Codici numerici 4 Importazione di un file dati in SPSS da Excel/1 Importazione di un file dati in SPSS da Excel/2 5 Importazione di un file dati in SPSS da Excel/3 La matrice dei dati in SPSS (Data Editor) Barra Menù 6 La barra Menù File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare tabelle dell’output) View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili, WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out ) visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili presenti nella matrice dati Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le principali analisi statistiche Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte Help/?: guida in linea, contiene anche esercitazioni Salvare la matrice dati (xxx. sav) 7 Salvare la matrice dei dati/2 Le variabili (Variable View) •Spss consente di definire le caratteristiche delle variabili della matrice dati (tipo di variabile, scala di misura, nomi delle variabili e dei valori) •Queste operazioni sono preliminari all’analisi statistica dei dati e possono essere fatte tramite le finestre di dialogo (Variable View) che tramite la sintassi (Syntax file). Quest’ultima modalità è preferibile, soprattutto per le etichette delle variabili e dei valori! NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese). Una volta importato può essere adattato alle esigenze del ricercatore. 8 Definire il tipo di variabile (Variable View) Nome della variabile: Tipo variabile: Il nome della variabile non può contenere spazi, deve iniziare con una lettera, non deve essere più lungo di 64 caratteri ( 8 per versioni SPSS precedenti alla 15), rifiuta alcuni caratteri speciali Consente di specificare il tipo di variabile, in particolare se ha un formato di tipo numerico o stringa (testo). Su una variabile formato stringa non sono possibili le analisi statistiche Definire la scala di misura Variabili cardinali o quasi cardinali: scala ( es. età in anni, numero figli) Variabili ordinali: ordinale (es. età in classi, anno di corso,…) Variabili nominali: nominale ( es. sesso, indirizzo di studi,..) 9 Le etichette (Variable label, value label) Variable label: consente di descrivere in maniera discorsiva la variabile Value labels: consente di associare una etichetta verbale a ciascun valore che può essere assunto da ciascuna variabile Definire le variabili con un file di sintassi 10 Variable label, value label La procedura per etichettare le variabili e le rispettive modalità con il linguaggio SPSS è molto semplice. VARIABLE LABEL ( VAR LAB): assegna un’etichetta alla variabile VALUE LABEL (VAL LAB): assegna un’etichetta alle modalità della variabile Da ricordare: • i comandi iniziano con VAR LAB O VAL LAB e finiscono sempre con un punto. • le etichette sono sempre comprese tra virgolette “….”; ‘….’ •Poiché i punti e le virgolette sono un comando nel linguaggio SPSS, essi non vanno mai utilizzati nel testo che descrive le variabili o i valori •Per lanciare il comando cliccare sul tasto strumenti sulla barra degli La pulizia dei dati Prima di procedere con l’analisi statistica dei dati è necessario controllare che in fase di input non siano stati commessi errori Questa fase preliminare consente inoltre di avere una prima visione d’insieme della distribuzione delle variabili nella popolazione L’analisi delle frequenze ( in SPSS: Analyze Descriptive Statistics Frequencies ) consente di: 1) Verificare che i valori presenti rientrino nella gamma di valori previsti 2) Verificare eventuali casi mancanti 3) Verificare la distribuzione delle risposte su una specifica variabile 11 L’analisi delle frequenze/Menù L’analisi delle frequenze/Menù 12 Analisi delle frequenze/ Menu reset: per annullare tutti i comandi impostati e farne di nuovi Statistics: per avere informazioni sulle statistiche descrittive delle variabili Charts: per realizzare rappresentazioni grafiche Analisi delle frequenze/Syntax Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di interesse all’interno di questo comando ( ovviamente in un file di sintassi): FREQUENCIES VARIABLES= anno naz scuola classe prov d1 d2 d3 /ORDER= ANALYSIS . NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo al file di sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese) 13 Analisi delle frequenze/Output I casi validi: La tabella riporta: 1) il numero di casi validi per la variabile di interesse in qs. caso il genere, 2) il numero di casi mancanti, cioè i casi per i quali questa informazione non è disponibile, 3) le statistiche descrittive richieste ( in qs. caso la moda) La gamma di valori: La tabella riporta la distribuzione del campione per sesso ( n, %): 9 maschi, 20 femmine ed 1 caso codificato come 22 Si tratta di un errore di input che va corretto nella matrice dati prima di procedere con l’analisi dei dati, Correggere l’errore Trovare il caso nella matrice dati che sulla variabile sex assume valore 22 Controllare sul questionario originale corrispondente al caso quale è la risposta corretta ( 1 maschio, 2 femmina, 0 non indica) Modificare il valore nella matrice dati ( manualmente o attraverso sintassi, preferibile perché resta traccia dell’operazione fatta) Se non è possibile controllare il questionario: si può provare, sulla base di altre informazioni e variabili disponibili di desumere il valore esatto ( ad es. alcune scuole in Italia sono frequentate quasi esclusivamente da donne, se il ns. caso frequenta una scuola di questo tipo è altamente probabile che il codice inputato come 22 in realtà fosse 2) si può attribuire al caso valore 0 ( nella nostra matrice dati corrisponde a “non indica”) sulla variabile sex o, nel caso di variabili cardinali o quasi cardinali si attribuisce il valore medio riscontrato nel campione 14 INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi [email protected] Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 15 Esercitazione 2 Giovedì 22 maggio, 14.30 -16. 30 (Aula 2) Argomenti: Analisi monovariata (variabili nominali, ordinali, cardinali) Statistiche descrittive di base Rappresentazioni grafiche Analisi bivariata (Cenni) Base dati per esercitazione : Scelte postdiploma Lomb2005.sav Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia Testi di riferimento: P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII) Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 16 Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili Le finestre di SPSS Data Editor (Data view,Variable View): contiene la matricedati e le informazioni sulle variabili; il file ha come estensione “Nomefile.sav” Output Viewer: mostra i risultati delle elaborazioni statistiche (tabelle, grafici,..); il file ha come estensione Nomefile.spo Syntax File: per salvare i comandi lanciati tramite le finestre di dialogo in linguaggio SPSS e per scriverne di nuovi; il file ha come estensione Nomefile.sps 17 La barra Menù File/File: identico nelle funzionalità allo stesso comando che si trova in programmi comuni come Edit/Modifica: contiene comandi per modificare i dati delle finestre SPSS (ad esempio copiare tabelle dell’output) View/Visualizza: Contiene le opzioni per passare dalla visulizzazione dati a quella variabili, WORD. Consente di aprire, salvare, gestire, stampare i file SPSS (.spo, .sav. .out ) visualizzare barra di stato, degli struemnti e matrice dati, definire i caratteri Data/Dati: contiene i comandi per definire le variabili, richiamare e/o selezionare casi o variabili presenti nella matrice dati Transform/Trasforma: comandi per la trasformazione o creazione di nuove variabili Analyze/Analizza: contiene moltissimi comandi con relativi sottomenù per le principali analisi statistiche e alcune rappresentazioni grafiche Graph/Grafici: diversi comandi per diversi tipi di rappresentazioni grafiche Utilities/Strumenti: varie funzioni di utilità, ad esempio informazioni sulle variabili Window/Finestra: per gestire agevolmente l’accesso alle dibverse finestre aperte Help/?: guida in linea, contiene anche esercitazioni Analisi monovariata L’analisi delle frequenze ( in SPSS: Analyze Descriptive Statistics Frequencies) consente di: 1) Verificare che i valori presenti nella matrice dati rientrino nella gamma prevista ( e registrata nel code-book) Cfr. Lezione 1 2) Identificare eventuali casi mancanti sulle singole variabili (Cfr. Lezione 1) 3) Verificare la distribuzione delle risposte di una specifica variabile nel campione 4) Identificare eventuali modalità della variabile sulle quali si collocano pochi casi SPSS consente di : Costruire una tabella relativa alla distribuzione di frequenza della variabile di interesse ( valori assoluti, valori %) Ottenere una adeguata rappresentazione grafica della distribuzione di frequenza della variabile Calcolare gli indici sintetici di ciascuna distribuzione ( misure di tendenza centrale, misure di variazione e dispersione, indice di concentrazione o distribuzione) 18 Analisi delle frequenze/ Menù reset: per annullare tutti i comandi impostati e farne di nuovi Statistics: per avere informazioni sulle statistiche descrittive delle variabili (indici sintetici) Charts: per realizzare rappresentazioni grafiche Analisi delle frequenze/Syntax Per ottenere l’analisi delle frequenze è sufficiente indicare il nome della/e variabile/i di interesse all’interno di questo comando in un file di sintassi: FREQUENCIES VARIABLES= anno naz scuola classe prov d1 d2 d3 /ORDER= ANALYSIS . NB: tutti i comandi di SPSS possono essere importati dalla finestra di dialogo ad un file di sintassi semplicemente cliccando sul tasto INCOLLA ( PASTE per la versione inglese) prima di dare l’OK. 19 Analisi monovariata/variabili nominali/promemoria Con una variabile nominale ( ad. es. il genere ) sono possibili le seguenti operazioni: - creare una tabella con la distribuzione di frequenza (n, %) di ciascuna modalità di cui la variabile è composta (quanti sono i maschi e le femmine in valore assoluto ed in percentuale nel campione?) - calcolare un indice sintetico della distribuzione ( solo e soltanto la moda, cioè la modalità che raccoglie il maggior numero di casi) - produrre una adeguata rappresentazione grafica (grafico a torta o grafico a barre) Analisi monovariata/Variabili nominali/Menù 1) Selezionare la variabile nominale di interesse 2) Cliccare su Statistiche (Statistics) e selezionare statistiche di interesse 3) Cliccare su Grafici (Charts) e selezionare il grafico adeguato ( a torta/ piecharts, a barre/bar chart) 4) Cliccare su Formato; in genere vanno bene le opzioni di default, ma dipende dalle esigenze di ricerca le 20 Analisi monovariata/Variabili nominali/Sintassi Di seguito si riportano i comandi di sintassi SPSS per 1) produrre la tabella con la distribuzione di frequenza per la variabile ( o le variabili) di interesse ( nel nostro esempio la variabile d1) 2) calcolare anche alcune statistiche ( nel ns. esempio la moda), o una rappresentazione grafica (nel ns. esempio PIECHART/grafico a torta) della distribuzione della variabile di interesse FREQUENCIES VARIABLES=d1 /STATISTICS=MODE /PIECHART PERCENT /ORDER= ANALYSIS . NB: ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù. Analisi monovariata/Variabili nominali/OUTPUT N.B= cliccando sulla tabella o sul grafico si apre una maschera che consente di modificare l’editing 21 Analisi monovariata/Variabili nominali/OUTPUT Nome/Etichetta della variabile La tabella “Statistiche” riporta: 1) il numero di casi validi (quelli che hanno risposto alla domanda) Statistiche Idea su cosa fare dopo sms? N Validi 1115 Mancanti 0 Moda 3 Nome/Etichetta della variabile Validi 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna informazione su questa variabile) 3) Il codice numerico corrispondente alla moda della distribuzione della variabile (3, corrispondente a “Mi iscriverò ad un corso di laurea”) Idea su cosa fare dopo sms? Non indica Cercherò lavoro Laurea + lavoro Laurea Corso fp post sms Non so Totale Frequenza Percentuale 20 1,8 266 23,9 265 23,8 328 29,4 27 2,4 209 18,7 1115 100,0 Informazioni presenti in Tabella: Percentuale valida 1,8 23,9 23,8 29,4 2,4 18,7 100,0 Percentuale cumulata 1,8 25,7 49,4 78,8 81,3 100,0 1) Frequenza: il numero di casi che si colloca su ciascuna delle modalità della variabile di interesse 2) Percentuale: la frequenza % di ciascuna modalità della variabile 3) Percentuale valida: la frequenza % di ciascuna modalità della variabile calcolata solo su casi indicati come validi dal ricercatore/trice ( nel ns. esempio tutti sono ritenuti validi) Modalità della variabile Distribuzione di frequenza (n, %) 4) Percentuale cumulata : utile solo per variabili ordinali/cardinali ( vedi slides realtive) Analisi monovariata/Variabili nominali/Grafici A torta: l’area di ogni sezione rappresenta la % o il numero di risposte corrispondenti a ciascun valore della variabile ( nel ns. esempio %); il grafico è in genere poco leggibile se le modalità sono più di 7! A barre/ortogramma: l’altezza delle barre è proporzionale alla frequenza di valori della variabile; l’ordine dei valori per varibili nominali è arbitrario in base alle esigenze di ricerca, anche se in genere si tende a collocarle in ordine crescente/decrescente di frequenza N.B= cliccando sul grafico si apre una maschera che consente di modificarne l’editing Statistiche Idea su cosa fare dopo sms? N Validi 1115 Mancanti 0 22 Analisi monovariata/variabili ordinali/promemoria Con una variabile ordinale ( ad. es.il titolo di studio) sono possibili le seguenti operazioni: - creare una tabella con la distribuzione di frequenza (n, %) di ciascuna modalità di cui la variabile è composta (quanti sono i laureati/diplomati/con licenza elementare/etc in valore assoluto ed in percentuale nel campione?) - calcolare indici sintetici della distribuzione (di tendenza centrale: moda, mediana) - produrre una adeguata rappresentazione grafica (ortogramma) Analisi monovariata/Variabili ordinali/Menù 1) Selezionare la variabile ordinale di interesse 2) Cliccare su Statistiche (Statistics) e selezionare le statistiche di interesse ( media, mediana) 3) Cliccare su Grafici (Charts) e selezionare il grafico adeguato ( a barre) 4) Cliccare su Formato; con una variabile ordinale fondamentale selezionare valori crescenti o decrescenti (default) e non i conteggi! 23 Analisi monovariata/Variabili ordinali/Sintassi Di seguito si riportano i comandi di sintassi SPSS per 1) produrre la tabella con la distribuzione di frequenza per la variabile ordinale ( o le variabili) di interesse ( nel nostro esempio la variabile d6) 2) calcolare anche alcune statistiche (media, mediana), o una rappresentazione grafica (bar charts, grafico a barre) della distribuzione della variabile di interesse FREQUENCIES VARIABLES=d6 /STATISTICS=MEDIAN MODE /BARCHART PERCENT /ORDER= ANALYSIS . NB: I comandi sono identici a quelli usati per le variabili nominali, ma cambiano le statistiche e il tipo di grafico che è statisticamente sensato richiedere. Si ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù. Analisi monovariata/Variabili ordinali/OUTPUT 24 Analisi monovariata/Variabili ordinali/OUTPUT La tabella “Statistiche” riporta: Statistiche Quando hai deciso di continuare gli studi? N Validi 740 Mancanti 375 Mediana 2,00 Moda 1 1) il numero di casi validi (quelli che hanno risposto alla domanda) 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna informazione su questa variabile). Nel ns. esempio si tratta di casi che NON dovevano rispondere, perché filtrati alla domanda precedente (definiti da SPSS mancanti di sistema) 3) Il codice numerico corrispondente alla mediana (2= nel biennio della scuola media superiore) e alla moda (1 = prima di iniziare la scuola media superiore) della distribuzione della variabile Nome/Etichetta della variabile Quando hai deciso di continuare gli studi? Validi Mancanti Prima di iniziare la sms Nel biennio delle sms Durante il 3° anno Durante il 4° anno Durante il 5° anno Totale Non indica Mancante di sistema Totale Totale Frequenza 342 69 91 134 104 740 12 363 375 1115 Percentuale 30,7 6,2 8,2 12,0 9,3 66,4 1,1 32,6 33,6 100,0 Percentuale valida 46,2 9,3 12,3 18,1 14,1 100,0 Informazioni presenti in Tabella: Percentuale cumulata 46,2 55,5 67,8 85,9 100,0 1) Frequenza: il numero di casi che si colloca su ciascuna delle modalità della variabile di interesse 2) Percentuale: la frequenza % di ciascuna modalità della variabile 3) Percentuale valida: la frequenza % di ciascuna modalità della variabile calcolata solo su casi indicati come validi dal ricercatore/trice ( nel ns. esempio non sono validi i “non indica” e i “mancanti di sistema”) 4) Modalità della variabile Distribuzione di frequenza (n, %) Percentuale cumulata : indica la quota % di casi che si collocano entro determinata posizione della scala ordinale. Analisi monovariata/Variabili ordinali/Grafici A barre/ortogramma: l’altezza delle barre è proporzionale alla frequenza di valori della variabile; i valori vanno collocati seguendo l’ordine della scala ordinale. Nel ns. esempio è una scala ordinale temporale che va da prima dell’iscrizione ad una scuola media superiore al quinto anno della scuola media superiore 25 Analisi monovariata/variabili cardinali/promemoria Con una variabile cardinale ( ad. es. numero di esami sostenuti; valutazioni in una scala 1-10) sono possibili le seguenti operazioni: - creare una tabella con la distribuzione di frequenza (n, %) di ciascuna modalità di cui la variabile è composta (quanti sono i laureati/diplomati/con licenza elementare/etc in valore assoluto ed in percentuale nel campione?) - calcolare indici sintetici della distribuzione (di tendenza centrale: moda, mediana, media; indici di dispersione: varianza, deviazione standard) - produrre una adeguata rappresentazione grafica (istogramma) Analisi monovariata/variabili cardinali/Menù 1) Selezionare la variabile cardinale di interesse 2) Cliccare su Statistiche (Statistics) e selezionare le statistiche di interesse (media, mediana, moda, deviazione std, valore min-max). Verificare che i casi validi siano solo quelli previsti dalla scala di misura; ad es. escludere dall’analisi i “non indica” o i “non so” codificati con codici numerici (0, 99, etc…) altrimenti SPSS li userà per calcolare la media! 3) Cliccare su Grafici (Charts) e selezionare il grafico adeguato (istogramma) 4) Cliccare su Formato; con una variabile cardinale è importante selezionare valori crescenti o decrescenti (default) e non i conteggi! 26 Analisi monovariata/ variabili cardinali/Sintassi Di seguito si riportano i comandi di sintassi SPSS per 1) produrre la tabella con la distribuzione di frequenza per la variabile cardinale ( o le variabili) di interesse ( nel nostro esempio la variabile d9a) 2) calcolare anche alcune statistiche (media, mediana, moda, deviazione standard, valori minimo e massimo, intervallo), o una rappresentazione grafica (istogramma) della distribuzione della variabile di interesse FREQUENCIES VARIABLES=d9a /STATISTICS=STDDEV RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE /HISTOGRAM NORMAL /ORDER= ANALYSIS . NB: I comandi sono identici a quelli usati per le variabili nominali e ordinali , ma cambiano le statistiche e il tipo di grafico che è statisticamente sensato richiedere. Si ricorda che cliccando sul tasto INCOLLA (PASTE per la versione inglese) è possibile importare nel file di sintassi i comandi definiti tramite menù. La variabile d9a corrisponde alla seguente domanda del questionario: 9) Indipendentemente dal voto dato dagli insegnanti e dalla scuola che si frequenta alcune persone si sentono più portate per la matematica, altre per la storia, altre ancora per il disegno. E tu, in una scala da 1 a 10, quanto ti senti portato per le materie elencate ? Posizionati sulla scala considerando che 1 indica che non ti senti per nulla portato per quella materia e 10 che ti senti portato moltissimo Materie matematiche (matematica, statistica…) 1 2 3 4 5 6 7 8 9 10 Analisi monovariata/variabili cardinali/Output 27 Analisi monovariata/variabili cardinali/Output Analisi monovariata/variabili cardinali/Output La tabella “Statistiche” riporta: Statistiche Predisposizione materie: matematiche N Validi 1114 Mancanti 1 Media 5,63 Mediana 6,00 Moda 6 Deviazione std. 2,372 Intervallo 9 Minimo 1 Massimo 10 1) il numero di casi validi (quelli che hanno risposto alla domanda) 2) il numero di casi mancanti ( quelli per i quali non è disponibile alcuna informazione su questa variabile). 3) Il codice numerico corrispondente alla media (5,63) alla mediana (6) e alla moda (6) della distribuzione della variabile 4) La deviazione standard (scarto quadratico medio): preferibile alla varianza nelle analisi monovariate perché è dello stesso ordine di grandezza della variabile e media. 5) Valore massimo e minimo assumibile dalla variabile ( 1-10) e relativo intervallo (9) Nome/Etichetta della variabile Predisposizione materie: matematiche Validi Mancanti Totale Per nulla portato 2 3 4 5 6 7 8 9 Moltissimo portato Totale Non indica Modalità della variabile Frequenza 84 59 90 96 151 187 175 174 59 39 1114 1 1115 Percentuale 7,5 5,3 8,1 8,6 13,5 16,8 15,7 15,6 5,3 3,5 99,9 ,1 100,0 Percentuale valida 7,5 5,3 8,1 8,6 13,6 16,8 15,7 15,6 5,3 3,5 100,0 Informazioni presenti in Tabella: Percentuale cumulata 7,5 12,8 20,9 29,5 43,1 59,9 75,6 91,2 96,5 100,0 1) Frequenza: il numero di casi che si colloca su ciascun valore della variabile di interesse 2) Percentuale: la frequenza % di ciascun valore della variabile 3) Percentuale valida: la frequenza % di ciascun valore della variabile calcolata solo su casi indicati come validi dal ricercatore/trice Percentuale cumulata : indica la quota % di casi collocati ad una determinata posizione della scala cardinale. Distribuzione di frequenza (n, %) 28 Analisi monovariata/variabili cardinali/Grafici Gli istogrammi richiesti tramite la finestra Frequencies forniscono solo le frequenze assolute e non le % Statistiche Predisposizione materie: matematiche N Validi Mancanti Media 1114 1 5,63 Se la variabile è una variabile cardinale raggruppata in classi possiamo rappresentarla graficamente con un istogramma, collocando su un asse la variabile, sull’altro la frequenza e innalzando dei rettangoli di area proporzionale alle frequenze. NB: Un tipo particolare di istogramma è dato dalla piramide della popolazione; dall’Istogramma è possibile derivare il poligono di frequenza. Per queste rappresentazioni grafiche occorre far riferimento al comando Grafici sulla Barra Menù di SPSS ( vedi SLIDE SUCCESSIVE) Come generare Grafici con SPSS/1 Oltre alle (poche!) rappresentazioni grafiche previste all’interno della finestra Frequencies/Charts , Spss consente di creare numerosi tipi di grafici. Dal comando GRAFICI sulla barra di Menù è possibile scegliere tra Generatore Grafici, Interattivi, Finestre Legacy: ognuno di quesi sottomenù prevede vari tipi di grafici. Per rapporti di ricerca, pubblicazioni, etc…è comunque preferibile usare Excel, che produce grafici esteticamente migliori e più facili da gestire. 29 Come generare Grafici con SPSS/2 2) Trascinare la variabile di interesse sull’asse delle x Istogramma prevede: - Istogrammi semplici e raggruppati - Poligono di frequenza - piramide della popolazione 1) Selezionare il tipo di grafico di interesse Generatore di Grafici/Esempi ISTOGRAMMA (classi %) PIRAMIDE DELLA POPOLAZIONE 30 Missing values: come eliminare dall’analisi i casi? Colonna del foglio variabili da utilizzare per definire i valori mancanti (missing) oltre a quelli di sistema definiti in fase di input Cliccare sulla cella corrispondente alla variabile di interesse ( nel ns.esempio d9a) ed inserire i valori da definire come mancanti. Nel ns. caso 0, che corrisponde a “Non indica” I casi validi: su quale base calcolare le frequenze? 1) Effettuare una distribuzione di frequenza della variabile di interesse prevedendo tutti i valori che essa può assumere (compresi quelli corrispondenti a non so e non indica); 2) Per le variabili cardinali, quando si chiedono le statistiche descrittive (media, mediana, deviazione standard, etc…) ricordarsi sempre di tarsformare in missing i valori che escono dalla scala di misura (in genere i codici numerici associati a “non so” e o “non indica”) 3) La scelta di eliminare o meno i non so dall’analisi dipende dalle esigenze di ricerca, dal tipo di fenomeno che si sta studiando, dall’impostazione metodologica del ricercatore 4) Come trattare i Non so? Si tratta di una informazione importante che il ricercatore deve sempre tenere presente per valutare l’affidabilità dei dati su cui lavora. Nel caso in cui si decida di eliminare i “non so” dall’analisi (in genere quando si tratta di pochi casi, inferiori al 3% del campione) è importante segnalare l’operazione fatta ( nel testo, o in tabella o in una nota metodologica); 5) Come trattare i Non indica (mancate risposte)? In primo luogo occorre controllare che non vi siano errori di input ed eventualmente correggerli nella matrice dati. In genere, a meno che non si tratti di una quota rilevante del campione, si è soliti eliminare dall’analisi i “non indica”. Si tenga presente che se la variabile non prevede la modalità di risposta “non so”è probabile che alcuni intervistati “indecisi” abbiano preferito non rispondere alla domanda ( e quindi sono stati codificati con “non indica”). Anche in questo caso se si decide di trasformare in missing values i “non indica” occorre sempre segnalare l’operazione fatta in fase di presentazione dei dati. 31 Missing values: un esempio Tab. 1 Validi Non indica Cercherò lavoro Laurea + lavoro Laurea Corso fp post sms Non so Totale Idea su cosa fare dopo sms? Frequenza 20 266 265 328 27 209 1115 Tab. 2 Validi Mancanti Totale Cercherò lavoro Laurea + lavoro Laurea Corso fp post sms Totale Non indica Non so Totale Percentuale 1,8 23,9 23,8 29,4 2,4 18,7 100,0 Percentuale valida 1,8 23,9 23,8 29,4 2,4 18,7 100,0 Percentuale cumulata 1,8 25,7 49,4 78,8 81,3 100,0 Idea su cosa fare dopo sms? Frequenza 266 265 328 27 886 20 209 229 1115 Percentuale 23,9 23,8 29,4 2,4 79,5 1,8 18,7 20,5 100,0 Percentuale valida 30,0 29,9 37,0 3,0 100,0 Percentuale cumulata 30,0 59,9 97,0 100,0 Come si può notare le percentuali valide riportate nella prima tabella (distribuzione di frequenza di tutti i valori della variabile) differiscono notevolmente dalla seconda che esclude Non indica e Non so). Sulla base dei dati presentati in Tab. 1 possiamo dire che su 100 studenti lombardi : circa 20 non sanno cosa fare dopo il diploma (18,7%), 30 pensano di iscriversi all’università (29,4%), 24 vogliono conciliare lavoro e università, 24 cercheranno subito un lavoro. Una quota ridotta ( 2 ,4%) sceglie un corso Formazione Professionale o non fornisce risposta (1,8%). Se usiamo i dati presentati in Tab.2 e consideriamo la sola percentuale valida, le quote variano di molto: circa 37 studenti su 100 pensano di iscriversi all’università, 30 vogliono conciliare lavoro e università, 30 cercheranno subito un lavoro. Una quota ridotta ( 3%) sceglierà un corso Formazione Professionale Missing values: la matematica è un’opinione? Chi è in possesso dei dati presentati in Tab. 1 potrà legittimamente affermare: “Dai dati emerge una grande difficoltà da parte degli studenti lombardi nel scegliere il proprio futuro. Ben un quinto di essi non è in grado di formulare ipotesi sulle scelte che farà dopo il diploma e la quota rimanente si suddivide quasi equamente tra chi si iscriverà ad un corso di laurea, chi cercherà un lavoro e chi intende conciliare entrambi i percorsi. L’investimento assoluto in un percorso qualificante quale quello universitario raccoglie l’interesse di poco meno di 30 studenti su 100” Chi è in possesso dei dati presentati in Tab. 2 ( percentuale valida) legittimamente affermare: potrà “I dati evidenziano una fortissima tendenza da parte degli studenti di scuola superiore ad investire sul proprio futuro professionale con percorsi di qualità, con l’obiettivo di conseguire un titolo di studio universitario. Infatti, ben due terzi degli studenti intervistati pensa di iscriversi ad un corso di laurea, eventualmente affiancando tale percorso ad un impegno lavorativo.” 32 Le variabili quasi-cardinali Molti fenomeni sociali (religiosità, razzismo, orientamento politico, atteggiamenti verso le istituzioni, coesione sociale, orientamenti valoriali, etc…) possono essere immaginate come proprietà continue che variano in maniera graduale far gli individui. Ma quale unità di misura usare per passare da un concetto di questo tipo ad una variabile cardinale (opertivizzazione)? La “tecnica delle scale” rappresenta un tentativo di superare tale limite. Le variabili prodotte con queste tecniche (variabili quasi-cardinali, Marradi 1993) possono plausibilmente essere trattata con gli strumenti statistici propri delle variabili cardinali, ma è sempre opportuno tenere presente la loro particolare natura. La scala maggiormente utilizzata nelle scienze sociali è la scala Likert. Il formato delle singole domande delle scale Likert è rappresentato da una serie di affermazioni per ognuna delle quali l’intervistato deve dire se e in che misura è d’accordo. La scala può essere a 7 alternative (molto d’accordo, d’accordo, parzialmente d’accordo, incerto,parzialmente in disaccordo, in dissaccordo, molto in disaccordo), a 5 (molto d’accordo, d’accordo, incerto, in disaccordo, molto in disaccordo) o a 4 (molto, abbastanza, poco, per nulla d’accordo). Ad ogni modalità di risposta è associato un valore numerico ( da 1 a 7, o da 1 a 5, o da 1 a 4) con proprietà cardinali. Esempi di scala nel questionario usato per le esercitazioni (Scelte postdiploma Lomb 2005.doc): - Dom 13) Parliamo adesso di un lavoro in particolare, quello di chi fa ricerca scientifica, cioè delle persone che fanno nuove scoperte sul “funzionamento” di vari aspetti del mondo (ad esempio i pianeti, l’atmosfera, il corpo umano…). Le opinioni della gente sulla ricerca scientifica non sono tutte uguali. Tu come la pensi? Di seguito ti elenchiamo una serie di affermazioni: per ognuno di esse ti chiediamo di dirci se sei d’accordo e in che misura. - Dom. 10) Le opinioni degli studenti rispetto alla matematica possono essere molto diverse: tu come la pensi? Ti elenchiamo una serie di affermazioni: per ognuna di esse ti chiediamo di dirci se sei d’accordo e in che misura Atteggiamento verso la ricerca scientifica: analisi monovariata Affermazioni ricerca scientifica: comporta rischi difficili da controllare Validi Non indica Per nulla d'accordo Poco d'accordo Abbastanza d'accordo Molto d'accordo Non so Totale Frequenza 3 57 320 491 175 69 1115 Percentuale ,3 5,1 28,7 44,0 15,7 6,2 100,0 Percentuale valida ,3 5,1 28,7 44,0 15,7 6,2 100,0 Percentuale cumulata ,3 5,4 34,1 78,1 93,8 100,0 Affermazioni ricerca scientifica: difficile da comprendere Validi Non indica Per nulla d'accordo Poco d'accordo Abbastanza d'accordo Molto d'accordo Non so Totale Frequenza 1 112 385 458 122 37 1115 Percentuale ,1 10,0 34,5 41,1 10,9 3,3 100,0 Percentuale valida ,1 10,0 34,5 41,1 10,9 3,3 100,0 Percentuale cumulata ,1 10,1 44,7 85,7 96,7 100,0 Posso chiedere l’analisi delle frequenze per ciascuna variabile derivata dalla batteria di domande, ma la lettura e il confronto tra variabili risulta poco agevole Affermazioni ricerca scientifica: chi la fa è pagato troppo poco Validi Non indica Per nulla d'accordo Poco d'accordo Abbastanza d'accordo Molto d'accordo Non so Totale Frequenza 5 84 177 290 222 337 1115 Percentuale ,4 7,5 15,9 26,0 19,9 30,2 100,0 Percentuale valida ,4 7,5 15,9 26,0 19,9 30,2 100,0 Percentuale cumulata ,4 8,0 23,9 49,9 69,8 100,0 33 Atteggiamento verso la ricerca scientifica: tabelle di frequenza Tabelle di frequenza/Menu 34 Tabelle di Frequenza/output Questo formato agevola il confronto tra variabili ( che rappresentano nel ns. esempio un particolare aspetto associato alla ricerca scientifica) Affermazioni ricerca Affermazioni ricerca scientifica: comporta Affermazioni ricerca Affermazioni ricerca scientifica: indispensabile scientifica: difficile da scientifica: chi la fa è rischi difficili da x qualità della vita controllare comprendere pagato troppo poco Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale Frequenza Percentuale Non indica 2 ,2 3 ,3 1 ,1 5 ,4 Per nulla d'accordo 9 ,8 57 5,1 112 10,0 84 7,5 Poco d'accordo 51 4,6 320 28,7 385 34,5 177 15,9 Abbastanza d'accordo 394 35,3 491 44,0 458 41,1 290 26,0 Molto d'accordo 652 58,5 175 15,7 122 10,9 222 19,9 Non so 7 ,6 69 6,2 37 3,3 337 30,2 Totale 1115 100,0 1115 100,0 1115 100,0 1115 100,0 INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi [email protected] Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 35 Esercitazione 3 Argomenti Trasformazione delle variabili attraverso i comandi: Ricodifica (RECODE) Calcola (COMPUTE) Conteggia (COUNT) Manipolazione dei casi attraverso i comandi: Seleziona (SELECT cases) Distingui (SPLIT FILE) Base dati per esercitazione : Scelte postdiploma Lomb2005.sav Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia Testi di riferimento: P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII) Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 36 Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili Costruire nuove variabili Spss consente di creare una nuova variabile tramite: Trasformazione di una variabile presente nel data set (es. aggregazione dei valori in classi, comando RECODE) Conteggio di un valore presente in una lista di variabili ( comando COUNT) Combinazione di più variabili (operazioni aritmetiche e/o logiche tra le variabili, comando COMPUTE) 37 L’istruzione RECODE (ricodifica) Consente di assegnare alle variabili valori differenti rispetto a quelli di partenza: Codificare un valore come missing Accorpare in classi i valori della variabile Invertire i valori della variabile in coerenza con la scala usata (ad.es in Scala Likert, 1= per nulla; 4=molto) ed in generale modificare i valori associati alle modalità di risposta Un esempio: accorpamento dei valori in classi Tipo sms frequentata Frequenza Validi Non indica L. classico L. scientifico L. artistico L. socio-psico-pedagogico Ist. prof. industriale e artigianato Ist. prof. per i servizi commerciali e turistici Altri Ist. Prof. e Istituto d'arte Ist. Tecnico commerciale e per geometri Ist. Tecnico industriale Altri ist. Tecnici Totale Percentuale Percentuale valida Percentuale cumulata 1 88 233 42 ,1 7,9 20,9 3,8 ,1 7,9 20,9 3,8 ,1 8,0 28,9 32,6 44 3,9 3,9 36,6 73 6,5 6,5 43,1 94 8,4 8,4 51,6 40 3,6 3,6 55,2 276 24,8 24,8 79,9 179 45 1115 16,1 4,0 100,0 16,1 4,0 100,0 96,0 100,0 Come ricodificare la variabile “scuola” passando da 10 modalità a 3? 1 = liceo 2 = ist. professionale 3 = ist. Tecnico 38 Ricodifica in variabili differenti Utilizzeremo l’istruzione RECODE ( in variabili differenti) per creare una nuova variabile “scuola_rec” a tre modalità TRANSFORM RECODE INTO DIFFERENT VARIABLES Posso ricodificare la variabile “scuola” passando da 10 modalità a 3: 1 = liceo ( comprende i “vecchi” valori 1,2,3,4) 2 = ist. professionale ( comprende i “vecchi” valori 5,6,7) 3 = ist. Tecnico (comprende i “vecchi” valori 8,9,10) I “non indica” sono codificati come “missing values” Ricodifica in variabili differenti/Menu 39 Ricodifica: creare una nuova variabile 1. Selezionare la variabile da modificare e spostarla nel box centrale 2. Indicare nome ed etichetta della variabile che si vuole creare e cliccare su Cambia per confermare 3. Cliccare su Valori vecchi e nuovi per dare le istruzioni di ricodifica 4. Cliccare su SE,qualora si voglia applicare la ricodifica solo ai csi che soddisfano una determinata condizione ( ad es. sesso=1) Ricodifica: assegnare nuovi valori 1. Indicare nell’appropriato box a sinistra il valore/i valori da ricodificare (vecchio valore), che possono essere singoli o intervalli di valori ( nel ns. esempio 0, intervallo da 1 a 4, da 5 a7, da 8 a 10) 1. Ib 2. Per ciascun vecchio valore o intervallo di valori indicare ( a destra) la ricodifica scelta: un valore nuovo, mancante di sistema, un valore uguale a quello vecchio. Cliccare su aggiungi per confermare 3. Cliccare su continua, e poi su OK nella maschera che compare ( vedi slide precedente) 40 Ricodifica: la sintassi I comandi di sintassi consentono di creare la nuova variabile, assegnare i valori e le etichette ( tramite Menu le etichette dei valori non possono essere assegnate!). Negli esempi seguenti vengono create due variabili differenti ( scuola_2, scuola_3, a partire dalla variabile iniziale “scuola”) RECODE scuola (0=SYSMIS) (1 thru 4=1) (5 thru 7=2) (8 thru 10=3) INTO scuola_3 . VARIABLE LABELS scuola_3 "Tipo scuola in 3 classi". EXECUTE . VAL LAB scuola_3 1 "Liceo" 2 "Istituto Professionale" 3 "Istituto Tecnico" . RECODE scuola (0=SYSMIS) (1 thru 4=1) (5 thru 10=2) INTO scuola_2 . VARIABLE LABELS scuola_2 "Tipo scuola in 2 classi". EXECUTE . VAL LAB scuola_2 1 "Liceo" 2 "Istituto Professionale o Tecnico " Distribuzione di frequenza delle nuove variabili (ricodificate) Tipo scuola in 2 classi Validi Mancanti Totale Liceo Istituto Professionale o Tecnico Totale Mancante di sistema Percentuale valida 36,5 Percentuale cumulata 36,5 63,4 63,5 100,0 99,9 ,1 100,0 100,0 Frequenza 407 Percentuale 36,5 707 1114 1 1115 Tipo scuola in 3 classi Validi Mancanti Totale Liceo Istituto Professionale Istituto Tecnico Totale Mancante di sistema Frequenza 407 207 500 1114 1 1115 Percentuale 36,5 18,6 44,8 99,9 ,1 100,0 Percentuale valida 36,5 18,6 44,9 100,0 Percentuale cumulata 36,5 55,1 100,0 41 Ricodificare una batteria di domande La batteria seguente produce 10 differenti variabili con uguale scala di risposta ( da 1 a 4, 1=lo escludo, 4= molto probabile) 7) In quale dei seguenti gruppi disciplinari pensi di scegliere la Facoltà o il corso di formazione professionale post-diploma al quale iscriverti? (1 risposta per ogni riga) • • • • • • • • • • Lo escludo Poco Abbastanza Molto probabile probabile probabile Gruppo scientifico (matematica, chimica, biologia…)....................... ................ ................ Gruppo medico (medicina, veterinaria ecc.)....................................... ................ ................ Gruppo ingegneria .............................................................................. ................ ................ Gruppo economico (economia e commercio, ecc.)............................. ................ ................ Gruppo politico-sociale (scienze politiche, sociologia…).................. ................ ................ Gruppo psicologico ............................................................................ ................ ................ Gruppo giuridico................................................................................. ................ ................ Gruppo umanistico (lettere, storia, filosofia ecc.)............................... ................ ................ Gruppo architettura............................................................................. ................ ................ Gruppo agrario.................................................................................... ................ ................ Ricodificare le domande di una batteria/1 Gruppo disciplinare a cui iscriverti: scientifico Frequenza Percentuale Non indica 19 1,7 Lo escludo 355 31,8 Poco probabile 183 16,4 Abbastanza probabile 128 11,5 Molto probabile 67 6,0 Totale 752 67,4 Mancanti Mancante di sistema 363 32,6 Totale 1115 100,0 Validi Percentuale valida 2,5 47,2 24,3 17,0 8,9 100,0 Percentuale cumulata 2,5 49,7 74,1 91,1 100,0 Iscrizione Gruppo scientifico? PercentualePercentuale Frequenza Percentuale valida cumulata non probabile 538 48,3 73,4 73,4 probabile 195 17,5 26,6 100,0 Totale 733 65,7 100,0 MancantiMancante di sistema382 34,3 Totale 1115 100,0 Validi Per semplificare iniziamo ricodificando la prima variabile (d7a) della batteria, creandone una nuova con 2 modalità. RECODE d7a (0=SYSMIS) (1 thru 2=0) (3 thru 4=1) INTO d7a2 . VAR LAB d7a2 "Iscrizione Gruppo scientifico?". VAL LAB var d7a2 0 "non probabile" 1 "probabile". 42 Ricodificare le domande di una batteria/2 RECODE d7b d7c d7d d7e d7f d7g d7h d7i d7l (0=SYSMIS) (1 thru 2=0) (3 thru 4=1) INTO d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2. VARIABLE LABELS d7b2 "Gruppo medico?". VARIABLE LABELS d7c2 "Gruppo ingegneria?". VARIABLE LABELS d7d2 "Gruppo economico?". VARIABLE LABELS d7e2 "Gruppo politico-sociale?" VARIABLE LABELS d7f2 "Gruppo psicologico ?". VARIABLE LABELS d7g2 "Gruppo giuridico?". VARIABLE LABELS d7h2 "Gruppo umanistico ?". VARIABLE LABELS d7i2 "Gruppo architettura?". VARIABLE LABELS d7l2 "Gruppo agrario?" . EXECUTE . VAL LAB d7b2 0 "non probabile" 1 "probabile". (….) VAL LAB d7i2 0 "non probabile" 1 "probabile". . Tramite i comandi di sintassi ripetiamo l’operazione di ricodifica per tutte e 10 le variabili della batteria (Cfr. File di sintassi dell’Esercitazione n.3) Distribuzione di frequenza delle variabili ricodificate (batteria) Per creare la tabella riassuntiva della distribuzione delle variabili di una batteria tramite menu: Analizza/Tabelle/Tabelle di frequenza non probabile Iscrizione Gruppo scientifico? Frequenza Gruppo medico? Frequenza Percentuale Percentuale Gruppo ingegneria? Frequenza Percentuale Gruppo economico? Frequenza Percentuale Gruppo politico-sociale? Frequenza Percentuale Gruppo psicologico ? Frequenza Percentuale Gruppo giuridico? Frequenza Percentuale Gruppo umanistico ? Frequenza Percentuale Gruppo architettura? Frequenza Percentuale Gruppo agrario? Frequenza Percentuale probabile Totale 538 195 733 73,4% 26,6% 100,0% 564 166 730 77,3% 22,7% 100,0% 526 206 732 71,9% 28,1% 100,0% 529 205 734 72,1% 27,9% 100,0% 547 185 732 74,7% 25,3% 100,0% 534 200 734 72,8% 27,2% 100,0% 596 134 730 81,6% 18,4% 100,0% 570 161 731 78,0% 22,0% 100,0% 576 159 735 78,4% 21,6% 100,0% 683 51 734 93,1% 6,9% 100,0% 43 L’istruzione COUNT Possiamo costruire un indice che evidenzi la frequenza con cui un determinato valore ricorre in una lista di variabili. Ad esempio, riferendoci alle domande precedenti, possiamo “contare” quante volte è stato scelto il valore 1 (che indica probabile iscrizione universitaria) sul totale delle 10 variabili corrispondenti a diversi gruppi universitari. L’indice potrà variare da 0 (mai indicato) a 10 (indicato per tutte le variabili). Gli intervistati associati a valore 10, sono dunque coloro che hanno dichiarato una probabile iscrizione a tutti i gruppi universitari indicati La nuova variabile, poiché derivata da un CONTEGGIO, è una variabile cardinale L’istruzione COUNT/Menu 44 L’istruzione count/Menu 1. Dare un nome e una etichetta alla nuova variabile 2. Selezionare le variabili, all’interno delle quali SPSS dovrà conteggiare il valore scelto 3. Cliccare su Definisci valori 4. Se il conteggio si applica solo ad alcuni casi ( ad es. solo alle donne) cliccare su SE e definire i criteri di selezione Selezionare i valori da conteggiare 1. Indicare il valore da conteggiare ( nel ns. esempio 1) in un adeguato box a sinistra, cliccare su aggiungi per spostarlo nel box a destra 2. I valori da conteggiare possono essere singoli (come nel ns.esempio) o intervalli di valori. 3. Cliccare su continua, e poi su OK nella maschera che compare ( vedi slide precedente) 45 L’istruzione COUNT/Sintassi e Output COUNT Countd7 = d7a2 d7b2 d7c2 d7d2 d7e2 d7f2 d7g2 d7h2 d7i2 d7l2 (1) . VARIABLE LABELS Countd7 'Conteggio probabilità di iscrizione a n gruppi universitari' . EXECUTE . Conteggio probabilità di iscrizione a n gruppi universitari Validi ,00 1,00 2,00 3,00 4,00 5,00 6,00 8,00 Totale Frequenza 403 168 271 180 63 22 7 1 1115 Percentuale 36,1 15,1 24,3 16,1 5,7 2,0 ,6 ,1 100,0 Percentuale valida 36,1 15,1 24,3 16,1 5,7 2,0 ,6 ,1 100,0 Percentuale cumulata 36,1 51,2 75,5 91,7 97,3 99,3 99,9 100,0 La distribuzione di frequenza della nuova variabile evidenzia che : - Più di un terzo degli studenti non ha indicato una probabile iscrizione ad alcun gruppo disciplinare - una minoranza ha indicato un solo gruppo disciplinare come probabile (15,1%) - circa il 40% è indeciso tra 2 o 3 gruppi disciplinari - una quota marginale (8%) ha indicato più di 4 gruppi disciplinari Ricodificare una variabile creata tramite conteggio La variabile ottenuta può essere ricodificata in base alle esigenze di ricerca (ad. es. successive analisi bivariata o multivariata). Ad esempio possiamo creare una nuova variabile con 3 modalità: studenti non interessati all’iscrizione universitaria studenti interessati ad un solo gruppo disciplinare’ studenti indecisi tra almeno 2 gruppi disciplinari 46 La nuova variabile: sintassi e frequenza Tipologia studenti in base al numero di gruppi disciplinari indicati Validi Frequenza Percentuale non interessati ad alcun 403 36,1 gruppo disciplinare interessati ad un solo 168 15,1 gruppo disciplinare indecisi fra almeno 2 544 48,8 gruppi disciplinari Totale 1115 100,0 Percentuale valida Percentuale cumulata 36,1 36,1 15,1 51,2 48,8 100,0 100,0 RECODE Countd7 (0=0) (1=1) (ELSE=2) INTO Countd7_rec . VARIABLE LABELS Countd7_rec 'Tipologia studenti in base al numero di gruppi disciplinari indicati'. EXECUTE . val lab Countd7_rec 0 ' non interessati ad alcun gruppo disciplinare' 1 'interessati ad un solo gruppo disciplinare' 2 'indecisi fra almeno 2 gruppi disciplinari' . L’istruzione COMPUTE: operazioni matematiche con le variabili L’età in anni degli studenti non è disponibile nel data set, ma può essere ricavata da una semplice operazione (anno di rilevazione-anno di nascita) Possiamo calcolare la predisposizione media degli studenti rispetto a tutte le materie insegnate a scuola Possiamo costruire una nuova variabile combinando ( attraverso operatori logici) tra loro 2 o più variabili ( di qualsiasi scala) ….e via di seguito. Con l’istruzione Compute si possono effettuare tutte le operazioni matematiche anche le più complesse (ovviamente le variabili devono essere cardinali o quasi cardinali!) 47 Transform/Compute Variable/Menu Compute variable: l’età in anni Indicare l’operazione da effettuare nell’apposito box. Per gli operatori matematici e logici è possibile usare la calcolatrice presente. Spss fornisce anche i comandi per le principali funzioni (cfr. slide successiva) NB: Nella matrice dati l’anno di nascita è indicato solo con le ultime due cifre (1988), se così non fosse l’operazione corretta sarebbe 2006-anno) 48 Compute variable: la predisposizione media per le materie scolastiche 1. Assegnare Nome ed etichetta alla nuova variabile 2. Indicare manualmente l’espressione numerica appropriata (nel ns. caso chiediamo di calcolare la media delle variabili tra parentesi) o … 3. (Preferibile) Cliccare sul gruppo di funzioni desiderato (nel ns. caso Statistica) 4. Selezionare la statistica di interesse (nel ns. Caso MEAN) 5. Cliccare sul tasto per collocare la statistica nel box “espressione numerica” 6. Selezionare o scrivere manualmente le variabili sulle quali effettuare l’operazione Distribuzione di frequenza della nuova variabile Statistiche predisposizione media per materie N Validi Mancanti Media Mediana Moda Deviazione std. Minimo Massimo Percentili 25 50 75 1115 0 5,5920 5,6667 5,78 1,17393 1,00 9,89 4,8889 5,6667 6,3333 La tabella riporta le statistiche descrittive relative alla nuova variabile “predisposizione media per le materie”. Possiamo derivare da questa variabile cardinale una nuova variabile, aggregando i valori in 2 classi. predisposizione media per materie in 2 classi Frequenza Percentuale Validi sotto la media 523 46,9 sopra la media 592 53,1 Totale 1115 100,0 Percentuale valida 46,9 53,1 100,0 Percentuale cumulata 46,9 100,0 RECODE d9media (Lowest thru 5.59=1) (ELSE=2) INTO d9media_2 . VARIABLE LABELS d9media_2 'predisposizione media per materie in 2 classi'. EXECUTE . val lab d9media_2 1 'sotto la media' 2 'sopra la media' . 49 Compute: una tipologia attraverso combinazione logica di 2 variabili Var d9a_2 “Predisposizione per materie scientifiche in 2 classi) Var d7a_2 Probabilità di iscrizione ad un corso di laurea scientifico Probabile iscrizione ad un gruppo disciplinare scientifico Non probabile iscrizione ad un gruppo disciplinare scientifico Predisposti per le materie scientifiche (autopercezione) Non predisposti per le materie scientifiche (autopercezione) Studenti Interessati alle materie scientifiche, ma non alle facoltà scientifiche Interessati alle facoltà, ma non alle materie Non interessati alle facoltà, ma alle materie Del tutto disinteressati Combinazione di variabili: Sintassi e Output DO IF (d7a2 = 1) or (d7a2 = 0) . COMPUTE tipostud = 1 . IF (d9g_2=1) AND (d7a2=0) tipostud IF (d9g_2=2) AND (d7a2=0) tipostud IF (d9g_2=1) AND (d7a2=1) tipostud IF (d9g_2=2) AND (d7a2=1) tipostud END IF. VAR LAB tipostud 'tipologia studenti in base a interesse per materie scientifiche e per corso di laurea scientifico' . VAL LAB tipostud 1 ' del tutto disinteressati' 2 ' interessati alle materie scient ma non alle facoltà' 3 ' interessati alle facoltà scient, ma non alle materie' 4 ' interessati alle facoltà scient e alle materie' . = 1. = 2. = 3. = 4. tipologia studenti in base a interesse per materie scientifiche e per corso di laurea scientifico Validi del tutto disinteressati interessati alle materie scient ma non alle facoltà interessati alle facoltà scient, ma non alle materie interessati alle facoltà scient e alle materie Totale Frequenza 321 Percentuale 54,1 Percentuale valida 54,1 Percentuale cumulata 54,1 108 18,2 18,2 72,3 34 5,7 5,7 78,1 100,0 130 21,9 21,9 593 100,0 100,0 50 Combinazioni di variabili/Alcune note Nella finestra di dialogo SE (IF) è possibile applicare trasformazioni di dati al sottoinsieme di casi selezionato utilizzando le espressioni logiche. Un'espressione logica restituisce un valore vero, falso, o mancante per ciascun caso. Se il risultato di un'espressione logica è vero, il caso verrà incluso nel sottoinsieme selezionato. La maggior parte delle espressioni condizionali utilizza uno o più dei sei operatori relazionali (<, >, <=, >=, = e ~=) della calcolatrice. Le espressioni logiche possono includere nomi di variabili, costanti, operatori aritmetici, funzioni numeriche e di altro tipo, variabili logiche e operatori relazionali. Nella sintassi tale “selezione” è presente nei Comandi che iniziano con DO IF e terminano con END IF ( come nel ns.esempio) Lavorare sui casi: Select cases Il comando Seleziona casi (Data/Select cases) consente (tra le altre funzioni): di selezionare per l’analisi solo i casi che soddisfano una o più caratteristiche (ad es. donne iscritte al liceo scientifico) di estrarre dalla matrice dati un campione casuale di casi (utile per estrarre un campione da una popolazione o per condurre analisi statistiche esplorative) I casi non selezionati possono essere: Filtrati ( non vengono considerati durante le analisi fino a quando il ricercatore non decide di eliminare il filtro) Cancellati (opzione da usare solo dopo aver fatto copia della matrice dati originale!) 51 SELECT CASES/Menu Select cases Di default il programma lavora su “Tutti i casi”. E’ possibile però selezionare i casi : 1. Indicando un criterio di selezione 2. Chiedendo l’estrazione di campione casuale un 3. Chiedendo l’estrazione su un intervallo specificato di casi 4. Usando una variabile filtro La prima di queste operazioni è la più frequente quando si analizzando dati derivati da indagini campionarie. 52 Selezionare sulla base di un criterio E’ possibile scegliere la “sorte” dei casi selezionati e di quelli non selezionati Selezionare la variabile ( o combinazione logica di variabili, ad es. di classe IV e maschi) usata come criterio di selezione (nel ns. Caso classe) e il valore (nel ns. caso 1= quarta classe). In qs. modo SPSS lavorerà solo sui casi che soddisfano questa condizione (cioè nel ns. esempio solo sugli studenti di classe quarta). Select cases: la nuova matrice dati I casi che non corrispondono al criterio impostato (nel ns esempio il filtro è classe=1) vengono segnati nella matrice dati con una barra diagonale, fino a quando non il filtro non viene eliminato dall’utente NB: SPSS segnala se il filtro è attivo, ma non specifica quale è il criterio di selezione 53 Select cases: il foglio variabili SPSS crea una nuova variabile filtro (filter_$) che corrisponde ai criteri di selezione impostati. In questo modo sarà possibile richiamarla successivamente. Lavorare sui casi: Split file L'opzione Distingui (Split file)) consente di suddividere il file di dati in gruppi distinti per l'analisi in base ai valori di una o più variabili di raggruppamento. Se vengono selezionate più variabili di raggruppamento, i casi verranno raggruppati in base a ciascuna variabile all'interno delle categorie della variabile precedente nella lista Gruppi basati su. Confronta gruppi. Le analisi vengono effettuate sui singoli gruppi, ma i risultati vengono riportati in una sola tabella riepilogativa per facilitare i confronti. Per quanto riguarda le tabelle pivot, viene creata una sola tabella e ciascuna variabile di distinzione può essere spostata tra le dimensioni della tabella. Per quanto riguarda i grafici, viene creato un grafico distinto per ciascun gruppo di analisi; i grafici verranno visualizzati insieme nel Viewer. Distingui i risultati per gruppo. Tutti i risultati di ciascuna procedura verranno visualizzati separatamente per ciascun gruppo di analisi. 54 Split File/Menu Distingui per Gruppo (Organize by groups) 1. Cliccare su Distingui i risultati per gruppo (Organize output by groups) 2. Selezionare la variabile per creare i gruppi ( nel ns. esempio “sesso dell’intervistato/a” 3. Il file deve essere ordinato in base alle variabili di raggruppamento (default) 55 Organize output by groups/Output Ogni analisi richiesta, se è attivo il comando Organize output by groups/Distingui per gruppi sarà condotta da SPSS separatamente per ciascun gruppo definito dalle modalità della variabile filtro ( nel. Ns. esempio “sesso”) a predisposizione media per materie in 2 classi Validi sotto la media sopra la media Totale Frequenza 202 301 503 Percentuale 40,2 59,8 100,0 Percentuale valida 40,2 59,8 100,0 Percentuale cumulata 40,2 100,0 a. Sesso intervistato = Femmina Split file/Compare groups 1. Cliccare su Confronta Gruppi (Compare groups) 2. Selezionare la variabile per creare i gruppi ( nel ns. esempio “sesso dell’intervistato/a” 3. Il file deve essere ordinato in base alle variabili di raggruppamento (default) 56 Output/Confronta Gruppi Ogni analisi richiesta, se è attivo il comando Compare groups/Confronta gruppi sarà condotta da SPSS separatamente per ciascun gruppo definito dalle modalità della variabile filtro ( nel. Ns. esempio “sesso”), e riportato in un’unica tabella per agevolare il confronto Split file: la matrice dati NB: SPSS segnala se il filtro è attivo, ma non specifica quale è il criterio di selezione 57 INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi [email protected] Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 Esercitazione 4 Giovedì 6 giugno, 14.30 -16. 30 (Aula 2) Argomenti Analisi bivariata: le tabelle a doppia entrata relazioni tra variabili rappresentazioni grafiche Base dati per esercitazione : Scelte postdiploma Lomb2005.sav Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia Testi di riferimento: P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII) 58 Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili 59 Analisi bivariata Analisi statistica delle relazioni fra variabili Relazioni statistiche, cioè di tipo probabilistico Covariazione non implica causazione L’interpretazione in senso causale della relazione statistica è del ricercatore che ( sulla base della teoria, delle connessioni logiche e temporali tra variabili)… …opera una distinzione tra variabili indipendenti e dipendenti Tecniche di analisi bivariata Le tecniche di analisi vanno scelte in funzione del tipo di variabili dipendente e indipendente VARIABILE INDIPENDENTE nominale VARIABILE nominale Tavole di contingenza cardinale Analisi della varianza cardinale DIPENDENTE Regressione e Correlazione 60 Tavole di contingenza Direzione delle percentuali: Si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna (variabile indipendente) ha sulla variabile di riga (variabile dipendente) Si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga (variabile indipendente) ha sulla variabile di colonna (variabile dipendente) Un esempio di domanda di ricerca Esiste una relazione tra tipo di scuola superiore frequentata e interesse per l’ iscrizione ad un corso di laurea dopo il diploma?Il tipo di scuola frequentata influenza le scelte post-diploma degli/lle studenti/studentesse? ( relazione da esplorare) Gli studenti/le studentesse che provengono dal liceo hanno maggiori probabilità di essere interessati alla carriera universitaria rispetto a chi proviene da un istituto tecnico o professionale? (ipotesi da falsificare/verificare) VARIABILE INDIPENDENTE Tipo di scuola frequentata VARIABILE DIPENDENTE domanda d1 del questionario (“ Cosa pensi che farai dopo l’esame di stato?”) 61 Tavole di contingenza/Menu SPSS Analyze Descriptive Statistics Crosstabs Tavole di contingenza Selezionare la variabile dipendente Selezionare la o le variabili indipendente (SPSS produrrà una Crosstabs per ciascuna variabile indipendente) Selezionare se si desidera che SPSS produca una rappresentazione grafica della relazione (n.b= vengono visualizzati i conteggi e non le %) NB: Le variabili indipendenti possono essere collocate indifferentemente in riga o in colonna (purchè la direzione delle percentuali sia coerente con la scelta di analisi fatta). In genere, comunque, è preferibile per agevolare la lettura della tabella collocare la variabile indipendente in colonna 62 Celle/Statistiche CELLE Indicare la direzione percentuale scelta (nel. Ns. caso “Per colonna” perché abbiamo collocato la variabile indipendente in colonna. NB= Nel riquadro Statistiche selezionare la misura associazione desiderata coerente con il tipo di variabili Tavole di contingenza/La sintassi CROSSTABS /TABLES=d1 BY scuola_3 CLASFAM /FORMAT= AVALUE TABLES /STATISTIC=CHISQ /CELLS= COUNT COLUMN /COUNT ROUND CELL /BARCHART . Variabile dipendente sex Direzione percentuale ( in qs. Caso % di colonna) Una o più variabili Indipendenti 63 L’output Tabelle a doppia entrata Tabella riepilogativa degli incroci richiesti (var. dip * var. indip) con info su casi validi ( cioè casi per i quali è disponibile l’informazione su entrambe le variabili) Riepilogo dei casi N Idea su cosa fare dopo sms? * Tipo scuola in 3 classi Validi Percentuale 1094 98,1% N Casi Mancanti Percentuale 21 N 1,9% Totale Percentuale 1115 100,0% Tavola di contingenza Idea su cosa fare dopo sms? * Tipo scuola in 3 classi Idea su cosa fare dopo sms? Cercherò lavoro Laurea + lavoro Laurea Corso fp post sms Non so Totale Conteggio % entro Tipo scuola in 3 classi Conteggio % entro Tipo scuola in 3 classi Conteggio % entro Tipo scuola in 3 classi Conteggio % entro Tipo scuola in 3 classi Conteggio % entro Tipo scuola in 3 classi Conteggio % entro Tipo scuola in 3 classi Tipo scuola in 3 classi Istituto Istituto Professionale Tecnico 110 143 Liceo 13 Tabella a doppia entrata: Totale 266 3,3% 53,7% 28,6% 118 36 110 24,3% 264 30,3% 17,6% 22,0% 24,1% 220 15 93 328 56,6% 7,3% 18,6% 30,0% 7 4 16 27 1,8% 2,0% 3,2% 2,5% 31 40 138 209 8,0% 19,5% 27,6% 19,1% 389 205 500 1094 100,0% 100,0% 100,0% 100,0% -Percentuale colonna (base=100) di - marginali di riga ( per var. dipendente) -Esempio di commento: la probabilità di appartenere al gruppo degli indecisi è legata al tipo di scuola; in particolare la probabilità è maggiore per chi proviene dai tecnici rispetto agli altri tipi di scuola (27,6% vs. 8,0% dei liceali e 19,1% dei tecnici) 64 Il Chi-quadrato Chi-quadrato Chi-quadrato di Pearson Rapporto di verosimiglianza Associazione lineare-lineare N. di casi validi 8 Sig. asint. (2 vie) ,000 378,889 8 ,000 ,026 1 ,871 Valore 352,071a df Il test di indipendenza Chi-quadrato consente di determinare se esiste una relazione tra due variabili categoriali ( nel. Ns. esempio tra tipo di scuola superiore e scelta post-diploma) 1094 a. 0 celle (,0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo è 5,06. Il test di indipendenza ipotizza che le variabili non sono collegate, ovvero che le proporzioni di colonna sono uguali nelle colonne e che qualsiasi discrepanza osservata è dovuta a una variazione anomala. La statistica Chi-quadrato misura la discrepanza globale tra i conteggi di cella osservati e i conteggi attesi se le proporzioni di colonna sono uguali nelle colonne. Una statistica Chi-quadrato più ampia indica una discrepanza maggiore tra i conteggi di cella osservati e attesi, ovvero indica con maggiore chiarezza che le proporzioni di colonna non sono uguali, che l'ipotesi di indipendenza non è corretta e che le variabili Tipo scuola e Scelta post diploma sono collegate. Il valore calcolato per la statistica Chi-quadrato è 352,071. Per stabilire se l'evidenza ottenuta è sufficiente per scartare l'ipotesi di indipendenza, viene calcolato il livello di significatività della statistica. Il livello di significatività è la probabilità che un componente casuale ottenuto da una distribuzione chi-quadrato con 8 gradi di libertà sia maggiore di 352,071. Poiché il valore è inferiore al livello alfa specificato (0.05 o 0.01), è possibile rifiutare l'ipotesi di indipendenza al livello 0,05. Le variabili sono in effetti collegate. Rappresentazioni grafiche/Menu Grafici Finestre Legacy A barre 65 Grafici a barre/Istruzioni Selezionare % di casi (il grafico rappresenterà %) o N casi (il grafico sarà costruito sui conteggi). Se si vogliono fare confronti tra gruppi, selezionare %) E’ possibile rappresentare statistiche ( ad es. valori medi di un indice) Selezionare la variabile DIPENDENTE (asse delle categorie) e la variabile INDIPENDENTE (raggruppamenti) Grafico a barre/Output 66 Confronta medie/Analisi della varianza •La procedura Medie consente di calcolare le medie dei sottogruppi e le statistiche univariate correlate per le variabili dipendenti all'interno delle categorie di una o più variabili indipendenti. È inoltre possibile ottenere analisi univariate della varianza (ANOVA), eta e test di linearità. •Procedura da usare quando la variabile dipendente è cardinale e l’indipendente è nominale •Esempio:Maschi e femmine differiscono rispetto alla predisposizione (percepita) per le materie scientifiche? Note: La procedura ANOVA univariata produce un'analisi della varianza univariata per una variabile dipendente cardinale in base a una singola variabile indipendente (nominale). L'analisi della varianza consente di verificare l'ipotesi di uguaglianza di più medie. Oltre a determinare le differenze tra le medie, è possibile individuare la media che differisce dalle altre. Esistono due tipi di test per il confronto tra le medie: contrasti a priori e test post hoc ( tecniche escluse dagli argomenti delle esercitazioni SPSS) Compare means/Menu 67 Medie: definire le variabili 1. Selezionare la variabile dipendente e una o più più variabili indipendenti ( le medie verranno calcolate distintamente per ciascuna variabile indipendente) . E’ possibile introdurre un secondo livello di stratificazione per suddividere ulteriormente il campione (ad.es. per genere e tipo scuola congiuntamente). 2. Opzioni: Selezionare le statistiche di interesse relative a ciascun gruppo definito dalla variabile indipendnete e la Tabella ANOVA Compare Means/Output 68 Medie e Tabella ANOVA Report Predisposizione materie: scientifiche Sesso intervistato Maschio Femmina Totale Media 5,69 5,19 5,46 N 600 498 1098 Deviazione std. 2,290 2,396 2,351 La tabella REPORT riporta la media della variabile dipendente per ciascun gruppo definito dalla variabile indipendente. Nell’esempio: la predisposizione media per le materie scientifiche è più bassa tra le donne ( 5,19 vs. 5.69 per gli uomini) La differenza tra medie è dovuta al caso? La tabella ANOVA consente di rispondere a questa domanda. Sulla base del TEST F e del livello di significatività ( inferiore a valore critico di alpha: 0,05), possiamo affermare che vi è una relazione statisticamente significativa tra genere e predisposizione percepita per le materie scientifiche. Tabella ANOVA Predisposizione materie: scientifiche * Sesso intervistato Fra gruppi Entro gruppi Totale (Combinati) Somma dei quadrati 69,284 5993,830 6063,115 df 1 1096 1097 Media dei quadrati 69,284 5,469 F 12,669 Sig. ,000 Analisi bivariata: alcune regole pratiche (inchiesta campionaria) E’ opportuno: Non calcolare percentuali su basi inferiori a 50 casi Commentare solo differenze di almeno 5 punti percentuali Nel commento ai dati, soffermarsi di volta in volta su una modalità significativa della variabile dipendente e vedere se e come varia al variare della variabile indipendente Presentare tabelle parsimoniose ( ad.es valori assoluti solo per le basi; indicare solo le percentuali utili per l’analisi; presentare in forma compatta eventuali batterie) ma complete (riportare sempre le basi in valori assoluti; intestare con accuratezza le tabelle, indicare chiaramente le modalità delle variabili, se possibile far riferimento al questionario) Dare al lettore indicazioni circa il metodo usato per rilevare i dati (tipo di campione, domande del questionario) 69 INTRODUZIONE ALL’ANALISI STATISTICA DEI DATI con SPSS 15.0 Simona Guglielmi [email protected] Esercitazioni del Corso di Metodologia delle Scienze sociali (A-L, SPO) a.a 2008/09 Esercitazione 5 Giovedì 12 giugno, 14.30 -16. 30 (Aula 2) Argomenti Introduzione di una terza variabile le tabelle a tripla entrata Relazioni spurie, dirette e condizionate Base dati per esercitazione : Scelte postdiploma Lomb2005.sav Questionario autocompilato somministrato ad un campione rappresentativo a livello regionale di 1100 studenti iscritti al quarto o quinto anno di una scuola superiore in Lombardia Testi di riferimento: P. Corbetta, La ricerca sociale: metodologia e tecniche. IV. L’analisi dei dati, il Mulino, Bologna, 2003 (capitoli I, II e III) oppure P. Corbetta, Metodologia e tecniche della ricerca sociale, il Mulino, Bologna, 1999 ( cap VIII, XII, XIII) 70 Un esempio di ricerca empirica Indagine campionaria realizzata dall’Istituto IARD Franco Brambilla per conto della regione Lombardia nell’ambito dei finanziamenti FSE Ob. 3 Multimisura Azione di sistema Metodo di rilevazione: questionario autocompilato in classe Universo di riferimento: studenti di scuola superiore di secondo grado in Lombardia ( quarto e quinto anno) Campione: rappresentativo dell’universo di riferimento a livello regionale, stratificato per tipo di scuola e provincia ( campionamento multistadio a grappolo) Consistenza numerica del campione: 1.100 casi Periodo della rilevazione: Dicembre-Gennaio 2006 Il questionario Questionario Scelte post-diploma Lomb2005.doc L’immagine della ricerca scientifica Atteggiamenti verso le materie tecnico scientifiche Scelte formative e professionali Orientamento : fonti, bisogni e aspettative 24 domande 113 variabili 71 Introdurre una terza variabile L’introduzione di una terza variabile consente di controllare/depurare la relazione individuata tra X e Y Controllo: si rianalizza la relazione tra X e Y in subcampioni nei quali Z sia costante (variabili nominali) Depurazione: note le covariazioni tra x,y,z si calcola il coefficiente di correlazione tra x,y in assenza di z. (variabili cardinali) Tipi di relazione x,y,z Relazione spuria: la relazione tra x e y è dovuta ad una terza variabile z che agisce causalmente sia su x che su y. Il nesso causale tra x e y non esiste Si individua tenendo sotto controllo (cioè costante) la variabile z Relazione indiretta: La relazione tra x e y è dovuta al fatto che x agisce su z, z agisce su y (z è variabile interveniente). Il nesso causale tra x e y esiste, ma è indiretto Relazione condizionata: La relazione tra x e y esiste, ma varia in base al valore assunto da una terza variabile z 72 Un esempio empirico/Relazione condizionata Dall’analisi bivariata tra tipo di scuola frequentata (variabile indipendente X) e probabilità di iscrizione ad un corso di laurea del gruppo psicologico (variabile dipendente Y) risulta una relazione statisticamente significativa: chi proviene dal liceo ha maggiori probabilità rispetto a chi proviene dall’istituto tecnico di iscriversi ad un corso di laurea di tipo psicologico (35,1% vs 18,4%). Tavola di contingenza Gruppo psicologico ? * Tipo scuola in 2 classi Gruppo psicologico ? non probabile probabile Totale Conteggio % entro Tipo scuola in 2 classi Conteggio % entro Tipo scuola in 2 classi Conteggio % entro Tipo scuola in 2 classi Tipo scuola in 2 classi Istituto Professionale Liceo o Tecnico 250 284 Totale 534 64,9% 81,6% 135 64 72,9% 199 35,1% 18,4% 27,1% 385 348 733 100,0% 100,0% 100,0% Un esempio empirico/Relazione condizionata Se controlliamo per genere (Z), la relazione tra tipo di scuola (X) e probabilità di iscrizione ad un corso di laurea del gruppo psicologico (Y) esiste ancora? Tavola di contingenza Gruppo psicologico ? * Tipo scuola in 2 classi * Sesso intervistato Sesso intervistato Maschio Gruppo psicologico ? non probabile probabile Totale Femmina Gruppo psicologico ? non probabile probabile Totale Conteggio % entro Tipo scuola in 2 classi Conteggio % entro Tipo scuola in 2 classi Conteggio % entro Tipo scuola in 2 classi Conteggio % entro Tipo scuola in 2 classi Conteggio % entro Tipo scuola in 2 classi Conteggio % entro Tipo scuola in 2 classi Tipo scuola in 2 classi Istituto Professionale Liceo o Tecnico 113 200 Totale 313 78,5% 92,6% 31 16 86,9% 47 21,5% 7,4% 13,1% 144 216 360 100,0% 100,0% 100,0% 135 82 217 56,7% 63,1% 59,0% 103 48 151 43,3% 36,9% 41,0% 238 130 368 100,0% 100,0% 100,0% 73 X,Y,Z: un esempio di relazione condizionata La relazione resta confermata nel caso dei maschi ( i maschi del liceo hanno maggiori probabilità di iscriversi ad un corso di laurea psicologico rispetto ai maschi di un tecnico), ma non nel sub campione delle femmine (per le donne la probabilità di iscriversi ad un corso di laurea psicologico non è influenzato dal tipo Chi-quadrato di scuola). Sesso intervistato Maschio Femmina Chi-quadrato di Pearson Correzione di continuitàa Rapporto di verosimiglianza Test esatto di Fisher Associazione lineare-lineare N. di casi validi Chi-quadrato di Pearson Correzione di continuitàa Rapporto di verosimiglianza Test esatto di Fisher Associazione lineare-lineare N. di casi validi 1 1 Sig. asint. (2 vie) ,000 ,000 14,878 1 ,000 15,134 1 ,000 360 1,403c 1,153 1 1 ,236 ,283 1,411 1 ,235 1,399 1 ,237 Valore 15,176b 13,958 df Sig. esatta (2 vie) Sig. esatta (1 via) ,000 ,000 ,268 ,141 368 a. Calcolato solo per una tabella 2x2 b. 0 celle (,0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo è 18,80. c. 0 celle (,0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo è 53,34. Un esempio empirico/Relazione indiretta Dall’analisi bivariata tra genere (variabile indipendente) e scelta post diploma (variabile dipendente) risulta che gli uomini esprimono con maggior frequenza rispetto alle donne il desiderio di andare a lavorare (30,1% vs. 18,7%). La relazione tiene se controlliamo per tipo di scuola? Tavola di contingenza scelta post diploma a 3 * Sesso intervistato scelta post diploma a 3 lavoro corso di laurea con o senza lavoro indecisi Totale Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Sesso intervistato Maschio Femmina 174 90 30,1% 18,7% Totale 264 24,9% 277 311 588 47,8% 64,7% 55,5% 128 80 208 22,1% 16,6% 19,6% 579 481 1060 100,0% 100,0% 100,0% 74 Un esempio empirico/Relazione indiretta Tavola di contingenza scelta post diploma a 3 * Sesso intervistato * Tipo scuola in 2 classi Tipo scuola in 2 classi Liceo scelta post diploma a 3 lavoro corso di laurea con o senza lavoro indecisi Totale Istituto Professionale o Tecnico scelta post diploma a 3 lavoro corso di laurea con o senza lavoro indecisi Totale Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Conteggio % entro Sesso intervistato Sesso intervistato Maschio Femmina 3 10 Totale 13 2,1% 4,2% 123 212 3,4% 335 87,2% 89,1% 88,4% 15 16 31 10,6% 6,7% 8,2% 141 238 379 100,0% 100,0% 100,0% 171 80 251 39,0% 33,1% 36,9% 154 98 252 35,2% 40,5% 37,1% 113 64 177 25,8% 26,4% 26,0% 438 242 680 100,0% 100,0% 100,0% Un esempio empirico/Relazione indiretta Con l’introduzione della variabile di controllo (tipo scuola), la relazione tra genere e scelte post-diploma sparisce. La relazione tra X e Y è indiretta: la variabile genere X influenza il tipo scuola Z (le donne si iscrivono più ai licei che agli istituti tecnici); il tipo di scuola Z influenza la variabile scelta post-diploma Y(chi proviene dagli istituti tecnici tende a non proseguire gli studi) Z è variabile interveniente 75 Analisi a 3 variabili con SPSS/Menu Introdurre la variabile di controllo 1. Selezionare sulle righe la variabile dipendente Y di interesse (nel ns. esempio: probabilità di iscrizione a facoltà del gruppo psicologico) 2. Selezionare sulle colonne la variabile indipendente X di interesse (nel ns. esempio: tipo di scuola frequentata) 3. Selezionare la variabile Z di controllo (nel ns. esempio: sesso) Nb: Come per l’analisi bivariata, indicare la direzione percentuale relativa alla variabile indipendente (nel. Ns. esempio di colonna) nella finestra CELLE 76 Analisi a 3 variabili con SPSS/Sintassi CROSSTABS /TABLES=d7f2 BY scuola_2 BY sex /FORMAT= AVALUE TABLES /STATISTIC=CHISQ /CELLS= COUNT COLUMN /COUNT ROUND CELL . Variabile dipendente Variabile indipendente Variabile di controllo 77