Dispense del corso di Metodologia delle Scienze Sociali 3

DISPENSE DEL CORSO DI METODOLOGIA DELLE SCIENZE SOCIALI 3
A.A. 2007/2008
PROF.SSA MARIA GRAZIA FISCHER
(Proprietà letteraria riservata)
1. L’ANALISI QUANTITATIVA DEI DATI
1.1 Perché quantificare
Nella ricerca sociale uno degli strumenti più utili è la quantificazione. Con questo termine si vuole definire il
ricorso sistematico ai numeri per descrivere, mettere in relazione e spiegare i fenomeni osservati. Si potrebbe
obiettare che la descrizione può essere fatta anche con il semplice uso delle parole e che la relazione tra due o
più fenomeni può essere individuata sulla base della semplice logica, ma è difficile negare come la quantific azione consenta al ricercatore, oltre ad altri vantaggi, un grado di precisione notevolmente elevato. Affermare
genericamente che, in Italia, gli studenti con maturità liceale raggiungono più facilmente la laurea dei compagni con altro tipo di diploma è, indubbiamente, meno rigoroso che partire dalla valutazione che, dei liceali, si
laurea il 54%, degli studenti con tipo di diploma tecnico il 27% e con diploma professionale il 21%.
Il ricercatore è in grado di rendere conto dei comportamenti umani senza quantificare? Se si vuole essere
precisi e obiettivi la risposta non può che essere negativa: non si può fare scienza, umana o no, senza utilizzare
delle cifre. Se mi limito a dire: “Carlo è alto” da un punto di vista scientifico la mia affermazione non ha nessun valore, può trattarsi di un bambino di prima elementare che è alto rispetto ai compagni della sua età. Dire
che “fa freddo” non ha nessun significato sul piano scientifico, se ci sono 18 gradi a Luglio si può dire che fa
freddo: queste affermazioni dipendono dalla situazione e dal punto di vista di chi le fa, si tratta, in altre parole,
di enunciati soggettivi. Per renderli oggettivi bisogna usare delle cifre, delle misure: la quantificazione consente una maggiore precisione. È certamente più preciso misurare la percentuale di abbandoni che si verifica nell’Università italiana che affermare semplicemente che “in Italia gli abbandoni a livello universitario sono
elevati”. Inoltre, poiché la quantificazione comporta l’operativizzazione dei concetti (nel senso che essi debbono essere definiti e resi misurabili) essa permette di valutare, in modo obiettivo, i fenomeni esaminati: ad esempio la riuscita negli studi può essere misurata usando la percentuale di diplomi o la media nelle votazioni
ottenute.
La quantificazione consente, inoltre, di fare delle comparazioni: il solo modo di verificare se Tizio è più anziano di Caio è di confrontare le rispettive età; se vogliamo confrontare la riuscita di A e B all’esame di Lingua Inglese, dobbiamo confrontare le loro rispettive votazioni: la quantificazione consente la comparazione
dei dati.
Poiché il ricercatore sociale deve accontentarsi, nella maggior parte dei casi, di studiare e analizzare dei
campioni, solo la quantificazione gli consente, per mezzo delle varie procedure statistiche, di generalizzare i
risultati ottenuti su campioni, anche piccoli, a tutta la popolazione di partenza.
La quantificazione permette di individuare delle tendenze generali: con l’uso di misure, più o meno semplici,
permette cioè di individuare le caratteristiche principali di un fenomeno, in modo che, anche partendo dallo
studio di un grande numero di avvenimenti individuali, sia possibile ridurre la massa di dati di base e rendere
più facilmente comprensibili le informazioni raccolte.
La quantificazione permette, inoltre, la verifica sistematica delle ipotesi di ricerca, in modo che i risultati ottenuti siano attendibili e non opinabili come quelli basati solo sulle opinioni o le semplici intuizioni.
Con questo non si vuole asserire che la quantificazione elimini i rischi d’errore nell’interpretazione dei risultati, per quanto precisi essi possano essere; inoltre il metodo impiegato può comportare uno o più errori, diffic ili da rilevare unicamente in base a calcoli statistici.
Facciamo alcuni esempi: anni fa una rivista italiana riportando uno dei tanti “studi” americani, affermava
che le persone che soffrono di miopia sono più intelligenti delle altre. Ovviamente, quello che si sarebbe dovuto scrivere è che chi legge molto e quindi ottiene buoni risultati nei Test di intelligenza, soffre molto più facilmente degli altri di problemi alla vista che generalmente portano alla miopia.
Per quanto riguarda i possibili errori dovuti al metodo basta considerare gli ormai infiniti articoli allarmistici
che riportano “scoperte” di alimenti naturali, da sempre ritenuti innocui e che all’improvviso si dimostrano altamente cancerogeni: cavie, sottomesse a dosi fortissime di un certo alimento, sviluppano dei tumori. Non c’è
tuttavia bisogno di essere grandi scienziati per capire che nessun organismo normale sarebbe mai in grado di
assorbire dosi così massicce come quelle che vengono normalmente usate in questi tipi di esperimenti, di qualunque sostanza si tratti.
Dobbiamo ricordare, quindi, che la quantificazione è una garanzia di precisione e di oggettività ma non va
usata per giustificare qualunque tipo di conclusione: va considerata una condizione necessaria ma non sufficiente
La descrizione numerica di un qualunque fenomeno sociale consente, oltre alla semplice numerazione di
quante volte questo fenomeno si verifica (frequenza), di determinare, con l’aiuto di semplici operazioni matematiche, quale sia la sua importanza relativa all'interno del gruppo sociale a cui si riferisce: in tal modo, per fare un esempio, il numero di studenti che lasciano l’Università può essere trasformato in tasso di abbandono,
ottenendo così un indicatore dell’importanza che questo particolare fenomeno riveste nella società italiana.
1.2. La matrice dei dati
Il disegno della ricerca implica l’individuazione e l’uso di strumenti di rilevazione delle informazioni sulla realtà socia le atte a convalidare, o invalidare, l’ipotesi di partenza fatta dal ricercatore; questi strumenti di rilevazione, che la metodologia sociale ha da tempo messo a disposizione dei ricercatori sono non solo numerosi ma
estremamente vari: tuttavia, qualunque metodo si voglia utilizzare, è indispensabile che i dati raccolti vengano
organizzati in una forma che consenta di analizzarli in modo semplice e corretto. Per ottenere questo tipo di
organizzazione è indispensabile quella che viene definita matrice dei dati: nell’uso corrente essa è costituita
da una griglia rettangolare in cui vengono registrati i dati raccolti. Generalmente le righe della matrice rappresentano i casi, le unità di analisi, mentre le colonne rappresentano le variabili: in ogni cella della griglia vengono
riportati i valori che ‘ogni’ determinato caso assume rispetto ad ‘ogni’ variabile considerata.
Fig. 1. Esempio di matrice di dati
1
2
3
4
5
6
7
8
9
10
2
1
1
2
2
2
1
1
1
2
72
73
73
72
74
72
74
73
73
74
3
1
2
0
3
3
2
1
1
1
24
26
26
27
28
22
28
30
30
26
2
2
3
3
3
2
2
1
1
1
5
4
4
4
5
3
4
5
4
4
Quando si affronta la fase della ricerca che consiste nel passaggio dai dati raccolti, ad esempio tramite
questionario, ad una matrice di dati, per poter procedere all’analisi delle informazioni ottenute, ci si accinge a
creare quello che viene definito il “file” di dati. La traduzione dall’inglese del termine file suggerisce la parola
archivio ed in effetti un file consiste in un insieme di componenti dello stesso tipo, quindi una serie di dati verrà
definito come “file di dati”.
L’analisi e l’interpretazione dei dati raccolti costituiscono la fase cruciale dell’intero processo di ricerca:
l’organizzazione delle informazioni in una matrice è il primo passo che consentirà di iniziarne un esame approfondito.
L’informatica mette ormai a disposizione dei ricercatori numerosi package statistici specifici per le scienze
sociali: uno dei più usati è l’SPSS, acronimo di Statistical Package for the Social Sciences. Questo “pacchetto” di programmi statistici consente di esaminare i dati applicando con facilità tutte le tecniche di analisi specifiche per le scienze sociali, dalle più semplici alle più sofisticate. Quando si entra nel programma la “finestra”
2
che si presenta al ricercatore è quella relativa all’editor dei dati: una matrice in cui le righe corrispondono ai
casi (le unità di analisi) e le colonne rappresentano le variabili.
L’intera finestra (cfr. fig.2) è formata da numerosi componenti: in testa troviamo la barra con il nome del
programma e l’informazione relativa al nome del file di dati su cui si intende la vorare. Nel caso dell’esempio,
la scritta Senza titolo indica che non è stato ancora memorizzato un file di dati e quindi il tabellone è vuoto, in
attesa, appunto, di nuovi dati.
Alla destra della barra del titolo si trovano tre pulsanti: il primo riduce ad icona il programma, il secondo
consente, invece, di allargare il più possibile lo spazio della finestra: puntando il mouse su questi pulsanti e
premendo il tasto di sinistra è possibile, per l’utente, modificare l’ampiezza della finestra in cui sta lavorando.
Il terzo pulsante consente di chiudere il programma ed uscire da SPSS.
Segue la barra relativa ai menu che possono essere aperti e che ha le seguenti voci di menu:
FILE MODIFICA VISUALIZZA DATI TRASFORMA ANALIZZA GRAFICI STRUMENTI
FINESTRA ed, infine, ? 1. Posizionandosi su di esse e premendo il tasto di sinistra del mouse, si apre il menu prescelto e si fanno comparire tutti i sottomenu implementati dal programma:
Fig. 2. Finestra dell’Editor dei dati in SPSS Windows
La finestra dell’Editor dei dati SPSS presenta la possibilità di due tipi di visualizzazione: la visualizzazione dei
dati, che vediamo nell’immagine precedente e la Visualizzazione variabili. I due pulsanti che riportano appunto
VISUALIZZAZIONE DATI e VISUALIZZAZIONE VARIABILI consentono di passare da un tipo di finestra all’altra
con un semplice clic sinistro del mouse. Mentre nella prima finestra vengono visualizzati i dati registrati, la seconda consente, tramite menu, di definire (o visualizzare se già definite) le variabili dando loro un nome, stabilendo se si tratta di una variabile numerica, stringa o di altro tipo, la sua lunghezza,, i decimali, un’etichetta della variabile, un’etichetta delle modalità delle variabili, eventuali valori mancanti, la rghezza della colonna, livello
di misurazione (cfr.Fig.3)
1 . Che sostituisce l’HELP delle precedenti versioni e permettere di accedere alla Guida in linea
3
Fig.3
Torniamo alla barra di menu: ad esempio premendo il tasto di sinistra del mouse alla voce ANALIZZA
della barra di menu, provochiamo la comparsa di un sotto-menu, a tendina, che ci permette di scegliere il tipo
di statistica a cui sottoporre i nostri dati. Per scegliere una delle voci occorre posizionare il cursore del mouse
sulla voce stessa e premere il tasto sinistro: compiendo questa operazione entriamo in una finestra di dialogo
che ci guiderà nella richiesta di elaborazione.
Al fondo della finestra di SPSS troviamo la barra di stato: su di essa viene costantemente segnalato lo stato
del programma. L’utente viene informato se il programma sta lavorando o se è in attesa di comandi, viene
mostrato il numero di casi che si stanno elaborando e, per le procedure statistiche che lo richiedono, il numero
di iterazioni. Sempre su questa barra viene segnalata l’eventuale presenza di un filtro dei dati (nel caso il ricercatore abbia richiesto al programma di compiere le elaborazioni richieste solo se si verificano determinate
condizioni, sulla barra compare la scritta Filtro attivo). Sempre su questa barra viene anche segnalato se i
dati in esame sono stati ponderati (in questo caso comparirà la scritta Peso attivo); infine, il messaggio Distingui attivo comparirà ad indicare che i casi in esame sono stati suddivisi, per l’analisi, in gruppi separati
basati sui valori di una o più variabili.
Nella finestra di Editor dei dati, che potremmo definire ‘foglio di lavoro’, è possibile incominciare a registrare i dati della propria ricerca: come si vede dalla figura, infatti, l’utente si trova automaticamente posizionato sulla prima cella in alto a sinistra della finestra dei dati, che risulta evidenziata da una linea di contorno più scura. Si può incominciare a digitare il primo valore, della prima variabile, del primo caso, valore che
comparirà nella barra che si trova al di sotto delle voci di menu. Premendo il tasto di invio, il dato registrato
viene memorizzato nella cella evidenziata mentre il cursore del programma si sposta nella cella successiva (in
verticale): si passa quindi a registrare il valore del secondo caso relativo alla prima varia bile, si preme invio, si
passa al terzo caso e si procede così fino alla registrazione di tutti i valori di tutti i casi per quanto riguarda la
prima variabile. Prima dell’inizio della registrazione dei dati, in testa ad ogni colonna relativa alle variabili, si
può vedere l’indicazione [ var ], appena leggibile perché non ancora attiva. Appena il processo di introduzione
dei dati ha inizio, invece, in testa alla colonna che si sta riempiendo, compare, nitido, il nome della variabile.
Questo nome, attribuito in modo standard dal programma, è VAR00001, ma naturalmente l’utente potrà, in un
4
momento successivo, variarlo a suo piacere. Sulla cornice della finestra dei dati, a sinistra, compare, inoltre,
accanto ad ogni casella, un numero: è il numero del caso che si sta registrando. Registrati tutti i valori della
prima variabile si può passare a registrare i valori della seconda variabile. Vi sono più modi per tornare in testa alla tabella dei dati: usando il mouse si può muovere il pulsante che si trova sulla barra verticale sulla destra della finestra; puntandovi il cursore del mouse lo si può trascinare fino all’inizio della tabella. Oppure, usando la tastiera, si possono premere contemporaneamente i tasti [Ctrl] e [ã]. Tornati all’altezza del primo
caso, ci si posiziona sulla seconda colonna, che corrisponde alla seconda variabile e si procede a memorizzarne tutti i valori e così via per tutte le variabili della ricerca in esame. Più pratico è però il metodo di
memorizzazione dei dati “caso per caso” invece che “variabile per variabile”. Ci si posiziona, come per il metodo precedente, sulla prima casella e si registra il primo valore della prima variabile del primo caso ma, invece di premere invio, si usa il tasto di tabulazione [ à| ] o la freccia a destra [à ] per procedere orizzontalmente invece che verticalmente. Una volta premuta la freccia, il valore registrato compare nella casella
e l’utente si trova posizionato sulla casella successiva che è la prima della seconda colonna: qui potrà registrare il valore della seconda variabile relativo al primo caso; premendo di nuovo la freccia ci si sposterà poi
sulla terza colonna, dove verrà memorizzato il valore della terza variabile del primo caso... e così via fino alla
registrazione completa dei valori di tutte le variabili per il primo caso. Si passerà quindi al secondo caso premendo il tasto [Invio] dopo l’ultimo dato del primo caso, oppure ci si servirà delle frecce o, ancora, si userà il
mouse, per posizionarsi sulla seconda casella in alto a sinistra, relativa al valore, della prima variabile, del secondo caso. Si procederà a memorizzare tutto il secondo caso e ci si posizionerà sulla terza casella in alto a
sinistra per registrare il valore della prima variabile del terzo caso e così via per tutti i casi della ricerca.
1.3. Editor dei dati e spostamenti all’interno del foglio di lavoro
Se occorre fare qualche correzione nei dati è sufficiente posizionare il cursore nella casella che li contiene,
digitare la correzione e premere [↵] (il tasto Invio). L’utente può copiare e/o muovere le celle che contengono i dati: per farlo è sufficiente posizionarsi su una delle caselle su cui si vuole operare, premere il tasto sinistro del mouse e trascinare il puntatore fino a selezionare tutte le celle. Scegliere Modifica dalla barra di menu e, se si vogliono copiare le celle (ad esempio per riprodurre dati uguali) fare clic su Copia, se invece si vogliono muovere le celle da un posto ad un altro fare clic su Taglia. Fatto questo, muovere il cursore nel punto
in cui si vuole copiare o spostare le celle, fare clic per selezionarle, scegliere dalla barra di menu il comando
Modifica e poi fare clic su Incolla.
Possono anche essere inserite nuove righe di dati: basta sele zionare una cella sulla riga sotto quella dove si
vuole inserire la nuova riga, scegliere dalla barra di menu Modifica ed Inserisci Caso. Per inserire una colonna occorre invece selezionare la cella a destra della posizione in cui deve avvenire l’inserimento e, successivamente, scegliere dal menu Modifica ed Inserisci Variabile .
Per cancellare colonne o righe è sufficiente selezionarle facendo clic sul nome della variabile (per le colonne) o sul numero di riga e scegliere Modifica e Taglia, oppure premere il tasto [Canc].
Per muoversi rapidamente nel tabellone dei dati si possono usare i tasti [ë] per posizionarsi immediatamente sulla prima casella della riga e il tasto [Fine] per raggiungere l’ultima casella della riga; il tasto [Ctrl]
premuto insieme al tasto [á] permette di andare sulla prima riga di una colonna e [Ctrl] premuto insieme al
tasto [â] sull’ultima riga di una colonna.
I tasti [Pagá] e [Pagâ] fanno scorrere la finestra verso l’alto o verso il basso mentre gli stessi tasti premuti contemporaneamente al tasto [Ctrl] permettono lo scorrimento a destra o a sinistra.
Sempre dal menu Modifica, scegliendo Trova è possibile digitare un valore che si desidera trovare (ad
esempio un dato sbagliato) sulla colonna su cui si è posizionati e selezionarlo immediatamente.
1. 4. Definizione delle variabili
5
Quando il ricercatore ha terminato di memorizzare la matrice di dati può passare a definire meglio le variabili: abbiamo visto che il programma assegna ad ogni variabile registrata un nome standard che consiste nelle
lettere VAR seguite da un numero di 5 cifre (es. VAR00001). La definizione delle variabili si effettua selezionando VISUALIZZAZIONE VARIABILI ed inserendo nelle varie colonne le definizioni desiderate.
In questa finestra il nome standard della variabile viene riproposto, evidenziato, nella casella contraddistinta
dalla dicitura Nome. L’utente a questo punto può cambiare il nome della variabile scegliendo quello che preferisce e che maggiormente chiarifica il contenuto della variabile stessa, seguendo però alcune regole fondamentali: i nomi non devono superare (nella versione 14) i 64 caratteri alfa numerici, il primo carattere deve
sempre essere alfabetico, non possono contenere spazi bianchi né terminare con il punto, non possono contenere caratteri speciali (! ? ’ *), possono essere usati una sola volta, cioè non è possibile attribuire lo stesso
nome a due variabili diverse2 . È altamente consigliabile usare un numero di caratteri il più possibile ridotto sia
per compatibilità con versioni precedenti, sia per comodità di riscrittura del nome nel caso si usi la sintassi invece del menu.
La colonna che porta la scritta Etichetta ci consente di abbinare delle etichette 3 alla variabile: queste etichette possono avere sino a 255 caratteri. Nel caso si tratti di una variabile qualitativa, alle sue modalità possono essere attribuite le etichette facendo clic sulla colonna Valori all’altezza della variabile da etichettare; si
apre così una nuova finestra di dialogo che porta, nella barra di testa, la dicitura Etichette dei valori. Qui si
può digitare il valore (in realtà un codice) e sotto un’etichetta che specifichi il significato del codice stesso.
Ad esempio per la variabile SESSO valore 1 maschio, valore 2 femmina. Mentre si attribuiscono le etichet-
Questo pulsante deve essere sempre ‘cliccato’ se si vuole che l’etichettatura sia registrata (nel riquadro centrale della finestra).
te si accende per ogni codice etichettato il pulsante
Fig. 4 – Attribuzione di etichette alle modalità
2. Se si attribuisce il nome TITSTUD alla variabile che indica il titolo di studio dell’intervistato, per indicare la variabile relativa al
titolo di studio del coniuge bisognerà usare un altro, diverso, nome.
3. Le etichette sono sequenze di caratteri associate ai nomi delle variabili o ai loro valori; il loro compito è di rendere chiaro il significato di un nome o di un codice
6
Tornati nel menu principale vediamo il pulsante che porta la scritta Mancante. Nelle ricerche a mezzo
questionario capita spesso che alcune registrazioni manchino: questo avviene soprattutto per le domande di
opinione a cui gli intervistati omettono di rispondere; è quindi importante poter segnalare al programma determinati valori come mancanti, in modo da evitare che un numero eccessivo di risposte non date deformi o invalidi i calcoli che si vogliono effettuare. Con SPSS è possibile ovviare a simili inconvenienti facendo clic su questa colonna nel riquadro relativo alla variabile cui si vuole attribuire uno o più valori mancanti : si apre così una
nuova finestra di dialogo in cui si possono definire sino a tre valori mancanti discreti, o, definire come tali un
intervalli di valori ed un valore discreto.
Fig 5
Il pulsante Colonna consente di intervenire sulla larghezza delle colonne in cui vengono visualizzati i dati,
nella finestra relativa alla matrice dei dati (cioè la finestra di Editor dei dati). La larghezza standard della colonna è determinata dalla larghezza della variabile così come è stata definita (8 al momento dell’immissione od
un altro valore se la variabile è stata ridefinita con il comando Tipo).
La colonna Allinea permette dii decidere se si vuole che i dati siano allineati a sinistra, a destra (lo standard) oppure centrati. Infine la colonna Misura consente di definire, per ogni variabile il suo livello di misurazione: nominale, ordinale o scala.
1.5. Come salvare il file di dati
Una volta che i dati siano stati registrati e le variabili comple tamente definite è bene procedere subito al
salvataggio del file per non rischiare di perdere il lavoro fatto. Per salvare il file occorre posizionarsi sulla barra di menu scegliendo
File ⇒ Salva con nome
Fig.6
7
Si apre così la finestra di dialogo Salva come che consente di dare un nome al proprio file e di memorizzarlo nella cartella scelta. Il salvataggio standard consente di creare un file SPSS Windows che può essere
registrato o su disco rigido o su dischetto; l’estensione dei file SPSS windows è sempre .SAV, in quanto il
programma ricerca automaticamente solo i files con questa estensione. Il ricercatore può, volendo, salvare il
proprio file anche in altro formato (Dbase, Lotus, Excel, Portable ecc). Per farlo l’utente dovrà posizionarsi
sulla lista di formati (elencati nella parte inferiore della finestra nel riquadro accanto alla dicitura Salva come)
e selezionare quello prescelto. Scegliendo, infine, il pulsante Salva si manderà in esecuzione il comando.
Questo tipo di salvataggio dovrà essere eseguito la prima volta che si registra il file. Per salvataggi successivi sarà sufficiente selezionare
File ⇒ Salva
Oppure sarà fare clic sul pulsante
eventuali cambiamenti e/o aggiunte ai dati verranno così registrati nello stesso file, con lo stesso nome.
Solo se si desidera creare un nuovo file, lasciando immutato il primo, si dovrà ricorrere nuovamente a File/Salva con nome e si digiterà un nuovo, diverso, nome di file.
1.7. Richiamare un file SPSS Windows
Per richiamare un file salvato in formato SPSS windows sarà sufficiente selezionare
File ⇒ Apri ⇒ Dati
Si entrerà così nella finestra di dialogo Apri File :
Fig. 7– Finestra di apertura files
8
cliccando su Dati si aprirà una nuova finestra in cui si potrà scegliere, specificando il disco e la cartella, il file
che si vuole richiamare. Facendo clic due volte sul nome del file prescelto, oppure selezionando il pulsante
Apri, i dati verranno richiamati e si aprirà la finestra di lavoro in cui compariranno i dati e le variabili .
1.8. L’ambiente Syntax
Chi usa da molti anni il package SPSS ha spesso avuto a che fare con il cosiddetto “file di comandi”: si
tratta di un file in cui viene registrato un certo numero di comandi SPSS che dicono al programma quali dati
deve usare, come deve leggerli, definirli, analizzarli. Quello che adesso il ricercatore fa aprendo le varie finestre di dialogo dei menu, nelle versioni DOS doveva essere indicato al programma scrivendo dei precisi comandi. In realtà questi comandi vengono tuttora impartiti ad SPSS, ma l’ambie nte windows ha fatto sì che essi
siano completamente “trasparenti” per l’utente. Se si vuole vedere a quali comandi corrispondono le varie azioni che si compiono nelle finestre di dialogo è sufficiente fare clic sul pulsante Incolla. Questa azione ha
l’effetto di immettere i comandi (che il ricercatore ha costruito intervenendo nella finestra di dialogo) in una
nuova finestra, che si chiama Sintax1 (nome standard che può essere cambiato) e costituisce l’Editor della
sintassi SPSS:
Fig. 8. Finestra di Sintassi
9
In questa finestra il ricercatore può agire come se stesse usando un qualunque editor: può scrivere, cancellare, correggere, copiare ecc. I comandi registrati in questa finestra vengono mandati in esecuzione, dopo essere stati selezionati (col mouse o con il tasto Shift [é] unitamente alle frecce) facendo clic sul pulsante
í
oppure scegliendo sulla barra dei menu la voce Esegui
Abbiamo visto come, per mezzo di Incolla, si possa entrare nella finestra di sintassi: l’utente però può,
quando vuole, creare una nuova finestra di sintassi sele zionando:
File ⇒ Nuovo ⇒ Sintassi
Si entrerà così in una finestra di sintassi, vuota, in cui il ricercatore potrà registrare tutta una serie di comandi da mandare in esecuzione. Il contenuto di una finestra di sintassi può essere modificato, a piacere, con
l’editor del programma.
I contenuti di queste finestre, cioè i file sintassi, possono essere salvati su disco e richiamati in qualunque
momento. Quando si desidera salvare questi file occorre attribuire loro un nome di non più di 8 caratteri alfanumerici, seguito dall’estensione .SPS
Per richiamare un file di sintassi è sufficiente scegliere
File ⇒ Apri ⇒ Sintassi
Lavorando si potrà comprendere meglio l’utilità di questi file in cui si possono registrare comandi, anche
lunghi e noiosi, che possono venir richiamati, per essere nuovamente eseguiti, in qualunque momento.
All’utente già esperto, o che abbia comunque già acquisito una certa conoscenza dei comandi SPSS sarà sufficiente, infatti, richiamare file Sintassi già creati, modificarli e mandarli in esecuzione, riducendo così, in modo
notevole, i tempi di lavoro.
Se si è scritta una riga di comandi, ed il cursore è posizionato su tale riga, ma non si è sicuri della sintassi,
facendo clic sul pulsante
che si trova sulla barra degli strumenti, nella parte superiore della finestra di sintassi, si può avere immediatamente in linea la guida SPSS per la costruzione dei comandi.
10
1.9. La Sintassi SPSS
La sintassi SPSS implica l’uso di alcune “parole chiave”, parole che hanno un valore particolare e che non
possono essere usate come nomi di variabili o di file; esse sono: THRU - BY - TO e servono, generalmente, a legare fra loro nomi di variabili (TO e BY) o valori (THRU).
In SPSS vengono usati anche i cosiddetti “delimitatori”: essi rappresentano la punteggiatura del linguaggio
SPSS e si dividono in delimitatori comuni (lo spazio e la virgola) e speciali (virgolette o apici, parentesi, il segno
di uguale (=), lo slash (/) che serve, ad esempio nell’etichettatura di variabili e modalità, ad indicare che il comando prosegue ed il punto (.), terminatore di comando che deve essere sempre inserito alla fine di ogni comando.
IL COMANDO RECODE
Nel corso di una ricerca una delle operazioni più correnti consiste nel ricodificare le variabili: infatti nella
prima fase di un'indagine capita facilmente di avere, per certe variabili, un grande numero di modalità. Un esempio può essere l'età degli intervistati di una inchiesta: una prima codifica di questa variabile, consistente
nell'annotare semplicemente l'età di ogni individuo, dà luogo ad una distribuzione di frequenza con pochi casi
per ogni valore e quindi poco significativa. È quindi importante poter procedere ad una ricodifica delle modalità raggruppandole, ad esempio, in classi di età. In SPSS le operazioni di ricodifica possono essere realizzate
per mezzo dell'istruzione RECODE, il cui campo di specificazione contiene il nome della variabile da ricodificare e, tra parentesi, la lista dei vecchi valori della variabile che si vogliono raggruppare, separati da virgole o
da spazi, il segno di uguale e il nuovo valore. Quando il nuovo valore comprende tutti i vecchi valori osservati,
compresi tra due valori-limite, la scrittura può essere modificata con l'aiuto della parola chiave THRU: ad esempio si può scrivere 18 THRU 23=1 e questa forma abbreviata equivale a 18,19,20,21,22,23=1.
Quando il nuovo valore corrisponde a tutti i vecchi valori inferiori o uguali ad un valore limite, la scrittura
può essere semplificata per mezzo della parola LOWEST. Per esempio la ricodifica di tutti gli individui di età
inferiore o uguale a 23 anni può essere scritta:
RECODE VAR (LOWEST THRU 23=1).
LOWEST può essere abbreviato in LO.
Quando invece il nuovo valore corrisponde a tutti i vecchi valori superiori o uguali ad un valore-limite, la
scrittura può essere semplificata per mezzo della parola HIGHEST. Per esempio la codifica di tutti gli individui di età uguale o superiore a 50 anni può essere scritta:
RECODE (50 THRU HIGHEST=4).
HIGHEST suo essere abbreviato in HI
Quando il ricercatore desidera creare una categoria residua, può utilizzare la parola chiave ELSE che ria ssume tutti i vecchi valori della variabile che non sono ancora stati specificati. La parentesi comprendente la
parola ELSE deve apparire alla fine del campo di specificazione. Quando si deve operare la stessa ricodifica
su più variabili è possibile rimpiazzarne i nomi con lista delle variabili stesse:
RECODE ETAMA ETAPA (60 THRU 68=1) (ELSE=0).
RECODE PROVA1 TO PROVA5 (LO THRU 10=1) (11 THRU HI=2).
Per la ricodifica delle variabili possono essere usate numerose parole chiave oltre a quelle già menzionate;
ad esempio MISSING e SYSMIS: la prima si riferisce alla ricodifica dei valori mancanti in input mentre
SYSMIS si riferisce ai valori mancanti di sistema, validi cioè sia in input che in output.
Esempio:
RECODE ETA (MISSING=9).
in questo caso i valori mancanti assegnati dal ricercatore alla variabile ETA (età dell'intervistato) vengono
ricodificati nel valore 9.
Per non perdere i dati originali è indispensabile ricodificare sempre la variabile originale in una
nuova variabile:
11
RECODE V10 (1,2=1) (3=2)(4=4) INTO STUDPA.
IL COMANDO COMPUTE
Partendo da una o più variabili originali ed effettuando dei calcoli, è possibile creare delle nuove variabili.
Se, per esempio, il ricercatore ha registrato i risultati delle 5 prove di un test, può creare una nuova variabile
che rappresenti la media ottenuta nelle 5 prove, cioè la somma delle votazioni ottenute divisa per cinque. Questa operazione può essere realizzata per mezzo dell'istruzione COMPUTE che comprende, nel suo campo di
specificazione, il nome della variabile calcolata, seguita dal segno di uguale e dall'espressione algebrica che
definisce il calcolo. Le operazioni aritmetiche sono rappresentate dai simboli:
+
*
/
**
addizione
sottrazione
moltiplicazione
divisione
elevazione a potenza
I1 calcolo della media delle prove nel test può, ad esempio, essere scritta:
COMPUTE MEDIAVOTI = ((PROVA1+PROVA2+PROVA3+PROVA4+PROVA5)/5).
Le parentesi vanno utilizzate secondo le regole abituali del calc olo algebrico.
L'espressione algebrica più semplice che possa comportare l'istruzione COMPUTE è quella di uguaglia nza:
COM PUTE NEWVAR=OLDVAR
Si può creare così, ad esempio una variabile identica ad un'altra già esistente in modo da poter procedere
ad eventuali ricodifiche senza dover riscrivere tutti i valori originali. Oppure è possibile creare una nuova variabile (ad esempio un indice) data dalla somma (o da un qualunque tipo di calcolo matematico) su variabili originali.
Esempio:
COMPUTE INDICESOC_CULT = PROFPA+STUDPA+STUDMA.
Con questo comando si crea una nuova variabile, l’Indice di estrazione socio culturale dei soggetti, data
dalla somma delle variabili professione del padre, titolo di studio del padre e titolo di studio della madre.
IL COMANDO IF
È possibile creare una nuova variabile, o un indice, partendo dalla combinazione di più variabili qualitative: questa operazione può essere realizzata per mezzo del comando IF. Questo è uno dei comandi più
potenti del programma e permette anche di realizzare tutte le trasformazioni effettuate per mezzo di
COMPUTE e RECODE. L'istruzione IF è composta da un'espressione logica: se la relazione indicata
nell’espressione logica si verifica, allora il calcolo indicato nella seconda parte dell'istruzione viene effettuato. Nell'ipotesi contraria, il calcolo non è realizzato. L'istruzione IF si presenta dunque come un'istruzione
COMPUTE condizionale. Mentre usando il COMPUTE il calcolo viene effettuato per tutti gli individui, nel
caso dell' IF il calcolo risulta valido solo per gli individui per i quali l'espressione logica risulta vera.
Un'espressione logica può essere semplice o complessa: un'espressione logica complessa è formata da più
espressioni logiche semplici. Un'espressione logica in SPSS si presenta come una relazione fra due quantità:
nell'ipotesi più elementare la comparazione riferisce il valore preso da una variabile ad una costante numerica,
i diversi tipi di relazione sono codificati per mezzo di sei operatori relazionali:
EQ (Equal to)
=
uguale a
NE (Not equal to )
~=
non uguale a
LT (Less than)
<
minore di
GT (Greather Than)
>
maggiore di
LE (Less than or equal to)
<=
minore o uguale
12
GE (Greather Than or equal to) >=
maggiore o uguale
(Possono essere usate sia le abbreviazioni che i simboli)
Così l'espressione logica “media generale superiore a 36” si scrive:
MEDGEN GT 36
I sei operatori possono essere classificati in tre coppie di antinomie
EQ e NE
LT e GE
GT e LE
Per ogni coppia quando uno è vero l'altro e falso, quando uno è falso l'altro e vero. Ad ogni coppia di antinomie può essere applic ata la regola: delle due cose l'una.
Gli operatori LT e GT sono dei contrari: quando uno è vero l'altro è falso, ma quando uno è falso l'altro non
è necessariamente vero, perché possono essere falsi entrambi quando le due quantità considerate sono uguali.
La stessa proprietà è osservabile per le coppie LT ed EQ; gli operatori LT, GT ed EQ costituiscono una triade
di contrari a cui si può applicare la regola: delle tre cose l'una. Gli operatori NE e GE sono dei subcontrari:
quando uno è falso l'altro è vero, ma quando uno è vero l'altro non è necessariamente falso perché essi possono essere veri entrambi quando la prima quantità considerata è più grande della seconda. La stessa proprietà è osservabile per le coppie NE e LE, LE e GE; gli operatori NE, LE, GE costituiscono una triade di sub continui a cui si può applicare la regola: di tre cose due. Vediamo di spiegare meglio con qualche esempio:
immaginiamo uno studio demografico sull'età dei coniugi al momento del matrimonio: per ogni coppia è registrata l'età del marito (variabile ETAMARI) e quella della moglie (variabile ETASPOSA).
I1 ricercatore può voler costruire una variabile rela tiva alla differenza di età (DIFFETA), che prenda valore 1 quando l'età del marito è inferiore a quella della moglie, 2 quando è uguale e 3 quando è superiore. In
questo caso si scriveranno tre istruzioni IF:
IF (ETAMARI LT ETASPOSA) DIFFETA=1.
IF (ETAMARI EQ ETASPOSA) DIFFETA=2.
IF (ETAMARI GT ETASPOSA) DIFFETA=3.
Si vede in questo esempio che l'espressione algebrica che segue l'espressione logica si può ridurre all'attribuzione di una costante; la stessa operazione può essere scritta:
IF (ETAMARI - ETASPOSA LT 0) DIFFETA=1.
IF (ETAMARI - ETASPOSA EQ 0) DIFFETA=2.
IF (ETAMARI - ETASPOSA GT 0) DIFFETA=3.
Si vede da questo secondo esempio che i termini da comparare fra loro possono essere costituiti da una
espressione algebrica
(ETAMARI - ETASPOSA) e da una costante ( 0 ).
Una espressione logica complessa è costituita dalla riunione di più espressioni logiche semplici per mezzo
degli operatori logici AND e OR. And ha lo stesso significato di "e" nel linguaggio corrente e l'espressione
logica complessa, formata dalla congiunzione di due espressioni logiche per mezzo di questo operatore, è vera
quando le due espressioni sono vere. Ad esempio:
(ETAMARI GE 18 AND ETASPOSA GE 18)
è vera solo nell'ipotesi in cui sia il marito che la moglie abbiano un'età superiore o uguale a 18 anni: l'espressione, quindi, ci permette di isolare le coppie in cui gli sposi sono maggiorenni.
13
L'operatore logico OR non ha lo stesso significato di "o" nel linguaggio corrente: si tratta infatti di un "o"
logico che si può tradurre con e/o. In effetti l'espressione logica complessa formata dalla congiunzione di due
espressioni logiche per mezzo dell'operatore OR è vera quando sia l'una, sia l'altra, sia entrambe le proposizioni risultino vere. Per esempio:
ETAMARI GE 18 OR ETASPOSA GE 18
è vera in tre casi:
- il marito è maggiorenne, la moglie minorenne
- il marito è minorenne, la moglie maggiorenne
- i due coniugi sono maggiorenni
L'espressione è falsa solo nel caso in cui entrambi siano minorenni.
Supponiamo che il ricercatore voglia costruire 4 varia bili:
SPMIN: (sposi minorenni) che valga 1 quando i coniugi sono minorenni e 0 negli altri casi
SPMAGG: (sposi maggiorenni) vale 1 se i due coniugi sono maggiorenni e 0 negli altri casi
SPMAGMIN: vale 1 se il marito è maggiorenne e la sposa minorenne, 0 negli altri casi
SPMINMAG: vale 1 se il marito è minorenne e la sposa maggiorenne, 0 negli altri casi.
Si costruisce inizialmente l'istruzione IF che determina le coppie per le quali SPMIN vale 1 (coppie di minorenni):
IF (ETAMARI LT 18 AND ETASPOSA LT 18) SPMIN=1.
che in linguaggio corrente significa: se il marito è minorenne e la moglie è minorenne, allora la variabile
SPMIN (che viene creata in questo momento) varrà 1.
Esaminiamo ora le coppie per le quali la variabile SPMIN varrà 0: sarà sufficiente che uno dei coniugi sia
maggiorenne perché SPMIN sia uguale a 0:
IF (ETAMARI GE 18 OR ETASPOSA GE 18) SPMIN=0.
Nello stesso modo si può procedere per creare la variabile SPMAGG (coppie di maggiorenni):
IF (ETAMARI GE 18 AND ETASPOSA GE 18) SPMAGG=1.
IF (ETAMARI LT 18 OR ETASPOSA LT 18) SPMAGG=0.
La variabile SPMAGMIN (coppie con marito maggiorenne e moglie minorenne) verrà costruita con le istruzioni:
IF (ETAMARI GE 18 AND ETASPOSA LT 18) SPMAGMIN=1.
IF (ETAMARI LT 18 OR ETASPOSA GE 18) SPMAGMIN=0.
Infine la variabile SPMINMAG (coppie con la sposa maggiorenne ed il marito minorenne verrà creata con:
IF (ETAMARI LT 18 AND ETASPOSA GE 18) SPMINMAG=1 .
IF (ETAMARI GE 18 OR ETASPOSA LT 18) SPMINMAG=0.
In SPSS è previsto anche un operatore supplementare NOT che permette di costruire la negazione di una
espressione logica; questo operatore non è indispensabile: si può sempre, con l’aiuto dei 6 operatori relazionali
e dei due operatori logici, costruire la negazione di una espressione logica. Se riprendiamo le istruzioni che
consentono di creare la variabile SPMIN vediamo come può essere usato l'operatore NOT; è sufficiente scrivere:
IF (NOT(ETAMARI LT 18 AND ETASPOSA LT 18)) SPMIN=0
Come si vede l'istruzione IF non è molto semplice da usare ed è assai facile commettere errori di logica.
Per cercare di evitarli si può procedere a numerose traduzioni tra il linguaggio comune e la scrittura logica; ad
esempio: analisi del problema, scrittura dell'espressione logica, ‘ritraduzione’ dell'espressione in linguaggio comune. È anche utile costruire la negazione dell'espressione scritta senza utilizzare l'operatore NOT. Spesso la
difficoltà di costruire l'espressione negativa o l'assurdità della formula ottenuta rivelano un errore nella scrittura dell'espressione positiva.
Quando l'espressione positiva è difficile da scrivere, può essere utile cominciare con il costruire l'espressione negativa e poi dedurne quella positiva. Infine, se il ricercatore ha una certa padronanza dell'algebra di
Boole, è bene scrivere l'espressione in formula simbolica prima di tradurla nella sintassi SPSS.
14
COMANDI DI SINTASSI PER L’OTTENIMENTO DELLE VARIE PROCEDURE STATIS TICHE
FREQUENZE (distribuzioni di frequenza)
FREQUENCIES VARIABLES=varlist .
Oltre a varie opzioni si possono richiedere numerose statistiche (prima del punto e dopo lo slash (/)
/STATISTICS= MEAN STDDEV MINIMUM MAXIMUM
RANGE MODE KURTOSIS MEDIAN SUM
Esempio
FREQUENCIES VAR=V02 TO V20/STATISTICS=mean.
Oppure, più semplicemente:
FREQ V02 TO V20/STAT=MEAN.
CROSSTABS (Tavole di contingenza)
CROSSTABS TABLES=varlist BY varlist [BY...] [/varlist.
CELLS= COUNT ROW COLUMN/STATISTICS= CHISQ.
ESEMPIO:
CROSSTABS TABLES=V02 BY TIPODIP
/CELLS=COUNT ROW/STATISTICS=CHISQ.
DESCRIPTIVES (DESCRITTIVE)
DESCRIPTIVES [VARIABLES=] varname … varname
[/SAVE]
[/STATISTICS=[DEFAULT**] [MEAN**] [MIN**] [SKEWNESS]]
[STDDEV** ] [SEMEAN] [MAX**] [KURTOSIS]
[VARIANCE ] [SUM ] [RANGE] [ALL]
Esempio:
DESCRIPTIVES VARIABLES=ALIMENTI REDDITO, CARNE TO VERDURA,
TIPODIETA/STATISTICS=VARIANCE DEFAULT
/MISSING=LISTWISE.
DESCR ETA REDDITO V12 TO V16.
MEANS (COMPARAZIONE DI MEDIE)
MEANS [TABLES=]{varlist} BY varlist [BY...] [/varlist...]
[/STATISTICS=[ANOVA] [{LINEARITY}] [NONE**]]
Example:
MEANS TABLES=ETA TO ETAISCR BY SESSO
/STAT(ISTICS)=ANOVA.
CORRELAZIONE
CORRELATIONS
/VARIABLES=etadip orelav v22.
15
REGRESSIONE LINEARE
REGRESSION /VARIABLES={varlist }]
/DEPENDENT=varlist
[/METHOD= ENTER (STEPWISE
ESEMPIO:
REGRESSION VARIABLES=POP15,POP75,REDDITO,CRIMINAL
/DEPENDENT=CRIMINAL
/METHOD=ENTER.
Oppure, più semplicemente:
REGRESSION
/DEPENDENT tfreq
/METHOD=ENTER etascpol v16 v47 .
REGRESSIONE LOGISTICA
LOGISTIC REGRESSION VAR=freq2
/METHOD=ENTER sex soccult2 tipodip2 lav2
/CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .
ANALISI DEI GRUPPI (CLUSTER ANALYSIS)
(PER STANDARDIZZARE I DATI:
DESCR LIBRICA NLIBRILE PIALEGG ESTRCULT/SAVE)
CLUSTER ZLIBRICA ZNLIBRIL ZPIALEGG ZESTRCUL/
METHODE=WARD/PLOT=NONE/PRINT=NONE/
SAVE=CLUSTERS (1,4).
ANALISI FATTORIALE ESPLORATIVA
FACTOR
/VARIABLES SODD1 TO SODD4 ROUTINE1 TO ROUTINE4
/MISSING LISTWISE /ANALYSIS SODD1 SODD2 SODD3 SODD4 ROUTINE1 ROUTINE2 ROUTINE3
ROUTINE4
/PRINT INITIAL KMO EXTRACTION ROTATION
/FORMAT SORT
/CRITERIA MINEIGEN(1) ITERATE(25)
/EXTRACTION PC
/CRITERIA ITERATE(25)
/ROTATION VARIMAX
/SAVE REG(ALL)
/METHOD=CORRELATION .
16
La “pulizia dei dati”
Quando il file di dati è stato creato è indispensabile procedere alla correzione degli eventuali errori che
possono essersi verificati durante la raccolta o la registrazione delle informazioni. Pertanto il primo passo che
il ricercatore deve compiere consiste nel richiedere al programma il calcolo delle frequenze di tutte le variabili
introdotte nel file: solo esaminando attentamente tali variabili ci si può rendere conto se vi sono modalità non
previste (ad esempio un codice 5 o 6 nella variabile “Titolo di studio” se essa prevede solo quattro codici: 1=
elementari, 2= scuola dell’obbligo, 3=diploma, 4= laurea). Nel caso si riscontrino valori estranei a quelli prestabiliti è necessario risalire al mezzo di raccolta delle informazioni, si tratti di questionari o d’altro: l’errore
può essere avvenuto durante la registrazione su computer ed in tal caso sarà facile correggere l’inesattezza
sostituendo il valore effettivo a quello sbagliato, oppure può trattarsi si un errore verificatosi durante la raccolta delle informazioni. In questo secondo caso la possibilità di correzione diventa minima perché difficilmente si
potrà risalire all’intervistato per porre nuovamente la domanda: spesso si è costretti ad aggiungere i casi che
presentano valori errati o incongruenti alle mancate informazioni, incrementando così i cosiddetti “missing values”, i valori con cui si codificano le risposte non date o scorrette, che vanno considerati perduti e, quindi, eliminati dal file.
Di norma, prima di procedere all’analisi dei dati vera e propria, il ricercatore valuta, per ogni variabile, la
percentuale di risposte ottenute ed i cosiddetti outliers, termine con cui si definiscono i valori di una variabile
talmente estremi da risultare del tutto incoerenti rispetto alla serie complessiva dei dati: il problema degli outliers consiste nella loro capacità di distorcere, anche gravemente, l’interpretazione dei dati. Si prenda ad esempio una ricerca degli anni ’80 sull’uso del tempo libero degli abitanti della città di Torino: alla domanda relativa al numero di libri letti nell’ultimo anno cinque individui (su oltre 500) indicavano valori altissimi (oltre 90
libri letti). Questi casi estremi alzavano a 8 il numero medio di libri letti in un anno dai torinesi intervistati, mentre il valore della mediana (misura meno sensibile agli outliers) risultava essere 5. Ignorando la presenza di
questi valori estremi ed usando la media, si sarebbe, quindi, corso il rischio di sopravvalutare la capacità di le ttura del campione in esame. Nel caso si riscontri la presenza di outliers, dunque il ricercatore deve ricalcolare
la media escludendo i valori giudic ati incongruenti nel complesso della distribuzione esaminata oppure usare, al
posto della media, troppo sensibile ai valori estremi, la mediana.
L’organizzazione delle informazioni in una matrice è, dunque, il primo passo che consentirà di iniziarne un
esame approfondito e di procedere, secondo passo, alla pulizia dei dati.
Alla creazione del file fa seguito la fase che viene definita: “pulizia” dei dati; il ricercatore deve identificare
i possibili errori commessi durante la registrazione delle informazioni. A questo scopo è bene richiedere, per
prima cosa, le frequenze di tutte le variabili introdotte nel file di dati. L’SPSS risponde a questa richiesta fornendo un listato con tutti i valori delle variabili di cui sia stata richiesta la frequenza, le frequenze assolute e
relative di ciascuno di questi valori, i casi in cui la risposta non è stata data (missing data).
2. L’analisi monovariata
L’analisi e l’interpretazione dei dati raccolti costituiscono la fase cruciale dell’intero processo di ricerca:
partendo dalla matrice dei dati il ricercatore deve, innanzi tutto, prendere in esame singolarmente tutte le
variabili del suo file (ripulite da errori, missing values ed eventuali outliers).
Questa prima fase, che può essere definita “esplorativa”, è fondamentale in quanto anche se nel disegno
della ricerca vengono generalmente già previste le analisi che dovranno essere attuate con le informazioni
raccolte, la loro effettiva realizzazione dipende dalla quantità e qualità dei dati ottenuti e quindi da una iniziale accurata disamina delle variabili considerate singolarmente. Per fare ciò è necessario procedere alla
classificazione delle tecniche di analisi a seconda del tipo di variabili trattate, differenziandole a seconda che
si tratti di variabili nominali, ordinali (categoriali) o misurabili a livello di scale a intervalli o di rapporti (cardinali).
17
2.1. Le distribuzioni di frequenza
La forma più semplice per esaminare la matrice di dati consiste nel “contare” il numero di persone che
sceglie ognuna delle possibili risposte (modalità) di una domanda (variabile). Il risultato di questa semplicissima
operazione viene definito “distribuzione di frequenza”. Se si considera, ad esempio, la variabile “Tipo di diploma” la distribuzione di frequenza sarà la seguente:
Tab. 1 – Esempio di distribuzione di frequenza (output Spss Windows)
V15 TIPO DI DIPLOMA
Validi
1 MAT.CLASSICA
2 MAT.SCIENTIFICA
3 DIPL.MAGISTR.
4 LICEO LINGUIST.
5 MAT.ARTISTICA
6 RAGIONIERE
7 GEOMETRA
8 PERITO
9 ALTRO DIPLOMA
Totale
Frequenza
74
242
34
56
12
176
30
162
28
814
Percentuale
9.1
29.7
4.2
6.9
1.5
21.6
3.7
19.9
3.4
100.0
Percentuale
valida
9.1
29.7
4.2
6.9
1.5
21.6
3.7
19.9
3.4
100.0
Percentuale
cumulata
9.1
38.8
43.0
49.9
51.4
73.0
76.7
96.6
100.0
Questo esempio riproduce l’output4 fornito dal programma Spss, che dà, oltre alla distribuzione di frequenza, le percentuali, le cosiddette “percentuali valide” (cioè depurate dalle eventuali risposte mancanti e da
quelle che si desiderano togliere dal calcolo) e le percentuali cumulative.
Le frequenze assolute hanno una valenza meramente descrittiva del campione e non consentono alcun tipo
di confronto tra campioni diversi. È quindi necessario calcolare anche le cosiddette frequenze relative, cioè il
rapporto fra le frequenze assolute ed il totale dei casi. Di norma, tuttavia, non ci si limita al calcolo di questo
semplice rapporto ma si preferisce trasformarlo in percentuali, moltiplicandolo per cento. In pratica si preferisce rapportare le frequenze assolute non alla popola zione totale effettiva ma a 100. L’utilizzo delle percentuali
è fondamentale in quanto permette la comparazione di distribuzioni relative a campioni con un differente numero totale di osservazioni.
Il ricercatore sociale si trova a dover analizzare variabili di tipo diverso: si va, infatti, da quelle di tipo qualitativo (o categoriali) a quelle quantitative (o cardinali). Poiché l’analisi dei dati consiste appunto nel tentativo di
misurare le differenze fra le diverse modalità delle variabili di una indagine, è indispensabile usare, a seconda
del tipo di variabile, scale diverse di misurazione 5. La distinzione fra tipi di scale è fondamentale perché consente di determinare il tipo di analisi statistica appropriata: per le variabili di tipo nominale sono indicati solo alcuni tests non-parametrici, quelle ordinali consentono l’impiego dei tests non-parametrici, mentre le variabili
misurabili con scale a intervalli o di rapporti consentono l’uso di tests parametrici.
Le statistiche relative all’analisi monovariata vengono generalmente suddivise in tre gruppi:
− misure di tendenza centrale
− misure di dispersione
− misure relative alla forma della distribuzione
4 Con il termine output si indica il risultato di tutte le elaborazioni che vengono richieste.
5 Per quanto riguarda la classificazione e le scale (o livelli) di misura delle variabili si rimanda al relativo capitolo.
18
2.2.1. Le misure di tendenza centrale
Il ricercatore, al di là della conoscenza dei dettagli di ogni modalità o valore (forniti dalla distribuzione di
frequenza), deve poter individuare, per ogni variabile, degli indici che consentano di sintetizzare la distribuzione
stessa e, quindi, riassumano l’insieme delle informazioni fornite, permettendo così di concentrare, in un unico
valore, l’informazione fornita da una serie di dati. Moda, mediana e media sono le tre misure di tendenza centrale che consentono, appunto, di individuare i valori caratteristici che si trovano al centro di una distribuzione
di frequenza 6.
La moda
La moda è la misura di tendenza centrale più semplice da valutare in quanto è costituita dal valore o dalla
modalità con frequenza più elevata: se, ad esempio, richiediamo la distribuzione di frequenza della variabile relativa al tipo di diploma degli intervistati di un campione, come nell’esempio (cfr. Tab. 1) ci viene fornita una
tabella con una distribuzione in cui la moda è costituita dalla modalità 2 (che ha come frequenza assoluta
242).
Talvolta una distribuzione può avere due o più valori modali e, in tal caso, si parla di distribuzione bimodale
o multimodale: l’esistenza di più di una moda, tuttavia, complica l’interpretazione della distribuzione. A tale inconveniente si aggiunge il fatto che nel calcolo di questa misura non intervengono tutti i valori della distribuzione: il vantaggio di questo indice consiste nel poter essere calcolato per qualunque tipo di variabile in quanto il
livello di misurazione minimo richiesto è quello nominale.
La mediana
La mediana è la misura di tendenza centrale che divide la distribuzione in due parti uguali: questo parametro separa una serie statistica ordinata in due gruppi che comprendono ognuno, approssimativamente, il 50%
dei dati. Il fatto che la mediana si situi a metà della distribuzione consente di conoscere i valori maggiormente
rappresentativi del campione. Poiché la mediana indica la posizione centrale può essere calcolata soltanto per
variabili misurabili almeno a livello di scala ordinale.
Se si considera una distribuzione semplice7 per calcolare la mediana occorre, dopo averla ordinata, verificare se il numero delle osservazioni è dispari o pari. Nel primo caso il ricercatore non ha bisogno di effettuare
nessun calcolo in quanto la mediana sarà costituita dal valore al di sotto e al di sopra del quale viene a trovarsi
il 50% dei dati. Consideriamo, ad esempio, il numero di impiegati che lavorano in 7 diversi reparti amministrativi universitari:
4 6 7 9 11 13 15
la mediana di questa distribuzione è data dal valore 9, in quanto vi sono 3 casi prima di esso, ed altri 3 se ne
contano dopo.
Se il numero di osservazioni della distribuzione è pari, la mediana corrisponde alla media aritmetica delle
due osservazioni centrali:
4 6 7 9 11 13 15 18
Nell’esempio la mediana si situerà fra 9 e 11 e sarà data da:
6 Di qui la definizione di misure di tendenza centrale.
7 . Per distribuzione semplice si intende quel tipo di distribuzione in cui viene considerato un solo valore per ogni modali-
tà. Nelle distribuzioni di frequenza, al contrario, per ogni modalità viene considerata la frequenza, cioè più valori.
19
(9+11)/2 =10 impiegati
Il calcolo della mediana risulta un poco meno semplice se deve essere effettuato su di una distribuzione di
frequenza o su dati raggruppati in classi. Nell’esempio della distribuzione di frequenza relativa all’età, per calcolare la mediana occorre applicare la seguente formula:
Mdn = li + [(0,5n-Σfb)/fw] × i
dove li è il limite inferiore dell’intervallo di classe in cui è situata la mediana; 0,5n è la metà della frequenza
totale; fb è la frequenza cumula ta più alta al di sotto dell’intervallo che comprende la mediana; fw è la frequenza entro l’intervallo in cui si trova la mediana; i è l’ampiezza della classe.
Si consideri ad esempio, la distribuzione di frequenza dell’età delle matricole di Scienze Politiche di Alessandria in una ricerca del 1988 (cfr. Tab. 2.1). Per quanto riguarda la distribuzione dell’esempio si procede
dividendo il campione per 2 (102/2=51) e si trova che la 51ma osservazione è quella che divide la distribuzione
in due parti uguali. Per determinare il valore di li controlliamo le frequenze cumulative e vediamo che la cinquantunesima osservazione corrisponde alle frequenze del valore 20, per cui il limite di classe inferiore è 19,5.
La somma delle frequenze al di sotto dell’intervallo che contiene la mediana equivale a 40, la frequenza
dell’intervallo che contiene la mediana è 22; poiché, infine, i dati non sono raggruppati la i della formula, cioè
l’intervallo di classe sarà 1. Avremo quindi:
Mdn = 19,5 + ((51-40)/22)x 1 Mdn = 20
Tab. 2.1. - Distribuzione di frequenza dell’età degli intervistati8
ETA
Età degli intervistati
Value Label
Value
Frequency
Percent
Valid
Percent
Cum
Percent
18.00
19.00
20.00
21.00
22.00
23.00
24.00
25.00
26.00
27.00
28.00
29.00
30.00
31.00
32.00
33.00
34.00
36.00
44.00
47.00
1
39
22
9
7
1
1
4
2
2
1
2
1
2
1
1
2
2
1
1
------102
1.0
37.9
21.4
8.7
6.8
1.0
1.0
3.9
1.9
1.9
1.0
1.9
1.0
1.9
1.0
1.0
1.9
1.9
1.0
1.0
------100.0
1.0
38.2
21.6
8.8
6.9
1.0
1.0
3.9
2.0
2.0
1.0
2.0
1.0
2.0
1.0
1.0
2.0
2.0
1.0
1.0
------100.0
1.0
39.2
60.8
69.6
76.5
77.5
78.4
82.4
84.3
86.3
87.3
89.2
90.2
92.2
93.1
94.1
96.1
98.0
99.0
100.0
Total
Può accadere che, per meglio descrivere una distribuzione, si voglia indicarne un punto in termini di percentuali di valori che cadono al di sotto di quel punto: per indicare il valore al di sotto del quale si trova una determinata percentuale di valori individuali si usa il termine percentile. Poiché, come si è appena detto, la me8 Viene qui riportata la distribuzione di frequenza di una variabile cardinale al solo scopo di rendere più agevole la com-
prensione del procedimento di calcolo della mediana.
20
diana divide la distribuzione in due parti uguali, costituisce cioè il valore al di sopra e al di sotto del quale si trova il 50% dei valori individuali, essa viene anche definita come cinquantesimo percentile (P50).
I percentili che vengono usati più frequentemente sono il 25°, il 50° ed il 75°. Il valore del 25° percentile è
detto anche 1° quartile (Q1), poiché un quarto dei valori si trova al di sotto di esso. Il secondo quartile (Q2) è
la mediana, mentre il terzo quartile (Q3) corrisponde al 75° percentile, in quanto il 75% dei valori viene a trovarsi al di sotto di esso.
La media
La media aritmetica è la misura di tendenza centrale più comunemente usata e la più rappresentativa e costituisce il valore medio di una distribuzione. Essa costituisce, inoltre, la base di statistiche più complesse.
Il calcolo della media per le distribuzioni semplici avviene in base alla formula:
x=
∑ xi
n
la media aritmetica è data, dunque, dalla sommatoria dei valori individuali di una distribuzione, divisa per il totale delle osservazioni.
Per le distribuzioni di frequenza si ha:
x=
f1x1 + f2 x2 + f3 x3 +... + fn xn
n
dove f 1 f 2 ... f n sono le frequenze che corrispondono a ciascun valore della variabile. Si parla, in questo caso,
di media ponderata e la formula per calcolarla sarà:
x=
∑ fi xi
n
Per la variabile Età del precedente esempio, il calcolo avverrà, dunque, moltiplicando ogni valore per la sua
frequenza (1 x 18, 39 x 19, 22 x 20 ...1 x 47), sommando i prodotti ottenuti e dividendo il risultato per 102, che
è il totale delle osservazioni valide del campione in esame.
Per calcolare la media di una distribuzione di frequenza con dati raggruppati in classi, è indispensabile calcolare, per prima cosa, il valore che meglio rappresenta l’intervallo di classe: a questo scopo si usa il punto
medio di ogni intervallo. Ad esempio per un intervallo di età 18-20 il punto medio sarà 19 e verrà considerato
come il valore che meglio rappresenta l’intervallo. Nella formula del calcolo della media, nel caso di dati raggruppati, al valore verrà, quindi, sostituito il punto medio dell’intervallo e la formula risulterà così trasformata
x=
∑ fimi
n
dove f imi è la frequenza di ciascuna classe moltiplicata per il punto medio dell’intervallo.
L’inconveniente principale di questa statistica è di essere troppo sensibile ai valori estremi: quando la distribuzione include valori molto diversi (o estremi), la media perde di rappresentatività ed è la mediana, in questo caso, a costituire la misura di tendenza centrale più significativa.
2.3.2. La scelta della misura di tendenza centrale
La scelta delle misure di tendenza centrale dipende dal tipo di livello di misurazione delle variabili che si
stanno analizzando e dal tipo di informazione che si desidera. Per le variabili misurate a livello nominale la misura più adatta potrà essere la moda: non avrebbe certo senso calcolare la media della variabile sesso ma è
interessante sapere se, nel campione in esame, prevalgono i maschi o le femmine. Anche per variabili misurabili con altri tipi di scale la conoscenza della moda può rivestire un certo interesse: esso, infatti, indica il valore
più rappresentativo, in quanto più frequente, di una certa distribuzione.
21
La mediana viene usata per variabili il cui livello di misurazione è ordinale o più alto. Essa risulta particolarmente utile quando i valori estremi della distribuzione possono distorcere la media.
La media deve essere usata solo a livello di scale a intervalli o di rapporti: è questa l’unica misura di tendenza centrale che prende in considerazione tutti i valori della distribuzione.
La tabella che segue illustra le relazioni esistenti fra misure di tendenza centrale e livello di misurazione
delle variabili:
Validità d’ uso
Livello
Nominale
Ordinale
Intervalli
Rapporti
Media
Mediana
Moda
no
no
sì
sì
no
sì
sì
sì
sì
sì
sì
sì
LE MISURE DI DISPERSIONE (o VARIAZIONE)
Per riassumere adeguatamente le caratteristiche principali di una distribuzione, il ricercatore deve conoscere,
oltre alle misure di tendenza centrale anche le cosiddette misure di dispersione. Infatti un aspetto importante di
un insieme di dati è proprio il grado di variazione dei suoi valori, che viene definito dispersione. Questa ci permette di misurare il grado di dispersione o di concentrazione della distribuzione di una variabile, cioè in che misura i suoi valori sono simili o diversi fra loro.
Le misure di variazione, dunque, sono quelle misure che riassumono come i valori sono concentrati o dispersi: nel primo caso si dice che i valori sono omogenei, nel secondo si dice che sono eterogenei: due distribuzioni possono avere uno stesso valore centrale ma presentare dispersioni molto diverse. I parametri di dispersione più usati sono il campo di variazione , la differenza interquartile , la varianza e la deviazione
standard o scarto quadratico medio.
Il campo di variazione
La misura più semplice di variabilità di un gruppo di dati è il campo di variazione (o range) che è
costituito dalla differenza fra il valore minimo ed il valore massimo della distribuzione:
Range
= H − L
H = valore massimo
L = valore minimo
La varianza e la deviazione standard
La varianza permette di misurare la dispersione dei dati attorno alla media ed è costituita dal rapporto fra la
somma dei quadrati delle deviazioni dalla media ed il totale dei casi. Per devia zione dalla media si intende la
differenza fra un qualunque dato della distribuzione e la media della distribuzione stessa e viene descritta come x i − x .
La formula della varianza è:
22
σ
∑ fi ( x i − x )
=
N
2
2
Se si analizzano i dati di un campione estratto da una popolazione piuttosto ampia è necessario, per ottenere una stima migliore della varianza della popolazione, dividere per N-1, per cui la formula viene corretta in
questo modo:
s2 =
∑ fi ( xi − x )2
n− 1
Un valore della varianza ampio significa che i valori sono abbastanza dispersi; valori piccoli indicano che
le osservazioni sono abbastanza simili: un valore 0 indicherebbe che tutti i valori sono uguali.
SCARTO QUADRATICO MEDIO ( DEVIAZIONE STANDARD)
Poiché la varianza viene calcolata elevando al quadrato le differenze dalla media, per avere un’unità di misura che non sia espressa al quadrato ma sia la stessa unità di misurazione con cui sono espresse le osservazioni, al ricercatore conviene calcolare la radice quadrata della varianza, calcolare, cioè, la deviazione standard o scarto quadratico medio, che si ottiene con la formula:
s=
∑ fi ( xi − x ) 2
n−1
È la misura di dispersione più frequentemente usata; è basata sulla media
s =
∑ fi ( x i − x ) 2
n − 1
Consideriamo 2 serie di valori:
27 28 29 30 31 32 33
15 20 25 30 35 40 45
Queste due serie provengono da due gruppi distinti formati ciascuno da 7 bambini dei quali è stato misurato il
peso in chilogrammi. La media di entrambe è 30
(27 + 28 + 29 + 30 + 31 + 32 + 33) / 7 = 30 [1]
(15 + 20 + 25 + 30 + 35 + 40 + 45) / 7 = 30 [2]
tuttavia la seconda serie ha un campo di variazione maggiore della prima
Range 1 33 - 27 = 6
Range 2 45 - 15 = 30
Per confrontare la dispersione delle due serie possiamo sommare gli scarti di ciascun valore dalla media.
Questa somma ci permette di valutare se i valori si allontanano più o meno dal centro.
Scarto dalla media Serie 1
Scarto dalla media Serie 2
27-30 = -3
15-30 = -15
28-30 = -2
20-30 = -10
29-30 = -1
25-30 = -5
30-30 = 0
30-30 = 0
31-30 = 1
35-30 = 5
32-30 = 2
40-30 = 10
33-30 = 3
45-30 = 15
Totale = 0
Totale = 0
23
Sussiste però un problema: a causa dei segni negativi, la somma degli scarti darà sempre 0. Per ovviare a
questo inconveniente possiamo elevare ogni scarto al quadrato, perdendo in tal modo il segno negativo.
Scarto dalla media Serie 1
Scarto dalla media Serie 2
(27-30)2 = 9
(28-30)2 = 4
(29-30)2 = 1
(30-30)2 = 0
(31-30)2 = 1
(32-30)2 = 4
(33-30)2 = 9
Totale = 28
(15-30)2
(20-30)2
(25-30)2
(30-30)2
(35-30)2
(40-30)2
(45-30)2
= 225
= 100
= 25
= 0
= 25
= 100
= 225
Totale = 700
Come ci si poteva aspettare i valori ottenuti per la seconda serie sono più grandi di quelli ottenuti per la prima.
Per riportare questi valori ad una grandezza più ragionevole si può calcolarne la media dividendo la somma
per 7: troviamo così quella che viene chiamata VARIANZA che è 4 (28/7) per la prima serie e 100 (700/7)
per la seconda. Ma per togliere i segni meno abbiamo dovuto elevare al quadrato, quindi avremo dei pesi in
chilogrammi al quadrato. Per tornare ad avere una grandezza nella stessa unità della serie originale possiamo
fare la radice quadrata della varianza, ottenendo quello che in Italia viene definito SCARTO QUADRATICO
MEDIO (e nei paesi anglossassoni è definito DEVIAZIONE STANDARD)
Otteniamo così rispettivamente 2 e 10
Più la deviazione standard è piccola più la serie è vicina alla media , più è grande più la serie ha
valori che si allontanano dalla media.
2.5. Le misure relative alla forma della distribuzione
Queste misure considerano la disposizione dei valori in una distribuzione (rispetto alla curva normale) e
quindi l’asimmetria e la forma della distribuzione stessa.
L'Asimmetria (o Skewness) è un indicatore del modo in cui le frequenze si raggruppano sulla curva di
una distribuzione di frequenza: se il suo valore è zero la curva è simmetrica, corrisponde, cioè, alla curva normale e media, mediana e moda coincidono. Se l’indicatore di asimmetria è maggiore di zero si ha una distribuzione asimmetrica a destra (di segno positivo): ciò significa che i casi si raggruppano sulla sinistra della curva
e che, nella distribuzione esaminata, la maggior parte dei valori è inferiore alla media. Se, al contrario,
l’indicatore di asimmetria è minore di zero si ha una distribuzione asimmetrica a sinistra (di segno negativo), i
casi si raggruppano sulla destra della curva e la maggior parte dei valori è superiore alla media. In linea di
massima un valore dell’indicatore superiore a 0.8 in valore assoluto (cioè considerato indipendentemente dal
segno) segnala una rilevante asimmetria della distribuzione.
Un altro indicatore del tipo di forma della curva di una distribuzione è la Curtosi, che consente di rilevare
se si verifica una maggiore o minore concentrazione di valori intorno alla media . La distribuzione di certe variabili può essere più alta e più stretta: questa forma indica che la varianza è piccola in quanto vi è un’alta
concentrazione di valori intorno alla media; in questo caso la media è molto rappresentativa (in quanto la dispersione intorno ad essa è minima) e la curva viene definita leptocurtica (dal greco lepto = sottile). La curva
che ha una dispersione di osservazioni intorno alla media “normale” è simile alla curva normale e viene definita mesocurtica (dal greco mésos = medio). Una curva larga ed appiattita viene, invece, definita platicurtica
(da platys = largo) ed indica una varianza piuttosto grande in quanto si verifica un’elevata dispersione dei va-
24
lori intorno alla media. Se il valore dell’indicatore è positivo significa che la curva della variabile è leptocurtica,
se è 0 la distribuzione è mesocurtica, se è negativo è pla ticurtica.
Tutti i pacchetti statistici hanno specifiche procedure che consentono di ottenere in modo facile e veloce,
attraverso gli appositi Menu, le distribuzioni di frequenza delle variabili che si vogliono esaminare e le principali
statistiche relative all’analisi monovariata. Ad esempio Spss mette a disposizione, nel menu Analizza ð Statistiche descrittive, la voce Frequenze che apre una apposita finestra in cui compare, in un riquadro sulla
sinistra, l’elenco di tutte le variabili del file che si sta analizzando. Selezionando le variabili che si vogliono analizzare se ne può, così, ottenere velocemente la distribuzione di frequenza e, agendo sul pulsante specifico, se
ne possono avere le relative statistiche e/o i grafici.
Finestra “Frequenze” di Spss Windows
2.6. La rappresentazione grafica
Oltre che per mezzo delle tavole di frequenza le informazioni possono essere rappresentate anche in forma
grafica: proprio per le distribuzioni di frequenza il vecchio detto “un’immagine vale più di mille parole” si dimostra assai spesso veritiero in quanto un grafico è in grado di sintetizzare un gran numero di cifre. Fra i grafici
più usati ricordiamo il diagramma a barre, l’istogramma, il grafico a torta (o diagramma circolare.
Consideriamo ad esempio la variabile “Tipo di diploma” di cui abbiamo già visto la distribuzione di frequenza: con l’aiuto del programma Spss possiamo ottenere un grafico riassuntivo che consente di cogliere immediatamente le informazioni desiderate:
25
40
30
30
20
22
20
Percent
10
9
7
4
4
0
3
O
TR
AL
MA
LO
DIP
O
RIT
PE
RA
ET
OM
GE
E
IER
ON
GI
RA
ICA
IST
RT
T.A
MA
.
IST
GU
LIN
EO
LIC
R.
IST
AG
L.M
DIP
CA
IFI
NT
CIE
T.S
MA
A
IC
SS
LA
T.C
MA
TIPO DI DIPLOMA
Il diagramma a barre, come quello qui mostrato, viene usato per la rappresentazione grafica di variabili misurabili a livello di scala nominale o ordinale: esso è costituito da una serie di rettangoli9 (barre) il cui numero è
determinato dal numero delle modalità e la cui altezza è direttamente associata alla frequenza di ciascuna modalità. Si può scegliere di costruire il grafico sulla base delle frequenze assolute o sulle percentuali (come
nell’esempio). Questo tipo di diagramma è uno dei più semplici e dei più usati e può essere presentato con le
barre poste in modo verticale od orizzontale.
Anche il diagramma a torta viene usato per variabili nominali od ordinali: il cerchio, la torta, rappresenta la
totalità dei casi esaminati ed ogni settore, ogni porzione di torta, è associato alla frequenza di una modalità.
Poiché si avranno, quindi, tanti settori quante sono le modalità della variabile, questo tipo di diagramma è più
adatto a rappresentare variabili con non più di sei o sette modalità:
Titolo di studio del padre
laurea
elementari
13.5%
19.7%
superiori
medie
36.9%
30.0%
Per le variabili metriche il grafico più adeguato è l’istogramma: esso può assomigliare, a prima vista ad un
diagramma a barre ma fra i due vi è una differenza sostanziale: i rettangoli dell’istogramma sono disposti in
300
200
100
9 Attualmente tutti i package statistici consentono la costruzione di grafici bidimensionali o tridimensionali come questo
Std. Dev = 4.86
dell’esempio.
Mean = 25.3
N = 814
0
20.0
25.0
22.5
30.0
27.5
35.0
32.5
40.0
37.5
45.0
42.5
50.0
47.5
26
modo contiguo, senza il minimo spazio intermedio, in quanto servono ad illustrare variabili continue, anche se
sono state create (dal ricercatore o dal programma) delle classi. Queste possono essere più o meno ampie e,
abitualmente, vengono costruite in modo da presentare tutte la stessa ampiezza. Spss, ad esempio, raggruppa
automatic amente i valori in intervalli di cui mostra il punto medio e, a richiesta, sovrappone
all’istogramma dei dati del campione che si sta analizzando la curva normale, consentendo in tal modo di
controllare immediatamente quanto la distribuzione della variabile esaminate si avvicini o differisca da quella
“normale”.
3. L’analisi bivariata
L’osservazione dei comportamenti sociali o individuali permette di constatare come essi, spesso, non siano
indipendenti tra loro: si nota che fra i diversi fenomeni osservati esistono determinate associazioni o relazioni.
Il trovarsi di fronte ad un certo numero di avvenimenti o comportamenti diversi porta a domandarsi se esista
una relazione fra di essi, se siano, cioè, legati fra loro: non ci si può, quindi, accontentare di esaminarli singolarmente ma si cerca di individuare l’esistenza di relazioni che li uniscano. Quindi per quanto l’analisi monovariata sia importante e, almeno inizialmente, indispensabile, l’interesse maggiore del ricercatore sociale si rivolge allo studio delle relazioni fra variabili: molto spesso, del resto, le stesse ipotesi di ricerca si esprimono appunto in questa forma. Si procede, pertanto, ad effettuare quella che viene definita “analisi bivariata”: essa
può avere obiettivi meramente descrittivi o, come accade più frequentemente, avere finalità esplicative che
consistono nell’analisi delle relazioni causali fra due variabili, una indipendente e una dipendente.
Nella ricerca sociale, dove le variabili sono di tipo prevalentemente qualitativo, uno dei metodi più diffusi
per procedere a questo tipo di analisi è la costruzione delle tavole di contingenza (dette anche incroci, tabelle a
doppia entrata o tabulazioni incrociate). Si tratta di tabelle in cui, in uno spazio bidimensionale, vengono presentate le combinazioni delle categorie di due variabili, “incrociate” fra loro, e che ne mostrano, quindi, simultaneamente, le variazioni. In una tavola di contingenza a due variabili si hanno due assi, uno orizzontale ed uno
verticale: sul primo sono riportate le categorie della variabile che formerà le colonne della tabella, sul secondo
le categorie della variabile che formerà le righe. La dimensione di una tavola di questo tipo è data dal numero
delle variabili che la compongono, indipendentemente dal numero delle categorie: una tavola che prende in
considerazione una sola variabile (come si è visto nell’analisi monovariata) è “ad una dimensione”, una tavola
che comprende due variabili è “a due dimensioni” ed è quella usata nell’analisi bivariata.
Nell’analisi multivariata si studiano tavole a k dimensioni, dove k è un qualunque numero superiore a due.
Elemento fondamentale delle tabelle di contingenza sono le “celle”: esse sono formate dall’intersezione
d’una riga e d’una colonna; il numero di celle è uguale al prodotto del numero di righe e di colonne (r × c). La
distribuzione delle osservazioni nelle celle determina la struttura dei dati ed è compito dell’analisi descriverla
ed analizzarla.
Generalmente l’analisi statistica bivariata si può riassumere secondo la formula: la variabile A è associata
alla variabile B (oppure A è in relazione con B): questa concomitanza viene definita co-occorenza quando le
variabili sono di tipo qualitativo, correlazione quando le variabili sono quantitative (categoriali).
Si consideri un esempio di “incrocio” fra due variabili qualitative quali l’eventuale attività lavorativa degli
studenti di Scienze Politiche di Torino ed il loro tipo di diploma (ricodificato in “maturità liceale” ed altro tipo di
diploma); si può ipotizzare una relazione di causa - effetto: l’aver seguito studi liceali (variabile indipendente
“Tipo di diploma”) può influire sul fatto di essere studenti a tempo pieno o lavorare, saltuariamente o in modo
continuativo (variabile dipendente “Attività lavorativa”).
Se si usa un qualsiasi package statistico, ottenere una tavola di contingenza è molto semplice: ogni programma mette a disposizione una procedura che consente di incrociare fra loro due (o più) variabili.
In Spss Windows si può, usando il menu, selezionare le voci:
Analizza ð Statistiche de scrittive ðTavole di contingenza
27
e richiedere, dall’interno della specifica finestra di lavoro (cfr. grafico) le tabelle desiderate, con le relative
statistiche.
Grafico Finestra di menu (SpssWindows) per il calcolo delle tavole di contingenza
L’esecuzione del comando produce un output contenente la tabella richiesta e tutte le statistiche specificate (cfr. grafico)
Grafico . - Tabella a doppia entrata: output della procedura Tavole di contingenza
ATTIVRIC Eventuale attività lavorativa * TIPODIP Tipo di diploma
ATTIVRIC
Eventuale attività
lavorativa
1 no/lavori saltuari
2 lavoro stabile
Totale
Conteggio
% entro
TIPODIP Tipo
di diploma
Conteggio
% entro
TIPODIP Tipo
di diploma
Conteggio
% entro
TIPODIP Tipo
di diploma
TIPODIP Tipo di
diploma
1
2 non
liceali
liceali
228
168
Tota
le
396
61.3%
38.0%
49%
144
274
418
38.7%
62.0%
51%
372
442
814
100.0%
100%
****
28
10
Poiché gli incroci vanno letti nella direzione causa→effetto , avendo posto la variabile considerata ‘indipendente’11 TIPODIP per colonna, sono state richieste, appunto, le percentuali per colonna. Si vede così che
oltre il 61% degli studenti in possesso di diploma liceale, non lavora o fa solo lavori saltuari, mentre il 39% circa ha un lavoro stabile. Degli studenti con altro tipo di diploma il 38% non lavora o lo fa occasionalmente
mentre il 62% ha un impiego stabile. Va ricordato, tuttavia, che le percentuali, considerate da sole, non tengono conto dell’insieme dei dati: dire, perciò, che il 62.3% dei non-liceali ha un lavoro stabile corrisponde solo ad
un esame parziale della tabella, in quanto, se ci si limita a tale affermazione, non si tiene conto del complesso
dei casi considerati. Un metodo migliore di lettura della tabella è dunque quello di non limitarsi ad asserire che
il 61% degli ex-liceali non lavora ma confrontare questa percentuale (di colonna) con il totale di riga relativo
agli intervistati che studiano a tempo pieno, totale marginale che corrisponde alla media degli studenti che non
lavorano o lo fanno solo occasionalmente. Questo metodo di lettura viene definito “dello scarto
dall’indipendenza”12: si tratta infatti di verificare se le due percentuali sono uguali fra loro (nel qual caso si
potrebbe asserire che fra tipo di diploma ed attività lavorativa non vi è relazione e le due caratteristiche sono
fra loro indipendenti) o se invece differiscono. Qualora si riscontri una differenza fra la percentuale di colonna
ed il totale di riga (come nel caso dell’esempio) si può procedere ad un’ulteriore analisi, misurando tale differenza e controllando se si tratta di uno scarto positivo o negativo: nel primo caso si potrà affermare di avere
uno scarto positivo dall’indipendenza, un’“attrazione positiva” fra riga e colonna (nell’esempio si ha un 61% di
liceali che studiano a tempo pieno su una percentuale comple ssiva di non lavoratori pari a poco più del 48%).
Nel caso la percentuale di colonna risultasse inferiore alla percentuale media di riga, si verificherebbe una “attrazione negativa”, un deficit rispetto all’indipendenza.
3.1. La lettura del chi-quadrato
Una prima lettura della tabella è già stata sufficiente ad indurci a pensare che tra le due variabili esista, effettivamente, una rela zione: gli studenti di estrazione liceale sono studenti a tempo pieno in misura maggiore dei
compagni con altro tipo di diploma e fra le due caratteristiche esiste un’attrazione positiva. Per testare in maniera più analitica l’influenza che l’estrazione liceale sembra avere sull’attività lavorativa durante gli studi universitari e poter affermare che la relazione individuata non è casuale, si può usare un particolare test di indipendenza: il chi-quadrato che, partendo dall’ipotesi di indipendenza delle due variabili, opera sulle percentuali
marginali. Se le due variabili fossero indipendenti si dovrebbero trovare, nelle celle, valori che dipendono unicamente dai valori totali marginali.
Il test chi-quadrato (χ 2) è uno dei test che, calcolando la differenza tra frequenze osservate e frequenze
attese, aiuta a determinare se esista una relazione sistematica fra due variabili. La sua formula è:
χ2 = Σ
( fo − fe ) 2
fe
dove f o è la frequenza osservata in ciascuna cella ed f e è la frequenza attesa: il chi-quadrato, dunque, è dato
dalla sommatoria della differenza tra frequenze osservate e frequenze attese, al quadrato, fratto le frequenze
attese.
Come si può vedere dalla formula, il valore del chi quadrato risulta tanto più grande quanto maggiore è la
differenza tra frequenze attese e frequenze osservate.
10 . cfr. H. Zeisel, Ditelo con i numeri, Marsilio, Bologna, 1968, pp. 53-63.
11 . Se si pongono in relazione due variabili è detta indipendente la variabile che può provocare mutamenti nell'altra ma
non può esserne influenzata; viene, invece, detta dipendente la variabile che può venir influenzata ma non può a sua volta condizionare la variabile con cui è posta in relazione.
12 . Cfr. J.P. Benzécri, L'analyse des données, Paris, Dunod, 1973
29
Se non c’è relazione fra due variabili di un campione allora ogni deviazione dai valori attesi che si verifica
in una tabella basata su di un campione casuale è dovuta al caso. Ora, mentre delle piccole differenze possono ragionevolmente essere dovute al caso, è improbabile che lo siano valori di chi-quadro abbastanza grandi.
Poiché la relazione esistente fra le due variabili nella popolazione madre, o universo, non è conosciuta, si considera che non esista relazione fra due variabili quando il valore del chi-quadrato è piccolo (in questo caso si
parla di indipendenza statistica). Al contrario un valore di chi-quadrato grande implica l’esistenza di una relazione sistematica fra le variabili stesse. Per determinare se esiste una relazione sistematica è necessario determinare la probabilità di ottenere un valore di chi-quadro uguale o più grande di quello calcolato dal campione quando le variabili sono realmente indipendenti e questo dipende, almeno in parte, dai gradi di libertà13. I
gradi di libertà variano con il numero di righe e di colonne: in una tabella vengono calcolati moltiplicando il numero di righe meno 1 per il numero di colonne meno 1. La loro importanza è data dal fatto che la probabilità di
ottenere uno specifico valore di chi-quadro dipende dal numero di celle della tavola. Nell’esempio si ha un chiquadro di 48.843: la probabilità di ottenere, per il solo effetto del caso, un valore uguale o superiore con 1 grado di libertà è dello 0.000, cioè meno di 1 volta su 1000.
Questa probabilità viene anche definita livello di significatività: se è molto piccola (normalmente meno di
0.05 o di 0.01) l’ipotesi che le due variabili siano indipendenti può essere rifiutata. Spss, quando viene richiesto
il calcolo del chi-quadrato, fornisce il valore calcolato del test, i gradi libertà e la probabilità (o livello di significatività).
L’output fornito dal programma Spss Windows, avendo selezionato Chi-quadrato per la tabella
dell’esempio è il seguente:
Chi-quadrato
Valore
Chi-quadrato di Pearson
Correzione di continuità
Rapporto di
verosimiglianza
Test esatto di Fisher
Associazione
lineare-lineare
N. di casi validi
43.826
42.899
a
Sig. asint.
(2 vie)
df
b
1
1
.000
.000
44.208
1
.000
43.772
1
.000
Sig. esatta
(2 vie)
Sig. esatta
(1 via)
.000
.000
814
a. Calcolato solo per una tabella 2x2
b. 0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggio atteso minimo
è 180.97.
Come si vede, il livello di significatività è sufficientemente basso da permettere di respingere l’ipotesi nulla
di indipendenza delle due variabili considerate.
ALCUNI CENNI DI STATISTICA
Per una migliore comprensione del test del χ
diamo qualche nozione statistica su cos’è e su come si
calcola. Si tratta di un test d’indipendenza: misura lo scarto fra le frequenze attese (dette anche teoriche) e le
frequenze osservate. Si calcola, come prima accennato, con la formula:
2
χ
2
=
Σ
( f
o
−
f
f
a
)
2
a
Le frequenze attese (o teoriche) corrispondono al numero di individui che dovrei teoricamente ritrovare in ogni
cella se le variabili fossero totalmente indipendenti. La formula per calcolarle è la seguente
13. Si definiscono gradi di libertà i valori in un campione che, nel calcolo di una statistica, sono liberi di variare.
30
f
a
=
× Totale
totale
Totale
riga
Numero
colonna
dei
casi
Consideriamo l’incrocio fra il Tipo di diploma dell’intervistato e l’eventuale Attività lavorativa
Tavola di contingenza TIPODIP * ATTLAV
ATTLAV
TIPODIP
1 LICEO
2 ALTRO DIPLOMA
Totale
1 NON
LAVORA
144
106
250
Conteggio
Conteggio
Conteggio
2 LAVORO
OCCASION.
82
60
142
3
LAVORO
STABILE
146
276
422
Totale
372
442
814
Per calcolare le frequenze attese della cella 1-1 (liceo-non lavora) dovrò moltiplicare 372 (totale di riga) per
250 (totale di colonna) e dividere il risultato per 814 (numero totale dei casi, ottenendo 114,3. Stesso calcolo
per tutte le celle.
Cella 1-1 372 X 250 / 814 = 114,3
Cella 1-2 372 X 142 / 814 = 64,9
Cella 1-3 372 X 422 / 814 = 192,9
Cella 2-1 442 X 250 / 814 = 135,7
Cella 2-2 442 X 142 / 814 = 77,1
Cella 2-3 442 X 422 / 814 = 229,1
Per meglio comparare frequenze osservate e frequenze attese costruiamo una tabella che le mostri entrambe
Tavola di contingenza TIPODIP * ATTLAV
TIPODIP 1 LICEO
2 ALTRO
DIPLOMA
Totale
Conteggio
Conteggio
Conteggio
1 NON
LAVORA
144
114.3
106
ATTLAV
2 LAVORO 3 LAVORO
OCCASION.
STABILE Totale
82
146
372
64.9
192.9
60
276
442
135.7
77.1
229.1
250
142
422
(144-114.3) 2 /114.3 + (82-64.9) 2 / 64.9 + (146-192.9) 2 / 192.9 +
(106-135.7) 2/135.7 + (60-77.1) 2 /77.1+ (276-229.1) 2/229.1 =
882.9 / 114.3 + 292.41 / 64.9 + 2199.61 / 192.9 + 882.9 / 135.7 +
292.41 /77.1+ 2199.61/229.1 =
7.72 + 4.51 + 11.40 + 6.51 + 3.79 + 9.60 = 43.53
31
χ
2
= 43.53
814
I GRADI DI LIBERTA’
Si definiscono gradi di libertà i valori di un campione che, nel calcolo di una statistica, sono liberi di variare.
Per il Chi quadrato si calcolano moltiplicando le righe meno 1 per le colonne meno 1:
gl = (r –1) X (c – 1)
Nella tabella precedente che ha due righe e tre colonne, ad esempio, avremo:
gl = (2-1) X (3-1) = 2
i gradi di libertà corrispondono alle frequenze che bisogna conoscere (oltre ai totali marginali) per
calcolare le altre frequenze
Se nella tabella abbiamo solo due frequenze note (oltre ai marginali) si possono calcolare tutte le altre frequenze. Ad esempio conoscendo solo la frequenza della cella 1-1 (144) e della cella 2-3 (276) :
Tavola di contingenza TIPODIP * ATTLAV
ATTLAV
TIPODIP
1 LICEO
Conteggio
Totale
2 ALTRO DIPLOMA Conteggio
Conteggio
1 NON
LAVORA
144
2 LAVORO
OCCASION.
3
LAVORO
STABILE
142
276
422
250
Totale
372
442
814
a. Cella 2-1 = 250 - 144 =106
b. Cella 1-3 = 422 - 276 =146
c. 144 +146= 290
d. Cella 1-2 = 372 - 290 = 82
e.106 + 276 = 382
f. Cella 2-2 442 – 382 = 60
Tavola di contingenza TIPODIP * ATTLAV
Conteggio
TIPODIP
Totale
1 LICEO
2 ALTRO DIPLOMA
1 NON
LAVORA
144
a. 106
250
ATTLAV
2 LAVORO
OCCASION.
d. 82
f. 60
142
3 LAVORO
STABILE
b. 146
276
422
Totale
372
442
814
Quindi, in realtà, nella tabella solo due frequenze potevano variare (le due conosciute). Tutte le altre, legate ai
totali marginali, dipendono da queste due, i 2 gradi di libertà della tabella.
32
Ora ho il
Se il
χ
2
χ
2
= 43,53 e i gradi di libertà = 2
trovato supera il numero che si trova sulle Tavole del Chi quadrato (si trovano in ogni libro di stati-
stica) in corrispondenza dei gradi di libertà calcolati ed alla soglia di significatività scelta (generalmente 0,05)
possiamo rifiutare l’ipotesi nulla ( H0 ) di indipendenza delle variabili. Il programma SPSS ci fornisce sia il valore del
chi quadrato, sia i gradi di livertà, sia la significatività del test, senza costringerci a ricercarla sulle Tavole: se la
significatività è 0.05 o inferiore si può respingere l’ipotesi nulla di indipendenza delle variabili.
Misure di associazione
Il Chi-quadrato aiuta il ricercatore a decidere se le variabili considerate siano o meno indipendenti fra loro,
ma non dice nulla rispetto alla forza della relazione esistente. Ciò è dovuto al fatto che questo test è influenzato dalla grandezza del campione e dall’ampiezza della tabella. Vi sono alcune misure di associazione che, pur
basandosi su chi-quadrato, sono in grado di minimizzare l’influenza dei gradi di libertà e dell’ampiezza del
campione: i risultati di questi test variano, generalmente, da 0 a +1 (un coefficiente 0 indica indipendenza, un
coefficiente +1 una relazione massima fra le variabili).
Queste misure del grado di associazione servono per minimizzare i due diversi tipi di errore in cui si può incorrere nell’analisi statistica. L’errore di I tipo o α , che consiste nel respingere come falsa l’ipotesi nulla quando essa è vera; l’errore di II tipo o β consiste nell’accettare come vera l’ipotesi nulla quando
essa è falsa.
Fra le numerose misure di associazione che SPSS mette a disposizione dell’utente consideriamo, in dettaglio, il Phi e la V di Cramer.
Il coefficiente Phi è dato dalla radice quadrata del rapporto fra chi-quadro e numero dei casi:
Phi
=
χ 2
N
Poiché questo coefficiente può assumere valori maggiori di 1 per tabelle non quadrate, cioè con dimensioni
superiori a 2x2, per tavole più ampie si usa la V di Cramer. La formula per ottenere questo coefficiente è:
V =
χ2
N ( k − 1)
dove k è uguale a (righe -1) oppure a (colonne - 1) a seconda di quale dei due valori risulti minore.
Nella tabella dell’esempio l’output della richiesta dei due coefficienti è la seguente:
Misure simmetriche
Nominale per
nominale
N. di casi validi
Phi
V di Cramer
Valore Sig. appross.
.231
.000
.231
.000
814
Più il valore del coefficiente è elevato, più è forte il legame fra le variabili
Per la V di Cramer abbiamo
V < 0,10 troppo debole
V tra 0,10 e 0,39 accettabile ma debole
33
V = 0,40 moderata
V = 0,75 forte
Un esempio dell’output determinato dalla richiesta del coefficiente V di Cramer è la seguente:
Misure simmetriche
Valore
Nominale per
nominale
Phi
V di Cramer
Sig.
appross.
.232
.232
N. di casi validi
.000
.000
814
a. Senza assumere l'ipotesi nulla.
b. Viene usato l'errore standard asintotico in base
all'assunzione dell'ipotesi nulla.
Nell’esempio si può rifiutare l’ipotesi nulla ed affermare che, fra le due variabili, vi è effettivamente dipendenza e di livello accettabile.
Il test Gamma
Per variabili a scala ordinale si possono usare altri tipi d test, che prescindono dal calcolo del
2
χ . Uno fra
i più usati è il Gamma: una statistica basata sull’ordine relativo delle variabili. Il Gamma misura la forza di associazione fra coppie di variabili ordinate: il suo calcolo comporta la valutazione sistematica di tutte le coppie
di osservazioni possibili presenti nella tavola di contingenza in esame e, precisamente
a) la determinazione del numero totale di coppie concordanti dissimili
b) la determinazione del numero totale di coppie discordanti dissimili.
Una coppia di osservazioni è concordante quando una delle due è superiore all’altra in entrambe le variabili
Fiducia sindacati
Fiducia grandi imprese
Nessuna
Freq.assolute (Count)
Molta
Solo un po’
Nessuna
Totale
52
131
55
238
Solo un po’
140
219
54
413
Molta
Tot.
163
53
57
273
355
403
166
924
Per esempio un intervistato che ha molta fiducia tanto nelle grandi imprese quanto nei sindacati occupa una
posizione superiore a quella di un intervistato che non ha alcuna fiducia in entrambe le istituzioni.
Una coppia di osservazioni è discordante, invece, quando una delle due è superiore all’altra in una variabile,
ma inferiore nella seconda variabile. Ad es. uno dei membri della coppia ha molta fiducia nelle imprese ma
poca nei sindacati, mentre l’altro ha poca fiducia nelle imprese ma molta nei sindacati
la formula di Gamma è
P −Q
P +Q
dove P sono le coppie concordanti e Q le coppie discordanti.
34
Se il Gamma è positivo significa che le coppie concordanti sono più numerose delle discordanti (associazione
positiva), viceversa se il segno è negativo (associazione negativa)
Nel caso della nostra tabella il Gamma è 0.31: questo valore suggerisce che fra la fiducia nelle grandi imprese
e quella nei sindacati esiste un’associazione positiva accettabile ma non forte.
Qui di seguito viene riportato un elenco delle misure di associazione che è possibile richiedere tramite il
programma:
Ÿ Statistiche per variabili di tipo nominale:
Coefficiente di contingenza
Phi e V di Cramer
Lambda (fornisce il Lambda simmetrico e asimmetrico ed il tau di Goodman e Kruskal)
Coefficiente di incertezza (simmetrico e asimmetrico)
Ÿ Statistiche per variabili ordinali:
Gamma
d di Somers
tau-b di Kendall
tau-c di Kendall
•
•
•
•
•
Coefficienti di correlazione di Pearson e di Spearman:
Per tabelle in cui sia le righe che le colonne contengano valori ordinati, l'opzione Correlazioni calcola il
coefficiente di correlazione di Spearman, rho . Il coefficiente rho di Spearman è una misura di associazione tra punteggi di rango. Se entrambe le variabili delle tabelle sono quantitative, l'opzione Correlazioni
calcola il coefficiente di correlazione di Pearson, r, una misura dell'associazione lineare tra le variabili.
Kappa di Cohe n: valida solo per tabelle quadrate in cui i valori di riga e di colonna siano identici. Serve,
ad esempio, per valutare la concordanza di due stimatori.
Coefficiente di rischio (calcolato solo per le tavole 2x2).Consente di ottenere la valutazione del coefficiente di rischio e il rapporto odd.
McNemar: il test di McNemar è un test non parametrico che si calcola in presenza di due variabili dic otomiche correlate. Consente di verificare le variazioni della risposta utilizzando la distribuzione del chiquadrato. È particolarmente utile per individuare le variazioni della risposta in disegni sperimentali del tipo
'prima e dopo'.
Eta: è una misura di associazione adeguata quando si analizza una variabile dipendente a intervalli ed una
variabile indipendente categoriale (con un limitato numero di categorie). Eta varia fra 0 ed 1, è asimmetrica e non assume una relazione lineare fra le variabili.
3. Rappresentazione grafica di una tabella di contingenza
Con l’aiuto di un qualunque package statistico è anche possibile costruire un grafico relativo all’incrocio di
due variabili. In Spss Windows, ad esempio, il menu Grafici consente di creare facilmente e velocemente il
grafico relativo alla tavola di contingenza precedentemente illustrata.
35
70
60
62
61
50
40
38
39
30
Percentuale
20
Tipo di diploma
10
liceali
0
non liceali
no/lavori saltuari
lavoro stabile
Eventuale attività lavorativa
4. Confronto fra le medie
Un interessante metodo di analisi di coppie di variabili, quando il livello di misurazione della variabile dipendente è, almeno, ad intervalli, mentre la variabile indipendente è nominale, ordinale o dicotomica, è dato dalla
procedura Comparazione delle medie. Questa procedura è molto simile alla Tavola di contingenza ma in essa
vengono calcolate misure quali la media, la varianza e la deviazione standard della variabile dipendente, rispetto alle categorie della variabile indipendente.
Se, ad esempio, si volesse analizzare il diverso comportamento degli studenti rispetto all’età di iscrizione alla facoltà di Scienze Politiche a seconda dell’attività lavorativa, si potrebbe, appunto, usare questo tipo di procedura. Avendo a disposizione, ad esempio, la variabile ETASCPOL relativa all’età in cui gli studenti si sono
iscritti alla facoltà: l’età media all’iscrizione della popolazione complessiva del campione risulta essere di 20,25
anni, ma l’ipotesi è che essa differisca se gli intervistati sono studenti a tempo pieno oppure hanno un lavoro
stabile. Per verificare questa ipotesi si può, dunque, usare la procedura Confronta medie.
Per attivarla in Spss Windows è sufficiente selezionare da menu: Statistic a ⇒ Confronta medie ⇒ Medie.
L’output di questa procedura, per l’esempio fatto, con la scelta della variabile Età di iscrizione a Scienze
Politiche come dipendente ed Eventuale attività lavorativa come indipendente si presenta come segue:
36
ETASCPOL
ATTIVRIC
1 NESSUNA
2 SALTUARIA
3 STABILE/CONTINUAT.
Totale
Media
20.2480
19.9296
22.7368
21.4765
N
250
142
418
810
Deviazione
std.
1.6606
1.4324
4.3130
3.5358
Come si vede il programma fornisce la descrizione della popolazione: viene data la media, la deviazione standard ed il numero dei casi dell’“Età al momento dell’iscrizione a Scienze Politiche”, separatamente per ogni
sottogruppo della variabile “Eventuale attività lavorativa” e per la popolazione complessiva. Si può in tal modo
constatare, ad esempio, (rispetto all’età media normale di iscrizione all’università che può essere considerata
di 19/20 anni) gli studenti di Scienze Politiche si iscrivono, complessivamente, in ritardo, cioè dopo i 21 anni.
Questo però è solo il dato generale in quanto, grazie alla procedura che consente di analizzare meglio il campione, si può vedere come siano gli studenti che hanno un lavoro stabile ad alzare l’età media di iscrizione.
Mentre infatti gli studenti che lavorano a tempo pieno si sono iscritti, in media, alla facoltà a 23 anni circa
(quando cioè uno studente tradizionale sta per terminare il corso di studi) quanti non lavorano o hanno solo
attività saltuarie, sono quasi in regola con la normale età di iscrizione.
La richiesta dell’analisi della varianza, opportunamente richiesto, fornendo il test F e la sua significatività,
consente al ricercatore di respingere l’ipotesi nulla dell’uguaglianza delle medie.
L’ANALISI DELLA VARIANZA
OLTRE ALLE TAVOLE DI CONTINGENZA ED ALLA COMPARAZIONE FRA LE MEDIE
ESISTONO ALTRE TECNICHE DI ANALISI BIVARIATA, AD ESEMPIO L’ANALISI DELLA
VARIANZA. Questa tecnica (che già abbiamo considerato e utilizzato come opzione parlando del confronto
fra le medie) calcola la relazione di dipendenza fra due variabili ma impone maggiori restrizioni degli incroci. Si
può usare quando la dipendente è quantitativa, misurabile a livello di intervalli o di rapporti. Questo determina
una minore applicabilità nella investigazione sociale, in cui predominano le variabili qualitative (categoriali).
LA SUA FINALITA’ E’ PROVARE L’ESISTENZA DI DIFFERENZE FRA I GRUPPI (CATEGORIE)
FORMATI DA UNA VARIABILE INDIPENDENTE CATEGORIALE (ES. Titolo di studio, Eventuale attività
lavorativa, ecc.), RISPETTO AD UN’ UNICA VARIABILE DIPENDENTE CARDINALE. PERCIO’ SI USA
UNA VARIABILE INDIPENDENTE, IN FUNZIONE DELLA QUALE SI FORMANO GRUPPI DISTINTI
DI TRATTAMENTO. Costituiti i gruppi, si verifica la media di ogni gruppo rispetto alla variabile dipendente :
SE SI OSSERVANO DIFFERENZE FRA LE MEDIE DEI GRUPPI SI PROCEDE ALLA
COMPARAZIONE DELLA VARIANZA DEI GRUPPI E SE NE MISURA LA SIGNIFICATIVITA’.
Se la VARIANZA FRA I GRUPPI supera LA VARIANZA ALL’INTERNO DEI GRUPPI significa che si
verifica una maggiore eterogeneità fra i gruppi a fronte di una scarsa variabilità all’interno di essi e pertanto si
può affermare che esiste una differenza fra i gruppi.
LA SIGNIFICATIVITÀ si verifica con test statistico F [se si hanno più di due gruppi o con il t (che è la radice quadrata di F) se i gruppi sono solo due).
Come per qualunque prova di significatività si paragonano i valori empirici (“t” e “F”) con quelli teorici (che
troviamo nelle corrispondenti tavole t di Student e F di Fisher). Si fissa un livello di significatività in funzione
della precisione che il ricercatore vuole avere per la sua stima (generalmente 0,05) e si calcolano i gradi di li-
37
bertà [per la somma dei quadrati fra i gruppi i gradi di libertà corrispondono al numero dei gruppi meno 1(k-1)
e per la somma dei quadrati all’interno dei gruppi al numero dei casi del campione meno i gruppi (N-k).
Se il valore empirico supera quello teorico la differenza dei gruppi acquista significatività statistica ed è possibile generalizzare.
CALCOLO DELL’ANALISI DELLA VARIANZA
Un esperto di comunicazione deve preparare la campagna elettorale per un candidato. Prepara 3 diversi tipi di
programmi elettorali e sottopone ognuno di questi programmi a 5 diversi gruppi di elettori, ottenendo così 15
diversi indici di gradimento i cui risultati sono riportati nella tabella. Si vuole conoscere il gradimento medio per
ogni tipo di programma e individuare il programma più gradito agli elettori.
PROG1 PROG2
PROG3
86
77
80
79
75
75
83
69
73
85
74
64
76
71
76
Medie:
81.8
73.2
73.6
1. Si calcolano le medie dell’indice di gradimento per i 3 Programmi
2. Si calcola la Media generale (o gran media) = 76.2
3. Si calcolano gli scarti di ogni indice di gradimento rispetto alla gran media e si elevano al quadrato:
∑
∑
i
(
X
j
−
ij
X
)
2
2
(es. 86-76.2=9.8 ; (9.8) = 96.04)
Σ
96.04
7.84
46.24
77.44
0.04
227.60
0.64
1.44
51.84
4.84
27.04
85.8
14.44
1.44
10.24
148.84
0.04
175.00
Si calcola la somma totale dei quadrati (227.6+85.8+175) che è 488.4 La somma totale dei quadrati è detta DEVIANZA TOTALE.
SSTO = 488.4 = DEVIANZA TOTALE
La DEVIANZA TOTALE può essere scomposta in due parti devianza tra gruppi e devianza entro i
gruppi (o residua)
DEVIANZA TOTALE = DEVIANZA TRA GRUPPI + DEVIANZA ENTRO I GRUPPI
SSTO
=
SSB
+
SSW
Per calcolare la DEVIANZA ENTRO I GRUPPI (o Somma dei quadrati all'interno dei gruppi within groups) si
applica la formula
SSW =
( X ij − X ) 2
i
j
∑∑
38
Si calcolano, cioè, gli scarti di ogni valore rispetto
alla media del suo gruppo e li si eleva al quadrato
2
ES. 86 - 81.8(media gruppo 1) = 4.2, (4.2) = 17.64
Σ
17.64
7.84
1.44
10.24
33.64
14.44
3.24
17.64
0.64
4.84
40.96
1.96
0.36
92.16
5.76
70.8
40.8
141.2
SSW = 252.8
La DEVIANZA TRA GRUPPI ( somma dei quadrati fra i gruppi (between)) è data dalla
DEVIANZA TOTALE MENO LA DEVIANZA ENTRO I GRUPPI
(Somma totale dei quadrati meno la somma dei quadrati all'interno dei gruppi):
SSB = SSTO-SSW = 488.4 - 252.8 = SSB=235.6
Le VARIANZE vengono calcolate dividendo le devianze per i rispettivi gradi di libertà:
per la DEVIANZA FRA I GRUPPI i gradi di libertà sono dati da k-1
(dove k = numero dei gruppi)
varianza fra i gruppi = devianza fra i gruppi diviso i gradi di libertà
MSB= SSB/(k-1) = SSB/2 = 235.6/2= 117.8
per la DEVIANZA ENTRO I GRUPPI i gradi di libertà sono dati da N – k (N=numero totale dei casi e k=
numero dei gruppi)
varianza entro i gruppi = devianza entro i gruppi diviso i gradi di libertà
MSW=SSW/(N-k) = SSW/12 = 252.8/12 = 21.06667
La significatività si verifica con il test statistico F che è dato dal rapporto fra la varianza tra i gruppi e la varianza entro i gruppi.
F = MSB/MSW = 117.8/21.06 = 5.59
Se F è superiore al valore dell’F critico in corrispondenza ad un livello prefissato di probabilità (generalmente
0,05) e ai gradi di libertà delle due varianze, allora potremo reespingere l’Ipotesi nulla
H0 : µ1 = µ2 ...
µk
ed accettare l’Ipotesi alternativa H1 : almeno una µj maggiore delle altre
Si controlla, sulle tavole, in base ai gradi di libertà, il valore F trovato con il valore F delle tavole, detto F critico. Se l’F trovato è maggiore o uguale all’ F critico, possiamo rifiutare l'ipotesi nulla (H0), se è minore dobbiamo accettarla e dire che tutte le medie sono uguali.
La procedura SPSS ANOVA univariata
Riassumendo abbiamo visto che l’analisi della varianza è una tecnica di misurazione della significatività statistica della differenza fra medie. Quando la differenza deve essere calcolata solo fra due valori medi può essere usato il t test, il quale rappresenta, si potrebbe dire, un particolare caso di analisi della varianza, in quanto
può essere applic ato solo a coppie di distribuzioni. L’analisi della varianza può, invece, essere usata per testare l’ipotesi nulla che le medie di tre o più popolazioni siano uguali. Questa tecnica statistica consiste
nell’esaminare la varianza del gruppo riferita alla media del gruppo stesso e la varianza fra i gruppi riferita alla
39
media del campione complessivo: le conclusioni circa le medie della popolazione sono basate su queste due
varianze stimate.
Perché possa essere usato, questo tipo di analisi comporta alc une fondamentali ipotesi di base:
• La misurazione delle variabili deve essere a livello di intervalli o di rapporti.
• La distribuzione della popolazione deve essere normale.
• Le varianze dei gruppi nella popolazione devono essere omogenee (cioè si postula che le distribuzioni della
variabile dipendente all’interno delle categorie della variabile indipendente abbiamo la stessa varianza
(condizione che gli statistici definiscono omoschedasticità).
• I campioni devono essere casuali e indipendenti, come anche i soggetti, in ciascun gruppo considerato (in
altre parole nelle categorie della variabile indipendente non devono esserci gli stessi soggetti ).
Per usare l’analisi della varianza ad una via (l’analisi avviene rispetto a gruppi definiti in base ad una determinata variabile fattore) il ricercatore deve selezionare:
Analyse
Compare Means
One-Way ANOVA
In tal modo si apre una finestra in cui va selezionata, dalla lista nel riquadro a sinistra, la variabile indipendente:
se la variabile è Numero di corsi frequentati (FREQANNO) la si seleziona e si fa clic sulla freccia [Ø] posta accanto al riquadro Dependent List. Si seleziona anche la variabile che dovrà determinare i gruppi,
nell’esempio ATTIVRIC, e la si sposta sotto Factor.
Se non si desiderano opzioni o statistiche particolari facendo clic su OK si manda in esecuzione la procedura.
Nella parte inferiore della finestra One-Way ANOVA vi sono tre pulsanti: Contrast, Post-Hoc ed Options .
L’analisi della varianza indica se esiste una differenza fra le medie dei tre gruppi di rispondenti, ma non
dove questa, eventualmente, si verifichi: non spiega se il gruppo 1 sia differente dal gruppo 2 e dal gruppo 3,
oppure il gruppo 2 differisca da entrambi gli altri gruppi. La risposta a questi quesiti può essere ottenuta confrontando le medie dei sottogruppi per mezzo di due tipi di procedure. Il primo tipo è riferito a previsioni fatte
“a priori”: il ricercatore potrebbe aver ipotizzato, ad esempio, che il gruppo 3 differisca significativamente dal
gruppo 2 ma non dal gruppo 1. Questi confronti possono essere ottenuti facendo clic sul pulsante Contrasts,
ma richiedono buone basi sia statistiche che metodologiche (ipotesi forti) e non verranno qui prese in considerazione.
Il secondo tipo di procedure di confronto è costituito dai tests Post hoc, o di comparazione multipla. Per attivare questi tests bisogna selezionare il pulsante Post-Hoc ed accedere alla relativa finestra:
I tests messi a disposizione dal programma sono:
•
Least-significant difference: equivale all’applicazione di t test multipli fra tutte le coppie di gruppi.
•
Test di Bonferroni: è una modifica del Least-significant difference test.
•
Duncan’s multiple range test: per questo test si può specificare soltanto un livello di significatività
di 0.01, 0.05 e 0.10.
•
Student-Newman-Keuls test: la p è di 0.05.
•
Tukey’s honestly significant difference test: la p è di 0.05.
•
Tukey’s b: la p è di 0.05.
•
Scheffè : questo è un test per confrontare coppie di medie e richiede una grande differenza fra le medie per essere significativo; la p può avere un valore tra 0 e 1.
Con il pulsante Options , infine, è possibile richiedere il test di omogeneità delle varianze delle popolazioni e
l’analisi descrittiva della comparazione delle medie.
Lettura dell’output della procedura One way
40
L’analisi della varianza, come si è visto, testa l’uguaglianza delle medie in base all’assunto che tutte le categorie, gruppi o medie campionarie provengano da un campione casuale di soggetti indipendenti e che derivino
dalla stessa popolazione. Se si testa l’uguaglianza delle medie di tre categorie, l’ipotesi nulla si presenta,
simbolicamente, in questo modo
H0 :µ1 = µ 2 = µ 3
L’ipotesi alternativa potrebbe essere H1 = non tutte le medie sono uguali; in altri termini, l’ipotesi di ricerca
potrebbe essere che almeno due delle medie differiscano.
Riassumendo quanto detto sul calcolo dell’analisi della Varianza ribadiamo che si tratta di un’analisi basata sul
confronto di due tipi di varianza dei gruppi del campione: quella fra i gruppi (o somma dei quadrati fra i gruppi)
e quella all’interno dei gruppi (o somma dei quadrati all’interno dei gruppi). Il primo passo consiste
nell’esaminare la variabilità totale: se infatti si considerano i gruppi come un tutto unico, la variabilità totale
(SST= Sum Square Total) può essere calcolata usando la varianza, in base alla formula:
c
nj
j =1
i= 1
SST = ∑ ∑ ( x − x )
2
ij
dove:
x=
c
nj
j =1
i= 1
∑ ∑ x ij
n
è la media aritmetica generale;
xij = l’iesima osservazione del gruppo j ;
n j = numero di osservazioni presenti nel gruppo;
n = numero totale di osservazioni;
c = numero dei gruppi.
La variazione totale o somma totale dei quadrati SST consente di stimare le differenze esistenti fra ogni valore
Xij e la media aritmetica generale x . Ma la somma totale dei quadrati può essere suddivisa fra variazione o
somma dei quadrati fra i gruppi (dato che le medie aritmetiche campionarie dei gruppi spesso non risultano
uguali) identificata con SSB (Sum Square between) e variazione o somma dei quadrati all’interno dei gruppi SSW (Sum Square within) in quanto i valori, all’interno di ciascun gruppo sono diversi. Si ha quindi:
Somma totale dei quadrati = (somma dei quadrati fra i gruppi) + (somma dei quadrati all’interno dei gruppi)
cioè:
SST= SSB + SSW
La somma dei quadrati o varianza fra i gruppi è data dal quadrato delle differenze fra la media aritmetica
campionaria di ogni gruppo e la media aritmetica generale, ponderata in base al numero delle osservazioni dei
gruppi.
SSB = ∑ n ( x − x )
c
j
j= 1
2
j
dove:
n j = numero di osservazioni nel gruppo j
xj = media aritmetica campionaria del gruppo j
x = media aritmetica generale
La somma dei quadrati, o varianza, all’interno dei gruppi, si misura, invece, calcolando la differenza tra
ciascun valore e la media aritmetica del gruppo cui esso appartiene e sommando i quadrati di tali differenze
per tutti i gruppi.
SSW = ∑ ∑ ( x − x )
dove:
xij = iesima osservazione presente nel gruppo j
x j = media aritmetica del gruppo j
41
c
ni
j =1
i= 1
ij
j
2
Per procedere a questo tipo di analisi è importante il calcolo dei gradi di libertà. Questi, per la somma dei
quadrati fra i gruppi, sono dati da k-1, cioè il numero dei gruppi meno uno. I gradi di libertà per la somma dei
quadrati all’interno dei gruppi sono, invece, dati da N-k, cioè dal numero dei casi di tutti i gruppi meno il numero dei gruppi.
Dividendo le somme dei quadrati per i rispettivi gradi di libertà si ottengono le medie dei quadrati, che stimano la variabilità media all’interno e fra i gruppi. La varianza stimata fra i gruppi (Mean Squares Between) è basata su quanto le medie dei gruppi varino fra loro; la varianza stimata all’interno dei
gruppi (Mean Squares Within) è basata sulla quantità di variazione delle osservazioni all’interno di
ciascuno dei gruppi: se l’ipotesi nulla è vera i valori delle due stime risultano molto simili e il loro rapporto è
uguale o prossimo ad uno. Se, al contrario, esiste effettivamente una differenza, la varianza fra i gruppi sarà
significativamente maggiore della varianza all’interno dei gruppi.
Il test statistico che si usa per testare l’ipotesi nulla che tutti i gruppi abbiano le stesse medie nella popola14
zione, si chiama F ed è calcolato, appunto, come rapporto fra la media della somma dei quadrati fra i gruppi
e la media della somma dei quadrati all’interno dei gruppi:
F= MSB/MSW
L’output fornito da SPSS è il seguente:
Output dell’analisi della varianza a una via
Descrittivi
FREQANNO
N
Media
Deviazion
e std.
Intervallo di confidenza 95% per
la media
Errore
std.
Limite inferiore Limite superiore
Minimo
Massimo
1 NON LAVORA
250
3,81
2,070
,131
3,55
4,07
0
8
2 LAVORO OCCASION.
142
3,04
1,909
,160
2,73
3,36
0
6
3 LAVORO STABILE
422
1,51
2,001
,097
1,32
1,70
0
12
Totale
814
2,48
2,259
,079
2,33
2,64
0
12
ANOVA univariata
FREQANNO
Somma dei
quadrati
Fra gruppi
df
Media dei quadrati
881,321
2
440,661
Entro gruppi
3265,971
811
4,027
Totale
4147,292
813
F
109,424
Sig.
,000
Test post hoc
14. Prende il nome dallo statistico R. A. Fisher
42
Confronti multipli
Variabile dipendente: FREQANNO
Bonferroni
Differenza fra
medie (I-J)
(I) ATTLAV
(J) ATTLAV
1 NON LAVORA
1 NON LAVORA
2 LAVORO OCCASION.
Intervallo di confidenza 95%
Errore std.
Sig.
Limite inferiore Limite superiore
,77*
,211
,001
,26
1,27
2,30*
,160
,000
1,91
2,68
-,77*
,211
,001
-1,27
-,26
1,53*
,195
,000
1,06
2,00
1 NON LAVORA
-2,30*
,160
,000
-2,68
-1,91
2 LAVORO OCCASION.
-1,53*
,195
,000
-2,00
-1,06
3 LAVORO STABILE
2 LAVORO OCCASION. 1 NON LAVORA
2 LAVORO OCCASION.
3 LAVORO STABILE
3 LAVORO STABILE
3 LAVORO STABILE
*. La differenza tra le medie è significativa al livello .05.
Il programma calcola la somma dei quadrati fra i gruppi (nell’esempio: 881.321), con i rispettivi gradi di libertà: 3 categorie di ATTIVRIC danno k=3, quindi, dalla formula, si avrà 3-1= 2 gradi di libertà per SSB. La
somma dei quadrati all’interno dei gruppi dà 3265.971, con 811 gradi di libertà (Numero dei casi di tutti i
gruppi =814, gruppi=3, per cui in base alla formula si ha 814 - 3=811). La media dei quadrati fra i gruppi è data dal rapporto:
Mean Squares between = 881.321/ 2 = 440.661
mentre la media dei quadrati all’interno dei gruppi è data da:
Mean Squares within = 3265,971/ 811 = 4.027
L’F sarà quindi dato da:
F = 440.661 / 4.027 = 109.424
La probabilità di F, nell’esempio, è molto bassa (Prob. 0.000) ed è quindi possibile rifiutare l’ipotesi nulla, si
può cioè affermare che esiste una differenza significativa fra il numero medio di corsi seguiti nei gruppi formati dall’attività lavorativa degli studenti.
L’F, dunque, ha indicato che i gruppi hanno medie differenti, tuttavia non è bene limitarsi a questo test: è
opportuno sottoporre i dati anche ad un test che confermi l’ipotizzata omogeneità della varianza delle popolazioni, in quanto, se le varianze nella popolazione non fossero uguali, cadrebbe uno dei presupposti essenziali
che consentono l’uso di questo tipo di analisi. Per testare l’omogeneità delle varianze, in SPSS, bisogna selezionare, nella finestra One-Way ANOVA, il pulsante Options e, nella sotto-finestra che automaticamente si
apre, fare clic sul quadratino accanto alla voce Homogeneity of variance:
Il programma fornisce il Levene Test in cui l’ipotesi nulla è che le varianze siano omogenee. L’output, per il
nostro esempio, è il seguente:
Output relativo al test di omogeneità delle varianze
Test di omogeneità delle varianze
FREQANNO
Statistica di Levene
1,159
df1
df2
2
Sig.
811
,314
poiché il livello di significatività è alto, non è possibile respingere l’ipotesi nulla di omogeneità delle varia nza
delle popolazioni e quindi l’uso dell’analisi della varianza è da ritenersi corretto.
43
Nel caso di mancata omogeneità della varianza si può ugualmente procedere all’analisi usando, però un test
che ‘superi’ questa condizione. Il più usato è il test T2 o test di Tamhane.
5. La logica delle relazioni causali
Come già detto, soprattutto nella ricerca sociale, si tende a stimare gli avvenimenti in termini di causa ed
effetto, considerando implicito e naturalmente acquisito il concetto di causalità. Tuttavia è fondamentale porsi
il problema del reale significato di affermazioni più o meno generiche quali” il fumo provoca il cancro” o “la
diffusione della droga causa un aumento della criminalità”. In altri termini, il ricercatore deve chiedersi cosa
significhi affermare: la variabile indipendente A causa una variabile dipendente B.
Una relazione di causa ? effetto si verifica soltanto in presenza di tre precise condizioni:
I.
La causa deve precedere l’effetto: la variabile indipendente deve, pertanto, intervenire prima della variabile dipendente. Nella ricerca scientifica, sociale o di qualunque altro tipo, le esperienze sono strutturate
in modo tale per cui il ricercatore analizza la variabile indipendente prima di osservarne gli effetti su di
una variabile dipendente.
II. Le due variabili, indipendente e dipendente, devono essere fra loro associate. Relativamente a questa
condizione bisogna rifarsi alla statistica che, come si è visto, mette a disposizione numerosi test per verificare e/o misurare l’esistenza di tale associazione.
III. L’associazione fra le due variabili non deve dipendere da un altro fattore, da una terza variabile antecedente. Questa terza condizione, anch’essa di tipo statistico, specifica che non deve esistere una variabile
(detta antecedente) che, agendo prima della variabile indipendente, provochi fra A e B una relazione di
tipo statistico ma non causale, una relazione, cioè, logicamente falsa e pertanto definita “spuria”.
Nelle scienze sociali, la presenza di questa terza condizione viene controllata con l’introduzione di una terza variabile detta appunto “variabile di controllo”.
Esaminiamo come sia possibile utilizzare una terza variabile, per verificare l’esistenza di una eventuale relazione spuria in una tavola di contingenza: un primo incrocio fra il genere degli studenti e l’eventuale attività
lavorativa durante gli studi ha dato i seguenti risultati:
Tavola di contingenza ATTIVRIC * V02 SESSO
ATTIVRIC
1 NESSUNA
2 SALTUARIA
3 STABILE/CONTINUAT.
Totale
Conteggio
% entro V02
SESSO
Conteggio
% entro V02
SESSO
Conteggio
% entro V02
SESSO
Conteggio
% entro V02
SESSO
V02 SESSO
1
2
MASCHIO
FEMMINA
134
116
Totale
250
29.9%
32.0%
30.9%
66
76
142
14.7%
21.0%
17.5%
248
170
418
55.4%
47.0%
51.6%
448
362
810
100.0%
100.0%
100%
Chi-quadrato di Pearson = 7.509 Sig. 0.023
44
Secondo questa tabella sembra esistere un’associazione statistica fra genere ed attività lavorativa15: le
studentesse tenderebbero a lavorare, durante gli studi universitari, in percentuale minore dei compagni. È tuttavia possibile verificare che non si tratti di una relazione spuria introducendo un’altra variabile, ad esempio il
titolo di studio, che (come si è visto nell’esempio precedente) ha una significativa influenza sull’attività lavorativa.
Con il menu del programma Spss Windows, ottenere l’incrocio fra tre variabili è molto semplice, basta indicare la variabile di controllo nella finestra Tavole di contingenza (Cfr. grafico)
Grafico - Esempio di tabella a tre dimensioni
L’output della procedura richiesta consiste in una tavola costituita da due tabelle bivariate, ognuna delle
quali descrive la relazione fra ‘Genere’ e ‘Attività lavorativa’ rispetto ad un particolare ‘Tipo di diploma’ (maturità liceale –altra maturità)
Esempio dell’output Spss di un incrocio a tre dimensioni
15 Anche se un valore di solo 0.10 della V di Cramer avverte che si tratta di un legame molto debole
45
Tavola di contingenza ATTIVRIC * V02 SESSO * TIPODIP
TIPODIP
0 altro dip.
V02 SESSO
1
2
MASCHIO
FEMMINA
ATTIVRIC
94
36.7%
72
39.1%
166
37.7%
2 lavoro stabile
162
63.3%
256
112
60.9%
184
274
62.3%
440
100.0%
106
100.0%
120
100%
226
55.2%
86
67.4%
58
61.1%
144
44.8%
192
32.6%
178
38.9%
370
100.0%
100.0%
100%
Totale
1 liceo
ATTIVRIC
Totale
1 no/lavori saltuari
1 no/lavori saltuari
2 lavoro stabile
Totale
Queste tabelle bivariate, quando sono incluse in una tavola multivariata, vengono definite tabelle parziali ed è
possibile calcolare, per ciascuna di esse, una misura di associazione o il test del chi quadrato16.
Chi-quadrato
TIPODIP
0 altro dip.
1 liceo
Chi-quadrato di Pearson
Chi-quadrato di Pearson
Valore
.265b
5.790c
df
1
1
Sig. asint.
(2 vie)
.607
.016
a. Calcolato solo per una tabella 2x2
b. 0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggio
atteso minimo è 69.42.
c. 0 celle (.0%) hanno un conteggio atteso inferiore a 5. Il conteggio
atteso minimo è 69.28.
Nel caso dell’esempio questo test mostra chiaramente che l’associazione statistica prima rilevata fra le variabili Genere e Attività lavorativa permane solo rispetto a quanti provengono dai licei. Quella rilevata era,
dunque, una relazione spuria dovuta all’effetto di una terza variabile (il Tipo di diploma) che ha una forte relazione causa – effetto sull’eventuale attività lavorativa degli studenti universitari.
6. Il coefficiente di correlazione lineare
L’associazione statistica fra due variabili quantitative prende il nome di correlazione: il fatto che queste due
variabili siano cardinali consente di rappresentare i dati su diagrammi che comportino degli assi numerici: una
prima, utile, analisi della relazione esistente fra due variabili a intervalli o rapporti consiste, come già per quelle
ordinali, nella loro rappresentazione grafica in un sistema di coordinate cartesiane: i valori di una variabile vengono riportati sull’asse orizzontale x (ascissa)17, mentre i valori dell’altra vengono riportati sull’asse verticale
y (ordinata). Ogni caso del campione viene così rappresentato dal punto di intersezione delle normali che partono dai valori osservati delle due variabili: ne risulta una distribuzione in grado di rappresentare la relazione
fra le variabili stesse.
16. Vi sono dei metodi più avanzati per calcolare il Chi-quadrato per tabelle parziali, metodi che si basano sulla separazione del chi-quadrato bivariato in due chi-quadrati differenti delle tabelle parziali, ma per l’utilizzo di questi test rimandiamo
alla consultazione di testi di statistica avanzata.
17. Generalmente la variabile indipendente viene rappresentata sulla X, la variabile dipendente sulla Y.
46
La correlazione è tanto più ele vata quanto più la nube di punti del diagramma, che ha per coordinate i valori accoppiati delle due variabili x e y si avvicina ad una curva regolare. Questa curva può presentare forme
diverse, a seconda del tipo di relazione esistente fra le variabili esaminate: quando i punti si raggruppano formando una retta si parla di correlazione lineare. La correlazione lineare è misurata dal coefficiente r di Pearson, che esprime l’intensità della relazione fra le variabili. Questo coefficiente varia fra +1 e -1 (quando r ha
valore più o meno uno tutti i punti cadono esattamente su una retta); se r è uguale a ±1 si ha dipendenza assoluta, se è 0 si ha assoluta indipendenza. Quando la correlazione è positiva le due distribuzioni variano nello
stesso senso, quando è negativa variano in senso inverso. La formula per ottenere il coefficiente di correlazione è:
n
r=
∑ ( x − x )( y − y )
i=1
( n − 1) s x s y
dove n=numero dei casi; sx ed sy = scarto quadratico medio (deviazione standard) delle due variabili. Il valore
assoluto di r indica, come si è detto, la forza della correlazione lineare.
Lo scopo è di verificare se, in base al coefficiente del campione r, sia possibile stimare il coefficiente di
correlazione, detto rho (ρ), della popolazione. L’assunto, perché il test sia valido, è di avere a che fare con
campioni casuali, estratti da una distribuzione in cui le due variabili (misurabili, almeno, a livello di intervalli)
presentino, congiuntamente, un andamento normale. Se questa condizione è soddisfatta, il test che ha come
ipotesi nulla che il coefficiente per la popolazione sia 0, può essere basato sul calcolo della statistica:
t=r
n−2
1− r2
che, se ρ = 0, ha una distribuzione t di Student con n-2 gradi di libertà.
I vari packages statistici mettono a disposizione dei ricercatori le procedure per ottenere la correlazione bivariata: in Spss Windows è sufficiente selezionare Statistica ñ Correlazione ñ Bivariata.
L’output che ne deriva è il seguente:
Correlazioni
ORELAV
ORELAV
TFREQ
Correlazione di Pearson
Sig. (2-code)
N
TFREQ
**.
Correlazione di Pearson
-.524**
Sig. (2-code)
.000
N
802
La correlazione è significativa al livello 0,01
(2-code).
7. La regressione lineare
Se due variabili, misurabili a livello di intervalli o di rapporti risultano correlate, è possibile predire il valore
di una variabile per un determinato soggetto, se si conosce il suo valore sull’altra variabile. In altri termini è
possibile calcolare l’equazione della curva che rappresenta, geometricamente, la relazione esistente fra le due
variabili. Questa equazione è detta equazione di regressione: quando la correlazione è lineare anche la regres-
47
sione viene definita lineare e la relazione fra le due variabili è descritta da una retta, detta retta di regressione18. L’equazione di questa retta è
y = a + bx + e
dove:
y = valore della variabile dipendente
a = punto della retta che incontra l’asse della y o intercetta
b = inclinazione della retta (definito coefficiente di regressione): il suo valore indica la quantità di variazione
della variabile dipendente per ogni unità di variazione della variabile indipendente. Il segno di questo valore
indica se si produce un aumento (segno positivo e pendenza crescente) o una diminuzione (segno negativo
e pendenza decrescente);
e = rappresenta l’errore di stima, cioè l’inadeguatezza dell’equazione di regressione nella predizione del valore della variabile dipendente.
L’equazione di regressione consente, partendo dai valori conosciuti della variabile indipendente di predire i
valori della variabile dipendente. Il calcolo del coefficiente viene, generalmente, effettuato col metodo dei minimi quadrati19 e la loro significatività viene stabilita sulla base del test t. mentre la significatività della correlazione viene testata con l’ F.
Si ricorda che l’uso dell’analisi della regressione richiede tre, importanti, ipotesi di base: normalità, omoschedasticità e indipendenza dell’errore e si rimanda, per gli opportuni approfondimenti, ai manuali di statistica.
In Spss per effettuare l’analisi della regressione lineare bisogna selezionare:
Analizza ⇒ Regressione ⇒ Lineare
In tal modo si apre la finestra:
L’output della regressione (nell’esempio si vuole predire il numero di anni di reclusione comminati in giudizio, sulla base del numero di condanne già subite dai soggetti) , è il seguente:
18 . L'uso del termine “regressione” per indicare il calcolo della variazione dei valori di una variabile dipendente, rispetto a
quelli di una variabile indipendente è dovuto a F. Galton, il quale, compiendo studi antropometrici (in particolare la relazione esistente fra le stature di padri e figli) notò che fra le altezze esisteva una stretta relazione in quanto padri alti generavano figli alti. Tuttavia notò anche che, nei figli, tendeva ad esserci un abbassamento di statura rispetto a quella dei
padri, cioè una tendenza alla regressione. Di qui la definizione per questo tipo di analisi.
19 Il metodo dei minimi quadrati consiste nel trovare la distanza minima che separa i punti, ottenuti dalla confluenza di
entrambe le variabili in ognuno dei casi, e la retta di regressione.
48
Riepilogo del modello
Modello
1
R-quadrato
corretto
.698
R
R-quadrato
.855a
.731
Errore std. della
stima
1.00
a. Stimatori: (Costante), NCOND
Viene fornito il cosiddetto R, cioè l’R multiplo20 che, nel caso della regressione lineare semplice, equivale al
coefficiente r di Pearson. Il secondo valore è l’R al quadrato: questo coefficiente (che è dato dall’ R multiplo
elevato al quadrato, e, quindi, nel caso della regressione semplice, dall’r di Pearson al quadrato) indica la bontà di approssimazione del modello: se tutte le osservazioni cadono sulla retta di regressione il valore di R2 è 1.
Se non esiste relazione fra la variabile dipendente e l’indipendente R2 è 0. Va sottolineato che l’R2 indica la
bontà di approssimazione di un partic olare modello, quindi, anche nel caso che esso valga 0, ciò non significa
che fra le due variabili non possa esistere un qualche tipo di relazione, ma solo che non vi è una relazione di
tipo lineare. Per testare l’ipotesi nulla che non vi sia una relazione di tipo lineare fra le due variabili possono
essere usate statistiche diverse ma, nel caso della regressione semplice, l’ipotesi che l’R2 della popolazione
sia 0, è identica all’ipotesi che il coefficiente angola re sia 0. Il test per R2 pop = 0 viene ottenuto con l’analisi
della varianza e l'F consente di testare come il modello approssima i dati: se la probabilità ad esso associata è
piccola (come nell’esempio) si può rifiutare l’ipotesi nulla R2 pop= 0.
Nella Regressione l’errore standard della stima è una misura dell’accuratezza della previsione: è calcolato
come la radice quadrata della somma dei quadrati dei residui diviso per il numero dei casi meno 2.
Errore standard della stima = somma quadrati residui / N − 2
È la deviazione standard degli errori di predizione (dei residui). Ci dice la probabilità che un determinato valore
della dipendente si trovi in quel 68% di valori situato entro una deviazione standard del valore predetto, 95%
entro due deviazioni standard e 99% entro tre deviazioni. L’errore standard della stima dei punteggi del giudice A (dell’esempio dei giudici) è circa 0.8 cioè
(v [1.9/(5-2)] = 0.79582). Per esempio quando il punteggio del Giudice B è 2, il punteggio predetto del Giudice A è calcolato, in base all’equazione di regressione come 2.1; poiché l’errore standard della stima del punteggio del Giudice A è circa 0.8 c’è il 68% di probabilità che il reale punteggio dato dal Giudice A cada in un
range 2.1 ± 0.8 (cioè da 1.3 a 2.9), il 95% che cada fra 2.1 ± 1.6 (2 X 0.8=1.6) ed il 99% che cada fra 2.1 ±
2.4 (3 X 0.8=2.4).
Coefficienti a
Coefficienti non
standardizzati
Modello
1
(Costante)
B
.857
Errore std.
.705
NCOND
1.051
.225
Coefficie
nti
standardi
zzati
Beta
.855
t
1.216
Sig.
.259
4.668
.002
a. Variabile dipendente: ANNIRECL
20. Poiché Spss usa, per i simboli statistici, la lettera maiuscola, nell'illustrazione dell'output è stato usato, per non causa-
re confusione, lo stesso tipo di notazione .
49
ANOVAb
Modello
1
Regressione
Residuo
Totale
Somma dei
quadrati
21.651
1
Media dei
quadrati
21.651
7.949
8
.994
29.600
9
df
F
21.790
Sig.
.002a
a. Stimatori: (Costante), NCOND
b. Variabile dipendente: ANNIRECL
50