LA RICERCA NELLE SCIENZE SOCIALI CON I LOG

Augusto Gnisci – Arrigo Pedon
LA RICERCA
NELLE SCIENZE SOCIALI
CON I LOG-LINEARI
ARMANDO
EDITORE
Sommario
Prefazione
9
PARTE I: PROLEGOMENI
13
Capitolo 1
Il lessico e gli strumenti di base
1. Cos’è una variabile
2. L’organizzazione delle variabili in tabelle di contingenza
3. La matrice dei dati
4. Quattro principi preliminari per l’analisi dei dati
5. Che cos’è un modello
6. Riassunto
15
15
21
27
27
29
30
Capitolo 2
Come immettere i dati in SPSS
1. Cos’è l’SPSS e come si costruisce un file dati
2. Come immettere dati di frequenza in un file dati di SPSS
3. Come definire le variabili
4. Come costruire una matrice Casi x Variabili
5. Come costruire una Tabella di Frequenza
6. Distribuzioni di frequenza
7. Riassunto
33
33
34
35
36
39
41
43
PARTE II: IL CHI QUADRO TRADIZIONALE
45
Capitolo 3
Il chi quadro applicato ad una variabile
1. L’uso del chi quadro tradizionale
2. Distribuzioni di tipo diverso
47
47
50
3.
4.
5.
6.
Il chi quadro applicato ad una variabile politomica
L’analisi dei residui standard
Procedura e fasi per il calcolo del chi quadro tradizionale
Riassunto
Capitolo 4
Il chi quadro applicato a due variabili
1. Il chi quadro applicato a due variabili dicotomiche (2x2)
2. L’analisi dei residui standard e corretti per tabelle 2x2
3. La descrizione dei risultati: probabilità e percentuali semplici
e condizionate
4. Alcuni esempi 2x2 e AxB
5. Riassunto
Capitolo 5
Gli indici di associazione tra due variabili
1. Gli indici di associazione
2. Gli indici additivamente asimmetrici: odds e odds ratio
3. Gli indici simmetrici: il logaritmo di , il Q di Yule e il 
di Pearson
4. I tre tipi di statistiche utilizzate: caratteristiche e differenze
5. Una statistica di associazione per due variabili politomiche: l’entropia
6. Riassunto
Capitolo 6
Come fare le analisi del chi quadro per tabelle AxB con SPSS
1. I comandi per analizzare tabelle AxB
2. La lettura dell’output
3. Riassunto
Capitolo 7
La verifica delle ipotesi tramite il 2
1. Teoria dell’inferenza statistica
2. La teoria della decisione o verifica delle ipotesi (hypothesis testing)
3. La distribuzione 2
4. I gradi di libertà
5. Le assunzioni per l’applicabilità della statistica X2
6. Adattamento del modello e verifica delle ipotesi: due logiche e
due procedure
52
54
58
59
61
61
66
69
72
73
75
75
76
81
86
92
93
95
95
101
104
105
106
108
114
117
119
122
7. Indici di bontà dell’adattamento: il rapporto di verosimiglianza o G2 124
8. Riassunto
125
PARTE III: DAL CHI QUADRO AI MODELLI LOG-LINEARI
127
Capitolo 8
La scelta del modello per tabelle 2x2
1. L’obiettivo dei modelli log-lineari
2. Le fasi dell’analisi log-lineare
3. Creazione e stima dei modelli
3.1. Il modello nullo o equiprobabile [0]
3.2. Il modello dell’effetto marginale: o [A] o [R]
3.3. Il modello di indipendenza (o di omogeneità) [R] [A]
3.3.1. I modelli diretti e indiretti
3.4. Il modello saturo [RA]
4. La scelta del modello
5. Riassunto
129
129
131
132
135
137
140
141
144
146
148
Capitolo 9
La valutazione e l’interpretazione del modello scelto per tabelle 2x2
1. Valutazione e interpretazione del modello scelto
2. Il G2 parziale (G2) come ausilio nella scelta del modello migliore
3. La percentuale di varianza spiegata dal modello e da ciascun effetto
4. I parametri  e i parametri standardizzati
5. Interpretazione degli effetti
6. Calcolo a mano dei parametri , della deviazione standard e dei
parametri standardizzati
7. Riassunto
Capitolo 10
I modelli log-lineari per tabelle AxBxC
1. Creazione del modello
2. I modelli più semplici del modello di completa indipendenza
3. Il modello di completa indipendenza [A] [B] [C]
4. Il modello di indipendenza di un fattore [AB] [C]
5. Il modello di indipendenza condizionale [AB] [AC]
6. Il modello di associazione omogenea [AB] [AC] [BC]
7. Il modello saturo [ABC]
8. I gradi di libertà dei modelli
149
149
150
152
154
160
161
166
169
170
174
175
176
176
177
178
179
9. Sistemi di notazione per indicare i modelli
10. Un esempio AxBxC
11. Calcolo a mano dei parametri
12. Riassunto
180
181
185
190
Capitolo 11
L’analisi log-lineare con SPSS
1. Comandi per l’analisi con Loglineare Generale di SPSS
1.1. Lettura dell’output
1.2. Procedure consigliate per l’analisi con Loglineare Generale
2. Comandi per l’analisi gerarchica con Selezione del Modello di SPSS
2.1. Lettura dell’output e parametri
3. Riassunto
191
191
193
197
199
201
208
Capitolo 12
Applicazioni di ricerca a tabelle multivariate
1. Un esempio di analisi log-lineare AxBxCxD
2. Un esempio di analisi log-lineare AxBxCxDxE
3. Riassunto
209
209
218
226
Capitolo 13
Problemi di ricerca e soluzioni
1. Regole pratiche per la numerosità delle frequenze
2. Cosa fare in caso di poche frequenze
3. Il paradosso di Simpson
4. Come usare le tavole del chi quadro, i programmi statistici o Excel
per sapere i valori critici del chi quadro
5. Cosa fare in caso di molte frequenze (ipersignificatività e potenza
del test)
6. Come calcolare la potenza del test
7. Come scegliere il modello base e le procedure backward e forward
8. Riassunto
227
227
229
231
233
238
242
246
252
Appendice
253
Bibliografia
257
Indice analitico
261
Prefazione
di Augusto Gnisci
Nella mia memoria, questo libro è associato ad una storia accaduta qualche tempo fa, quando cominciavo ad occuparmi di tecniche di analisi per
variabili qualitative. Ne ero molto fiero, perché a quei tempi era un argomento di cui si parlava molto e si sapeva poco, un argomento che, per usare
un termine inappropriato per un contesto scientifico, cominciava ad “andare
di moda”. Quando incontrai la professoressa Ercolani, l’Ordinario dell’area
psicometrica nella mia facoltà di quei tempi, certo di una sua approvazione,
subito le dissi che il professor Pedon mi aveva proposto di scrivere un libro
a due mani proprio sull’analisi dei modelli log-lineari, la tecnica d’elezione
per l’analisi delle variabili qualitative. Lei mi guardò e mi disse in un tono
scherzoso e provocatorio che, nella mia ignoranza giovanile, percepii come
vero: «Sì, va bene, ma voi vi limitate a contare, noi invece misuriamo!».
La professoressa faceva riferimento alle due tradizioni nate dalla distinzione di Stevens tra variabili qualitative – categorie discrete che contengono degli insiemi di oggetti che vanno appunto contati, come le persone con
gli occhi chiari e quelle con gli occhi scuri – e le variabili quantitative, che
sono categorie che hanno un valore numerico, come l’altezza. In realtà,
come Stevens ci ha insegnato, l’atto di misurazione riguarda tanto le variabili qualitative quanto quelle quantitative, solo che la misurazione di queste
ultime deve tener conto di regole più specifiche.
Non avrei dovuto cadere in quella trappola, eppure lo feci, cercando pedantemente di sostenere l’importanza delle variabili qualitative.
Eppure quella battuta aveva un fondo di verità. Le tecniche parametriche, quelle legate alle variabili quantitative, avevano fatto dei passi da gigante e si erano diffuse così ampiamente da relegare, nei programmi di psicometria, le variabili qualitative ai soliti aspetti descrittivi di base e
all’onnipresente chi quadro. Anche il dibattito su questi aspetti si era ideologizzato, con autori che rivendicavano spazio per le “cugine deformi delle
9
variabili quantitative”, come mirabilmente resoconta Corbetta, oppure che
proponevano di trasformare tutte le variabili quantitative in qualitative e di
applicare augurabilmente tecniche di analisi log-lineare, in modo da individuare pattern di associazione piuttosto che meri coefficienti di correlazione.
Molte di queste velate rivendicazioni si basavano sul fatto che le tecniche
di analisi per variabili qualitative non richiedevano l’assunzione della distribuzione normale, e quindi potevano essere applicate con maggiore libertà, a scorno del fatto che fossero definite però per difetto, non-parametriche.
In realtà, volendo sorvolare su molti altri aspetti, uno dei contributi più
importanti della statistica dell’ultima parte del secolo scorso è stato proprio
il concetto di modelli lineari generalizzati (GLM), ovverosia una rete interconnessa di concetti che unifica molti dei metodi tradizionali, come la regressione lineare e l’analisi della varianza, con le tecniche di modelling per
dati categoriali, come i modelli log-lineari e la regressione logistica. Molti
libri di statistica, perciò, adesso presentano un primo capitolo generale che
riguarda l’approccio integrato e poi i singoli capitoli sulle tecniche specifiche come applicazioni a casi specifici di quel primo approccio generale. Oltre a rendere del tutto obsoleto il dibattito di cui sopra, questo approccio ha
avuto delle conseguenze enorni. La concezione della “verità scientifica”
che ha caratterizzato molta della ricerca sociale è passata da una concezione
binaria (“sì, ho verificato”, “no, non ho verificato”) ad un approccio di costruzione di modelli, di compatibilità di essi con i dati (il fitting), di identificazione di indici adeguati per la loro bontà, e di stima delle dimensioni
degli effetti, aspetto quest’ultimo da sempre sottovalutato, nonostante le indicazioni dell’American Psychological Association. Il principio di base
combina la parsimonia della spiegazione con l’utilità del modello scelto a
fini predittivi.
Questo libro recepisce questa prospettiva, ma si colloca ad un livello più
introduttivo e didattico. Le prime due parti del libro sono dedicate agli aspetti di base delle variabili qualitative e all’armamentario tradizionale del
chi quadro, che è di grande aiuto per la comprensione dei modelli loglineari.
La terza parte conduce il lettore passo passo verso tematiche avanzate,
come l’analisi di tabelle bivariate e poi multivariate, affrontando i problemi
di scelta del modello e di interpretazione degli effetti in esso contenuti, e
termina con due capitoli applicativi. Un capitolo è di applicazioni di ricerca, ognuna delle quali evidenzia alcuni problemi specifici che i ricercatori
alle prime armi possono trovarsi di fronte, l’altro è un capitolo interamente
10
dedicato alle domande che solitamente si pongono coloro che fanno ricerca
in questo ambito e, ovviamente, alla loro soluzione.
In questi capitoli, il lettore scoprirà le regole per rispondere ai dubbi che
spesso ha avuto: per esempio, quante sono le frequenze minime per fare un
chi quadro o un’analisi log-lineare? Ma scoprirà anche problematiche di cui
non aveva coscienza: per esempio, che esiste anche un problema di eccesso
di frequenze; oppure com’è possibile che, seppure il trattamento comportamentista è più efficace di quello psicoanalitico negli uomini e nelle donne, in generale però sembra più efficace quello psicoanalitico (è il famoso
paradosso di Simpson); quali tecniche permettono di confrontare modelli
diversi, come calcolare e far proficuamente uso della potenza del test, ecc.
A questo proposito il libro sembra colmare una lacuna nelle pubblicazioni sui modelli-log-lineari in Italia, che pure ha un’ottima manualistica:
da un lato, l’essere troppo formali, troppo vicini alle trattazioni matematiche dei classici fondamentali, dall’altro troppo ancorati alla semplicistica
spiegazione dei comandi e degli output statistici. Anche se le applicazioni
per SPSS accompagnano il lettore in tutto il libro in modo da metterlo in
condizione di agire consapevolmente e di comprendere gli aspetti talvolta
oscuri del suo output, la trattazione dei concetti si presta a diverse applicazioni informatiche (come per esempio, quella in ILOG, un programma gratuito scaricabile al sito: http://www2.gsu.edu/~psyrab/ilog).
Il libro è perciò adatto a corsi che, con varia denominazione, possono
essere definiti di metodologia e tecniche di analisi dei dati, sia dell’ultimo
anno del corso di laurea Triennale sia del corso di laurea Magistrale.
Desidero infine ringraziare il mio coautore, il professor Pedon, per avermi consigliato e suggerito originariamente l’idea e averla realizzata insieme a me, la professoressa Ercolani per avermi stimolato a “contare”, e i
ricercatori e gli studiosi che mi hanno permesso di utilizzare i loro dati di
ricerca come esempi.
11
PARTE I
PROLEGOMENI
Capitolo 1
Il lessico e gli strumenti di base
Sommario
1. Cos’è una variabile
2. L’organizzazione delle variabili in tabelle di contingenza
3. La matrice dei dati
4. Quattro principi preliminari per l’analisi dei dati
5. Che cos’è un modello
6. Riassunto
1. Cos’è una variabile
Secondo la definizione di misurazione proposta da Stevens (1946) si esegue un atto di misurazione ogni qual volta una categoria, o un simbolo
formale, viene associato ad un evento, un oggetto o un individuo, in base a
delle regole. Da un lato, abbiamo perciò degli eventi che accadono nel tempo o degli oggetti presenti nel mondo reale o degli individui che attuano dei
comportamenti, dall’altro dei sistemi di categorie con i quali etichettiamo,
codifichiamo o organizziamo gli eventi, gli oggetti o gli individui che fanno
parte del mondo e della nostra esperienza sensibile. Si potrebbe dire che da
una parte c’è la “realtà” e dall’altro le categorie, il più possibile precise e
accurate, con le quali misuriamo questa realtà. Tra questo sistema empirico
e questo sistema concettuale esistono delle regole di corrispondenza che
devono essere rispettate affinché la misurazione abbia luogo in maniera
corretta (Pedon, 1991; Vidotto, Xausa, Pedon, 1996).
L’oggetto della misurazione viene detto caso (o soggetto), mentre
l’insieme di categorie con le quali lo misuriamo viene detto variabile. Ne
segue che le variabili non sono altro che proprietà dei soggetti. Tali proprietà possono variare da soggetto a soggetto. Per esempio, il colore degli occhi
15
è una variabile che si applica a soggetti umani o animali. Dicendo che un
individuo possiede occhi azzurri stiamo facendo una sorta di misurazione,
attribuiamo cioè ad un soggetto una particolare caratteristica di una variabile. La variabile, come implica il nome stesso, è formata da un insieme di
categorie che variano tra loro. Ciascuna categoria viene detta livello, o modalità della variabile. La variabile Colore degli occhi è formata da almeno 4
categorie (azzurro, verde, marrone, nero), che cambiano a seconda del soggetto a cui vengono applicate, come mostrato in fig. 1.
Fig. 1. Una variabile e suoi livelli.
Colore degli occhi
VARIABILE
livelli
|
|
|
|
azzurri
verdi
neri
marroni
Se una caratteristica del soggetto non ha un ambito di variazione essa
non è una variabile e, perciò, viene detta costante. Il numero di gambe degli
esseri umani è una costante. C’è chi dice, col gusto del paradosso, che una
costante non è altro che una variabile con un solo livello.
Secondo un sistema di classificazione delle variabili ampiamente accettato nella ricerca e proposto anch’esso da Stevens, ci possono essere quattro
diversi tipi di variabili che cambiano la loro natura a seconda del rapporto
che intercorre tra le categorie (o livelli) di cui si compongono. Per capire la
natura di una variabile è quindi necessario capire il rapporto tra i livelli della variabile stessa. Se le categorie della variabile sono delle pure e semplici
categorie discrete, qualitativamente diverse l’una dall’altra, che non possono essere ordinate in nessun modo, come il colore degli occhi, esse sono
dette variabili categoriali (o nominali o mutabili). Esistono molte di queste variabili, tra cui il Genere (maschi, femmine) e la Religione (cattolica,
ebrea, musulmana, protestante, ecc.). I livelli della variabile possono essere
indicati con dei nomi, come maschi e femmine, o con dei codici arbitrari
(per esempio, a, b, c, d), ma non possono mai assumere dei valori numerici
o ordinali. Anche quando vengono indicati con dei numeri (1, 2, 3, 4), questi ultimi devono essere intesi come dei semplici simboli dal significato
nominale, cioè delle etichette.
Se, invece, le categorie possono essere ordinate in qualche modo, come
nella variabile Classe sociale, i cui livelli sono alta, media e bassa, allora la
16
variabile viene detta ordinale. Le variabili ordinali si contraddistinguono
perciò per il fatto che i loro livelli possono essere ordinati l’uno rispetto
all’altro (la classe sociale bassa viene prima della classe sociale media, che,
a sua volta, viene prima della classe sociale alta), ma non conosciamo o non
ha senso o non è possibile stabilire con esattezza che differenza c’è o quale
intervallo intercorre tra i livelli della variabile. Non ha perciò senso dire che
la classe sociale alta è maggiore di due, tre o quattro unità rispetto alla classe sociale media, e così via. Prendiamo come esempio la variabile ordinale
Domande: possiamo certamente dire che la domanda sì/no (per esempio,
“sei stato a casa ieri sera?”) è più chiusa di una cosiddetta domanda aperta
(“cosa è successo ieri sera?”), ma non possiamo in nessun modo dire di
quanto l’una è più chiusa dell’altra, né quante sono le unità di “chiusura”
che le separano. L’unica cosa su cui possiamo esprimerci è la graduatoria o
il rango sulla cui base i livelli della variabile vengono ordinati. In questo
senso, è possibile immaginare che le diverse categorie di una variabile ordinale giacciano su di un continuum che va da un polo col massimo della
proprietà della variabile ad un polo col minimo della proprietà. Per esempio, le domande giacciono su un continuum che va da massima a minima
apertura della domanda.
Le due tipologie di variabili descritte, categoriali e ordinali, insieme sono dette variabili qualitative e ad esse si applicano le tecniche d’analisi statistica discusse in questo libro (chi quadro e modelli log-lineari), tecniche
che vengono anche dette non parametriche (v. sotto).
Se i livelli della variabile, oltre che ordinati, possono anche essere numerati, cosicché ciascun livello corrisponde ad un numero e l’intervallo tra
un livello e quello adiacente è costante (unità di misura), allora la variabile
viene detta quantitativa o metrica. Come le variabili qualitative, anche
quelle quantitative si distinguono in due categorie: le variabili a intervalli e
quelle a rapporti1. Nelle variabili a intervalli (o a intervalli equivalenti), la
scala dei numeri corrispondenti ai vari livelli (per esempio, 1, 2, 3, 4, 5)
viene attribuita ai livelli della variabile con una certa arbitrarietà,
l’importante è che l’intervallo, cioè la differenza, tra essi sia costante. In
una variabile ad intervalli, perciò, è assolutamente equivalente se i valori
sono 0, 1, 2, 3, 4, oppure –2, –1, 0, +1, +2. Molte variabili utilizzate nella
1
Alcuni includono le variabili nominali e ordinali nelle qualitative e le variabili a intervalli e a rapporti nelle quantitative (Lombardo, 1993). Per altri, invece, le qualitative sono
formate dalle nominali e le quantitative da ordinali, a intervalli e a rapporti (anche se le ultime due vengono dette quantitative misurabili; Blalock, 1969; Ercolani, Areni, 1995).
17
ricerca sociale sono di questo tipo. Poiché la scala viene attribuita arbitrariamente ai livelli, anche il valore zero è un valore arbitrario assegnato ad
un livello e non uno zero assoluto o naturale. Perciò, l’assegnazione del valore zero ad una caratteristica psicologica non indica l’assenza reale di tale
caratteristica ma «un punto arbitrario del continuum nell’intensità con cui
tale caratteristica si può manifestare» (Areni, Ercolani, Scalisi, 1994, p. 29).
Per esempio, la temperatura in gradi Fahrenheit o in centigradi è una variabile a intervalli. Se il punto zero è arbitrario, non si può dire che una temperatura di 20° è doppia rispetto a una di 10° (sebbene lo si faccia nel linguaggio quotidiano), ma solo che la differenza che esiste tra 20° e 10° è la
stessa che esiste, per esempio, tra 30° e 20°. È come se volessimo pesare
determinati oggetti e aggiungessimo un peso sul piatto della bilancia (Blalock, 1984), per esempio, di un chilo: è corretto dire che un oggetto che pesa 10 chili è più pesante di 5 chili rispetto ad uno che ne pesa 5, ma sarebbe
scorretto dire che pesa il doppio dell’altro! Nove chili, infatti, non sono il
doppio di 4 chili. Altri esempi di variabile a intervalli sono il quoziente intellettivo (QI) e i punteggi in molti test di atteggiamento o personalità.
Quando, invece, lo zero indica vera assenza di quantità misurata, la variabile in questione è detta a rapporti (o a rapporti equivalenti). In questo
caso, siamo legittimati a dire che se due punteggi sono l’uno il doppio
dell’altro la quantità misurata è il doppio rispetto all’altra. Il numero di errori presenti all’interno di un testo scritto o dei figli presenti in una famiglia
sono variabili a rapporti: commettere zero errori o avere zero figli significa
proprio non aver commesso alcun errore o non avere alcun figlio. Altri esempi di variabili a rapporti sono l’età, il peso, la temperatura misurata sulla scala Kelvin (infatti, in questa scala, lo zero implica la mancanza di movimento delle molecole).
Quando si fa ricerca e si intende mettere a confronto o in relazione alcune variabili è sempre necessario individuare che tipo di variabili stiamo
trattando secondo la scala di Stevens. Questo è necessario sia per eseguire
una misurazione migliore sia per scegliere la tecnica adeguata per l’analisi
dei dati. Variabili differenti, infatti, hanno bisogno di differenti test statistici. Individuare qual è il tipo di variabile che abbiamo di fronte è cruciale.
Un modo semplice per avere questa informazione consiste nell’individuare
correttamente i livelli della variabile e rispondere a ciascuna delle seguenti
tre domande sì/no interconnesse, che come il lettore noterà, riassumono il
discorso precedentemente fatto:
1] I livelli della variabile sono ordinabili in un qualche modo naturale?
No, allora la scala è nominale (o categoriale o mutabile).
18
2]
3]
Sì, allora:
Gli intervalli tra i livelli della variabile sono equivalenti?
No, allora la scala è ordinale.
Sì, allora:
Lo zero indica veramente l’assenza della quantità misurata?
No, allora la scala è a intervalli.
Sì, allora la scala è a rapporti.
Nella fig. 2 viene offerto uno schema che mostra le differenze di base
tra i quattro tipi di variabili.
Come si vede, quando la variabile è categoriale, i livelli sono tutti diversi tra loro ed essi non si dispongono su nessun continuum; quando la variabile è ordinale, alcuni suoi livelli sono maggiori o minori di altri e si dispongono su un continuum; quando la variabile è a intervalli, gli intervalli
sono costanti; e, infine, quando la variabile è a rapporti, esiste uno zero naturale.
Si noti che i quattro tipi di variabili possono, a loro volta, essere considerati i quattro livelli ordinali della variabile Tipo di variabile (categoriale,
ordinale, a intervalli e a rapporti) e che, proprio per questo motivo, le proprietà dei livelli inferiori sono condivise da quelle superiori (per esempio,
una scala a rapporti può essere considerata un semplice insieme di categorie
nominali) ma non può accadere il contrario (una variabile nominale non
può avere uno zero assoluto).
Fig. 2. Le caratteristiche e le differenze tra i diversi tipi di variabili.
VARIABILE
Categoriale
|
|
|
|
|
()
a
b
c
d
e
Ordinale
|
|
|
|
|
(> o <)
I
II
III
IV
V
A intervalli
|
|
|
|
|
(i = k)
-2
-1
0
+1
+2
A rapporti
|
|
|
|
|
(0 naturale)
0
1
2
3
4
19
Come detto, la distinzione tra le diverse tipologie di variabili, in particolare quella tra le variabili qualitative e quantitative, è utile perché a seconda
del tipo di variabili studiate, possono essere applicate tecniche di tipo diverso. Le tecniche parametriche, che richiedono assunzioni sulla distribuzione dei dati e, in particolare, l’assunzione della distribuzione normale,
vengono applicate normalmente a variabili quantitative (almeno a variabili
dipendenti quantitative). Mentre le tecniche non parametriche, che non richiedono assunzioni sulla distribuzione dei dati, si applicano di solito a dati
nominali o ordinali, cioè a variabili qualitative, che sono il fulcro di questo
libro.
Le variabili possono essere categorizzate anche sulla base di altri criteri.
Spesso il ricercatore ha in mente delle relazioni tra variabili di causaeffetto, o antecedente-conseguente, sul piano temporale o su quello logico.
In questo caso, viene detta variabile dipendente (anche detta criterio o risposta) quella variabile che il ricercatore ritiene sia influenzata dalle altre,
che egli vuole cioè spiegare, e variabile indipendente (detta anche predittore o esplicativa) la variabile che il ricercatore pensa che possa spiegare o
influenzare i valori della variabile dipendente.
Un’altra distinzione che viene spesso fatta è quella tra variabili discrete
e continue. La variabile discreta può assumere solo determinati valori e,
sebbene sia usata a volte come sinonimo di variabile qualitativa, cosa di per
sé scorretta, in realtà può assumere i valori della categorie delle variabili
nominali, i ranghi delle variabili ordinali e anche i numeri interi delle variabili quantitative (per esempio, 3, 4, 5, 6). Essa assume sempre un numero
finito di valori all’interno del suo ambito di variazione. La variabile continua, invece, può assumere i valori di tutti i numeri reali, cioè i numeri interi
e tutti i punti frazionari tra di loro (Bakeman, 1992). Anche se il suo ambito
di variazione è limitato, può assumere un numero infinito di valori. Quindi,
le variabili nominali e ordinali sono per necessità sempre discrete, mentre
le variabili quantitative possono essere discrete (per esempio, il numero dei
figli) o continue (per esempio, l’altezza).
Infine, le variabili possono essere dicotomiche o politomiche a seconda
del numero di livelli: se hanno due soli livelli (come il sesso) sono dette dicotomiche, se hanno più di due livelli (per esempio, la religione, o il numero di figli, o l’atteggiamento autoritario) sono dette politomiche.
Le variabili qualitative hanno caratteristiche molto diverse rispetto alle
variabili quantitative. Queste ultime, come abbiamo avuto modo di dire
nell’introduzione, sono state studiate più a lungo e più approfonditamente
rispetto alle variabili qualitative, il che ha comportato un certo ritardo nello
20
sviluppo delle tecniche d’analisi statistica per variabili qualitative. Questo
ritardo, a sua volta, ha indotto molti ricercatori a “trasformare” indebitamente e inappropriatamente le variabili qualitative in variabili quantitative
per poter applicare tecniche statistiche avanzate, riducendo le variabili qualitative a “sorelle deformi” della variabili quantitative (Corbetta, 1992).
Tuttavia, attualmente, non solo sono state sviluppate tecniche d’analisi statistica avanzata, idonee per variabili categoriali e ordinali (alcune delle quali sono proprio l’oggetto di questo libro), ma è stata maggiormente riconosciuta la loro importanza all’interno della psicologia e delle scienze sociali.
2. L’organizzazione delle variabili in tabelle di contingenza
Quando si utilizzano variabili qualitative, i dati vengono opportunamente raccolti nelle cosiddette tabelle di contingenza, cioè tabelle formate
dall’incrocio di più variabili (in realtà, anche le variabili quantitative possono essere rappresentate in questo modo). La rappresentazione più semplice, tuttavia, è quella della distribuzione di frequenza di una sola variabile.
Tale distribuzione può essere rappresentata in tanti modi, ne forniamo uno
schema nella tab. 1 e un esempio nella tab. 2.
Tab. 1. Schema astratto della rappresentazione dei dati di una variabile.
Variabile
Livelli
a
b
x
x1
x2
…
n
TOT.
xn
n
N=
x
i
i 1
Tab. 2. Frequenze relative alla variabile Laurea con i suoi tre livelli, umanistica, scientifica
ed economico-giuridica (da Lombardo, 1993, p. 50).
Tipo di Laurea
Livelli
Umanistica
Scientifica
Economico-Giuridica
TOT.
184
63
40
287
L’informazione schematizzata in questa tabella ci dice che: delle 287
persone intervistate, 184 hanno risposto di avere una laurea umanistica, 63
scientifica e 40 economico-giuridica.
21
Le tabelle più utilizzate in psicologia sono le tabelle di contingenza
con due o più variabili, perché riproducono i dati che mettono in connessione tali variabili e che, perciò, possono essere la base per l’analisi statistica delle relazioni tra le stesse variabili, come vedremo a partire dal cap.
3. La tabella di frequenza più comune è la tabella AxB, formata da due
variabili e per questo definita bivariata o a due vie. Un esempio è riportato in tab. 3.
Tab. 3. Tabella di contingenza AxB.
B
A
b1
b2
...
bj
TOT.
a1
x11
x12
...
x1j
x1+
a2
x21
x22
...
x2j
x2+
...
...
ai
xi1
xi2
...
xij
TOT.
x+1
x+2
...
x+j
xi+
i
N = x++ =
j
 x
11
ij
j 1
In ciascuna cella di tale tabella di contingenza appaiono le frequenze osservate (x), con cui si verificano contemporaneamente due eventi, per esempio, il numero di persone con gli occhi azzurri (primo livello della variabile A) con una laurea umanistica (primo livello della variabile B). Con
x11 si indica perciò quante volte si è verificato un evento che possiede la caratteristica del primo livello della prima variabile e del primo livello della
seconda variabile; con x12 si indica quante volte si è verificato un evento
che rientra nel primo livello della prima variabile e nel secondo della seconda variabile; e così via. Il primo numero in pedice indica la riga (i), il
secondo numero la colonna (j), insieme (ij) esse indicano la cella corrispondente all’incrocio tra la i-esima riga e la j-esima colonna. Il numero
totale delle frequenze della tabella (N), che è la somma di tutte le celle della
tabella, viene anche indicato con l’espressione x++ in cui il segno + si riferisce alla somma di tutte le righe nel primo caso e di tutte le colonne nel secondo caso. Le somme di ciascuna riga o di ciascuna colonna, dette valori
marginali di riga o di colonna, vengono in questa simbologia indicate, rispettivamente, con xi+ e x+j.
22
Una tabella con lo stesso numero di colonne e di righe (i=j) viene detta
quadrata e le celle che vanno dalla prima in alto a sinistra (x11) all’ultima in
basso a destra (xij) vengono dette celle della diagonale maggiore, quelle
che vanno dall’ultima in alto a destra (x1j) alla prima in basso a sinistra (xi1)
celle della diagonale minore.
Le tabelle AxB hanno sempre un numero ab (o ij) di celle e possono essere composte da variabili a due o più dimensioni. La tabella più semplice è
quella 2x2 (si indica così una tabella di contingenza formata da due variabili dicotomiche); altri esempi di tabelle più complesse sono 2x3, 2x4, 3x3,
5x7, e così via. Per la tabella 2x2 si può utilizzare la simbologia mostrata
sopra per la tabella AxB. Tuttavia, spesso si usano convenzioni più semplici, come quella mostrata nella tab. 4, in cui i livelli delle variabili sono indicati arbitrariamente con 1 e 2 e il numero di frequenze delle 4 celle viene
indicato con a, b, c e d (per x11, x12, x21 e x22).
Tab. 4. Schema di una tabella 2x2.
1
2
TOT.
1
a
b
a+b
2
c
d
c+d
TOT.
a+c
b+d
N = a+b+c+d
Vediamo ora un esempio concreto di tabella 3x3 con la quale sono stati
raccolti dei dati per verificare se la religione a cui un individuo appartiene
influenza l’atteggiamento politico delle persone. L’esempio è tratto da Blalock (1984, p. 350) ed è mostrato in tab. 5.
Tab. 5. Tabella di contingenza relativa all’influenza della religione
sull’atteggiamento politico.
Religione
Protestante (1)
Cattolico (2)
Ebreo (3)
TOT.
Atteggiamento Repubblicano (1)
politico
Democratico (2)
126
61
38
225
71
93
69
233
Indipendente (3)
19
14
27
60
TOT.
216
168
134
518
23
Da questa tabella si possono ricavare molte informazioni, alcune più
semplici, come quanti sono in tutto i repubblicani (225) o qual è il gruppo
religioso più numeroso (i protestanti), altre più complesse, come quanti sono
i protestanti che hanno un atteggiamento politico repubblicano (126) o quanti
cattolici sono indipendenti (14). Allo stesso modo, si può notare che il gruppo più folto dei protestanti ha un orientamento politico repubblicano, quello
di religione cattolica o ebrea ha un orientamento democratico. Come vedremo nel corso di questo libro, ci sono diverse tecniche statistiche per sapere se
e come la religione di appartenenza influenza l’atteggiamento politico2.
Così come esistono fenomeni che si verificano con alta frequenza, ce ne
siano altri che si verificano con bassa frequenza o, addirittura, quasi mai.
Questo determina in alcune celle della tabella la presenza di valori molto
bassi e, a volte, la presenza di uno zero, il che indica che all’interno del
campione quella combinazione di accadimenti (per esempio, occhi verdi e
laurea scientifica) non si è mai verificata. Le celle con bassa frequenza,
come vedremo nei prossimi capitoli, sono problematiche perché, se eccessive, rendono inattendibili i test statistici utilizzati. Comunque, quando in
una cella della tabella è presente una frequenza nulla, si dice che la cella è
formata da uno zero naturale o empirico. Ci sono, invece, casi in cui una
cella di una tabella non riporta frequenze, non perché quel fatto non sia mai
stato osservato, ma perché è semplicemente impossibile che si possa verificare. In questo caso, non si parla più di zero naturale ma di zero strutturale
o logico e la tabella viene detta tabella incompleta. Un esempio faciliterà la
comprensione. Se costruiamo una tabella di contingenza che incrocia due
variabili: Preoccupazioni per la propria salute da parte degli adolescenti,
comprendente, tra gli altri, un livello relativo ai problemi mestruali, e Sesso
degli adolescenti intervistati (maschi e femmine), è logico che, all’incrocio
tra il livello problemi mestruali della prima variabile e il livello maschi della seconda non ci possa essere alcuna frequenza. Ebbene, questo è un caso
di zero strutturale. In sede di analisi dei dati, gli zero strutturali devono essere individuati, trattati diversamente dagli zero naturali e, eventualmente,
segnalati al programma informatico di analisi statistica.
Le tabelle di contingenza con due variabili, dette a doppia entrata o bivariate, sono facilmente rappresentabili su un piano a due dimensioni. Più
difficile è presentare su un piano a due dimensioni tabelle di contingenza
con 3 variabili, indicate con AxBxC, o con più di tre variabili (per esempio,
2
Si consiglia perciò di utilizzare la tabella prodotta come esempio per esercitarsi dopo
aver affrontato il capitolo sul chi quadro.
24
AxBxCxD o AxBxCxDxE, ecc.). Esse vengono dette tabelle di contingenza
a più vie o multivariate. Nella tab. 6 mostriamo un esempio che riporta
quattro variabili e che analizzeremo nel cap. 12. L’esempio mostra 2.490
enunciati, emessi nel corso di 4 Interviste cliniche da due diversi Parlanti (il
clinico che conduce l’intervista clinica e l’intervistato), per ognuno dei quali è stato codificato il tipo di Riferimento a stati interni (nessuno, di I, di II
livello) e il Genere del discorso (narrazioni, argomentazioni, altri generi). Il
disegno di ricerca che ha portato alla raccolta di questi dati era formato dalle seguenti variabili: Intervista (Prima, Seconda, Terza e Quarta), Parlante
(Intervistatore e Intervistato), Genere del discorso (Narrazioni, Argomentazioni e Altri generi) e Riferimento a stati interni (Nessun riferimento a stati
interni, Stati interni di I livello, Stati interni di II livello).
Tab. 6. Una tabella 3x3x2x4 che mostra il riferimento agli stati interni (nessun riferimento,
di I livello, di II livello) e al genere narrativo (narrazioni, argomentazioni, altri generi) di
2.490 enunciati emessi da due diversi parlanti (intervistatore, intervistato) durante 4 interviste cliniche basate sull’Adult Attachment Interview
(esempio tratto dalla ricerca di De Tommasi, Mininni, Gnisci, 2007).
Parlante
Intervista
Genere
Intervistatore
Intervistato
Riferimento a stati
interni
I
II
No
TOT.
Riferimento a stati
interni
II
I
No
TOT.
a
1
Narrazione
Argomento
Altro
7
2
99
5
1
6
6
1
17
18
432
122
214
32
351
77
3
61
50
6
40
341
41
452
2a
Narrazione
Argomento
Altro
21
1
62
8
1
9
7
1
23
36
3
94
144
7
193
67
1
35
53
4
34
264
12
262
3a
Narrazione
Argomento
Altro
8
1
63
4
1
12
3
1
15
15
3
90
61
38
181
15
12
17
11
4
14
87
64
212
4a
Narrazione
Argomento
Altro
9
1
89
4
1
16
9
1
31
22
3
136
34
5
134
9
3
15
3
2
4
46
10
153
TOT.
363
68
115
546
1.404
315
225
1.944
N = 2.490
25
Da questa tabella si evince, per esempio, che nella seconda intervista
l’intervistatore ha emesso 21 enunciati di genere narrativo che fanno riferimento a stati interni di I livello, mentre l’intervistato ne ha emessi 144.
Le tabelle di contingenza possono anche essere rappresentate diversamente. Un modo conveniente, utilizzato da molti programmi statistici, consiste nel disporre ciascuna cella in riga e le variabili in colonna, aggiungendo una colonna in più che riporta la cosiddetta variabile di frequenza. La
tab. 7 mostra questo secondo modo di presentare le variabili, relativamente
ai dati presentati in tab. 5.
Tab. 7. Tabella di frequenza relativa all’influenza della religione
sull’atteggiamento politico.
Atteggiamento
politico
Religione
Variabile di Frequenza
1
1
126
1
2
61
1
3
38
2
1
71
2
2
93
2
3
69
3
1
19
3
2
14
3
3
27
Per costruire una matrice di frequenza è necessario indicare per ogni riga una combinazione unica tra le variabili in gioco. In questo caso si tratta
di due variabili, ma si possono con lo stesso principio costruire matrici di
contingenza con tre o più variabili. I livelli sono espressi con dei numeri
progressivi ma solo per comodità: essi identificano in realtà dei livelli categoriali. La prima riga indica che nel nostro campione ci sono 126 individui
di religione 1, cioè protestanti, con atteggiamento politico 1, cioè repubblicani.
26
3. La matrice dei dati
Nelle tabelle di contingenza mostrate, i dati erano riportati direttamente
nella tabella raggruppando i casi tra di loro. Tuttavia, molto spesso i dati
vengono inseriti caso per caso e le tabelle di contingenza vengono ricavate
da questa tabella originaria, detta matrice di dati o matrice Casi x Variabili:
ogni individuo (o soggetto o caso) viene posto in riga e in colonna vengono
poste le variabili, come mostra la figura seguente.
Tab. 8. Matrice dei dati relativa all’influenza della religione sull’atteggiamento politico.
Numero d’ordine
Atteggiamento politico
Religione
001
repubblicano
protestante
002
repubblicano
cattolico
003
democratico
cattolico
004
democratico
cattolico
005
repubblicano
protestante
…
…
…
517
democratico
ebreo
518
indipendente
cattolico
In questa tabella, per esempio, il primo e il quinto soggetto, contrassegnati dal numero d’ordine 1 e 5, sono due dei 126 soggetti che appartengono alla categoria protestante-repubblicano, il secondo soggetto è uno dei 61
soggetti cattolici di orientamento repubblicano, e così via. Poiché i dati di
ciascuna riga riguardano un individuo, sono detti individuali, a differenza
di quelli delle tabelle di contingenza che vengono detti raggruppati. Vedremo nel capitolo successivo, come attraverso adeguati programmi statistici sia possibile ricavare dalle matrici di dati le tabelle di contingenza da
analizzare, anche multivariate.
4. Quattro principi preliminari per l’analisi dei dati
Le tabelle di contingenza e le matrici dei dati costituiscono le basi su cui
effettuare le analisi statistiche. Prima di affrontare questo argomento, può
essere importante chiarire alcune questioni preliminari, perché la statistica
27
viene vista spesso come una scienza oggettiva ed esatta, il che può dare
l’impressione che non vi sia nulla di soggettivo o che le scelte fatte nelle
analisi siano guidate dai risultati empirici o dai principi statistici. In realtà,
l’applicazione della statistica alle scienze sociali trascende gli aspetti matematici della teoria statistica, nel senso che molte scelte e molte decisioni,
che devono essere prese nel corso delle analisi o delle ricerche, non sono
basate su considerazioni statistiche. È una credenza erronea, e una pratica
sbagliata, indotta anche dall’uso dei programmi statistici, che le decisioni,
in molte delle fasi di ricerca, siano prese solo sulla base di criteri statistici.
È opportuno, quindi, ribadire alcuni principi, rielaborati a partire da quelli
sostenuti da Wickens (1989), che fondano l’analisi statistica dei dati. Può
servire a prevenire una serie di equivoci:
1) un’analisi statistica sensata non può essere realizzata senza informazioni extrastatistiche;
2) un’analisi confermativa produce dei risultati più forti e precisi di
un’analisi esplorativa;
3) una domanda o un’ipotesi di ricerca ben formulata comporta una
precisa tecnica statistica, una domanda mal formulata o un’ipotesi di
ricerca debole non lo fa;
4) un’analisi statistica, per quanto sofisticata, non può migliorare la
qualità di dati raccolti male.
Il primo principio è autoesplicativo: non si possono analizzare dati e variabili senza sapere che cosa essi significhino e, quindi, principi o tecniche
statistiche da soli non possono dare significato a nessun tipo di analisi. Sia
l’analisi dei dati sia l’interpretazione dei risultati dipende da una serie di
scelte, alcune delle quali sono statistiche, altre extrastatistiche. Il primo
principio è, quindi, un richiamo all’importanza della teoria su cui si basano
le nostre ipotesi e le nostre scelte. Esso è in contraddizione con la credenza,
diffusa anche a livello accademico, secondo cui può esistere un esperto,
l’analista, a cui vengono delegate le analisi indipendentemente dalla conoscenza della ricerca stessa in senso lato.
Il secondo principio deriva dalla distinzione tra analisi statistiche confermative ed esplorative. Le prime sono analisi il cui scopo è rispondere a
domande di ricerca o verificare ipotesi preparate prima della ricerca. Le analisi esplorative sono, invece, guidate da pattern emergenti dai dati, senza
avere un’idea chiara su dove dirigersi. Le analisi confermative sono, perciò,
guidate dalle domande (question-driven), quelle esplorative dai dati (datadriven). Proprio perché nelle analisi esplorative vengono visionati moltis28
simi risultati potenziali ma non necessariamente “veri”, è bene considerare
le analisi esplorative come analisi preliminari che permettono di sollevare
domande a cui si potrà rispondere successivamente con l’analisi confermativa.
Il terzo principio si basa sulla semplice osservazione che la presenza di
una domanda di ricerca ben fatta e ben formulata o di un’ipotesi di ricerca
forte individua una tecnica statistica d’elezione piuttosto che un’altra.
Il quarto principio, infine, mette in guardia dal pensare che la sofisticatezza o le capacità esplicative di certe tecniche statistiche possano supplire
ad una inadeguata raccolta di dati. Come è noto, quasi tutti i dati in psicologia provengono da questionari, osservazione o test. Tuttavia, se i dati sono stati raccolti male, non c’è analisi statistica che possa migliorarli. Al
contrario, un’analisi statistica su dati raccolti male conduce comunque a dei
risultati, ovviamente fuorvianti, che saranno considerati veri e che inducono
a conclusioni erronee e magari a interventi controproducenti. Perciò, particolare attenzione dovrebbe essere dedicata alla raccolta dei dati, alla scelta
dello strumento di misura e alla valutazione almeno della sua attendibilità.
A proposito della raccolta dei dati, va ricordato inoltre che, affinché le tecniche statistiche possano essere applicate, i dati raccolti devono essere indipendenti, nel senso che tutte le categorie devono avere a priori la stessa
probabilità di essere scelte.
5. Che cos’è un modello
Un modello è una rappresentazione semplificata ed essenziale, parsimoniosa ed esplicativa delle relazioni tra alcuni elementi, o variabili (Hutcheson, Sofroniou, 1999). Esso viene costruito per essere confrontato con la
realtà così che possa essere in grado di descrivere il fenomeno che intendiamo studiare. Il modello è, quindi, un insieme di relazioni tra variabili
che può essere descritto retoricamente, solitamente con un linguaggio
scientifico, rappresentato graficamente e formalizzato in una espressione
matematica, come, per esempio, l’equazione della retta di regressione
(Vogt, 1993; Ricolfi, 1997). Vedremo nel cap. 8 che i modelli log-lineari,
di cui ci occupiamo in questo libro, non sono altro che un insieme di equazioni che esprimono il legame tra le cosiddette frequenze attese e alcuni parametri che rappresentano le caratteristiche delle variabili qualitative della
tabella di contingenza e le relazioni tra queste variabili. Anche se questo
linguaggio può apparire, in questa fase, ancora oscuro, è bene tenere pre29
sente che un modello può essere definito a parole (“il tipo di religione influenza l’atteggiamento religioso”), rappresentato graficamente, per esempio come nella figura presentata a pagina seguente, e attraverso
un’equazione matematica, del tipo Y=a+bX3.
religione
atteggiamento
politico
In questi tre modi di esprimere un modello, cambia il linguaggio utilizzato
e il grado di formalità con cui il modello viene espresso. Tuttavia, essi sono
solo modi diversi di esprimere uno stesso modello. Questa “rappresentazione semplificata ed essenziale” della realtà deve poi essere confrontata con
la realtà stessa per vedere se il modello la rappresenta adeguatamente, cioè
se nella vita di tutti i giorni e in un numero sufficientemente grande di persone è vero che la religione influenza l’atteggiamento politico. A volte, per
il processo appena descritto si dice che un modello viene verificato. Tuttavia, come sostiene Popper (1934), un modello non può mai essere soggetto
a verifica né essere confermato empiricamente, esso può solamente essere
confutato o falsificato. Quando troviamo un modello che tiene bene il confronto con i dati della realtà possiamo solo dire che risulta non falsificato: è
una spiegazione compatibile con quanto il mondo reale (Pedon, 1995), ne è
la migliore approssimazione. La logica della falsificazione ci induce perciò
a costruire uno o più modelli, a confrontare questi modelli con i dati raccolti e a trovare dei metodi per scegliere il modello che si adatta meglio ai dati
della realtà. I modelli log-lineari sono sorretti proprio da questa logica.
6. Riassunto
In questo capitolo abbiamo familiarizzato con i termini, i concetti e gli
strumenti che incontreremo sovente nei capitoli successivi. Innanzitutto,
abbiamo visto cosa significa eseguire una misurazione, cos’è una variabile,
qual è la natura di una variabile e come si fa per individuarla, evidenziando
in particolare le differenze tra variabili quantitative e qualitative. Poi, abbiamo mostrato come si rappresenta e si costruisce una tabella di contingenza, una matrice di frequenza e una matrice di dati, da cui può essere
3
L’equazione mostrata è quella della retta di regressione, non quella dei modelli loglineari per cui si rimanda al cap. 8.
30
tratta la tabella di contingenza. Infine, ci siamo soffermati su alcuni principi
fondamentali per comprendere l’analisi dei dati e abbiamo definito cos’è un
modello e come si falsifica.
31