Augusto Gnisci – Arrigo Pedon LA RICERCA NELLE SCIENZE SOCIALI CON I LOG-LINEARI ARMANDO EDITORE Sommario Prefazione 9 PARTE I: PROLEGOMENI 13 Capitolo 1 Il lessico e gli strumenti di base 1. Cos’è una variabile 2. L’organizzazione delle variabili in tabelle di contingenza 3. La matrice dei dati 4. Quattro principi preliminari per l’analisi dei dati 5. Che cos’è un modello 6. Riassunto 15 15 21 27 27 29 30 Capitolo 2 Come immettere i dati in SPSS 1. Cos’è l’SPSS e come si costruisce un file dati 2. Come immettere dati di frequenza in un file dati di SPSS 3. Come definire le variabili 4. Come costruire una matrice Casi x Variabili 5. Come costruire una Tabella di Frequenza 6. Distribuzioni di frequenza 7. Riassunto 33 33 34 35 36 39 41 43 PARTE II: IL CHI QUADRO TRADIZIONALE 45 Capitolo 3 Il chi quadro applicato ad una variabile 1. L’uso del chi quadro tradizionale 2. Distribuzioni di tipo diverso 47 47 50 3. 4. 5. 6. Il chi quadro applicato ad una variabile politomica L’analisi dei residui standard Procedura e fasi per il calcolo del chi quadro tradizionale Riassunto Capitolo 4 Il chi quadro applicato a due variabili 1. Il chi quadro applicato a due variabili dicotomiche (2x2) 2. L’analisi dei residui standard e corretti per tabelle 2x2 3. La descrizione dei risultati: probabilità e percentuali semplici e condizionate 4. Alcuni esempi 2x2 e AxB 5. Riassunto Capitolo 5 Gli indici di associazione tra due variabili 1. Gli indici di associazione 2. Gli indici additivamente asimmetrici: odds e odds ratio 3. Gli indici simmetrici: il logaritmo di , il Q di Yule e il di Pearson 4. I tre tipi di statistiche utilizzate: caratteristiche e differenze 5. Una statistica di associazione per due variabili politomiche: l’entropia 6. Riassunto Capitolo 6 Come fare le analisi del chi quadro per tabelle AxB con SPSS 1. I comandi per analizzare tabelle AxB 2. La lettura dell’output 3. Riassunto Capitolo 7 La verifica delle ipotesi tramite il 2 1. Teoria dell’inferenza statistica 2. La teoria della decisione o verifica delle ipotesi (hypothesis testing) 3. La distribuzione 2 4. I gradi di libertà 5. Le assunzioni per l’applicabilità della statistica X2 6. Adattamento del modello e verifica delle ipotesi: due logiche e due procedure 52 54 58 59 61 61 66 69 72 73 75 75 76 81 86 92 93 95 95 101 104 105 106 108 114 117 119 122 7. Indici di bontà dell’adattamento: il rapporto di verosimiglianza o G2 124 8. Riassunto 125 PARTE III: DAL CHI QUADRO AI MODELLI LOG-LINEARI 127 Capitolo 8 La scelta del modello per tabelle 2x2 1. L’obiettivo dei modelli log-lineari 2. Le fasi dell’analisi log-lineare 3. Creazione e stima dei modelli 3.1. Il modello nullo o equiprobabile [0] 3.2. Il modello dell’effetto marginale: o [A] o [R] 3.3. Il modello di indipendenza (o di omogeneità) [R] [A] 3.3.1. I modelli diretti e indiretti 3.4. Il modello saturo [RA] 4. La scelta del modello 5. Riassunto 129 129 131 132 135 137 140 141 144 146 148 Capitolo 9 La valutazione e l’interpretazione del modello scelto per tabelle 2x2 1. Valutazione e interpretazione del modello scelto 2. Il G2 parziale (G2) come ausilio nella scelta del modello migliore 3. La percentuale di varianza spiegata dal modello e da ciascun effetto 4. I parametri e i parametri standardizzati 5. Interpretazione degli effetti 6. Calcolo a mano dei parametri , della deviazione standard e dei parametri standardizzati 7. Riassunto Capitolo 10 I modelli log-lineari per tabelle AxBxC 1. Creazione del modello 2. I modelli più semplici del modello di completa indipendenza 3. Il modello di completa indipendenza [A] [B] [C] 4. Il modello di indipendenza di un fattore [AB] [C] 5. Il modello di indipendenza condizionale [AB] [AC] 6. Il modello di associazione omogenea [AB] [AC] [BC] 7. Il modello saturo [ABC] 8. I gradi di libertà dei modelli 149 149 150 152 154 160 161 166 169 170 174 175 176 176 177 178 179 9. Sistemi di notazione per indicare i modelli 10. Un esempio AxBxC 11. Calcolo a mano dei parametri 12. Riassunto 180 181 185 190 Capitolo 11 L’analisi log-lineare con SPSS 1. Comandi per l’analisi con Loglineare Generale di SPSS 1.1. Lettura dell’output 1.2. Procedure consigliate per l’analisi con Loglineare Generale 2. Comandi per l’analisi gerarchica con Selezione del Modello di SPSS 2.1. Lettura dell’output e parametri 3. Riassunto 191 191 193 197 199 201 208 Capitolo 12 Applicazioni di ricerca a tabelle multivariate 1. Un esempio di analisi log-lineare AxBxCxD 2. Un esempio di analisi log-lineare AxBxCxDxE 3. Riassunto 209 209 218 226 Capitolo 13 Problemi di ricerca e soluzioni 1. Regole pratiche per la numerosità delle frequenze 2. Cosa fare in caso di poche frequenze 3. Il paradosso di Simpson 4. Come usare le tavole del chi quadro, i programmi statistici o Excel per sapere i valori critici del chi quadro 5. Cosa fare in caso di molte frequenze (ipersignificatività e potenza del test) 6. Come calcolare la potenza del test 7. Come scegliere il modello base e le procedure backward e forward 8. Riassunto 227 227 229 231 233 238 242 246 252 Appendice 253 Bibliografia 257 Indice analitico 261 Prefazione di Augusto Gnisci Nella mia memoria, questo libro è associato ad una storia accaduta qualche tempo fa, quando cominciavo ad occuparmi di tecniche di analisi per variabili qualitative. Ne ero molto fiero, perché a quei tempi era un argomento di cui si parlava molto e si sapeva poco, un argomento che, per usare un termine inappropriato per un contesto scientifico, cominciava ad “andare di moda”. Quando incontrai la professoressa Ercolani, l’Ordinario dell’area psicometrica nella mia facoltà di quei tempi, certo di una sua approvazione, subito le dissi che il professor Pedon mi aveva proposto di scrivere un libro a due mani proprio sull’analisi dei modelli log-lineari, la tecnica d’elezione per l’analisi delle variabili qualitative. Lei mi guardò e mi disse in un tono scherzoso e provocatorio che, nella mia ignoranza giovanile, percepii come vero: «Sì, va bene, ma voi vi limitate a contare, noi invece misuriamo!». La professoressa faceva riferimento alle due tradizioni nate dalla distinzione di Stevens tra variabili qualitative – categorie discrete che contengono degli insiemi di oggetti che vanno appunto contati, come le persone con gli occhi chiari e quelle con gli occhi scuri – e le variabili quantitative, che sono categorie che hanno un valore numerico, come l’altezza. In realtà, come Stevens ci ha insegnato, l’atto di misurazione riguarda tanto le variabili qualitative quanto quelle quantitative, solo che la misurazione di queste ultime deve tener conto di regole più specifiche. Non avrei dovuto cadere in quella trappola, eppure lo feci, cercando pedantemente di sostenere l’importanza delle variabili qualitative. Eppure quella battuta aveva un fondo di verità. Le tecniche parametriche, quelle legate alle variabili quantitative, avevano fatto dei passi da gigante e si erano diffuse così ampiamente da relegare, nei programmi di psicometria, le variabili qualitative ai soliti aspetti descrittivi di base e all’onnipresente chi quadro. Anche il dibattito su questi aspetti si era ideologizzato, con autori che rivendicavano spazio per le “cugine deformi delle 9 variabili quantitative”, come mirabilmente resoconta Corbetta, oppure che proponevano di trasformare tutte le variabili quantitative in qualitative e di applicare augurabilmente tecniche di analisi log-lineare, in modo da individuare pattern di associazione piuttosto che meri coefficienti di correlazione. Molte di queste velate rivendicazioni si basavano sul fatto che le tecniche di analisi per variabili qualitative non richiedevano l’assunzione della distribuzione normale, e quindi potevano essere applicate con maggiore libertà, a scorno del fatto che fossero definite però per difetto, non-parametriche. In realtà, volendo sorvolare su molti altri aspetti, uno dei contributi più importanti della statistica dell’ultima parte del secolo scorso è stato proprio il concetto di modelli lineari generalizzati (GLM), ovverosia una rete interconnessa di concetti che unifica molti dei metodi tradizionali, come la regressione lineare e l’analisi della varianza, con le tecniche di modelling per dati categoriali, come i modelli log-lineari e la regressione logistica. Molti libri di statistica, perciò, adesso presentano un primo capitolo generale che riguarda l’approccio integrato e poi i singoli capitoli sulle tecniche specifiche come applicazioni a casi specifici di quel primo approccio generale. Oltre a rendere del tutto obsoleto il dibattito di cui sopra, questo approccio ha avuto delle conseguenze enorni. La concezione della “verità scientifica” che ha caratterizzato molta della ricerca sociale è passata da una concezione binaria (“sì, ho verificato”, “no, non ho verificato”) ad un approccio di costruzione di modelli, di compatibilità di essi con i dati (il fitting), di identificazione di indici adeguati per la loro bontà, e di stima delle dimensioni degli effetti, aspetto quest’ultimo da sempre sottovalutato, nonostante le indicazioni dell’American Psychological Association. Il principio di base combina la parsimonia della spiegazione con l’utilità del modello scelto a fini predittivi. Questo libro recepisce questa prospettiva, ma si colloca ad un livello più introduttivo e didattico. Le prime due parti del libro sono dedicate agli aspetti di base delle variabili qualitative e all’armamentario tradizionale del chi quadro, che è di grande aiuto per la comprensione dei modelli loglineari. La terza parte conduce il lettore passo passo verso tematiche avanzate, come l’analisi di tabelle bivariate e poi multivariate, affrontando i problemi di scelta del modello e di interpretazione degli effetti in esso contenuti, e termina con due capitoli applicativi. Un capitolo è di applicazioni di ricerca, ognuna delle quali evidenzia alcuni problemi specifici che i ricercatori alle prime armi possono trovarsi di fronte, l’altro è un capitolo interamente 10 dedicato alle domande che solitamente si pongono coloro che fanno ricerca in questo ambito e, ovviamente, alla loro soluzione. In questi capitoli, il lettore scoprirà le regole per rispondere ai dubbi che spesso ha avuto: per esempio, quante sono le frequenze minime per fare un chi quadro o un’analisi log-lineare? Ma scoprirà anche problematiche di cui non aveva coscienza: per esempio, che esiste anche un problema di eccesso di frequenze; oppure com’è possibile che, seppure il trattamento comportamentista è più efficace di quello psicoanalitico negli uomini e nelle donne, in generale però sembra più efficace quello psicoanalitico (è il famoso paradosso di Simpson); quali tecniche permettono di confrontare modelli diversi, come calcolare e far proficuamente uso della potenza del test, ecc. A questo proposito il libro sembra colmare una lacuna nelle pubblicazioni sui modelli-log-lineari in Italia, che pure ha un’ottima manualistica: da un lato, l’essere troppo formali, troppo vicini alle trattazioni matematiche dei classici fondamentali, dall’altro troppo ancorati alla semplicistica spiegazione dei comandi e degli output statistici. Anche se le applicazioni per SPSS accompagnano il lettore in tutto il libro in modo da metterlo in condizione di agire consapevolmente e di comprendere gli aspetti talvolta oscuri del suo output, la trattazione dei concetti si presta a diverse applicazioni informatiche (come per esempio, quella in ILOG, un programma gratuito scaricabile al sito: http://www2.gsu.edu/~psyrab/ilog). Il libro è perciò adatto a corsi che, con varia denominazione, possono essere definiti di metodologia e tecniche di analisi dei dati, sia dell’ultimo anno del corso di laurea Triennale sia del corso di laurea Magistrale. Desidero infine ringraziare il mio coautore, il professor Pedon, per avermi consigliato e suggerito originariamente l’idea e averla realizzata insieme a me, la professoressa Ercolani per avermi stimolato a “contare”, e i ricercatori e gli studiosi che mi hanno permesso di utilizzare i loro dati di ricerca come esempi. 11 PARTE I PROLEGOMENI Capitolo 1 Il lessico e gli strumenti di base Sommario 1. Cos’è una variabile 2. L’organizzazione delle variabili in tabelle di contingenza 3. La matrice dei dati 4. Quattro principi preliminari per l’analisi dei dati 5. Che cos’è un modello 6. Riassunto 1. Cos’è una variabile Secondo la definizione di misurazione proposta da Stevens (1946) si esegue un atto di misurazione ogni qual volta una categoria, o un simbolo formale, viene associato ad un evento, un oggetto o un individuo, in base a delle regole. Da un lato, abbiamo perciò degli eventi che accadono nel tempo o degli oggetti presenti nel mondo reale o degli individui che attuano dei comportamenti, dall’altro dei sistemi di categorie con i quali etichettiamo, codifichiamo o organizziamo gli eventi, gli oggetti o gli individui che fanno parte del mondo e della nostra esperienza sensibile. Si potrebbe dire che da una parte c’è la “realtà” e dall’altro le categorie, il più possibile precise e accurate, con le quali misuriamo questa realtà. Tra questo sistema empirico e questo sistema concettuale esistono delle regole di corrispondenza che devono essere rispettate affinché la misurazione abbia luogo in maniera corretta (Pedon, 1991; Vidotto, Xausa, Pedon, 1996). L’oggetto della misurazione viene detto caso (o soggetto), mentre l’insieme di categorie con le quali lo misuriamo viene detto variabile. Ne segue che le variabili non sono altro che proprietà dei soggetti. Tali proprietà possono variare da soggetto a soggetto. Per esempio, il colore degli occhi 15 è una variabile che si applica a soggetti umani o animali. Dicendo che un individuo possiede occhi azzurri stiamo facendo una sorta di misurazione, attribuiamo cioè ad un soggetto una particolare caratteristica di una variabile. La variabile, come implica il nome stesso, è formata da un insieme di categorie che variano tra loro. Ciascuna categoria viene detta livello, o modalità della variabile. La variabile Colore degli occhi è formata da almeno 4 categorie (azzurro, verde, marrone, nero), che cambiano a seconda del soggetto a cui vengono applicate, come mostrato in fig. 1. Fig. 1. Una variabile e suoi livelli. Colore degli occhi VARIABILE livelli | | | | azzurri verdi neri marroni Se una caratteristica del soggetto non ha un ambito di variazione essa non è una variabile e, perciò, viene detta costante. Il numero di gambe degli esseri umani è una costante. C’è chi dice, col gusto del paradosso, che una costante non è altro che una variabile con un solo livello. Secondo un sistema di classificazione delle variabili ampiamente accettato nella ricerca e proposto anch’esso da Stevens, ci possono essere quattro diversi tipi di variabili che cambiano la loro natura a seconda del rapporto che intercorre tra le categorie (o livelli) di cui si compongono. Per capire la natura di una variabile è quindi necessario capire il rapporto tra i livelli della variabile stessa. Se le categorie della variabile sono delle pure e semplici categorie discrete, qualitativamente diverse l’una dall’altra, che non possono essere ordinate in nessun modo, come il colore degli occhi, esse sono dette variabili categoriali (o nominali o mutabili). Esistono molte di queste variabili, tra cui il Genere (maschi, femmine) e la Religione (cattolica, ebrea, musulmana, protestante, ecc.). I livelli della variabile possono essere indicati con dei nomi, come maschi e femmine, o con dei codici arbitrari (per esempio, a, b, c, d), ma non possono mai assumere dei valori numerici o ordinali. Anche quando vengono indicati con dei numeri (1, 2, 3, 4), questi ultimi devono essere intesi come dei semplici simboli dal significato nominale, cioè delle etichette. Se, invece, le categorie possono essere ordinate in qualche modo, come nella variabile Classe sociale, i cui livelli sono alta, media e bassa, allora la 16 variabile viene detta ordinale. Le variabili ordinali si contraddistinguono perciò per il fatto che i loro livelli possono essere ordinati l’uno rispetto all’altro (la classe sociale bassa viene prima della classe sociale media, che, a sua volta, viene prima della classe sociale alta), ma non conosciamo o non ha senso o non è possibile stabilire con esattezza che differenza c’è o quale intervallo intercorre tra i livelli della variabile. Non ha perciò senso dire che la classe sociale alta è maggiore di due, tre o quattro unità rispetto alla classe sociale media, e così via. Prendiamo come esempio la variabile ordinale Domande: possiamo certamente dire che la domanda sì/no (per esempio, “sei stato a casa ieri sera?”) è più chiusa di una cosiddetta domanda aperta (“cosa è successo ieri sera?”), ma non possiamo in nessun modo dire di quanto l’una è più chiusa dell’altra, né quante sono le unità di “chiusura” che le separano. L’unica cosa su cui possiamo esprimerci è la graduatoria o il rango sulla cui base i livelli della variabile vengono ordinati. In questo senso, è possibile immaginare che le diverse categorie di una variabile ordinale giacciano su di un continuum che va da un polo col massimo della proprietà della variabile ad un polo col minimo della proprietà. Per esempio, le domande giacciono su un continuum che va da massima a minima apertura della domanda. Le due tipologie di variabili descritte, categoriali e ordinali, insieme sono dette variabili qualitative e ad esse si applicano le tecniche d’analisi statistica discusse in questo libro (chi quadro e modelli log-lineari), tecniche che vengono anche dette non parametriche (v. sotto). Se i livelli della variabile, oltre che ordinati, possono anche essere numerati, cosicché ciascun livello corrisponde ad un numero e l’intervallo tra un livello e quello adiacente è costante (unità di misura), allora la variabile viene detta quantitativa o metrica. Come le variabili qualitative, anche quelle quantitative si distinguono in due categorie: le variabili a intervalli e quelle a rapporti1. Nelle variabili a intervalli (o a intervalli equivalenti), la scala dei numeri corrispondenti ai vari livelli (per esempio, 1, 2, 3, 4, 5) viene attribuita ai livelli della variabile con una certa arbitrarietà, l’importante è che l’intervallo, cioè la differenza, tra essi sia costante. In una variabile ad intervalli, perciò, è assolutamente equivalente se i valori sono 0, 1, 2, 3, 4, oppure –2, –1, 0, +1, +2. Molte variabili utilizzate nella 1 Alcuni includono le variabili nominali e ordinali nelle qualitative e le variabili a intervalli e a rapporti nelle quantitative (Lombardo, 1993). Per altri, invece, le qualitative sono formate dalle nominali e le quantitative da ordinali, a intervalli e a rapporti (anche se le ultime due vengono dette quantitative misurabili; Blalock, 1969; Ercolani, Areni, 1995). 17 ricerca sociale sono di questo tipo. Poiché la scala viene attribuita arbitrariamente ai livelli, anche il valore zero è un valore arbitrario assegnato ad un livello e non uno zero assoluto o naturale. Perciò, l’assegnazione del valore zero ad una caratteristica psicologica non indica l’assenza reale di tale caratteristica ma «un punto arbitrario del continuum nell’intensità con cui tale caratteristica si può manifestare» (Areni, Ercolani, Scalisi, 1994, p. 29). Per esempio, la temperatura in gradi Fahrenheit o in centigradi è una variabile a intervalli. Se il punto zero è arbitrario, non si può dire che una temperatura di 20° è doppia rispetto a una di 10° (sebbene lo si faccia nel linguaggio quotidiano), ma solo che la differenza che esiste tra 20° e 10° è la stessa che esiste, per esempio, tra 30° e 20°. È come se volessimo pesare determinati oggetti e aggiungessimo un peso sul piatto della bilancia (Blalock, 1984), per esempio, di un chilo: è corretto dire che un oggetto che pesa 10 chili è più pesante di 5 chili rispetto ad uno che ne pesa 5, ma sarebbe scorretto dire che pesa il doppio dell’altro! Nove chili, infatti, non sono il doppio di 4 chili. Altri esempi di variabile a intervalli sono il quoziente intellettivo (QI) e i punteggi in molti test di atteggiamento o personalità. Quando, invece, lo zero indica vera assenza di quantità misurata, la variabile in questione è detta a rapporti (o a rapporti equivalenti). In questo caso, siamo legittimati a dire che se due punteggi sono l’uno il doppio dell’altro la quantità misurata è il doppio rispetto all’altra. Il numero di errori presenti all’interno di un testo scritto o dei figli presenti in una famiglia sono variabili a rapporti: commettere zero errori o avere zero figli significa proprio non aver commesso alcun errore o non avere alcun figlio. Altri esempi di variabili a rapporti sono l’età, il peso, la temperatura misurata sulla scala Kelvin (infatti, in questa scala, lo zero implica la mancanza di movimento delle molecole). Quando si fa ricerca e si intende mettere a confronto o in relazione alcune variabili è sempre necessario individuare che tipo di variabili stiamo trattando secondo la scala di Stevens. Questo è necessario sia per eseguire una misurazione migliore sia per scegliere la tecnica adeguata per l’analisi dei dati. Variabili differenti, infatti, hanno bisogno di differenti test statistici. Individuare qual è il tipo di variabile che abbiamo di fronte è cruciale. Un modo semplice per avere questa informazione consiste nell’individuare correttamente i livelli della variabile e rispondere a ciascuna delle seguenti tre domande sì/no interconnesse, che come il lettore noterà, riassumono il discorso precedentemente fatto: 1] I livelli della variabile sono ordinabili in un qualche modo naturale? No, allora la scala è nominale (o categoriale o mutabile). 18 2] 3] Sì, allora: Gli intervalli tra i livelli della variabile sono equivalenti? No, allora la scala è ordinale. Sì, allora: Lo zero indica veramente l’assenza della quantità misurata? No, allora la scala è a intervalli. Sì, allora la scala è a rapporti. Nella fig. 2 viene offerto uno schema che mostra le differenze di base tra i quattro tipi di variabili. Come si vede, quando la variabile è categoriale, i livelli sono tutti diversi tra loro ed essi non si dispongono su nessun continuum; quando la variabile è ordinale, alcuni suoi livelli sono maggiori o minori di altri e si dispongono su un continuum; quando la variabile è a intervalli, gli intervalli sono costanti; e, infine, quando la variabile è a rapporti, esiste uno zero naturale. Si noti che i quattro tipi di variabili possono, a loro volta, essere considerati i quattro livelli ordinali della variabile Tipo di variabile (categoriale, ordinale, a intervalli e a rapporti) e che, proprio per questo motivo, le proprietà dei livelli inferiori sono condivise da quelle superiori (per esempio, una scala a rapporti può essere considerata un semplice insieme di categorie nominali) ma non può accadere il contrario (una variabile nominale non può avere uno zero assoluto). Fig. 2. Le caratteristiche e le differenze tra i diversi tipi di variabili. VARIABILE Categoriale | | | | | () a b c d e Ordinale | | | | | (> o <) I II III IV V A intervalli | | | | | (i = k) -2 -1 0 +1 +2 A rapporti | | | | | (0 naturale) 0 1 2 3 4 19 Come detto, la distinzione tra le diverse tipologie di variabili, in particolare quella tra le variabili qualitative e quantitative, è utile perché a seconda del tipo di variabili studiate, possono essere applicate tecniche di tipo diverso. Le tecniche parametriche, che richiedono assunzioni sulla distribuzione dei dati e, in particolare, l’assunzione della distribuzione normale, vengono applicate normalmente a variabili quantitative (almeno a variabili dipendenti quantitative). Mentre le tecniche non parametriche, che non richiedono assunzioni sulla distribuzione dei dati, si applicano di solito a dati nominali o ordinali, cioè a variabili qualitative, che sono il fulcro di questo libro. Le variabili possono essere categorizzate anche sulla base di altri criteri. Spesso il ricercatore ha in mente delle relazioni tra variabili di causaeffetto, o antecedente-conseguente, sul piano temporale o su quello logico. In questo caso, viene detta variabile dipendente (anche detta criterio o risposta) quella variabile che il ricercatore ritiene sia influenzata dalle altre, che egli vuole cioè spiegare, e variabile indipendente (detta anche predittore o esplicativa) la variabile che il ricercatore pensa che possa spiegare o influenzare i valori della variabile dipendente. Un’altra distinzione che viene spesso fatta è quella tra variabili discrete e continue. La variabile discreta può assumere solo determinati valori e, sebbene sia usata a volte come sinonimo di variabile qualitativa, cosa di per sé scorretta, in realtà può assumere i valori della categorie delle variabili nominali, i ranghi delle variabili ordinali e anche i numeri interi delle variabili quantitative (per esempio, 3, 4, 5, 6). Essa assume sempre un numero finito di valori all’interno del suo ambito di variazione. La variabile continua, invece, può assumere i valori di tutti i numeri reali, cioè i numeri interi e tutti i punti frazionari tra di loro (Bakeman, 1992). Anche se il suo ambito di variazione è limitato, può assumere un numero infinito di valori. Quindi, le variabili nominali e ordinali sono per necessità sempre discrete, mentre le variabili quantitative possono essere discrete (per esempio, il numero dei figli) o continue (per esempio, l’altezza). Infine, le variabili possono essere dicotomiche o politomiche a seconda del numero di livelli: se hanno due soli livelli (come il sesso) sono dette dicotomiche, se hanno più di due livelli (per esempio, la religione, o il numero di figli, o l’atteggiamento autoritario) sono dette politomiche. Le variabili qualitative hanno caratteristiche molto diverse rispetto alle variabili quantitative. Queste ultime, come abbiamo avuto modo di dire nell’introduzione, sono state studiate più a lungo e più approfonditamente rispetto alle variabili qualitative, il che ha comportato un certo ritardo nello 20 sviluppo delle tecniche d’analisi statistica per variabili qualitative. Questo ritardo, a sua volta, ha indotto molti ricercatori a “trasformare” indebitamente e inappropriatamente le variabili qualitative in variabili quantitative per poter applicare tecniche statistiche avanzate, riducendo le variabili qualitative a “sorelle deformi” della variabili quantitative (Corbetta, 1992). Tuttavia, attualmente, non solo sono state sviluppate tecniche d’analisi statistica avanzata, idonee per variabili categoriali e ordinali (alcune delle quali sono proprio l’oggetto di questo libro), ma è stata maggiormente riconosciuta la loro importanza all’interno della psicologia e delle scienze sociali. 2. L’organizzazione delle variabili in tabelle di contingenza Quando si utilizzano variabili qualitative, i dati vengono opportunamente raccolti nelle cosiddette tabelle di contingenza, cioè tabelle formate dall’incrocio di più variabili (in realtà, anche le variabili quantitative possono essere rappresentate in questo modo). La rappresentazione più semplice, tuttavia, è quella della distribuzione di frequenza di una sola variabile. Tale distribuzione può essere rappresentata in tanti modi, ne forniamo uno schema nella tab. 1 e un esempio nella tab. 2. Tab. 1. Schema astratto della rappresentazione dei dati di una variabile. Variabile Livelli a b x x1 x2 … n TOT. xn n N= x i i 1 Tab. 2. Frequenze relative alla variabile Laurea con i suoi tre livelli, umanistica, scientifica ed economico-giuridica (da Lombardo, 1993, p. 50). Tipo di Laurea Livelli Umanistica Scientifica Economico-Giuridica TOT. 184 63 40 287 L’informazione schematizzata in questa tabella ci dice che: delle 287 persone intervistate, 184 hanno risposto di avere una laurea umanistica, 63 scientifica e 40 economico-giuridica. 21 Le tabelle più utilizzate in psicologia sono le tabelle di contingenza con due o più variabili, perché riproducono i dati che mettono in connessione tali variabili e che, perciò, possono essere la base per l’analisi statistica delle relazioni tra le stesse variabili, come vedremo a partire dal cap. 3. La tabella di frequenza più comune è la tabella AxB, formata da due variabili e per questo definita bivariata o a due vie. Un esempio è riportato in tab. 3. Tab. 3. Tabella di contingenza AxB. B A b1 b2 ... bj TOT. a1 x11 x12 ... x1j x1+ a2 x21 x22 ... x2j x2+ ... ... ai xi1 xi2 ... xij TOT. x+1 x+2 ... x+j xi+ i N = x++ = j x 11 ij j 1 In ciascuna cella di tale tabella di contingenza appaiono le frequenze osservate (x), con cui si verificano contemporaneamente due eventi, per esempio, il numero di persone con gli occhi azzurri (primo livello della variabile A) con una laurea umanistica (primo livello della variabile B). Con x11 si indica perciò quante volte si è verificato un evento che possiede la caratteristica del primo livello della prima variabile e del primo livello della seconda variabile; con x12 si indica quante volte si è verificato un evento che rientra nel primo livello della prima variabile e nel secondo della seconda variabile; e così via. Il primo numero in pedice indica la riga (i), il secondo numero la colonna (j), insieme (ij) esse indicano la cella corrispondente all’incrocio tra la i-esima riga e la j-esima colonna. Il numero totale delle frequenze della tabella (N), che è la somma di tutte le celle della tabella, viene anche indicato con l’espressione x++ in cui il segno + si riferisce alla somma di tutte le righe nel primo caso e di tutte le colonne nel secondo caso. Le somme di ciascuna riga o di ciascuna colonna, dette valori marginali di riga o di colonna, vengono in questa simbologia indicate, rispettivamente, con xi+ e x+j. 22 Una tabella con lo stesso numero di colonne e di righe (i=j) viene detta quadrata e le celle che vanno dalla prima in alto a sinistra (x11) all’ultima in basso a destra (xij) vengono dette celle della diagonale maggiore, quelle che vanno dall’ultima in alto a destra (x1j) alla prima in basso a sinistra (xi1) celle della diagonale minore. Le tabelle AxB hanno sempre un numero ab (o ij) di celle e possono essere composte da variabili a due o più dimensioni. La tabella più semplice è quella 2x2 (si indica così una tabella di contingenza formata da due variabili dicotomiche); altri esempi di tabelle più complesse sono 2x3, 2x4, 3x3, 5x7, e così via. Per la tabella 2x2 si può utilizzare la simbologia mostrata sopra per la tabella AxB. Tuttavia, spesso si usano convenzioni più semplici, come quella mostrata nella tab. 4, in cui i livelli delle variabili sono indicati arbitrariamente con 1 e 2 e il numero di frequenze delle 4 celle viene indicato con a, b, c e d (per x11, x12, x21 e x22). Tab. 4. Schema di una tabella 2x2. 1 2 TOT. 1 a b a+b 2 c d c+d TOT. a+c b+d N = a+b+c+d Vediamo ora un esempio concreto di tabella 3x3 con la quale sono stati raccolti dei dati per verificare se la religione a cui un individuo appartiene influenza l’atteggiamento politico delle persone. L’esempio è tratto da Blalock (1984, p. 350) ed è mostrato in tab. 5. Tab. 5. Tabella di contingenza relativa all’influenza della religione sull’atteggiamento politico. Religione Protestante (1) Cattolico (2) Ebreo (3) TOT. Atteggiamento Repubblicano (1) politico Democratico (2) 126 61 38 225 71 93 69 233 Indipendente (3) 19 14 27 60 TOT. 216 168 134 518 23 Da questa tabella si possono ricavare molte informazioni, alcune più semplici, come quanti sono in tutto i repubblicani (225) o qual è il gruppo religioso più numeroso (i protestanti), altre più complesse, come quanti sono i protestanti che hanno un atteggiamento politico repubblicano (126) o quanti cattolici sono indipendenti (14). Allo stesso modo, si può notare che il gruppo più folto dei protestanti ha un orientamento politico repubblicano, quello di religione cattolica o ebrea ha un orientamento democratico. Come vedremo nel corso di questo libro, ci sono diverse tecniche statistiche per sapere se e come la religione di appartenenza influenza l’atteggiamento politico2. Così come esistono fenomeni che si verificano con alta frequenza, ce ne siano altri che si verificano con bassa frequenza o, addirittura, quasi mai. Questo determina in alcune celle della tabella la presenza di valori molto bassi e, a volte, la presenza di uno zero, il che indica che all’interno del campione quella combinazione di accadimenti (per esempio, occhi verdi e laurea scientifica) non si è mai verificata. Le celle con bassa frequenza, come vedremo nei prossimi capitoli, sono problematiche perché, se eccessive, rendono inattendibili i test statistici utilizzati. Comunque, quando in una cella della tabella è presente una frequenza nulla, si dice che la cella è formata da uno zero naturale o empirico. Ci sono, invece, casi in cui una cella di una tabella non riporta frequenze, non perché quel fatto non sia mai stato osservato, ma perché è semplicemente impossibile che si possa verificare. In questo caso, non si parla più di zero naturale ma di zero strutturale o logico e la tabella viene detta tabella incompleta. Un esempio faciliterà la comprensione. Se costruiamo una tabella di contingenza che incrocia due variabili: Preoccupazioni per la propria salute da parte degli adolescenti, comprendente, tra gli altri, un livello relativo ai problemi mestruali, e Sesso degli adolescenti intervistati (maschi e femmine), è logico che, all’incrocio tra il livello problemi mestruali della prima variabile e il livello maschi della seconda non ci possa essere alcuna frequenza. Ebbene, questo è un caso di zero strutturale. In sede di analisi dei dati, gli zero strutturali devono essere individuati, trattati diversamente dagli zero naturali e, eventualmente, segnalati al programma informatico di analisi statistica. Le tabelle di contingenza con due variabili, dette a doppia entrata o bivariate, sono facilmente rappresentabili su un piano a due dimensioni. Più difficile è presentare su un piano a due dimensioni tabelle di contingenza con 3 variabili, indicate con AxBxC, o con più di tre variabili (per esempio, 2 Si consiglia perciò di utilizzare la tabella prodotta come esempio per esercitarsi dopo aver affrontato il capitolo sul chi quadro. 24 AxBxCxD o AxBxCxDxE, ecc.). Esse vengono dette tabelle di contingenza a più vie o multivariate. Nella tab. 6 mostriamo un esempio che riporta quattro variabili e che analizzeremo nel cap. 12. L’esempio mostra 2.490 enunciati, emessi nel corso di 4 Interviste cliniche da due diversi Parlanti (il clinico che conduce l’intervista clinica e l’intervistato), per ognuno dei quali è stato codificato il tipo di Riferimento a stati interni (nessuno, di I, di II livello) e il Genere del discorso (narrazioni, argomentazioni, altri generi). Il disegno di ricerca che ha portato alla raccolta di questi dati era formato dalle seguenti variabili: Intervista (Prima, Seconda, Terza e Quarta), Parlante (Intervistatore e Intervistato), Genere del discorso (Narrazioni, Argomentazioni e Altri generi) e Riferimento a stati interni (Nessun riferimento a stati interni, Stati interni di I livello, Stati interni di II livello). Tab. 6. Una tabella 3x3x2x4 che mostra il riferimento agli stati interni (nessun riferimento, di I livello, di II livello) e al genere narrativo (narrazioni, argomentazioni, altri generi) di 2.490 enunciati emessi da due diversi parlanti (intervistatore, intervistato) durante 4 interviste cliniche basate sull’Adult Attachment Interview (esempio tratto dalla ricerca di De Tommasi, Mininni, Gnisci, 2007). Parlante Intervista Genere Intervistatore Intervistato Riferimento a stati interni I II No TOT. Riferimento a stati interni II I No TOT. a 1 Narrazione Argomento Altro 7 2 99 5 1 6 6 1 17 18 432 122 214 32 351 77 3 61 50 6 40 341 41 452 2a Narrazione Argomento Altro 21 1 62 8 1 9 7 1 23 36 3 94 144 7 193 67 1 35 53 4 34 264 12 262 3a Narrazione Argomento Altro 8 1 63 4 1 12 3 1 15 15 3 90 61 38 181 15 12 17 11 4 14 87 64 212 4a Narrazione Argomento Altro 9 1 89 4 1 16 9 1 31 22 3 136 34 5 134 9 3 15 3 2 4 46 10 153 TOT. 363 68 115 546 1.404 315 225 1.944 N = 2.490 25 Da questa tabella si evince, per esempio, che nella seconda intervista l’intervistatore ha emesso 21 enunciati di genere narrativo che fanno riferimento a stati interni di I livello, mentre l’intervistato ne ha emessi 144. Le tabelle di contingenza possono anche essere rappresentate diversamente. Un modo conveniente, utilizzato da molti programmi statistici, consiste nel disporre ciascuna cella in riga e le variabili in colonna, aggiungendo una colonna in più che riporta la cosiddetta variabile di frequenza. La tab. 7 mostra questo secondo modo di presentare le variabili, relativamente ai dati presentati in tab. 5. Tab. 7. Tabella di frequenza relativa all’influenza della religione sull’atteggiamento politico. Atteggiamento politico Religione Variabile di Frequenza 1 1 126 1 2 61 1 3 38 2 1 71 2 2 93 2 3 69 3 1 19 3 2 14 3 3 27 Per costruire una matrice di frequenza è necessario indicare per ogni riga una combinazione unica tra le variabili in gioco. In questo caso si tratta di due variabili, ma si possono con lo stesso principio costruire matrici di contingenza con tre o più variabili. I livelli sono espressi con dei numeri progressivi ma solo per comodità: essi identificano in realtà dei livelli categoriali. La prima riga indica che nel nostro campione ci sono 126 individui di religione 1, cioè protestanti, con atteggiamento politico 1, cioè repubblicani. 26 3. La matrice dei dati Nelle tabelle di contingenza mostrate, i dati erano riportati direttamente nella tabella raggruppando i casi tra di loro. Tuttavia, molto spesso i dati vengono inseriti caso per caso e le tabelle di contingenza vengono ricavate da questa tabella originaria, detta matrice di dati o matrice Casi x Variabili: ogni individuo (o soggetto o caso) viene posto in riga e in colonna vengono poste le variabili, come mostra la figura seguente. Tab. 8. Matrice dei dati relativa all’influenza della religione sull’atteggiamento politico. Numero d’ordine Atteggiamento politico Religione 001 repubblicano protestante 002 repubblicano cattolico 003 democratico cattolico 004 democratico cattolico 005 repubblicano protestante … … … 517 democratico ebreo 518 indipendente cattolico In questa tabella, per esempio, il primo e il quinto soggetto, contrassegnati dal numero d’ordine 1 e 5, sono due dei 126 soggetti che appartengono alla categoria protestante-repubblicano, il secondo soggetto è uno dei 61 soggetti cattolici di orientamento repubblicano, e così via. Poiché i dati di ciascuna riga riguardano un individuo, sono detti individuali, a differenza di quelli delle tabelle di contingenza che vengono detti raggruppati. Vedremo nel capitolo successivo, come attraverso adeguati programmi statistici sia possibile ricavare dalle matrici di dati le tabelle di contingenza da analizzare, anche multivariate. 4. Quattro principi preliminari per l’analisi dei dati Le tabelle di contingenza e le matrici dei dati costituiscono le basi su cui effettuare le analisi statistiche. Prima di affrontare questo argomento, può essere importante chiarire alcune questioni preliminari, perché la statistica 27 viene vista spesso come una scienza oggettiva ed esatta, il che può dare l’impressione che non vi sia nulla di soggettivo o che le scelte fatte nelle analisi siano guidate dai risultati empirici o dai principi statistici. In realtà, l’applicazione della statistica alle scienze sociali trascende gli aspetti matematici della teoria statistica, nel senso che molte scelte e molte decisioni, che devono essere prese nel corso delle analisi o delle ricerche, non sono basate su considerazioni statistiche. È una credenza erronea, e una pratica sbagliata, indotta anche dall’uso dei programmi statistici, che le decisioni, in molte delle fasi di ricerca, siano prese solo sulla base di criteri statistici. È opportuno, quindi, ribadire alcuni principi, rielaborati a partire da quelli sostenuti da Wickens (1989), che fondano l’analisi statistica dei dati. Può servire a prevenire una serie di equivoci: 1) un’analisi statistica sensata non può essere realizzata senza informazioni extrastatistiche; 2) un’analisi confermativa produce dei risultati più forti e precisi di un’analisi esplorativa; 3) una domanda o un’ipotesi di ricerca ben formulata comporta una precisa tecnica statistica, una domanda mal formulata o un’ipotesi di ricerca debole non lo fa; 4) un’analisi statistica, per quanto sofisticata, non può migliorare la qualità di dati raccolti male. Il primo principio è autoesplicativo: non si possono analizzare dati e variabili senza sapere che cosa essi significhino e, quindi, principi o tecniche statistiche da soli non possono dare significato a nessun tipo di analisi. Sia l’analisi dei dati sia l’interpretazione dei risultati dipende da una serie di scelte, alcune delle quali sono statistiche, altre extrastatistiche. Il primo principio è, quindi, un richiamo all’importanza della teoria su cui si basano le nostre ipotesi e le nostre scelte. Esso è in contraddizione con la credenza, diffusa anche a livello accademico, secondo cui può esistere un esperto, l’analista, a cui vengono delegate le analisi indipendentemente dalla conoscenza della ricerca stessa in senso lato. Il secondo principio deriva dalla distinzione tra analisi statistiche confermative ed esplorative. Le prime sono analisi il cui scopo è rispondere a domande di ricerca o verificare ipotesi preparate prima della ricerca. Le analisi esplorative sono, invece, guidate da pattern emergenti dai dati, senza avere un’idea chiara su dove dirigersi. Le analisi confermative sono, perciò, guidate dalle domande (question-driven), quelle esplorative dai dati (datadriven). Proprio perché nelle analisi esplorative vengono visionati moltis28 simi risultati potenziali ma non necessariamente “veri”, è bene considerare le analisi esplorative come analisi preliminari che permettono di sollevare domande a cui si potrà rispondere successivamente con l’analisi confermativa. Il terzo principio si basa sulla semplice osservazione che la presenza di una domanda di ricerca ben fatta e ben formulata o di un’ipotesi di ricerca forte individua una tecnica statistica d’elezione piuttosto che un’altra. Il quarto principio, infine, mette in guardia dal pensare che la sofisticatezza o le capacità esplicative di certe tecniche statistiche possano supplire ad una inadeguata raccolta di dati. Come è noto, quasi tutti i dati in psicologia provengono da questionari, osservazione o test. Tuttavia, se i dati sono stati raccolti male, non c’è analisi statistica che possa migliorarli. Al contrario, un’analisi statistica su dati raccolti male conduce comunque a dei risultati, ovviamente fuorvianti, che saranno considerati veri e che inducono a conclusioni erronee e magari a interventi controproducenti. Perciò, particolare attenzione dovrebbe essere dedicata alla raccolta dei dati, alla scelta dello strumento di misura e alla valutazione almeno della sua attendibilità. A proposito della raccolta dei dati, va ricordato inoltre che, affinché le tecniche statistiche possano essere applicate, i dati raccolti devono essere indipendenti, nel senso che tutte le categorie devono avere a priori la stessa probabilità di essere scelte. 5. Che cos’è un modello Un modello è una rappresentazione semplificata ed essenziale, parsimoniosa ed esplicativa delle relazioni tra alcuni elementi, o variabili (Hutcheson, Sofroniou, 1999). Esso viene costruito per essere confrontato con la realtà così che possa essere in grado di descrivere il fenomeno che intendiamo studiare. Il modello è, quindi, un insieme di relazioni tra variabili che può essere descritto retoricamente, solitamente con un linguaggio scientifico, rappresentato graficamente e formalizzato in una espressione matematica, come, per esempio, l’equazione della retta di regressione (Vogt, 1993; Ricolfi, 1997). Vedremo nel cap. 8 che i modelli log-lineari, di cui ci occupiamo in questo libro, non sono altro che un insieme di equazioni che esprimono il legame tra le cosiddette frequenze attese e alcuni parametri che rappresentano le caratteristiche delle variabili qualitative della tabella di contingenza e le relazioni tra queste variabili. Anche se questo linguaggio può apparire, in questa fase, ancora oscuro, è bene tenere pre29 sente che un modello può essere definito a parole (“il tipo di religione influenza l’atteggiamento religioso”), rappresentato graficamente, per esempio come nella figura presentata a pagina seguente, e attraverso un’equazione matematica, del tipo Y=a+bX3. religione atteggiamento politico In questi tre modi di esprimere un modello, cambia il linguaggio utilizzato e il grado di formalità con cui il modello viene espresso. Tuttavia, essi sono solo modi diversi di esprimere uno stesso modello. Questa “rappresentazione semplificata ed essenziale” della realtà deve poi essere confrontata con la realtà stessa per vedere se il modello la rappresenta adeguatamente, cioè se nella vita di tutti i giorni e in un numero sufficientemente grande di persone è vero che la religione influenza l’atteggiamento politico. A volte, per il processo appena descritto si dice che un modello viene verificato. Tuttavia, come sostiene Popper (1934), un modello non può mai essere soggetto a verifica né essere confermato empiricamente, esso può solamente essere confutato o falsificato. Quando troviamo un modello che tiene bene il confronto con i dati della realtà possiamo solo dire che risulta non falsificato: è una spiegazione compatibile con quanto il mondo reale (Pedon, 1995), ne è la migliore approssimazione. La logica della falsificazione ci induce perciò a costruire uno o più modelli, a confrontare questi modelli con i dati raccolti e a trovare dei metodi per scegliere il modello che si adatta meglio ai dati della realtà. I modelli log-lineari sono sorretti proprio da questa logica. 6. Riassunto In questo capitolo abbiamo familiarizzato con i termini, i concetti e gli strumenti che incontreremo sovente nei capitoli successivi. Innanzitutto, abbiamo visto cosa significa eseguire una misurazione, cos’è una variabile, qual è la natura di una variabile e come si fa per individuarla, evidenziando in particolare le differenze tra variabili quantitative e qualitative. Poi, abbiamo mostrato come si rappresenta e si costruisce una tabella di contingenza, una matrice di frequenza e una matrice di dati, da cui può essere 3 L’equazione mostrata è quella della retta di regressione, non quella dei modelli loglineari per cui si rimanda al cap. 8. 30 tratta la tabella di contingenza. Infine, ci siamo soffermati su alcuni principi fondamentali per comprendere l’analisi dei dati e abbiamo definito cos’è un modello e come si falsifica. 31