119.8
11-04-2011
13:56
Pagina 1
FrancoAngeli
LA CASSETTA DEGLI ATTREZZI
STRUMENTI PER LE SCIENZE UMANE
Giovanni Di Franco insegna Metodologia e tecnica della ricerca sociale
presso la Facoltà di Lettere e Filosofia dell’Università di Salerno. Direttore dell’Associazione Paideia per l’alta formazione nelle scienze umane, ha
pubblicato EDS: esplorare, descrivere e sintetizzare i dati (2001), L’analisi multivariata nelle scienze sociali (2003), Analisi fattoriale a analisi in componenti
principali (2003 con Alberto Marradi), Corrispondenze multiple e altre tecniche multivariate per variabili categoriali (2006), L’analisi dei dati con Spss. Guida alla programmazione e alla sintassi dei comandi (2009), Il campionamento
nelle scienze umane. Teoria e pratica (2010), Dalla matrice dei dati all’analisi
trivariata (2011). È curatore del volume Far finta di essere sani. Valori e atteggiamenti dei giovani a Roma (2006).
119.8 - G. Di Franco - TECNICHE E MODELLI DI ANALISI MULTIVARIATA
Il volume offre un’introduzione sistematica alle operazioni di analisi dei
dati comunemente etichettate con l’espressione ‘analisi multivariata’, con
particolare riferimento a quelle più frequentemente usate nelle ricerche
delle scienze umane. Oltre alla presentazione tecnica degli strumenti di
analisi, nel testo si dedica ampio spazio agli aspetti applicativi ricorrendo a
numerosi esempi tratti da effettive ricerche empiriche.
Le tecniche e i modelli illustrati nel testo sono suddivisi rispetto alla natura delle variabili che possono essere trattate.
Fra le tecniche per variabili categoriali si presentano: l’analisi delle corrispondenze binarie, l’analisi delle corrispondenze multiple, l’analisi delle
corrispondenze multiple con la scelta delle modalità attive, l’analisi delle
corrispondenze multiple condizionate e l’analisi delle corrispondenze lessicali.
Fra le tecniche per variabili cardinali: l’analisi in componenti principali,
l’analisi dei gruppi, l’analisi discriminante e le tecniche di scaling.
Fra i modelli per variabili categoriali: i modelli log-lineari, la regressione
logistica e l’analisi della varianza a più vie.
Fra i modelli per variabili cardinali: la regressione multipla, l’analisi fattoriale e i modelli di equazioni strutturali.
Di ogni strumento si evidenziano pregi e difetti in relazione a definiti obiettivi analitici e in considerazione della natura delle variabili che si sottopongono all’analisi.
Giovanni Di Franco
TECNICHE
E MODELLI DI ANALISI
MULTIVARIATA
I S B N 978-88-568-3788-9
La passione per le conoscenze
€ 32,00
(V)
9
788856 837889
FrancoAngeli
La cassetta degli attrezzi. Strumenti per le scienze umane
Direttore
Giovanni Di Franco, Università di Salerno
Comitato editoriale
Elena Battaglini, Ires-Cgil
Sara Bentivegna, Università di Roma
Alberto Marradi, Università di Firenze
Federica Pintaldi, Istat
Luciana Quattrociocchi, Istat
Marta Simoni, Iref-Acli
La collana, rivolta a ricercatori accademici e professionisti, studiosi, studenti, e operatori del variegato mondo della ricerca empirica nelle scienze umane, si colloca sul versante dell’alta divulgazione e intende offrire strumenti
di riflessione e di intervento per la ricerca.
Obiettivo è consolidare le discipline umane presentando gli strumenti di ricerca empirica, sia di raccolta sia di analisi dei dati, in modo intellegibile e
metodologicamente critico così da consentirne l’applicazione proficua rispetto a definiti obiettivi cognitivi.
I testi sono scritti da professionisti della ricerca che, attingendo alla personale esperienza maturata in anni di attività, offrono ai lettori strumenti concettuali e tecnici immediatamente applicabili nella propria attività di ricerca.
Tutti i volumi pubblicati sono sottoposti a referaggio.
I lettori che desiderano informarsi sui libri e le riviste da noi pubblicati
possono consultare il nostro sito Internet: www.francoangeli.it e iscriversi nella home page
al servizio “informazioni” per ricevere via e-mail le segnalazioni delle novità
o scrivere, inviando il loro indirizzo, a: “FrancoAngeli, viale Monza 106, 20127 Milano”.
Giovanni Di Franco
TECNICHE
E MODELLI DI ANALISI
MULTIVARIATA
La cassetta degli attrezzi
Strumenti per le scienze umane/8
FrancoAngeli
Progetto grafico di copertina di Maria Teresa Pizzetti
Copyright © 2011 by FrancoAngeli s.r.l., Milano, Italy
L’opera, comprese tutte le sue parti, è tutelata dalla legge sul diritto d’autore. L’Utente nel momento in
cui effettua il download dell’opera accetta tutte le condizioni della licenza d’uso dell’opera previste e
comunicate sul sito www.francoangeli.it.
119. La cassetta degli attrezzi. Strumenti per le scienze umane
Volumi pubblicati:
1. Giovanni Di Franco, L’analisi dei dati con SPSS. Guida alla programmazione e alla sintassi dei comandi
2. Silvia Cataldi, Come si analizzano i focus group
3. Federica Pintaldi, Come si analizzano i dati territoriali
4. Giovanni Di Franco, Il campionamento nelle scienze umane: dalla
teoria alla pratica
5. Lucia Coppola, NVivo un programma per l’analisi qualitativa
6. Simone Gabbriellini, Simulare meccanismi sociali con NetLogo
una introduzione
7. Giovanni Di Franco, Dalla matrice dei dati all’analisi trivariata.
Introduzione all’analisi dei dati
8. Giovanni Di Franco, Tecniche e modelli di analisi multivariata
9. Federica Pintaldi, Come si interpretano gli indici internazionali
Guida per ricercatori, giornalisti e politici
Volumi in preparazione:
Alberto Marradi, Come evitare gli errori tipici in un questionario
Indice
pag.
9
2. Progettare l’analisi multivariata dei dati
2.1 Definizione e funzioni dell’analisi multivariata
2.2 Le fasi dell’analisi multivariata
2.3 Il linguaggio dell’analisi multivariata
2.4 Natura delle variabili, tecniche e modelli compatibili
2.5 Cosa leggere per saperne di più
»
»
»
»
13
13
20
23
»
»
28
33
3. Le tecniche per variabili categoriali
3.1 Analisi delle corrispondenze binarie
3.2 Analisi delle corrispondenze multiple
3.3 Analisi delle corrispondenze con scelta delle
modalità attive
3.4 Analisi delle corrispondenze condizionate
3.5 Analisi delle corrispondenze lessicali
3.6 Cosa leggere per saperne di più
»
»
»
35
36
52
»
»
81
87
92
103
4. Le tecniche per variabili cardinali
4.1 Analisi in componenti principali
4.2 Analisi dei gruppi
4.3 Analisi discriminante
4.4 Tecniche di scaling multidimensionale
4.5 Cosa leggere per saperne di più
»
»
»
»
»
»
105
105
147
178
196
200
1. Introduzione
7
5. I modelli per variabili categoriali
5.1 Modelli log-lineari
5.2 Regressione logistica
5.3 Analisi della varianza a più vie
5.4 Cosa leggere per saperne di più
»
»
»
»
»
203
203
241
248
261
6. I modelli per variabili cardinali
6.1 Regressione multipla lineare
6.2 Analisi fattoriale
6.3 Modelli di equazioni strutturali
6.4 Cosa leggere per saperne di più
»
»
»
»
»
263
263
283
291
302
8
1. Introduzione
Le basi di una buona analisi dei dati si gettano nel momento in cui
si progetta una ricerca su un determinato oggetto, fenomeno o problema sociale, si formulano le ipotesi, si definisce il significato dei
concetti rilevanti per l’indagine, si delinea la rappresentazione, in
termini di procedimenti di operativizzazione, del o dei fenomeni che
si intendono studiare, sia in termini spaziali e temporali che in termini di indicatori e variabili che dovranno essere rilevate su una determinata unità di analisi, e così via.
Considerare l’analisi dei dati come la fase terminale del percorso
di ricerca, eventualmente, da appaltare a qualche specialista o mago
del computer al quale si chiede soltanto di applicare, che sia possibile
o no non importa, qualche sofisticata tecnica di analisi multivariata
non può produrre risultati rilevanti, e, spesso, produce solo nonsense.
A volte, per illustrare l’uso delle tecniche e dei modelli di analisi
multivariata dei dati, si ricorre alla seguente analogia: usare le tecniche di analisi multivariata equivale a guidare una macchina; non
occorre sapere come funziona il motore per essere degli ottimi automobilisti. L’analogia è sbagliata in quanto il vero problema è quello
di sapere effettuare la scelta più appropriata rispetto agli obiettivi
prefissati: usare senza consapevolezza le tecniche e i modelli di analisi multivariata è come salire su un’automobile senza sapere quale
strada si vuole percorrere e dove si vuole andare. In altri termini, il
primo principio da non evadere mai è quello dell’indissolubilità fra
teoria e ricerca, fra metodo e tecniche di ricerca.
La tendenza ad attribuire capacità taumaturgiche, “oggettive” e
“scientifiche” a tecniche e a modelli di analisi statistica multivariata è
9
inversamente proporzionale al grado di conoscenza e di comprensione che di queste hanno i ricercatori che ne fanno un uso acritico e
disinvolto. Paradossalmente, per le scienze umane, si può affermare
che tanto meglio si conosce uno specifico modello di analisi dei dati,
ovvero i suoi assunti e i vincoli che esso impone sui dati presenti
nella matrice, e tanto meno si è portati ad utilizzarlo. Dare conto del
paradosso appena esposto è in buona sostanza l’obiettivo del presente
lavoro.
Lo sviluppo dei programmi di elaborazione statistica, che tendono
ad essere di sempre più facile gestione, associato alla diffusione di
massa dei personal computer, permette anche al più inesperto studente l’illusione autogratificante del dominio di tecniche e modelli complessi di analisi dei dati usando un software adatto. In realtà il vantaggio del calcolo elettronico è solo quello di aver reso possibile
l’applicazione dei modelli e delle tecniche di analisi multivariata dei
dati a matrici di grandi dimensioni per cui, anche se una buona parte
di questi modelli e tecniche sono disponibili da molti anni (in diversi
casi anche da più di un secolo), il loro concreto uso nella ricerca è
reso possibile solo dai calcolatori elettronici che sono in grado di
effettuare in pochi minuti miliardi di operazioni matematiche le
quali, se dovessero essere fatte a mano, richiederebbero molti mesi o
anni di lavoro a valenti matematici.
In questo senso, si deve ad Alberto Marradi (1985) un primo grido
d’allarme. Nella presentazione di un numero monografico della
Rassegna Italiana di Sociologia dal titolo Strumenti concettuali per la
raccolta e l’analisi dei dati, egli infatti affermava: “Già la precedente
rivoluzione dei calcolatori (che produsse contemporaneamente lo
hardware capace di gestire i grandi files delle scienze sociali, e un
software più abbordabile da utenti sociologi anziché informatici) aveva provocato un abbassamento del livello qualitativo medio delle ricerche – a giudizio non degli esponenti di un umanesimo di élite, ma
di protagonisti di quella stessa rivoluzione, come Norman Nie, il
creatore del linguaggio SPSS. Migliaia di aspiranti ricercatori, infarinati alla bell’è meglio da scuole estive di tecniche statistiche, hanno
correlato e fattor’analizzato tutto ciò che capitava loro a tiro, producendo tonnellate di nonsense, di cui non pochi quintali hanno trovato
la via della pubblicazione” (1985, 136).
10
A nostro avviso, oggi, uno studente o un ricercatore di scienze umane che intenda avvalersi di questi strumenti di analisi dei dati si
deve porre due ordini di problemi tra loro interconnessi; il primo è
relativo alla comprensione degli strumenti concettuali che stanno a
monte delle suddette tecniche e modelli, e il secondo – ovviamente
dipendente dal primo – è il riuscire a discriminare tra la ormai vasta
offerta nei diversi programmi informatici di analisi statistica dei dati
che, solo apparentemente, offrono le stesse procedure, quello o quelli
che offrono i maggiori vantaggi in riferimento agli obiettivi e alle
necessità di una particolare elaborazione.
Naturalmente, non è necessario comprendere tutte le fasi o tutti i
passaggi degli algoritmi matematici dei singoli strumenti; ma non si
possono ignorare gli assunti e i vincoli che questi presuppongono nei
dati.
Parallelamente allo sviluppo attuale dell’informatica, che prevede
l’utilizzo del computer da parte di utenti totalmente privi di alfabetizzazione informatica, anche i programmi informatici di analisi dei dati
oggi disponibili permettono al più inesperto utente l’esecuzione di
procedimenti di analisi dei dati molto complessi senza assumere da
parte dello stesso un benché minimo controllo delle procedure e, nel
peggiore dei casi, senza richiedergli l’onere di effettuare alcuna scelta
tra le molte possibili. In ambedue i casi non si devono confondere
questi vantaggi o venderli come “oggettività” o come “verità scientifica”, dimenticando i rischi e le distorsioni che questi mezzi statistico-informatici comportano, soprattutto se nel loro utilizzo non vi
è un controllo concettuale delle procedure e una giusta dose di buon
senso. In particolare l’utilizzo di tali procedimenti di analisi prevede
che l’utente sappia, quanto meno, valutare i risultati forniti dal
calcolatore. Questo, spesso, significa saper navigare in un mare di
cifre e di coefficienti statistici nel quale si rischia di rimanere
sommersi. Non a caso, la migliore prova di quanto stiamo affermando è la sensazione di sgomento che gli utenti inesperti provano
quando il computer fornisce i risultati delle procedure di analisi che
rimangono incomprensibili. Allora si tocca con mano la distanza che
separa l’uso di un programma di analisi dei dati e la competenza
metodologica che l’utente deve possedere per sfruttare al meglio le
11
possibilità della semplificazione procedurale offerta dai programmi
informatici.
Il presente volume è complementare ai testi L’analisi dei dati con
SPSS. Guida alla programmazione e alla sintassi dei comandi, e
Dalla matrice dei dati all’analisi trivariata editi nella stessa collana.
Diamo per scontato che gli argomenti dei due volumi siano conosciuti dai lettori di questo testo nel quale si illustreranno solo le più
usate tecniche e modelli di analisi multivariata dei dati trattandole ad
un livello da utente informato. Queste verranno introdotte direttamente nella loro cornice informatica, ossia saranno trattate in relazione alla loro effettiva disponibilità nei packages più diffusi presso i ricercatori delle scienze umane, non trascurando però di fare
riferimento ai fondamenti statistico-matematici che implicano e cercando di evidenziarne pregi e difetti in relazione a specifici obiettivi
cognitivi.
Un consapevole apprendimento delle possibilità di uso di questi
strumenti è possibile solo attraverso un esercizio pratico. Per esercitarsi praticamente nell’analisi dei dati, oltre alle necessarie conoscenze di base di metodologia e di statistica, occorre disporre di un
file di dati, di un personal computer, di un adeguato software informatico e una certa dose di buon senso che non faccia dimenticare che
riuscire a risolvere i problemi di una esercitazione e/o di una simulazione di analisi dei dati è solo una piccola parte del bagaglio di
esperienza che occorre per riuscire a percorrere un intero iter di
ricerca empirica.
Se ripercorriamo a ritroso il consueto ordine secondo il quale si
rende conto di un procedimento di ricerca, possiamo affermare che
una buona analisi dei dati dipende dall’aver costruito una buona
matrice dei dati, che significa aver definito precisamente l’unità di
analisi dalla quale si sono individuati i casi su cui si sono raccolti i
dati e aver progettato bene le variabili; ciò implica che la rilevazione
dei dati sia stata effettuata in maniera pertinente ed efficace rispetto
alla formulazioni delle ipotesi e degli obiettivi esplicitati e definiti
nel disegno della ricerca rispetto al quale l’intero iter di ricerca comincia e, con andamento circolare e iterativo, finisce e riparte.
12
2. Progettare l’analisi multivariata dei dati
Prima di presentare le tecniche e i modelli di analisi dei dati,
riteniamo sia utile delineare un quadro generale di riferimento che
permetta di definire con chiarezza il ruolo dell’analisi dei dati nella
ricerca delle scienze umane.
A tale fine presentiamo alcuni problemi di carattere metodologico
visti in stretta connessione con le procedure di analisi dei dati. Le
possibili opzioni in merito a tali problemi sono determinanti per
progettare correttamente l’analisi multivariata dei dati in relazione
agli obiettivi cognitivi presenti nel disegno della ricerca.
2.1 Definizione e funzioni dell’analisi multivariata
Possiamo definire l’analisi multivariata dei dati come un insieme
di operazioni finalizzate al raggiungimento di almeno uno dei seguenti obiettivi:
1. l’esplorazione del fenomeno oggetto di studio;
2. la descrizione del fenomeno oggetto di studio;
3. la sintesi e la classificazione delle informazioni che riguardano l’oggetto di studio;
4. la spiegazione, l’interpretazione e la specificazione delle relazioni tra le variabili che sono, in via ipotetica, ritenute rilevanti in connessione con il fenomeno oggetto di studio;
5. la previsione di stati futuri che riguardano il fenomeno oggetto di studio.
13
In questo testo i termini di spiegazione, interpretazione e specificazione
vengono usati in senso lazarsfeldiano, ovvero come esiti possibili di un
procedimento di analisi multivariata teso a svelare, procedendo attraverso
controlli con terze variabili, i rapporti di causa-effetto tra due variabili di cui
una è assunta, in ipotesi, come dipendente dall’altra.
L’ordine con il quale abbiamo elencato gli obiettivi perseguibili
non è casuale: essi sono disposti in modo ascendente rispetto: a) al
livello di complessità (dalla relativamente semplice esplorazione alla
più complessa previsione); b) al grado di desiderabilità, nel senso che
un’indagine empirica dovrebbe garantire il raggiungimento di tutti i
cinque obiettivi.
L’eventuale mancato conseguimento degli obiettivi dipende dal
livello di conoscenze teoriche, dal tipo di ipotesi di ricerca che si è in
grado di formulare e dalle esperienze empiriche consolidate in merito
all’oggetto d’indagine.
Un’indagine progettata con finalità prevalentemente descrittivoesplorative avrà ipotesi di ricerca non formalizzate o implicite – in
particolare, uno studio descrittivo-esplorativo di un fenomeno sociale
richiede quanto meno la selezione, teoricamente fondata, di quali
aspetti e caratteristiche del fenomeno oggetto di studio debbano essere prese in considerazione – ed i conseguenti obiettivi dell’elaborazione dei dati saranno l’esplorazione, la descrizione e la sintesi
delle informazioni raccolte.
Se invece l’indagine è di tipo prevalentemente esplicativo, saremo
in grado di formulare ipotesi più complesse ed articolate e l’analisi
dei dati sarà volta a controllare la plausibilità delle relazioni costruite,
la loro forza e la loro generalizzabilità. La possibilità di spingere gli
obiettivi dell’analisi dei dati dalla più semplice esplorazione-descrizione verso la spiegazione-previsione delle relazioni tra un insieme di
variabili dipende dal ricorso ad una teoria da parte di chi effettua la
ricerca: se si dispone di una teoria sufficientemente formalizzata e
ricca si potrà, in sede di analisi dei dati, controllare le ipotesi di ricerca che possiamo derivarne. Se, al contrario, non disponiamo di
una teoria sufficientemente formalizzata in base alla quale specificare
l’oggetto d’indagine allora gli obiettivi dell’analisi dei dati dovranno
limitarsi alla descrizione e alla sintesi delle informazioni raccolte fi-
14
nalizzandole ad una futura messa a punto e ampliamento della teoria
di riferimento.
Il livello di sviluppo teorico non è il solo problema di cui si deve
tenere conto nell’analisi dei dati. Ci sono infatti ulteriori problemi
che vanno considerati, e sono nell’ordine: a) la natura non sperimentale di quasi tutte le ricerche delle scienze umane; b) la natura
delle variabili, che impone una serie di vincoli alle elaborazioni che
su di esse si possono effettuare.
Alcune discipline fisico-naturali sono caratterizzabili come sperimentali in quanto generalmente il loro strumento di indagine è l’esperimento controllato in laboratorio, nel quale il ricercatore ha la
possibilità, schematizzando e semplificando, di:
1. isolare le variabili che gli interessano, ovvero estrapolarle da
qualsiasi altra variabile fonte di disturbo;
2. manipolare la variabile che assume come indipendente facendola variare a suo piacimento;
3. osservare e misurare, con strumenti di solito molto precisi, le
variazioni che la variabile dipendente subisce per effetto delle
variazioni prodotte nella variabile indipendente.
Nelle scienze umane un simile procedimento di esperimento controllato in laboratorio è del tutto inapplicabile per ragioni che sono
ovvie: non è possibile né il controllo-manipolazione della variabile
indipendente, né l’isolamento delle variabili sottoposte ad esperimento da tutte le altre che si dovrebbero tenere sotto controllo per evitare influenze-perturbazioni sulle variabili sperimentali.
Inoltre, si è di fronte alla necessità di aumentare le osservazioni.
Mentre in fisica un atomo di idrogeno è dello stesso tipo di tutto
l’idrogeno che c’è in natura, un individuo inteso sociologicamente,
non è affatto rappresentativo di tutta l’umanità, ma neanche della sua
nazione, o della sua città o del suo quartiere di residenza. Chiarita la
necessità da parte delle scienze umane di raccogliere informazioni su
molti esemplari concreti dell’unità di analisi adottata, si può provare
ad applicare un procedimento di tipo quasi-sperimentale costruendo
due gruppi di individui che sono ritenuti uguali rispetto a tutte le
variabili che interessano nell’esperimento, detti l’uno gruppo sperimentale e l’altro gruppo di controllo, e facendo agire la variabile
indipendente solo sul primo gruppo. Se dopo l’esperimento il gruppo
15
sperimentale differisce significativamente dal gruppo di controllo, si
conclude che l’effetto della variazione intervenuta sia determinato
dallo stimolo sperimentale.
Ricorrendo ad un disegno quasi-sperimentale, tuttavia, non si risolvono i dubbi legati al controllo delle variabili estranee all’esperimento, che rimandano all’assunto che i due gruppi siano in tutto e
per tutto uguali, e che l’effetto della variabile indipendente sia inequivoco e unico nei risultati registrati nel gruppo sperimentale.
Un esempio di quasi-esperimento in sociologia, riportato in molti manuali
di metodologia, teso a controllare il rapporto tra le condizioni di lavoro e la
produttività degli operai in un’industria elettrica portò alla scoperta del cosiddetto ‘effetto Hawthorne’ da parte del sociologo Elton Mayo. L’effetto Hawthorne consiste nella reazione dei soggetti sottoposti ad un esperimento: gli
operai, siano essi parte del gruppo sperimentale o del gruppo di controllo,
aumentavano la loro produttività indipendentemente dalla condizioni più o
meno favorevoli del luogo di lavoro perché erano consapevoli di essere
osservati dai ricercatori e di essere sottoposti ad un esperimento. Evidentemente, la definizione della situazione effettuata dagli individui coinvolti
comporta notevoli difficoltà nell’approntare disegni quasi-sperimentali quando si ha a che fare con esseri umani.
Per le suddette difficoltà le ricerche quasi-sperimentali non sono
molto diffuse in sociologia mentre sono frequentemente applicate in
ricerche di psicologia e psicologia sociale, dove l’assunto di uniformità del genere umano è evidentemente ritenuto più sostenibile.
Se il metodo sperimentale, sia nella sua versione hard (quella tipica delle scienze fisico-naturali sperimentali) che nella sua versione
soft (quella applicata in psicologia), non è quasi mai convenientemente applicabile nelle indagini sociologiche, cosa rimane da fare?
Una parziale risposta a questo quesito è stata formulata da John
Stuart Mill (1843), che non ritenendo possibile l’applicazione del
metodo sperimentale alle scienze umane non rinunciò alla possibilità
di usare i procedimenti logici delle scienze naturali nel campo della
ricerca sociale. Non è questa la sede per sviluppare considerazioni di
tipo logico-epistemologico sui limiti del contributo milliano; ci preme solo sottolineare che tra i cinque canoni di indagine suggeriti da
Mill (il metodo delle concordanze, delle differenze, delle concordanze congiunto alle differenze, dei residui e delle variazioni conco16
mitanti), che in vario modo propongono una logica di tipo sperimentale, il metodo delle variazioni concomitanti, a partire dalla classica
indagine di Durkheim sul suicidio (1897), è quello che più si adatta
alle esigenze e ai problemi delle ricerche sociologiche.
Possiamo allora definire le procedure di analisi dei dati proprie
della ricerca nelle scienze umane con il termine proposto da Nagel di
“investigazione controllata”.
Tranne casi particolari nei quali la rilevazione dei dati viene effettuata in modo esaustivo (e quindi riguarda l’intera popolazione di
riferimento), nella maggior parte delle ricerche sociologiche si ha a
che fare con rilevazioni campionarie che costituiscono una valida
alternativa, in termini di tempi e di costi finanziari, se non addirittura
l’unica scelta possibile per effettuare una ricerca. Naturalmente, l’interesse cognitivo dell’indagine rimane ancorato alla possibilità di
estendere i risultati ottenuti nel campione all’intera popolazione di
riferimento; ciò è reso possibile, per campioni di tipo probabilistico,
attraverso il ricorso a quella branca della statistica che si denomina
statistica inferenziale (Di Franco 2010).
L’ultimo problema da considerare riguarda infine la natura delle
variabili. Anche in questo caso il dibattito metodologico è molto ampio e qui non può che essere accennato a grandi linee considerandone le ricadute che attengono, in maniera particolare, l’analisi dei
dati.
Le informazioni che interessano in una indagine sono operativamente raccolte attraverso una scelta di indicatori che possiamo
intendere come concetti di proprietà che vengono trasformati in
variabili da una definizione operativa. Definire operativamente un
concetto di proprietà significa quindi fissare un insieme di regole che
consentono di rilevare concretamente per ogni caso il suo stato sulla
proprietà in considerazione.
Nelle ricerche delle scienze umane le proprietà che solitamente si
rilevano si possono classificare in continue o discrete come mostrato
in tabella 2.1.
Una proprietà si definisce discreta se i suoi stati variano per incrementi
finiti, ad esempio il numero dei figli di una coppia di coniugi, il numero di
volte che una persona si reca in chiesa in una settimana, etc.; continua se i
17
suoi stati, almeno teoricamente, variano per intervalli infinitesimi, ad esempio le misure fisiche come il tempo, lo spazio, etc. Evidentemente una
proprietà continua per essere misurata deve essere resa discreta individuando una unità di misura convenzionale e costruendo uno strumento di
misura che esprima i diversi stati rilevati con un numero finito di suoi multipli
e sottomultipli.
A loro volta le variabili che ne derivano si possono distinguere in cardinali e categoriali (una variabile si definisce cardinale, in senso stretto,
quando è esprimibile con una unità di misura convenzionale, che può essere, specie nel caso di proprietà di tipo psico-attitudinali, anche sottintesa,
come avviene nella costruzione delle scale Thurstone con la tecnica degli
intervalli che appaiono uguali; in ogni caso il continuum che rappresenta il
campo di variazione della proprietà viene diviso in intervalli uguali, o supposti tali, a partire da un punto arbitrario detto anche ‘zero convenzionale’.
Un caso particolare è rappresentato da quelle proprietà i cui stati sono
rilevabili non con una unità di misura, ma con una unità di conto, ad esempio, il numero dei figli, l’ammontare dei depositi bancari posseduti da una
famiglia non si rilevano misurando, ma attraverso il conteggio; in questo
caso il valore zero rappresenta l’assenza della proprietà, ma dal punto di
vista dell’analisi dei dati questa differenza viene superata dalle operazioni di
standardizzazione delle variabili, comunque necessarie per rendere comparabili variabili rilevate con diverse unità di misura o di conto, che permettono
di esprimere gli stati sulle proprietà in unità di scarto-tipo dalla media che
viene posta a zero.
Quando una proprietà non è rilevabile né con una unità di misura, né
con una unità di conto, allora si dice categoriale. In questi casi la definizione
operativa appropriata per rilevare gli stati sulle proprietà è la classificazione
semplice, ossia che non prevede alcun ordine fra le classi individuate, o
ordinata, che al contrario instaura fra le classi individuate un qualsiasi tipo
di ordinamento. A partire dalla celebre classificazione di Stevens (1946), il
termine ‘misurazione’ è stato eccessivamente esteso, riferendolo a qualsiasi procedura che permetta di attribuire dei numeri a degli oggetti o eventi
seguendo determinate regole.
Tabella 2.1 – Tipi di proprietà e operazioni di rilevazione connesse
Tipo Proprietà
Continua
Discreta
Cardinali
misurazione
conteggio
Categoriali
classificazione ordinata
classificazione ordinata o non ordinata
Ai fini dell’analisi multivariata occorre sottolineare che le operazioni eseguibili sulle variabili dipendono dalla loro natura: se le variabili sono cardinali (frutto di misurazione o di conteggio) possiamo
18
applicare tutte le procedure statistiche compatibili con questo livello
(dal calcolo della media, allo scarto tipo, alla standardizzazione delle
variabili, al coefficiente di correlazione lineare, alla regressione,
etc.); se le variabili sono categoriali si devono applicare altri strumenti statistici (frequenze semplici, frequenze relative, moda, mediana, differenza interquartilica, etc.).
In realtà, per non rinunciare all’applicazione di strumenti statistici
considerati più potenti (come la correlazione e la regressione lineare,
etc.) si è sempre tentato di rendere cardinali anche le variabili categoriali ricorrendo a diversi escamotages, che in taluni casi violano
pesantemente i canoni della correttezza metodologica.
Tra i diversi sistemi escogitati per trattare come cardinali delle variabili
categoriali ricordiamo la creazione di dummy variables o variabili booleane
trasformando una variabile categoriale con un numero k di modalità in k-1
variabili binarie dove si registra la presenza/assenza del carattere preso in
considerazione.
Ad esempio, se la variabile da trasformare è il genere con due modalità
(1 = maschio e 2 = femmina) basterà definire una sola dummy variable –
etichettata ‘mascolinità’ – che assumerà valore 0 nel caso della modalità
femmina e valore 1 nel caso della modalità maschio.
Un altro modo di trattare come cardinali le variabili categoriali consiste
nel calcolare i logaritmi delle frequenze relative, come avviene nei modelli
log-lineari.
Fortunatamente, oggi disponiamo di molti strumenti di analisi
multivariata applicabili alle variabili categoriali, come vedremo più
avanti.
Alberto Marradi (1993), considerando la natura delle variabili in
relazione alle operazioni di analisi dei dati, sottolinea come in sede di
analisi multivariata la distinzione tra le variabili tende a diventare
dicotomica, mentre per i livelli di analisi monovariata e bivariata essa
è più articolata come mostrato nel quadro sinottico riportato in
tabella 2.2.
19