LEZIONE 1 Dati Ecologici Ecologici II Dati nella Ricerca Ricerca Sociale Sociale nella Argomenti che che tratteremo tratteremo Argomenti Cosa sono i dati ecologici Dati ecologici e ricerca sociale Caratteristiche dell’unità di analisi Analisi dei dati ecologici Interpretazione dei risultati Cosa sono i dati ecologici “Ogni società, ad ogni momento della sua storia, ha una caratteristica attitudine al suicidio. L’intensità relativa di questa attitudine si valuta facendo il rapporto tra la cifra globale delle morti volontarie e quella della popolazione di ogni età e sesso. Chiameremo questo dato numerico tasso della mortalità-suicida proprio della società considerata. Lo si calcola, generalmente, in rapporto a un milione o a centomila abitanti” (Durkheim, Il Suicidio, p. 67) L’unità di analisi è il Paese In ambito sociale i dati ecologici identificano le variabili che presentano come unità di analisi un territorio (regione, provincia, collegio elettorale, ecc.) Cosa sono i dati ecologici Intermini terminipiù piùgenerali, generali,iidati datiecologici ecologiciidentificano identificanouna una •• In particolaretradizione tradizionedi diricerca ricercache cheutilizza utilizzacome comeunità unitàdidi particolare analisiun unaggregato aggregatoterritoriale, territoriale,spesso spessoinin analisi contrapposizionealla allatradizione tradizionedidiricerca ricercache cheutilizza utilizzacome come contrapposizione unitàdidianalisi analisil’individuo l’individuo(survey). (survey). unità Tuttavialalaricerca ricercaecologica ecologicanon nonèènecessariamente necessariamente •• Tuttavia alternativaall’approccio all’approccioche cheutilizza utilizzagli gliindividui individui alternativa Comevedremo, vedremo,l’utilizzo l’utilizzonella nellastessa stessaricerca ricercadididati dati •• Come ecologicieedati datiindividuali individualipermette permettedidicomprendere comprenderemeglio meglioilil ecologici fenomenooggetto oggettodidistudio studio fenomeno Il ruolo dei dati ecologici nella ricerca sociale I sociologi unanimemente riconoscono che l’oggetto di studio della sociologia è la società. Essi, però, si dividono sul piano teorico su quale sia la via “corretta” per produrre conoscenza sulla società. Per i microsociologi si deve partire dagli individui e rimanervi ancorati; per i macrosociologi, si deve superare il piano degli individui, con le loro azioni e intenzioni, e considerare direttamente un livello propriamente sociale (ossia sovra-individuale). Durkheim “Il fedele sin da quando è nato ha trovato già delineate credenze e pratiche della sua vita religiosa […] Oltre che esteriori rispetto all’individuo, questi tipi di condotta o di pensiero sono anche provvisti di una potenza imperativa e coercitiva con la quale si impongono al soggetto […] Non avendo quale loro sostrato l’individuo, questi fatti non possono avere altro fondamento che la società. Solo questi fatti costituiscono il territorio specifico della sociologia” (Durkheim 1895/1996, 28-29). Weber “la sociologia comprendente deve guardare all’individuo singolo e al suo agire come al proprio «atomo» […] Concetti come «stato», «associazione», «feudalesimo» e simili designano per la sociologia, in generale, categorie di determinate forme di agire umano in società; ed è loro compito riportarle all’agire «intelligibile» e cioè, senza eccezione, all’agire degli uomini che vi partecipano” (Weber 1922/1958, 256-57). Il ruolo dei dati ecologici nella ricerca sociale Tradizione macro-sociologica Tradizione micro-sociologica Durkheim,Comte, Comte,Spencer, Spencer,Tönnies Tönnies ••Durkheim, Funzionalismo,teoria teoriadei deisistemi sistemi ••Funzionalismo, Weber ••Weber Schutz,individualismo individualismometodologico metodologico ••Schutz, Ricercaecologica ecologica ••Ricerca Ricercatramite tramitesurvey survey ••Ricerca Presupposto Il tutto è diverso dalla somma delle parti Il tutto è riducibile alla somma delle parti La spiegazione sociologica deve prescindere dall’individuo La spiegazione sociologica deve rifarsi all’individuo e alle sue motivazioni Il ruolo dei dati ecologici: la storia Finoagli aglianni anni’50 ’50del delsecolo secoloscorso scorso •• Fino Nondifferenza differenzatra trai idati datiecologici ecologicieei idati datiindividuali individuali Non Anni’50-’90 ’50-’90del delsecolo secoloscorso scorso •• Anni Scopertadella dellafallacia fallaciaecologica ecologica(Robinson, (Robinson,1950) 1950)eericerca ricercadidimodelli modellididi Scoperta stimaper perl’inferenza l’inferenzadal dallivello livelloecologico ecologicoalallivello livelloindividuale individuale stima Situazioneattuale attuale •• Situazione Ricerca didi modelli modelli per per lolo studio studio concomitante concomitante didi dati dati ecologici ecologici ee dati dati Ricerca individualisenza senzaridurre ridurrei iprimi primiaiaisecondi secondi individuali Trasversale: ilil ruolo ruolo dei dei dati dati ecologici ecologici aa prescindere prescindere dalla dalla relazione relazione con con Trasversale: informazionisul sulpiano pianoindividuale individuale informazioni Il ruolo dei dati ecologici nella ricerca sociale Ladimensione dimensioneecologica ecologicadei deifenomeni fenomenisociali socialièèun unaspetto aspettoimprescindibile imprescindibile •• La perililsociologo. sociologo.Questo Questolivello livellodidianalisi analisipermette permettedidicogliere cogliereleletendenze tendenzedi di per fondo di di una una società, società, lala statica statica ee lala dinamica dinamica dei dei fenomeni fenomeni sociali: sociali: lala fondo dimensionedemografica, demografica,ilillivello livellodidiistruzione, istruzione,laladiffusione diffusionedei deiservizi servizisanitari sanitariee dimensione assistenziali, l’evoluzione l’evoluzione del del sistema sistema politico, politico, ilil mercato mercato del del lavoro, lavoro, assistenziali, l’inquinamento, lala diffusione diffusione dei dei servizi servizi culturali, culturali, lele forme forme associative, associative, lala l’inquinamento, criminalità,etc. etc. criminalità, Alcuni fenomeni fenomeni sociali sociali assumono assumono significato significato solo solo aa livello livello aggregato: aggregato: i i •• Alcuni vincitoridelle delleelezioni elezionipolitiche, politiche,lalapercentuale percentualedidiimmigrati immigratiininun unpaese, paese,ililtasso tassodidi vincitori disoccupazione,l’inflazione, l’inflazione,laladiffusione diffusionedidiquotidiani quotidianididiinformazione informazionepolitica. politica. disoccupazione, In sociologia sociologia lala ricerca ricerca ecologica ecologica èè particolarmente particolarmente diffusa diffusa inin alcuni alcuni ambiti ambiti didi •• In ricerca:lalasociologia sociologiaelettorale elettorale(Compagna (CompagnaeeDe DeCapris Capris1954; 1954;Galli Gallietetal. al.1968; 1968; ricerca: CaciaglieeSpreafico, Spreafico,aac.c.didi1975; 1975;1990; 1990;Arculeo ArculeoeeMarradi Marradi1985; 1985;Cartocci Cartocci1990; 1990; Caciagli DiFranco Franco1992; 1992;1995; 1995;Statera StateraeeDi DiFranco, Franco,aac.c.didi1996), 1996),gli glistudi studisulla sullaqualità qualità Di della vita vita (Dall’Osso (Dall’Osso 1987; 1987; Vergati Vergati 1989; 1989; Lanzetti Lanzetti 1990; 1990; Zajczyk Zajczyk 2001), 2001), lala della sociologia dell’ambiente dell’ambiente (Martinotti (Martinotti 1993; 1993; Guidicini Guidicini 1998), 1998), lala valutazione valutazione sociologia delle politiche politiche pubbliche pubbliche ee dell’attività dell’attività delle delle amministrazioni amministrazioni dello dello Stato Stato (Cole (Cole delle 1981;Guala GualaeeMarra, Marra,aac.c.didi1990; 1990;Coppola, Coppola,aac.c.didi1997; 1997;Putnam Putnam1997). 1997). 1981; Il ruolo dei dati ecologici nella ricerca sociale ogni caso, caso, quale quale che che sia sia l’approccio l’approccio teorico teorico condiviso, condiviso, quando quando sisi fafa ricerca ricerca empirica empirica •• InIn ogni spesso sisi utilizza utilizza un un approccio approccio atomista, atomista, studiando studiando solo solo lele relazioni relazioni tra tra lele spesso caratteristiche riferite riferite all’individuo all’individuo (l’età, (l’età, ilil genere, genere, ilil titolo titolo didi studio, studio, lala professione, professione, caratteristiche l’atteggiamento verso verso lala politica, politica, lala confessione confessione religiosa, religiosa, etc.), etc.), senza senza tener tener conto conto della della l’atteggiamento dimensionesocietaria. societaria.La Latradizione tradizionedidiricerca ricercaavente aventecome comeunità unitàdidianalisi analisil’individuo l’individuoee dimensione come tecnica tecnica didi rilevazione rilevazione ilil questionario questionario strutturato strutturato èè didi gran gran lunga lunga lala più più diffusa diffusa inin come sociologia. . sociologia uncerto certosenso sensolalaricerca ricercasociologica sociologicasvolta svoltaattraverso attraversoililsondaggio sondaggioconduce conducealalseguente seguente •• InInun paradosso: sese i i comportamenti, comportamenti, gli gli atteggiamenti, atteggiamenti, lele opinioni, opinioni, etc. etc. sono sono studiati studiati solo solo inin paradosso: rapportoad adaltre altrecaratteristiche caratteristicheindividuali individualiininun unvuoto vuotosociale, sociale,lalasociologia sociologiarischia rischiadidiridursi ridursi rapporto allapsicologia psicologia. . alla unapproccio approcciosociologico sociologicololostudio studiodell’azione dell’azionesociale socialedeve devenecessariamente necessariamentesituarsi situarsi •• InInun undeterminato determinatocontesto contestospazio-temporale, spazio-temporale,aameno menodidinon nonvoler volerperdere perderelalapropria propria ininun specificità. Per Per colmare colmare ilil vuoto vuoto sociale sociale inin cui cui spesso spesso sono sono collocati collocati i i risultati risultati didi una una specificità. ricercaatomista atomistaèèutile utileintegrare integrarelalaricerca ricercacon coni icosiddetti cosiddettidati datiecologici ecologici(o(oterritoriali). territoriali). ricerca L’ANALISI DEI DATI ECOLOGICI PERMETTE DI CARATTERIZZARE I CONTESTI ALL’INTERNO DEI QUALI AVVIENE L’INTERAZIONE SOCIALE Sondaggio atomista vs. sondaggio contestuale Sondaggio atomista Sondaggio contestuale Studio delle relazioni solo tra variabili riferite all’individuo Studio delle relazioni tra variabili riferite all’individuo controllando in relazione alle caratteristiche del territorio Variabili di contesto non considerate Variabili di contesto come variabili di controllo Esempi: vittoria alle elezioni politiche; fattori che incidono nel trovare un lavoro; scelta del percorso formativo, ecc. Vantaggi e limiti dei dati ecologici Vantaggi Limiti • Studio del contesto (livello macro) • Disponibilità di informazioni senza sobbarcarsi l’onere della raccolta dei dati • Informazioni su tutta la popolazione • Possibilità di analisi longitudinali • Non inferenze sul livello individuale (livello micro) • Variabili non progettate dal ricercatore (definizione operativa a posteriori) • Unità di analisi non rispondente agli obiettivi • Cambiamenti nel tempo delle variabili e/o dell’unità Analisi secondaria dei dati “Ogni ulteriore analisi relativa a informazioni che sono state ottenute in precedenza. Tale analisi può essere in relazione con il fine per cui i dati sono stati raccolti, o può indirizzarsi a un problema diverso da quello che ha generato la collezione dei dati originari. Può coinvolgere l’integrazione di informazioni da molteplici fonti o una rianalisi dei dati di una singola fonte” (Steward 1984). La Zajczyk (1996), raccomandando un’attenta analisi delle fonti e la ricostruzione puntuale della natura delle variabili disponibili, suddivide i limiti principali dell’analisi secondaria in quattro categorie: 1. inadeguatezza delle informazioni rispetto alle esigenze della ricerca dal punto di vista del livello territoriale di riferimento; 2. inadeguatezza del contenuto dell’informazione ai problemi posti dal ricercatore; 3. disomogeneità dei dati forniti dai diversi enti produttori; 4. qualità dei dati di livello ignoto e non garantito. Definizione operativa a posteriori Nelle ricerche ricerche ecologiche ecologiche didi solito solito lele informazioni informazioni sono sono state state già già •• Nelle raccolte:ililricercatore ricercatorenon noncontrolla controllatutto tuttoililprocesso processocostruzione costruzionedelle delle raccolte: variabili, ma ma ne ne riceve riceve l’esito l’esito (ossia (ossia lele variabili): variabili): per per ciascuna ciascuna variabile variabile variabili, disponibile lala definizione definizione operativa, operativa, l’individuazione l’individuazione degli degli indicatori indicatori ee ilil disponibile rapporto didi indicazione indicazione saranno saranno stabiliti stabiliti aa successivamente successivamente alla alla raccolta raccolta rapporto deidati dati dei RICOSTRUIRE IL PROCESSO DI COSTRUZIONE DELLE VARIABILI INSTAURARE IL RAPPORTO DI INDICAZIONE FRA LA VARIABILE E IL CONCETTO Esempi: tasso di occupazione, voti nulli, qualità della vita nelle città italiane, inflazione… Oggettivazione e feticizzazione dei dati Malinteso:Contrapposizione Contrapposizionetra tradato“oggettivo” dato“oggettivo”eedati dati“soggettivi” “soggettivi” Malinteso: non intervista diretta disponibilità della matrice dei dati dato già elaborato proprietà di status Rischio di strumentalizzazione tutta la popolazione fonte ufficiale L’UNICA FORMA DI OGGETTIVITÀ CHE PUÒ ESSERE PRETESA DAI DATI ECOLOGICI (COME DA QUALSIASI ALTRO TIPO DI DATO) È LA TRASPARENZA NELLE PROCEDURE DI RILEVAZIONE E REGISTRAZIONE DELLE INFORMAZIONI. OGGETTIVITÀ DIVIENE SINONIMO DI INTERSOGGETTIVITÀ E DI PUBBLICITÀ DELLE PROCEDURE. LEZIONE 2 Caratteristiche dei dati ecologici L’individuazione dell’unità dell’unità territoriale territoriale inin cui cui collocare collocare lolo •• L’individuazione studio dei dei fenomeni fenomeni sociali, sociali, nonché nonché lala selezione selezione degli degli studio indicatoririlevanti, rilevanti,èèun unpunto puntodeterminante. determinante. indicatori La portata portata euristica euristica dell’analisi dell’analisi ecologica ecologica dipende dipende •• La innanzitutto da da quanto quanto l’unità l’unità scelta scelta rappresenta rappresenta un’area un’area innanzitutto territorialesignificativa significativaper perililfenomeno fenomenooggetto oggettodidistudio. studio. territoriale L’unità di di analisi analisi scelta scelta influenza influenza tutto tutto ilil processo processo didi •• L’unità elaborazioneeeinterpretazione interpretazionedei deidati. dati. elaborazione Per tale tale ragione ragione sisi rende rende necessario necessario uno uno studio studio preliminare preliminare •• Per dellastessa. stessa. della Caratteristiche dei dati ecologici Un territorio territorio può può essere essere teoricamente teoricamente composto, composto, scomposto scomposto ee •• Un ricompostoin intanti tantimodi modidiversi diversicome comeuno unostrano stranomosaico mosaicoche chepuò può ricomposto variarelalaforma formae/o e/oililnumero numerodiditessere. tessere. variare volte lele tessere tessere sono sono simili simili per per grandezza, grandezza, altre altre no. no. Per Per alcune alcune unità unità •• AA volte territorialil’unione l’unionedidiun unsottoinsieme sottoinsiemediditessere tesserepuò puòdare dareluogo luogoad ad altre altre territoriali unità territoriali territoriali (ad (ad esempio: esempio: lala regione regione èè un un insieme insieme didi province; province; lala unità provincia èè un un insieme insieme didi comuni; comuni; etc.), etc.), ma ma non non sempre sempre èè possibile possibile provincia rispettareun unordine ordinegerarchico gerarchicofra fralelevarie varieunità unitàterritoriali. territoriali. rispettare Inoltre, non non èè sempre sempre possibile possibile stabilire stabilire un un ordine ordine di di grandezza grandezza •• Inoltre, omogeneotra traleleunità unità(il(ilcomune comunedidiRoma Romaha hauna unapopolazione popolazioneresidente residente omogeneo moltopiù piùnumerosa numerosadididiverse diverseregioni, regioni,benché benchéuna unaregione regioneèèdata datada dauna una molto sommadidicomuni). comuni). somma LA SCELTA DELLE TESSERE DA UTILIZZARE QUALI CASI PER L’ANALISI INFLUENZA TUTTE LE FASI DI ELABORAZIONE E DI INTERPRETAZIONE DEI RISULTATI Caratteristiche dei dati ecologici Sceltadel dellivello livellodi dianalisi analisiappropriato appropriato •• Scelta Problemidi diomogeneità omogeneitàdegli degliesemplari esemplari •• Problemi Squilibriodimensionale dimensionaletra traiicasi casi Squilibrio Importanzadel delcriterio criteriodidinormalizzazione normalizzazione Importanza Ladimensione dimensionespaziale spaziale •• La Ladimensione dimensionetemporale temporale •• La casiidentificabili identificabili •• IIcasi Vienemeno menol’assunto l’assuntoatomista atomista Viene Informazioniextra-matrice extra-matrice Informazioni La distribuzione territoriale dei fenomeni Equalia Equalia 2 Alto reddito Medio reddito Basso reddito Irregula Equalia3 Complessivamente 5.000 individui presentano alto reddito, 10.000 medio reddito, 20.000 basso reddito La distribuzione territoriale dei fenomeni Unodei deiprincipali principalinodi nodimetodologici metodologicinello nellostudio studiodei deidati datiecologici ecologici •• Uno consiste nel nel fatto fatto che che ilil modo modo in in cui cui una una data data distribuzione distribuzione consiste viene percepita percepita ee interpretata interpretata èè influenzato influenzato dalla dalla scala scala viene territoriale di di riferimento. riferimento. La La scala scala con con lala quale quale sisi studia studia un un territoriale fenomeno èè un un fattore fattore che che influenza influenza tutte tutte lele operazioni operazioni didi fenomeno elaborazione ee interpretazione interpretazione dei dei dati. dati. La La scelta scelta dell’unità dell’unità elaborazione territoriale,dunque, dunque,èègià giàparte partedell’analisi. dell’analisi. territoriale, In linea linea generale, generale, più più aumenta aumenta ilil livello livello di di disaggregazione disaggregazione •• In territoriale più più lala distribuzione distribuzione di di un un fenomeno fenomeno apparirà apparirà territoriale eterogenea: “più “più fitta fitta èè lala rete rete didi unità unità inin cui cui èè suddivisa suddivisa ee eterogenea: maggiore ilil dettaglio dettaglio usato usato per per studiarla, studiarla, maggiori maggiori saranno saranno gli gli maggiore squilibri regionali regionali ee locali locali osservati” osservati” (Cole (Cole 1981/1991, 1981/1991, 66). 66). squilibri L’effettoèèsimile simileaaquello quellodidiun unoggetto oggettoosservato osservatoalalmicroscopio: microscopio: L’effetto man mano mano che che sisi aumenta aumenta l’ingrandimento l’ingrandimento un un oggetto oggetto apparirà apparirà man semprepiù piùcostituito costituitoda dauna unastruttura strutturacomplessa complessaeeeterogenea. eterogenea. sempre Eterogeneità interna ai casi NELLE PROVINCE DI PISTOIA E ALESSANDRIA IL TASSO DI DISOCCUPAZIONE E’ 10,5% 30 12 10 20 8 6 10 4 2 Std. Dev = 3,17 Std. Dev = 1,37 Mean = 9,4 Mean = 10,7 N = 22,00 0 1,0 3,0 2,0 5,0 4,0 7,0 6,0 9,0 8,0 11,0 13,0 15,0 17,0 19,0 21,0 10,0 12,0 14,0 16,0 18,0 20,0 Tasso di disoccupazione nei comuni della provincia di Pistoia nei 22 comuni in provincia di Pistoia il tasso di disoccupazione oscilla tra il 9% e il 14% N = 190,00 0 1,0 3,0 2,0 5,0 4,0 7,0 6,0 9,0 8,0 11,0 10,0 13,0 12,0 15,0 14,0 17,0 16,0 19,0 18,0 21,0 20,0 Tasso di disoccupazione nei comuni della provincia di Alessandria nei 190 comuni in provincia di Alessandria il tasso di disoccupazione oscilla tra lo 0,9% e il 21% Assunto in termini di variabilità Qualsiasi livello territoriale si prenda in esame questo nasconde una parte di variabilità del fenomeno. Ciascuna unità ecologica porta con sé l’inevitabile assunto che la distribuzione delle proprietà indagate è costante all’interno di ciascun caso. Aree territoriali (ex. Nord, Centro, Sud, Isole) Livello nazionale Teorema della scomposizione della varianza: varT = varB+varW Problemi di omogeneità degli esemplari •• •• •• •• Nellacostruzione costruzionedidiuna unamatrice matricedei deidati datii icasi casidevono devonoessere esseredello dellostesso stessotipo. tipo.IlIlconcetto concettodidiuguaglianza uguaglianzaèè Nella relativoad adalcuni alcunicaratteri caratterieenon nonaatutti tuttii ipossibili possibilicaratteri. caratteri. relativo Per lele unità unità amministrative amministrative sisi assume assume che che l’uniformità l’uniformità formale formale equivalga equivalga automaticamente automaticamente ad ad una una Per uniformità sostanziale. sostanziale. Gli Gli esemplari esemplari sono sono considerati considerati dello dello stesso stesso tipo tipo inin quanto quanto presentano presentano quale quale uniformità caratteristicacomune comunel’appartenenza l’appartenenzaamministrativa. amministrativa.Tuttavia Tuttavialalavalutazione valutazionesull’omogeneità sull’omogeneitàdei deicasi casiinin caratteristica matricedovrebbe dovrebbeessere esseredata dataininfunzione funzionedegli degliobiettivi obiettividella dellaricerca ricercaeenon nonsemplicemente semplicementesusudefinizioni definizioni matrice amministrative. amministrative. Seassumiamo assumiamol’estensione l’estensioneterritoriale territorialeeelalapopolazione popolazioneresidente residentequali qualicriteri criteriper perdefinire definirel’equivalenza l’equivalenzadidi Se duecasi casicomprendiamo comprendiamoche, che,almeno almenoininItalia, Italia,non nonsisiabbiano abbianomai maicasi casidello dellostesso stessotipo. tipo.La Ladistribuzione distribuzione due estremamenteeterogenea eterogeneadella dellapopolazione popolazionesul sulterritorio territoriorende rendeimpossibile impossibilecostruire costruiredei deicasi casiche chepresentino presentino estremamente stessaproporzione proporzionediditerritorio territorioeedidipopolazione. popolazione. lalastessa Oltreall’estensione all’estensioneterritoriale territorialeeealla allapopolazione popolazioneresidente, residente,l’omogeneità l’omogeneitàpuò puòessere essereintesa intesaininrelazione relazione Oltre all’intensitàoofrequenza frequenzadidiun uncarattere carattereritenuto ritenutorilevante rilevanteper perililfenomeno fenomenoininesame esameLa Lascuola scuolaecologica ecologica all’intensità Chicago definisce definisce l’area l’area naturale naturale per per lala presenza presenza didi un un carattere carattere specifico: specifico: “Questo “Questo concetto concetto [area [area didi Chicago naturale] èè stato stato contrapposto contrapposto aa quello quello didi area area amministrativa, amministrativa, per per intendere intendere che che esso esso non non può può naturale] assolutamentenascere nascereda daun unatto attopolitico politicooodididefinizione definizioneamministrativa. amministrativa.Esso Essoesiste esisteperché, perché,ininuna unacerta certa assolutamente area, viene viene concentrandosi concentrandosi un un carattere carattere (etnico, (etnico, religioso, religioso, ma ma anche anche produttivo produttivo oo strutturale) strutturale) assente assente area, all’esternodell’area, dell’area,oocomunque comunquenon nonpresente presenteininmodo modocosì cosìmassiccio massiccioeeconcentrato” concentrato”(Guidicini (Guidicini1998, 1998, all’esterno 145-146). 145-146). IL CONCETTO DI UNITÀ DELLO STESSO TIPO NON PUÒ CHE ESSERE CIRCOSCRITTO Squilibrio dimensionale tra i casi SCELTA TRA UTILIZZO GRANDEZZE RELATIVE DI VALORI ASSOLUTI O L’utilizzo didi valori valori assoluti assoluti consente consente didi valutare valutare l’effettiva l’effettiva entità entità didi un un fenomeno fenomeno •• L’utilizzo (redditoprodotto, prodotto,numero numerodidiastenuti astenutialle alleelezioni elezionipolitiche, politiche,numero numerodidimatrimoni matrimonicivili, civili, (reddito etc.),ma macomporta comportadistribuzioni distribuzionifortemente fortementesbilanciate, sbilanciate,ininquanto quantodipendenti dipendentidalla dalla etc.), variabilitàdella dellapopolazione popolazioneresidente residentetra trai icasi. casi. variabilità L’utilizzo didi valori valori normalizzati normalizzati — — quali quali percentuali, percentuali, tassi, tassi, numeri numeri indice, indice, etc. etc. — — •• L’utilizzo comportal’effetto l’effettodidiassegnare assegnarelolostesso stessopeso pesoaiaicasi casi(ad (ad esempio, esempio,reddito redditopro-capite, pro-capite, comporta percentualedidivoti votivalidi validialle alleelezioni elezionipolitiche, politiche,numero numerodidimatrimoni matrimonicivili civilisul sultotale totaledei dei percentuale matrimoni,etc.); etc.);ililche chesignifica, significa,ad adesempio, esempio,considerare considerareequivalenti equivalenticomuni comunicon conmeno meno matrimoni, 1.000abitanti abitantieecomuni comunicon conpiù piùdidiun unmilione milionedidiabitanti. abitanti. didi1.000 LA STRATEGIA PIÙ ADEGUATA DIPENDE DAGLI OBIETTIVI, FERMA RESTANDO LA NECESSITÀ DI VALUTARE LE CONSEGUENZE Squilibrio dimensionale tra i casi Ci sono più occupati a Roma o a Milano? Al censimento del 1991 a Roma vi erano 983.253 occupati e a Milano 553.978: nella capitale il numero di occupati è quasi il doppio di quelli del capoluogo lombardo. Se Roma e Milano avessero lo stesso numero di abitanti in quale città ci sarebbero più occupati? Dividendo il valore assoluto per la popolazione residente, e moltiplicando per 100, scopriamo che la percentuale di occupati è il 35,4% a Roma e il 40,5% a Milano; Per cui la risposta è: “a Milano è più probabile essere occupati rispetto a Roma”. CIÒ MOSTRA COME I VALORI ASSOLUTI DI UNA VARIABILE NON CONSENTANO DI INDAGARE L’INTENSITÀ DI UN FENOMENO IN RELAZIONE ALL’AMPIEZZA DELLA POPOLAZIONE. Squilibrio dimensionale tra i casi Occupati (1991) Variabile Percentuale di occupati Media Scarto-tipo 2.430 14.946 Media 35,0 Valore minimo 10 Scarto-tipo 7,8 Valore massimo 983.253 Valore minimo 11,2 Somma 19.674.969 Numero di casi 8.098 Valore massimo 61,1 Numero di casi 8.098 Squilibrio dimensionale tra i casi Tab. 4.10 – Valori caratteristici della variabile ‘numero di astenuti alle politiche del 2001’ calcolati su tre unità di analisi Comune Provincia Regione Media 1.146 89.875 482.488 Scarto-tipo Valore minimo Valore massimo 7.422 0 488.748 99.105 18.035 614.273 360.858 96.181 1.278.165 Numero di casi 7.996 102 19 Tab. 4.11 – Valori caratteristici della variabile ‘percentuale di astenuti alle politiche del 2001’ calcolati su tre unità di analisi Comune Provincia Regione Media 20,2 18,9 19,8 Scarto-tipo Valore minimo Valore massimo 10,7 0,0 95,8 6,8 9,8 39,4 5,7 11,2 30,2 Numero di casi 7996 102 19 Tab. 4.12 – Valori caratteristici della variabile ‘percentuale di astenuti alle politiche del 2001’ calcolati su tre unità di analisi pesando i casi per il numero di elettori Comune Provincia Regione Media 18,7 18,7 18,7 Scarto-tipo Valore minimo Valore massimo 8,2 0,0 95,8 6,0 9,8 39,4 5,4 11,2 30,2 Numero di casi 49.153.003 49.153.003 49.153.003 Influenza del criterio di normalizzazione % di voti a Fi Regione Sicilia Sicilia Sicilia Campania Sicilia Sicilia Campania Piemonte Lombardia Lombardia Lombardia Lombardia Lombardia Lombardia Provincia TP PA ME NA RG PA NA CN MI MI MI MI MI MI per 100 voti validi 30,4 30,4 30,1 30,1 30,5 30,7 30,5 30,9 30,5 30,3 30,6 30,1 30,7 30,1 Graduatoria per 100 voti validi 36 35 40 41 33 30 34 28 32 37 31 38 29 39 Influenza del criterio di normalizzazione Regione Sicilia Sicilia Sicilia Campania Sicilia Sicilia Campania Piemonte Lombardia Lombardia Lombardia Lombardia Lombardia Lombardia Provincia TP PA ME NA RG PA NA CN MI MI MI MI MI MI % di voti a Fi per 100 per 100 elettori voti validi 17,8 30,4 18,2 30,4 18,8 30,1 18,9 30,1 19,6 30,5 20,9 30,7 21,4 30,5 24,0 30,9 24,4 30,5 24,7 30,3 24,9 30,6 25,1 30,1 25,4 30,7 25,8 30,1 Graduatoria per 100 per 100 elettori voti validi 145 36 127 35 111 40 108 41 98 33 72 30 63 34 28 28 23 32 20 37 18 31 16 38 14 29 12 39 Influenza del criterio di normalizzazione Provincia Modena Bologna Reggio Emilia Bolzano Vicenza Como Aosta Parma Forlì Milano Numero di Numero di Numero di occupati su occupati su occupati su popolazione popolazione popolazione residentecon almeno 15 tra i 15 e i 64 anni anni Graduatoria Graduatoria Graduatoria (a) (b) (c) (a) (b) (c) 46,0 52,5 66,1 1 1 1 44,8 49,8 64,5 2 7 3 43,9 50,3 64,6 3 4 2 43,2 52,4 62,4 4 2 5 43,1 50,8 61,0 5 3 11 42,6 50,0 60,2 6 6 15 42,6 49,0 60,2 7 10 16 42,5 47,8 63,0 8 19 4 42,4 48,6 61,5 9 15 6 42,4 48,8 58,1 10 12 36 La dimensione spaziale Per lele unità unità ecologiche ecologiche lala posizione posizione nello nello spazio spazio èè una una caratteristica caratteristica •• Per rilevante. Dalla Dalla statistica statistica spaziale spaziale deriva deriva ilil concetto concetto didi autocorrelazione autocorrelazione rilevante. spaziale: IlIl valore valore d’una d’una variabile variabile rilevato rilevato inin una una certa certa posizione posizione dello dello spazio spazio spaziale: influenza generalmente generalmente i i valori valori osservati osservati inin località località ‘vicine’ ‘vicine’ ee ne ne èè aa sua sua volta volta influenza influenzato. influenzato. Ancheper perleleunità unitàecologiche ecologichepuò puòessere essereutile utileconsiderare considerarelelerelazioni relazionifra frai i •• Anche casi in in riferimento riferimento alla alla loro loro prossimità prossimità spaziale; spaziale; però però èè più più difficile difficile casi individuare ilil tipo tipo didi influenza. influenza. La La vicinanza vicinanza spaziale spaziale non non èè un un presupposto presupposto individuare necessarioeesufficiente sufficienteper perfondare fondareuna unasub-cultura sub-culturacomune, comune,anche anchesesefacilita facilita necessario processi didi interscambio interscambio culturale culturale tra tra i i popoli. popoli. AA ciò ciò può può accompagnarsi accompagnarsi i i processi un’unione politica, politica, che che stabilisce stabilisce un un insieme insieme didi norme norme comuni. comuni. II confini confini un’unione naturalipossono possonocon congli glianni annidivenire diveniredei deiconfini confiniculturali; culturali;ma maallo allostesso stessotempo tempo naturali confiniculturali culturalie/o e/oamministrativi amministrativitra trai ipopoli popolipossono possonocostruire costruiredei deiconfini confini i iconfini fisiciartificiali. artificiali. fisici Prescindendodalla dalladimensione dimensionespaziale spazialeche chelega legagli gliesemplari esemplarididiuna unaunità unità •• Prescindendo rischia didi interpretare interpretare erroneamente erroneamente lele dinamiche dinamiche didi alcuni alcuni fenomeni fenomeni sisi rischia sociali. sociali. La dimensione spaziale Interpretazionididiquesti questiultimi ultimianni annidel delfenomeno fenomenosociale socialedenominato denominato“ritorno “ritorno ••Interpretazioni alla campagna”, campagna”, secondo secondo ilil quale quale lele grandi grandi città città sisi spopolano spopolano aa favore favore dei dei alla piccolicentri, centri,perdendo perdendolalaloro lorocapacità capacitàdidipoli poliattrattivi. attrattivi. piccoli Secondo Martinotti Martinotti questa questa “falsa “falsa rappresentazione” rappresentazione” dipende dipende dall’utilizzo dall’utilizzo didi ••Secondo classificazioniatomistiche atomisticheininluogo luogodidiclassificazioni classificazionicontestuali contestuali classificazioni •Distinguendo i i comuni comuni per per l’appartenenza l’appartenenza ad ad un’area un’area metropolitana metropolitana •Distinguendo (classificazione contestuale), contestuale), oltreché oltreché per per lala dimensione dimensione demografica demografica (classificazione (classificazione atomistica), atomistica), emerge emerge che che lala diminuzione diminuzione della della popolazione popolazione (classificazione non investe investe ii sistemi sistemi metropolitani metropolitani ma ma ii centri centri maggiori maggiori degli degli stessi. stessi. In In non altri termini termini i i comuni comuni didi medie medie dimensioni dimensioni che che registrano registrano una una tasso tasso didi altri incrementodella dellapopolazione popolazionesono sonoquelli quellilimitrofi limitrofiaiaigrandi grandicentri centriurbani, urbani,con coni i incremento qualiintrattengono intrattengonoun unrapporto rapportodididipendenza dipendenzafunzionale funzionale. . quali Le rappresentazioni rappresentazioni grafiche grafiche su su cartine cartine geografiche geografiche sono sono molto molto utili utili per per lolo ••Le studiodella delladistribuzione distribuzionedi diun unfenomeno fenomenonel nelterritorio, territorio,eeper perlolostudio studiodelle delle studio relazioni spaziali. spaziali. Una Una rappresentazione rappresentazione grafica, grafica, ad ad esempio, esempio, rende rende subito subito relazioni evidente l’incremento l’incremento della della popolazione popolazione dei dei comuni comuni vicini vicini alle alle città città evidente metropolitane, confutando confutando lala tesi tesi che che afferma afferma lala perdita perdita didi centralità centralità della della metropolitane, metropoliaafavore favoredei deicentri centriminori. minori. metropoli Cambiamenti nel tempo Un’altracaratteristica caratteristicadelle delleunità unitàterritoriali territorialièèlalaloro lorovariabilità variabilitànel neltempo. tempo.Per Perun un •• Un’altra corretto utilizzo utilizzo delle delle informazioni informazioni aa livello livello ecologico ecologico èè necessario necessario conoscere conoscere quali quali corretto sianogli gliesemplari esemplariesistenti esistentinei neidiversi diversimomenti momentitemporali. temporali. siano Perdidipiù piùi icambiamenti cambiamentinei neiconfini confiniterritoriali territorialinon nonsono sonosempre sempreevidenti. evidenti.Oltre Oltre •• Per alla nascita nascita ee alla alla soppressione soppressione didi un un esemplare esemplare occorre occorre tener tener presente presente lele possibili possibili alla variazioniparziali. parziali. variazioni Disponendo didi dati dati ad ad un un livello livello inferiore inferiore dell’unità dell’unità didi analisi analisi sisi possono possono •• Disponendo riaggregareleleinformazioni informazionipassate passatetenendo tenendoconto contodei deinuovi nuoviconfini. confini. riaggregare Se i i dati dati sono sono disponibili disponibili solo solo per per ilil livello livello di di analisi analisi di di interesse interesse occorre occorre •• Se aggregarei icasi casicoinvolti coinvoltinel nelprocesso processodidivariazione. variazione. aggregare Tuttociò ciòrisulta risultarelativamente relativamenteagevole agevolese seleleinformazioni informazionisono sonoespresse espresseininvalori valori •• Tutto assoluti.Quando, Quando,alalcontrario, contrario,i idati datisono sonogià giàelaborati elaborati— —ininforma formadidipercentuali, percentuali, assoluti. rapporti didi composizione, composizione, tassi, tassi, etc. etc. — — non non èè possibile possibile sommare sommare lele informazioni informazioni rapporti appartenenti aiai diversi diversi esemplari. esemplari. In In questo questo caso, caso, occorre occorre escludere escludere tutti tutti i i casi casi appartenenti coinvolti nel nel processo processo didi variazione variazione dei dei confini; confini; anche anche sese ciò ciò potrebbe potrebbe rendere rendere coinvolti l’analisipoco pocosignificativa significativa(nel (nelnostro nostroesempio esempiosisitratterebbe tratterebbedidiescludere escludere16 16province province l’analisi fralelequali qualiMilano MilanoeeFirenze) Firenze). . fra Un’ultimastrategia strategiaconsiste consistenello nellostimare stimarei idati datidegli deglianni annipassati. passati.Tale Taleprocesso processo •• Un’ultima devefondarsi fondarsisulla sullaconoscenza conoscenzadel delterritorio, territorio,perché perchéspesso spessonon nonèècorretto correttoassumere assumere deve chei inuovi nuoviesemplari esemplariabbiamo abbiamocaratteristiche caratteristichesimili similiaaquelli quellida dacui cuiprovengono. provengono. che Cambiamenti nel tempo Scorpori Il Comune perde parte del territorio Soppressioni L’intero Comune entra a far parte di uno o più Comuni Fusioni Unione di due o più Comuni Aggregazione Un Comune esistente acquista parte o tutto il territorio di uno o più Comuni Istituzione di nuovo Comune Cambiamenti nel tempo Numero di decessi per disturbi psichici e malattie del sistema nervoso per quinquennio 90.000 80.000 70.000 60.000 50.000 40.000 30.000 20.000 10.000 0 1930 1935 1940 1945 1950 1955 1960 1965 1970 1975 1980 Nel 1968 revisione della classificazione internazionale delle malattie. Le morti per disturbi psichici e malattie del sistema nervoso passano da 78.571 (vecchia classificazione) a 6.805 (nuova classificazione); il numero di morti per malattie del sistema circolatorio da 173.434 a 245.631. Inoltre, pur se in modo meno marcato, si registrano variazioni anche per le altre cause di morte. Ricapitolando Ricapitolando,quando quandoininuna unaricerca ricercasisiadotta adottauna unaunità unitàdidianalisi analisiecologica ecologicaèèmolto moltoimportante importante Ricapitolando, consideraresia sialalastoria, storia,sia sialalacultura, cultura,sia sialalacollocazione collocazionesul sulterritorio territoriodei deisingoli singoliesemplari esemplari considerare dell’unitàdidianalisi analisiscelta. scelta. dell’unità Talicaratteristiche caratteristichedei deivari varitipi tipididiunità unitàdidianalisi analisiecologiche ecologicheproducono produconouna unanetta nettadifferenza differenza Tali fralelericerche ricercheche chesisiavvalgono avvalgonodididati dati relativi relativi aaindividui individuieequelle quelleche chesisiavvalgono avvalgonodididati dati fra relativiaaunità unitàterritoriali. territoriali. relativi Nelprimo primocaso casogli gliindividui individuipresenti presentinella nellamatrice matricedei deidati datisono sono‘anonimi’ ‘anonimi’eesono sonoconsiderati considerati Nel fungibilisia siafra fradidiloro lorosia siarispetto rispettoall’intera all’interapopolazione popolazioneda dacui cuiprovengono. provengono.Le Leinformazioni informazioni fungibili relativeagli agliindividui individuisono sonosolo soloquelle quellepresenti presentinella nellamatrice matricedei deidati dati relative Quandoi icasi casidella dellamatrice matricedei deidati datisono sonoesemplari esemplarididiuna unaunità unitàdidianalisi analisiterritoriale territorialeèèmolto molto Quando importante esaminare esaminare individualmente individualmente i i casi casi considerandone considerandone lala storia, storia, lala cultura, cultura, lala importante collocazione geografica, geografica, i i cambiamenti cambiamenti nel nel tempo, tempo, etc. etc. Di Di solito, solito, tutte tutte queste queste ulteriori ulteriori collocazione informazioniprovengono provengonodal dalpatrimonio patrimoniodidiconoscenze conoscenze(siano (sianoesse essetacite tacitee/o e/ospecialistiche) specialistiche) informazioni delricercatore ricercatoreeenon nonsono sonoorganizzate organizzatesulle sullecolonne colonnedella dellamatrice matricedei deidati. dati.Nondimeno Nondimenoqueste queste del conoscenzeconsentono consentonodidiarricchire arricchirel’analisi l’analisidei deidati datieesoprattutto soprattuttol’interpretazione l’interpretazionedegli deglistessi. stessi. conoscenze Quandoi icasi casididiuna unamatrice matricedei deidati datisono sonoesemplari esemplarididiuna unaunità unitàdidianalisi analisiecologica ecologicanon nonèèpiù più Quando sostenibile l’assunto l’assunto atomista atomista sottostante sottostante alla alla matrice matrice dei dei dati dati (Marradi (Marradi 1996; 1996; Di Di Franco Franco sostenibile 2001)che cheafferma affermalalafungibilità fungibilitàfra frai icasi casidella dellamatrice. matrice.Al Alcontrario contrarioèènecessario necessarioriconoscere riconoscere 2001) individualmenteciascun ciascuncaso casoininciascuna ciascunaoperazione operazionedidianalisi analisidei deidati. dati. individualmente LEZIONE 3 Lo studio delle relazioni tra variabili Rispondiamo alla domanda: “che relazione c’è tra il tasso di occupazione e il livello di istruzione?” Calcoliamo la correlazione lineare tra il ‘numero di occupati’ e il ‘numero di laureati’ rxy = 0,98 nei comuni dove l’istruzione è più elevata è più facile trovare lavoro Per controllare la plausibilità della nostra interpretazione calcoliamo la correlazione tra il ‘numero di occupati’ e il ‘numero di individui senza titolo di studio’ rxy = 0,91 Tra i due fenomeni sussiste una relazione non lineare? Calcoliamo la correlazione tra il ‘numero di occupati’ e il ‘numero di diplomati’ rxy = 0,99 QUALCOSA NON QUADRA? Lo studio delle relazioni tra variabili Losquilibrio squilibriodimensionale dimensionaletra trai icasi casigioca giocaun unruolo ruoloancor ancorpiù piùrilevante rilevanteper per Lo studio delle delle relazioni relazioni tra tra lele variabili. variabili. IlIl diverso diverso peso peso della della popolazione popolazione lolo studio residentenei neicasi casioffusca offuscalelerelazioni relazionitra tralelevariabili variabilisocio-economiche socio-economicheee residente demografiche,ininquanto quantociascuna ciascunadidiesse essetenderà tenderàaacrescere crescereininrapporto rapportoalla alla demografiche, popolazioneresidente. residente. popolazione Com’è ovvio, ovvio, all’aumentare all’aumentare della della popolazione popolazione residente residente aumentano aumentano Com’è necessariamente anche anche ilil numero numero didi occupati, occupati, didi laureati, laureati, didi diplomati, diplomati, didi necessariamente individui senza senza titolo titolo didi studio, studio, etc. etc. L’incremento L’incremento non non sarà sarà sempre sempre individui proporzionale alla alla popolazione popolazione residente residente (ad (ad esempio: esempio: un un laureato laureato ogni ogni proporzionale centoresidenti), residenti),ma maililforte fortesquilibrio squilibriodimensionale dimensionaletra trai icasi casinon nonpermette permette cento coglieretali talidifferenze. differenze. didicogliere Lo studio delle relazioni tra variabili Popolazione residente Occupati (1991) (1991) Popolazione residente (1991) 0,99 Laureati (1991) 0,98 0,98 Diplomati (1991) 0,99 0,99 Licenza elem. o media inf. (1991) 1,00 0,99 Senza titolo di studio (1991) 0,96 0,91 Immigrati (1995) 0,90 0,92 Popolazione non attiva (1991) 1,00 0,98 Disoccupati (1991) 0,97 0,94 Attivi agricoltura (1991) 0,44 0,41 Attivi industria (1991) 0,92 0,94 Attivi altre attività (1991) 0,99 0,99 Lavoratori autonomi (1991) 0,98 1,00 Astenuti 0,98 0,94 Voti validi 1,00 1,00 Forza Italia 0,97 0,97 An 0,95 0,94 Lega Nord 0,47 0,53 Ds 0,96 0,96 Margherita 0,97 0,98 Rifondazione Comunista 0,98 0,98 Per lo studio delle relazioni tra variabili dovrò utilizzare grandezze relative Lo studio delle relazioni tra variabili Popolazione Percentuale residente di occupati Variabile (1991) (1991)** Popolazione residente (1991) -0,01 % di laureati (1991)* 0,26 0,04 % di diplomati (1991)* 0,16 0,30 % licenza elem. o media inf. (1991)* -0,10 0,52 % di individui senza titolo di studio (1991)* -0,03 -0,68 % di immigrati (1995)** -0,05 0,28 % di popolazione non attiva (1991)** -0,03 -0,85 % di disoccupati (1991)*** 0,01 -0,70 % di attivi agricoltura (1991)*** -0,08 -0,32 % di attivi industria (1991)*** -0,06 0,51 % di attivi altre attività (1991)*** 0,15 -0,25 % di lavoratori autonomi (1991)*** -0,07 0,12 % di astenuti**** -0,03 -0,59 % di voti validi***** 0,06 0,47 % di voti a Forza Italia****** 0,01 0,09 % di voti ad An****** 0,04 -0,33 % di voti alla Lega Nord****** -0,06 0,54 % di voti ai Ds****** 0,04 -0,11 % di voti alla Margherita****** 0,02 0,04 % di voti a Rifondazione Comunista****** 0,02 -0,05 Denominatore sul quale è calcolata la percentuale: * individui di 5 anni e oltre ** popolazione residente *** popolazione attiva **** elettori ***** votanti ****** voti validi Lo studio delle relazioni tra variabili Supponiamodidisvolgere svolgereuna unaricerca ricercadidisociologia sociologiaelettorale elettoralecon conunità unitàdidianalisi analisiilil Supponiamo collegiodella dellaCamera. Camera.Obiettivo Obiettivoèèlolostudio studiodella dellarelazione relazionetra tralalaforza forzaelettorale elettoraledei dei collegio partiti ee lele caratteristiche caratteristiche socio-economiche socio-economiche dei dei collegi. collegi. Come Come prima prima analisi analisi partiti esplorativa bivariata bivariata calcoliamo calcoliamo lala correlazione correlazione tra tra ilil voto voto aiai partiti partiti ee lele altre altre esplorativa variabili. variabili. Esaminandoi irelativi relativicoefficienti coefficientisisitrova trovauna unacorrelazione correlazionemolto moltoalta alta(0,85) (0,85)fra fralala Esaminando ‘percentualedidiastenuti’ astenuti’eelala‘percentuale ‘percentualedidiindividui individuisenza senzatitolo titolodidistudio’. studio’.Da Da ‘percentuale ciò potrebbe potrebbe scaturire scaturire l’interpretazione l’interpretazione che che sono sono soprattutto soprattutto gli gli individui individui con con bassa bassa ciò istruzione(senza (senzatitolo titolodidistudio) studio)aadisertare disertareleleurne? urne? istruzione Inferenzascorretta scorretta Inferenza Questo errore viene denominato FALLACIA ECOLOGICA L’affermazione corretta è: “nei collegi della Camera dove si registra un’alta percentuale di astensioni si registra una concomitante alta percentuale di individui senza titolo di studio” La fallacia ecologica Quando sisi analizzano analizzano dati dati ecologici ecologici lala tentazione tentazione didi inferire inferire lele relazioni relazioni Quando riscontrate fra fra lele variabili variabili su su altri altri livelli livelli didi analisi, analisi, ee inin particolare particolare su su quello quello riscontrate individuale, èè didi solito solito molto molto forte. forte. Per Per tale tale ragione ragione èè importante importante avere avere ben ben chiaro chiaro individuale, cosasisiintende intendeper perfallacia fallaciaecologica ecologicaeequali qualiinferenze inferenzesono sonolecite lecitenel nelpassaggio passaggioda daun un cosa livellodidianalisi analisiall’altro. all’altro. livello Robinson (1950) (1950) presenta presenta ilil problema problema della della fallacia fallacia ecologica ecologica all’attenzione all’attenzione della della Robinson comunità scientifica scientifica mostrando mostrando con con un un esempio esempio empirico empirico l’inammissibilità l’inammissibilità comunità dell’inferenza: ilil valore valore del del coefficiente coefficiente didi correlazione correlazione cambia cambia inin relazione relazione dell’inferenza: all’unitàdidianalisi analisisu sucui cuièècalcolato. calcolato. all’unità L’esempio parte parte dalla dalla correlazione correlazione riscontrata riscontrata tra tra ‘la ‘la percentuale percentuale didi neri’ neri’ ee lala L’esempio ‘percentuale didi analfabeti’ analfabeti’ rilevate rilevate nel nel censimento censimento del del 1930 1930 negli negli Stati Stati Uniti. Uniti. ‘percentuale Questacorrelazione correlazioneassume assumeililvalore valoredidi0,95 0,95sesecalcolata calcolatasu sunove novearee areegeografiche geografiche Questa mentreaalivello livelloindividuale individualeililsuo suovalore valorescende scendeaa0,20. 0,20. mentre La centralità centralità del del contributo contributo nasce nasce dal dal fatto fatto che che prima prima lala corrispondenza corrispondenza tra tra lele La correlazioni calcolate calcolate su su differenti differenti livelli livelli didi aggregazione aggregazione dell’unità dell’unità didi analisi analisi era era correlazioni dataper perscontata. scontata. data La fallacia ecologica Dall’esempioriportato riportatoda daRobinson Robinsonemergono emergonodue duerisultanze risultanzeempiriche: empiriche: Dall’esempio correlazioneecologica ecologicaèèsuperiore superioreaaquella quellaindividuale; individuale; a)a)lalacorrelazione b)più piùsisiaggrega aggregal’unità l’unitàdi dianalisi analisipiù piùaumenta aumentaililvalore valoredel delcoefficiente coefficientedidi b) correlazione. correlazione. Taletendenza tendenzaviene vieneconfermata confermataininnumerosi numerosistudi studisuccessivi successivi(Yule (YuleeeKendall Kendall Tale 1950;Blalock Blalock1961; 1961;Boudon Boudon1967; 1967;Slatin Slatin1969). 1969). 1950; Quale ruolo assegnare ai dati ecologici? A quali condizioni l’inferenza è lecita? La fallacia ecologica istruzione superiore voto a non voto c totale a+c φ = istruzione inferiore b d b+d Totale a+b c+d N ad − bc ( a + b )( c + d )( a + c )( b + d ) Per qualificare la direzione della relazione si attribuisce segno positivo quando le frequenze sono più alte nelle due celle poste sulla diagonale principale e segno negativo nel caso contrario Varia tra –1 e +1, come il coefficiente di correlazione A livello individuale il coefficiente si basa sulle frequenze congiunte della tabella. L’associazione può essere interpretata in termini di probabilità La fallacia ecologica Aggregando i casi in m gruppi (le unità ecologiche) per ciascuno di essi possiamo costruire una tabella a doppia entrata 2*2. Immaginiamo di costruire 20 tabelle come la precedente, una per ciascuna regione italiana. Piemonte istruzione superiore voto a non voto c totale a+c Lombardia istruzione inferiore b d b+d Totale istruzione inferiore b d b+d Totale a+b c+d N Sardegna istruzione superiore voto a non voto c totale a+c a+b c+d N istruzione superiore voto a non voto c totale a+c ………. istruzione inferiore b d b+d Totale a+b c+d N Il coefficiente di correlazione a livello ecologico viene calcolato considerando i soli marginali delle venti tabelle regionali; più precisamente considerando per ciascuna variabile la frequenza di una sola modalità (ad esempio per ogni regione consideriamo il totale degli individui con alta istruzione e il totale dei votanti) La fallacia ecologica Quanto detto detto èè sufficiente sufficiente per per dimostrare dimostrare che che ii due due coefficienti coefficienti esprimono esprimono Quanto relazionidiverse; diverse;per percui cuièèscorretto scorrettoconsiderarli considerarlifungibili. fungibili.Non Nonsisipongono pongono relazioni vincoli all’andamento all’andamento della della correlazione correlazione individuale individuale dato dato ilil valore valore didi quella quella vincoli ecologica. Peraltro, Peraltro, considerando considerando ilil rapporto rapporto tra tra proprietà proprietà ee referente referente ecologica. empirico,dovrebbe dovrebbeormai ormaiessere esserechiaro chiaroche cheleleproprietà proprietàassumono assumonoun undiverso diverso empirico, significato quando quando cambia cambia l’unità l’unità didi analisi. analisi. Resta Resta no no da da esaminare esaminare due due significato aspetti: aspetti: 1) AA quali quali condizioni condizioni lala correlazione correlazione individuale individuale (o (o aggregata aggregata su su un un livello livello 1) inferioredell’unità dell’unitàdidianalisi) analisi)eequella quellaecologica ecologicacoincidono? coincidono? inferiore 2)Per Perquale qualemotivo motivo all’aumentare all’aumentaredel del livello livello di di aggregazione aggregazionedell’unità dell’unità didi 2) analisiililcoefficiente coefficientedidicorrelazione correlazionetende tendeaacrescere? crescere? analisi Per semplificare l’esposizione consideriamo cardinali anche le variabili fra le quali è calcolata la correlazione a livello individuale Relazione tra dati individuali e dati ecologici A livello individuale sono implicate tre variabili: - due variabili cardinali (X e Y), fra le quali è calcolato il coefficiente di correlazione - una terza variabile categoriale (Z) Secondo il teorema di scomposizione della covarianza, la covarianza totale tra due variabili X e Y, Covt(X,Y), può essere scomposta in due componenti: Y Y Covarianza totale Y Covarianze interne Z1 Z1 Z2 Z3 X Covt (X,Y) = Covw (X,Y) + Covb (X,Y) Covarianza esterna Z2 Z3 X X Relazione tra dati individuali e dati ecologici Livello individuale: Z variabile contestuale casi C1 C2 C3 C4 C5 C6 C7 C8 X 3 4 8 6 10 2 4 6 Y 2 5 2 4 2 5 4 3 Z 1 1 1 2 2 3 3 3 Processo di aggregazione Livello aggregato: Z unità di analisi casi X Y Z1 5 3 Z2 8 3 Z3 4 4 Nell’analisi della covarianza classica l’obiettivo è controllare se la covarianza tra due variabili X e Y può essere riprodotta dall’introduzione di una terza variabile Z, detta di controllo. Considerando la relazione tra i dati individuali e quelli ecologici, a livello individuale l’informazione a disposizione è relativa ai valori delle variabili X e Y. A livello ecologico i valori disponibili equivalgono alle medie dei gruppi, dove le categorie della variabile Z politomica divengono i casi. Relazione tra dati individuali e dati ecologici coefficiente didi correlazione correlazione altro altro non non èè che che lala covarianza covarianza calcolata calcolata fra fra due due IlIl coefficiente variabili standardizzate. standardizzate. Per Per poter poter mettere mettere inin relazione relazione ilil coefficiente coefficiente didi variabili correlazioneindividuale individualecon conquello quelloecologico, ecologico,però, però,per perciascuna ciascunadelle dellevariabili variabiliXXee correlazione necessario considerare considerare anche anche ilil rapporto rapporto didi correlazione correlazione didi Pearson, Pearson, eta eta YY èè necessario quadro, in in relazione relazione alal raggruppamento raggruppamento per per aree. aree. Tale Tale coefficiente coefficiente esprime esprime ilil quadro, rapporto fra fra lala varianza varianza tra tra i i gruppi gruppi (varianza (varianza della della variabile variabile riprodotta riprodotta dalla dalla rapporto suddivisionedella dellavariabile variabileiningruppi) gruppi)eelalavarianza varianzatotale totaledella dellavariabile variabileconsiderata. considerata. suddivisione Dopouna unaserie seriedidipassaggi passaggimatematici, matematici,che chequi quiomettiamo, omettiamo,sisigiunge giungealla allarelazione relazione Dopo cercata: cercata: r yxT = r yxW Correlazione a livello individuale 2 1 − η yz 2 1 − η xz + r yxB η yz η xz Correlazione interna ai gruppi (media delle correlazioni locali) Correlazione a livello ecologico Relazione tra dati individuali e dati ecologici Y Y Covarianza totale Y Covarianze interne Z1 Z1 Z2 Z2 Z3 X Covarianza esterna Z3 X X Paradosso: lele due due correlazioni correlazioni coincidono coincidono quando quando lala correlazione correlazione aa livello livello Paradosso: individualeèèconsiderata considerataspuria spuriasecondo secondolalalogica logicadell’analisi dell’analisimultivariata multivariata individuale Tendenza a crescere di rxy Abbiamoselezionato selezionato31 31variabili variabili su sucui cuicalcolare calcolareililcoefficiente coefficientedidicorrelazione correlazioneaiai Abbiamo quattro livelli livelli dell’unità dell’unità didi analisi analisi (complessivamente (complessivamente 465 465 correlazioni correlazioni per per ciascun ciascun quattro livello).Per Perindividuare individuaresistematicamente sistematicamentedelle dellelinee lineediditendenza tendenzadel delcambiamento cambiamento livello). deicoefficiente coefficientedidicorrelazione, correlazione,sisièècalcolato calcolatoun uncoefficiente coefficientedidicorrelazione correlazionemedio medio dei perciascun ciascunlivello livellodell’unità dell’unitàdidianalisi analisi per Unità di analisi su cui sono calcolati i coefficienti di correlazione Comune Provincia-capoluogo Provincia Regione Correlazione media 0,16 0,24 0,28 0,35 Numero di casi 8.098 206 103 20 Non tiene conto del segno Non permette di conoscere il singolo andamento Tendenza a crescere di rxy Andamento sempre crescente Altro andamento senza inversione Almeno una inversione di segno Totale correlazioni Almeno una r Tutte le Le 4 r inferiori uguale o correlazioni a 0,25 maggiore di 0,25 N % N % N % 15 9,2 151 50 166 35,7 166 35,7 58 35,6 108 35,8 133 28,6 90 55,2 43 14,2 465 100,0 163 100,0 302 100,0 La tendenza a crescere di r dipende dalla progressiva diminuzione degli scarti-tipo delle variabili (denominatore di r) L’aumento della covarianza può essere più che proporzionale (numeratore di r) Esempi di cambiamento di r Correlazione tra … Comune Provincia-capoluogo Provincia Regione % di astenuti con % individui senza titolo di studio 0,54 0,66 0,72 0,79 % di autonomi % di pop. non % di con % di % di voti per attiva con % diplomati con attivi in Fi con % di di individui > % di agricoltura voti per Rc 64 immigrati 0,45 0,46 0,22 0,10 -0,23 -0,44 -0,41 -0,23 Ciascun livello presenta una propria specificità 0,46 -0,26 -0,35 -0,41 0,21 -0,16 0,38 0,45 L’influenza del del contesto: contesto: L’influenza popolazione ee territorio territorio popolazione L’influenza del contesto Valori medi per ampiezza demografica dei comuni popolazione in 5 classi Numero di comuni % di laureati % di diplomati % di indi. senza titolo di studio Tasso di occupazione Tasso di disoccupazione % di attivi in agricoltura % di lavoratori autonomi % di astenuti % di voti a Forza Italia % di voti a RC fino a 2.500- 10.001- 25.000oltre 2.500 10.000 25.000 250.000 250.000 4.266 2.792 692 336 12 1,6 1,9 2,5 4,0 7,1 12,8 14,5 16,8 19,6 23,0 15,7 16,9 16,2 14,5 10,3 53,1 52,2 50,2 48,2 48,8 14,7 16,8 19,2 20,8 19,2 16,8 12,8 10,2 6,7 1,5 33,9 30,2 28,0 26,0 23,8 21,7 19,0 17,6 17,3 19,5 29,0 29,2 30,3 30,7 29,3 4,6 4,7 4,9 5,1 5,5 L’influenza del contesto Valori medi per area geografica Numero di comuni % di laureati % di diplomati % di indi. senza titolo di studio Tasso di occupazione Tasso di disoccupazione % di attivi in agricoltura % di lavoratori autonomi % di astenuti % di voti a Forza Italia % di voti a RC Nord- Nordovest est Centro 3.064 1.479 1.001 1,8 1,7 2,1 14,6 14,8 15,0 9,6 11,7 18,6 58,5 60,0 52,9 8,2 7,1 14,6 11,0 10,5 12,1 33,0 31,2 32,9 15,4 17,4 16,0 32,6 26,9 24,9 4,8 3,9 6,2 Sud 1.789 2,0 13,1 25,7 41,4 30,0 21,1 29,8 29,1 27,8 4,7 Isole 765 1,8 11,1 24,3 37,8 33,9 22,9 31,0 29,0 29,7 4,1 L’influenza del contesto Valori medi per area geografica e ampiezza demografica del comune Numero Comuni % di laureati % di diplomati % di ind. no tit. di st. Tasso di occ. Tasso di disocc. % di attivi in agric. % di lav. Autonomi % di astenuti % di voti a Fi % di voti a Rc fino a 2.500 2.653 1,5 13,3 10,0 58,7 8,1 13,9 34,7 17,5 31,1 4,4 Nord 2.500oltre 250.000 250.000 1.884 6 2,1 7,2 16,5 24,1 10,8 7,7 59,5 54,9 7,5 10,8 6,6 0,9 29,2 23,9 14,2 16,1 30,2 28,0 4,6 6,0 fino a 2.500 448 1,7 13,3 20,4 51,5 15,4 15,5 34,5 17,6 24,7 6,0 Centro 2.500oltre 250.000 250.000 551 2 2,4 8,7 16,3 26,9 17,1 8,3 54,1 54,0 13,8 14,5 9,4 0,8 31,6 25,5 14,8 17,5 25,2 21,0 6,3 5,8 fino a 2.500 1.165 1,6 11,4 26,8 41,2 29,4 23,8 31,7 32,7 26,0 4,6 Sud 2.500oltre 250.000 250.000 1.385 4 2,2 6,2 13,4 19,3 24,1 15,1 39,6 36,9 32,6 34,1 19,9 2,8 28,9 22,8 26,1 25,7 30,3 35,4 4,5 4,5 L’influenza del contesto % di % di % di attivi individui individui nell'agricolt % di attivi senza titolo senza titolo ura con nell'agricolt di studio con di studio con tasso di ura con % di % di voti a % di tasso di disoccupazio lavoratori Fi con % di ne astenuti occupazione autonomi voti a Rc Nord-ovest Nord-est Centro Sud Isole Italia 0,00 -0,01 0,29 0,38 0,41 0,54 -0,11 -0,06 -0,20 -0,11 -0,49 -0,68 -0,11 -0,07 -0,10 0,01 0,21 0,34 0,75 0,61 0,67 0,28 -0,01 0,45 -0,23 0,04 -0,42 -0,28 -0,40 -0,23 L’influenza del contesto Coefficiente di correlazione tra la ‘percentuale di attivi nell’agricoltura’ e il ‘tasso di disoccupazione’ per regione calcolato su unità di analisi il comune 0 ,1 4 Sard e g n a 0 ,0 6 S ic ilia C a la b r ia 0 ,0 8 B a s ilic a t a 0 ,3 8 P u g lia C a m p a n ia 0 ,0 7 - 0 ,4 1 0 ,0 1 M o lis e Abruzzo - 0 ,1 3 L a z io - 0 ,1 4 M arch e - 0 ,1 8 - 0 ,1 9 U m b r ia - 0 ,1 2 T o s can a E m ilia R o m a g n a 0 ,1 5 L ig u r ia - 0 ,2 2 - 0 ,1 3 F r iu li V . G . 0 ,0 3 V e n e to - 0 ,2 6 T r e n t in o A . A . L o m b a r d ia P ie m o n t e - 0 ,6 0 0 ,0 1 - 0 ,3 5 - 0 ,4 0 - 0 ,2 0 0 ,0 0 0 ,2 0 0 ,4 0 0 ,6 0 Logica analisi multivariata 1) i casi raggruppati casualmente 2) aggregazione secondo x Z X 3) aggregazione secondo y Z Y X No effetto contesto 4a) aggregazione territoriale Z Y X 4b) aggregazione territoriale Z Y X Z Y X Effetti strutturali Effetti di composizione Esempio: X= età Y= voto al maggioritario Z= zona geografica (xy) = (xy; z1) + (xy; z2) ⊕ (xz)*(yz) Y Tipi di inferenze scorrette Fallacia individualistica rxyW rxyT = rxy2 rxy1 Errori campione popolazione Errori contestuali Fallacia ecologica rxyB Errori di livello diamanti non non nasce nasce ““Dai Dai diamanti niente niente Dal letame letame nascono nascono ii Dal fior” fior ” De André, André, Via Via del del Campo Campo De