SAPIENZA – Università di Roma Dipartimento di di Scienze Sociali e Economiche(DiSSE DdR RICERCA APPLICATA ALLE SCIENZE SOCIALI (RASS.) a.a. 2013-2014 Lezione del 17 marzo 2014 ore 17:00-19:00, Aula B8: Introduzione all’ analisi esplorativa multidimensionale dei dati”(EMDA-Exploratory Multidimensional Data Analysis: aspetti statistici e informatici Lezione del 20 marzo 2014:ore 17:00-19:00, Aula B8: I casi di studio dell’EMDA Mary Fraire Prof.ssa Mary Fraire – Professore ordinario di Statistica Dip.to di Scienze Sociali e Economiche (DiSSE) e-mail: [email protected] Sito web: http://www.sociologia.uniroma1.it/users/fraire Facoltà di Scienze Politiche, Sociologia, Comunicazione Università di Roma ‘La Sapienza’ Riferimenti bibliografici Multidimensional and Multivariate Data Analysis and Methodology Act-Statis 1989),Analyse conjointe de tableaux quantitatifs. Méthode STATIS, CISIA, Saint Mandé (France) Anderberg M.R. (1973), Cluster Analysis for Applications, New York, Academic Press Inc. Bolasco S. (1999), Analisi Multidimenislnale dei dati, Roma, Carocci Ed. Benzécri J.P. (1973), L’Analyse des Données, tome I: Taxinomie, tome II: Analyse des Correspondaneces, Dunod, Paris; Bertier P., Bouroche J-M (1975), Analyse des Données Multidimensionneelles, France, Ed. P.U.F. Caillez F., Pages J.P. (1976), Introduction à l’Analyse des Données, Paris, S.M.A.S.H. Coppi R. (1979), Alla base dei metodi statistici: la formalizzazione dei dati, in Quaderni di Statistica Sanitaria, Anno II, n.1, Facoltà Sciense Stat.Dem.Att., Università di Roma ‚La Sapienza‘. Coppi R., Bolasco S (eds)(1989), The Analysis of Multiway Data Matrices, North Holland, Amsterdam Corbetta P.G.(1992), Metodi di Analisi Multivariata per le Scienze Sociali, Bologna, il Mulino P. Corbetta, G.Gasperoni, M.Pisati,(2001) Statistica per la ricerca sociale, Ed. Il Mulino, Bologna, 2001 Di Franco(2001) EDS: esplorare, descrivere e sintetizzare I dati.Guida pratica all’analisi dei dati nella ricerca sociale, FrancoAngeli 2001 Di Franco (2003), L’Analisi multivariata nelle scienze sociali. Modelli log-lineari e variabili categoriali, Carocci2003 Escofier B., Pagès J. (1984), L’analyse factorielle multiple, in Cahiers du Bureau Univ. Recherche Operat., Série Recherche 423 Escoufier Y. (1980), L’analyse conjointe de plusieurs matrices, in Jolivet et al. (eds.), Biométrie et Temps, Société Francaise de Biométrie. Fabbris L., 1997, Statistica multivariata, Milano, McGraw-Hill Fisher W.F.(1958), On grouping for maximum Homogeneity, Journ.Amer.Stat.Ass., 53, pp789-98 Fraire M., Rizzi A. (2011), Analisi dei Dati per il Data Mining, Carocci Ed., Roma 2011 Fraire M., (1989) , Problemi e metodologie statistiche di misurazione di fenomeni complessi tramite indicatori e indici sintetici, in 'Statistica', anno XLIX n.2, 1989. ID. (1994), Metodi di Analisi Multidimensionale dei Dati. Aspetti statistici e applicazioni informatiche., Roma, CISU, 1994; ID.(1995), Multidimensional data analysis ans its preliminary phases: statistical aspects, in Rizzi A. Ed., Some Relations Between Matrices and Structures of Multidimensional Data Analysis, Applied Mathematics Monographs, n.8 1995, Giardini Editori e Stampatori in Pisa, Italy. ID.(1997), Complessità instabilità e caos: esplorazione statistica multidimensionale e fenomeni sociali, Atti V° Congresso Internazionale degli Studi sulle Utopie, Macerata 27 maggio 1995, Giuffrè Ed. Milano, ID.(2000), Analisi dei Dati a Tre-Vie delle Risposte a Domande Aperte e Indicatori Empirici, Actes 5 Journées internationales d’Analyse statistique des Données Textuelles (JADT 2000 Losanna, 9-11 marzo 2000), EPFL, M.Rajman & J.-C. Chappelier editeurs ID(2002), L’Analisi in Componenti Principali (ACP) e la Cluster Analysis (CA), Note metodologiche in R.Cipollini (a cura di), Stranieri. Percezione dello straniero e pregiudizio etnico, Franco Angeli ID (2003),, Analisi multidimensionale spazio-temporale della criminalità diffusa nei Municipi di Roma, in Beato F., La calma insicurezza. Percezione sociale del rischio ed uso della città, Liguori Ed. 2003 ID (2006) , Multi-way data analysis for comparing time use in different coutrie. Application to time budgets at different stages of life in six European caountries, in eIJTUR 2006, vol.3, No.1, 88-109 ID (2007), Analisi multi-way delle principali caratteristiche di ingresso, percorso ed esito degli studenti delle facoltà di Sociologia italiane, in A.Fasanella, L’impatto della riforma universitaria del ‘3+2’ sulla formazione sociologica, Franco Angeli ID(2009),Statistical Methods for Exploratory Multidimensional Data Analysis on Time Use, in 'Statistica', annoLXIX n.4, 2009 Hotelling H. (1936), Analysis of a Complex of Statistical Variables into Principal Components, Journal Educational. Psychology 24,pp 417-41, 498-520 Lauro N.C., D’Ambra L. (1984), L’Analyse non-symétrique des Correspondances, in Data Analysis and Informatics, III, Diday et al. Ed.North-Holland,p 433-446 Lauro N.C., Decarli (1982), Correspondence analysis and log-linear models, in Metron, multiway contingency tables study, 1-2, p 213-234 Lebart L. Morineau A., Piron M. (1997), Statistique Exploratoire Multidimensionnelle, Paris, Dunod, ISTAT Pearson K (1901), On lines and planes of closest fit to systems of points in space, Philosophical Magazine, 6, 2, pp55971 Rizzi A. (1989), Analisi dei Dati. Applicazioni dell’informatica alla Statistica, Roma , NIS. Statera G., 1997, La Ricerca Sociale.Logica, strategie, tecniche, Roma SEAM Tryon R.C., Bayley D. (1939), Cluster Analysis, New York, McGraw Hill 1970 Tucker L.R. (1958), An inter.battery method of factor analysis, Psychometrika, 23, (2) Riferimenti bibliografici e materiale on line • Le slides che seguono si riferiscono prevalentemente ai testi: • Mary Fraire, Alfredo Rizzi Analisi dei Dati per il Data Mining, Carocci Editore, Roma 2011 • Mary Fraire, Metodi di analisi multidimensionale dei dati. Aspetti statistici e applicazioni informatiche, ed. CISU, Roma 1994 • • Altro materiale didattico e le slides della lezione sono disponibili on line • http://www.sociologia.uniroma1.it/users/fraire • andando alla cartella DdR RASS. Indice degli argomenti L’indicazione dei capitoli e paragrafi seguenti si riferiscono al testo: Mary Fraire Alfredo Rizzi, Analisi dei Dati per il Data Mining, Carocci Editore, Roma 2011; Cap.3 - Le fasi dell'analisi dei dati. Cap.4 - Metodi di classificazione.( applicazioni attraverso casi di studio) Cap.5 - Analisi lineari dei dati. .( applicazioni attraverso casi di studio) -Analisi in Componenti Principali (ACP) -Analisi delle Corrispondenze Semplice e Multipla (ACS e ACM) -Analisi delle matrici dei dati a 3-vie - Regressione lineare semplice e multipla (RLS,RLM) come tecnica di analisi esplorativa NOTA: Il Prof. Alfredo Rizzi tratterà il 3/05/2013ore 15-18aula B8 Cap.1 - Le matrici dei dati. Cap.2 - Misure di diversità tra le unità statistiche e relazioni tra variabili. I fenomeni complessi, il ‘gap’ tra teorie e concetti le definizioni ‘operative’ il ruolo delle analisi statistiche multidimensionali • Nello studio empirico di fenomeni sociali è molto importante sottolineare uno degli aspetti della complessità legato al fatto che di uno stesso fenomeno (ad es. salute, intelligenza, QdV, ma anche occupazione, disoccupazione, PIL, RNL ecc.) non esiste un’unica definizione ‘operativa’ perché il linguaggio empirico è intricato con la teoria. • Esiste un ‘gap’ tra concetti e misure empiriche che non è colmabile con la logica del certo, misure uniche, valide in qualsiasi contesto sociale, culturale, storico, politico. • In questo contesto l’approccio dell’analisi multidimensionale dei dati (AMD) è un approccio statisticoempirico adeguato a tale complessità ed in particolare allo scopo esplorativo-descrittivo-documentaristico dei fenomeni sociali come quelli che tratteremo in questa lezione. • Nell’ AMD la definizione operativa deve essere resa esplicita: ad es. nella definizione della tabella dei dati iniziali: la selezione dei casi e delle variabili di analisi che saranno analizzati consentendo a chiunque quindi di controllarne la definizione operativa (ed anche i suoi ‘limiti’), le procedure impiegate e rendere chiara l’interpretazione dei risultati. • In quest’ottica si ritiene di particolare rilevanza l’approccio dell’AMD attraverso l’esplicitazione della ‘mappa concettuale’ di tutte le fasi statistico-informatiche dell’AMD . La formalizzazione del problema da analizzare: un esempio di fenomeno sociale complesso: la QdV dal punto di vista macro-sociale QdV delle 20 regioni italiane Approccio: MACROSOC. OGGETTIVO DESCRITT. Es.: Comparazione della QdV nelle 20 regioni italiane Aspetti o dimens. rilev. (social areas): A)socio-demogr. B)sanitaria C)lavoro e occup. D)sicurezza sociale E)stress, disagio soc. F)benessere econ. G)cultura e t.l. Indicatori empirici (indic.soc.oggettivi): A) X1 : indvecch (-) X2 : e0 ,e x (in anni)(+) B) X3 : mortinf (-) X4 : plpubb(+) X5: tuplpubb(+) C) X6 : nflineta (-) X7 : flpop (+) X8 : disocc.(-) D) X9:delpers(-) X10 :incstrad(-) E) X11 : suicidi (-) F) X12 : PIL (+) X13 : autopriv (+) G) X14 : consricr (+) X15 : abbtvpr (+) X 16: laureati (+) … X17………………. X18: 20,18 Matrice dei dati iniziali: X 20,18 X1 X 2 ..X j .. X18 01Pie \ x1,1 x1,2 ..x1, j .. x1,18 02Vad x2,1 x2,2 ..x2, j .. x2,18 N\X ... ... ... ... ... ... x ... 20Sar x20,1 x20,2 20, j x20,18 Matrice d’intensità o dati quantitativi ( variabili) [struttura algebrica di spazio vettoriale] •Esiste un gap tra concetti e misure empiriche non colmabile con la logia del certo, regole uniche: ma assume rilevanza l’esplicitazione del processo logico-concettuale di passaggio dai concetti alle misure empiriche: l’operazionalizzazione della definizione teorica. Non ci soffermiamo qui su tale argomento che irguarda il vasto argomento degli ‘indicatori sociali’. Un caso di studio Un caso di studio: QdV nelle 20 regioni italiane nel 2002 (media triennio 2001-03): la matrice degli indicatori oggettivi-descrittivi 20 ×18: è una matrice di intensità o dati quantitativi X(20x18) Regioni INDVECCH EOM EOF MORTINF PLPUBB TUPLPUBB NFLINETA FLPOP DISOCC DELPERS INCSTRAD AUTOPRIV SUICIDI PIL CONSALIM CONSRICR ABBTVPRIV LAUREATI Piemonte 173.1 76.5 82.6 3.5 4.2 83 52.6 44.5 5.4 594.9 2.4 63.2 8.2 24 414 13.6 8.7 73.9 0.23 Valle d'Aosta 148.8 76.5 82.6 4.8 4.2 86.6 54.1 47.6 4.1 301.2 2.9 100.1 11.6 26 989 10.3 5.9 73.2 Lombardia 135.8 76.4 83 3.5 4.4 82.7 57.2 45.5 4 601.3 1.4 59.5 6.4 27 192 13.2 7.8 76.3 0.28 Trentino - Alto Adige 105.4 77.1 83.9 3.1 5.1 70.3 55.4 46.6 2.6 291.3 2.5 53.8 10.2 27 825 9.7 7 75.1 0.17 Veneto 134.4 76.9 83.5 2.9 4.9 81 55.6 45.4 3.5 279.2 2.4 58.5 8.9 24 181 12.3 8 77.5 0.25 Friuli - Venezia Giulia 188.5 76.4 82.8 2.7 4.9 74.7 54.6 43.6 4.1 493.8 2.5 59.9 12.2 23 892 13.5 7.3 79.4 0.31 Liguria 238.9 76.6 82.6 4.2 5.3 84.8 48.6 40.6 7 637.5 1.2 52.4 8.8 23 153 14.3 7.4 79.1 0.25 Emilia Romagna 193.7 77.1 83.2 3.6 4.3 98 47.5 47 3.7 328.1 2.2 62.1 9.2 26 701 12.4 8.6 79.3 0.41 Toscana 189.8 77.4 83.2 2.9 4.4 78.8 50 43.5 5.3 654.8 1.8 61.8 7.4 23 420 13.8 7.9 80.4 0.33 Umbria 182.9 77.7 83.4 3.1 4.2 77.1 50.1 41.6 5.8 546.4 2.3 65.1 10.5 20 432 14 7.4 77.6 0.33 Marche 166.9 78 83.9 3.8 4.4 73.3 50.2 43.3 4.7 512.3 1.8 60.9 7.2 21 218 14.3 8.3 79.8 0.33 Lazio 122.8 76.7 82.5 4.4 4.2 85.5 57.5 41.7 9.9 542.1 1.8 67 5.7 23 940 14.1 7 71.1 0.38 Abruzzo 141.9 77.4 83.4 4.4 4.3 76.8 53 38.9 6.6 745.7 2.4 57.3 6.6 18 024 15.3 7 77.1 0.27 Molise 145.6 77.4 83.4 4.8 4.7 91.4 51 38.9 13.4 781.6 2.4 51 7.8 16 448 16.6 6.3 75.1 0.14 Campania 73.1 75.3 81.1 5 2.7 84.8 64.4 35.8 22.4 625.2 2.5 53.8 3.7 14 054 18.7 6.8 53.3 0.26 Puglia 90.7 77.3 82.7 5.7 4.2 83.3 61.3 35.9 15.3 385.9 3.3 49 3.8 14 197 18 6.9 77.6 0.2 Basilicata 114.1 77.1 82.8 5.4 4.3 67.3 56.4 36.4 16 656.7 3.8 48.7 6.7 14 869 17.9 7.3 73.7 0.05 Calabria 98 77.5 82.5 5.7 3.2 68 59.9 36.8 25.4 631.9 2.5 50.1 4.2 13 177 18.5 6.6 58.6 0.12 Sicilia 92.7 76.6 81.6 6.4 3.5 65.2 58.5 35.1 21.9 777.3 1.7 54.8 5.2 14 118 18.7 6 58.3 0.21 Sardegna 110.3 76.3 83 3.9 4.3 75.3 61.4 40.3 19.3 703 2.9 52.5 9 16 090 16.1 6.5 72.9 0.24 Fonte: Tesi di laurea di Isabella Latini a.a.2005-06 su ‘La QdV nelle Regioni italiane: graduatorie multidimensionali’ La formalizzazione del problema da analizzare: un esempio di fenomeno sociale complesso: la QdV dal punto di vista soggettivo-percettivo QdV degli individui Approccio: MICROSOC: SOGG. PERCETT. Es.: Inchiesta (survey) sulla QdV. Campione prob. di n = 500 indiv. Aspetti della vita (life domains): Indicatori empirici (soggettivi-percett.) ITEM:”Pensando agli ultimi dodici mesi, quanto 01)salute 02)matrimonio si ritiene insoddisfatto o 03)governo soddisfatto 04)amicizie dei seguenti aspetti 05)abitazione che 06)svago e t.l. hanno riguardato 07)lavoro la sua vita? 08)rapp.di Quale numero si vicin. 09)sit.econ.pers. avvicina di più a ciò che sente?” 10)istruzione 1 2 3 4 5 6 7 tot. insod. indiff. Matrice dei dati iniziali A 5001 ,0 K IT1 IT2 .....IT10 N-----------------------001 5 4 6 002 7 6 7 ..... ......................... 500 4 5 4 tot. sodd. Matrice dei punteggi (considerando solo le var.attive)[struttura algebrica di spazio vettoriale] Oggi la Qualità della vita si chiama BES ed è un concetto multidimensionale e importante per future ricerche: ISTAT – CNEL -Individuati indicatori oggettivi e soggettivi per ciascuna area di rilevanza sociale -Livello territoriale: regioni - 12 Aree di rilevanza sociale: 134 indicatori Analisi multivariata e analisi multidimensionale : analisi confermative e analisi esplorative Sebbene non sempre sia fatta la distinzione tra analisi multivariate e analisi multidimensionali dei dati esistono invece importanti differenze tra i due che fanno riferimento in definitiva alla classificazione delle analisi in esplorative-descrittive-riduttive e confermative-verificative-predittive. Per Analisi Confermativa multivariata dei dati (CMDAConfirmatory Multivariate Data Analysis) si intende in genere lo studio delle relazioni di un insieme circoscritto di variabili statistiche (circa dieci e studiandone interazioni di ordine superiore a due)(Bolasco,1999; Corbetta 2002 ecc.) sulle quali si avanzano a priori assunzioni sul tipo di distribuzione teorica. Sono di questo tipo: I modelli di regressione: la regressione lineare(GLM) e nonlineare; la regressione STEPWISE; i modelli log-lineari; la regressione probit e logit; la regressione logistica; analisi discriminante. L’analisi causale: I modelli di equazioni strutturali (es.LISREL) I modelli recorsivi e l’analisi dei percorsi causali (path analysis); i modelli non recorsivi (sistemi di equazioni simultanee o sistemi interdipendenti). Difronte all’ampliarsi dei campi di applicazione: strutture complesse dei dati (es. dati ecologico-ambientali, dati sull’uso del tempo, dati simbolici, testuali, telerilevamento spaziale e trattamento digitale delle immagini) e dei fenomeni complessi soprattutto in campo sociale caratterizzati da molte unità statistiche sulle quali si osservano contemporaneamante molti caratteri (mutabili e variabili) statistici le analisi statistiche multivariate suddette risultano inadeguate o quantomeno insufficienti ad una prima esplorazione e sintesi di fenomeni sui quali non si hanno che ipotesi ‘concettuali’ [e non matematico-formali, modelli, teorie ‘a priori’ da verificare] bensì ipotesi basate prevalentemente sulla verifica dell’esistenza o meno di una correlazione, interdipendenza, statisticamente osservabile. A tal scopo è allora adatta l’EAMDExploratory Multidimensional Data Analysis). . Analisi Esplorativa Multidimensionale dei Dati Per Analisi Esplorativa Multidimensionale dei Dati (EMDA-Exploratory Multidimensinal Data Analysis) si intende un gruppo numeroso di tecniche statistiche multivariate adatte ad analizzare statisticamente, sotto diversi aspetti secondo gli scopi della ricerca,fenomeni complessi caratterizzati da molte unità statistiche sulle quali sono rilevati molti caratteri statistici rappresentativi di diversi aspetti o dimensioni tra loro interagenti multidimesionali, multi-fattoriali). Queste analisi includono tre gruppi molto numerosi di metodi statistici: 1. Classificatorie (cluster analyses); 2. Analisi fattoriali per tabelle a due indici (ACP, ACS e ACM, MDS ecc.); 3. Analisi delle tabelle a più indici ( 3-vie, multi-way data analyses). Origini storiche dell’ Analisi Multidimensionale dei Dati Tecniche statistiche multivariate - Trattam.autom.dei dati 1970 primo chip commerciale. - sviluppo minicalcolatori, pc e altro hardware e programmi -Cluster Analysis (Tryon,1939) Analisi lineari dei dati: An.Componenti Principali (Pearson,1901) An.Correlazione Canonica (Hotelling,1930) An.Corrispondenze Semplice e An.Corrispondenze Multiple.(Fisher,1936;Benzecri,1960) An. Tabelle Multiple [Procrustean analysis (Tucker, 1958); Metrical and non metrical multi dimensional scaling (PARAFAC, Harshman1970), INDSCAL (Carrol and Chang,1970); Multiple Factorial Analysis (Escofier B. et Pages, 1983); STATIS method (Escoufier Y., 1980, 1985); Generalised Canonical Analysis (Horst, 1961)]. In Francia, alla fine degli anni ‘60 (J.P.Benzecri, Cailles e Pages, Y.Escoufier ecc.) nasce l’indirizzo metodologico dell’analyse des donnée L’AMD come ‘sistema’: un approccio alla complessità la mappa concettuale delle 7 fasi dell’EAMD • • • • • . Dal punto di vista metodologico e applicativo e al di là delle specifiche tecniche di EMDA è utile considerare l’analisi esplorativa dei dati come un sistema composto di un numero di fasi ugualmente importanti e interdipendenti. E’ possibile ipotizzare 7 fasi principali nelle quali si svolge un EMDA e che rappresentano i punti ‘cruciali’ dell’intero processo di anali dei dati (Fraire, 1989, 1994, 2006) L’EMDA è inoltre a forte base computazionale nel senso che sono analisi che si possono effettuare solo tramite computer a appositi software statistici; oggi la crescente possibilità di trattare grandi masse di dati ed effettuare rapidamente calcoli complessi impiegando hardware e software appositi e a tutti accessibili e ‘friendly’ nel loro impiego hanno contribuito a diffondere ulteriormente le EMDA nei più diversi campi di ricerca. Ciascuna fase ha aspetti statistici e informatici. Molto schematicamente è possibile ipotizzare la mappa concettuale delle 7 fasi principali nelle quali si svolge un’EMDA (Fraire, 1989-2006): La mappa concettuale delle 7 fasi di un’AMD e le prime 4 fasi ‘preliminari’ (pre-processing o preparazione dei dati) • In particolare tra le 7 fasi particolare importanza hanno le fasi preliminari costituite dalla 1ª,2ª,3ª,4ª fase e riguardano : 1ª: Documentazione statistica di partenza 2ª: Codifica a priori o creazione della matrice dei dati iniziali 3ª: Codifica a posteriori (come trasformazione di variabili della matrice dei dati iniziali) 4: Codifica a posteriori dell’intera matrice dei dati 1^fase: DOCUMENTAZIONE STATISTICA DI PARTENZA Le prime due fasi di un’indagine statistica: A) PIANO DELLA RILEVAZIONE DEI DATI: Campo d’indagine: la definizione della Riguarda tutte le popolazione o collettivo statistico P:è operazioni definita da due insiemi preliminari indispensabili a N finito* (avente elementi i N qualsiasi indagine (i=1,2,..,N) delle unità statistiche statistica. In essa si definiscono P sulle quali si osservano: l’oggetto e scopo della ricerca K (avente elementi kj K (j=1,2,..,k) nonché la caratteri statistici definiti ‘a priori. raccolta di tutti i dati grezzi ossia Metodo di rilevazione dei dati: in forma ancora - diretto (es.questionario) non -indiretto (es.acquisizione dati statisticamente ISTAT) trattabile (es. pacco dei -sperimentale (es.test) questionari Altre specificazioni nella raccolta: Periodo compilati) che di osservazione;Materiali e personale costituiscono la necessario; Costi prime elaborazioni; documentazione Mezzi di diffusione dei dati e risultati statistica di partenza. B) RACCOLTA DEI DATI Raccolta In questa fase occorre definire: materiale dei dati : tecnica di raccolta: diretta (per questionario) o indiretto (per acquisizione dati rilevati da altri enti-ricercatori ecc.) * Nella maggior parte delle indagini sociali. Nelle popolazioni teoriche o alcune particolari popolazioni(es.stelle dell’universo) può essere infinito numerabile o non numerabile. Richiamo sulle tecniche di rilevazione diretta Le TECNICHE DI RILEVAZIONE nel metodo diretto per questionario possono essere diverse: PAPI (Paper and Pencil Interview) per intervista diretta (presenza dell’intervistatore); CAPI (Computer Assisted Personal Interview) CATI (Computer Assisted Telephone Interview) per intervista telefonica . CAWI (Computer Assisted Web Interview) per autocompilazione (es. sondaggi postali); una combinazione delle tecniche precedenti (es. bilanci del tempo; bilanci di famiglia); NOTA: a seconda della tecnica impiegata occorre prevedere il questionario più adatto. I due casi di studio che saranno considerati per illustrare le 7 fasi dell’AMD (pagg.78-82): • Caso di studio A: Indagine sugli atteggiamenti e opinioni degli studenti della Facoltà di Sociologia dell’Università di Roma ‘La Sapienza’ nei confronti della statistica.(Metodo diretto: rilevaz. Tramite questionario) • Caso di studio B: L’uso del tempo in un giorno festivo di diverse categorie di popolazione secondo il genere, l’età, la condizione professionale e la ripartizione geografica in Italia (Metodo indiretto, acquisizione dati rilevati ad es. Indagine ISTAT – Uso del Tempo in Italia). • Le 7 fasi dell’Analisi Multidimensionale dei Dati 2^fase: Codifica a priori o creazione della matrice dei dati iniziali Riguarda la trasposizione dei dati grezzi rilevati nella 1^ fase in una MATRICE DEI DATI iniziali, AN,K , generalmente a N righe e K colonne. Sia la popolazione P definita da : AN , K iN (i=1,2,..,n) finito delle unità statistiche P sulle quali si osservano k K (j=1,2,..,k) caratteri statistici definiti ‘a priori’. j La matrice AN , K è data da: K= insieme dei k caratteri statistici scelto come descrizione 1k completa del fenomeno 2k N \ K K1 K 2 ... K j ... K N = insieme delle u.s. che sia rappresentativo delle u.s. della P considerata AN ,K 1 a11 a12 ... a1 j ... a 2 ... a21 a22 ... a2 j ... a ... ... ... ... ... ... i ai1 ai 2 ... aij ... aik ... ... N aN1 aN 2 ... aNj ... aNk ... ... ... ... ... numero reale Dato statistico: codice alfanunerico (attributo) Distribuzione del carattere K j Descrizione completa (profilo-riga) dell’u.s i-esima Un esempio semplificato di matrice dei dati iniziali “ la tabella inventario o matrice dei dati misti” 2^fase AN , K Profilo riga AN 10, K 6 Distribuzione del carattere k2 = età La classificazione dei caratteri statistici (richiami) (v. pag.83-Fraire, Rizzi, Analisi dei dati per il Data mining,Carocci) • scale nominali (a=b) (ab) • Le variabili categoriali • (mutabili) scale ordinali (a<b) a>b) • non possiedono una struttura algebrica • • Le variabili cardinali • scale di intervalli (a±b) scale di rapporti (a:b) • possiedono una struttura algebrica. • NOTA: le scale d’intervalli non possiedono uno 0 assoluto tramite le trasformazioni in scarti dalla media S o in scarti standardizzati Z è possibile ricondurre la scala d’intervalli a quella di rapporti. E’ tuttavia da tener conto del significato ‘convenzionale’ assunto dallo 0. La classificazione dei caratteri statistici SECONDO IL LORO RUOLO nell’analisi multidimensionale esplorativa e nell’analisi multivariata confermativa a) Qualora si applichino tecniche di Analisi Esplorativa Multidimensionale dei Dati- AMD: (Cluster Analysis, Analisi in Componenti Principali, Analisi delle Corrispondenze Multiple, occorre distinguere: ►le VARIABILI ATTIVE (concernenti l’oggetto di indagine) ►le VARIABILI SUPPLEMENTARI o ILLUSTRATIVE es. genere dell’intervistato, età, stato civile ecc. [►le VARIABILI CRITERIO-OCCASIONE (nell’analisi multi-way) : scelta del 3° criterio nella Multi-way data Analysis tempi, luoghi, situazioni ecc..] Le VAR.SUPPL. servono ad interpretare, ricercare relazioni, ‘vicinanze’ con le var.attive, ‘tipologie’, regolarità nei dati ottenuti dalle VAR.ATTIVE. b) Qualora invece si applichino tecniche di Analisi Multivariate Confermative dei Dati :generalmente riferibili ad un numero limitato di variabili, ad es. nell’ Analisi di Regressione lineare (multipla, logistica binomiale e multinomiale, ecc.) occorre avere una ‘teoria’ delle ‘ipotesi per distinguere il diverso ruolo attribjito alle variabili: ►le VARIABILI INDIPENDENTI (esogene o esplicative o predittori o antecedenti- presunte cause o variabili di controllo) ►le VARIABILI DIPENDENTI (o endogene o da spiegare o di risposta) 4^ fase AMD La scelta delle variabili di analisi (4^fase AMD) Un esempio di variabili attive e illustrative o passive nell’ACM: la percezione sociale della criminalità a Roma •Variabili Attive •Modalità Un caso di studio •V04 - pericolosità zona •v1molto-v2abbast.-v3poco-v4per niente •V05 - pericolosità città •v1molto-v2abbast.-v3poco-v4per niente •V06 - piccola crim. quartiere •v1più freq.-v2invariati-v3meno freq.-v9rm[1] •V11 - sicurezza buio strada •v1molto-v2abbast.-v3poco-v4per niente •V12 - sicurezza buio casa •v1molto-v2abbast.-v3poco-v4per niente •V19 – esp. vittimizzazione •v1 0 reati-v2 1 reato-v3 2+ reati •Variabili Illustrative •Modalità •V51 - sesso •v1maschio-v2femmina •V52 - età •v1 20/34-v2 35/44-v3 55/64-v4 65+ •V55 - stato civile •v1nubile/celibe-v2coniugato-v3separato-v4divorziatov5vedovo •V61 - condizione occupazionale •v1t.pieno-v2t.parz.-v3in cerca1°occ.-v4disocc.v5ritirato v6inabile-v7studente-v8casalinga-v9altro •V66 - titolo di studio •v1nessuno-v2lic.elem.-v3avviam.-v4media inf.-v5media sup. v6form.prof.-v7dipl.univ.-v8laurea-v9dottorato •V67 - livello economico •v1molte diff.-v2con diff.-v3qualche diff.-v4abb.facilm. v5facilm.-v6molto facilm.-v9rm •V68 - livello sociale •v1alto-v2m.alto-v3medio-v4m.basso-v5basso-v9r.m. •V69 - orientamento politico •v1sin.-v2centro v6altro-v9r.m. s.-v3centro-v4centro d.-v5destra- 7^fase AMD: Output risultati ACM(Analisi delle Corrispondenze Multiple): Rappresentazione simultanea sul PRIMO PIANO FATTORIALE delle variabili ATTIVE e ILLUSTRATIVE [plot del primo piano fattoriale (20,78% dell’inerzia totale)] Le dimensioni o variabili latenti emerse dall’analisi hanno consentito di individuare diverse tipologie di portatori di ‘sentimenti di insicurezza’ (‘fear of crime’):‘privilegiati’, ‘deprivati socialmente’, ‘ossessivi catturati da l’obsession sécuritaire’, ‘xenofobi e autoritori’. Fonte- F.Beato (a cura di) – La calma insicurezza – Liguori editore 2003 Un caso di studio esaminat o Analisi confermative: Analisi della DIPENDENZA La regressione lineare multipla (le variabili indipendenti e dipendenti) Y B0 B1 X1 B2 X 2 Si vuole verificare se ( modello ipotizzato) X1= Età I^iscriz. Y= votaz. media esami conseguiti X2=Voto Diploma (centesimi) Tramite il data base fornito dalla segreteria studenti della Facoltà di Sociologia di una data città in Italia relativo a N=2991 Studenti delle lauree triennali nell’a.a.2009-2010. Effettuata la regressione lineare tripla si sono ottenuti i seguenti risultati: Y (Vot.Esami) 24,5 0,137 X1 ( Età ) 2,120 X 2 (VotoDipl ) Con un coefficiente di determinazione corretto R²=0,54 7^ fase AMD: Output dei risultati con il software SPSS Coeffici entsa Model 1 Uns tandardized Coef f icients Y B BX B X B Std. Error 25, 048 1, 834 -, 137 ,059 0 (Constant) Età 1^ is criz. (in anni) Voto Diploma in centesimi -, 020 1 1 2 2 Standardized Coef f icients Beta ,009 Correlat ions Part ial Collinearity Stat istics Toleranc e VIF Sig. ,000 ,019 Zero-order -, 109 t 13, 658 -2,347 Part -, 103 -, 109 -, 109 ,996 1, 004 -, 099 -2,136 ,033 -, 093 -, 100 -, 099 ,996 1, 004 a. Dependent Variable: Votaz.media esami conseguit a 2 R R2 k (1 R 2 ) N k 1 2 Model Summaryb R R 2 ; k n var . Change St atistic s Model 1 R ,143a R Square ,020 Adjust ed R Square ,016 Std. Error of the Estimate 12, 23246 R Square Change ,020 F Change 4, 753 a. Predic tors : (Const ant), Vot o Diploma in centesimi, Età 1^ iscriz. (in anni) b. Dependent Variable: Vot az.media esami conseguit a df 1 2 df 2 455 Sig. F C hange ,009 2^ fase (Codifica a priori: trasposizione di tutti i dati (grezzi) rilevati nella 1^ fase nella matrice dei dati iniziali) TIPI DI MATRICI DEI DATI INIZIALI (PG.91-92) Esistono diversi tipi di matrici dei dati, secondo le situazioni di ricerca, ciascuna avente una data struttura complessa: TABELLA INVENTARIO (n x k): contiene dati misti codici alfanumerici e numeri reali; nessuna struttura richiede ulteriori codifiche a posteriori .Dato statistico: [aij codici ; val.numerici ] MATRICE DI DATI QUALITATIVI (n x k): contiene codici alfanumerici; nessuna struttura richiede ulteriori cod.a posteriori per essere statisticamente trattabile. Dato statistico: [aij codici ; ] MATRICE DI INTENSITA’ o DATI QUANTITATIVI(n x k): contiene numeri reali , possiede struttura algebrica di spazio vettoriale. Dato statistico: [a ] ij MATRICE DI CONTINGENZA (r x s): contiene frequenze assolute (R+) possiede struttura algebrica di spazio vettoriale. Dato statistico:[aij nij ] • MATRICE DEI RANGHI (n x k): i dati sono costituiti da ranghi (mutabili [aij ] rettilinee), possiede struttura d’ordine. [aij ] • MATRICE DELLE PREFERENZE (k x n): contiene ranghi o punteggi • MATRICE DI DESCRIZIONE LOGICA o BOOLEANA (n x k): i dati sono costituiti da 0 o 1, non possiede struttura. Dato statistico: [aij 0;1] • MATRICE DEI PUNTEGGI (n x k):contiene numeri interi naturali , ha struttura algebrica di spazio vettoriale. Dato statistico: • MATRICI DI PROSSIMITA’(k x k):contiene distanze espresse in ranghi (struttura d’ordine) o in punteggi (struttura algebrica di spazio vettoriale). • MATRICI A TRE O PIU’ VIE (multiway) (N x K x O): contiene dati in numeri reali, possiede struttura algebrica. • MATRICI DI DATI TESTUALI: contiene parole o frasi o testi,nessuna struttura, richiede ulteriori particolari codifiche a posteriori per essere statisticamente trattabile. La struttura S delle matrici dei dati (2^ fase dell’AMD) Esistono molti tipi di matrici dei dati iniziali secondo le diverse situazioni di ricerca ciascuna avente una data struttura o senza alcuna struttura; Le matrici aventi struttura algebrica di spazio vettoriale euclideo sono quella alle quali si applicano la maggior parte dei metodi di AMD (ACP, ACC, ACS, ACM, MDS, 3-way Statis ecc.) Uno degli scopi della 3^ e 4^ fase dell’AMD riguardanti le codifiche a posteriri delle matrici dei dati iniziali è quello di trasformare la matrice dei dati iniziali affinchè abbia tale struttura. E’ da osservare inoltre che raramente nell’AMD si applicano i metodi multivariati alla matrice dei dati iniziali infatti nell’AMD: matrice dei dati iniziali tabella dei dati (pertinente omogenea esaustiva) Caso di studio 2^ fase Caso di studio: Indagine sull’atteggiamento e opinioni degli studenti nei confronti della statistica • • • • La codifica a priori o creazione del data set: matrice dei dati e dizionario delle variabili (codebook) La matrice dei dati iniziali è una tabella inventario AN 260,K 52 260 unità e 52 caratteri Costruita in base alla codifica a priori = trasposizione di tutti i dati grezzi rilevati tramite questionario in una matrice NxK tramite la codifica indicata nel dizionario delle variabili o codebook. La matrice dei dati grezzi o tabella inventario AN 260, K 52 N K1-Nick K2-CdLK3-Altro K4-AnnoImmK5-IscrAlK6-trQaFacualeFac K7-TestOrK8-Quale K9-GenereK10-Eta K11-TitStudK12-AltroTiK13-t VotoDiK14-p OccupK15-AltraCoOc K16-Af GMat K17-Af GSbPr K18-Af GFami 1 999 2 2005-2006 1 2Psicol. 2 20 2 79/100 1 5 2 3 2 999 2 2006-2007 1 1 2 20 3 96/100 8Stud.&Lav.in nero 4 3 1 3 acbe2 2005-2006 1 1 1 34 5 40/60 5 4 1 1 4 999 2 2005-2006 1 1 2 20 5 72/100 8Stud&Disoccup. 4 3 1 5 999 4 2005-2006 1 1 1 20 2 70/100 1 4 2 1 6 agat2 a 2004-2005 2lingue e let stran. 1 2 41 6linguist. 56/60 5 5 3 1 7 bebba4 2005/2006 1 1 2 24 3 76/100 4 5 5 1 8 999 2 2003/2004 1 1 1 26 6itc 48/60 5 5 2 1 9 999 3 2004/2005 1 1 1 22 1 65/100 1 4 4 3 10 999 2 2004/2005 2laurea med chir 1 2 60 1 8 decimi 8pensionata 5 1 1 … … 260………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………. 2^fase Un altro caso di studio MATRICE DI CONTINGENZA N r , s : contiene frequenze assolute (R+) possiede struttura algebrica di spazio vettoriale. ( Dato statistico: [a n ] ij NOTA: le righe non sono confrontabili ij 4^fase AMD La tabella o matrice di contingenza dei profili riga Un caso di studi o MATRICE DI INTENSITA’ o DATI QUANTITATIVI la matrice dei dati quantitativi X n ,k (n x k): contiene numeri reali , possiede struttura algebrica di spazio vettoriale. Dato statistico: [ x ] ij Sia P un dato collettivo o popolazione statistica definita da: i N (i 1, 2,..., N )u.s. P x j X ( j 1, 2,..., k ) var xj X in cui N è l’insieme supposto finito delle u.s.e k il numero delle variabili definito ‘a priori’. Si ha la matrice dei dati quantitativi X n ,k a n righe e k colonne seguente: X n,k N\X X1 X2 ... X j ... X k 1 x11 x12 ... x1 j 2 ... i x21 ... x22 ... ... x2 j ... x2 k ... ... ... ... xi1 xi 2 ... ... N xij ... x1k ... xik ... ... ... ... ... ... xN 1 xN 2 ... xNj ... xNk Ogni riga della matrice è un vettore numerico a k elementi reali: xi ( xi1 , xi 2 ,..., xij ,..., xik ) indicante le coordinate di un punto-unità nello spazio a k dimensioni. L’insieme di tutti i vettori riga xi (i 1, 2,..., n) definisce la NUVOLA DEI PUNTI-UNITA’, N , nello spazio delle unità k a k dimensioni. Dualmente ogni colonna della matrice è un vettore numerico a n elementi reali: x j ( x1 j , x2 j ,..., xij ,..., xnj ) k L’insieme di tutti i vettori colonna definisce la NUVOLA DEI PUNTIn VARIABILI, N , nello spazio delle variabili a n dimensioni. x j ( j 1, 2,..., k ) Lo spazio delle unità e lo spazio dei caratteri in una matrice di dati quantitativi o variabili possiede struttura algebrica di spazio vettoriale N \ X X 1 X 2 ... X j ... X k • 1 x11 x12 ... x1 j ... x1k 2 X n,k ... i x21 x22 ... x2 j ... x2 k ... ... ... ... ... ... i' N xi '1 xi '2 ... xi ' j ... xi ' k xN 1 xN 2 ... xNj ... xNk xi1 xi 2 ... xij ... xik Spazio delle unità N\X i X1 x11 X2 x12 i' x21 x22 X 22 X 12 Spazio delle variabili N\X i X1 x11 X2 x12 i' x21 x22 X(22) X(21) 2 1 x 11 X 1 X(11) x 21 X 2 X(12) (cenni) Definizione di struttura ( S ) algebrica e le matrici di dati quantitativi Esistono diversi tipi di strutture algebriche (semigruppo, gruppo, gruppo abeliano, anello, corpo, corpo commutativo, reticolo, reticolo di Boole, modulo, spazio vettoriale, spazio vettoriale euclideo ecc. ). In generale per struttura algebrica si intende ogni insieme A dotato di una o più leggi di composizione (interna, esterna). Per le definizioni e proprietà delle strutture in particolare delle strutture: • Strutture algebriche di corpo *(M.Fraire, op.cit.,pg.12) • Strutture algebriche di gruppo e di corpo commutativo (pg.13)* • Spazio vettoriale (lineare)(pg.13)* • Spazio vettoriale euclideo(pg.14)* * Le pagine si riferiscono al testo M.Fraire, Metodi di Analisi Multidimensionale dei Dati. Aspetti statistici e applicazioni informatiche, ed. CISU, 1994 *La struttura algebrica delle matrici dei dati quantitativi X n ,k • Per una matrice di dati quantitativi la STRUTTURA ALGEBRICA(*) o SPAZIO di RIFERIMENTO è lo SPAZIO VETTORIALE (o LINEARE) e VETTORIALE EUCLIDEO. Legge di composizione interna “+” (addizione o somma vettoriale: applicazione di XXX) con le proprietà assiomatiche: x, y , z X SPAZIO a) x y y x VETTORIALE b)( x y ) z x ( y z ) c)esiste(u 0) : x u u x x(u neutro) SPAZIO VETTORIALE EUCLIDEO: Sono definite: d )opposto : x : x ( x) 0 Legge di composizione interna “•” (moltiplicazione per uno scalare o prodotto esterno: X X con le seguenti proprietà assiomatiche: se per l’insieme X dei vettori di ordine n ove le x sono numeri reali in n i a )( 1) x x b) x ( ) x c )0 x 0 d ) ( x y ) x y e)( ) x x x Prodotto scalare o interno X X , proprietà assiomatiche: a) x, y Y , X con le seguenti b) x y, z xz yz c) x, y x, y (*) Per struttura algebrica si intende ogni insieme X dotato di una o più leggi di composizione interna o esterna . Una operazione o legge di composizione interna _ |_ associa ad ogni coppia di elementi (x;y) di X un elemento z appartenente ancora ad X ossia x y z . Una operazione o legge di composizione esterna connette gli elementi dell’insieme X con gli elementi ω di un altro insieme = operatori di X in modo tale che per ogni coppia (x; ω) esiste un unico elemento z appartenente ancora ad X ossia ω | x = z. La matrice di intensità (o dati quantitativi )dell’Uso del Tempo in un giorno festivo di 56 categorie di popolazione in Italia(pg.105 Fraire, rizzi, Analisi dei Dati, op.cit.) K Caso di studio B 2^fase N 56, K 15 N AMD X Categ.pop. OM15-24 OM25-44 OM45-64 OM65+ NONM15-24 NONM25-44 NONM45-64 NONM65+ NEM15-24 NEM25-44 NEM45-64 NEM65+ NOM15-24 NOM25-44 NOM45-64 NOM65+ CM15-24 CM25-44 CM45-64 CM65+ SM15-24 SM25-44 SM45-64 SM65+ IM15-24 IM25-44 IM45-64 IM65+ OF15-24 OF25-44 OF45-64 OF65+ NONF15-24 NONF25-44 NONF45-64 NONF65+ NEF15-24 NEF25-44 NEF45-64 NEF65+ NOF15-24 NOF 25-44 NOF45-64 NOF65+ CF15-24 CF25-44 CF45-64 CF65+ SF15-24 SF25-44 SF45-64 SF65+ IF15-24 IF25-44 IF45-64 IF65+ DOR MAN ALCUR LR ISTR LDO ACQ CURF VOL VITS SPOR LETT TV GIOC SPT mg mg mg mg mg mg mg mg mg mg mg mg mg mg mg TOT 617 135 95 92 3 17 4 5 13 148 51 92 19 143 1440 578 137 99 77 2 50 10 30 16 101 59 20 126 6 19 116 1440 551 139 104 96 0 70 14 9 24 82 60 28 144 23 96 1440 558 146 113 131 0 29 9 0 21 93 51 34 141 24 90 1440 633 129 84 7 47 17 7 2 17 150 63 11 118 47 108 1440 593 136 120 7 31 34 9 8 10 129 69 18 127 31 118 1440 556 141 107 4 0 101 14 3 38 91 66 33 184 23 79 1440 580 137 124 1 0 82 12 2 32 87 65 36 189 27 66 1440 662 130 71 33 28 20 4 1 16 142 56 12 112 37 116 1440 597 134 92 59 4 63 8 30 20 98 54 25 121 21 114 1440 552 144 99 62 0 99 10 7 28 87 56 33 154 23 86 1440 628 139 112 15 0 71 7 2 33 90 51 38 192 34 28 1440 628 133 78 28 30 21 9 5 24 152 50 5 114 47 116 1440 595 133 81 57 5 55 13 32 17 93 61 23 142 23 110 1440 561 137 94 48 0 95 15 7 35 80 57 33 172 22 84 1440 567 142 112 6 0 86 12 0 29 86 75 49 186 26 64 1440 648 130 83 11 31 21 7 3 10 158 47 10 109 33 139 1440 576 137 100 89 6 50 11 25 14 101 57 20 119 14 121 1440 549 142 94 75 0 84 16 10 25 80 71 29 155 20 90 1440 585 133 116 16 0 100 12 2 21 75 69 33 189 27 62 1440 612 130 101 36 39 11 6 4 14 150 71 10 108 35 113 1440 553 142 122 77 6 32 9 27 14 115 68 13 118 21 123 1440 548 140 125 72 0 53 12 7 25 93 66 25 145 27 102 1440 579 136 149 6 0 66 12 2 41 91 66 21 174 27 70 1440 625 129 95 52 35 14 2 0 9 139 66 11 108 40 115 1440 565 135 125 75 4 41 7 22 12 121 55 21 127 22 108 1440 543 131 125 83 0 63 15 4 28 89 60 29 154 23 93 1440 594 134 133 5 0 54 17 9 35 104 47 33 193 18 64 1440 615 146 113 58 14 82 8 4 10 125 47 14 82 13 109 1440 567 133 103 54 5 179 11 49 25 80 41 21 74 8 90 1440 525 125 100 62 0 266 11 37 71 34 24 94 8 71 1440 563 100 130 181 0 206 6 12 O 24 35 33 17 116 4 51 1440 624 133 109 2 69 74 6 6 21 121 48 14 96 26 91 1440 543 136 103 1 13 228 12 55 29 84 42 15 90 6 83 1440 529 131 103 1 0 307 12 7 43 73 33 17 113 9 62 1440 581 123 126 1 0 229 8 6 50 68 24 19 152 10 43 1440 587 131 95 6 52 126 3 3 17 134 37 14 105 24 106 1440 572 134 99 38 8 180 9 52 19 90 43 26 75 8 87 1440 537 130 102 29 0 270 8 8 41 71 32 23 116 7 66 1440 582 127 132 2 1 218 4 4 41 60 27 27 157 16 42 1440 661 133 94 20 52 57 7 3 15 125 40 21 95 30 87 1440 576 133 93 40 2 202 14 52 23 73 37 25 84 7 79 1440 503 131 89 18 0 287 13 5 35 73 42 27 114 11 62 1440 564 126 116 7 0 229 14 7 51 71 29 24 141 12 49 1440 611 144 99 15 66 70 10 5 18 144 49 10 87 14 98 1440 571 135 102 38 11 170 14 48 22 84 45 16 80 7 97 1440 533 128 96 31 0 298 11 12 36 68 35 17 103 9 63 1440 598 119 121 2 0 243 9 9 38 52 30 18 157 8 36 1440 595 134 125 14 62 86 5 10 19 103 60 14 96 23 94 1440 521 136 111 23 12 220 10 57 37 80 45 9 79 6 94 1440 514 129 114 24 0 303 13 12 47 75 27 11 92 8 71 1440 583 124 129 1 0 222 8 6 59 76 16 7 159 5 45 1440 603 140 131 22 44 101 9 4 22 115 43 11 77 22 96 1440 548 132 119 20 7 224 9 42 33 88 33 14 87 7 77 1440 524 123 117 7 0 313 11 7 52 74 24 18 104 5 61 1440 579 111 143 0 0 231 5 2 68 81 11 15 146 5 43 1440 • La multi-way data analysis • Le matrici a tre indici I dati cubici multidimensionali La matrice a due modi e due indici e le matrici a più modi e più indici: Richiamo un breve richiamo • Sia P la popolazione statistica o collettivo definita da: P • • • in cui i è l’individuo o unità statistica (u.s.) appartenente all’insieme N: iN (i = 1, 2,…, n); l’insieme N è l’insieme di tutte le n u.s. ed è generalmente supposto essere finito e numerabile (nelle indagini di tipo socio-demografico, N è, invece, infinito nelle popolazioni teoriche o in particolari indagini sperimentali), Xj è il carattere statistico o variabile (nel caso di matrici di intensità o dati quantitativi è una variabile) appartenente all’insieme X dei k caratteri statistici: XjX (j = 1, 2,…, k); l’insieme X è definito “a priori”. La matrice a due modi[1] e due indici [2] a n righe a k colonne è data da: x 11 x 12 ... x 1 j ... x 1 k X • i N ( i 1 , 2 ,..., n ) x j X ( j 1 , 2 ,..., k ) N ,K x 21 ... x 22 ... ... ... x2 j ... ... ... x2k ... x i1 ... x N1 xi2 ... xN2 ... ... ... x ij ... x Nj ... ... ... x ik ... x Nk . • [1] Per modo si intende il tipo di informazioni considerate nella matrice in esame; in questo caso, ad esempio, il modo “individui” e il modo “variabili”, ma potrebbero essere altri modi come luoghi, tempi, giudici, ecc. [2] Gli indici indicano, invece, il criterio di classificazione del “dato statistico” xij in cui iN (i = 1, 2,…, n) sono gli individui e XjX per j = 1, 2,…, k sono le variabili statistiche considerate. casi di studio Le matrici a tre indici per l’Analisi dei Dati a Tre Vie: N = u.s.; K= caratteri; O = occasioni Tre esempi: O X NxK 4( anni) X19( MunicipiRM), 5( delitti) O X NxK O6nazioniX N 1categ. pop.;K 12att. primarie O O X NxK O5classidietà X N 22categ. partner.;K 9 att. primarie X N ,K Le matrici dell’Analisi dei Dati a Tre Vie (3-way data analysis): Codifiche a priori • • • • • • • • • • • 2^fase dell’AMD) Analisi dei Dati a Tre Vie (three-way data analysis) mediante la quale si possono esaminate più tabelle nella forma di tabelle di dati quantitativi , tutte insieme, globalmente e contemporaneamente, secondo tre diversi aspetti: a) la rappresentazione globale di tutte le tabelle e la distanza tra esse (analisi dell’interstruttura); b) individuare la tabella ‘compromesso’ o ‘ matrice media’ (analisi dell’intrastruttura ) c)confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme delle occasioni considerate e individuare quali di esse sono quelle che hanno contribuito maggiormente alla differenza tra le tabelle (analisi delle traiettorie) Si possono avere diverse codifiche a posteriori di una matrice dei dati a tre vie secondo le situazioni di ricerca: 1) Una matrice di dimensione [ N , (KO)] in cui si considerano diverse le K variabili rilevate in O occasioni successive ed uguali le N u.s.; 2) Una matrice di dimensione [ (N O) , K] in cui si considerano uguali le K variabili e diverse le N u.s. rilevate in O occasioni successive. 3) Una matrice di dimensione [(N x K), O] in cui si considerano uguali sia le N u.s. che le K variabili rilevate in O occasioni successive. A seconda del software statistico impiegato inoltre la codifica della matrice dei dati iniziali può essere fatta: A) Per impilamento delle diverse tabelle dei dati; (es. STATIS) B) Mettendo uno dopo l’altra, consecutivamente, le tabelle dei dati (SPADstatis) Un caso di studio particolare • Se sono dati testuali: • Se è una matrice dei dati testuali • ‘Le preoccupazioni sociali rilevanti e la QdV nelle C.M.’ e l’analisi a tre vie per l’individuazione di indicatori lessicali empirici • Relazione presentata alla 5^JADT2000, Losanna 9-11 marzo su M.Fraire, ‘Analisi a 3-vie delle risposte a domande aperte e indicatori empirici • Riferim.bibliograf. ‘Sociologia e Ricerca Sociale’ n.61/anno XXI, 2000 L’Analisi dei dati testuali Un caso di studio particolare • La documentazione statistica di partenza: 1^ fase AMD • • • • • • • • • • • E’ un questionario con domande a risposta ‘libera’ ossia non strutturata. Il questionario è stato denominato ‘Scheda descrittiva-per problemi’ caratterizzato da una serie di 8 domande aperte miranti ad individuare le ‘preoccupazioni sociali rilevanti’ per ciascuna delle seguenti 8 ‘aree di rilevanza sociale’: A: ‘Salute’ ; B:’Istruzione e formazione professionale’; C: ‘Occupazione e Qualità del lavoro’; D:’Impiego del tempo libero’; E: ‘Situazione economica personale’; F:’Ambiente fisico’; G:’Ambiente sociale’; H: ‘Sicurezza personale’, nelle quali era stata scomposta la definizione astratta di QdV. 2^ fase Le risposte alle 8 domande aperte date da ciascuno dei 22 operatori (presidenti di C.M.) hanno costituito il file di testo originario composto quindi da 8 sub-files 3 • 3^fase Creazione della matrice dei “dati testuali “ ^ f • 4^fase codifiche a posteriori: correzione, disambiguazione e a segmentazione del testo e le prime analisi statistiche dei testi. s e Un caso di studio particolare 1^ fase AMD un esempio di matrice dei dati testuali (Il questionario:1^fase dell’AMD) ………………………………… 2^fase AMD Un caso di studio particolare La matrice dei dati iniziali: il file di testo (2^fase dell’AMDT). Il file di testo 'QdVCM.txt' ----01PIECN A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI SERVIZI DI TRASPORTO. ++++ B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI. PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI. SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE ESIGENZE DEL MONDO DEL LAVORO. ++++ C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE. DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI PRIMA OCCUPAZIONE. AUMENTA IL LAVORO NERO E PART-TIME. ++++ D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE. PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE. ++++ E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO. PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO E IL COSTO PER IL RISCALDAMENTO. ++++ F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL TRAFFICO PROVINCIALE. DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE. ++++ G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI RIGUARDANO L'ASSISTENZA AGLI ANZIANI. FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO DELLA DROGA. ++++ H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI. ----02VADAO A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI TRASPORTI. ++++ B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE. MANCA UNA SEDE UNIVERSITARIA. ++++ C)LA CRISI GENERALE DELLA SIDERURGIA SI RIFLETTE SULLO STABILIMENTO COGNE-SIAS DELLA ZONA CON RIPERCUSSIONI SULLA OCCUPAZIONE. ++++ D)MANCANZA DI COMPLESSI PER ATTIVITA RICREATIVO-SPORTIVE. COSTO ECCESSIVO DI ALCUNE ATTIVITA COME IL TENNIS. MANCANO DEL TUTTO I TEATRI. ++++ E)I PREZZI DI TUTTI I GENERI SIA DI PRIMA NECESSITA CHE NON SONO NOTEVOLMENTE ALTI ESSENDO LA NOSTRA UNA REGIONE A CARATTERE TURISTICO. ++++ ………………………... ----22SARNU ………………….. Le 7 fasi dell’Analisi Multidimensionale dei Dati Le fasi ‘preliminari’ 3^fase CODIFICHE A POSTERIORI (v.pagg.92-106 fraire, rizzi, op.cit.) della 3^fase; Riguardano tutte le trasformazioni della matrice dei dati iniziali per renderla compatibile e significativa con le tecniche multiv. da impiegare Scopi delle codifiche a posteriori sono: A) Requisiti statistici oggettivi ai quali devono rispondere i dati per essere statisticamente trattabili (es. omogeneità, struttura algebrica) B) Costruzione della TABELLA DEI DATI più significativa e adatta alla tecnica di AMD che si impiegherà: Codifiche a posteriori della 3^fase: trasformazioni di variabili (singole colonne o tutte le colonne) sono di tue tipi: TIPO I (div.in classi, trasf. in ranghi ecc.): trasformazioni che operano un cambiamento nella struttura originaria TIPO II (scarti centrati, scarti standardardizzati, trasf.aritm., algebriche, funz. non ottimali): trasformazioni che NON operano un cambiamento nella struttura originaria La 3^ fase dell’AMD: le codifiche a posteriori come trasformazioni di variabili (v.pagg.93-97) Codifiche di TIPO I: trasformazioni che operano un cambiamento nella struttura originaria della variabile considerata. Sono di questo tipo: - la divisione in classi di una variabile cardinale considerandola poi una variabile categoriale. Esistono come noto diversi criteri (non ottimali e ottimali) per la divisione in classi di una variabile; scopi è descrivere la variabile atttraverso distribuzioni di freqeunza più significative sei singoli valori o trattare tale variabile insieme alle variabili categoriali. Si perdono informazioni: da una scala di rapporti o intervalli (struttura algebrica) ad una mutabile (nessuna struttura), la distanza tra unità per quelle appartenenti alla stessa classe; - trasformazione per ranghi (graduatorie) di una variabile consistente nel sostituire al valore della variabile cardinale il posto o rango occupato dall’unità nel collettivo in esame. Da una scalla di rapporti o intervalli ad una mutabile ordinata (rettilinea). Scopi principali di tali codifiche sono quelli di rendere omogennee variabil iespresse in diversa unità di misura, trattare insieme variabili cardinali e categoriali rettilinee. Si perdono informazioni: la distanza tra unità statistiche - codifiche sfuocate o codage flou da variabili discrete a variabili continue in un dato intervallo. 3^ fase Le codifiche di tipo II: non alterano la struttura originaria dei caratteri Codifiche di TIPO II): trasformazioni che non operano un cambiamento nella struttura originaria della variabile. Sono di questo tipo: - la trasformazione delle variabili cardinali in variabili scarti dalla media. In generale considerando la matrice dei dati originari una matrice XN,K di intensità o dati quantitativi la trasformazione in matrice degli scarti centrati o dalla media SN,K si ottiene mediante la trasformazione: SN,K = XN,K UN,K Dk in cui UN,K è la matrice composta di tutti 1 di dimensione nk e Dk =diag [ x , x ,..., x ] delle medie. Si noti che per l’intera matrice dei dati tale trasformazione equivale a porre l’origine degli assi della nuvola dei punti-unità NI nello spazio delle unità Rk nel centro di gravità o baricentro g= [ x , x ,..., x ] . Tale trasformazione consente la semplificazione di molti indici statistici. I risultati ottenuti dall’applicazione di un metodo di AMD alla matrice SN,K sono gli stessi della matrice originaria XN,K eccetto ovviamente la media delle singole variabili che qui ènulla E(Sj )=0. Tale trasformazione ridurrà l’intensità media di variabili tra loro omegenee nell’unità di misura ma con medie molto diverse. la trasformazione delle variabili cardinali variabili standardizzate. In generale considerando la matrice dei dati originari una matrice XN,K di intensità o dati quantitativi la trasformazione in matrice degli scarti standardizzati ZN,K si ottiene mediante la trasformazione: ZN,K = SN,K D-1 in cui SN,K è la matrice degli scarti dalla media già vista, D-1 =diag[ [ 1 , 1 ,..., 1 ] è la matrice diagonale avente sulla diagonale 1 2 k 1 X X 1 2 X k principale gli inversi degli s.q.m. delle singole variabili 2 k 3^ fase: Codifiche a posteriori esempio di trasformazioni di tipo II X N 13, K 2 Addetti comm. 3^ fase: Codifiche a posteriori Le nuvole dei punti-unità delle matrici Scarti dalla media S(N,K) Scarti standardizzati Z(N,K) X N 13,K 2 S N 13, K 2 Z N 13,K 2 3^ fase altre codifiche di tipo II (pagg.92-97) - altre trasformazioni delle matrici di intensità o dati quantitavi sono le matrici dei valori normati ossia dividendo ciascuna variabile per un suo valore medio o un indice di variabilità mettendo in evidenza l’importanza di ciascun valore della variabile rispetto all’intensità media o alla variabilità media. - trasformazioni aritmetiche, algebriche, funzionali : a) creare nuove variabili dalle variabili originarie (es. calcolare rapporti statistici :rapporti medi, numeri indice, quozienti demografici ecc.); b) effettuare un cambiamento di scala, ad es. in scala 0-100 mediante la trasformazione: oppure yij y ij xij xij min( X j ) Range( X j ) 100 100 max o min( X j ) c) nella misura dell’inquinamento atmosferico si rapporta, se si vuole un dato annuale comparabile con altri (standardizzato) il valore medio dell’inquinante rilevato (es. benzene C6H6, biossido di azoto NO2) al max raggiungibile secondo la normativa vigente nell’anno; d) Le trasformazioni logit per la regressione logistica; e) le trasformazioni in variabili dummy per le variabili categoriali indipendenti nella regressione; f) trattamento dei MISSING VALUE; g)riorientamento degli items nelle scale di atteggiamenti; ecc.ecc. Le 7 fasi dell’AMD (PAG.6 – m.Fraire-Metodi di AMD – CISU, Roma 1994) 4^ fase La 4^ fase dell’AMD: la scelta della tabella dei dati: codifiche a posteriori dell’intera matrice dei dati (var. attive) (v. pagg.107-110) • • • Le codifiche a posteriori dell’intera matrice dei dati corrispondenti alla 4^ fase dell’AMD sono codifiche di diverso tipo e scopi. Con tali codifiche comunque si sceglie la tabella dei dati - che è diversa in genere dalla matrice dei dati iniziali - che sarà sottoposta alla ‘specifica’ tecnica di AMD scelta. Scopo di queste codifiche è quindi rendere ‘compatibile’ la matrice dei dati iniziali con la tecnica di AMD che si impiegherà; Ogni tecnica di AMD ha determinate tabelle dei dati come matrici di input ‘accettate’ e che abbiano un ‘significato’ per il tipo di approccio che quella specifica tecnica multidimensionale ha del set di dati da analizzare. tecnica di AMD tipi di TABELLE DEI DATI per l’ACP per Cluster Analysis( CA) Matrici S n ,k Z n ,k Tutti i tipi di matrici individui (r ) variabili X n,k , Sn,k , Z n,k , Pr ,s Matrice di distanze Dn ,n Matrice di similarità S n ,n Tabella sotto forma disgiuntiva completa An ,m per l’A Corrisp. Semp. Matrici dei profili-riga Pr , s ( c ) Matrici dei profili-colonna Pr , s Tabella sotto forma disgiuntiva completa An ,m ; Tabella di Burt Bm,m Tabella sotto forma disgiuntiva completa An ,m ; per l’A Corrisp.Multiple (r ) 4^ fase Codifiche a posteriori della 4^ fase: Trasformano l’intera matrice dei dati. Le principali sono: - Tabella sotto forma disgiuntiva completa.; - Tabelle dei profili-riga e profili-colonna; - Tabella. di contingenza generalizzata o di Burt; - Tabella a variabili incorrelate (Le trasformazioni ottimali: optimal scaling (per la quantificazione di mutabili); spline transformations (per trasformazioni non lineari di variabili). • E’ da notare che dalla ‘scelta’ del tipo di codifica a posteriori della matrice dei dati iniziali dipenderà la 5^ fase dell’AMD: scelta di una metrica per le unità statistiche (distanze, similarità) o di una metrica per i caratteri statistici (correlazioni, varianze e covarianze ecc.) • Nelle applicazioni sia le codifiche a posteriori della 3^ fase che quelle della 4^ fase possono essere entrambe necessarie o non essere necessarie affatto (in tal caso la matrice dei dati iniziali coincide con la ‘tabella dei dati’ che sarà sottoposta ad un’AMD) o essere necessarie solo in parte per uno solo dei due tipi di codifiche (es. la matrice degli scarti standardizzati potrebbe costituire già la tabella dei dati). 4^ fase La 4^ fase dell’AMD: codifiche a posteriori dell’intera matrice dei dati (var. attive): d) La tabella di contingenza generalizzata o di Burt • Qualora si vogliano trattare più di due caratteri qualitativi (sconnessi o ordinati) o variabili divise in classi oltre alla codifica a posteriori sotto forma disgiuntiva completa un’altra codifica, è quella di trasformare la tabella inventario (matrice dei dati iniziali) nella tabella di contingenza generalizzata o di Burt. • Esempio: La tabella di contingenza generalizzata a partire dalla tabella inventario An 10, k 6 N \ K K1 Sex K 2 Eta K 3 TitStud K 4 QdV K 5 Stip K 6 AnzServ 01 1 21 3 6 1200 1 02 2 22 5 5 8000 2 03 1 35 4 5 2500 7 04 1 27 5 7 2600 5 ... ... ... ... ... ... ... 10 1 24 4 6 2100 3 • . • 4^ fase Un esempio di codifica disgiuntiva completa: la tabella inventario An10,k 6 La tabella inventario An 10,k 6 N \ K K1 Sex K 2 Eta K 3 TitStud K 4 QdV K 5 Stip K 6 AnzServ 01 1 21 3 6 1200 1 02 2 22 5 5 8000 2 03 1 35 4 5 2500 7 04 1 27 5 7 2600 5 ... ... ... ... ... ... ... 10 1 24 4 6 2100 3 La tabella sotto forma disgiuntiva completa An10,m31 N 01 10 10 00100 00000100000 10 100000000 02 01 10 00001 00001000000 01 010000000 …………………………………………………………………. 10 10 10 00010 00000100000 01 001000000 4^ fase (Richiami) Le tabelle di contingenza: dei profili riga, dei profili colonna , normalizzata SESSO M F Totale STATURA 140-159 6 5 11 160-179 14 18 32 180-199 3 4 7 Totale 23 27 50 6 0,55 11 5 0,45 11 A) Tabella dei profili-riga: M F TOT 140-160 0,55 0,45 1,00 160-180 0,44 0,56 1,00 180-199 0,43 0,57 1,00 TOT 0,46 0,54 1,00 profilo-riga medio 6 B)Tabella dei profili-colonna: 0,26 M F TOT 23 140-160 0,26 0,19 0,22 14 160-180 0,61 0,66 0,64 profilo-colonna 0,61 23 180-199 0,13 0,15 0,14 medio 3 TOT 1,00 1,00 1,00 0,13 C) Tabella dei profili sul totale N: 23 M F TOT 140-160 0,12 0,10 0,22 6 160-180 0,28 0,36 0,64 Profilo-colonna 0,12 180-199 0,06 0,08 0,14 medio 50 TOT 0,46 0,54 1,00 Profilo-riga medio (baricentro) (V. ANCHE LA FORMALIZZAZIONE MATRICIALE) 2^fase Un altro caso di studio MATRICE DI CONTINGENZA N r , s : contiene frequenze assolute (R+) possiede struttura algebrica di spazio vettoriale. ( Dato statistico: [a n ] ij NOTA: le righe non sono confrontabili ij 4^fase AMD La tabella o matrice di contingenza dei profili riga Un caso di studi o 4^ fase (Cenni) La 4^ fase dell’AMD: codifiche a posteriori dell’intera matrice dei dati (var. attive): e) La matrice Yn , k o Yn , p k a variabili incorrelate f) Trasformazioni ‘ottimali’ FINE DELLE 4 FASI PRELIMINARI DELL’ANALISI DEI DATI LA 5 FASE: LA SCELTA DELLA METRICA 5^fase Scelta della metrica La 5^fase: la scelta della metrica La 5^ fase dell’AMD SCELTA DELLA METRICA • Riguarda la scelta di una misura (metrica) di: • RASSOMIGLIANZA-DISSOMIGLIANZA tra unità statistiche: Matrici n x n delle distanze o delle similarità. • Esistono molti tipi di misure a seconda del tipo di tabella dei dati da analizzare (distanze di Minkowski, di Mahalanobis, di Hamming; indici di distanza; indici di diversità;indici di similarità) nella Cluster Analysis è rilevante la scelta della misura di rass./diss. tra u.s. • RELAZIONE TRA CARATTERI: Matrici k x k di devianze e codevianze; varianze e covarianze;correlazione, correlazione parziale ecc.) nell’ACP è rilevante la scelta di una misura di relazione tra variabili. La distanza tra due vettori-riga Il coseno tra due vettori colonna • xi , xi ' R k x j , x j ' Rn Data la matrice di dati quantitativi: N \ X X 1 X 2 ... X j ... X k 1 x11 x12 ... x1 j ... x1k 2 X n,k ... i x21 x22 ... x2 j ... x2 k ... ... ... ... ... ... i' N xi '1 xi '2 ... xi ' j ... xi ' k xN 1 xN 2 ... xNj ... xNk xi , xi ' Rk xi1 xi 2 ... xij ... xik x j , x j ' Rn Spazio delle unità N\X i X1 x11 X2 x12 i' x21 x22 X 22 X 12 i’ i x 11 N\X i X1 x11 X2 x12 i' x21 x22 X(22) X(21) X 1 X(11) x 21 X 2 X(12) Spazio delle variabili 5^ fase dell’AMD: scelta di una misura di rassomiglianzadissomiglianza tra le u.s. • • Data la matrice di dati quantitativi: N \ X X 1 X 2 ... X j ... X k 1 x11 x12 ... x1 j ... x1k 2 x21 x22 ... x2 j ... x2 k ... ... ... ... ... ... X n ,k ... i xi1 xi 2 ... xij ... xik i' xi '1 xi '2 ... xi ' j ... xi ' k N xN 1 xN 2 ... xNj ... xNk se si vogliono avere delle misure di rassomiglianza o dissomiglianza tra tutte le possibili coppie (n n) di unità statistiche rispetto ai k caratteri contemporaneamente considerati (vettori-riga xi R k ) occorre scegliere una misura che fornisca la distanza (diversità) o la vicinanza (somiglianza) tra due vettori-riga. Esistono molte misure a seconda delle prorietà possedute e del livello di misurazione dei caratteri con i quali ciascuna di esse è compatibile. La scelta tra le diverse misure è legata alla struttura S posseduta dalla tabella dei dati considerata e le misure con essa compatibili. Una prima distinzione tra le diverse misure di rassomiglianza/dissomiglianza tra u.s. è comunque quella tra DISTANZE (diversi indici) per le variabili e SIMILARITA’(diversi indici) per le mutabili. La matrice che contiene tutte le distanze per tutte le coppie di u.s. è la matrice delle distanze Dn ,n • • I principali tipi di tabelle dei dati (4^fase dell’AMD) e le diverse misure di rass./dissom. fra u.s. (5^fase dell’AMD: la scelta della metrica): V. M.Fraire pagg.94 per le proprietà degli indici e 95 per la tabella) Tabella dei dati (4^ fase dell’AMD) Misura di rass./dissom. tra unità (5^fase dell’AMD) Tabella d’intensità o dati quantitativi (variabili) Distanze: Minkowski (semplici e ponder.) Mahalanobis Indici di diversità: Lance e Williams ecc. Tabelle di contingenza Distanze: Minkowski (semplici e ponder.) Indici di distanza: distanze del ² Tabelle di descrizione logica (booleane) Distanze: Minkowski (semplici e ponder.) Hamming Indici di distanza: distanze del ² Indici di similarità: Sokal e Michener Russel e Rao Jaccard ecc. Tabelle dei ranghi Distanze: Minkowski (semplici e ponder.) Rizzi Indici di diversità: ’ di Sperman (*) ’ di Kendall (*) (*)corretti affinchè varino tra 0 e 1 anziché tra –1 e +1 La matrice delle distanze Dn ,n • In generale se consideriamo tutte le possibili n n coppie delle N u.s. si ha la matrice delle distanze indicata con Dn , n d ( X1 X 3 ) d ( X1 X1 ) 0 d ( X1 X 2 ) d(X X ) d(X X ) 0 d(X X ) 2 1 2 2 2 3 Dn,n d ( X 3 X1 ) d(X3X3) 0 ... ... ... d ( X n X 1 ) d(Xn X2) ... ... ... ... ... ... d ( X1 X n ) ( X 2 X n ) (X3Xn ) ... d ( X n X n ) 0 • Essa fornisce una misura della rassomiglianza-dissomiglianza di tutte le N u.s., prese a due a due, rispetto a tutti i k caratteri contemporaneamente considerati. • La matrice è una matrice: • QUADRATA di dimensione n n • SIMMETRICA d ( X i X i ' ) d ( X i ' X i ) • POSITIVA perché per le proprietà stesse di una distanza • qualunque essa sia è sempre positiva o nulla d ( X X ) 0i, i ' i • NULLA solo se d ( X i X i ' ) 0 i i ' • n° di distanze utili: n( n 1) 2 i' Distanze di Minkowski Tra le più impiegate distanze aventi il maggior numero di proprietà si sono le distanze di Minkowski la cui formula è data da: k dt t X j 1 t X i ' j (t 1int ero) ij a seconda del valore assunto dal parametro t si hanno le distanze: t = 1 Distanza della città a blocchi o di Manhattan k d1 X ij X i ' j es.: d1 (1; 2) 2 3 3 5 3 j 1 = 2 Distanza euclidea dt k t (X j 1 ij X i ' j )2 es.: d1 (1;2) (2 3)2 (3 5)2 5 2,24 t = Distanza di Lagrange d max r 1,2,...,k X ij X i ' j es.: d (1;2) max 2 3 ; 3 5 2 Esempi di calcolo:data la matrice di dati quantitativi X n 3, k 2 N 1 2 3 X1 2 3 7 X n 3, k 2 X2 3 5 4 Le distanze euclidee per tutte le coppie possibili di u.s. sono date da: Esempi di calcolo delle distanze euclidee: dalla la matrice di dati quantitativi X n3,k 2 • X n 3, k 2 N 1 2 3 X1 2 3 7 X2 3 5 4 • Le distanze euclidee per tutte le coppie possibili di u.s. sono date da: n(n 1) 3 2 3 2 2 d 2 (1; 2) (2 3) 2 (3 5) 2 1 4 2, 24 d 2 (1;3) (2 7) 2 (3 4) 2 25 1 5, 09 d 2 (2;3); (3 7) 2 (5 4) 2 16 1 4,12 • La matrice delle distanze (euclidee) D(3,3) 1 2 3 1 0 2, 24 5,09 D3,3 2 2, 24 0 4,12 3 5,09 4,12 0 La 5^ fase dell’AMD SCELTA DELLA METRICA • Riguarda la scelta di una misura (metrica) di: • RASSOMIGLIANZA-DISSOMIGLIANZA tra unità statistiche: Matrici n x n delle distanze o delle similarità. • Esistono molti tipi di misure a seconda del tipo di tabella dei dati da analizzare (distanze di Minkowski, di Mahalanobis, di Hamming; indici di distanza; indici di diversità;indici di similarità) nella Cluster Analysis è rilevante la scelta della misura di rass./diss. tra u.s. • RELAZIONE TRA CARATTERI: Matrici k x k di devianze e codevianze; varianze e covarianze;correlazione, correlazione parziale ecc.) nell’ACP è rilevante la scelta di una misura di relazione tra variabili. 5^ fase dell’AMD Misure di relazioni tra caratteri: le matrici k k La matrice di varianze e covarianze X1 X2 X 2 X1 .. k ,k ... Xk X k X1 X1 X1 2 … X2 X X 1 ... k ,k X X ... X 2 X k ... ... ... X2 k 2 2 X2 ... X Xk k X2 1 k tr k ,k • • • • Rango: lo stesso rango della matrice dei dati linearmente indipendenti Quadrata kk k (k 1) Simmetrica : X1 X 2 utili X 2 X1 con 2 L’inerzia totale o varianza totale è data da: tr k ,k • k X2 j j 1 X n ,k ossia k colonne k X2 j j 1 è un indice di variabilità lineare (le variabili devono essere omogenee nell’unità di misura): consente di verificare l’omoschedasticità della nuvola dei punti: L’inerzia totale o varianza totale (v.pagg40-44 in M.Fraire, op,cit.) • L’inerzia totale o varianza totale indica la dispersione totale della nuvola dei punti-unità intorno al loro baricentro o centro di gravità g definito dal vettore g [ x1 , x 2 ,..., x3 ] • Se si considera lo spazio delle unità statistiche ossia i vettoririga l’inerzia totale o varianza totale è definita xi R k da: k k n I N ( g ) x2j ( xij x j ) 2 pi j 1 j 1 i 1 • è uguale alla somma delle varianze delle variabili considerate o alla media aritmetica ponderata con pesi p0 dei quadrati delle distanze euclidee tra i punti x e il loro baricentro. x j Rn • Si consideri lo spazio delle variabili ossia i vettori-colonna • e la matrice di varianze e covarianze k ,k : k ,k X2 1 X1 X 2 2 X 2 X1 X 2 ... ... X X X X k 2 k 1 ... X1 X k ... X 2 X k ... ... ... X2 k • L’inerzia totale o varianza totale se si considera la metrica K=I =diag[1,1,…,1] è: k I N ( g ) tr ( K kk ) tr ( K I kk ) tr ( kk ) x2j • Se si considera invece l’inerzia totale o varianza totale è data da: 1 1 1 K diag 2 , 2 ,..., 2 X k X1 X 2 • in cui Rk ,k è la matrice la j 1 X X 1 rX1X 2 1 2 X 1 X 2 di correlazione: rX X X 2 X1 1 R ) tr ( R ) k k , k kk kk 2 1 X 2 X1 ... ... r rX k X 2 X k X1 I N ( g ) tr ( K kk ) tr ( D 2 1 metrica X1 X k X 1 X k rX 2 X k ... 1 ... rX1X k ... ... ... 5^ fase dell’AMD Misure di relazioni tra caratteri: La matrice delle correlazioni Rk ,k • La matrice delle correlazioni Rk ,k Rk ,k rX 2 X1 rX1 X 2 1 X 2 X1 X1 X 2 X1 X k X 1 X k rX 2 X k ... 1 ... rX1 X k X 1 X 2 X 2 X1 1 ... ... ... ... rX k X1 rX k X 2 ... • Rango: lo stesso rango della matrice dei dati X n,k ossia k colonne linearmente indipendenti • Quadrata kk k (k 1) • Simmetrica : rX X rX X con utili 2 r scarti standardizzati • Se le variabili sono espresse in l’inerzia totale o varianza totale è data da: k 1 2 2 1 X jX j' tr ( Rk ,k ) 1 k • Se c’è dipendenza linearej 1tra due o più variabili • rX j X j ' 1 det|R|=0 • Se le variabili sono linearmente indipendenti ( rX j X j ' 0 ) det|R|=I • Fine lezione • del 17 marzo 2014 SAPIENZA – Università di Roma Dipartimento di di Scienze Sociali e Economiche(DiSSE DdR RICERCA APPLICATA ALLE SCIENZE SOCIALI (RASS.) a.a. 2012-2013 Lezione del 3 APRILE 2013 ore 15:00-17:00, Aula C3: Analisi esplorativa multidimensionale dei dati”(EMDA-Exploratory Multidimensional Data Analysis: aspetti statistici e informatici Lezione del 4 APRILE 2013:ore 15:00-17:00, Aula C3: I casi di studio dell’EMDA Mary Fraire Prof.ssa Mary Fraire – Professore ordinario di Statistica Dip.to di Scienze Sociali e Economiche (DiSSE) e-mail: [email protected] Sito web: http://www.sociologia.uniroma1.it/users/fraire Facoltà di Scienze Politiche, Sociologia, Comunicazione Università di Roma ‘La Sapienza’ •I casi di studio Uso del tempo: Un caso di studio per la cluster analysis Caso di studio n.1 : L’uso del tempo • Caso di studio B: L’uso del tempo in un giorno festivo di diverse categorie di popolazione secondo il genere, l’età, la condizione professionale e la ripartizione geografica in Italia (Metodo indiretto, acquisizione dati rilevati ad es. Indagine ISTAT – Uso del Tempo in Italia). • Il caso di studio B USO DEL TEMPO Uso del tempo: caso di studio Analisi trasversali Le durate medie generiche e il b.t. per l’individuazione di tipologie di uso del tempo Cluster Analysis Cap.4 – pagg.174-178 • Fraire, Rizzi, Analisi dei Dati per il Data mining, Carocci ed. • CAP.3 • L’ANALISI DEI GRUPPI (CLUSTER ANALYSIS ) Focus su i bilanci del tempo e le indagini sull’Uso del tempo Le indagini sull’Uso del Tempo (v. box pag.81 Fraire, Rizzi, Analisi dei dati, op.cit.) Le indagini Uso del Tempo rientrano negli studi statistici sui Bilanci del Tempo ( Cfr Fraire M., 2004, I Bilanci del Tempo e le Indagini sull’Uso del tempo, Time-Budget Studies (TBS) and Time Use Surveys (TUS), CISU ed. 2004. La denominazione di bilancio del tempo (b.t.) nasce in analogia con quella di bilancio di famiglia (b.f.): entrambi i tipi di bilancio rilevano infatti la destinazione di un ‘fondo’ : i b.f. la destinazione del reddito nei vari capitoli di spesa, i b.t. la destinazione delle 24 ore (o altro intervallo di tempo socialmente significativo: es. un giorno feriale, semi-festivo e festivo) in varie attività come il nutrirsi, dormire, lavorare, curare i figli, leggere, assistere parenti, conversare con amici, tragitti per lavoro o studio, fare sport, vedere la tv, riflettere e pensare alla propria vita e così via. Nei b.f. figurano gli aspetti monetari della vita degli individui, nei b.t. figurano ‘anche’ quegli aspetti sociali, culturali e di costume che non sono monetari e/o monetizzabili: la cura dei figli, l’esposizione ai mass-media, le conversazioni con amici, la ‘navigazione’ via internet per motivi vari (elearning, e-commerce, e-government ecc.), le attività non-profit, la partecipazione alla cultura e agli svaghi di ogni tipo, i tempi impiegati nei tragitti per lavoro o studio e così via. L’ISTAT ha svolto le seguenti indagini UsoTempo nei seguenti anni: 1986-87; 1996(Indagine Pilota); 2002-2003; 2008-09(in corso) su un campione casuale, a due stadi con stratificazione al primo stadio (Comuni) ed estrazione sistematica al secondo (famiglie). In particolare l’ Indagine ISTAT 1986-87 n = 38.110 persone in 13.729 famiglie ; nel 2002-03 il campione di n= 24.136 famiglie base +2480 ( Comune di Torino) ., nel 2008-2009 40.945 diari giornalieri in 18.250 famiglie La documentazione statistica di partenza: dati ISTAT, L’Uso del tempo, Indagine 1^ fase AMD Multiscopo sulle famiglie ‘Uso del tempo’, Anni 2002-03, Istat-Informazioni n.2, 2007 €27 con CD Caso di studioB Tavola 1.1.1 - Attività svolte in un giorno medio settimanale dalla popolazione di 15 anni e più per tipo di attività e alcune caratteristiche Anni 2002-2003 - (durata media generica in ore e minuti e quota percentuale di tempo sulle 24 ore) CARATTERISTICHE T O T A LE CARATTERISTICHE DEMOGRAFICHE CLASSI DI ETÀ 15-24 25-44 45-64 65 e più STATO CIVILE Celibe/Nubile Coniugato/a Separato/a, divorziato/a Vedovo/a CARATTERISTICHE SOCIO-ECONOMICHE LIVELLO DI ISTRUZIONE Laurea Diploma superiore Licenza media Licenza elementare, nessun titolo Dormire, mangiare e altra cura della persona % Mg sulle CARATTERISTICHE TERRITORIALI RIPARTIZIONI GEOGRAFICHE Nord-ovest Nord-est Centro Sud Isole TIPI DI COMUNE Comune centro dell'area metropolitana Periferia dell'area metropolitana Fino a 2.000 abitanti Da 2.001 a 10.000 abitanti Da 10.001 a 50.000 abitanti 50.001 abitanti e più Istruzione e formazione Volontariat Tempo libero o, aiuti, Vita Letture, Tv, Altre attività partecipazi sociale, radio e di tempo one sociale visione di Internet libero e religiosa spettacoli e % % % % % Mg Mg Mg Mg Mg sulle sulle sulle sulle sulle Lavoro familiare Mg % sulle Mg % sulle 10,8 0:25 1,8 3:19 12:01 50,0 2:36 11:53 49,5 1:37 6,8 2:47 11,6 11:24 47,5 4:12 17,5 0:11 0,8 11:40 48,6 2:51 11,9 0:01 13:33 56,4 0:12 0,9 11:53 49,5 2:47 11:52 49,4 2:47 11:33 48,1 13:33 56,5 13,8 0:18 1,2 1:02 4,3 2:11 9,1 1:05 4,5 0:08 3:10 13,2 0:09 0,6 1:41 0,7 0:58 7,0 1:51 4,0 1:40 0,1 3:59 16,6 0:23 1,6 0:52 3,6 - - 3:56 16,4 0:29 2,0 1:01 11,6 1:29 6,2 1:27 11,6 0:01 0,1 4:04 6,1 0:11 17,0 0:18 0,8 1,2 3:41 15,4 0:05 0,3 3:11 13,2 0:18 1,3 0:24 1,7 - - 4:13 17,5 0:35 Spostame nti Totale Tempo non specificato Mg % sulle Mg % sulle Mg % sulle 0:44 3,1 3:57 16,5 1:22 5,7 0:03 0,2 7,7 1:07 4,6 4:39 19,4 1:48 7,5 0:03 0,2 7,0 0:37 2,5 3:14 13,5 1:36 6,7 0:03 0,2 2:14 9,3 0:40 2,8 3:45 15,7 1:18 5,4 0:03 0,2 4,2 3:08 13,0 0:51 3,5 4:59 20,8 0:49 3,4 0:02 0,1 1:30 6,3 1:57 8,2 0:59 4,1 4:26 18,5 1:44 7,2 0:02 0,2 0:49 3,4 2:11 9,1 0:39 2,7 3:40 15,3 1:16 5,3 0:03 0,2 0:55 3,8 2:00 8,3 0:40 2,8 3:35 14,9 1:35 6,6 0:02 0,2 2,4 1:01 4,2 2:52 11,9 0:36 2,5 4:29 18,6 0:45 3,1 0:01 0,1 11:17 47,0 4:10 17,4 0:15 1,0 2:34 10,7 0:15 1,0 0:55 3,8 2:03 8,6 0:46 3,2 3:44 15,6 1:42 7,1 0:03 0,2 11:30 11:46 47,9 49,0 3:28 2:47 14,5 11,6 0:33 0:42 2,3 2,9 2:51 3:07 11,9 13,0 0:13 0:15 0,9 1,1 1:03 1:05 4,4 4,5 1:59 2:03 8,2 8,5 0:45 0:46 3,1 3,2 3:46 3:53 15,7 16,2 1:36 1:26 6,7 6,0 0:03 0:03 0,2 0,2 13:07 54,6 0:54 3,8 .. .. 4:18 17,9 0:27 1,9 1:00 4,2 2:36 10,8 0:42 2,9 4:18 17,9 0:54 3,8 0:02 0,1 CONDIZIONE LAVORATIVA Occupato/a 11:14 46,8 Dirigente, imprenditore/rice, libero/a professionista 11:08 46,4 Direttivo, quadro, insegnante, impiegato/a 11:07 46,3 Operaio/a 11:23 47,4 Lavoratore/rice in proprio, socio/a cooperativa, coadiuvante 11:14 46,8 In cerca di occupazione 12:27 51,9 Casalinga 12:12 50,8 Studente/essa 11:48 49,2 Ritirato/a dal lavoro 13:09 54,8 Altro 13:51 57,7 CARATTERISTICHE FAMILIARI AMPIEZZA DELLA FAMIGLIA 1 componente 2 componenti 3 componenti 4 componenti 5 componenti e più Lavoro retribuito 5:31 23,0 0:03 0,2 6:06 25,4 0:02 0,1 5:00 20,8 0:04 5:28 22,8 0:04 6:20 26,4 0:03 2:13 9,2 1:38 6,8 0,3 2:41 0,3 2:02 0,2 1:53 0:10 0,7 0:53 3,7 1:43 7,1 0:35 2,4 3:11 13,2 0:09 0,6 0:43 3,0 1:54 7,9 0:36 2,5 3:13 13,4 11,2 0:11 0,8 0:53 3,7 1:44 7,2 0:37 2,6 3:14 8,5 0:09 0,6 1:00 4,2 1:41 7,0 0:36 2,5 3:18 7,8 0:08 0,6 0:45 3,1 1:36 6,6 0:29 2,0 2:50 1:37 6,7 0:03 0,2 1:43 7,1 0:02 0,1 13,4 1:41 7,0 0:03 0,2 13,7 1:34 6,5 0:03 0,2 11,8 1:31 6,3 0:02 0,1 0:23 1,6 0:29 2,0 3:37 15,0 0:17 1,2 1:43 7,1 2:15 9,4 1:04 4,4 5:02 21,0 1:40 7,0 0:04 0,3 0:02 0,1 0:01 0,1 6:59 29,1 0:25 1,7 0:54 3,7 2:02 8,4 0:25 1,7 3:20 13,9 0:58 4,0 0:03 0,2 0:07 0,5 4:38 19,3 0:50 3,5 0:08 0,6 1:33 6,5 1:56 8,0 1:10 4,8 4:38 19,3 1:47 7,4 0:02 0,2 0:03 0,2 .. .. 3:59 16,6 0:31 2,1 1:04 4,4 3:11 13,3 1:03 4,4 5:18 22,1 0:57 4,0 0:02 0,1 0:14 1,0 0:06 0,4 3:23 14,1 0:26 1,8 1:19 5,5 2:54 12,1 0:49 3,4 5:01 20,9 0:55 3,8 0:03 0,2 0,1 12:34 52,4 1:55 8,0 0:05 0,3 3:11 13,3 0:35 2,4 1:10 4,9 2:32 10,5 0:45 3,1 4:27 18,5 1:12 5,0 0:02 12:31 52,2 1:49 7,6 0:06 0,4 3:37 15,0 0:24 1,7 0:59 4,1 2:35 10,8 0:48 3,4 4:22 18,2 1:09 4,8 0:02 0,1 11:48 49,2 3:01 12,6 0:20 1,4 3:20 13,9 0:15 1,0 0:59 4,1 2:06 8,7 0:44 3,0 3:49 15,9 1:24 5,9 0:03 0,2 11:36 48,3 3:05 12,8 0:44 3,1 3:11 13,2 0:11 0,8 1:03 4,4 1:53 7,8 0:42 2,9 3:38 15,2 1:32 6,4 0:03 0,2 11:54 49,6 2:42 11,3 0:53 3,7 3:08 13,1 0:10 0,7 1:05 4,5 1:55 8,0 0:43 3,0 3:42 15,4 1:27 6,0 0:03 0,2 11:42 48,8 2:47 11,6 0:22 1,5 3:21 13,9 0:19 1,3 0:56 3,9 2:22 9,9 0:45 3,2 4:04 16,9 1:23 5,8 0:02 0,1 11:52 49,4 2:54 12,1 0:17 1,2 3:19 13,8 0:19 1,3 0:59 4,1 2:15 9,3 0:45 3,1 3:59 16,6 1:19 5,5 0:02 0,1 12:05 50,4 2:42 11,3 0:26 1,8 3:17 13,7 0:16 1,1 0:58 4,0 2:06 8,7 0:45 3,1 3:49 15,9 1:22 5,7 0:03 0,2 12:14 51,0 2:15 9,3 0:35 2,4 3:19 13,8 0:17 1,2 1:10 4,9 1:58 8,2 0:46 3,2 3:54 16,3 1:25 5,9 0:02 0,1 12:24 51,6 2:12 9,2 0:28 1,9 3:19 13,8 0:16 1,1 1:09 4,8 2:12 9,2 0:38 2,7 4:00 16,7 1:17 5,3 0:05 0,3 12:02 50,1 2:32 10,5 0:24 1,7 3:04 12,8 0:16 1,1 0:59 4,1 2:30 10,4 0:47 3,3 4:17 17,8 1:23 5,8 0:02 0,1 12:00 50,0 2:34 10,7 0:27 1,9 3:20 13,9 0:17 1,2 1:01 4,3 2:07 8,8 0:44 3,0 3:52 16,1 1:25 5,9 0:04 0,3 12:01 50,0 2:37 10,9 0:22 1,5 3:34 14,9 0:16 1,1 1:04 4,4 2:01 8,4 0:43 3,0 3:48 15,8 1:21 5,6 0:02 0,1 12:00 50,0 2:44 11,4 0:25 1,7 3:27 14,4 0:19 1,3 1:00 4,2 2:02 8,4 0:40 2,8 3:42 15,4 1:21 5,6 0:03 0,2 12:02 50,1 2:33 10,6 0:25 1,8 3:21 13,9 0:19 1,3 1:06 4,6 2:05 8,7 0:45 3,1 3:56 16,4 1:21 5,7 0:03 0,2 11:58 49,9 2:33 10,7 0:28 1,9 3:11 13,3 0:16 1,1 1:02 4,3 2:20 9,7 0:49 3,4 4:11 17,4 1:21 5,6 0:02 0,1 La matrice di intensità (o dati quantitativi )dell’Uso del Tempo in un giorno festivo di 56 categorie di popolazione in Italia(pg.105 Fraire, rizzi, Analisi dei Dati, op.cit.) 2^fase K Caso di AMD studio N 56, K 15 X N Categ.pop. OM15-24 OM25-44 OM45-64 OM65+ NONM15-24 NONM25-44 NONM45-64 NONM65+ NEM15-24 NEM25-44 NEM45-64 NEM65+ NOM15-24 NOM25-44 NOM45-64 NOM65+ CM15-24 CM25-44 CM45-64 CM65+ SM15-24 SM25-44 SM45-64 SM65+ IM15-24 IM25-44 IM45-64 IM65+ OF15-24 OF25-44 OF45-64 OF65+ NONF15-24 NONF25-44 NONF45-64 NONF65+ NEF15-24 NEF25-44 NEF45-64 NEF65+ NOF15-24 NOF 25-44 NOF45-64 NOF65+ CF15-24 CF25-44 CF45-64 CF65+ SF15-24 SF25-44 SF45-64 SF65+ IF15-24 IF25-44 IF45-64 IF65+ B DOR MAN ALCUR LR ISTR LDO ACQ CURF VOL VITS SPOR LETT TV GIOC SPT mg mg mg mg mg mg mg mg mg mg mg mg mg mg mg TOT 617 135 95 92 3 17 4 5 13 148 51 92 19 143 1440 578 137 99 77 2 50 10 30 16 101 59 20 126 6 19 116 1440 551 139 104 96 0 70 14 9 24 82 60 28 144 23 96 1440 558 146 113 131 0 29 9 0 21 93 51 34 141 24 90 1440 633 129 84 7 47 17 7 2 17 150 63 11 118 47 108 1440 593 136 120 7 31 34 9 8 10 129 69 18 127 31 118 1440 556 141 107 4 0 101 14 3 38 91 66 33 184 23 79 1440 580 137 124 1 0 82 12 2 32 87 65 36 189 27 66 1440 662 130 71 33 28 20 4 1 16 142 56 12 112 37 116 1440 597 134 92 59 4 63 8 30 20 98 54 25 121 21 114 1440 552 144 99 62 0 99 10 7 28 87 56 33 154 23 86 1440 628 139 112 15 0 71 7 2 33 90 51 38 192 34 28 1440 628 133 78 28 30 21 9 5 24 152 50 5 114 47 116 1440 595 133 81 57 5 55 13 32 17 93 61 23 142 23 110 1440 561 137 94 48 0 95 15 7 35 80 57 33 172 22 84 1440 567 142 112 6 0 86 12 0 29 86 75 49 186 26 64 1440 648 130 83 11 31 21 7 3 10 158 47 10 109 33 139 1440 576 137 100 89 6 50 11 25 14 101 57 20 119 14 121 1440 549 142 94 75 0 84 16 10 25 80 71 29 155 20 90 1440 585 133 116 16 0 100 12 2 21 75 69 33 189 27 62 1440 612 130 101 36 39 11 6 4 14 150 71 10 108 35 113 1440 553 142 122 77 6 32 9 27 14 115 68 13 118 21 123 1440 548 140 125 72 0 53 12 7 25 93 66 25 145 27 102 1440 579 136 149 6 0 66 12 2 41 91 66 21 174 27 70 1440 625 129 95 52 35 14 2 0 9 139 66 11 108 40 115 1440 565 135 125 75 4 41 7 22 12 121 55 21 127 22 108 1440 543 131 125 83 0 63 15 4 28 89 60 29 154 23 93 1440 594 134 133 5 0 54 17 9 35 104 47 33 193 18 64 1440 615 146 113 58 14 82 8 4 10 125 47 14 82 13 109 1440 567 133 103 54 5 179 11 49 25 80 41 21 74 8 90 1440 525 125 100 62 0 266 11 37 71 34 24 94 8 71 1440 563 100 130 181 0 206 6 12 O 24 35 33 17 116 4 51 1440 624 133 109 2 69 74 6 6 21 121 48 14 96 26 91 1440 543 136 103 1 13 228 12 55 29 84 42 15 90 6 83 1440 529 131 103 1 0 307 12 7 43 73 33 17 113 9 62 1440 581 123 126 1 0 229 8 6 50 68 24 19 152 10 43 1440 587 131 95 6 52 126 3 3 17 134 37 14 105 24 106 1440 572 134 99 38 8 180 9 52 19 90 43 26 75 8 87 1440 537 130 102 29 0 270 8 8 41 71 32 23 116 7 66 1440 582 127 132 2 1 218 4 4 41 60 27 27 157 16 42 1440 661 133 94 20 52 57 7 3 15 125 40 21 95 30 87 1440 576 133 93 40 2 202 14 52 23 73 37 25 84 7 79 1440 503 131 89 18 0 287 13 5 35 73 42 27 114 11 62 1440 564 126 116 7 0 229 14 7 51 71 29 24 141 12 49 1440 611 144 99 15 66 70 10 5 18 144 49 10 87 14 98 1440 571 135 102 38 11 170 14 48 22 84 45 16 80 7 97 1440 533 128 96 31 0 298 11 12 36 68 35 17 103 9 63 1440 598 119 121 2 0 243 9 9 38 52 30 18 157 8 36 1440 595 134 125 14 62 86 5 10 19 103 60 14 96 23 94 1440 521 136 111 23 12 220 10 57 37 80 45 9 79 6 94 1440 514 129 114 24 0 303 13 12 47 75 27 11 92 8 71 1440 583 124 129 1 0 222 8 6 59 76 16 7 159 5 45 1440 603 140 131 22 44 101 9 4 22 115 43 11 77 22 96 1440 548 132 119 20 7 224 9 42 33 88 33 14 87 7 77 1440 524 123 117 7 0 313 11 7 52 74 24 18 104 5 61 1440 579 111 143 0 0 231 5 2 68 81 11 15 146 5 43 1440 2^ fase AMD X N 56,K 15 Caso di studi oB La creazione della matrice dei dati iniziali pg89-90 (Fraire, rizzi, op.cit.) L’insieme N=56 u.s.= categorie di popolazione (macro-dati) Le N= 56 u.s. rappresentano nel caso di studio considerato ‘categorie di popolazione’ ottenute dall’incrocio delle modalità dei caratteri scelti per le analisi: 1. Genere (2 modalità: m,f); 2. età (4 modalità, classi di età:14-24;25-44;45-64;65+); 3. condizione occupazionazionale ( con 2 modalità: occupato, non occupato) 4. Ripartizione geografica (con 5 modalità: nord-ovest;nordest;centro;sud;isole). NOTA: Data la struttura delle tabelle dei dati ISTAT disponibili soltanto Genere ed Età (GE=24=8) possono essere incrociati con gli altri due caratteri scelti (condizione occupazionale, ripartizione geografica). Pertanto risultano le seguenti 56 u.s.: (2 × 4) = 8 ×2= 16 + (8×5)=40 = 56 categorie di popolazione date dalle seguenti labels: OM15-24; OM25-44;OM45-64; OM65+; NONM15-24; NONM25-44; NONM45-64; NONM65+; NEM15-24; NEM25-44; NEM45-64; NEM65+; NOM15-24 ; NOM25-44 ; NOM45-64; NOM65+ ; CM15-24; CM25-44; CM45-64; CM65+; SM15-24; SM25-44; SM45-64 ; SM65+ ; IM15-24 ; IM25-44; IM45-64; IM65+; OF15-24 ; OF25-44; OF45-64; OF65+ ; NONF15-24; NONF25-44; NONF45-64; NONF65+; NONF65+; NEF1524; NEF25-44; NEF45-64; NEF65+ ; NOF15-24; NOF 25-44; NOF4564; NOF65+; CF15-24; CF25-44; CF45-64; CF65+ ; SF15-24; SF25-44; SF45-64; SF65+; IF15-24; IF25-44; IF45-64; IF65+ ; 2^ fase AMD Caso di studi oB La creazione della matrice dei dati iniziali L’insieme K=15 variabili (= attività giornaliere) e i dati statistici aij (i=1,..,56;j=1,..,16)i X N 56,K 15 Le K = 15 variabili qui sono rappresentate da 15 gruppi di attività (primarie) esaustivi di tutte le attività giornaliere avendo impiegato la stessa classifica dell’ISTAT pubblicate nelle tavole suddette. In particolare i 16 gruppi riguardano:: Cura della persona: K1 dormire (DOR), K2=mangiare (MAN), K3= altra cura di sé (ALCUR); K4= lavoro retribuito (LRE); K5= istruzione e formazione professionale (IST); lavoro non retribuito:: K6= lavoro domestico (LDO); K7= cure familiari (CURF); K8= acquisti (ACQ); K9= attività di volontariato (VOL); tempo libero: K10 = vita sociale (VITS); K11= sport (SPORT); K12= lettura (LETT), K13=tv e video (TV); K14= giochi (GIOC) ; K15= spostamenti (SPT) c) e i dati aij (i=1,…,56; j=1,…,15) in questo caso sono costituiti da intensità , numeri reali, durate medie, in ore e minuti per ciascuna delle attività considerate. NOTA: In particolare occorrerà poi, dato il formato internazionale scelto dall’ISTAT per l’indicazione delle durate ossia il formato in ore:minuti (es. 9:39) che è una ‘stringa’ anziché un numero reale, occorrerà procedere ad un ulteriore codifica ‘a posteriori’ per trasformare idati in minuti o in ore e decimi di ora. 3^ fase Caso di studio B Le codifiche a posteriore del caso di studio B: l’uso del tempo in un giorno festivo di diverse categorie di popolazione • Dai dati ISTAT iniziali (1^ fase: doc.stat. di partenza) in formato excel relativa ai bilanci del tempo di un giorno festivo di 56 categorie di popolazione già nella 2^ fase si è creata la matrice di intensità o dati quantitativi (v.pg.105) : ricodificando i dati espressi in ‘stringhe’ ore:minuti in dati espressi in minuti primi , inoltre è stata effettuata la ‘quadratura’ a 1440 minuti = 24 ore delle somme per riga delle durate medie generiche (Mg)di tutte le attività. • Pertanto nella 3^ fase si sono calcolate solo le prime statistiche univariate della matrice dei dati di intensità X(N=56,K=15) riportate a pg.106. Caso di studio B 3^ fase Le statistiche univariate della matrice di intensità X(N=56,K=15) dei bilanci del tempo (pg.106) Le statistiche univariate della matrice XN=56,K=15 dei bilanci del tempo \\\\\\\\\\\ MEDIA MAX MIN DOR MAN \\\\\\\\\\\ MEDIA MAX MIN W σ σ2 CV CV% LR ISTR LDO ACQ 144,07 341,66 345,69 119,05 155,32 47,37 662 146 151 526 312 320 76 503 74 73 0 0 44 27 159 72 78 526 312 276 49 37,09756832 80,74493729 358,9052938 85,02119896 90,87872996 81,98042169 11,54426651 1303,034439 6519,744898 128813,0088 7228,604273 8258,943559 6720,789541 133,2700893 0,02 0,56 1,05 0,24 0,76 0,52 0,24 2 56 105 24 76 52 42 W σ σ2 CV CV% ALCUR 577,53 CURF VOL VITS SPOR LETT TV GIOC SPT 85,98 60,82 112,01 117,26 66,87 150,55 108,12 98,69 220 106 197 143 92 209 134 148 0 2 59 69 40 103 69 62 220 104 138 74 52 106 65 86 42,44975647 23,75477933 35,81275265 16,13170245 10,87602622 29,98685405 11,6366706 21,38834766 1801,981824 564,2895408 1282,553253 260,231824 118,2879464 899,2114158 134,6450893 457,4614158 0,49 0,39 0,31 0,13 0,16 0,19 0,1 0,21 49 39 31 13 16 19 10 21 NOTA: Le statistiche univariate della 3^ fase dimostrano una forte variabilità nella durata media dedicata alle 15 attività dalle 56 categorie di popolazione pertanto come tabella dei dati è preferibile scegliere la matrice dei dati standardizzati Z Z N=56,K=15 5^ fase dell’AMD: scelta di una misura di rassomiglianzadissomiglianza tra le u.s. • • Data la matrice di dati quantitativi: N \ X X 1 X 2 ... X j ... X k 1 x11 x12 ... x1 j ... x1k 2 x21 x22 ... x2 j ... x2 k ... ... ... ... ... ... X n ,k ... i xi1 xi 2 ... xij ... xik i' xi '1 xi '2 ... xi ' j ... xi ' k N xN 1 xN 2 ... xNj ... xNk se si vogliono avere delle misure di rassomiglianza o dissomiglianza tra tutte le possibili coppie (n n) di unità statistiche rispetto ai k caratteri contemporaneamente considerati (vettori-riga xi R k ) occorre scegliere una misura che fornisca la distanza (diversità) o la vicinanza (somiglianza) tra due vettori-riga. Esistono molte misure a seconda delle prorietà possedute e del livello di misurazione dei caratteri con i quali ciascuna di esse è compatibile. La scelta tra le diverse misure è legata alla struttura S posseduta dalla tabella dei dati considerata e le misure con essa compatibili. Una prima distinzione tra le diverse misure di rassomiglianza/dissomiglianza tra u.s. è comunque quella tra DISTANZE (diversi indici) per le variabili e SIMILARITA’(diversi indici) per le mutabili. La matrice che contiene tutte le distanze per tutte le coppie di u.s. è la matrice delle distanze Dn ,n • • I principali tipi di tabelle dei dati (4^fase dell’AMD) e le diverse misure di rass./dissom. fra u.s. (5^fase dell’AMD: la scelta della metrica): V. M.Fraire pagg.94 per le proprietà degli indici e 95 per la tabella) Tabella dei dati (4^ fase dell’AMD) Misura di rass./dissom. tra unità (5^fase dell’AMD) Tabella d’intensità o dati quantitativi (variabili) Distanze: Minkowski (semplici e ponder.) Mahalanobis Indici di diversità: Lance e Williams ecc. Tabelle di contingenza Distanze: Minkowski (semplici e ponder.) Indici di distanza: distanze del ² Tabelle di descrizione logica (booleane) Distanze: Minkowski (semplici e ponder.) Hamming Indici di distanza: distanze del ² Indici di similarità: Sokal e Michener Russel e Rao Jaccard ecc. Tabelle dei ranghi Distanze: Minkowski (semplici e ponder.) Rizzi Indici di diversità: ’ di Sperman (*) ’ di Kendall (*) (*)corretti affinchè varino tra 0 e 1 anziché tra –1 e +1 l’Analisi Esplorativa Multidimensionale dei Dati: Cluster Analysis per l’individuazione di tipologie di popolazione nell’uso del tempo (giorno feriale) 5^ 6^ scelta della distanza e di almeno 3 metodi di cluster analysis gerarchica aggregativa e Es. metodi gerarchici aggregativi: legame medio, ward Distanza: euclidea e per Ward quadrato della distanza euclidea 7^ Scelta della partizione P a n°? cluster risultata più significativa nel confronto tra i metodi gerarchici impiegati. LE X? TIPOLOGIE FINALI DI POPOLAZIONE attraverso il metodo NON GERARCHICO delle K-medie (sulla tabella dei dati non standardizzati) i baricentri dei cluster e le unità statistiche in ciascuno di essi: trovare le ‘etichette’ (tipologie) dei cluster 7^ Agglomeration schedule (software SPSS) 7^fase Percorso n.1 : OUPUT SPSS dei Risultati La Cluster Analysis e i dendrogrammi dei metodi gerarchici P 4 P 3 P 3 7^fase Il metodo non gerarchico delle kmeans (output SPSS) I baricentri dei 3 clusters (il vettore delle medie dei clusters): le 3 tipologie di bilancio del tempo Number of Cases in each Cluster. Cluster unweighted cases weighted cases 1 2 3 13,0 14,0 13,0 13,0 14,0 13,0 0 40,0 40,0 Missing Valid cases 7^ • • • • • • • • • • • La Cluster Analysis: i bilanci del tempo tipici e le tipologie finali Cl1:‘Junior & Senior’ Cl2: ‘Gli stakanovisti’ Cl3:’Home Sweet Home’ Cluster n.1:"Junior & Senior“ N = 13 categorie di popolazione 1CM65+1CF65+2CM65+3CM65+3CF65+4CM14-244CM65+4CF14244CF65+ 5CM14-245CM65+5CF14-245CF65+ Baricentro, Bilancio del tempo tipico del Cluster 1 (in ore e decimi di ora: CUR 10,7 ;PAS 1,9; IST1,3; LRE1,3; LNR2,6; PAR0,1; ATL2,4; ASP0,2; LET0,4; TV2,3; SPO0,8. Totale24 ore Cluster n.2: "Gli stakanovisti“ N = 15 categorie di popolazione 1CM14-24;1CM25-44;1CM45-64;1CF14-24; 1CF25-44; 2CM14-24; 2CM25-44; 2CM45-64; 3CM14-24; 3CM25-44; 3CM45-64; 4CM2544; 4CM54-64; 5CM25-44; 5CM45-64 Baricentro, Bilancio del tempo tipico del Cluster 2 (in ore e decimi di ora: CUR 9,4; PAS1,4; IST0,4; LRE6,1; LNR1,2; PAR0,1; ATL2,2; ASP0,2; LET 0,3; TV 1,5; SPO1,2.Totale24 Cluster n.3: "Home sweet home“ N = 12 categorie di popolazione 1CF45-64; 2CF14-24; 2CF25-44; 2CF45-64; 2CF65+; 3CF25-44; 3CF45-64; 3CF65+; 4CF25-44; 4CF45-64;5CF25-44; 5CF45-64 Baricentro, Bilancio del tempo tipico del Cluster 3 (in ore e decimi di ora: CUR9,4; PAS1,7; IST0,1; LRE2,1; LNR6,4; PAR0,1; ATL1,8; ASP0 ;LET0,2;TV1,7;SPO0,5.Totale24 7^fase Cluster Analysis: Le tipologie finali di bilanci del tempo costruire con Excel le tipologie finali Att. e opin. Degli studenti nei confronti della statistica: Un caso di studio per l’analisi in componenti principali (ACP) e le scale di Likert Il caso di studio n.2 A: Atteggiamenti e opinioni degli studenti nei confronti della statistica Caso di studio A 1^ fase La documentazione statistica di partenza: è un questionario • La definizione della popolazione P • • • N = 260 studenti frequentanti corsi di Statistica Fac.Soc.-Roma Sapienza a.a.2006-07 • P • • • • K = 52 modalità-risposta (caratteri) derivanti dalle Q = 44 domande del questionario di indagine Le rilevazioni sono state effettuate tramite metodo diretto per questionario di indagine composto di Q = 44 domande, parzialmente precodificate e trasposte poi nella 2^ fase dell’AMD nella matrice dei dati iniziali AN 260,K 52 • tramite il software Excel per un totale di K= 52 modalità risposta. Att&OpSt.xls • Le rilevazioni sono state effettuate rispettivamente nel 19/10/2006 e 13/3- 19/4/2007 La documentazione statistica di partenza: 1^fase Caso di studio A 1^ fase dell’Analisi dei Dati Rilevazione a.a.2006-2007 Studenti del corso di Questionario N.|_|_|_|_|_| Università degli Studi di Roma ‘La Sapienza’ – Facoltà di Sociologia STATISTICA (SECS-S/01) - Prof.ssa Mary Fraire Indagine sugli atteggiamenti e sulle opinioni nei confronti della statistica ICERCA La presente indagine è anonima ed è fatta esclusivamente per motivi di studio metodologico-statistico. Essa è inalizzata a sperimentare nuovi strumenti di valutazione degli studenti nei confronti dell’apprendimento di una disciplina - qui in particolare della statistica - nella consapevolezza del legame esistente tra l’apprendimento oncettuale e gli aspetti emotivi dell’apprendimento.I risultati oltre ad essere comunicati a rilevazione ultimata on saranno utilizzati per altri fini. ► Il questionario è anonimo ma se sarai disponibile ad una II^ rilevazione metti qui il tuo NICKNAME (e conservalo da qualche parte ad es. sul cellulare): ____________________ 1. A quale Corso di laurea e Facoltà appartenevi? 1. Vecchio ordinamento – Fac. Soc. di _Roma_________ 2. Corso di laurea triennale : SOCIOLOGIA - Fac. Soc. di _Roma 3. Corso di laurea triennale : STESS- Fac. Soc. di _Roma 4. Corso di laurea triennale : GORU- Fac. Soc. di _Roma 5. Corsi di laurea magistrali (specificare ):________________________ _________________________ 6. Altra Facoltà e Corso di laurea (specificare): 2. __________________________________ Anno di immatricolazione, anno di laurea, voto di laurea: 1.Anno immatric._____ 2. Anno laurea_______ 3. Voto di laurea:____ 3. Sei stato iscritto prima in altra/e Facoltà? 1. No 2. Si Se sì quale/i (specificare):_____________________________________ 4. Vuoi indicare in poche parole quale o quali motivazioni ti hanno spinto a frequentare un Dottorato anziché altri tipi di formazione post-laurea (master ecc.)? 1. No 2. Non so 3. Si Se sì quale/i (specificare):_________________________________ ___________________________________________________________________________ ___________________________________________________________________________ 5. Genere 1. Maschio 2. Femmina 6. Età (in anni compiuti) : _______ 7. Maturità conseguita: 1. Classica 2. Scientifica 3. Tecnico 4. Professionale 5. Socio-pedagogico e magistrale 5. Altro (specificare): _____________________ 8. Quale è stato il voto di diploma? _______ 1^fase Caso di studio A 9. Quale è la tua condizione occupazionale? 1. Studente 2. Lavoratore senza contratto 3. Lavoratore occasionale o saltuario 4. Lavoratore parasubordinato (a progetto) 5. Lavoratore dipendente (assunzione a tempo indeterminato) 6. Lavoratore autonomo 7. Disoccupato (lavorava in precedenza) 8. Altro (specificare): ___________________________________ Ora segue una batteria di affermazioni per ciascuna delle quali puoi indicare un punteggio da 1 a 5 secondo l’intensità del tuo disaccordo o accordo con quanto affermato, impiegando la seguente scala: 1 Totale disaccordo 2 Raramente d’accordo 3 Qualche volta d’accordo 4 Spesso d’accordo 5 Totale accordo Rispondi liberamente assecondando la tua emotività nei confronti delle affermazioni che seguono. 14. Affermazioni di carattere generale: 1. Ho scelto questa facoltà per le materie trattate ………………….….. 2. Ho scelto la facoltà per i suoi sbocchi professionali …………….…… 3. Ho scelto questa facoltà su consiglio della famiglia …………….….… 4. Ho scelto la facoltà su consiglio di amici …………………….……….. 1 1 1 1 15. Affermazioni specifiche riguardanti la statistica 1. La statistica mi piace……………………………….……………… …. 1 2. Mi sento insicuro quando devo risolvere un problema di statistica ……………………………………… ..……. 1 3. Ho problemi a capire la statistica seguendo il mio modo di ragionare ………………………………………… …… 1 4. Le formule statistiche sono semplici da capire ………………… ..……. 1 5. La statistica è inutile ………………………………………………… .… 1 6. La statistica è una materia complicata …………………………… ….. 1 7. Il mio tirocinio professionale richiederà conoscenze statistiche … .…. 1 8. La conoscenza della statistica mi aiuterà a cercare lavoro ……… … 1 9. Non ho idea di come funzioni la statistica……………………………… 1 2 2 2 2 3 3 3 3 4 4 4 4 5 5 5 5 2 3 4 5 2 3 4 5 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 5 5 5 1^fase Caso di studioA 10. La statistica non è utile per le professioni comuni ……………… ….. 1 2 3 4 5 11. Mi sento frustrato quando devo affrontare un esercizio di statistica in classe………………………………………………. ………1 2 3 4 5 12. I ragionamenti statistici non sono applicabili nella vita quotidiana al di fuori del lavoro…………………………….………..1 2 3 4 5 13. Uso la statistica nella vita di tutti i giorni ………..……………………. 1 2 3 4 5 14. Mi sento stressato durante le ore dei corsi di statistica……………….…1 2 3 4 5 15. Mi diverte frequentare i corsi di statistica ……………………………….1 2 3 4 5 16. Le conclusioni statistiche si presentano raramente nella vita di tutti i giorni………………………………………………….…..….1 2 3 4 5 17. La statistica è una materia che la maggior parte delle persone apprende lentamente………………………………….………….1 2 3 4 5 18. Imparare la statistica richiede molta dedizione………………………….1 2 3 4 5 19. Nella mia professione non applicherò mai la statistica………………..…1 2 3 4 5 20. Faccio molti errori matematici in statistica …………………….………..1 2 3 4 5 21. La statistica mi spaventa…………………………………………….…….1 2 3 4 5 22. La statistica comporta molti calcoli……………………………………….1 2 3 4 5 23. Riesco ad imparare la statistica…………………………………………...1 2 3 4 5 24. Capisco le formule statistiche………………………………………..……1 2 3 4 5 25. La statistica è irrilevante per la mia vita……………………………..…..1 2 3 4 5 26. La statistica è particolarmente tecnica …………………………………..1 2 3 4 5 27. Trovo molto difficile comprendere i concetti statistici…………………..1 2 3 4 5 28. Molte persone devono imparare un nuovo modo di pensare per affrontare la statistica……………………………………..1 2 3 4 5 16. Hai studiato statistica e/o probabilità nella scuola superiore? 1. Sì 2. No 17. Come andavi a scuola in matematica ? (1 = molto male,…...,5 = molto bene). 1 2 3 4 5 18. Hai già sostenuto esami di statistica (ad es.statistica di base, statistica sociale statistica multivariata ecc.)? 1. No 2. Si Se sì quali e quale voto hai preso?: 1. ___________ 2. ____________ ►Eventuali osservazioni sul questionario 3. ____________ e la sua _____ _____ _____ compilazione: ____________________________________________________________________________________ ____________________________________________________________________________________ ____________________________________________________________________________________ Grazie per la collaborazione ! Richiamo sulle domande di opinione Le domande di opinione: un caso particolare di domande strutturate • Le domande di opinione sono un caso particolare di domande (strutturate) oggi molto impiegate nelle indagini demoscopiche, di mercato ecc. Definizione: Le domande di opinione sono domande nelle quali si chiede all’intervistato di esprimere la propria opinione (atteggiamento, sensazione ecc.) nei confronti di UNO o PIU’(‘batterie’) SOGGETTI (stimoli, item) - ad es. prodotti, personaggi, affermazioni, argomenti ecc. - per il quale o i quali l’intervistato potrà esprimere una VALUTAZIONE DI INTENSITA’ attraverso: • una SCALA VERBALE • una SCALA NUMERICA • una SCALA GRAFICA • o una combinazione di queste. (v. esempi pagg.45-51 in M.Fraire,A.Rizzi – Statistica. Metodi esplorativi e inferenziali, Carocci ed.) Cenni su le SCALE INDIRETTE o SCALING e le scale di Likert (v.box pagg.98-99 –Fraire, Rizzi, Analisi dei dati op.cit.)) • Le domande di opinione sono molto impiegate nello scaling ossia la costruzione di scale indirette per la misura delle opinioni, atteggiamenti (sensazioni=affective, opinioni=cognitive,comportamenti=behavioral) nei confronti di un dato argomento, o una batteria di items. • Tali scale sono dette ‘indirette’ perchè ottenute generalmente da ‘opportune’ combinazioni di due (o più) tipi delle 4 scale base (generalmente le scale ordinali o le scale d’intervalli o le dicotomie). • Le procedure mediante le quali si ottengono le scale indirette sono di molti tipi e talvolta assai complesse. • Si accenna soltanto ad esempio alle: • a) scale parzialmente ordinate ossia scale collocantesi tra le scale nominali e ordinali impiegando diverse tecniche non verificando completamente l’assioma dell’ordinamento : • -tecniche per somma; scale di Likert (ordina le unità=individui e non le variabili=items); -scalogramma di Guttmann ecc.; • Ecc. • b) scale ad ordinamento metrico: tecnica di Thurstone; punteggi fattoriali; optimal scaling ecc.) • I modelli di scaling si possono distinguere a seconda che siano mirati a scalare le persone o gli stimoli (items) o entrambi. • Nelle scale di Likert l’approccio è ‘subject-centered’ ossia solo gli individui hanno un punteggio e quindi sono ordinati.Nell’esprimere il suo livello di disaccordo-accordo con laffermazione ogni risposta ha un punteggio e il punteggio totale dell’individuo è ottenuto per somma dei valri di ciascuna risposta agli items. Caso di studio 2^ fase La codifica a priori o creazione del data set: matrice dei dati e dizionario delle variabili (codebook) • • • La matrice tabella inventario dei dati iniziali è una AN 260,K 52 Costruita in base alla codifica a priori = trasposizione di tutti i dati grezzi rilevati tramite questionario in una matrice NxK tramite la codifica indicata nel dizionario delle variabili o codebook. La matrice dei dati grezzi o tabella inventario AN 260, K 52 N K1-Nick K2-CdLK3-Altro K4-AnnoImmK5-IscrAK6-ltrQaFacualeFac K7-TestOrK8-Quale K9-GenereK10-Eta K11-TitStudK12-AltroTiKt13-VotoDiKp14-OccupK15-AltraCoOc K16-Af GMat K17-Af GSbPr K18-Af GFami 1 999 2 2005-2006 1 2Psicol. 2 20 2 79/100 1 5 2 3 2 999 2 2006-2007 1 1 2 20 3 96/100 8Stud.&Lav.in nero 4 3 1 3 acbe2 2005-2006 1 1 1 34 5 40/60 5 4 1 1 4 999 2 2005-2006 1 1 2 20 5 72/100 8Stud&Disoccup. 4 3 1 5 999 4 2005-2006 1 1 1 20 2 70/100 1 4 2 1 6 agat2 a 2004-2005 2lingue e let stran. 1 2 41 6linguist. 56/60 5 5 3 1 7 bebba4 2005/2006 1 1 2 24 3 76/100 4 5 5 1 8 999 2 2003/2004 1 1 1 26 6itc 48/60 5 5 2 1 9 999 3 2004/2005 1 1 1 22 1 65/100 1 4 4 3 10 999 2 2004/2005 2laurea med chir 1 2 60 1 8 decimi 8pensionata 5 1 1 … … 260………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………. Caso di studio 2^ fase A CASO DI Studio A:Att&OpSt La codifica a priori o creazione del data set: A:.matrice dei dati B:.dizionario delle variabili (codebook) • La matrice tabella inventario dei dati AN 260,K 52 iniziali è una [aij codici ; valori _ numerici ] Dato statistico: Costruita in base alla codifica a priori = trasposizione di tutti i dati grezzi rilevati tramite questionario in una matrice NxK tramite la codifica indicata nel dizionario delle variabili o codebook. NON HA NESSUNA STRUTTURA • La matrice dei dati grezzi o tabella inventario AN 260, K 52 (in formato .xls) dell’indagine sull’atteggiamento e opinione degli studenti nei confronti della statistica file: Att&OpSt.xls • • V01-N°Quest V02-Nick V03-CdL 1 999 2 999 3 acbe 4 999 5 999 6 agata 7 bebba 8 999 9 999 10 999 11 rosablu 12 999 13 999 14 999 15 999 16 999 17 999 18 999 19 999 20 999 21 999 22 999 23 me 24 999 25 999 26 999 27 999 28 999 29 999 30 999 31 sango 32 feffa 33 999 34 999 35 999 36 999 37 999 38 999 39 999 40 999 41 statistica 42 999 43 999 44 999 V04-Altro 2 2 2 2 4 2 4 2 3 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 4 2 2 2 1 2 2 4 2 2 2 2 4 2 2 V05-AnnoImmV06-IsAltrFac V07-QualeFac V08-TestOr V09-Quale 2005-2006 1 2 Psicologia 2006-2007 1 1 2005-2006 1 1 2005-2006 1 1 2005-2006 1 1 2004-2005 2 lingue e lett straniere 1 2005/2006 1 1 2003/2004 1 1 2004/2005 1 1 2004/2005 2 laurea med chir 1 1999/2000 1 1 2006/2007 1 1 2006/2007 2 sci della formaz 1 2006/2007 1 2 logopedia 2006/2007 1 1 2006/2007 1 1 1999/2000 2 econ e comm 1 2003/2004 2 sci politiche 1 2006/2007 1 2 psicologia 2006/2007 1 1 2004/2005 1 1 2006/2007 1 1 2004/2005 1 1 2004/2005 2 lettere e filo 1 2004/2005 1 1 2004/2005 2 acc. Mil-aeron 1 2006/2007 1 1 2003/2004 1 1 2004/2005 1 1 2006/2007 1 2 psicologia 2003/2004 1 1 2004/2005 2 farmacia 2 medicina 2006/2007 2 999 1 1999/2000 1 2 psicologia 2006/2007 1 1 2006/2007 2 2 2006/2007 1 1 2005/2006 1 1 2006/2007 1 1 2006/2007 1 1 2004/2005 1 2 psicologia 2006/2007 1 2 logopedia 2004/2005 1 1 999 1 2 psicologia V10-Genere V11-Eta V12-TitStu 2 20 2 2 20 3 1 34 5 2 20 5 1 20 2 2 41 6 2 24 3 1 26 6 1 22 1 2 60 1 2 42 4 1 19 1 2 20 5 2 19 5 1 24 4 2 18 2 1 30 3 2 26 1 2 20 6 2 19 5 2 20 2 2 45 4 2 21 6 2 24 5 2 21 2 1 26 1 2 47 3 1 23 2 2 45 3 2 37 6 2 22 2 2 22 2 1 999 1 2 27 3 1 20 2 2 19 1 1 19 2 2 20 2 1 19 2 1 20 2 2 22 5 2 19 5 1 21 2 2 19 3 2^ fase Il dizionario delle variabili o codebook (in formato excel) v.pag.86-88 Fraire, Rizzi, Analisi deiDati, op.cit. Carattere Modalità Unita statistiche Nickname Corso di Laurea (D01) N° questionario nick Vecchio Ordinamento CdL Trienn.: Sociologia CdL Trienn.:STESS CdL Trienn.:GORU CdL Magistr Altra Fac o CdL AltroCdLFac Anno accademico No Sì nome facoltà No Sì nome facoltà Maschio Femmina età Maturità classica Maturità scientifica Istituto Tecnico Istituto Professionale Istituto Socio-pedagogico e mag. Altro titolo Altro voto Studente Lavoratore senza contratto Lavoratore occasionale o saltuario Lavoratore parasub. (a progetto) Lavoratore dipendente Lavoratore autonomo Disoccupato Altro Anno immatricolazione (D02) Precedente Iscriz. In altra facoltà(D03) Facoltà precedente iscrizione (D03) Se ha fatto test di orient.presso altre fac.(D04) Presso quale facoltà(D04) Genere(D05) Eta(D06) Titolo di studio(D07) Titolo di studio(D07) Voto di diploma (D08) Condizione occupazionale (D09) Altra condiz.occupaz. Ho scelto questa fac.per le materie trattate(D14.1) Ho scelto la facoltà per i suoi sbocchi professionali (D14.2) Ho scelto questa facoltà su consiglio della famiglia (D14.3) Ho scelto la facoltà su consiglio di amici (D14.4) La statistica mi piace (D15.1) Totale disaccordo Raramente d'accordo Qualche volta d'accordo Spesso d'accordo Totale accordo Totale disaccordo Raramente d'accordo Qualche volta d'accordo Spesso d'accordo Totale accordo Totale disaccordo Raramente d'accordo Qualche volta d'accordo Spesso d'accordo Totale accordo Totale disaccordo Raramente d'accordo Qualche volta d'accordo Spesso d'accordo Totale accordo Totale disaccordo Raramente d'accordo Qualche volta d'accordo Spesso d'accordo Caso di studi oA Codice modalità 001-125 dato testuale 1 2 3 4 5 6 dato testuale dato testuale 1 2 dato testuale 1 2 dato testuale 1 2 in anni compiuti 1 2 3 4 5 6 dato testuale in 100 o 30 o 10 1 2 3 4 5 6 7 8 dato testuale 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 mutabile sconnessa mutabile sconnessa da codificare mutabile ordinata ordinata mutabile logica (booleane, variabile dicotomi mutabile connessa-nessuan struttura algebri mutabile logica (booleane, variabile dicotomi mutabile connessa-nessuan struttura algebri mutabile sconnessa variabile (continua)-struttura algebr. mutabile connessa-nessuan struttura algebri da codificare variabile (discreta)-struttura algebrica mutabile connessa-nessuan struttura algebri da codificare variabile discreta-struttura algebrica variabile discreta-struttura algebrica variabile discreta-struttura algebrica variabile discreta-struttura algebrica variabile discreta-struttura algebrica 3^ fase AMD • • • • • • • Caso di studio Le codifiche a posteriori di 3^ fase del caso di studio considerato: -Codifiche di TIPO I: - Divisione in classi di variabili cardinali: nel caso considerato l’età rilevata è in anni compiuti. Le classi di età scelte sono state tre: 18-25; 26-30;oltre 30. Codifiche di TIPO II - Ricodifica del voto di diploma in votazioni tutti in /100 essendo stati forniti alcuni anche in /60 e /10 - Riorientamento degli items delle scale di atteggiamenti visto che gli items della scala di atteggiamenti consistono in una serie di affermazioni-stimoli concernenti la statistica, sia positivi ossia che definiscono un atteggiamento positivo nei confronti della statistica ( “la statistica mi piace” , “mi diverte frequentare i corsi di statistica” e così via) ; che negativi ossia denotanti un atteggiamento negativo nei confronti della statistica ( “la statistica è inutile”, “mi sento insicuro quando devo risolvere un problema di statistica”, ecc.). Occorre allora riorientare questi items in modo che si possa identificare un punteggio 5 con un atteggiamento sempre positivo, indipendentemente dall’item che si sta analizzando e ad un punteggio 1, un atteggiamento sempre negativo, indipendentemente dall’item che si analizza. In sintesi, a prescindere dall’item preso in considerazione, un punteggio basso coincide con un atteggiamento negativo nei confronti della statistica e un punteggio alto con un atteggiamento positivo I missing value ovvero le mancate risposte, che appaiono nella matrice con il codice 999. In questo caso si è deciso ad esempio di sostituire i missing con la media della serie, cioè con il valore medio dell’item preso in considerazione ma sarebbe preferibile la mediana 3^ fase Caso di studio A (segue) Caso di studio A: Att&OpSt le codifiche a posteriori. 1 Codifica di tipo I: Il riorientamento degli items Quindi, per tutti gli items che denotano un atteggiamento positivo, es.” la statistica mi piace”,il punteggio è rimasto invariato, ovvero: 1= totale disaccordo, 2=raramente d’accordo, 3=qualche volta d’accordo, 4=spesso d’accordo, 5=totale accordo. Per quegli items, invece, cosiddetti negativi, es. “la statistica è inutile” il punteggio è stato invertito, e si avrà: 1=totale accordo, 2=spesso d’accordo, 3=qualche volta d’accordo, 4=raramente d’accordo, 5=totale disaccordo. In sintesi, a prescindere dall’item preso in considerazione, un punteggio basso coincide con un atteggiamento negativo nei confronti della statistica e un punteggio alto con un atteggiamento positivo . Codifica di tipo I: I missing value I missing value ovvero le mancate risposte, che appaiono nella matrice con il codice 999. In questo caso si è deciso ad esempio di sostituire i missing con la media della serie, cioè con il valore medio dei punteggi dati all’item preso in considerazione mentre sarebbe più giusto sostituire con la mediana (opzione generalmente non disponibile nei software) trattandosi di distribuzioni molto asimmetriche e quindi la mediana rappresenta meglio il valore medio della distribuzione. Caso di studio A 3^ fase Tra le codifiche della 3^ fase: importanti anche le prime statistiche descrittive ( v.pag.103-104 Fraire, Rizzi, op.cit). Figura 9: Statistiche descrittive dei 32 intems sugli atteggiamenti e opinioni nei confronti della statistica: media aritmetica,mediana, moda, s.q.m., varianza, asimmetria Mean Median Mode Std. Deviation Variance Skewness V27AffSpec. 'La statistica mi piace' 14,15 3,00 3 106,616 V28V29AffSpec AffSpec V30'Mi sento 'Ho AffSpec.' insicuro problemi Le quando a capire formule devo la stat. statistiche sono ris.proble secondo il mi di mio modo semplici stat.' di rag.' da capire' 14,92 25,86 29,40 4,00 3,00 3,00 5 3 3 106,536 149,860 V32AffSpec. V31'La AffSpec.'La statistica è statistica è una materia inutile' complicata' 13,0 11,13 1,00 4,00 1 3 V33AffSpec.'Il mio tirocinie profess. richiede conoscenze di stat.' 18,43 3,00 3 161,595 106,730 87,152 122,815 11366,965 11349,885 22458,138 26112,966 9,199 9,199 6,389 5,879 11391,196 9,200 7595,396 11,333 15083,566 7,919 4^ fase Caso di studio A Caso di studio A: Att&OpSt La scelta della tabella dei dati • La tabella dei dati scelta , in forma non standardizzata, è una matrice di punteggi avente struttura algebrica di spazio vettoriale . • La tabella dei dati X(N=260; K=32+3) ha 32 variabili attive (4 item generici e 28 item specifici, v. quest.pg.79-80) e • 3variabili illustrative: genere, titolo di studio, condizione professionale) in cui sono state effettuate rispetto alla matrice dei dati iniziali A(N=260, K=52)le codifiche a posteriori di 3^ fase sopra indicate (riorientamento degli items negativi delle scale di atteggiamenti, missing values). La tabella dei dati, in forma non standardizzata, dell’indagine sugli 4^fase ‘Atteggiamenti e opinioni degli studenti nei confronti della statistica’ riguardante N=260 studenti , 28 items come variabili attive e 3 variabili illustrative (genere, titolo di studio,”come andavi a scuola in matematica”?) X N 260,K 283 NUM QUES V1 V2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 3 3 3 3 3 3 3 3 2 3 3 2 3 1 1 2 3 5 4 3 3 5 3 3 4 4 3 3 3 3 2 2 4 2 ----- V27 V28 4 5 4 2 4 4 4 3 4 1 5 2 2 2 3 5 4 4 5 5 5 5 3 3 3 4 1 5 3 4 4 5 3 4 ……. … …. … …. …… . …… . 250 251 252 253 254 255 256 257 258 259 260 3 5 3 1 3 4 2 2 1 3 5 4 4 3 4 5 4 3 4 4 4 5 5 5 3 4 5 5 3 4 2 3 5 3 4 3 2 2 4 3 3 2 3 2 V54 …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. 3 3 3 4 5 4 2 2 2 1 3 2 4 3 3 3 2 …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. …….. 3 4 3 2 3 3 2 3 1 2 3 Gen ere Tit. Stud 2 2 1 2 1 2 2 1 1 2 2 1 2 2 1 2 2 2 3 5 5 2 6 3 6 1 1 4 1 5 5 4 2 2 Come andavi a scuola n mat?. 1 8 5 8 1 5 4 5 1 8 5 1 1 1 1 1 1 1 2 1 2 2 2 2 2 2 2 2 2 2 1 1 1 3 3 1 5 2 6 1 1 1 1 1 6 1 1 1 1 1 … …. Caso di studi o 6^fase AMD Variabili attive: i 28 items mediante l’ACP si individuano le dimensioni sottostanti l’atteggiamento degli studenti nei confronti della statistica Tabella 3: Matrice degli autovalori : Figura 4: Scree plot Autovalori Valori assoluti 10,293 3,453 1,893 1,383 1,277 1,011 % varianza 36,761 12,332 6,760 4,939 4,561 3,611 Scree Plot %cumulata 36,761 49,093 55,853 60,792 65,354 68,964 12 10 8 Eigenvalue Componen ti Principali CP1 CP2 CP3 CP4 CP5 CP6 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Component Number Dalla matrice dei pesi fattoriali (factor loadings) si interpretano le CP scelte, nel caso di studio considerato si individuarono: CP1: “UTILITA’ E UTILIZZO”, CP2: “SFORZO E SODDISFAZIONE” CP3:“MOTIVI E-MOTIVI” La matrice dei pesi fattoriali (factor loadings)7^ fase dei risulta o correlazioni variabili originarie-CP OUTPUT -Numerici Tabella 5.5 : La matrice delle correlazioni variabili originarie (32 item)/ CP. Il caso di studi o A consi dera to Items V23-AffGener.'Ho scelto la Fac.per le materie trattate' V24-AffGener.'Ho scelto la Fac.per sbocchi profess.' V25-AffGener.'Ho scelto la Fac.su consiglio famiglia' V26-AffGener.'Ho scelto la Fac.su consiglio amici' CP1 CP2 CP3 ,117 ,647 -,236 ,079 ,597 ,734 ,067 ,583 ,755 ,010 ,379 ,841 V27-AffSpec. 'La statistica mi piace' ,140 ,618 -,142 ,629 ,596 -,350 ,493 ,572 -,068 ,453 ,331 -,318 ,108 ,499 -,303 ,629 ,596 -,351 ,441 ,251 ,178 ,475 ,575 ,056 ,116 ,598 -,350 ,787 -,184 ,026 ,681 -,186 -,039 V28-AffSpec 'Mi sento insicuro quando devo ris.problemi di stat.' V29-AffSpec 'Ho problemi a capire la stat. secondo il mio modo di rag.' V30-AffSpec.'Le formule statistiche sono semplici da capire' V31-AffSpec.'La statistica è inutile' V32-AffSpec. 'La statistica è una materia complicata' V33-AffSpec.'Il mio tirocinie profess. richiede conoscenze di stat.' V34-AffSpec.'La conoscenza della stat. mi aiuterà a cercare lavoro' V35-AffSpec. 'Non ho idea di come funzioni la statistica' V36-AffSpec.'La statistica non è utile per le professioni comuni' V37-AffSpec.'Mi sento frustrato quando devo affrontare un esercizio di statistica' - grafici NOTA: 1) le correlazioni variabili-fattori (pesi fattoriali) delle CP dovrebbero essere al di sopra di |0.3-0.4| affinché le variabili originarie (items) possano essere considerate misure ‘parallele’ (CONSISTENTI) della stessa variabile concettuale NOTA 2) Il quadrato dei pesi fattoriali rappresenta, per riga, la quota di varianza della variabile originaria spiegata da ciascuna componente principale (la somma di tutte le CP è uguale ad 1 essendo gli autovettori normalizzati.) (segue)La matrice dei pesi fattoriali (factor loadings) o correlazioni variabili originarie-CP(pag.199-201) V37-AffSpec.'Mi sento frustrato quando devo affrontare un esercizio di statistica' V38-AffSpec.'I ragionamenti statistici non sono applicab, nella vita quotidiana' V39-AffSpec. 'Uso la statistica nella vita di tutti i giorni' V40-AffSpec. 'Mi sento stressato durante le ore dei corsi di statistica' V41-AffSpec. 'Mi diverte frequentare i corsi di statistica' V42-Aff.Spec.'Le conclusioni stat. si presentano raramente nella vita quotidiana' V43-AffSpec. 'La statistica è una materia che la maggior parte ' V44-AffSpec. 'Imparare la statistica richiede molta dedizione' V45-AffSpec. 'Nella mia profess. non applicherò mai la statistica' V46-AffSpec. 'Faccio molti errori matematici in statistica' V47-AffSpec. 'La statistica mi spaventa' V48-AffSpec. 'La statistica comporta molti calcoli' V49-AffSpec. 'Riesco ad imparare la statistica' V50-AffSpec. 'Capisco le formule statistiche' V51-AffSpec.'La statistica è irrilevante per la mia vita' V52-AffSpec. ' La statistica è particolarmente tecnica' V53-AffSpec.'Trovo molta difficoltà ad esprimere i concetti statistici' V54-AffSpec. 'Molte persone devono imparare un nuovo modo di pensare ' ,681 -,186 -,039 ,617 -,163 ,006 ,309 -,241 ,087 ,763 -,202 -,020 ,619 -,117 ,129 ,630 -,169 ,020 ,368 -,139 ,140 ,632 -,128 ,130 ,705 -,068 ,126 ,639 -,170 -,058 ,359 -,266 ,106 ,940 -,199 ,037 ,716 ,762 -,072 -,201 ,010 -,038 ,940 -,199 ,039 ,611 -,078 ,100 ,494 -,171 -,068 ,838 -,082 ,137 Il caso di studio A considerat o 7^ fase OUTPUT dei risultati: -Numerici - grafici NOTA: 1) le correlazioni variabili-fattori (pesi fattoriali) delle CP dovrebbero essere al di sopra di |0.3-0.4| affinché le variabili originarie (items) possano essere considerate misure ‘parallele’ (CONSISTENTI) della stessa variabile concettuale NOTA 2) Il quadrato dei pesi fattoriali rappresenta, per riga, la quota di varianza della variabile originaria spiegata da ciascuna componente principale (la somma di tutte le CP è uguale ad 1 essendo gli autovettori normalizzati.) 7^ fase OUTPUT dei risultati: -Numerici - grafici Il caso di studio considerato Ouput ACP: Plot dei pesi fattoriali nello spazio delle prime 3 CP (pag.199) Component Plot 1,0 C o m p 2 w nt ab f g x y 1 5 2o h 6 e s rj u ,5 0,0 i 3 p d klq c m z 4 v -,5 1,0 ,5 0,0 C omp -,5 1 0,0 -,5 3 Comp ,5 1,0 Ouput ACP(SPSS): Plot dei pesi fattoriali sul piano delle prime due CP spiegano il 46,029% della varianza totale originaria 7^ fase (λ 1=32,493+λ2=13,536=46,029) OUTPUT dei risultati: Il caso di studio considerato -Numerici - grafici Per migliorare l’interpretazione si può effettuare una “rotazione degli assi principali”. Ci sono due tipi di rotazioni: ortogonali (es. varimax, quartimax) e oblique (es.oblimin). Le tre variabili sintetiche CP1= Utilità e utilizzo , CP2= Sforzo e soddisfazione CP3= Motivi e-Movivi N 001 002 003 .. .. .. .. .. .. .. .. .. .. . .. .260. CP1Va rima x Utilità &Utilizzo -0,25805 -0,12924 -0,12734 -0,12228 -0,12134 -0,12154 -0,77755 -0,11656 -0,12163 -0,72957 -0,12283 -0,11811 -0,12265 0,88896 -0,25955 -0,12162 0,75587 -0,1209 -0,12023 -0,11897 0,7898 -0,11496 0,79273 -0,11695 -0,25776 -0,35265 0,5686 -0,11951 -0,15468 -0,14936 0,16727 -0,14677 0,24747 Caso di studi oA CP2: CP3-Motivi e -Motiv Sforz o e Soddisfa z -0,124 -0,16602 1,83581 -0,16531 -0,10518 -0,16025 -0,10031 -0,15943 -0,10585 -0,16153 -0,10418 -0,15961 -0,1032 -0,16545 -0,10315 -0,1615 -0,10412 -0,15968 -0,10289 -0,1573 -0,10265 1,44942 -0,1071 -0,15639 -0,10681 -0,15826 -0,1092 -0,15488 -0,10457 -0,1598 -0,10893 -0,16119 -0,44551 0,58586 -0,10624 -0,1712 -0,0278 -0,60441 -0,1058 -0,16052 -0,91683 -0,15698 -0,10214 -0,15249 -0,38169 -0,45756 -0,09955 -0,16184 -0,10438 -0,15887 -0,10223 -0,16465 -0,43954 -0,15954 -0,10352 -0,15481 -0,17308 -0,10013 -0,09213 -0,06903 -0,09583 -0,08887 -0,08767 -0,0839 -0,08397 -0,08499 -0,08756 -0,06717 NOTA: nell’ambito delle fasi dell’analisi dei dati tale output è rappresentato dal feedback dall’output dei risultati alla ‘nuova’ tabella dei dati: Caso di ACP nello spazio delle unità: studio Esempi di utilizzo delle nuove variabii sintetiche A variabili illustrativa scelta: dom.5-Genere Variabile sintetica CP1: Utilità e utilizzo secondo il genere Genere Non utile o non utilizzerò Qualche volta utile o utilizzerò Utile e/o utilizzerò Totale N. Maschio 57 Femmina 127 Totale 184 % 80,3% 67,2% 70,8% N. 0 9 9 ,0% 4,8% 3,5% N. 14 53 67 % 19,7% 28,0% 25,8% N. 71 189 260 % 100,0% 100,0% 100,0% % Variabile sintetica CP2: Sforzo e soddisfazione secondo il genere Genere Con sforzo o insoddisfazione N. Maschio 27 % 38,0% 40,6% 39,9% Qualche volta con sforzo e soddisfazione N. % 10 19 29 14,1% 10,2% 11,2% N. 34 92 126 % 47,9% 49,2% 48,8% N. 71 187 258 % 100,0% 100,0% 100,0% Senza sforzo e con soddisfazione Totale Femmina 76 Totale 103 Variabile sintetica CP3: Motivi e-Motivi secondo il genere Genere Mi sento insicuro, ho problemi N. Maschio 54 Femmina 114 Totale 168 % 76,1% 60,3% 64,6% A volte mi piace a volte sono insicuro N. 4 16 20 5,6% 8,5% 7,7% N. 13 59 72 % 18,3% 31,2% 27,7% N. 71 189 260 % 100,0% 100,0% 100,0% Mi piace, non ho problemi Totale % La percezione sociale dell’insicurezza urbana: Un caso di studio per l’analisi in componenti principali (ACP) delle corrispondenze multiple e gli indici sintetici Il caso di studio 3: • La QUALITA’ DELLA VITA NELLE REGIONI ITALIANE • Un ESEMPIO emblematico di fenomeno complesso e del ruolo dell’AMD • La costruzione di INDICI SINTETICI ‘OTTIMALI’ per la GRADUAZIONE MULTIDIMENSIONALE DI UN FENOMENO COMPLESSO: Un’applicazione alla Qualità della Vita (QdV) delle regioni italiane Elementi importanti percorribili con l’AMD nella costruzione degli indici sintetici: • La struttura multidimensionale: dimensioni latenti’ (es. nell’ACP) i ‘fattori o o le tipologie politomiche (nell’ACM, CA) • La teoria ausiliaria alla misurazione empirica percorribile con l’AMD • L’attendibilità delle misure empiriche ottenute • Un feedback ‘non indifferente’ sulla ‘validità’ della definizione concettuale : migliorare la definizione del fenomeno complesso!!!! La formalizzazione del problema da analizzare: un esempio di fenomeno sociale complesso: la QdV dal punto di vista macro-sociale QdV delle 20 regioni italiane Approccio: MACROSOC. OGGETTIVO DESCRITT. Es.: Comparazione della QdV nelle 20 regioni italiane Aspetti o dimens. rilev. (social areas): A)socio-demogr. B)sanitaria C)lavoro e occup. D)sicurezza sociale E)stress, disagio soc. F)benessere econ. G)cultura e t.l. Indicatori empirici (indic.soc.oggettivi): A) X1 : indvecch (-) X2 : e0 ,e x (in anni)(+) B) X3 : mortinf (-) X4 : plpubb(+) X5: tuplpubb(+) C) X6 : nflineta (-) X7 : flpop (+) X8 : disocc.(-) D) X9:delpers(-) X10 :incstrad(-) E) X11 : suicidi (-) F) X12 : PIL (+) X13 : autopriv (+) G) X14 : consricr (+) X15 : abbtvpr (+) X 16: laureati (+) … X17………………. X18: 20,18 Matrice dei dati iniziali: X 20,18 X1 X 2 ..X j .. X18 01Pie \ x1,1 x1,2 ..x1, j .. x1,18 02Vad x2,1 x2,2 ..x2, j .. x2,18 N\X ... ... ... ... ... ... x ... 20Sar x20,1 x20,2 20, j x20,18 Matrice d’intensità o dati quantitativi ( variabili) [struttura algebrica di spazio vettoriale] •Esiste un gap tra concetti e misure empiriche non colmabile con la logia del certo, regole uniche: ma assume rilevanza l’esplicitazione del processo logico-concettuale di passaggio dai concetti alle misure empiriche: l’operazionalizzazione della definizione teorica. Non ci soffermiamo qui su tale argomento che irguarda il vasto argomento degli ‘indicatori sociali’. La formalizzazione del problema da analizzare: un esempio di fenomeno sociale complesso: la QdV dal punto di vista soggettivo-percettivo QdV degli individui Approccio: MICROSOC: SOGG. PERCETT. Es.: Inchiesta (survey) sulla QdV. Campione prob. di n = 500 indiv. Aspetti della vita (life domains): Indicatori empirici (soggettivi-percett.) ITEM:”Pensando agli ultimi dodici mesi, quanto 01)salute 02)matrimonio si ritiene insoddisfatto o 03)governo soddisfatto 04)amicizie dei seguenti aspetti 05)abitazione che 06)svago e t.l. hanno riguardato 07)lavoro la sua vita? 08)rapp.di Quale numero si vicin. 09)sit.econ.pers. avvicina di più a ciò che sente?” 10)istruzione 1 2 3 4 5 6 7 tot. insod. indiff. Matrice dei dati iniziali A 5001 ,0 K IT1 IT2 .....IT10 N-----------------------001 5 4 6 002 7 6 7 ..... ......................... 500 4 5 4 tot. sodd. Matrice dei punteggi (considerando solo le var.attive)[struttura algebrica di spazio vettoriale] La base dei dati per la costruzione dei 18 indicatori della QdV Fonte dei dati:ISTAT – Compendio statistico italiano - anno 1993 e le Regioni in cifre 1993 ed hanno riguardato i seguenti indicatori oggettivi-descrittivi dei quali si indicano i numeratori e denominatori dei rapporti statistici impiegati ricordando che sono riferiti alle regioni : X1 = INDVECCH pop.65anni e oltre/Pop. In età 0-14 × 100 nel 1991 X2 = EOM vita media (n° di anni) alla nascita dei maschi (nel 1984-88) X3 = EOF vita media (n° di anni) alla nascita delle femmine maschi (nel 1984-88) X4 = MORTINF n.morti 1°anno di vita/Nati-vivi x 1000× nel 1991 X5 = PLPUBB n.posti letto ospedal.pubbl./pop.resid.regione × 1000 abit. X6 = TUPLPUBB tasso di utilizzazione media dei posti letto pubblici: [tot.giornate di degenza per tutti i ricoveri avvenuti nell’anno/n°posti letto × 365] ×100 X7= NFLINETA non forze di lavoro (studenti, casalinghe, pensionati e ritirati dal lavoro altre categ.non profess.) maschi in età lavorativa(18-65 anni)/ totale non forze di lavoro maschili × 100 X8 = FLPOP forze di lavoro (occupati + in cerca) sul totale popolazione × 100 X9 = DISOCC n. in cerca di lavoro/tot.forze di lavoro × 100 X10 = DELPERS n.delitti contro la persona / pop.resid. regione× 100.000 X11 = INCSTRAD n.morti per incid.strad / n.infortunati per inc.strad. × 100 X12 = AUTO n.autovetture ad uso privato /pop.resid.regione × 100 X13 = SUICIDI n.suicidi /pop.resid.regione × 100.000 X14 = PIL prodotto interno lorod per ab. in lire correnti 1989 X15 = CONSALIM spese in lire per cons. alimentari/tot.spese per consumi delle famiglie × 100 X16 = CONSRICR spese per consumi ricreativi(esclusa l’istruzione)/tot. spese per cons. Delle famiglie × 100 X17=ABBTVPRI n.abbon.tv /n.famiglie × 100 X18=LAUREATI n.laureati /pop.resid.da 6 anni ed oltre nel 1981 la costruzione di indici sintetici ‘ottimali’ per la graduazione multidimensionale (ad es.della QdV delle regioni italiane) • • • • • • • • • • Tra gli scopi per i quali può essere impiegata l’ACP di particolare interesse per la ricerca ‘applicata’ è la costruzione di indici sintetici (composite indices) e variabili sintetiche (composite variable, index, scale indirette) Un indice sintetico può essere definito come una misura unica, un unico valore numerico ottenuto, per ciascuna unità statistica iN del collettivo considerato, tramite diversek possibili procedure j K statistiche (tecniche di scaling) consistenti in ‘opportune’ combinazioni, non necessariamente lineari, dei caratteri originari che denomineremo qui anche ‘indicatori ‘(semplici) costituenti la descrizione completa (vettore-riga) di ciascuna unità statistica. L’insieme di tutti gli indici composti per tutte le N u.s. costituiscono le ‘determinazioni’ di una variabile sintetica semplice (composite variable, index) La misurazione sintetica di fenomeni complessi riveste particolare utilità per la ricerca applicata consentendo tramite la variabile sintetica : - confronti di fenomeni multivariati nel tempo e nello spazio non altrimenti possibili - l’inserimento della variabile sintetica come variabile statistica semplice in modelli complessi (regressione multipla, path analysis ecc.) Affinchè tuttavia gli indici sintetici e le variabili sintetiche abbiano effettivo carattere di operatività devono essere costruiti con criteri di ottimalità dal punto di vista statistico e di carattere oggettivo al fine di consentire una chiara interpretazione concettuale dell’indice sintetico ottenuto e disporre di una misura della sua attendibilità (reliability). Gli indici sintetici calcolati con l’ACP che qui considereremo sono di due tipi: a) single factor solution; b) secondo il segno della prima componente (A.Rizzi) Un esempio di matrice di dati quantitativi: La matrice X N 20, K 18 dei 18 Indicatori oggettividescrittivi della QdV (approccio macro-sociale, ecologico) delle 20 Regioni Italiane.Anno 1991.(*) Fonte: M.Fraire – Metodi di AMD – CISU pagg.66-69. Gli indicatori sono stati costruiti con dati presi da ISTAT Compendio Statistico Italiano.Anno 1993 e le Regioni in cifre 1993 La QdV nelle regioni italiane nel 1991: Analisi in Componenti Principali (ACP): output dei risultati N Lo spazio delle variabili R La matrice degli autovalori Total Variance Explained Total 9,700 2,183 1,679 1,265 1,086 ,520 ,392 ,318 ,249 ,181 ,150 ,139 5,599E-02 3,033E-02 2,313E-02 1,905E-02 5,933E-03 9,276E-04 Scree Plot Extraction Sums of Squared Loadings Total % of Variance Cumulativ e % 9,700 53,891 53,891 2,183 12,129 66,021 1,679 9,330 75,351 1,265 7,029 82,380 1,086 6,036 88,416 ,520 2,891 91,306 ,392 2,179 93,486 ,318 1,765 95,251 ,249 1,383 96,634 ,181 1,008 97,642 ,150 ,834 98,476 ,139 ,772 99,248 5,599E-02 ,311 99,559 3,033E-02 ,168 99,728 2,313E-02 ,128 99,856 1,905E-02 ,106 99,962 5,933E-03 3,296E-02 99,995 9,276E-04 5,153E-03 100,000 Eigenvalue Component 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Init ial Eigenv alues % of Variance Cumulativ e % 53,891 53,891 12,129 66,021 9,330 75,351 7,029 82,380 6,036 88,416 2,891 91,306 2,179 93,486 1,765 95,251 1,383 96,634 1,008 97,642 ,834 98,476 ,772 99,248 ,311 99,559 ,168 99,728 ,128 99,856 ,106 99,962 3,296E-02 99,995 5,153E-03 100,000 Extraction Method: Principal Component Analy sis. Component Matrixa 10 8 6 4 2 0 1 3 2 5 4 7 6 9 8 11 10 13 12 15 14 17 16 18 Component Plot Component Number 1,0 laureati Matrice dei pesi fattoriali = correlazioni variabilifattori) Extraction Method: Principal Component Analy sis. Component 2 IndVECCH EOM EOF MortInf PLPubb TUPLPubb NFLinEta FLPop Disoc c DelPers IncSt rad AutoPriv Suicidi PIL ConsAlim ConsRicr AbbTVPriv Laureat i Component 1 2 ,803 ,357 -, 392 ,560 ,546 ,288 -, 721 ,526 ,721 8, 434E-03 ,674 -7,53E-02 ,820 ,228 ,871 -8,21E-02 -, 960 5, 330E-02 ,377 ,186 -, 446 -, 687 ,891 ,135 ,800 -, 279 ,939 2, 347E-02 -, 848 ,119 ,862 -, 106 ,796 -2,72E-02 6, 512E-02 ,828 12 mortinf eom ,5 indvecch eof nfl ineta delpers autopri v pil plpubb abbtvpriv tupl pubb fl pop consri cr consali m disocc 0,0 sui cidi -,5 incstrad -1,0 -1,0 -,5 Component 1 0,0 ,5 1,0 La matrice completa dei pesi fattoriali (correlazioni indicatori-CP) Component Matrixa IndVECCH EOM EOF MortInf PLPubb TUPLPubb NFLinEta FLPop Disocc DelPers IncStrad AutoPriv Suicidi PIL ConsAlim ConsRicr AbbTVPriv Laureati 1 ,803 -, 392 ,546 -, 721 ,721 ,674 ,820 ,871 -, 960 ,377 -, 446 ,891 ,800 ,939 -, 848 ,862 ,796 6,512E-02 2 ,357 ,560 ,288 ,526 8,434E-03 -7,53E-02 ,228 -8,21E-02 5,330E-02 ,186 -, 687 ,135 -, 279 2,347E-02 ,119 -, 106 -2,72E-02 ,828 3 4 5 6 7 ,120 ,176 ,207 -8,81E-02 ,323 ,519 ,203 -, 387 -3,06E-02 8,869E-02 ,697 -5,25E-02 -, 226 9,578E-02 5,822E-03 -7,17E-02 -, 127 ,191 ,259 ,138 ,349 -, 274 ,404 -9,01E-02 -2,13E-02 -, 387 ,318 -, 273 ,259 ,208 -, 213 ,164 ,193 -, 114 ,105 -6,79E-02 3,481E-03 -, 406 8,880E-02 -, 102 -1,07E-02 ,132 7,429E-02 -, 117 8,878E-02 ,174 ,649 ,487 ,161 -, 297 ,224 8,943E-02 9,968E-02 ,442 9,871E-02 -, 155 ,164 -, 250 -5,44E-02 -, 173 3,949E-03 ,434 2,973E-02 -, 104 ,145 -, 245 -, 141 -5,98E-02 6,438E-02 -6,32E-02 8,149E-02 ,384 -9,90E-02 -2,52E-02 2,527E-02 2,700E-03 -, 276 ,176 4,915E-02 ,167 ,502 -, 180 -2,58E-02 ,145 -3,72E-02 -, 400 -, 180 6,393E-02 ,250 -7,05E-02 Extraction Method: Principal Component Analy sis. a. 18 components extracted. 8 9,621E-02 -9,79E-02 7,849E-02 -6,43E-02 -, 192 -, 227 ,334 8,816E-02 -3,12E-02 -5,72E-02 ,160 -1,58E-02 -, 139 6,782E-02 ,155 -4,09E-02 3,280E-02 1,138E-02 Component 9 10 4,598E-02 -3,96E-02 ,129 5,515E-02 -, 120 -, 124 ,133 ,141 -, 168 ,168 -, 178 5,085E-02 -9,08E-02 5,020E-02 ,115 9,118E-03 -1,77E-02 -, 154 9,349E-02 -3,29E-02 7,849E-03 -1,10E-02 8,066E-02 5,428E-02 3,140E-03 -7,90E-02 4,481E-02 9,407E-02 -5,85E-02 ,211 ,279 -2,86E-02 -7,25E-02 2,132E-02 -, 113 -, 140 11 3,854E-03 ,173 -, 171 -7,07E-02 1,542E-03 -2,65E-03 8,435E-02 -, 120 3,805E-02 -2,14E-02 ,106 ,107 -4,58E-02 2,216E-02 -, 143 -6,42E-02 ,110 2,275E-02 12 8,014E-02 1,093E-02 8,449E-03 3,071E-02 ,111 -, 124 -7,57E-02 5,764E-02 -2,61E-02 -7,04E-02 ,130 9,939E-02 ,133 4,414E-02 -9,37E-03 -, 115 -, 148 8,436E-02 13 -2,01E-03 4,071E-02 1,800E-02 -7,98E-02 7,469E-02 4,419E-02 2,984E-02 3,479E-02 9,728E-03 1,772E-02 4,222E-02 2,004E-02 -, 106 -6,88E-02 3,524E-03 7,142E-02 -, 119 1,445E-02 14 1,195E-02 7,825E-03 -4,06E-02 -7,38E-02 3,513E-03 -1,61E-02 -5,03E-02 -1,87E-02 -2,73E-03 -1,03E-02 5,517E-03 -7,73E-03 2,249E-02 1,159E-02 9,282E-02 5,829E-02 4,257E-02 7,219E-02 15 -6,04E-02 4,914E-02 -2,44E-02 -1,49E-03 2,085E-02 -1,41E-02 4,970E-02 5,368E-02 -7,97E-03 2,437E-03 -1,56E-03 -8,27E-02 5,287E-02 -1,11E-03 -1,17E-02 3,304E-03 -5,25E-03 2,436E-02 16 -6,63E-02 2,793E-03 4,454E-02 1,585E-02 7,231E-03 -1,22E-03 3,038E-02 -4,64E-02 4,915E-02 -1,04E-02 1,133E-02 4,139E-02 3,087E-02 4,098E-02 1,750E-02 4,153E-02 -1,57E-02 1,399E-03 17 -9,79E-04 -1,39E-02 -1,27E-02 1,574E-02 1,503E-02 -7,52E-04 5,458E-03 3,531E-02 4,138E-02 -5,32E-03 3,468E-04 2,159E-02 1,883E-03 -2,89E-02 7,681E-03 1,777E-03 2,662E-02 2,769E-03 18 5,749E-03 1,992E-03 -6,04E-04 -3,24E-03 3,648E-03 2,500E-03 -4,78E-03 6,360E-03 1,579E-02 3,658E-03 9,920E-06 -8,09E-03 -6,80E-03 1,994E-02 -9,91E-05 -3,61E-03 -1,05E-03 -3,28E-03 La QdV nelle regioni italiane nel 1991: ACP: output dei risultati Lo spazio delle variabili R K: LA ROTAZIONE DEGLI ASSI: ROTAZIONE QUARTIMAX Component Matrixa a Rotated Component Matrix Component 1 2 IndVECCH ,803 ,357 EOM -,392 ,560 EOF ,546 ,288 MortInf -,721 ,526 PLPubb ,721 8,434E-03 TUPLPubb ,674 -7,53E-02 NFLinEta ,820 ,228 FLPop ,871 -8,21E-02 Disocc -,960 5,330E-02 DelPers ,377 ,186 IncStrad -,446 -,687 AutoPriv ,891 ,135 Suicidi ,800 -,279 PIL ,939 2,347E-02 ConsAlim -,848 ,119 ConsRicr ,862 -,106 AbbTVPriv ,796 -2,72E-02 Laureati 6,512E-02 ,828 Component 1 2 IndVECCH ,808 ,347 EOM -,385 ,565 EOF ,550 ,281 MortInf -,713 ,536 PLPubb ,721 -1,13E-03 TUPLPubb ,673 -8,42E-02 NFLinEta ,823 ,217 FLPop ,870 -9,37E-02 Disocc -,959 6,602E-02 DelPers ,380 ,181 IncStrad -,455 -,681 AutoPriv ,893 ,123 Suicidi ,796 -,290 PIL ,939 1,101E-02 ConsAlim -,846 ,130 ConsRicr ,861 -,118 AbbTVPriv ,796 -3,78E-02 Laureati 7,610E-02 ,827 Extraction Method: Principal Component Analy sis. a. 2 components extracted. Extraction Method: Principal Component Analysis. Rotation Method: Quartimax with Kaiser Normalization. a. Rotation converged in 3 iterations. Component Plot Component Plot in Rotated Space 1,0 1,0 laureati mortinf laureati eom mortinf ,5 eof delpers indvecch nfl ineta autopri v pil plpubb abbtvpriv tupl pubb fl pop consri cr consali m disocc 0,0 eom ,5 indvecch eof nfl ineta delpers autopri v pil plpubb abbtvpriv tupl pubb fl pop consri cr consali m disocc 0,0 sui cidi Component 2 -,5 incstrad -1,0 -1,0 -,5 sui cidi 0,0 ,5 -,5 incstrad -1,0 1,0 -1,0 -,5 0,0 ,5 1,0 Interpretazione dei risultati Dagli autovalori e lo ‘scree-plot’ emergono due dimensioni sottostanti la QdV per la loro ‘interpretazione ‘ occore esaminare le le correlazioni variabili-fattori (pesi fattoriali) della CP1 sono tutte al di sopra di 0.3-0.4 quindi le variabili originarie (indicatori semplici) possono essere considerate misure ‘parallele’ (CONSISTENTI) della stessa variabile concettuale (QdV); Considerando il quadrato dei pesi fattoriali si dispone della misura del grado di attendibilità di ciascun indicatore per ciascuna componente principale (Nota:somma dei quadrati per colonna = autovalore della CP considerata = varianza totale spiegata dalla CP) altrimenti sommando per riga i quadrati dei pesi fattoriali si ottiene la quota di varianza di ciascuna variabile originaria (indicatore) spiegata dalle p<<K CP scelte (Nota: se si considerano tutte le CP ossia p=k=18 si otterrebbe 1 ossia il 100% della variabilità originaria è spiegata dalle nuove variabili CP ciò perché il metodo impiegato è l’ACP trasformazione esatta delle variabili originarie) solo la prima CP è risultata tuttavia interpretabile (anche dopo aver effettuato una rotazione ortogonale) perche troppo pochi indicatori sono correlatiti con la seconda CP: ciò significa che occorre ritornare alla scelta degli indicatori che possano rappresentare la seconda dimensione. Esaminando gli indicatori fortemente correlati con la prima CP essa potrebbe essere interpretata come ‘benessere duale’ o ‘asse dello sviluppo socio-economico duale’ in un contesto economicamente sviluppato, per quanto riguarda la costruzione dell’INDICE SINTETICO della QdV esistono due diversi metodi di sintesi mediante l’’ACP: A) SINGLE FACTOR SOLUTION B) SEGNO DELLA PRIMA COMPONENTE (di A.Rizzi) Facendo riferimento al metodo della single factor solution si potrà calcolare l’indice solo rispetto alla prima CP perché è la sola ‘interpretabile’ e che spiega il 53,9% della varianza totale o inerzia della nuvola dei punti originaria. (l’indice di Bentler, 1968 misura l’attendibilità dell’index) Facendo riferimento al secondo metodo del segno della prima componente potrà essere calcolato un unico indice sintetico senza necessità di interpretare le singole componenti ed utilizzando tutti gli indicatori quindi spiegando il 100% della varianza delle variabili originarie. Caso di studio QdV L’indice sintetico con l’ACP output Lo spazio delle unità per quanto riguarda la costruzione dell’’INDICE SINTETICO (factor score) esistono due diversi metodi: A) single factor solution si potra calcolare l’indice solo rispetto alla prima CP perché è la sola ‘interpretabile’ e che spiega il 53,9% della varianza totale o inerzia della nuvola dei punti originaria. B) secondo il segno della prima componente (Rizzi) Secondo metodo segno della prima componenti (di A.Rizzi) potrà essere calcolato un unico indice sintetico senza necessità di interpretare le singole componenti ed utilizzando tutti gli indicatori Caso di studio QdV Esempio di costruzione di un indice sintetico ‘ottimale’ per graduare le 20 regioni italiane secondo 18 indicatori della QdV contemporaneamente considerati (graduazione multidimensionale) (v.par.3.5.4. Pagg.189-209 in M.Fraire, Metodi di AMD, CISU) a) INDICE SINTETICO CON IL METODO DELLA SINGLE FACTOR SOLUTION Le fasi di costruzione dell’indice sintetico sono: Si esegue l’ACP e si interpretano i risultati: - le correlazioni variabili-fattori (pesi fattoriali) della CP1 sono tutte al di sopra di 0.3-0.4 quindi le variabili originarie (indicatori semplici) possono essere considerate misure ‘parallele’ (CONSISTENTI) della stessa variabile concettuale (QdV); - solo la prima CP è risultata tuttavia interpretabile (anche dopo aver effettuato una rotazione ortogonale) ad es. come ‘benessere duale’ o ‘asse dello sviluppo socio-economico duale’ in un contesto economicamente sviluppato, quindi l’indice sintetico potrà, usando uno dei due metodi proposti fare riferimento solo alla prima CP che spiega il 53,9% della varianza totale o inerzia della nuvola dei punti originaria; - si calcolano quindi tramite il package statistico impiegato : - la matrice dei coefficienti dei punteggi fattoriali (component score coefficients matrix) (standardizzati) w - l’indice sintetico f per ciascuna unità statistica (es. regione) che sarà dato dalla combinazione delle variabili originaria in forma standardizzata (z) per i pesi w della matrice: CP1 f i CP1 z i ,1 w1CP1 zi , 2 w2CP1 ... z i ,18 w18 Un caso di studi o QdV Un esempio di indice sintetico ottenuto con ACP: la QdV dal punto di vista macro-sociale (v.par.3.5.4 pag.189 in M.Fraire,Metodi di AMD.ed.CISU,op.cit.) Nel caso di calcolo degli indici sintetici con la single factor solution si avrebbe ad es. il seguente QdVIndex riferito alla sola prima CP1 del caso di studio QdV nelle 20 regioni italiane tramite 18 indicatori oggettivi-descrittivi, ed avente come pesi WK , K i coefficienti dei punteggi fattoriali contenuti nella matrice (component score coefficients matrix - standardizzati) calcolata nell’ACP. wij QdV INDEX: graduatoria (multidimensionale)in ordine decrescente Matrice dei dati (standardizzati) Pesi o punteggi fattoriali z11 z12 z z 22 (1) 21 F1 Z 20,18 w18 .. .. z N1 z N 2 fi CP1 z w CP1 i ,1 1 zi , 2 w CP1 2 .. z1k w .. z 2 k w .. .. .. .. z Nk w18CP1 CP1 1 CP1 2 ... z w CP1 i ,18 18 VAD 1. 29218 FVG 1. 20723 EMR 1. 11141 LI G . 85261 LOM . 79183 VEN . 77007 TAA . 75339 TOS . 63678 PI E . 61753 MAR . 27440 UMB . 24679 LAZ - . 08691 ABR - . 17280 MOL - . 47679 SAR - . 75536 PUG - 1. 11073 BAS - 1. 11242 SI C - 1. 37286 CAL - 1. 71080 CAM - 1. 75555 Calcolo dell’indice sintetico per l’i-esima u.s. = regione Un caso di studi o QdV output 4^fase La matrice degli indici sintetici (punteggi fattoriali o componenziali) (la variabile sintetica QdV Index) Regioni PI E VAD LOM TAA VEN FVG LI G EMR TOS UMB MAR LAZ ABR MOL CAM PUG BAS CAL SI C SAR ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... FAC1_1 . 61753 1. 29218 . 79183 . 75339 . 77007 1. 20723 . 85261 1. 11141 . 63678 . 24679 . 27440 - . 08691 - . 17280 - . 47679 - 1. 75555 - 1. 11073 - 1. 11242 - 1. 71080 - 1. 37286 - . 75536 FAC2_1 - . 63923 - 1. 28443 - . 27115 - 1. 57839 - . 89988 - . 77798 1. 77597 . 42351 . 89436 1. 11363 1. 20435 1. 99822 . 50786 - . 93188 - . 22392 - . 71540 - . 54815 - . 10178 . 29584 - . 24154 FAC3_1 - . 61270 - 1. 18524 - . 84616 . 00314 . 18581 - . 00769 - . 20394 - . 01533 . 72878 1. 12010 1. 18162 - 1. 84236 1. 05054 . 65914 - 2. 24691 1. 00620 . 85332 . 44183 - . 93885 . 66871 FAC4_1 . 90523 2. 26569 - . 66206 - 1. 46441 - 1. 76845 . 04097 . 51951 - . 73106 - . 39192 1. 95676 - . 50070 - . 82496 - . 19699 . 87553 - . 00069 - . 71018 . 53238 . 07413 - . 04677 . 12798 FAC5_1 - . 06538 - 1. 68908 . 65433 - . 35701 . 05590 2. 53545 1. 71131 - . 92678 - . 82301 . 59043 - 1. 32724 - . 96019 . 33494 . 09057 . 29933 . 44065 - . 53810 - . 02821 . 69530 - . 69322 FAC6_1 . 38673 - . 44248 . 78317 . 28711 - . 38577 - 1. 27173 - . 15153 . 27654 - 1. 22462 . 78966 - . 56641 1. 27033 . 25395 2. 31285 - . 44412 1. 73513 - 1. 19754 - . 64002 - . 85924 - . 91203 FAC7_1 . 16360 - . 01647 - 1. 22166 - . 26726 - . 26428 - . 70030 2. 30393 2. 01073 . 30508 - 1. 72710 - . 32051 - 1. 17410 - . 86866 1. 00387 . 48360 . 45925 . 38213 . 36381 - . 32406 - . 59162 FAC8_1 1. 77179 - 1. 28043 1. 18831 - 1. 17833 . 26708 . 19127 - . 47191 - . 12313 . 83388 . 12072 - . 11424 . 03834 - . 91032 . 00978 . 98965 - . 47867 . 53660 . 99153 - 2. 64102 . 25909 FAC9_1 1. 16542 - . 75802 1. 91194 - . 23514 - . 75745 - . 93066 - . 87649 1. 33503 . 04553 . 24032 . 25998 - 1. 29986 . 35446 - . 27125 - . 45041 - . 66092 . 86518 - . 18120 1. 83919 - 1. 59564 FAC10_1 - . 14768 1. 01236 . 36593 - . 32661 . 41731 - . 66067 . 41741 - . 36254 - . 75017 . 40427 1. 52667 - 1. 25777 . 80554 - 1. 83266 1. 52348 1. 71449 - . 70579 . 02095 - . 92679 - 1. 23775 FAC11_1 1. 44445 . 42179 - . 79651 - 1. 36346 - . 30686 . 86911 - . 59259 . 10122 . 70327 - . 88065 - . 85471 1. 10121 . 08362 - 1. 26794 - 1. 24567 2. 34770 . 75192 - . 44283 . 39693 - . 46999 FAC12_1 1. 03417 - . 25464 - 1. 54788 . 92907 - . 90370 . 95290 - 1. 03049 . 97708 - . 03522 . 47983 . 43700 . 05041 - . 05662 - . 25194 - . 04320 - . 26297 - 2. 13617 2. 25289 . 19946 - . 78998 FAC13_1 - . 92136 . 54042 - . 68190 - 1. 83724 2. 57453 . 19577 - . 79528 . 51580 - . 02637 . 31801 - . 57076 . 31605 . 85320 . 90819 . 06512 - . 80996 . 21294 . 78134 . 10673 - 1. 74522 FAC14_1 - 1. 79371 . 40810 . 77126 . 28081 - . 83420 1. 15901 - . 23445 - . 11282 - . 07151 . 20310 1. 18306 . 66610 - 2. 37074 . 30531 - . 40792 . 58655 1. 25168 . 80403 - . 22603 - 1. 56764 FAC15_1 - . 31876 . 12035 . 06079 . 71517 - 1. 11953 . 47180 . 24841 . 77114 - 1. 85554 - . 64491 - . 52682 . 86396 2. 16731 - . 66860 - . 25945 - . 76606 1. 70474 . 74981 - 1. 41287 - . 30093 FAC16_1 - . 78363 . 90063 1. 86161 - . 83953 . 23230 - . 72534 . 60875 . 35028 - . 36750 - . 34978 - 1. 06536 - . 23193 - . 30459 - . 73441 - 1. 52819 . 39715 - 1. 10128 2. 20793 . 19459 1. 27829 Matrice iniziale degli indicatori X(N=20,K=18) ; La matrice dei punteggi fattoriali FAC1-FAC18 che sono automaticamente messi in ‘coda’ alla matrice. Andranno copiati e incollati in un foglio Excel per costituire una nuova ‘tabella dei dati’ da analizzare. NOTA: nell’ambito delle fasi dell’analisi dei dati tale output è rappresentato dal feedback dall’output dei risultati alla ‘nuova’ tabella dei dati: FAC17_1 - 1. 21528 - . 23802 . 01478 - . 92943 - . 41437 . 93526 - 1. 20537 2. 66383 - . 59569 1. 04049 - . 42614 - . 32660 - . 39806 - . 38202 1. 02934 . 54973 - . 24228 - 1. 14514 - . 19999 1. 48497 FAC18_1 1. 39467 - . 47669 - . 65885 - . 35443 1. 44499 - . 11838 . 48057 . 21157 - 2. 82820 . 34518 1. 32148 . 32132 - 1. 39085 - . 39229 - . 80961 - . 26289 . 53727 - . 02998 . 53257 . 73257 Un caso di studi o QdV output La matrice dei pesi componenziali = punteggi fattoriali (factor scores coefficient matrix) wK j ( j 1,2,.., kCP; k 1,2,.., kVar.Orig.) CP Component Score Coefficient Matrix IndVECCH EOM EOF MortInf PLPubb TUPLPubb NFLinEta FLPop Disocc DelPers IncStrad AutoPriv Suicidi PIL ConsAlim ConsRicr AbbTVPriv Laureati 1 ,083 -,040 ,056 -,074 ,074 ,070 ,085 ,090 -,099 ,039 -,046 ,092 ,082 ,097 -,087 ,089 ,082 ,007 2 ,164 ,256 ,132 ,241 ,004 -,034 ,105 -,038 ,024 ,085 -,315 ,062 -,128 ,011 ,055 -,049 -,012 ,379 3 ,072 ,309 ,415 -,043 ,208 -,230 -,127 -,040 -,006 ,104 ,134 -,092 ,002 -,146 ,049 ,002 ,299 -,238 Extraction Method: Principal Component Analy sis. Component Scores. 4 ,139 ,160 -,041 -,101 -,217 ,252 ,130 ,003 ,105 ,513 ,071 ,130 ,343 -,112 ,304 -,218 -,142 -,142 5 ,190 -,356 -,208 ,176 ,372 -,252 ,178 -,374 ,068 ,449 ,092 -,230 ,027 -,055 -,091 ,162 -,024 ,059 6 -,169 -,059 ,184 ,497 -,173 ,498 -,220 ,171 -,225 ,310 ,849 -,104 -,200 ,124 -,048 ,094 ,279 ,481 7 ,823 ,226 ,015 ,352 -,054 ,531 ,267 -,261 ,226 -,758 ,252 -,440 ,370 -,161 ,064 ,426 -,095 -,180 8 ,303 -,308 ,247 -,202 -,604 -,715 1,051 ,277 -,098 -,180 ,504 -,050 -,437 ,213 ,486 -,129 ,103 ,036 Component 9 10 ,185 -,218 ,518 ,304 -,483 -,686 ,534 ,776 -,676 ,925 -,713 ,280 -,365 ,277 ,463 ,050 -,071 -,849 ,376 -,181 ,032 -,061 ,324 ,299 ,013 -,435 ,180 ,518 -,235 1,161 1,119 -,158 -,291 ,118 -,452 -,771 11 ,026 1,155 -1,137 -,471 ,010 -,018 ,562 -,797 ,253 -,142 ,706 ,714 -,305 ,148 -,953 -,427 ,733 ,151 12 ,577 ,079 ,061 ,221 ,798 -,893 -,545 ,415 -,188 -,507 ,937 ,716 ,960 ,318 -,067 -,831 -1,066 ,607 13 -,036 ,727 ,321 -1,424 1,334 ,789 ,533 ,621 ,174 ,316 ,754 ,358 -1,885 -1,229 ,063 1,276 -2,130 ,258 14 ,394 ,258 -1,340 -2,432 ,116 -,531 -1,658 -,616 -,090 -,341 ,182 -,255 ,741 ,382 3,060 1,922 1,403 2,380 15 -2,613 2,125 -1,053 -,065 ,901 -,608 2,149 2,321 -,345 ,105 -,067 -3,577 2,286 -,048 -,507 ,143 -,227 1,053 16 -3,482 ,147 2,338 ,832 ,380 -,064 1,595 -2,436 2,580 -,546 ,595 2,173 1,621 2,152 ,919 2,181 -,822 ,073 17 18 -,165 6,198 -2,340 2,148 -2,147 -,651 2,653 -3,490 2,533 3,932 -,127 2,695 ,920 -5,149 5,951 6,857 6,975 17,020 -,897 3,944 ,058 ,011 3,639 -8,716 ,317 -7,330 -4,877 21,500 1,295 -,107 ,299 -3,896 4,487 -1,133 ,467 -3,536 Un caso di studi o QdV Un indice di attendibilità (reliability) dell’indice sintetico ottenuto CON IL METODO A) SINGLE FACTOR SOLUTION. Impiegando il metodo di sintesi dell’ACP è possibile calcolare un indice di attendibilità (reliability) dell’indice sintetico ottenuto. Calcolo dell’attendibilità dell’indice sintetico ottenuto. Nel caso qui considerato di una ‘single factor solution’(*) l’indice statistico per la misura dell’attendibilità dell’indice sintetico è l’indice di Bentler, 1968 che varia tra 0 attendibilità nulla e 1 max attendibilità: k 1 18 1 1 1 0,950 k 1 1 18 1 9,700385 indicante un’elevata attrendibilità dell’QdV Index calcolato. indice sintetico ottenuto CON IL METODO B) SEGNO DELLA PRIMA COMPONENTE E’ possibile considerare anziché soltanto la prima CP tutte le k CP e farne una combinazione lineare con il segno della prima componente (Metodo di A.Rizzi) In tal caso andranno sommati dopo essere stati elevati al quadrato tutti i punteggi componenziali calcolati: in questo caso i 18 factore scores (che figurano ‘ in coda’ alla matrice dei dati con il software SPSS) elevati poi al quadrato e sommati dando poi il segno della prima componente e quindi ricalcolata la graduatoria delle regioni italiane. Il vantaggio di questo indice è che tiene conto di tutta l’informazione disponibile (la varianza totale della nuvola dei punti originaria). L’attendibilità dell’indice sintetico non va calcolata ed è del 100% considerando tutta la varianza totale delle variabili originarie. La graduatoria multidimensionale (in ordine decrescente) delle 20 regioni italiane in base al QdV index secondo due metodi. I° metodo: considerando solo la prima CP (single factor solution) VAD 1. 29218 FVG 1. 20723 EMR 1. 11141 LI G . 85261 LOM . 79183 VEN . 77007 TAA . 75339 TOS . 63678 PI E . 61753 MAR . 27440 UMB . 24679 LAZ - . 08691 ABR - . 17280 MOL - . 47679 SAR - . 75536 PUG - 1. 11073 BAS - 1. 11242 SI C - 1. 37286 CAL - 1. 71080 CAM - 1. 75555 II° metodo considerando il segno della prima componente (Metodo di A.Rizzi) EMR TAA UMB TOS CAL FVG LI G PI E LOM VEN MAR VAD BAS ABR MOL LAZ PUG SI C CAM SAR - 8. 7. 5. 4. 4. 3. 3. 2. 1. 1. 1. . -. -. 1. 1. 3. 4. 5. 6. 47647 76254 36685 82207 40829 36604 35641 38587 71779 70649 11569 66400 04643 25819 04453 37878 45905 68785 02512 34931 : Un caso di studio per la cluster analysis e l’analisi delle tabelle multiple MULTIWAY CASO DI STUDIO N.4 Analisi multidimensionale spazio-temporale della criminalità diffusa nei municipi di Roma Le matrici a tre indici per l’Analisi dei Dati a Tre Vie: 1^ fase AMD N = u.s.; K= caratteri O = occasioni Un esempio: La O MICROCRIMINALITA’ nei 19 Municipi di Roma dal 1999 al 2004 X NxK 4( anni) X 19( MunicipiRM), 5( delitti) DATI CUBICI a TRE MODI (N,K,O)e TRE INDICI (i,j,k) O X N ,K Il caso di studio statisticaesaminato di partenza: 1^fase dell’AMD La documentazione dati grezzi della microcriminalità della Polizia nei municipi di Roma: Questura di Roma Divisione Polizia Anticrimine Sezione Statistiche, Analisi e Proposte UFFICIO DI P.S. : Aurelio PERIODO DAL 02/01/2002 AL 01/01/2003 Delitti denunciati all'Autorità Giudiziaria dalla Polizia di Stato ed altri dati attinenti alla sicurezza pubblica SEZIONE PRIMA AVVENUTI N. OMICIDI DOLOSI CONSUMATI 1 PERS. DENUNCIATE di cui in Totale Roma scoperti 2 3 N. di cui di cui minori stranieri 4 5 6 PERSONE ARRESTATE N. 7 di cui di cui minori stranieri 8 9 1) a scopo di furto o rapina 2 0 0 0 0 0 0 0 0 0 2) per mafia camorra o 'ndrangheta 3 0 0 0 0 0 0 0 0 0 3) per motivo di onore o passionali 4 0 0 0 0 0 0 0 0 0 4) a scopo terroristico (Art. 280 C.P.) 5 0 0 0 0 0 0 0 0 0 5) per altri motivi 6 0 0 0 0 0 0 0 0 0 TOTALE da 1 a 5 7 0 0 0 0 0 0 0 0 0 Infanticidi 8 0 0 0 0 0 0 0 0 0 Omicidi preterintenzionali 9 0 0 0 0 0 0 0 0 0 Tentati omicidi 10 0 0 0 0 0 0 0 0 0 Omicidi colposi 11 0 0 0 0 0 0 0 0 0 Omicidi colposi da incidente stradale 12 0 0 0 0 0 0 0 0 0 Lesioni dolose 13 5 5 3 4 0 3 3 0 0 VIOLENZE SESSUALI 1) su minori di anni 14 14 1 1 0 0 0 0 0 0 0 2) su maggiori di anni 14 15 3 3 3 0 0 0 6 4 1 TOTALE 1 + 2 16 4 4 3 0 0 0 6 4 1 FURTI SEMPLICI E AGGRAVATI 1) abigeato 17 0 0 0 0 0 0 0 0 0 2) borseggio 18 569 569 49 7 4 7 63 16 61 3) scippo 19 19 19 0 0 0 0 0 0 0 …………………………………………………………………. 2^ fase dell’AMD Il caso di studio esaminato La codifica a priori : matrice dei dati grezzi sulla microcriminalità nei 19 municipi di Roma: X N 19;K 5 ►scelta della classificazione dei delitti ► calcolo valori assoluti (per somma delitti inclusi in ogni categoria) Esempio : La matrice dei valori assoluti dei delitti nei 19 Municipi per l’anno 2003 2003 I II III IV V VI VII VIII IX X XI XII XIII XV XVI XVII XVIII XIX XX ROMA Omic/Les Viol sess 77 10 15 4 20 5 19 3 22 2 11 2 16 1 19 3 17 3 41 4 12 3 31 5 15 4 9 4 2 0 30 3 18 3 10 2 15 5 399 66 Furti Rapine Estors/Altri 9636 163 1323 3696 110 721 2939 100 767 1342 92 381 1437 66 396 1622 64 445 1707 58 590 1162 72 267 3293 108 1150 3466 92 913 3561 101 1154 2986 158 941 1317 45 397 1993 98 302 1760 87 258 3086 82 997 1671 84 769 2999 75 586 1995 75 923 51668 1730 13280 Totale 11209 4546 3831 1837 1923 2144 2372 1523 4571 4516 4831 4121 1778 2406 2107 4198 2545 3672 3013 67143 Il caso di studio esaminato 2^ fase dell’AMD La classificazione dei delitti in 5 tipologie v. Testo: ‘La calma insicurezza’ pag.38 Tabella 1 - Classificazione dei delitti Classi di delitti Delitti inclusi 1.Omicidi e lesioni: Omicidio a scopo di furto o rapinaOmicidio per motivo di onore o passionali Omicidio a scopo terroristicoOmicidio per altri motiviOmicidi preterintenzionali Tentati omicidiOmicidi colposiLesioni dolose 2.Violenze Sessuali: Violenze sessuali contro maggiori anni 14Violenze sessuali contro minori di anni 14 3.Furti: AbigeatoBorseggiScippiFurti in uffici pubbliciFurti in negozi Furti in appartamentiFurti su auto in sosta Furti in ferroviaFurti di opere d'arteFurti di merci su automezzi pesanti,Furti di autoveicoliFurti di armi, esplosivi o munizioniAltri Furti Rapine in banca Rapine in uffici postali Rapine in gioiellerie e laboratori Rapine a rappresentanti di preziosiRapine a trasportatori di valori bancari Rapine a trasportatori di valori postali Rapine in danno di coppie o prostituteRapine di automezzi pesanti italiani e stranieriRapine a passantiRapine in negozi Altre rapine . Estorsioni Strage (Art.422 C.P.) Sequestri di persone a scopo estorsivo Sequestri di persona con ostaggio a scopo di rapina Sequestri di persona per motivi sessuali Sequestri di persona per altri motivi Danneggiamenti Associazione per delinquere Incendi dolosi Attentati dinamitardi/Incendiari Truffe Ricettazioni Risse Minacce,Oltraggio,Resistenza a P_U,Evasione, ContrabbandoUsura,Violazione legge armi,Violazione legge stranieri,Prod e commercio stupefacenti,Reati connessi alla prostituzione,Altri delitti. 4.Rapine: 5. da Estorsioni ad Altri 3Delitti 3^fase dell’AMD Il caso di studio esaminato codifiche a posteriori di variabili A)la misura della criminalità e il calcolo dei quozienti di criminalità • Richiami sulla definizione e misura della micro-criminalità (v. ‘La calma insicurezza’ pagg.29-36) : • Il concetto di ‘numero oscuro’: criminalità ‘reale’ = criminalità apparente (denunciata)+’numero oscuro’ si può stimare con le indagini di vittimizzazione • Rapporti statistici e misure della criminalità: n° dei delitti denunciati per il reato i-mo in un dato luogo e anno Quozienti di criminalità: ×1000 popolazione residente a metà anno nello stesso luogo e anno Altre misure: - Quozienti di criminalità ponderati (con la pena media edittale=gravità del reato) - L’indice di delittuosità - Le mappe tematiche e l’autocorrelazione spaziale B) Prime analisi statistiche unidimensionali preliminari delle matrici dei quozienti calcolate (pag. 36-43) 3^fase La codifica per variabili 3^=4^ fase: le scelta tabelle dei dati Le 6 matrici X N 19, K 5 dei quozienti di criminalità 1000ab nei 19 municipi di Roma dal 1999 al 2004 TABLEAU DES DONNEES 1999 -----------------------0 I II III IV V VI VII VIII IX X XI XII XIII XV XVI XVII XVIII XIX XX OMIC .5160 .2650 .5250 .0880 .3540 .1350 .1350 .2340 .0820 .0670 .0500 .0520 .1450 .1880 .2500 .2520 .1650 .0390 .2440 VSES .0570 .0400 .1220 .0150 .0330 .1350 .0400 .0160 .0150 .0000 .0140 .0260 .0160 .0260 .0270 .0800 .0300 .0110 .0490 FURT 73.6850 40.8720 84.5470 8.5180 7.9560 .0520 24.7230 11.6800 36.5500 21.6690 22.9450 23.3590 10.3870 21.0480 19.9390 67.7180 17.9910 21.3850 23.5460 RAPI 2.1140 1.6890 2.8500 .2980 .4030 2.2090 1.0700 .7640 1.0550 .7610 .8550 .9010 .3280 .7310 .7890 1.6440 .5400 .5190 .6980 ESTO 10.7500 7.9940 15.4410 1.6900 2.6340 .7250 6.4230 4.7950 6.1670 4.3320 2.7080 4.4100 4.7980 4.0750 3.5800 9.8260 4.7420 2.4430 6.0380 Il caso di studio esaminato TABLEAU DES DONNEES 2004 0 TABELLA DEI DATI 1999 TABELLA DEI DATI 2000 TABELLA DEI DATI 2001 TABELLA DEI DATI 2002 TABELLA DEI DATI 2003 TABELLA DEI DATI 2004 I II III IV V VI VII VIII IX X XI XII XIII XV XVI XVII XVIII XIX XX OMIC .4400 .3050 .7890 .1560 .2890 .0010 1.1060 .1680 1.2900 .0880 1.3500 1.2880 .0890 .1870 .0810 .7670 .2230 .4920 .8100 -----------------------VSES FURT RAPI .1710 87.3700 1.8510 .0320 33.6800 1.4690 .0530 70.8580 2.7720 .0100 7.9950 .2870 .0210 6.8560 .6380 .0000 .0220 .0010 .0790 33.1810 2.3460 .0200 9.8490 .6740 .1040 45.7060 3.1990 .0000 19.1070 .7880 .1000 68.5860 4.0870 .0880 82.0890 4.4910 .0260 9.2350 .4610 .0060 16.7140 .6760 .0070 16.8380 .5340 .0930 90.6170 3.5980 .0300 15.9870 .6160 .0620 50.3420 1.9850 .1030 76.6240 3.0080 NOTA: E’ preferibile costruire la tabella dei dati come media aritmetica di un triennio per eliminare eventuali variazioni dovute a semplici oscillazioni dei dati e non effettive variazioni nell’entità della microcriminalità. ESTO 11.7900 8.5640 15.5790 1.5330 2.4660 .0060 9.7540 3.5900 14.4500 3.6680 18.6060 20.5410 5.2140 4.6160 2.9890 28.5080 4.0320 15.0860 22.2610 Prime statistiche unidimensionali per l’analisi preliminare della tabella dei dati: il caso di studio della microcriminalità nei 19 Municipi di Roma (v. F.Beato, pagg.32-43 Figura 2 - Mappa territoriale dei quozienti di criminalità x 1000 ab.per il TOTALE dei delitti denunciati nei 19 Municipi di Roma nel 1999 Figura 4 - Distribuzione percentuale delle 5 tipologie di delitti sul totale dei delitti di ciascun Tabella 2 - Graduatoria dei 19 Municipi di Roma in ordine decrescente dei quozienti di Municipio di Roma nel 2002 criminalità x 1000 ab nel 1999 e nel 2002 per i FURTI e per ESTORSIONI e ALTRI DELITTI e TOTALE dei DELITTI 1999 2002 1999 2002 1999 2002 Municipi TOTALE Municipi TOTALE. Figura 3 - Mappa territoriale dei quozienti di criminalità x 1000 ab. per il TOTALE dei delitti denunciati nei 19 Municipi di Roma nel 2002 Municipi Furti Municipi Furti Municipi Estors. e Al.Del. Municipi Estors. e Al.Del. III 84,547 I 64,680 XVII 15,441 III 14,202 III 103,485 I 87,769 I 73,685 III 58,396 III 10,750 XVII 13,284 I 87,123 III 71,869 XVII 67,718 XVII 42,643 V 9,826 I 12,445 XVII 79,519 XVII 60,617 II 40,872 II 31,936 I 7,994 II 7,277 II 50,861 II 40,385 IX 36,550 IX 27,244 XX 6,423 XI 7,253 IX 43,869 IX 34,899 VII 24,723 XI 23,990 VIII 6,167 IX 6,965 VII 32,391 XI 31,134 XX 23,546 XII 19,253 VI 6,038 VII 6,054 XX 30,575 XII 25,145 XII 23,359 X 16,809 XV 4,798 XX 5,642 XII 28,748 VII 23,130 XI 22,945 XIX 15,852 XIII 4,795 XII 5,518 X 26,828 X 22,188 X 21,669 VII 14,981 XIX 4,742 VI 3,753 XI 26,573 XVI 21,811 XIX 21,385 XVI 14,252 X 4,410 IV 3,610 XV 26,068 XX 21,671 XV 21,048 VI 14,242 XVIII 4,332 X 3,418 XVI 24,620 XIX 19,077 XVI 19,939 XX 14,230 XVI 4,075 XIX 2,905 XIX 24,398 VI 18,992 XVIII 17,991 XV 13,936 XI 3,580 XVIII 2,658 XVIII 23,468 XV 18,604 VIII 11,680 XVIII 11,828 XII 2,708 XVI 2,628 VIII 17,488 XVIII 17,550 XIII 10,387 V 7,760 VII 2,634 XIII 2,405 XIII 15,674 VIII 11,283 IV 8,518 XIII 7,409 IV 2,443 XV 2,099 V 11,379 XIII 9,838 V 7,956 IV 6,990 II 1,690 V 1,916 IV 10,609 V 9,747 VI 0,052 VIII 6,687 IX 0,725 VIII 1,448 VI 3,448 IV 8,728 Media 28,346 Media Media 5,451 Media 5,552 Media 35,112 Media 29,181 22,493 16,298 3,443 3,822 26,341 21,227 0,749 Coeff.Var. 0,631 Coeff.Var. 0,688 Coeff.Var. 0,750 Coeff.Var. 0,727 Coeff.Var. 0,793 Coeff.Var. 21,743 3^fase AMD I grafici della micro-criminalità nei Municipi di Roma con Excel e Paintbrush • Grafico a Barre (orizzontali) 3D in pila % Figura 4 - Distribuzione percentuale delle 5 tipologie di delitti sul totale dei delitti di ciascun Municipio di Roma nel 2002 Tab. - Distribuzione percentuale dei tipi di delitti denunciati (*)nei 19 Municipi di Roma nel 2002 Municipi Tot.Omicidi e Lesioni Tot.Violenze Sess Tot.Furti Tot Rapine Tot.Estorsioni e Altri Delitti I 0,462 0,185 81,394 2,299 15,661 II 0,436 0,020 78,826 2,756 17,962 III 0,886 0,093 77,138 3,123 18,760 IV 1,315 0,088 62,473 3,858 32,267 V 1,328 0,159 76,792 2,762 18,959 VI 0,443 0,161 75,383 4,150 19,863 VII 0,435 0,036 68,562 3,260 27,707 VIII 1,086 0,286 76,043 6,118 16,467 IX 0,384 0,021 77,297 2,537 19,761 X 1,353 0,156 79,469 2,862 16,159 XI 0,224 0,067 75,218 1,748 22,743 XII 0,524 0,262 74,613 3,218 21,383 XIII 0,904 0,100 72,540 2,912 23,544 XV 0,566 0,000 81,465 5,700 12,269 XVI 0,763 0,038 79,825 4,653 14,722 XVII 0,416 0,000 74,133 2,358 23,093 XVIII 0,620 0,000 76,431 5,773 17,176 XIX 0,402 0,057 81,435 3,185 14,921 XX 0,626 0,363 68,942 2,737 27,333 Tot.Roma 0,623 0,111 76,568 3,145 19,553 1) Scegliere 3 o 4 classi di valori per i quozienti di criminalità 2) Scegliere un colore per ciascuna classe di valori 3) Con il ‘pennello’ di paintbrush colorare i municipi aventi lo stesso colore I dati della microcriminalità in formato ‘spaziale’: georeferenziati Strade Longitudine Latitudine Strada ipotizzata come baricentro Indirizzo Trevi Castro Pretorio Viminale Celio Esquilino Trastevere I Municipio. 12°30' 12°30' 12°29' 12°29' 12°29' 12°28' 41°54' 41°54' 41°54' 41°53' 41°53' 41°52' 12°30' - 41°54' - Piazza di Trevi Via del Castro Pretorio Piazza del Viminale Via Celio Vibenna Via dell'Esquilino Viale di Trastevere Porta del Popolo Villa Glori Salario Parioli Vescovio II Municipio. 12°28' 12°28' 12°29' 12°30' 41°54' 41°55' 41°55' 41°55' 12°29' - 41°55' - Via F.Fuga Piazzale di Villa Glori Viale dei Parioli Piazza Vescovio S. Ippolito Porta Pia S. Lorenzo Comm.to Università III Municipio. 12°31' 12°30' 12°30' 12°30' 41°54' 41°54' 41°53' 41°54' 12°31' - 41°54' - Via di S.Ippolito Piazzale di Porta Pia Via di S. Lorenzo Viale dell'Università IV M.Sacro 12°32' 41°55' - - Via di M.Sacro V S.Basilio 12°29' 41°54' - - V. di S.Basilio Torpignattara Porta Maggiore VI Municipio. 12°32' 12°30' 41°52' 41°53' 12°32' - 41°52' - Torpignattara Via di Porta Maggiore Prenestino Centocelle VII Municipio. 12°32' 12°33' 41°53' 41°52' 12°33' 41°52' Piazzale Prenestino Via di Centocelle VIII Municipio Casilino 12°32' 41°52' S. Giovanni Appio Nuovo IX Municipio. 12°29' 12°30' 41°53' 41°53' X Municipio.Tuscolano 12°32' 41°51' Colombo Tor Carbone XI Municipio. 12°28' 12°31' 41°50' 41°49' 12°28' - 41°50' - Via C.Colombo Via di Tor Carbone Esposizione Spinaceto XII Municipio. 12°30' 12°29' 41°48' 41°50' 12°29' 41°50' Via Cecchignola Spinaceto XIII Municipio.OstiaLido 12°17' 41°43 12°29' - Vicolo Casilino 41°53' - - Via Tuscolana - - - Via di S. Giovanni in Laterano Via Appia Nuova Viale della Pineta di Ostia XV Municipio.S.Paolo 12°28' 41°51' - - Viale di S. Paolo XVI Municipio.Monteverde 12°26' 41°52' - - Via di Monteverde Prati Borgo Comm.to Palazzo di Giustizia Comm.to RAI XVIIMunicipio. 12°28' 12°24' 12°28' 12°29' 41°54' 41°58' 41°54' 41°54' XVIII Municipio.Aurelio 12°27' 41°53' Primavalle Monte Mario XIX Municipio. 12°24' 12°25' 41°54' 41°56' 12°24' - 41°54' - Via dei Monti di Primavalle Rampa di Monte Mario Ponte Milvio Flaminio Nuovo XX Municipio. 12°27' 12°28' 41°56' 41°54' 12°27' - 41°56' - Piazzale Milvio Via Flaminia 12°28' - - 41°54' - - Lungotevere Prati Piazza Cavour Piazzale Clodio Viale Mazzini Piazzale Aurelio Fonte: Tesi di laurea di Sonia D’Amico, a.a.2003-04 Strumenti statistici per il controllo e la prevenzione della microcriminalità con particolare riguardo all’analisi spaziale. Un’applicazione: le mappe dei Municipi di Roma., Relatore: Prof.ssa M.Fraire baricentro di ciascun reato relativo alle zone di Roma che compongono i municipi. • I baricentri delle longitudini X e delle latitudini Y sono pari alle medie aritmetiche delle coordinate medesime ponderate in base ai cinque tipi di reati (omicidi e lesioni, violenze sessuali, furti, rapine ed estorsioni ed altri ed altri delitti)Ni dei XIX Municipi. s X xi ni i 1 s i 1 ni s Y yi ni i 1 s i 1 ni • Con riferimento ad esempio al I° Municipio e al Totale Omicidi e Lesioni: Anno 1999 X = (12 29 / 60) *14 (12 30 / 60) * 4 (12 29 / 60) *10 (12 29 / 60) *17 (12 29 / 60) *15(12 28 / 60) * 3 = 63 12,475° = 12°29’ Y = (41 54 / 60) * 14 (41 54 / 60) * 4 (41 54 / 60) * 10 (41 53 / 60) * 17 (41 53 / 60) * 15 (41 52 / 60) * 3 = 63 41,889° = 41°53’ • Fonte: Tesi di laurea di Sonia D’Amico, a.a.2003-04 op.cit I baricentri o centri di gravità delle 5 tipologie di reati nei 19 Municipi di Roma nel 1999 ANNO 1999 Municipi I Municipio. Baricentri: longitudine 12°29' 12°29' 12°29' 12°29' 12°29' X Baricentri: latitudine 41°53' 41°52' 41°53' 41°53' 41°53' Y Tipologia di reati Omicidi e Lesioni Violenze sessuali Furti Rapine Estorsioni ed altri delitti Mappe della microcriminalità nei Municipi di Roma •Fonte: Tesi di laurea di Sonia D’Amico, a.a.2003-04 op.cit L’analisi dei gruppi (cluster analysis): i ’profili multidimensionali della criminalità’ dei municipi di Roma La tabella dei dati e i metodi impiegati in cui N = 19 u.s. : i Municipi di X 5 variabili:le 5 tipologie di delitti in cui sono stati classificati tutti i tipi di delitti denunciati; i dati sono i quoz. di crimin. ‰ ab.. Ad es. per il 2002: ( Anno) Roma; N 19, KK= 5 si sono costruite 4 tabelle dei dati per i 4 anni considerati (1999-2002). I dati sono stati centrati e ridotti. si è effettuata su ciascuna la cluster analysis (3 metodi gerarchici e il metodo delle k-medie) e si sono individuati i clusters di Municipi omogenei rispetto ai diversi profili multidimensionali della criminalità Software impiegato: SPSS, SPAD, Matlab, CrimeStat I risultati della Cluster Analysis: tipologie di Municipi rispetto al profilo multidimensionale della criminalità ( Profili medi (baricentri) dei clusters. Quoz. di criminalità ‰ ab.) 1999 2002 Profili criminal Cluster 1 Cluster 2 Cluster 3 Cluster 4 ità Crimin.A Crimin.ME Crimin.BA Crimin.SCA LTA DIA SSA RSA L’Analisi a 3-vie (3-way data analysis) La situazione di ricerca e le tabelle dei dati impiegate Si possono avere diverse tabelle dei dati a tre vie O X N , K Nella presente ricerca ci si trova nella situazione di ricerca seguente: N = u.s.; K= caratteri statistici; O = occasioni OT (19992002) X N 19, K 5 X ( N 19K 5),T 4 in cui si considerano uguali sia le N u.s. che le K variabili osservate in O occasioni successive qui gli anni dal 1999 al 2002. Il metodo di analisi a 3-vie impiegato Analyse Conjointe de Tableaux Quantitatifs (A.C.T.) – Méthode STATIS (Escoufier, 1980) per analizzare le 4 tabelle dei dati suddette contemporaneamente e globalmente sotto tre diversi aspetti: analisi dell’interstruttura ; analisi dell’intrastruttura; analisi delle traiettorie Software impiegato: ACT-Statis (CISIA, 1989,France) 4^ fase AMD La tabella dei dati Tabella 6 - La tabella dei dati a 3-vie impiegata per le analisi O T (1999 2002) X N 19, K 5 OMI VSES FURT RAPI ESTO I 0.516 0.057 73.685 2.114 10.750 II 0.265 0.040 40.872 1.689 7.994 ……………………………………………………………………. XIX 0.039 0.011 21.385 0.519 2.443 XX 0.244 0.049 23.546 0.698 6.038 I 0.440 0.171 87.370 1.851 11.790 II 0.305 0.032 33.680 1.469 8.564 …………………………………………………………………… XIX 0.492 0.062 50.342 1.985 15.086 XX 0.810 0.103 76.624 3.008 22.261 I 1.050 0.258 147.905 3.908 21.558 II 0.249 0.016 31.768 1.404 6.957 …………………………………………………………….. XIX 0.061 0.000 15.375 0.570 3.340 XX 0.205 0.020 15.459 0.764 5.223 I 0.367 0.147 64.680 1.827 12.445 II 0.177 0.008 31.936 1.116 7.277 …………………………………………………………………… XIX 0.078 0.011 15.852 0.620 2.905 XX 0.129 0.075 14.230 0.565 5.642 Note: 1) I Municipi sono in totale 19 in quanto il XIV Municipio, ‘Fiumicino’, è diventato comune a se stante . 2) Le etichette delle variabili sono: OMI= Omicidi e lesioni, VSES = Violenze sessuali, FURT = Furti, RAPI = Rapine, ESTO=Estorsioni ed altri delitti, la classificazione dei delitti riportata nella tabella I risultati dell’analisi a 3-vie: L’INTERSTRUTTURA Rappresentazione globale delle 4 tabelle dei dati nel primo piano fattoriale 1 2 76,02% ( dell’inerzia totale) rispetto alla matrice ‘media’ (WD) (‘matrice compromesso’, sintesi di tutte le matrici) : la vicinanza indica tabelle con strutture globalmente simili: Analisi dell’inter-struttura Figura 8-Il plot delle 4 tabelle dei dati per i 4 anni considerati sul primo piano principale ( 76,03 % dell’inerzia totale) centrato rispetto alla matrice compromesso (WD) 1 2 Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Interstructure. Analisi dell’intrastruttura: la matrice compromesso e il municipio medio rispetto alla microcriminalità nel periodo considerato Figura 10 -Rappresentazione degli individui compromesso: i 19 Municipi (punti unità-medi) rispetto ai primi due assi compromesso ( 1 42 , 48 % 2 17 , 70 % 60 ,18 % ) -----------------------------------------------------------------------------------------------------------------------1! ! XVII ! 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 11! ! ! 12! ! ! 13! ! ! 14! ! ! 15! ! ! 16! ! ! 17! ! ! 18! ! ! 19! ! ! 20! ! ! 21! ! ! 22! ! ! 23! ! ! 24! ! ! 25! ! ! 26! ! ! 27! ! ! 28! ! ! 29! ! ! 30! ! ! 31! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! XVII ! ! 38! ! ! 39! ! ! 40! XX ! ! 41! ! ! 42! XII ! ! XVI 43! VII 45!----------------XV ! ! 44! ! 46! 47! 48! ------- ! ! ! ! ---------------------------------------------------------------------------------------- ! ! ! III ! ! ! ! ! 49! 50!IV V VIII XIX VIXIII ! II ! ! ! X ! ! ! ! ! ! ! ! ! I ! ------------------------------------------------------------------------------------------------------ ------------------ 51! 52! 53! 54! 55! 56! 57! XI IX Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Intrastructure Sul primo asse si può notare la contrapposizione tra i Municipi XVI, VII, XV,XII , VIII e il III, I; sul secondo asse il XVII, XX contro il IX, XI. Mentre nella Figura 11 si riporta lo stesso plot riferito invece che alle u.s. (19 Municipi) alle variabili (i 5 tipi di delitti nei 4 anni). Il confronto tra i due plot consente di interpretare i risultati considerando la vicinanza tra i punti-medi unità (Municipi) e i punti-medi variabili (5 tipologie di delitti )incluso l’anno di riferimento (qui indicato con i numeri 1=1999, 2=2000,3=2001,4=2002 posti accanto al nome della variabile). Analisi dell’intrastruttura: la matrice compromesso e il tipo di reato ‘medio’ rispetto alla microcriminalità nel periodo considerato Figura 11 – Correlazioni delle variabili con gli assi: i 5 punti-medi variabili sul primo pian fattoriale I risultati dell’analisi a 3-vie: LE TRAIETTORIE dei Municipi (indicizzate rispetto al I asse fattoriale Municipi da I a V: il diverso ruolo nella criminalità 1 57,75% ) Le traiettorie della criminalità diffusa degli altri Municipi: confronti Una sintesi dei risultati • • • • • • • E’ possibile analizzare singolarmente ogni Municipio per i 4 anni considerati e confrontare la sua traiettoria rispetto agli altri: si noti che l’ordine in cui appaiono è in effetti una graduatoria (multidimensionale perché riferita ai 5 tipi di delitti denunciati contemporaneamente considerati) decrescente rispetto alla criminalità nei vari anni di ciascun Municipio. Limitandoci qui a commentare in particolare il III e il V Municipio, essendo quelli in cui si è svolta l’indagine campionaria di cui si vedranno alcuni risultati nel paragrafo che segue. -Si può anzitutto notare che il I Municipio è quello che ha la criminalità più elevata -mentre il V quella più bassa rispetto agli altri Municipi considerati - inoltre nei 4 anni mentre la criminalità nel V Municipio è rimasta pressoché invariata nel I Municipio si sono avuti notevoli cambiamenti nei 4 anni come si può vedere dalla traiettoria del Municipio I in figura 11: andamento alterno con una brusca diminuzione nel 2000 ed una notevole ripresa nel 2001. E’ da notare che questa rappresentazione consente la condensazione e sintesi di una notevole mole di informazioni e soprattutto consente il confronto spazio-temporale delle u.s. rispetto alle variabili considerate. La percezione sociale dell’insicurezza urbana: Un caso di studio per l’analisi delle corrispondenze multiple Il caso di studio 5: • La percezione sociale dell’insicurezza urbana: Indagine per questionario 1^fase: La documentazione statistica di partenza Se è un questionario. Esempio: Questionaro di Indagine sulla “Sicurezza Urbana e Percezione della Criminalità Università degli Studi di Roma “La sapienza” Facoltà di Sociologia La percezione sociale dell’insicurezza urbana: il caso di Roma Ricerca sulle opinioni, gli atteggiamenti e i comportamenti dei cittadini romani nei confronti della microcriminalità, svolta nell’ambito dei “Programmi di ricerca scientifica di rilevante interesse nazionale” del Ministero dell’Università e della Ricerca Scientifica e Tecnologica. Direttore di ricerca Prof.Fulvio Beato Consiglio scientifico: Prof. Enzo Campelli Prof. Lucia Ciampi Prof. Mary Fraire Prof. Fiammetta Mignella Calvosa Prof. Stefano Nobile 1^fase: La documentazione statistica di partenza Il Questionario d’indagine La percezione sociale dell’insicurezza urbana: il caso di Roma 1. Codice intervistatore 2. Intervista numero 3. Intervista effettuata nella zona PERCEZIONE DELLA CRIMINALITÀ 4. Come definirebbe in termini di pericolo rispetto alla piccola criminalità (scippi, furti, atti di teppismo e simili) la zona dove abita? 1. 2. 3. 4. Molto pericolosa Abbastanza pericolosa Poco pericolosa Per niente pericolosa 5. Come definirebbe in termini di pericolo rispetto alla piccola criminalità la città di Roma nel suo complesso? 1. 2. 3. 4. Molto pericolosa Abbastanza pericolosa Poco pericolosa Per niente pericolosa 6. Negli ultimi due anni, gli episodi di piccola criminalità nel suo quartiere sono diventati 1. 2. 3. 4. Più frequenti Non sono aumentati né diminuiti Meno frequenti Non so 7. Negli ultimi due anni, gli episodi di piccola criminalità a Roma sono diventati 1. 2. 3. 4. Più frequenti Non sono aumentati né diminuiti Meno frequenti Non so Il 2^fase questionario CODIFICATO 17. Se potesse, cambierebbe casa per ragioni di sicurezza, andando a vivere in un quartiere più tranquillo da questo punto di vista? V17 1. No 2. Forse 3. Sì (codifica: In colonna V17 codici o 1 o 2 o 3) 18. Il senso di insicurezza delle persone dipende dal fatto che… V18A, V18B,V18C,V18D a. b. c. d. Codifica: si creano 4 colonne per ogni item a.,b.,c.,d., e per ciascuna si codifica Con 0 (no), 1(sì) Non fanno abbastanza affidamento su se stesse Hanno pochi rapporti con gli altri e vivono isolate Non hanno piena fiducia nelle istituzioni e nelle forze dell’ordine L’imprevisto è in agguato tutti i giorni ESPERIENZE PERSONALI DI CRIMINALITÀ 19. Di quali dei seguenti reati le è capitato di essere vittima a Roma? V19A, V19B, V19C, V19D, V19E, V19F, V19G, V19H, V19I, V19J, V19K, V19L, V19Altro (dati testuali), V19N, V19P, V19Q (colonne per ulteriori codifiche) a. b. c. d. e. f. g. h. i. j. k. l. m. n. Scippo Borseggio Rapina Aggressione Molestie fisiche (Per Telefonate oscene Esibizionismo Ricatti sessuali sul luogo di lavoro Furto in casa Tentato furto in casa Furto di veicoli Furto di parti appartenenti ai veicoli e di oggetti dai veicoli Atti di vandalismo Altro (specificare) la codifica :idem come dom.17) 20.Quando è stata l’ultima volta in cui ha subito un atto di microcriminalità a Roma? V20 (dato testuale) __________________________________________________________________________ 21.In quale zona è successo? V21 1. Nel mio quartiere 2. In centro 3. In periferia 4. In semiperiferia 5. Altro (specificare) 6. Non sa, non ricorda 99. n.d. Il questionario CODIFICATO 2^fase Le variabili illustrative o passive CARATTERISTICHE SOCIO-DEMOGRAFICHE 51. Sesso V51 1. Maschio 2. Femmina 52. Anno di nascita V52, V52ETA’ 53. Luogo di nascita V53 (dati testuali), V53REC (!,2,3) 54. Cittadinanza V54 1. Italiana 2. Altro Paese dell’Unione Europea 3. Altro Paese fuori dall’unione Europea 55. Stato civile V55 1.Nubile/celibe 2. Coniugato 3.Separato 4.Divorziato 5.Vedovo Quartiere di residenza V56 (dati testuali)_______________________________ 2^fase Codifica a priori o creazione della matrice dei dati iniziali: tabella inventario AN 702, K 46 ID V03MUNI V19ASCI V19BBORSV19CRAPI 1 3 0 0 0 2 3 0 0 0 3 3 1 0 0 4 3 1 0 0 5 3 0 0 0 6 3 1 0 0 7 3 0 1 0 8 3 0 1 0 9 3 0 0 0 V51SESSOV52ETA V53LUO V54CITTA V55STCIV 2 1 1 1 1 2 1 1 1 1 2 4 3 1 5 … 2 4 3 1 2 1 2 1 1 … 1 1 1 1 1 1 1 2 4 2 2 1 3 1 1 4 1 4 3 1 2 …………………………………………………………………… ……………….………………………………………………….. 700 701 702 3 5 3 0 1 0 0 0 0 0 0 0 2 1 2 1 2 1 1 3 3 1 1 1 TABELLA INVENTARIO (n x k): contiene dati misti codici alfanumerici e numeri reali; nessuna struttura richiede ulteriori codifiche a posteriori .Dato statistico: [aij codici ; val.numerici ] 1 2 1 4^ fase AMD La scelta delle variabili di analisi (4^fase AMD) Un esempio di variabili attive e illustrative o passive nell’ACM: la percezione sociale della criminalità a Roma •Variabili Attive •Modalità •V04 - pericolosità zona •v1molto-v2abbast.-v3poco-v4per niente •V05 - pericolosità città •v1molto-v2abbast.-v3poco-v4per niente •V06 - piccola crim. quartiere •v1più freq.-v2invariati-v3meno freq.-v9rm[1] •V11 - sicurezza buio strada •v1molto-v2abbast.-v3poco-v4per niente •V12 - sicurezza buio casa •v1molto-v2abbast.-v3poco-v4per niente •V19 – esp. vittimizzazione •v1 0 reati-v2 1 reato-v3 2+ reati •Variabili Illustrative •Modalità •V51 - sesso •v1maschio-v2femmina •V52 - età •v1 20/34-v2 35/44-v3 55/64-v4 65+ •V55 - stato civile •v1nubile/celibe-v2coniugato-v3separato-v4divorziatov5vedovo •V61 - condizione occupazionale •v1t.pieno-v2t.parz.-v3in cerca1°occ.-v4disocc.v5ritirato v6inabile-v7studente-v8casalinga-v9altro •V66 - titolo di studio •v1nessuno-v2lic.elem.-v3avviam.-v4media inf.-v5media sup. v6form.prof.-v7dipl.univ.-v8laurea-v9dottorato •V67 - livello economico •v1molte diff.-v2con diff.-v3qualche diff.-v4abb.facilm. v5facilm.-v6molto facilm.-v9rm •V68 - livello sociale •v1alto-v2m.alto-v3medio-v4m.basso-v5basso-v9r.m. •V69 - orientamento politico •v1sin.-v2centro v6altro-v9r.m. s.-v3centro-v4centro d.-v5destra- 7^fase AMD: Output risultati ACM(Analisi delle Corrispondenze Multiple): Rappresentazione simultanea sul PRIMO PIANO FATTORIALE delle variabili ATTIVE e ILLUSTRATIVE [plot del primo piano fattoriale (20,78% dell’inerzia totale)] Le dimensioni o variabili latenti emerse dall’analisi hanno consentito di individuare diverse tipologie di portatori di ‘sentimenti di insicurezza’ (‘fear of crime’):‘privilegiati’, ‘deprivati socialmente’, ‘ossessivi catturati da l’obsession sécuritaire’, ‘xenofobi e autoritori’. Fonte- F.Beato (a cura di) – La calma insicurezza – Liguori editore 2003 : Un caso di studio per l’analisi a 3 vie (MULTIWAY data analysis) • Il caso di studio 6: • DATABASE degli studenti delle Facoltà di Sociologia in Italia Un caso di studio esaminato AN 458,K 34 La matrice dei dati iniziali è una tabella inventario SE E’ UN DATABASE ( BASE DI DATI) • • il caso di studio considerato è un data base costituito dai 5 files degli studenti immatricolati in 5 Facoltà di Sociologia in Italia negli aa.aa.2001-02/2003-04 sono stati forniti dagli archivi degli atenei di competenza. Sede della facoltà di Sociologia Totale immatricolati (v.a.) ► Le unità di analisi in microdati: Trento 841 gli studenti immatricolati ► Le variabili di analisi : Milano 806 in totale 34 o 39 (secondo le Facoltà) variabili che è possibile classificare Roma 2.991 Chieti 458 Napoli 2.762 Totale 7.858 secondo la loro posizione nel ‘percorso universitario’ . degli studenti. Le variabili che considereremo : (a) variabili di ingresso: (b) Variabili di percorso: (c) Variabili di esito: Genere (2 modalità), Età alla I^iscriz. Tipo di Diploma Voto di diploma Crediti complessivi conseguiti Votazione media esami [Posizione amministrativa al 2° anno Posizione amministrativa al 3° anno Posizione amministrativa al 4° anno] Posizione amministrat.attuale le variabili disponibili originali 3^fase [anche con ricodifiche di 3^ fase AMD] e codifiche (labels e value label dei dati)2^fase AMD: Il caso di studio esamina to Ipotesi di classificazione delle variabili: Ingresso Percorso Esito Il caso di studio esaminato Le matrici a tre indici per l ’Analisi dei Dati a Tre Vie del caso di studio N = u.s.; K= caratteri O = occasioni 5 Fac.Soc. X N 18categ.stud;K 14var • • • Scopi dell’analisi a 3-vie nel caso di studio considerato Mediante l’Analisi dei Dati a Tre Vie (three-way data analysis) si possono esaminare contemporaneamente e globalmente più tabelle di dati quantitativi nella forma delle matrici dei dati a due indici XN,K suddette scegliendo “a priori” (perciò l’analisi è detta asimmetrica) un terzo “indice” o criterio denominato “occasioni”, che può essere rappresentato da tempi (anni, età ecc.), luoghi, situazioni di ricerca o altro criterio non necessariamente costituito da una variabile, può essere anche una mutabile e non avere un ordinamento delle modalità (sconnessa) come nel caso in esame. Molto schematicamente, facendo riferimento al caso qui considerato, si potrebbe rappresentare l’analisi dei dati a tre-modi e tre-vie, ossia dati “cubici”[1] nel modo seguente: Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata[MF1] • Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata • • • • • • In particolare, la matrice dei dati a tre indici = considerata è definita dai seguenti elementi: N = 18 categorie di studenti universitari ottenuti dall’incrocio delle variabili di ingresso (genere, età all’immatricolazione, tipo di diploma, voto di diploma); Xj (j = 1, 2,…, k) = 14 modalità-variabili delle variabili di percorso (crediti e votazione media) e di esito (posizione amministrativa attuale); Or (r = 1, 2,…, 5) = 5 facoltà di Sociologia (Trento, Milano, Roma, Chieti, Napoli); (r = 1,..., 5; i = 1,…, 18; j = 1,.., 14) = frequenza relativa dell’i-ma categoria di studente (sul totale N) per la j-ma variabile-modalità nell’r-ma occasione (facoltà di Sociologia). È da notare che in questo caso il dato statistico è un numero razionale positivo (frequenza relativa) e ogni matrice dei dati iniziali è una tabella di contingenza normalizzata che può essere trattata come una matrice di intensità a due indici unità × variabili. [1] I dati cubici sono strutturati come un ipercubo multidimensionale in cui ogni lato è una dimensione; essi permettono di essere analizzati e modellati multidimensionalmente a scopo sia predittivo che classificatorio per l’individuazione di tipologie, modelli, strutture dei dati anche latenti. 4^fase AMD La scelta della tabella dei dati per l’analisi a tre-vie • Si possono avere tre diverse codifiche a posteriori di una matrice dei dati a tre-vie secondo le situazioni di ricerca : • 1) Una matrice di dimensione [ N , (KO)] in cui si considerano diverse le K variabili rilevate in O occasioni successive ed uguali le N u.s.; • 2) Una matrice di dimensione [ (N O) , K] in cui si considerano uguali le K variabili e diverse le N u.s. rilevate in O occasioni successive; • 3) Una matrice di dimensione [(N x K), O] in cui si considerano uguali sia le N u.s. che le K variabili rilevate in O occasioni successive. • Nell’applicazione considerata, la scelta della codifica a posteriori è stata quella di tipo 2) 4^ Fase AMD Codifiche a posteriori della matrice dei dati a tre-vie: la scelta della tabella dei dati (4^ fase AMD) . Nel presente lavoro la situazione di ricerca considerata è quella descritta al punto (2), ossia si hanno uguali le K = 14 variabili (di percorso e di esito) e diverse le N = 18 categorie di studenti universitari in O occasioni rappresentate, in questo caso, dalle 5 facoltà di Sociologia in Italia. Sinteticamente la matrice dei dati a tre indici considerata può essere indicata: O 5 Fac. Soc. X N 18, K 14 X ( N 18O 5), K 14 In particolare, si riporta nella tabella 5.3 la tabella dei dati (4° fase dell’AMD) costituente la matrice dei dati a tre-vie considerata per le analisi multi-way che seguono e facendo riferimento in particolare alla forma richiesta (impilamento delle 5 matrici) dal software statistico Act-STATIS. Sulla tabella dei dati sono state eseguite tramite gli appositi software (ActStatis e SPAD) più tecniche statistiche multi-way di analisi dei dati. In particolare, nell’applicazione che segue sono state impiegate ripetutamente le seguenti analisi statistiche multi-way: (a) Analisi Congiunta delle tabelle (metodo STATIS): analisi a tre-vie con il metodo STATIS-Duale considerando 18 unità statistiche attive (categorie di studenti secondo le variabili di ingresso) e 14 modalità-variabili (di percorso e di esito) attive; (b) Analisi Fattoriale Multipla (AFM): 18 unità statistiche attive (categorie di studenti) e 14 modalità-variabili di percorso e esito attive. Analoghe analisi multi-way del tipo (a) sono state effettuate considerando le stesse unità attive (categorie di studenti), ma diverse variabili, ossia: - 18 unità statistiche attive e 9 modalità-variabili di percorso attive; - 18 unità statistiche attive e 5 modalità-variabili di esito attive. Ugualmente per le analisi di tipo (b) Analisi Fattoriale Multipla: 18 individui (categorie di studenti) attivi e 9 modalità-variabili di percorso attive; - 18 individui (categorie di studenti) attivi e 5 modalità-variabili di esito attive 1 Con il software SPAD-méthode STATIS tale tabella si costruisce, invece, mettendo consecutivamente, anziché impilate, le 5 matrici delle 5 facoltà considerate. 4^fase AMD: La tabella dei dati: matrice di contingenza generalizzata N r 18;s14 4^ fase: le scelta tabelle dei dati Il caso di studio esaminato Codifiche a posteriori: una possibile ricodifica (di 4^ fase dell’AMD: scelta della tabella dei dati) delle unità di analisi le unità di analisi in macrodati: le categorie di studenti le unità di analisi N = 7.858 u.s. sono state trasformate in N = 18 categorie di studenti ottenute considerando le 4 variabili di ingresso: (1) genere; (2) età all’immatricolazione; (3) tipo di diploma; (4) voto di diploma. Le 18 categorie di studenti sono quindi: (1) maschi; (2). femmine; (3) totale (maschi e femmine); (4) età 18-21; (5) età 22-25; (6) età 26-29; (7) età 30 e oltre; (8) liceo classico; (9) liceo scientifico; (10) liceo socio-pedagogico e istituto magistrale; (11) licei linguistico e artistico; (12) istituto professionale; (13) istituto tecnico; (14) altro tipo di istituto; (15) voto di diploma basso; (16) voto di diploma medio-basso; (17) voto di diploma medio-alto; (18) voto di diploma alto. È da osservare che ulteriori categorie di studenti si potrebbero ottenere mediante gli incroci tra le modalità delle variabili, non necessariamente solo di ingresso, che sarebbero ugualmente interessanti. Se si considerassero, ad esempio, la variabile genere e il totale incrociate con tutte le altre variabili di ingresso si avrebbero: 3 (M,F,T) + 3 × 4 (classi di età all’immatricolazione) = 12 + 3 × 7 (tipo di diploma) = 21 + 3×4 (classi voto di diploma) = 12 categorie di studenti, in totale quindi 3 + 12 + 21 + 12 = 48 categorie di studenti La tabella dei dati AMD: del caso di studio considerato : le codifiche a posteriori effettuate a partire dal data base (matice dei dati iniziali) 4^fase • Nella situazione di ricerca qui considerata, la tabella dei dati è una matrice di intensità o di dati quantitativi in quanto la suddetta matrice Xn,k è composta da dati statistici xij rappresentati da numeri reali, frequenze relative, numeri razionali positivi in una tabella di contingenza (qui in particolare normalizzata[1]) in cui ogni riga della matrice può essere vista come un vettore numerico a k dimensioni indicante le coordinate di un punto-individuo in uno spazio Rk a k-dimensioni, denominato spazio delle unità statistiche. Dualmente ogni colonna della matrice è rappresentata da un vettore numerico a n dimensioni indicante le coordinate di un punto-variabile nello spazio Rn a n-dimensioni, denominato spazio delle variabili. • Come noto (cfr Fraire, 1994), tale matrice ha struttura algebrica di spazio vettoriale euclideo; ciò significa che ad essa possono essere applicate tutte le operazioni tra matrici e la maggior parte dei metodi di Analisi dei dati, sia predittivi che esplorativi. • [1] Ponderando le frequenze assolute delle 14 modalitàvariabili considerate secondo la numerosità N degli immatricolati di ciascuna facoltà si ottiene una tabella di contingenza normalizzata che tiene conto della diversa numerosità degli immatricolati di ciascuna delle 5 sedi considerate. Analisi dell’inter-struttura • Con l’analisi dell’inter-struttura si vuole valutare se le 5 tabelle dei dati considerate attraverso la loro rappresentazione globale e simultanea hanno strutture simili (vicine) o dissimili (lontane). Ciò significa verificare quali categorie di studenti secondo le 14 modalità-variabili considerate di percorso e di esito hanno strutture simili o diverse al variare delle 5 facoltà di Sociologia italiane considerate nel triennio 2001-2003 (cfr. Cap. 3). In altri termini, si vuole esaminare se le 5 facoltà hanno di fatto strutture “omologhe”, ossia non presentano cambiamenti strutturali degli studenti immatricolati tra una e l’altra nel periodo considerato. Sinteticamente si potrebbe rappresentare (cfr. Bolasco, 1999) così la somiglianza o dissomiglianza delle strutture: • a: simili b: dissimili • A tal scopo si calcola la matrice delle distanze euclidee tra matrici di correlazione; essa è simmetrica, quadrata, di dimensione 5 5 (perchè sono 5 le occasioni = facoltà di Sociologia considerate). I coefficienti della matrice, essendo distanze euclidee, sono indici positivi che assumono valore 0 = massima similarità e valori diversi da 0 = dissimilarità tra le coppie considerate Analisi dell’interstruttura Tab. 5.4 – Metodo Statis-Duale: Matrice delle distanze euclidee tra i coefficienti di correlazione (range: 0 = massima similarità, maggiore di 0 = dissimilarità) tra tutte le coppie di facoltà di Sociologia1 RM NA TR CH MI RM 0.000 NA 4.847 0.000 TR 4.844 0.000 2.885 CH 5.931 5.452 4.982 0.000 MI 4.896 5.032 0.000 3.096 0.821 Fig. 5.3 – Plot delle 5 facoltà di Sociologia sul primo piano principale Molto sinteticamente si riportano i risultati per un più agevole confronto nella tabella 5.5. Tab. 5.5 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia Analisi multi-way: MetodoStatis-Duale – Variabili attive Somiglianti Dissomiglianti 14 modalità-variabili attive di percorso e esito [variabili di percorso: crediti acquisiti (4 modalità), votazione media conseguita (5 modalità); variabili di esito: posizione amministrativa attuale (5 modalità)]. TR-MI (0,821) TR-NA (2,885) MI-NA (3,096) RM-CH (5,931) NA-CH (5,452) MI-CH (5,032) 1 La similarità o dissimilarità tra le 5 tabelle dei dati può essere misurata sia impiegando una metrica basata su distanze tra unità statistiche (ad esempio, distanza euclidea, di Manhattan, di Mahalanobis, indici di distanza come il ² e così via) sia da distanze tra varianze-covarianze, correlazioni secondo il tipo di codifica a posteriori scelta per la matrice a tre-vie. Nell’applicazione considerata la metrica riguarda la distanza euclidea tra coefficienti di correlazione. Analisi dell’interstruttura: una sintesi Nella tabella 5.6 si riporta una sintesi dei risultati finali dell’analisi dell’inter-struttura qualora si considerino come variabili attive rispettivamente: (a) solo le 9 modalità-variabili di percorso e (b) solo le 5 modalità-variabili di esito 1. Tab. 5.6 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia Analisi multi-way: MetodoStatis- Somiglianti Dissomiglianti Duale – Variabili attive (a) 9 modalità-variabili attive di TR-MI (0,247) RM-CH percorso [crediti acquisiti (4 TR-NA (2,431) (4,710) modalità), votazione media MI-NA (2,551) MI-RM (4,228) conseguita (5 modalità)]. TR-RM (4,216) (b) 5 modalità-variabili attive di RM-TR (0,154) NA-CH (1,020) esito [posizione amministrativa RM-NA RM-CH attuale (5 modalità)]. (0,253) (0,961) NA-TR (0,374) CH-TR (0,868) Queste ulteriori analisi mettono in evidenza il maggior ruolo delle variabili attive di esito nel differenziare le 5 facoltà considerate. Si noti, inoltre, che dal valore dell’inerzia spiegata dai primi due assi principali si possono ipotizzare due dimensioni sottostanti le variabili attive considerate. NOTA: Nel caso (a) il primo piano fattoriale è risultato spiegare lo 85,26% della varianza totale originaria (in particolare il primo fattore il 47,15% e il secondo il 38,11%). Nel caso (b) il primo piano fattoriale è risultato spiegare il 93,69% della varianza totale originaria (il primo fattore lo 81,10% e il secondo il 12,59%). 1 Analisi dell’intra-struttura: individui e variabili compromesso, la nuvola dei punti- medi Con l’analisi dell’intra-struttura si vogliono individuare i punti-individui medi (lo studente delle facoltà di Sociologia-medio) e i punti-variabili medi (variabili di percorso e di esito-medi) attraverso le 5 facoltà di Sociologia. Per l’analisi dell’intra-struttura si diagonalizza la matrice compromesso dalla quale si ottengono, limitandosi qui a riportare solo i primi due fattori (assi compromesso), i seguenti autovalori per le tre analisi multi-way effettuate: (a1) 14 modalità-variabili attive di percorso ed esito: 1+ 2 = 83,65% + 5,18% = 88,83% (a2) 9 modalità-variabili attive di percorso: 1+ 2 = 81,65% + 7,01% = 88,66% (a3) 5 variabili attive di esito: 1+ 2 = 90,98% + 5,21% = 96,20% Anche in questo caso è possibile rappresentare sul primo piano fattoriale sia le variabili (punti variabili-medie) che le u.s. (punti-individui-medi) rispetto ai primi due assi compromesso. Si riporta nella figura 5.4 il plot sul primo piano principale compromesso dei punti-variabili medi e nella tabella 5.7 i principali indici statistici, limitandosi ai primi due fattori e solo alla prima delle tre analisi multi-way considerate. La matrice ‘media’ o ‘matrice compromesso’: calcolo e significato nel caso di studio considerato Al fine di interpretare più agevolmente i plot suddetti, si riportano le coordinate fattoriali, i contributi assoluti (correlazioni variabili-assi principali compromesso) e il coseno quadrato (contributo relativo = cos², variante tra 0 e 1, con 0 = pessima e 1= ottima qualità della rappresentazione dei punti sul primo piano principale compromesso) per la prima delle tre analisi multi-way effettuate e con riferimento al solo primo piano principale. Nelle applicazioni considerate (casi diversi, stesse variabili) la matrice compromesso è ottenuta come prodotto scalare delle matrici di correlazione con la loro media aritmetica ponderata. Circa il significato da attribuire alla matrice compromesso, è da osservare che nel caso esaminato essa può essere interpretata come lo studente medio, più rappresentativo rispetto alle 5 facoltà di Sociologia italiane nel periodo considerato. È da osservare che la matrice media o matrice compromesso rappresenta la sintesi di tutte le matrici ed è data dalla media aritmetica ponderata delle matrici di similarità o distanza N N tra individui corrispondenti alle matrici originarie espresse in scarti dalla media ponderate con gli autovettori corrispondenti al primo più grande autovalore della matrice C Cij, essendo Cij = tr(iSjS). Basandosi sul primo autovalore la matrice compromesso è robusta in quanto poco influenzata dalle piccole variazioni delle matrici di similarità (cfr. Rizzi, 1987). Tab. 5.7 – Indici statistici del primo piano principale compromesso Numero Autovalore Percentuale Percentuale cumulata Istogramma 1 11,7116 83,65 83,65 ***************************** 2 0,7252 5,18 88,83 ***** 3 0,4438 3,17 92,00 **** 4 0,3122 2,23 94,23 *** 5 0,2461 1,76 95,99 ** Coordinate fattoriali, contributi assoluti e coseno quadrato del primo piano fattoriale compromesso (88,83% dell’inerzia totale) Coordinate fattoriali Contribuiti assoluti Coseni quadrati Modalità-variabili 1 2 1 2 1 2 Improduttivi -0,96 -0,15 0,08 0,03 0,92 0,02 Poco produttivi -0,97 -0,06 0,07 0,12 0,87 0,08 Abbastanza produttivi -0,97 -0,06 0,08 0,00 0,94 0,00 Produttivi -0,79 0,44 0,05 0,27 0,62 0,19 Nessuna votazione -0,92 -0,32 0,07 0,14 0,84 0,10 Votazione bassa -0,79 0,19 0,05 0,05 0,63 0,04 Votazione medio-bassa -0,86 -0,32 0,06 0,14 0,74 0,10 Votazione medio-alta -0,94 0,15 0,08 0,03 0,89 0,02 Votazione alta -0,89 0,25 0,07 0,09 0,79 0,06 Iscritto -0,99 0,06 0,08 0,00 0,98 0,00 Interpretazione dei risultati dell’intra-struttura • L’analisi dei suddetti plot e dei relativi indici statistici dei punti-variabile medi fornisce un’indicazione circa il significato che si potrebbe attribuire alle due dimensioni sottostanti, ai due assi principali compromesso: • - il primo asse principale (compromesso) rappresenta lo studente avente percorso “medio” nelle variabili di percorso (votazione media, produttivi); • - il secondo asse principale (compromesso) dà conto, invece, dello studente “atipico”, sia in positivo che in negativo, rispetto alle variabili di percorso, ossia molto produttivo, con votazione alta ed esito positivo (laureato) oppure con votazione bassa, improduttivo ed esito negativo. • Le variabili di esito non risultano, quindi, essere discriminanti, almeno rispetto alle 18 categorie di studenti “medi”. Per poter approfondire ulteriormente tale risultato, apparentemente incongruente, è necessario effettuare un’analisi delle unità statistiche, oltre che delle variabili medie, ossia delle 18 categorie di studenti attraverso le 5 facoltà di Sociologia, al fine di individuarne eventuali cluster. L’Analisi fattoriale multipla (AFM) (analyse factorielle multiple) Nell’ambito delle analisi multi-way Statis, poiché nella codifica della matrice dei dati considerata le u.s. (categorie di studenti) sono state considerate diverse (essendo diversi gli studenti delle 5 facoltà di Sociologia considerate), non ha significato calcolare oltre che le variabili-medie anche gli individui-medi (compromesso), possibile, invece, nel caso di una codifica a posteriori in cui anche le u.s. siano considerate uguali attraverso le occasioni (cfr. Par. 5.2.2). Per esaminare più dettagliatamente anche le unità statistiche attraverso le 5 facoltà considerate si effettuerà un’analisi fattoriale multipla (AFM) mediante la quale sarà possibile individuare cluster di studenti. Nell’ambito delle analisi multi-way (cfr Par. 5.2.1) l’Analisi Fattoriale Multipla (AFM) è adatta per analizzare differenti gruppi di individui sui quali sono osservate le stesse o differenti variabili quantitative o qualitative. L’AFM si basa su ripetute applicazioni e sintesi di Analisi in Componenti Principali (d’ora in avanti ACP) nel caso di variabili o di Analisi delle Corrispondenze Multiple per mutabili (d’ora in avanti ACM). Come già sopra accennato nell’Analisi a tre-vie duale, ossia in cui si considerano diversi gli individui (18 categorie di studenti) e uguali le variabili (di percorso ed esito), il plot degli individui-medi non viene calcolato. Si propone allora di applicare in questo caso sulla stessa tabella dei dati (cfr. tab. 5.3) l’Analisi Fattoriale Multipla (Analyse Factorielle Multiple) al fine di avere una classificazione degli individui rispetto alle 5 facoltà di sociologia contemporaneamente considerate, ossia individuare clusters di individui. Per brevità si riportano solo alcuni dei risultati ottenuti dall’AFM e, in particolare, solo quelli relativi all’analisi globale delle 5 tabelle di dati considerate ed ai soli punti-individui1, limitandosi al primo piano principale globale delle 14 variabili attive nelle figure 5.5a, 5.5b e 5.5c. NOTA: Le elaborazioni dei dati sono state effettuate con il software WinSPAD, Analyse des Tableaux Multiples, Analyse Factorielle Multiple. L’output dei risultati è in realtà molto ricco e comprende sia le ACP per le singole matrici dei dati considerate (in questo caso cinque ACP sulle 5 matrici di dati quantitativi) con i relativi indici statistici (autovalori, coordinate fattoriali, contributi assoluti e relativi, ecc.) che i risultati numerici e grafici dell’Analisi Globale, ossia delle 5 tabelle dei dati simultaneamente considerate riferendo, quindi, ai risultati sia numerici (autovalori, coordinate fattoriali, contributi assoluti e relativi ecc.) che grafici riferiti ai punti-individui e ai punti-variabili sui piani principali “compromesso”. I risultati dell’AFM: Fig. 5.5a – Analisi Fattoriale Multipla: Plot dei 90 punti-individui attivi 1 sul primo piano principale globale (1+ = 79,87% + 7,51% = 87,38% della varianza totale)2 Dall’analisi fattoriale multipla mediante la quale è stato possibile individuare 6 cluster delle 14 categorie di studenti attraverso le 5 facoltà di Sociologia. Essi si collocano sul primo piano principale come segue: - il 1° cluster nel IV versante si contrappone al 6° cluster nel II versante; - il 4° cluster nel I versante si contrappone al 2° cluster nel III versante; - il 3° cluster si colloca nelle vicinanze dell’origine degli assi, quindi con scarsissima correlazione con entrambi gli assi; - il 5° cluster si colloca in una posizione inter-cluster. 1 18 categorie di studenti × 5 Facoltà di Sociologia = 90 punti-individui attivi. Il primo piano principale si riferisce qui al piano delle 14 variabili (attive) di percorso e di esito. È da osservare che nell’AFM è possibile rappresentare oltre al plot degli individui anche il plot dei punti-variabili, che qui per brevità non si riporta, tramite il cerchio delle correlazioni sul primo piano fattoriale; esso tuttavia coincide con la rappresentazione dei punti-variabili medi rappresentate con il metodo Statis-duale sul primo piano principale compromesso che è stato riportato qui in figura 5.4. 2 Considerazioni conclusive Con l’analisi multi-way ed, in particolare, con l’analisi a tre-vie è stato possibile - confrontare globalmente e simultaneamente le 5 facoltà di Sociologia rispetto alle 18 categorie di studenti e alle 14 modalità-variabili inerenti. In particolare, con l’analisi dell’inter-struttura la coppia di facoltà di Sociologia più simile rispetto alle caratteristiche di percorso e di esito risulta essere Trento-Milano seguita, a molta distanza, quindi, con una similitudine assai minore, da Trento-Napoli e Milano-Napoli. La Facoltà di Sociologia di Roma si configura con una caratterizzazione abbastanza singolare e contrapposta, sullo stesso asse fattoriale a Napoli, Milano e Trento. Esaminando anche le altre due analisi dell’inter-struttura (soltanto di percorso e soltanto di esito) si potrebbe ipotizzare che tale unicità sia dovuta alle variabili di percorso degli studenti piuttosto che alle variabili di esito. Inoltre, rispetto alla Facoltà di Sociologia di Chieti si registra, invece, una forte, con valori tutti elevati, dissomiglianza con tutte le altre facoltà di Sociologia e la sua posizione sul secondo asse fattoriale. Con l’analisi dell’intra-struttura si sono individuate due dimensioni sottostanti le 14 variabili di percorso ed esito-compromesso considerate - una prima dimensione (primo asse principale compromesso) rappresentante lo studente con percorso “medio” nelle variabili di percorso (votazione media, mediamente produttivi). - Una seconda dimensione (secondo asse principale compromesso) rappresentante, invece, lo studente “atipico” sia in positivo che in negativo rispetto alle variabili di percorso ossia molto produttivo, con votazione alta ed esito positivo (ossia laureato) oppure improduttivo, con votazione bassa ed esito negativo. Ciò porterebbe a immaginare difficoltà inerenti non solo la “dotazione” dello studente in ingresso, ma “l’architettura” stessa, l’organizzazione intesa come numero di esami e relativi crediti introdotta di fatto dal 3+2, moltiplicando notevolmente il numero dei moduli didattici e, quindi, i relativi esami da sostenere nel triennio, che sono spesso di gran lunga superiori a quelli che erano previsti nel vecchio ordinamento e risultano molto “pesanti” non solo per gli studenti meno ma anche per quelli più dotati, per i quali risulta spesso assai difficile mantenere un profilo di esito (ad esempio, laurearsi nel numero di anni previsto dal corso anziché fuoricorso) come, invece, avveniva nel vecchio ordinamento. Anche dall’analisi fattoriale multipla mediante la quale è stato possibile individuare 6 cluster delle 14 categorie di studenti attraverso le 5 facoltà di Sociologia. Il caso di studio Caso di studio n.7 • Se sono dati testuali: • Se è una matrice dei dati testuali • ‘Le preoccupazioni sociali rilevanti e la QdV nelle C.M.’ e l’analisi a tre vie per l’individuazione di indicatori lessicali empirici • Relazione presentata alla 5^JADT2000, Losanna 9-11 marzo su M.Fraire, ‘Analisi a 3-vie delle risposte a domande aperte e indicatori empirici • Riferim.bibliograf. ‘Sociologia e Ricerca Sociale’ n.61/anno XXI, 2000 1^ fase AMD L’Analisi dei dati testuali a 3-vie • La documentazione statistica di partenza: • campo d’indagine, questionario, popolazione e le matrici • • • • • • • • • • dei dati iniziali Particolare questionario ‘Scheda descrittiva-per problemi’ caratterizzato da una serie di 8 domande aperte miranti ad individuare le ‘preoccupazioni sociali rilevanti’ per ciascuna delle seguenti 8 ‘aree di rilevanza sociale’: A: ‘Salute’ ; B:’Istruzione e formazione professionale’; C: ‘Occupazione e Qualità del lavoro’; D:’Impiego del tempo libero’; E: ‘Situazione economica personale’; F:’Ambiente fisico’; G:’Ambiente sociale’; H: ‘Sicurezza personale’, nelle quali era stata scomposta la definizione astratta di QdV. le risposte alle 8 domande aperte date da ciascuno dei 22 operatori (presidenti di C.M.) hanno costituito il file di testo originario composto quindi da 8 sub-files • Creazione della matrice dei dati testuali e • codifiche a posteriori: correzione, disambiguazione e segmentazione del testo e le prime analisi statistiche dei testi. un esempio di matrice dei dati testuali (Il questionario:1^fase dell’AMD) ………………………………… Le matrici dei dati iniziali testuali (2^fase dell’AMDT) : il file di testo nell’Analisi dei Dati Testuali: La matrice ‘QdVCM.txt' - - - ----01PIECN A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI SERVIZI DI TRASPORTO. ++++ B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI. PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI. SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE ESIGENZE DEL MONDO DEL LAVORO. ++++ C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE. DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI PRIMA OCCUPAZIONE. AUMENTA IL LAVORO NERO E PART-TIME. ++++ D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE. PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE. ++++ E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO. PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO E IL COSTO PER IL RISCALDAMENTO. ++++ F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL TRAFFICO PROVINCIALE. DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE. ++++ G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI RIGUARDANO L'ASSISTENZA AGLI ANZIANI. FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO DELLA DROGA. ++++ H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI. ----02VADAO A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI TRASPORTI. ++++ B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE. MANCA UNA SEDE UNIVERSITARIA. ++++ ………………………... ----22SARNU 3^fase AMD Analisi dei dati testuali Un esempio di codifiche a posteriori di 3^ fase: la selezione delle risposte caratteristiche • Selezione delle risposte caratteristiche secondo le ripartizioni geografiche. (Criterio del Chi-quadrato) • • • • • • • • • • • • • • • INDICE CHI-QUADRATO RISPOSTE CARATTERISTICHE Nord-Ovest .447 -1 ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. .592 -2 ASSENZA DI OSPEDALI E PRONTO SOCCORSO 2 MALATTIE TIPICHE DEGLI ANZIANI.NEOPLASIE. .738 -3 ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE 3 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE PER CARENZA DI TRASPORTI. Nord-Est .480 -1 ELEVATA PRESENZA DI GOZZO PER CARENZA DI IODIO NELL'ACQUA POTABILE. 1 ALTO TASSO DI INVALIDI IN AGRICOLTURA PER INCIDENTI. .725 -2 ALTO TASSO DI HANDICAP E INVALIDI. .754 -3 NON FUNZIONALITA DEI DISTRETTI DI BASE 3 ASSENZA DI STRUTTURE PER HANDICAPPATI. .766 -4 CLIMA UMIDO MALATTIE REUMATICHE E BRONCHIALI . .864 -5 DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE IN CASO DI EMERGENZA. Centro .534 -1 STRUTTURE SANITARIE ACCENTRATE PRESSO L'OSPEDALE CIVILE. 1 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER ASS.DISTR DI BASE. .640 -3 CARENZA DI UN CONSULTORIO FAMILIARE 3 ASSENZA DI CENTRI DI IGIENE MENTALE .735 -4 ASSENZA DI PRESTAZIONI SANITARIE PERIFERICHE. .804 -5 ALTO TASSO MALATTIE REUMATICHE PER CLIMA UMIDO. 5 ALTO TASSO DI ANZIANI PER SPOPOLAMENTO. Sud .501 -1 ASSENZA DI ASILI NIDO E STRUTTURE PER HANDICAPPATI 504 2 ALTO TASSO DI HANDICAPS E INVALIDI CIVILI. 2 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER ASS.DI DISTR.DI BASE .561 -3 ALTO TASSO DI HANDICAPS PER POLIOMIELITE. .772 -4 ASSENZA DI SERVIZI PER ANZIANI.CARENZA DI STRUTTURE PER HANDICAPPATI. .778 -5 ALTO TASSO DI INVALIDI 5 ASSENZA DI PRESTAZIONI SANITARIE PUBBLICHE. Isole .376 -1 ASSENZA DI UN CENTRO DI RIANIMAZIONE. 1 CARENZA DI CENTRI DI SERVIZIO SOCIALE IN AMBITO USL .695 -2 ALTO TASSO DI INVALIDI CIVILI.CARENZA DI SERVIZI SANITARI. .937 -3 ALTO TASSO DI HANDICAP E INVALIDI. • • • • • • • • • • • • • • • • • • • • • • L’analisi a tre-vie • Mediante l’analisi dei dati a tre vie si sono volute esaminare tutte insieme, contemporaneamente e globalmente, le 8 aree di rilevanza sociale (occasioni), le u.s. (5 ripartizioni geografiche) e le tre variabili (primi 3 fattori) di ogni area ossia le 8 tabelle di contingenza nella forma di tabelle di dati quantitativi suddetta al fine di individuare: • a) attraverso la rappresentazione globale di tutte le tabelle quali di esse hanno una struttura simile o diversa e, attraverso la loro distanza dalla tabella ‘media’ (matrice compromesso), valutare quali di esse contribuiscono maggiormente alla parte di variabilità eccedente quella comune rappresentata dalla matrice compromesso (analisi dell’interstruttura); • b) individuare sia per gli individui (punti individui-medi) che per le variabili (punti variabili-medie) le caratteristiche della variabilità media nelle 8 occasioni (analisi dell’intrastruttura). • c) individuare e confrontare le ‘traiettorie’ di ciascuna u.s.(qui le 5 ripartizioni geografiche) per l’insieme delle 8 occasioni (aree di rilevanza sociale) considerate ossia i diversi ‘percorsi’ e quindi il diverso ruolo di ciascuna area di rilevanza sociale nel definire la QdV di ciascuna ripartizione (analisi delle traiettorie). 3^fase AMD Le codifiche a posteriori • . Si sono considerati i dati centrati e ridotti perché la variabilità delle singole variabili era molto diversa. Infine si è richiesta la normalizzazione delle tabelle per ottenere coefficienti di relazione tra tabelle (l’indice RV di Escoufier) varianti tra 0 e 1. • in generale nelle applicazioni informatiche (qui ad esempio si è impiegato il software ACTméthode STATIS), tale codifica si è ottenuta per impilamento delle tabelle e imponendo poi la condizione che le variabili fossero diverse in ogni occasione e le u.s. uguali A)Analisi dell’interstruttura: la collocazione delle aree di rilevanza sociale attravero l’analisi dell’interstruttura Fig.2 - Rappresentazione sul primo piano fattoriale centrato (72,04%) rispetto alla matrice compromesso delle 8 aree di rilevanza sociale -----------------------------------------------------------------------------------------------------------------------1! 1 ! 2 28,14% ! 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 11! ! ! 12! ! ! 13! ! ! 14! ! ! 15! ! ! 16! ! ! 17! ! 5 ! 18! ! ! 19! ! ! 20! ! ! 21! ! ! 22! ! ! 29! ! ! 30! ! ! 31! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! ! ! 38! 2 ! 39! ! ! 1 43,90%, 40! ! ! 41!7 --------------------------------------------------------WD -------------------------------------------------------! 42! ! ! ! 45! ! 8 ! 46! ! ! 47! 6 ! 48! ! ! 49! ! ! 50! ! ! 51! ! ! 52! ! ! 53! ! ! 54! ! ! 60! ! ! 61! ! ! 62! ! ! 63! ! ! 64! ! ! 65! ! ! 66! ! ! 67! ! ! 68! ! 3 69! ! ! 70! ! ! 71! ! ! 72! ! 4 ------------------------------------------------------------------------------------------------------------------------ (salute) (Situaz.econ.person.) (Istruz.e Form.Prof.) (Ambiente sociale) (Ambiente fisico) (Sicurezza sociale) (Occupazione) (Impieghi del t.l.) Questa classificazione ‘a posteriori’ in due clusters delle 8 aree definite ‘a priori’ emerge comunque dall’analisi della parte di variabilità delle 8 tabelle eccedente la variabilità ‘media’. Esaminiamo allora più dettagliatamente sia rispetto alle u.s. che alle variabili le caratteristiche della variabilità ‘media’. B)Analisi dell’intrastruttura: la collocaizone delle ripartizoni geografiche rispetto alle preoccupazioni sociali rilevanti Rappresentazione delle 5 ripartizioni geografiche (5 punti unità-medi) rispetto ai primi due assi compromesso (60,48%) -----------------------------------------------------------------------------------------------------------------------1! SUD ! ! 2 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! ! ! 38! ! ! 39! ! ! 40! ! ! 41! ! ! 42! ! ! 43! ! ! 1 44! ! ! 45!------------------------------------ ! --------------------------------------------------------------------------------! 46! NEst ! 47! ! ! 48! ! ! 49! ! ! 50! ! ! 51! ! ! 52! ! ! 53! ! NOvest 54! ! ! 55! ! ! 56! ! ! 57! ISOL ! 58! ! ! 59! ! ! 60! ! ! 61! ! ! 62! ! ! 63! ! ! 64! ! ! 65!CENTRO ! ! ------------------------------------------------------------------------------------------------------------------------ 28,00% 32,48% Sul primo asse si evidenzia la contrapposizione tra NEst (-) e Novest (+), mentre sul secondo asse la contrapposizione tra Sud (+) e Isole (-). Il Centro come già rilevato nell’Analisi delle corrispondenze è scarsamente correlato (contributi assoluti molto bassi) su entrambi gli assi. C)Analisi delle traiettorie Fig.4 – Traiettorie delle 5 Ripartizioni geografiche primo (4a)e al secondo (4b)asse fattoriale in funzione di rilevanza sociale. rispetto al delle 8 aree 0!------------------------------------------------------------------------------------------------------------------------ 1! Fig.4a : 1 32, 48% 2! A ! 3! A ! 4! ! 5! ! 6! A A ! 7! ! 8! ! 9! A A ! 10! ! 11! ! 12! ! 13! ! 14! ! 15! A ! 16! NOvest A ! 17! ! 24! ! 25! NEst B ! 26! ! 27! ! 28! ! 29! D ! 30! ! 31! ! 32! D ! 33! B ! 34!------------1 ----------2 ---------3E --------4 ----------5B --------6 ----------7 ----------8E -------------------35! 36! D ! 37! D D ! 38! E D B ! 39! D E ! 40! E ! 41! Isole E B ! 42! Centro C B ! 43! Sud D C ! 44! E ! 45! ! 46! E C C C B C ! 47! ! 48! B ! 49! C ! 50! C ! ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------1! 2! 3! 4! 5! 6! 7! 8! 9! 10! 11! 12! 13! Fig.4b: 2 28,00% D D D D Sud D D D D ! ! ! ! ! ! ! ! ! ! ! ! 23! B ! 24! ! 25! NEst B ! 26! ! 27! ! 28! B B ! 29! A ! 30!------------1 ----------2 ----------3 ----------4 ----------5 ----------6 ----------7 ----------8 ----------------------! 31! E B ! 32! E A C ! 33! A ! 34! C B ! 35! A ! 36! ! 37! E A E ! 38! Centro C A A ! 39! B E ! 40! NOvest A E E ! 41! B ! 42! C E ! Isole 43! ! 44! C C 45! ! 46! ! 47! C ! 48! ! 49! ! 50! C ! ------------------------------------------------------------------------------------------------------------------------ Legenda:Ripart. Geograf.: A:Novest; B:NEst; C: Centro; D:Sud; E:Isole. AreediRil.Soc.:1:Salute;2:Istruz.eForm.Prof.;3:Occup.eQdL;4:ImpieghiT.L.;5:S it.Econ.Pers.;6: Ambiente Fisico;7: Ambiente Sociale; 8: Sicurezza Personale. Le linee tratteggiate non vanno ovviamente interpretate come funzioni ma qui sono solo strumentalmente impiegate per facilitare il confronto delle diverse traiettorie sovrapposte. Si noti come rispetto alle traiettorie del primo asse (Fig.4a) è la ripartizione NOvest che si differenzia nettamente dalle altre nell’articolazione delle 8 aree di rilevanza sociale che costituiscono la definizione di QdV ipotizzata mentre rispetto al secondo asse (Fig.4b) è il Sud a differenziarsi nettamente dalle traiettorie delle altre ripartizioni. Inoltre, pur nella diversità dei ‘percorsi’ delle ripartizioni dovuti ad una diversa struttura delle preoccupazioni sociali rilevanti di ciascuna area, vi sono delle aree vicine ossia tabelle di una data area simili nella struttura, ad esempio nella Fig.4a: l’area 1:‘Salute’ nelle Isole, Centro e Sud; l’area 7: ‘Ambiente sociale’ nel NEst e Sud; Centro e Isole; l’area 4: ‘Impieghi del T.L.’ per il Centro e NEst. FINE LEZIONI 3-4 APRILE 2013 DdR RASS