SAPIENZA – Università di Roma Dipartimento di di Scienze Sociali (DiSS) DdR RICERCA APPLICATA ALLE SCIENZE SOCIALI (RASS.) a.a. 2010-2011 ‘Analisi esplorativa delle tabelle multiple: la multi-way data analysis’ Lezione del 19 APRILE 2011 ore 16:00-19:00, Aula B8 SAPIENZA – Università di Roma Dipartimento di di Scienze Sociali (DiSS) DdR RICERCA APPLICATA ALLE SCIENZE SOCIALI (RASS) a.a. 210-2011 ‘Analisi esplorativa delle tabelle multiple: la multi-way data analysis’ Prof.ssa Mary Fraire Lezione del 19 APRILE 2011 ore 16:00-19:00, Aula B8 Indice degli argomenti 1.Introduzione : Analisi esplorativa multidimensionale dei dati (EMDA-Exploratory Multidimensional Data Analysis) e analisi confermativa multivariata dei dati (CMDA-Confirmatory Multivariate Data Analysis) . Una distinzione importante nell’analisi delle relazioni statistiche. Un approccio alla complessità: l’analisi dei dati come ‘sistema’e le 7 fasi statistiche e informatiche dell’EMDA 2.Le fasi preliminari dell’EMDA (cenni). 3.L’analisi esplorativa delle tabelle multiple (multi-way data analysis): - origini storiche e classificazione delle diverse tecniche - le 3 fasi della multi-way - aspetti statistici e informatici 4. Caso di studio n.1: se è una tabella inventario (il questionario; un database) [Rif.bibliogr.: M.Fraire, Analisi multi-way delle principali caratteristiche di ingresso, percorso ed esito degli studenti delle facoltà di Sociologia italiane, in A.Fasanella, L’impatto della riforma universitaria del ‘3+2’ sulla formazione sociologica, Franco Angeli] 5. Caso di studio n.2: se è una matrice di intensità (uso del tempo) codificata a posteriori come tabella di contingenza;[Rif.bibliogr.:M.Fraire, (2006) , Multi-way data analysis for comparing time use in different coutrie. Application to time budgets at different stages of life in six European caountries, in eIJTUR 2006, vol.3, No.1, 88-109] 6. Caso di Studio n. 2 bis: se è una matrice di intensità (uso del tempo) codificata a posteriori come tabella di intensità con le durate medie generiche in minuti [L’uso del tempo dei partner];[Rif.bibliogr.:M.Fraire, (2009) , Statistical Methods for Exploratory Multidimensional Data Analysis on Time Use, in Statistica anno LXIX, n.4,2009 7.. Caso di Studio n.2ter: se è una matrice di intensità o dati quantitativi (codificata a posteriori con i quozienti di micro-criminalità) .[Rifer.bibliogr.:M.Fraire,(2003),, Analisi multidimensionale spaziotemporale della criminalità diffusa nei Municipi di Roma, in Beato F., La calma insicurezza. Percezione sociale del rischio ed uso della città, Liguori Ed. 2003 8. Caso di studio n.3 : se sono dati testuali (la matrice dei dati testuali). [Rifer.bibliogr.: M.Fraire,(2000), Analisi dei Dati a Tre-Vie delle Risposte a Domande Aperte e Indicatori Empirici, Actes 5 Journées internationales d’Analyse statistique des Données Textuelles (JADT 2000 Losanna, 9-11 marzo 2000), EPFL, M.Rajman & J.-C. Chappelier editeurs Prof.ssa Mary Fraire – Professore ordinario di Statistica Dip.to di Scienze Sociali (DiSS) e-mail: [email protected] Facoltà di Scienze Politiche, Sociologia, Comunicazione Università di Roma ‘La Sapienza’ Riferimenti bibliografici Multidimensional and Multivariate Data Analysis and Methodology Act-Statis 1989),Analyse conjointe de tableaux quantitatifs. Méthode STATIS, CISIA, Saint Mandé (France) Anderberg M.R. (1973), Cluster Analysis for Applications, New York, Academic Press Inc. Bolasco S. (1999), Analisi Multidimenislnale dei dati, Roma, Carocci Ed. Benzécri J.P. (1973), L’Analyse des Données, tome I: Taxinomie, tome II: Analyse des Correspondaneces, Dunod, Paris; Bertier P., Bouroche J-M (1975), Analyse des Données Multidimensionneelles, France, Ed. P.U.F. Caillez F., Pages J.P. (1976), Introduction à l’Analyse des Données, Paris, S.M.A.S.H. Coppi R. (1979), Alla base dei metodi statistici: la formalizzazione dei dati, in Quaderni di Statistica Sanitaria, Anno II, n.1, Facoltà Sciense Stat.Dem.Att., Università di Roma ‚La Sapienza‘. Coppi R., Bolasco S (eds)(1989), The Analysis of Multiway Data Matrices, North Holland, Amsterdam Corbetta P.G.(1992), Metodi di Analisi Multivariata per le Scienze Sociali, Bologna, il Mulino P. Corbetta, G.Gasperoni, M.Pisati,(2001) Statistica per la ricerca sociale, Ed. Il Mulino, Bologna, 2001 Di Franco(2001) EDS: esplorare, descrivere e sintetizzare I dati.Guida pratica all’analisi dei dati nella ricerca sociale, FrancoAngeli 2001 Di Franco (2003), L’Analisi multivariata nelle scienze sociali. Modelli log-lineari e variabili categoriali, Carocci2003 Escofier B., Pagès J. (1984), L’analyse factorielle multiple, in Cahiers du Bureau Univ. Recherche Operat., Série Recherche 423 Escoufier Y. (1980), L’analyse conjointe de plusieurs matrices, in Jolivet et al. (eds.), Biométrie et Temps, Société Francaise de Biométrie. Fabbris L., 1997, Statistica multivariata, Milano, McGraw-Hill Fisher W.F.(1958), On grouping for maximum Homogeneity, Journ.Amer.Stat.Ass., 53, pp789-98 Fraire M., (1989) , Problemi e metodologie statistiche di misurazione di fenomeni complessi tramite indicatori e indici sintetici, in 'Statistica', anno XLIX n.2, 1989. ID. (1994), Metodi di Analisi Multidimensionale dei Dati. Aspetti statistici e applicazioni informatiche., Roma, CISU, 1994; ID.(1995), Multidimensional data analysis ans its preliminary phases: statistical aspects, in Rizzi A. Ed., Some Relations Between Matrices and Structures of Multidimensional Data Analysis, Applied Mathematics Monographs, n.8 1995, Giardini Editori e Stampatori in Pisa, Italy. ID.(1997), Complessità instabilità e caos: esplorazione statistica multidimensionale e fenomeni sociali, Atti V° Congresso Internazionale degli Studi sulle Utopie, Macerata 27 maggio 1995, Giuffrè Ed. Milano, ID.(2000), Analisi dei Dati a Tre-Vie delle Risposte a Domande Aperte e Indicatori Empirici, Actes 5 Journées internationales d’Analyse statistique des Données Textuelles (JADT 2000 Losanna, 9-11 marzo 2000), EPFL, M.Rajman & J.-C. Chappelier editeurs ID(2002), L’Analisi in Componenti Principali (ACP) e la Cluster Analysis (CA), Note metodologiche in R.Cipollini (a cura di), Stranieri. Percezione dello straniero e pregiudizio etnico, Franco Angeli ID (2003),, Analisi multidimensionale spazio-temporale della criminalità diffusa nei Municipi di Roma, in Beato F., La calma insicurezza. Percezione sociale del rischio ed uso della città, Liguori Ed. 2003 ID (2006) , Multi-way data analysis for comparing time use in different coutrie. Application to time budgets at different stages of life in six European caountries, in eIJTUR 2006, vol.3, No.1, 88-109 ID (2007), Analisi multi-way delle principali caratteristiche di ingresso, percorso ed esito degli studenti delle facoltà di Sociologia italiane, in A.Fasanella, L’impatto della riforma universitaria del ‘3+2’ sulla formazione sociologica, Franco Angeli ID(2009),Statistical Methods for Exploratory Multidimensional Data Analysis on Time Use, in 'Statistica', annoLXIX n.4, 2009 Hotelling H. (1936), Analysis of a Complex of Statistical Variables into Principal Components, Journal Educational. Psychology 24,pp 417-41, 498-520 Lauro N.C., D’Ambra L. (1984), L’Analyse non-symétrique des Correspondances, in Data Analysis and Informatics, III, Diday et al. Ed.North-Holland,p 433-446 Lauro N.C., Decarli (1982), Correspondence analysis and log-linear models, in Metron, multiway contingency tables study, 1-2, p 213-234 Lebart L. Morineau A., Piron M. (1997), Statistique Exploratoire Multidimensionnelle, Paris, Dunod, ISTAT Pearson K (1901), On lines and planes of closest fit to systems of points in space, Philosophical Magazine, 6, 2, pp55971 Rizzi A. (1989), Analisi dei Dati. Applicazioni dell’informatica alla Statistica, Roma , NIS. Statera G., 1997, La Ricerca Sociale.Logica, strategie, tecniche, Roma SEAM Tryon R.C., Bayley D. (1939), Cluster Analysis, New York, McGraw Hill 1970 Tucker L.R. (1958), An inter.battery method of factor analysis, Psychometrika, 23, (2) Una distinzione importante nell’analisi delle relazioni statistiche • Nell’analisi delle relazioni statistiche è importante distinguere: • Analisi dell’interdipendenza strettamente statistica (‘osservata ’): correlazione, covariazione, connessione: si può osservare, semplicemente osserviamo che due variabhili presentanto variazioni concomitanti, al variare dell’una l’altra varia (Tecniche di esplorazione e riduzione dei dati dell’Analisi Esplorativa Multidimensionale dei Dati) • Analisi della dipendenza ‘logica’ , ‘causazione’ (non si può osservare, necessita di una ‘teoria) la causazione implica la nozione di ‘produzione’ ossia se X è causa di Y ad una trasformazione di X si produce una trasformazione in Y e non soltanto che una trasformazione di X è seguita o ‘associata’ ad una trasformazione di Y (Blalock,1961)(Tecniche confermative multivariate di Regressione multipla e Analisi causale, predittive) ANALISI DELLA COVARIANZA e ANALISI DELLA ‘CAUSAZIONE’ ►L’analisi dell’interdipendenza o covariazione o dipendenza strettamente statistica (‘osservata’) tra due caratteri consente di misurare, attraverso opportuni indici statistici, la forma (segno nel caso di variabili ordinali e cardinali) e la forza (intensità) del legame (correlazione, cograduazione, connessione) esistente tra due caratteri considerati sullo stesso piano (simmetrici) ma non la direzione (dipendenza/indipendenza) che presuppone asimmetria. L’analisi dell’interdipendenza in altri termini consiste nell’ osservare se le due variabili presentano variazioni concomitanti (al variare dell’una l’altra varia ) ed a seconda del livello di misurazione dei caratteri (categoriali: nominali e ordinali, cardinali) si hanno diversi indici statistici. ► L’analisi del rapporto causa-effetto o causazione o dipendenza logica invece non è ‘osservabile’ implica: - una teoria (note a priori relazioni di causa ed effetto) - la nozione di ‘produzione’ ossia se X è causa di Y ad una trasformazione di X si deve produrre una trasformazione di Y (Blalock, 1961)ossia la manifestaizone di un determinato evento come conseguenza diretta e necessaria del manifestarsi di un altro evento o insieme di eventi è la ‘spiegazione causale’ obiettivo centrale della ricerca sociale - il legame diretto e non meramente associato • E’ da osservare che - la covarianza non implica causazione; - può esistere una covariazione ‘spuria’ tra due variabili senza che esista effettivamente una covariazione tra le due. Analisi multidimensionale e analisi multivariata : analisi esplorative e analisi confermative Sebbene non sempre sia fatta la distinzione tra analisi multivariate e analisi multidimensionali dei dati esistono invece importanti differenze tra i due che fanno riferimento in definitiva alla classificazione delle analisi in esplorative-descrittive-riduttive e confermative-verificative-predittive. Per Analisi Confermativa multivariata dei dati (CMDAConfirmatory Multivariate Data Analysis) si intende in genere lo studio delle relazioni di un insieme circoscritto di variabili statistiche (minore di dieci e studiandone interazioni di ordine superiore a due)(Bolasco,1999; Corbetta 2002) sulle quali si avanzano a priori assunzioni sul tipo di distribuzione teorica. Sono di questo tipo : I modelli di regressione: la regressione lineare(GLM) e non-lineare; la regressione STEPWISE; i modelli log-lineari; la regressione probit e logit; la regressione logistica; analisi discriminante. L’analisi causale: I modelli di equazioni strutturali (es.LISREL) I modelli recorsivi e l’analisi dei percorsi causali (path analysis); i modelli non recorsivi (sistemi di equazioni simultanee o sistemi interdipendenti). Difronte all’ampliarsi dei campi di applicazione: strutture complesse dei dati (es. dati ecologico-ambientali, dati sull’uso del tempo, dati simbolici, testuali, telerilevamento spaziale e trattamento digitale delle immagini) e dei fenomeni complessi soprattutto in campo sociale caratterizzati da molte unità statistiche sulle quali si osservano contemporaneamante molti caratteri (mutabili e variabili) statistici le analisi statistiche multivariate suddette risultano inadeguate o quantomeno insufficienti ad una prima esplorazione e sintesi di fenomeni sui quali non si hanno che ipotesi ‘concettuali’ [e non matematico-formali, modelli, teorie ‘a priori’ da verificare] bensì ipotesi basate prevalentemente sulla verifica dell’esistenza o meno di una correlazione, interdipendenza, statisticamente osservabile. A tal scopo è allora adatta l’EAMDExploratory Multidimensional Data Analysis). . Analisi Esplorativa Multidimensionale dei Dati Per Analisi Esplorativa Multidimensionale dei Dati (EMDA-Exploratory Multidimensinal Data Analysis) si intende un gruppo numeroso di tecniche statistiche multivariate adatte ad analizzare statisticamente, sotto diversi aspetti secondo gli scopi della ricerca,fenomeni complessi caratterizzati da molte unità statistiche sulle quali sono rilevati molti caratteri statistici rappresentativi di diversi aspetti o dimensioni tra loro interagenti multidimesionali, multi-fattoriali). Queste analisi includono tre gruppi molto numerosi di metodi statistici: 1. Classificatorie (cluster analyses); 2. Analisi fattoriali per tabelle a due vie (ACP, ACS e ACM, MDS ecc.); 3. Analisi delle tabelle multiple( 3-vie o multi-way data analyses). Origini storiche dell’ Analisi Multidimensionale dei Dati Tecniche statistiche multivariate - Trattam.autom.dei dati 1970 primo chip commerciale. - sviluppo minicalcolatori, pc e altro hardware e programmi -Cluster Analysis (Tryon,1939) Analisi lineari dei dati: An.Componenti Principali (Pearson,1901) An.Correlazione Canonica (Hotelling,1930) An.Corrispondenze Semplice e An.Corrispondenze Multiple.(Fisher,1936;Benzecri,1960) An. Tabelle Multiple [Procrustean analysis (Tucker, 1958); Metrical and non metrical multi dimensional scaling (PARAFAC, Harshman1970), INDSCAL (Carrol and Chang,1970); Multiple Factorial Analysis (Escofier B. et Pages, 1983); STATIS method (Escoufier Y., 1980, 1985); Generalised Canonical Analysis (Horst, 1961)]. In Francia, alla fine degli anni ‘60 (J.P.Benzecri, Cailles e Pages, Y.Escoufier ecc.) nasce l’indirizzo metodologico dell’analyse des donnée L’AMD come ‘sistema’: un approccio alla complessità • • • • • . In passato l’applicazione di una tecnica statistica multivariata consisteva sinteticamente in tabella dei dati contenente implicitamente le ipotesi di modello tecnica statistica multivariata output dei risultati Oggi l’ampliarsi dei campi di applicazione dei metodi di analisi dei dati sia nelle scienze sociali che naturali, la varietà e complessità delle situazioni specificihe di ricerca, hanno portato a dare rilievo sia dal punto di vista metodologico che informatico una serie di aspetti trascurati in passato: le fasi ‘preliminari’ dell’AMD riguardanti la formalizzazione del problema, le codifiche a priori e a posteriori. L’AMD riguarda analisi statistiche di tipo complesso ossia costituite da più elaborazioni tra loro concatenate, al fine di poter esaminare sistematicamente, in modo unitario e articolato, tali aspetti è utile considerare l’AMD come un ‘sistema’ composto di più fasi tutte ugualmente importanti ed interdipendenti ed aventi ciascuna aspetti statistici e informatici. Molto schematicamente è possibile ipotizzare 7 fasi principali nelle quali si svolge un’AMD (Fraire, 1989-2005): Le 7 fasi di un’a EMDA e le prime 4 ‘preliminari • In particolare tra le 7 fasi particolare importanza hanno le fasi preliminari costituite dalla 1ª,2ª,3ª,4ª fase e riguardano : 1ª: Documentazione statistica di partenza 2ª: Codifica a priori o creazione della matrice dei dati iniziali 3ª: Codifica a posteriori (come trasformazione di variabili della matrice dei dati iniziali) 4: Codifica a posteriori dell’intera matrice dei dati Le matrici a tre indici I dati cubici multidimensionali, il data warehouse e il data mining • Un esempio di dati cubici multidimensionali • • • • • data warehouse è un metodo e procedura informatica per archiviare e interrogare massicce quantità di dati) che si basa su dati cubici multidimensionali ossia dati strutturati come un ipercubo multidimensionale in cui ogni lato è una dimensione. I dati cubici permettono infatti di essere analizzati e modellati multidimensionalmente. Un esempio di architettura ‘integrata’ del data mining facendo riferimento, ad esempio, al ‘magazzino di dati’ relativo alle vendite e marketing (sales & marketing data warehouse) e le diverse tecniche statistiche di analisi dei dati e out-put delle soluzioni finali (enduser solutions) Un esempio di architettura ‘integrata’ del data mining David Hand, Heikki Mannila, Padhraic Smyth (2001). Principles of Data Mining, MIT Press, Cambridge Le matrici a tre indici per l’Analisi dei Dati a Tre Vie: O X N ,K N = u.s.; K= caratteri O = occasioni Due esempi: O X NxK 4( anni) X19( MunicipiRM), 5( delitti) O X NxK O6nazioniX N 1categ. pop.;K 12att. primarie Caso di studio un esempio di matrice dei dati testuali (Il questionario:1^fase dell’AMD) 1^fase AMD ………………………………… La matrice dei dati iniziali: il file di testo (2^fase dell’AMDT). Il file di testo 'QdVCM.txt' Caso di studio ----01PIECN A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI SERVIZI DI TRASPORTO. ++++ B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI. PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI. SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE ESIGENZE DEL MONDO DEL LAVORO. ++++ C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE. DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI PRIMA OCCUPAZIONE. AUMENTA IL LAVORO NERO E PART-TIME. ++++ D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE. PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE. ++++ E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO. PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO E IL COSTO PER IL RISCALDAMENTO. ++++ F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL TRAFFICO PROVINCIALE. DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE. ++++ G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI RIGUARDANO L'ASSISTENZA AGLI ANZIANI. FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO DELLA DROGA. ++++ H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI. ----02VADAO A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI TRASPORTI. ++++ B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE. MANCA UNA SEDE UNIVERSITARIA. ++++ C)LA CRISI GENERALE DELLA SIDERURGIA SI RIFLETTE SULLO STABILIMENTO COGNE-SIAS DELLA ZONA CON RIPERCUSSIONI SULLA OCCUPAZIONE. ++++ D)MANCANZA DI COMPLESSI PER ATTIVITA RICREATIVO-SPORTIVE. COSTO ECCESSIVO DI ALCUNE ATTIVITA COME IL TENNIS. MANCANO DEL TUTTO I TEATRI. ++++ E)I PREZZI DI TUTTI I GENERI SIA DI PRIMA NECESSITA CHE NON SONO NOTEVOLMENTE ALTI ESSENDO LA NOSTRA UNA REGIONE A CARATTERE TURISTICO. ++++ ………………………... ----22SARNU 2^fase AMD • La multi-way data analysis • Le matrici a tre indici I dati cubici multidimensionali Breve introduzione ai metodi statistici di analisi dei dati a più vie Nell’ambito delle analisi multidimensionali dei dati, esplorative e asimmetriche, l’analisi dei dati a più vie (multiway data analysis), ed in particolare l’analisi dei dati a trevie (three-way data analysis), costituisce un insieme di metodi di grande interesse per l’analisi esplorativa, comparativa e sintetica delle tabelle multiple, ossia l’analisi secondo diverse ottiche possibili di più matrici globalmente e contemporaneamente considerate. Scopo dell’analisi a tre vie è di comparare più studi, ricerche, indagini quando ciascuno di essi ha molte variabili osservate su molte unità statistiche. Esistono diverse tecniche di multi-way data analysis basate sulle matrici a tre indici, a seconda delle diverse situazioni di ricerca: Procrustean Analysis, Multidimensional Scaling metrica e non metrica, Multiple Factorial Analysis, Act-Méthode Statis e Act-Méthode Statis-Duale, Generalised Canonical Analysis. In particolare, nelle applicazioni che seguono si considererà l’analisi dei dati a tre modi e tre vie riferita a dati quantitativi ed, in particolare, i metodi Statis-Duale e Analyse Factorielle Multiple 1 Gli acronimi hanno il seguente significato: ACT significa Analyses Conjointes des Tableaux; STATIS indica Structuration des Tableaux A Trois Indices de la Statistique; SPAD Système Portable pour l’Analyse des Données. I due software menzionati sono rispettivamente dell’Unité de Biométrie (INRA-ENSA) di Montpellier, France e del CISIA, Centre International de Statististques et d’Informatique Appliquée, Montreuil Cedex, France. La matrice a due modi e due indici e le matrici a più modi e più indici: un breve richiamo • Sia P la popolazione statistica o collettivo definita da: P • • • in cui i è l’individuo o unità statistica (u.s.) appartenente all’insieme N: iN (i = 1, 2,…, n); l’insieme N è l’insieme di tutte le n u.s. ed è generalmente supposto essere finito e numerabile (nelle indagini di tipo socio-demografico, N è, invece, infinito nelle popolazioni teoriche o in particolari indagini sperimentali), Xj è il carattere statistico o variabile (nel caso di matrici di intensità o dati quantitativi è una variabile) appartenente all’insieme X dei k caratteri statistici: XjX (j = 1, 2,…, k); l’insieme X è definito “a priori”. La matrice a due modi[1] e due indici [2] a n righe a k colonne è data da: x 11 x 12 ... x 1 j ... x 1 k X • i N ( i 1 , 2 ,..., n ) x j X ( j 1 , 2 ,..., k ) N ,K x 21 ... x 22 ... ... ... x2 j ... ... ... x2k ... x i1 ... x N1 xi2 ... xN2 ... ... ... x ij ... x Nj ... ... ... x ik ... x Nk . • [1] Per modo si intende il tipo di informazioni considerate nella matrice in esame; in questo caso, ad esempio, il modo “individui” e il modo “variabili”, ma potrebbero essere altri modi come luoghi, tempi, giudici, ecc. [2] Gli indici indicano, invece, il criterio di classificazione del “dato statistico” xij in cui iN (i = 1, 2,…, n) sono gli individui e XjX per j = 1, 2,…, k sono le variabili statistiche considerate. Unl caso di studio esaminato Le matrici a tre indici per l ’Analisi dei Dati a Tre Vie del caso di studio N = u.s.; K= caratteri O = occasioni 5 Fac.Soc. X N 18categ.stud;K 14var casi di studio esaminati Le matrici a tre indici per l’Analisi dei Dati a Tre Vie: N = u.s.; K= caratteri; O = occasioni Due esempi: O X NxK 4( anni) X19( MunicipiRM), 5( delitti) O X NxK O6nazioniX N 1categ. pop.;K 12att. primarie O O X NxK O5classidietà X N 22categ. partner.;K 9 att. primarie X N ,K 4^ Fase AMD Le matrici dell’Analisi dei Dati a Tre Vie (3-way data analysis): Codifiche a posteriori(4^fase dell’AMD) • • • • • • • • • Analisi dei Dati a Tre Vie (three-way data analysis) mediante la quale si possono esaminate più tabelle nella forma di tabelle di dati quantitativi , tutte insieme, globalmente e contemporaneamente, secondo tre diversi aspetti: a) la rappresentazione globale di tutte le tabelle e la distanza tra esse (analisi dell’interstruttura); b) individuare la tabella ‘compromesso’ o ‘ matrice media’ (analisi dell’intrastruttura ) c)confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme delle occasioni considerate e individuare quali di esse sono quelle che hanno contribuito maggiormente alla differenza tra le tabelle (analisi delle traiettorie) Si possono avere diverse codifiche a posteriori di una matrice dei dati a tre vie secondo le situazioni di ricerca: 1) Una matrice di dimensione [ N , (KO)] in cui si considerano diverse le K variabili rilevate in O occasioni successive ed uguali le N u.s.; 2) Una matrice di dimensione [ (N O) , K] in cui si considerano uguali le K variabili e diverse le N u.s. rilevate in O occasioni successive. 3) Una matrice di dimensione [(N x K), O] in cui si considerano uguali sia le N u.s. che le K variabili rilevate in O occasioni successive. Le 7 fasi dell’EMDA nella multi-way data analysis II°feedback: la matrice delle traiettorie I°feedback: la matrice compromesso tre possibili codifiche • 4 fase: riguarda la scelta della tabella dei dati sulla quale applicare i metodo di EMDA scelto qui la 3-vie • Nella multi-way analysis questa fase riguarda la scelta di una delle tre possibili codifiche a posteriori dell’intera matrice dei dati a seconda di tre diverse situazioni di ricerca. • Inoltre nella multi-way contano molto i feedback. Le tre tappe dell’analisi a 3-vie • Il metodo di analisi a tre-vie si compone di tre diversi aspetti che sono eseguiti in successione e tra loro concatenati nel senso che i risultati del la I^ fase costituiscono la tabella dei dati della 2^ fase e questa a sua volta della 3^ fase: • • (1) analisi dell’inter-struttura; la rappresentazione globale di tutte le tabelle e la distanza tra esse; • • (2) analisi dell’intra-struttura o compromesso; individuare la tabella ‘compromesso’ o ‘ matrice media’: individui compromesso e variabili compromesso; • • (3) analisi delle traiettorie. confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme delle occasioni considerate e individuare quali di esse sono quelle che hanno contribuito maggiormente alla differenza tra le tabelle Codifiche a posteriori della matrice dei dati a tre-vie: la scelta della tabella dei dati (4^ fase AMD) 6^fase:scelta metodo Output dei risultati Sulla tabella dei dati scelta si possono eseguire tramite gli appositi software (ActStatis e SPAD) più tecniche statistiche multiway di analisi dei dati. In particolare, le seguenti analisi statistiche multi-way: (a) Analisi Congiunta delle tabelle (metodo STATIS): analisi a tre-vie con il metodo STATIS e STATIS-Duale considerando 18 unità statistiche attive (categorie di studenti secondo le variabili di ingresso) e 14 modalità-variabili (di percorso e di esito) attive; (b) Analisi Fattoriale Multipla (AFM): 1 NOTA: Con il software SPAD-méthode STATIS la tabella si costruisce, mettendo consecutivamente, anziché impilate, le 5 matrici delle ‘occasioni’ considerate. Con il software ACT-STATIS invece la tabella dei dati si mette per impilamento delle ‘occasioni’. Multi-way Analysis Casi di studio esaminati • I CASI DI STUDIO Il caso di studio esaminato Caso di studio n.1 • Se è una tabella inventario: • il caso di studio di un data base sugli studenti delle Facoltà di Sociologia in Italia: • 5 files degli studenti immatricolati in 5 Facoltà di Sociologia in Italia negli aa.aa.2001-02/2003-04 forniti dagli archivi degli atenei di competenza. • Riferim.bibliogr.: M.Fraire (2007), Analisi multiway delle principali caratteristiche di ingresso, percorso ed esito degli studenti delle facoltà di Sociologia italiane, in A.Fasanella, L’impatto della riforma universitaria del ‘3+2’ sulla formazione sociologica, Franco Angeli ( FacSocCH) AN 458, K 34 Il caso di studio esaminato 1^ fase AMD AN 458,K 34 La matrice dei dati iniziali è una tabella inventario SE E’ UN DATABASE ( BASE DI DATI) • • il caso di studio considerato è un data base costituito dai 5 files degli studenti immatricolati in 5 Facoltà di Sociologia in Italia negli aa.aa.2001-02/2003-04 sono stati forniti dagli archivi degli atenei di competenza. Sede della facoltà di Sociologia Totale immatricolati (v. ► Le unità di analisi in microdati: Trento 841 gli studenti immatricolati ► Le variabili di analisi : Milano 806 in totale 34 o 39 (secondo le Facoltà) variabili che è possibile classificare Roma 2.991 Chieti 458 Napoli 2.762 Totale 7.858 secondo la loro posizione nel ‘percorso universitario’ . degli studenti. Le variabili che considereremo : (a) variabili di ingresso: (b) Variabili di percorso: (c) Variabili di esito: Genere (2 modalità), Età alla I^iscriz. Tipo di Diploma Voto di diploma Crediti complessivi conseguiti Votazione media esami [Posizione amministrativa al 2° anno Posizione amministrativa al 3° anno Posizione amministrativa al 4° anno] Posizione amministrat.attuale Il caso di studio esamin ato La matrice dei dati iniziali : tabella inventario AN 458,K 34 2^fase AMD le variabili disponibili originali 3^fase [anche con ricodifiche di 3^ fase AMD] e codifiche (labels e value label dei dati)2^fase AMD: Il caso di studio esamina to Ipotesi di classificazione delle variabili: Ingresso Percorso Esito Il caso di studio esaminato Le matrici a tre indici per l ’Analisi dei Dati a Tre Vie del caso di studio N = u.s.; K= caratteri O = occasioni 5 Fac.Soc. X N 18categ.stud;K 14var • • • Scopi dell’analisi a 3-vie nel caso di studio considerato Mediante l’Analisi dei Dati a Tre Vie (three-way data analysis) si possono esaminare contemporaneamente e globalmente più tabelle di dati quantitativi nella forma delle matrici dei dati a due indici XN,K suddette scegliendo “a priori” (perciò l’analisi è detta asimmetrica) un terzo “indice” o criterio denominato “occasioni”, che può essere rappresentato da tempi (anni, età ecc.), luoghi, situazioni di ricerca o altro criterio non necessariamente costituito da una variabile, può essere anche una mutabile e non avere un ordinamento delle modalità (sconnessa) come nel caso in esame. Molto schematicamente, facendo riferimento al caso qui considerato, si potrebbe rappresentare l’analisi dei dati a tre-modi e tre-vie, ossia dati “cubici”[1] nel modo seguente: Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata[MF1] • Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata • • • • • • In particolare, la matrice dei dati a tre indici = considerata è definita dai seguenti elementi: N = 18 categorie di studenti universitari ottenuti dall’incrocio delle variabili di ingresso (genere, età all’immatricolazione, tipo di diploma, voto di diploma); Xj (j = 1, 2,…, k) = 14 modalità-variabili delle variabili di percorso (crediti e votazione media) e di esito (posizione amministrativa attuale); Or (r = 1, 2,…, 5) = 5 facoltà di Sociologia (Trento, Milano, Roma, Chieti, Napoli); (r = 1,..., 5; i = 1,…, 18; j = 1,.., 14) = frequenza relativa dell’i-ma categoria di studente (sul totale N) per la j-ma variabile-modalità nell’r-ma occasione (facoltà di Sociologia). È da notare che in questo caso il dato statistico è un numero razionale positivo (frequenza relativa) e ogni matrice dei dati iniziali è una tabella di contingenza normalizzata che può essere trattata come una matrice di intensità a due indici unità × variabili. [1] I dati cubici sono strutturati come un ipercubo multidimensionale in cui ogni lato è una dimensione; essi permettono di essere analizzati e modellati multidimensionalmente a scopo sia predittivo che classificatorio per l’individuazione di tipologie, modelli, strutture dei dati anche latenti. 4^fase AMD La scelta della tabella dei dati per l’analisi a tre-vie • Si possono avere tre diverse codifiche a posteriori di una matrice dei dati a tre-vie secondo le situazioni di ricerca : • 1) Una matrice di dimensione [ N , (KO)] in cui si considerano diverse le K variabili rilevate in O occasioni successive ed uguali le N u.s.; • 2) Una matrice di dimensione [ (N O) , K] in cui si considerano uguali le K variabili e diverse le N u.s. rilevate in O occasioni successive; • 3) Una matrice di dimensione [(N x K), O] in cui si considerano uguali sia le N u.s. che le K variabili rilevate in O occasioni successive. • Nell’applicazione considerata, la scelta della codifica a posteriori è stata quella di tipo 2) 4^ Fase AMD Codifiche a posteriori della matrice dei dati a tre-vie: la scelta della tabella dei dati (4^ fase AMD) . Nel presente lavoro la situazione di ricerca considerata è quella descritta al punto (2), ossia si hanno uguali le K = 14 variabili (di percorso e di esito) e diverse le N = 18 categorie di studenti universitari in O occasioni rappresentate, in questo caso, dalle 5 facoltà di Sociologia in Italia. Sinteticamente la matrice dei dati a tre indici considerata può essere indicata: O 5 Fac. Soc. X N 18, K 14 X ( N 18O 5), K 14 In particolare, si riporta nella tabella 5.3 la tabella dei dati (4° fase dell’AMD) costituente la matrice dei dati a tre-vie considerata per le analisi multi-way che seguono e facendo riferimento in particolare alla forma richiesta (impilamento delle 5 matrici) dal software statistico Act-STATIS. Sulla tabella dei dati sono state eseguite tramite gli appositi software (ActStatis e SPAD) più tecniche statistiche multi-way di analisi dei dati. In particolare, nell’applicazione che segue sono state impiegate ripetutamente le seguenti analisi statistiche multi-way: (a) Analisi Congiunta delle tabelle (metodo STATIS): analisi a tre-vie con il metodo STATIS-Duale considerando 18 unità statistiche attive (categorie di studenti secondo le variabili di ingresso) e 14 modalità-variabili (di percorso e di esito) attive; (b) Analisi Fattoriale Multipla (AFM): 18 unità statistiche attive (categorie di studenti) e 14 modalità-variabili di percorso e esito attive. Analoghe analisi multi-way del tipo (a) sono state effettuate considerando le stesse unità attive (categorie di studenti), ma diverse variabili, ossia: - 18 unità statistiche attive e 9 modalità-variabili di percorso attive; - 18 unità statistiche attive e 5 modalità-variabili di esito attive. Ugualmente per le analisi di tipo (b) Analisi Fattoriale Multipla: 18 individui (categorie di studenti) attivi e 9 modalità-variabili di percorso attive; - 18 individui (categorie di studenti) attivi e 5 modalità-variabili di esito attive 1 Con il software SPAD-méthode STATIS tale tabella si costruisce, invece, mettendo consecutivamente, anziché impilate, le 5 matrici delle 5 facoltà considerate. 4^fase AMD: La tabella dei dati: matrice di contingenza generalizzata N r 18;s14 4^ fase: le scelta tabelle dei dati Il caso di studio esaminato Codifiche a posteriori: una possibile ricodifica (di 4^ fase dell’AMD: scelta della tabella dei dati) delle unità di analisi le unità di analisi in macrodati: le categorie di studenti le unità di analisi N = 7.858 u.s. sono state trasformate in N = 18 categorie di studenti ottenute considerando le 4 variabili di ingresso: (1) genere; (2) età all’immatricolazione; (3) tipo di diploma; (4) voto di diploma. Le 18 categorie di studenti sono quindi: (1) maschi; (2). femmine; (3) totale (maschi e femmine); (4) età 18-21; (5) età 22-25; (6) età 26-29; (7) età 30 e oltre; (8) liceo classico; (9) liceo scientifico; (10) liceo socio-pedagogico e istituto magistrale; (11) licei linguistico e artistico; (12) istituto professionale; (13) istituto tecnico; (14) altro tipo di istituto; (15) voto di diploma basso; (16) voto di diploma medio-basso; (17) voto di diploma medio-alto; (18) voto di diploma alto. È da osservare che ulteriori categorie di studenti si potrebbero ottenere mediante gli incroci tra le modalità delle variabili, non necessariamente solo di ingresso, che sarebbero ugualmente interessanti. Se si considerassero, ad esempio, la variabile genere e il totale incrociate con tutte le altre variabili di ingresso si avrebbero: 3 (M,F,T) + 3 × 4 (classi di età all’immatricolazione) = 12 + 3 × 7 (tipo di diploma) = 21 + 3×4 (classi voto di diploma) = 12 categorie di studenti, in totale quindi 3 + 12 + 21 + 12 = 48 categorie di studenti La tabella dei dati AMD: del caso di studio considerato : le codifiche a posteriori effettuate a partire dal data base (matice dei dati iniziali) 4^fase • Nella situazione di ricerca qui considerata, la tabella dei dati è una matrice di intensità o di dati quantitativi in quanto la suddetta matrice Xn,k è composta da dati statistici xij rappresentati da numeri reali, frequenze relative, numeri razionali positivi in una tabella di contingenza (qui in particolare normalizzata[1]) in cui ogni riga della matrice può essere vista come un vettore numerico a k dimensioni indicante le coordinate di un punto-individuo in uno spazio Rk a k-dimensioni, denominato spazio delle unità statistiche. Dualmente ogni colonna della matrice è rappresentata da un vettore numerico a n dimensioni indicante le coordinate di un punto-variabile nello spazio Rn a n-dimensioni, denominato spazio delle variabili. • Come noto (cfr Fraire, 1994), tale matrice ha struttura algebrica di spazio vettoriale euclideo; ciò significa che ad essa possono essere applicate tutte le operazioni tra matrici e la maggior parte dei metodi di Analisi dei dati, sia predittivi che esplorativi. • [1] Ponderando le frequenze assolute delle 14 modalitàvariabili considerate secondo la numerosità N degli immatricolati di ciascuna facoltà si ottiene una tabella di contingenza normalizzata che tiene conto della diversa numerosità degli immatricolati di ciascuna delle 5 sedi considerate. Analisi dell’inter-struttura • Con l’analisi dell’inter-struttura si vuole valutare se le 5 tabelle dei dati considerate attraverso la loro rappresentazione globale e simultanea hanno strutture simili (vicine) o dissimili (lontane). Ciò significa verificare quali categorie di studenti secondo le 14 modalità-variabili considerate di percorso e di esito hanno strutture simili o diverse al variare delle 5 facoltà di Sociologia italiane considerate nel triennio 2001-2003 (cfr. Cap. 3). In altri termini, si vuole esaminare se le 5 facoltà hanno di fatto strutture “omologhe”, ossia non presentano cambiamenti strutturali degli studenti immatricolati tra una e l’altra nel periodo considerato. Sinteticamente si potrebbe rappresentare (cfr. Bolasco, 1999) così la somiglianza o dissomiglianza delle strutture: • a: simili b: dissimili • A tal scopo si calcola la matrice delle distanze euclidee tra matrici di correlazione; essa è simmetrica, quadrata, di dimensione 5 5 (perchè sono 5 le occasioni = facoltà di Sociologia considerate). I coefficienti della matrice, essendo distanze euclidee, sono indici positivi che assumono valore 0 = massima similarità e valori diversi da 0 = dissimilarità tra le coppie considerate Analisi dell’interstruttura Tab. 5.4 – Metodo Statis-Duale: Matrice delle distanze euclidee tra i coefficienti di correlazione (range: 0 = massima similarità, maggiore di 0 = dissimilarità) tra tutte le coppie di facoltà di Sociologia1 RM NA TR CH MI RM 0.000 NA 4.847 0.000 TR 4.844 0.000 2.885 CH 5.931 5.452 4.982 0.000 MI 4.896 5.032 0.000 3.096 0.821 Fig. 5.3 – Plot delle 5 facoltà di Sociologia sul primo piano principale Molto sinteticamente si riportano i risultati per un più agevole confronto nella tabella 5.5. Tab. 5.5 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia Analisi multi-way: MetodoStatis-Duale – Variabili attive Somiglianti Dissomiglianti 14 modalità-variabili attive di percorso e esito [variabili di percorso: crediti acquisiti (4 modalità), votazione media conseguita (5 modalità); variabili di esito: posizione amministrativa attuale (5 modalità)]. TR-MI (0,821) TR-NA (2,885) MI-NA (3,096) RM-CH (5,931) NA-CH (5,452) MI-CH (5,032) 1 La similarità o dissimilarità tra le 5 tabelle dei dati può essere misurata sia impiegando una metrica basata su distanze tra unità statistiche (ad esempio, distanza euclidea, di Manhattan, di Mahalanobis, indici di distanza come il ² e così via) sia da distanze tra varianze-covarianze, correlazioni secondo il tipo di codifica a posteriori scelta per la matrice a tre-vie. Nell’applicazione considerata la metrica riguarda la distanza euclidea tra coefficienti di correlazione. Analisi dell’interstruttura: una sintesi Nella tabella 5.6 si riporta una sintesi dei risultati finali dell’analisi dell’inter-struttura qualora si considerino come variabili attive rispettivamente: (a) solo le 9 modalità-variabili di percorso e (b) solo le 5 modalità-variabili di esito 1. Tab. 5.6 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia Analisi multi-way: MetodoStatis- Somiglianti Dissomiglianti Duale – Variabili attive (a) 9 modalità-variabili attive di TR-MI (0,247) RM-CH percorso [crediti acquisiti (4 TR-NA (2,431) (4,710) modalità), votazione media MI-NA (2,551) MI-RM (4,228) conseguita (5 modalità)]. TR-RM (4,216) (b) 5 modalità-variabili attive di RM-TR (0,154) NA-CH (1,020) esito [posizione amministrativa RM-NA RM-CH attuale (5 modalità)]. (0,253) (0,961) NA-TR (0,374) CH-TR (0,868) Queste ulteriori analisi mettono in evidenza il maggior ruolo delle variabili attive di esito nel differenziare le 5 facoltà considerate. Si noti, inoltre, che dal valore dell’inerzia spiegata dai primi due assi principali si possono ipotizzare due dimensioni sottostanti le variabili attive considerate. NOTA: Nel caso (a) il primo piano fattoriale è risultato spiegare lo 85,26% della varianza totale originaria (in particolare il primo fattore il 47,15% e il secondo il 38,11%). Nel caso (b) il primo piano fattoriale è risultato spiegare il 93,69% della varianza totale originaria (il primo fattore lo 81,10% e il secondo il 12,59%). 1 Analisi dell’intra-struttura: individui e variabili compromesso, la nuvola dei punti- medi Con l’analisi dell’intra-struttura si vogliono individuare i punti-individui medi (lo studente delle facoltà di Sociologia-medio) e i punti-variabili medi (variabili di percorso e di esito-medi) attraverso le 5 facoltà di Sociologia. Per l’analisi dell’intra-struttura si diagonalizza la matrice compromesso dalla quale si ottengono, limitandosi qui a riportare solo i primi due fattori (assi compromesso), i seguenti autovalori per le tre analisi multi-way effettuate: (a1) 14 modalità-variabili attive di percorso ed esito: 1+ 2 = 83,65% + 5,18% = 88,83% (a2) 9 modalità-variabili attive di percorso: 1+ 2 = 81,65% + 7,01% = 88,66% (a3) 5 variabili attive di esito: 1+ 2 = 90,98% + 5,21% = 96,20% Anche in questo caso è possibile rappresentare sul primo piano fattoriale sia le variabili (punti variabili-medie) che le u.s. (punti-individui-medi) rispetto ai primi due assi compromesso. Si riporta nella figura 5.4 il plot sul primo piano principale compromesso dei punti-variabili medi e nella tabella 5.7 i principali indici statistici, limitandosi ai primi due fattori e solo alla prima delle tre analisi multi-way considerate. La matrice ‘media’ o ‘matrice compromesso’: calcolo e significato nel caso di studio considerato Al fine di interpretare più agevolmente i plot suddetti, si riportano le coordinate fattoriali, i contributi assoluti (correlazioni variabili-assi principali compromesso) e il coseno quadrato (contributo relativo = cos², variante tra 0 e 1, con 0 = pessima e 1= ottima qualità della rappresentazione dei punti sul primo piano principale compromesso) per la prima delle tre analisi multi-way effettuate e con riferimento al solo primo piano principale. Nelle applicazioni considerate (casi diversi, stesse variabili) la matrice compromesso è ottenuta come prodotto scalare delle matrici di correlazione con la loro media aritmetica ponderata. Circa il significato da attribuire alla matrice compromesso, è da osservare che nel caso esaminato essa può essere interpretata come lo studente medio, più rappresentativo rispetto alle 5 facoltà di Sociologia italiane nel periodo considerato. È da osservare che la matrice media o matrice compromesso rappresenta la sintesi di tutte le matrici ed è data dalla media aritmetica ponderata delle matrici di similarità o distanza N N tra individui corrispondenti alle matrici originarie espresse in scarti dalla media ponderate con gli autovettori corrispondenti al primo più grande autovalore della matrice C Cij, essendo Cij = tr(iSjS). Basandosi sul primo autovalore la matrice compromesso è robusta in quanto poco influenzata dalle piccole variazioni delle matrici di similarità (cfr. Rizzi, 1987). Tab. 5.7 – Indici statistici del primo piano principale compromesso Numero Autovalore Percentuale Percentuale cumulata Istogramma 1 11,7116 83,65 83,65 ***************************** 2 0,7252 5,18 88,83 ***** 3 0,4438 3,17 92,00 **** 4 0,3122 2,23 94,23 *** 5 0,2461 1,76 95,99 ** Coordinate fattoriali, contributi assoluti e coseno quadrato del primo piano fattoriale compromesso (88,83% dell’inerzia totale) Coordinate fattoriali Contribuiti assoluti Coseni quadrati Modalità-variabili 1 2 1 2 1 2 Improduttivi -0,96 -0,15 0,08 0,03 0,92 0,02 Poco produttivi -0,97 -0,06 0,07 0,12 0,87 0,08 Abbastanza produttivi -0,97 -0,06 0,08 0,00 0,94 0,00 Produttivi -0,79 0,44 0,05 0,27 0,62 0,19 Nessuna votazione -0,92 -0,32 0,07 0,14 0,84 0,10 Votazione bassa -0,79 0,19 0,05 0,05 0,63 0,04 Votazione medio-bassa -0,86 -0,32 0,06 0,14 0,74 0,10 Votazione medio-alta -0,94 0,15 0,08 0,03 0,89 0,02 Votazione alta -0,89 0,25 0,07 0,09 0,79 0,06 Iscritto -0,99 0,06 0,08 0,00 0,98 0,00 Interpretazione dei risultati dell’intra-struttura • L’analisi dei suddetti plot e dei relativi indici statistici dei punti-variabile medi fornisce un’indicazione circa il significato che si potrebbe attribuire alle due dimensioni sottostanti, ai due assi principali compromesso: • - il primo asse principale (compromesso) rappresenta lo studente avente percorso “medio” nelle variabili di percorso (votazione media, produttivi); • - il secondo asse principale (compromesso) dà conto, invece, dello studente “atipico”, sia in positivo che in negativo, rispetto alle variabili di percorso, ossia molto produttivo, con votazione alta ed esito positivo (laureato) oppure con votazione bassa, improduttivo ed esito negativo. • Le variabili di esito non risultano, quindi, essere discriminanti, almeno rispetto alle 18 categorie di studenti “medi”. Per poter approfondire ulteriormente tale risultato, apparentemente incongruente, è necessario effettuare un’analisi delle unità statistiche, oltre che delle variabili medie, ossia delle 18 categorie di studenti attraverso le 5 facoltà di Sociologia, al fine di individuarne eventuali cluster. L’Analisi fattoriale multipla (AFM) (analyse factorielle multiple) Nell’ambito delle analisi multi-way Statis, poiché nella codifica della matrice dei dati considerata le u.s. (categorie di studenti) sono state considerate diverse (essendo diversi gli studenti delle 5 facoltà di Sociologia considerate), non ha significato calcolare oltre che le variabili-medie anche gli individui-medi (compromesso), possibile, invece, nel caso di una codifica a posteriori in cui anche le u.s. siano considerate uguali attraverso le occasioni (cfr. Par. 5.2.2). Per esaminare più dettagliatamente anche le unità statistiche attraverso le 5 facoltà considerate si effettuerà un’analisi fattoriale multipla (AFM) mediante la quale sarà possibile individuare cluster di studenti. Nell’ambito delle analisi multi-way (cfr Par. 5.2.1) l’Analisi Fattoriale Multipla (AFM) è adatta per analizzare differenti gruppi di individui sui quali sono osservate le stesse o differenti variabili quantitative o qualitative. L’AFM si basa su ripetute applicazioni e sintesi di Analisi in Componenti Principali (d’ora in avanti ACP) nel caso di variabili o di Analisi delle Corrispondenze Multiple per mutabili (d’ora in avanti ACM). Come già sopra accennato nell’Analisi a tre-vie duale, ossia in cui si considerano diversi gli individui (18 categorie di studenti) e uguali le variabili (di percorso ed esito), il plot degli individui-medi non viene calcolato. Si propone allora di applicare in questo caso sulla stessa tabella dei dati (cfr. tab. 5.3) l’Analisi Fattoriale Multipla (Analyse Factorielle Multiple) al fine di avere una classificazione degli individui rispetto alle 5 facoltà di sociologia contemporaneamente considerate, ossia individuare clusters di individui. Per brevità si riportano solo alcuni dei risultati ottenuti dall’AFM e, in particolare, solo quelli relativi all’analisi globale delle 5 tabelle di dati considerate ed ai soli punti-individui1, limitandosi al primo piano principale globale delle 14 variabili attive nelle figure 5.5a, 5.5b e 5.5c. NOTA: Le elaborazioni dei dati sono state effettuate con il software WinSPAD, Analyse des Tableaux Multiples, Analyse Factorielle Multiple. L’output dei risultati è in realtà molto ricco e comprende sia le ACP per le singole matrici dei dati considerate (in questo caso cinque ACP sulle 5 matrici di dati quantitativi) con i relativi indici statistici (autovalori, coordinate fattoriali, contributi assoluti e relativi, ecc.) che i risultati numerici e grafici dell’Analisi Globale, ossia delle 5 tabelle dei dati simultaneamente considerate riferendo, quindi, ai risultati sia numerici (autovalori, coordinate fattoriali, contributi assoluti e relativi ecc.) che grafici riferiti ai punti-individui e ai punti-variabili sui piani principali “compromesso”. I risultati dell’AFM: Fig. 5.5a – Analisi Fattoriale Multipla: Plot dei 90 punti-individui attivi 1 sul primo piano principale globale (1+ = 79,87% + 7,51% = 87,38% della varianza totale)2 Dall’analisi fattoriale multipla mediante la quale è stato possibile individuare 6 cluster delle 14 categorie di studenti attraverso le 5 facoltà di Sociologia. Essi si collocano sul primo piano principale come segue: - il 1° cluster nel IV versante si contrappone al 6° cluster nel II versante; - il 4° cluster nel I versante si contrappone al 2° cluster nel III versante; - il 3° cluster si colloca nelle vicinanze dell’origine degli assi, quindi con scarsissima correlazione con entrambi gli assi; - il 5° cluster si colloca in una posizione inter-cluster. 1 18 categorie di studenti × 5 Facoltà di Sociologia = 90 punti-individui attivi. Il primo piano principale si riferisce qui al piano delle 14 variabili (attive) di percorso e di esito. È da osservare che nell’AFM è possibile rappresentare oltre al plot degli individui anche il plot dei punti-variabili, che qui per brevità non si riporta, tramite il cerchio delle correlazioni sul primo piano fattoriale; esso tuttavia coincide con la rappresentazione dei punti-variabili medi rappresentate con il metodo Statis-duale sul primo piano principale compromesso che è stato riportato qui in figura 5.4. 2 Considerazioni conclusive Con l’analisi multi-way ed, in particolare, con l’analisi a tre-vie è stato possibile - confrontare globalmente e simultaneamente le 5 facoltà di Sociologia rispetto alle 18 categorie di studenti e alle 14 modalità-variabili inerenti. In particolare, con l’analisi dell’inter-struttura la coppia di facoltà di Sociologia più simile rispetto alle caratteristiche di percorso e di esito risulta essere Trento-Milano seguita, a molta distanza, quindi, con una similitudine assai minore, da Trento-Napoli e Milano-Napoli. La Facoltà di Sociologia di Roma si configura con una caratterizzazione abbastanza singolare e contrapposta, sullo stesso asse fattoriale a Napoli, Milano e Trento. Esaminando anche le altre due analisi dell’inter-struttura (soltanto di percorso e soltanto di esito) si potrebbe ipotizzare che tale unicità sia dovuta alle variabili di percorso degli studenti piuttosto che alle variabili di esito. Inoltre, rispetto alla Facoltà di Sociologia di Chieti si registra, invece, una forte, con valori tutti elevati, dissomiglianza con tutte le altre facoltà di Sociologia e la sua posizione sul secondo asse fattoriale. Con l’analisi dell’intra-struttura si sono individuate due dimensioni sottostanti le 14 variabili di percorso ed esito-compromesso considerate - una prima dimensione (primo asse principale compromesso) rappresentante lo studente con percorso “medio” nelle variabili di percorso (votazione media, mediamente produttivi). - Una seconda dimensione (secondo asse principale compromesso) rappresentante, invece, lo studente “atipico” sia in positivo che in negativo rispetto alle variabili di percorso ossia molto produttivo, con votazione alta ed esito positivo (ossia laureato) oppure improduttivo, con votazione bassa ed esito negativo. Ciò porterebbe a immaginare difficoltà inerenti non solo la “dotazione” dello studente in ingresso, ma “l’architettura” stessa, l’organizzazione intesa come numero di esami e relativi crediti introdotta di fatto dal 3+2, moltiplicando notevolmente il numero dei moduli didattici e, quindi, i relativi esami da sostenere nel triennio, che sono spesso di gran lunga superiori a quelli che erano previsti nel vecchio ordinamento e risultano molto “pesanti” non solo per gli studenti meno ma anche per quelli più dotati, per i quali risulta spesso assai difficile mantenere un profilo di esito (ad esempio, laurearsi nel numero di anni previsto dal corso anziché fuoricorso) come, invece, avveniva nel vecchio ordinamento. Anche dall’analisi fattoriale multipla mediante la quale è stato possibile individuare 6 cluster delle 14 categorie di studenti attraverso le 5 facoltà di Sociologia. Il caso di studio esaminato Caso di studio n.2 ►Se è una matrice di intensità o dati quantitativi • Il caso di studio dell’uso del tempo a differenti stadi della vita in 6 paesi europei • Rif.bibliogr.:M.Fraire, (2006) , Multi-way data analysis for comparing time use in different coutrie. Application to time budgets at different stages of life in six European caountries, in eIJTUR 2006, vol.3, No.1, 88-109 • . ( FacSocCH) AN 458, K 34 Il caso di studio esaminato Caso di studio n.2 ► Il caso di studio dell’uso del tempo a differenti stadi della vita in 6 paesi europei ‘Time-use at different stages of life in 6 european countries in 2003 ‘ A) Esempio tratto dalla lezione tenuta da Mary Fraire per il dottorato europeo Socio-Economic and Statistical Studies (SESS) - European PhD su ‘Multidimensional Data Analysis for exploring, synthesizing and comparing complex data tables. Applications to timebudget data.’ B) Relazione presentata al XXVI International Association of Time Use Research (IATUR) Conference 2004, 27-29 October 2004, Rome, Italy on ‘Time use: what’s new in methodology and application field’. C) Pubblicato in M.Fraire, Multiway data analysis for comparing time use in different countries. Application to time-budgets at different stages of life in six european countries. In electronic Internatinal Journal of Time use Research eIJTUR 2006, Vol.3, No.1, 88-109 http://www.eijtur.org/, 3-way data analysis: the 3-ways methods : there are various multiway data analysis: Procrustean analysis (Tucker 1958);Multidimensional scaling (PARAFAC, INDSCAL,1970); Multiple Factorial Analysis ((Escofier, Pages 1983) and the STATIS method (Escoufier, 1980) the méthode applied: STATIS) ‘Analyse Conjointe de Tableaux Quantitatifs’ (A.C.T.) suitable for quantitative matrices has been applied to analyse the 5 above mentioned time use two-indices tables simultaneously and overall according to the three different steps characterizing the 3-way analysis: A) analysis of the inter-structure ; B) analysis of the intra-structure; C) analysis of the trajectories Software impiegato: ACT-Statis Duale Method and Multiple Factor Analysis (CISIA, 1989,France) 3-way data analysis: analysing more time use two indices matrices overall and simultaneously The 3-way data analysis an asymmetrical multidimensional analysis by which it is possible to analyse more quantitative two-way indices matrices overall and simultaneously across a third criteria, ‘occasions’, chosen ‘a priori’. Occasions may be times, places or any other criteria (qualitative or quantitative). Schematically for example O = 5 age classes or O = 6 european countries is the three indices matrix is indicated with three indices in which O = occasions, N = cases, K = variables. This matrix can have three various a-posteriori coding according to different situations research: 1) Three-indices matrix of dimension N,(KO) in which in the various Occasions (i.e. years or places) the individuals N are the same and the variables are different; 2) Three-indices matrix of dimension (NO),K in which in the various Occasions the individuals N are different and the variables are the same; 3) Three-indices matrix of dimension (NK), O in which in the various Occasions the individuals N and the variables K are the same. Application 3-way data analysis: Time-use at different stages of life in 6 european countries in 2003 Source of data = Eurostat, data downloaded from Eurostat web site: http://europa.eu.int. Countries considered: BELGIUM, ESTONIA, FINLAND, NORWAY, SLOVENIA, UNITED KINGDOM (the eurostat data refer to 13 countries time-use surveys but only 6 followed the harmonized guidelines issued by Eurostat). Analysis variables (employment and sex) and lifecycle variables defining the set N = cases = 14 categories of population : . 1.Women (W) ; 2. EmployedW; 3.W<25AgeNoChild<18 living with parents (W<25NCh<18); 4. WAll ages living in Couple youngest child 0-6 living with parents (WCACh0-6); 5.W All ages living in Couple youngest child 7-17 living with parents (WCACh7-17); 6.W45-64Age living in couple No children<18 living with parents ((W4564CN<18); 7.W>65 living in Couple, no children<18 living with parents (W>65CN<18); 8.Men (M); 9.Employed Men; 10.M<25AgeNoChild<18 living with parents (M<25NCh<18); 11.M All ages living in Couple youngest child 0-6 living with parents (MCACh0-6); 12.M All ages living in couple youngest child 7-17 living with parents (MCACh7-17); 13.M4564Age living in Couple No Child<18 living with parents (M4564CN<18); 14.M>65 Age living in Couple No Child<18 living with parents(M>65CN<18) xijk Classification of the activities: defining the set K = variables PRIMARY GROUPS (labels) 1. SLEEP (Slee) ACTIVITY Sleep 2. EATS (Eats) 3. WORK (Work) 4. STUDY (Stud) 5. Housework & Family care (H&Fa) 6. VOLUNTEER WORK (FreV) 7. SOCI ALIZING (Soci) PRIMARY ACTIVITIES Meals and personal care Gainful work Study Household work and family care Volunteers work and informal help to other households ; Socializing (participatory activities, social life and entertainment and culture); 8. LEISURE TIME (Leis) Sports and outdoor activities, hobbies and games, unspecified leisure time and resting; 9. TV (Tv) TV and video; 10. OTHER MEDIA (OMed) Other mass media (radio, music, reading); 11. TRAVEL (Trav) Travel including travel for work ; 12.OTHER UNSPECIFIED Other, unspecified and filling in TUS diary (OUns) x Defining the data r ij (r =1,..,6; i = 1,..14;j =1,..,12) = data concerning average duration (in minutes and decimals) referred to all persons of the i-th category of population in the j-th activity in the r-th occasion . In the application the i-th row is the time- budget of the i-th category of population (case). Than the data has been transformed in standard deviations (mean = 0 and std = 1) in view to reduce not just the different mean intensity of the single variables (activity groups) but also their very different variability. Type of day: average day of the week. The three indices matrix of the application (a posteriory coding: same cases and same variables across countries) O6 X N 14;K 12 1440 3-way analysis some results: comparing the overall similarity of the time-use tables of the 6 countries: A) Inter-structure RV matrix and Plot Simultaneous representation of the 6 time use tables on the plot of the first factorial plane (explaining 93,15 % of the total variance). Distances matrix of correlation coefficients (range: 0 =max distance (dissimilarity), 1= max similarity between pairs of tables) UNITED BELGIUM ESTONIA FINLAND NORWAY SLOVENIA KINGDOM BELGIUM 1.000 ESTONIA 0.806 1.000 FINLAND 0.906 0.818 1.000 NORWAY 0.863 0.782 0.902 1.000 SLOVENIA 0.900 0.864 0.860 0.894 1.000 UNITED KINGDOM 0.899 0.734 0.906 0.893 0.809 1.000 Source : own elaboration on sub-file extracted from the EUROSTAT ‘Time-use at different stages of life in 13 european countries in 2003’ Data File. 3-way analysis: ACT-méthode STATIS-DUALE – inter-structure analysis. It is possible to verify the countries similar and dissimilar and their deviation from the mean represented by the compromise matrix V : countries similar are Finland and Belgium, United Kingdom and Norway and on the opposite side of the factorial plane under the mean, Estonia and Slovenia . Further examining the reciprocal position of the six countries we note that Norway, Finland and Belgium are very near (similar), more distant from them the United Kingdom, all four countries over the mean (V) . Estonia and Slovenia are not very similar but under the mean. 3-way analysis results: B) The Intra-structure analysis: the compromise individuals and variables The intra-structure analysis has the goal to analyse the individuals and variables ( 9 activity groups) in view to identifying the mean or compromise-individuals points (mean-partner) and the mean or compromise-variables points (activities) across the five occasions and how much and what individuals and variables are distant from the mean. It is possible to represent on the principal planes the mean-individuals points and the mean-variables points across the occasions. 3-way analysis results: Intra-structure analysis The underlying dimensions of the six european countries time-budgets. Mean-variable points on the first factorial compromise plan (explaining 69,75% of total variance). Source : own elaboration on sub-file extracted from the EUROSTAT. Three-way analysis: ACT-méthode STATIS-DUALE – intra-structure analysis. Two underlying dimensions (factors) characterize the time-budgets structures: the first compromise axis characterized by the activities of gainful work opposed to leisurewatching tv-other media ; the second compromise axis characterised from the housework and family care -volunteers work opposed to study and socializing. Three activities groups are correlated with both axes and could be defined interstructural activity groups: Sleep, eats and personal care, travel. . The trajectories analysis: comparing analytically activities and individuals across the 6 countries It is possible to represent the trajectories in many different ways. In the application because the cases are different and the data are macrodata (average durations of categories of population) the analysis of the trajectories obtained by the statis-duale method do not add new important informations with respect to the analysis above mentioned. On the contrary it is possible to obtain a more analytical description of the variables and individuals by the Multiple Factor Analysis (MFA). Plot of the 84 categories of population at different stages of life across the six countries on the first factorial plane (explaining the 72,39 % of the total variance). The size (number of points), shape and dispersion of the four clusters. Source: own elaborations on sub-file extracted from the EUROSTAT. Multiple Factor Analysis method. Among the multiway analysis the Multiple Factor Analysis is suitable to analyse different groups of individuals on which are observed the same or different quantitative or qualitative variables. MFA is based on repeated applications and synthesis of Principal Component Analysis (for quantitative variables) or Multiple Correspondence Analysis ( for qualitative variables). From Figure 8 it is possible to see and compare with the other clusters the size (number of points), the shape and the dispersion of the individual points of the cluster ; cluster 2: Men and Women 45-64 years old living in couple without children living with parents in all countries; cluster 3: Men and Women more than 65 years old living in couple not having children less than 18 years living with parents in all countries; cluster 4: Men and Women less than 25 years old Not having cildren less than 18 years old living with them in all countries. Il caso di studio esaminato Caso di studio n.2bis ►Se è una matrice di intensità o dati quantitativi • Il caso di studio dell’uso del tempo di diverse categorie di partner (sposati o conviventi) secondo le classi di età in un giorno feriale e in un giorno festivo Riferim. Bibl.: M. Fraire(2009),Statistical Methods for Exploratory Multidimensional Data Analysis on Time Use, in 'Statistica', annoLXIX n.4, 2009 • . ( FacSocCH) AN 458, K 34 Il caso di studio esaminato 1^fase AMD Il caso di studio esaminato La documentazione statistica di partenza Fonte dei dati: la fonte dei dati impiegata per le applicazioni è rappresentata da un sub-file estratto dal dataset dell’Indagine Time_Use 1988_89 dell’ISTAT Campione : riguarda N = 327 coppie (99% sposate e 1% coabitanti) equivalenti a 654 partners nei giorni feriali e N= 361 coppie (722 partners) la domenica in famiglie mononucleari viventi in grandi centri urbani (11 città italiane: Torino, Milano, Venezia Genova, Bologna, Firenze, Roma, Napoli, Bari, Palermo, Catania.) N=22 unità statistiche nelle applicazioni sono rappresentate da macrounità, categorie di popolazione, qui in particolare ‘categorie di partners’ ottenute per incrocio delle modalità delle seguenti variabili di analisi e variabili relative al ciclo di vita (variabili di classificazione) Le 22 categorie di partner sono state quindi le seguenti (indicate con le loro labels): 1.Females; 2.FemaleNotEmployed; 3.Femployed; 4.FlowEducLev; 5.FhighEducLev; 6.FWithChild<18; 7.FWithouthChild<18; 8.FMiddleEducLev; 9.FWithYoungestChild<05; 10. FwithYoungestChild; 11. FWithYoungestChild 12-18 . Ugualmente per gli 11 casi di partner maschili.. Analysis Variables and Life Cycle Variables for the set N = 22 macro-cases ANALYSIS VARIABLES Value label 1. DAY Day of Interview: Sunday ; Workdays (from monday to friday) 2. SEX Sex: Man; Female 3. PARTNER AGE Age Class: 15-24; 25-44; 55-64; 65-74; 75-84;85+ 4. AVERAGE AGE IN THE COUPLE Average Age Class: 20-35 ; 36-50 ; >50 5. EDUCATION Education level: High ;Middle; Low 6. EMPSTAT IN THE COUPLE Employment Status in the couple (married/cohabiting) Both employed;One only employed;None employed LIFE CYCLE VARIABLES Life cycle 7. CHILD <18 YEARS LIVING IN Without children less 18 years living in the couple ; With children less THE COUPLE 18 years living in the couple; 8. AGE OF YOUNGEST CHILD Youngest Age LIVING IN THE COUPLE Adult living with at least one child aged < 5 ; Adult living with at least one child aged 6-11;Adult living with at least one child aged 12-18 . Il caso di studio esaminato 1^fase AMD La documentazione statistica di partenza Xk (k=1,2,..,9) = 9 variabili sono qui costituite invece da 9 gruppi di attività giornaliere esaustivi di tutte le attività svole ed aventi le seguenti caratteristiche: sono attività primarie PRIMARY ACTIVITIES PRIMARY ACTIVITY GROUPS 1. TV TV and video 2. OMED Other mass media (radio, music, reading) 3. FREE Free time: leisure time (sports, outdoor activities, hobbies and games unspecified); volunteers work and informal help to other households. 4. SOCI Socializing (participatory activities, social life and entartainment and culture). 5. TRAV Travel including travel for work 6. H&FA Home and family care 7. WORK Gainful work, study 8. EATS Meals 9. SLEEP Sleep 4^fase AMD La scelta della tabella dei dati per l’analisi a tre-vie • Si possono avere tre diverse codifiche a posteriori di una matrice dei dati a tre-vie secondo le situazioni di ricerca : • 1) Una matrice di dimensione [ N , (KO)] in cui si considerano diverse le K variabili rilevate in O occasioni successive ed uguali le N u.s.; • 2) Una matrice di dimensione [ (N O) , K] in cui si considerano uguali le K variabili e diverse le N u.s. rilevate in O occasioni successive; • 3) Una matrice di dimensione [(N x K), O] in cui si considerano uguali sia le N u.s. che le K variabili rilevate in O occasioni successive. • Nell’applicazione considerata, la scelta della codifica a posteriori è stata quella di tipo 3) La scelta della codifica a posteriori per la tabella dei dati • La situazione di ricerca considerata è quella descritta al punto (3), ossia si hanno uguali le K = 9 variabili, attività primarie, e uguali le N = 22 categorie di partner in O occasioni rappresentate, in questo caso, dalle 5 classi di età. La matrice dei dati a tre indici considerata può essere indicata: • definita dai seguenti elementi: • Xj (j=1,2,…,k) = 9 primary activities ; • N = 22 types of partners • Or (r =1,2,…,5) = partners’ age classes: 1824 years; 25-44 years; 45-64 years; 65-74 years;75-84 years • (r=1,..,5; i = 1,..22;j=1,..,9) = average duration (in minutes and decimals) referred to all persons of i-th partner’s category in jth activity in r-th occasion . I-th row is the time- budget of i-th partner.. 5^ fase AMD time use three-way matrix codificata in modo adatto alla situazine di ricerca considerata e al software impiegato[1] Analisi dell’interstruttura Distances matrix of correlation coefficients (range: 0 =max distance (dissimilarity), 1= max similarity between pairs of tables) Most similar pairs of time use tables are : 65-74 / 75-84 age classes (RV = 0.626); 18-24 / 25-44 age classes but with RV coefficient = 0.357; most dissimilar pairs of time use tables : 18-24 / 65-74 age classes (RV = 0.057 ; 18-24 / 75-84 age classes (RV = 0.084). plot of the five time-use tables on first factorial plane (65,65% of total variance) Analisi dell’intrastruttura o compromesso i seguenti cluster 1: adult (18-24/25-44) at home: sleep; socialities; eat; other media; free time ; cluster 2: old (65-74/75-84) relax-routine at home: eat, sleep, travel, tv; cluster 3: adult (18-24/25-44) out of home: travel; work;other , the day considered is working day. Plot of meanvariables (activities) points across five age classes on the first compromise factorial plane Analisi delle traiettorie delle unità e delle variabili Trajectories of the 22 categories of partners across the five age classes. Factor scores on the first factorial axis ( 42,48% of the total variance). Partners\Age classes Male MNotEmploy Memploy MLowEduc MMiddleEduc MHighEduc MWithChild<18 MNoChild<18 MWithChild<05 MWithChild6-11 MWithChild12-18 Female FNotEmploy FEmploy FLowEduc FMiddleEduc FHighEduc FWithChild<18 FNoChild<18 FWithChild<05 FWithChild6-11 FWithChild12-18 18-24 25-44 45-64 0,0936 0,1546 0,1956 * 0,4975 0,4339 0,0936 0,1405 -0,1607 * 0,2492 0,4106 0,0936 0,0905 -0,0347 * 0,1888 0,1256 0,0936 0,1561 -0,1527 0,1675 0,1485 0,501 0,0936 0,1429 -0,3478 * 0,2146 0,0209 * 0,0734 -0,1762 -0,2325 -0,2025 0,2607 -0,267 -0,1329 1,2403 -0,1769 -0,0985 -0,8499 * -0,3785 0,2803 -0,2967 -0,2232 0,1978 -0,1825 -0,0961 0,3343 -0,348 -0,2597 -0,1268 -0,0455 0,108 0,386 -0,348 -0,2991 -2,0525 * -0,151 * * -0,2072 * 2 MNot Employ Memploy 1 MLowEduc MMiddleEduc 0,5 MHighEduc 0 25-44 45-64 65-74 75-84 MNoChild<18 MWit hChild<05 MWit hChild6-11 MWit hChild12-18 -1,5 1,5 Female FNotEmploy 1 FEmploy 0,5 FLowEduc 0 -1 FMiddleEduc 18-24 25-44 45-64 65-74 75-84 FHighEduc FWithChild<18 FNoChild<18 -1,5 -2 -2,5 Traiettorie di 11 categorie di partner maschili attraverso 5 classi di età MWit hChild<18 18-24 -1 -0,5 75-84 1,1929 0,8231 * 1,1494 1,314 1,418 * * * -0,8548 -0,8548 0,8231 * -0,8548 0,8595 0,6611 -0,8548 * 0,8231 * * * Male 1,5 -0,5 65-74 1,0745 0,6389 0,7379 1,0625 1,0919 1,1152 * * * -1,2446 -1,2446 0,6421 0,9903 -1 0,5953 0,9494 0,5866 * 0,6421 * * * FWithChild<05 FWithChild6-11 FWithChild12-18 Traiettorie di 11 categorie di partner femminili attraverso 5 classi di età Il caso di studio esaminato Caso di studio n.2ter • Se è una matrice di intensità: i quozienti di criminalità • Dati sulla microcriminalità forniti dalle Questure di Roma • Negli anni 1999-2004 • Fa parte della Ricerca sulla percezione sociale del rischio di criminalità a Roma • Riferim.bibl.: F.Beato, La calma insicurezza, Liguori Ed.2003 in particolare: • M.Fraire, Analisi Multidimensionale spaziotemporale della criminalità diffusa nei X Municipi di Roma 1999 N 19, K 5 Il caso di studio statisticaesaminato di partenza: 1^fase dell’AMD La documentazione dati grezzi della microcriminalità della Polizia nei municipi di Roma: Questura di Roma Divisione Polizia Anticrimine Sezione Statistiche, Analisi e Proposte UFFICIO DI P.S. : Aurelio PERIODO DAL 02/01/2002 AL 01/01/2003 Delitti denunciati all'Autorità Giudiziaria dalla Polizia di Stato ed altri dati attinenti alla sicurezza pubblica SEZIONE PRIMA AVVENUTI N. OMICIDI DOLOSI CONSUMATI 1 PERS. DENUNCIATE di cui in Totale Roma scoperti 2 3 N. di cui di cui minori stranieri 4 5 6 PERSONE ARRESTATE N. 7 di cui di cui minori stranieri 8 9 1) a scopo di furto o rapina 2 0 0 0 0 0 0 0 0 0 2) per mafia camorra o 'ndrangheta 3 0 0 0 0 0 0 0 0 0 3) per motivo di onore o passionali 4 0 0 0 0 0 0 0 0 0 4) a scopo terroristico (Art. 280 C.P.) 5 0 0 0 0 0 0 0 0 0 5) per altri motivi 6 0 0 0 0 0 0 0 0 0 TOTALE da 1 a 5 7 0 0 0 0 0 0 0 0 0 Infanticidi 8 0 0 0 0 0 0 0 0 0 Omicidi preterintenzionali 9 0 0 0 0 0 0 0 0 0 Tentati omicidi 10 0 0 0 0 0 0 0 0 0 Omicidi colposi 11 0 0 0 0 0 0 0 0 0 Omicidi colposi da incidente stradale 12 0 0 0 0 0 0 0 0 0 Lesioni dolose 13 5 5 3 4 0 3 3 0 0 VIOLENZE SESSUALI 1) su minori di anni 14 14 1 1 0 0 0 0 0 0 0 2) su maggiori di anni 14 15 3 3 3 0 0 0 6 4 1 TOTALE 1 + 2 16 4 4 3 0 0 0 6 4 1 FURTI SEMPLICI E AGGRAVATI 1) abigeato 17 0 0 0 0 0 0 0 0 0 2) borseggio 18 569 569 49 7 4 7 63 16 61 3) scippo 19 19 19 0 0 0 0 0 0 0 …………………………………………………………………. 2^ fase dell’AMD Il caso di studio esaminato La codifica a priori : matrice dei dati grezzi sulla microcriminalità nei 19 municipi di Roma: X N 19;K 5 ►scelta della classificazione dei delitti ► calcolo valori assoluti (per somma delitti inclusi in ogni categoria) Esempio : La matrice dei valori assoluti dei delitti nei 19 Municipi per l’anno 2003 2003 I II III IV V VI VII VIII IX X XI XII XIII XV XVI XVII XVIII XIX XX ROMA Omic/Les Viol sess 77 10 15 4 20 5 19 3 22 2 11 2 16 1 19 3 17 3 41 4 12 3 31 5 15 4 9 4 2 0 30 3 18 3 10 2 15 5 399 66 Furti Rapine Estors/Altri 9636 163 1323 3696 110 721 2939 100 767 1342 92 381 1437 66 396 1622 64 445 1707 58 590 1162 72 267 3293 108 1150 3466 92 913 3561 101 1154 2986 158 941 1317 45 397 1993 98 302 1760 87 258 3086 82 997 1671 84 769 2999 75 586 1995 75 923 51668 1730 13280 Totale 11209 4546 3831 1837 1923 2144 2372 1523 4571 4516 4831 4121 1778 2406 2107 4198 2545 3672 3013 67143 Il caso di studio esaminato 2^ fase dell’AMD La classificazione dei delitti in 5 tipologie v. Testo: ‘La calma insicurezza’ pag.38 Tabella 1 - Classificazione dei delitti Classi di delitti Delitti inclusi 1.Omicidi e lesioni: Omicidio a scopo di furto o rapinaOmicidio per motivo di onore o passionali Omicidio a scopo terroristicoOmicidio per altri motiviOmicidi preterintenzionali Tentati omicidiOmicidi colposiLesioni dolose 2.Violenze Sessuali: Violenze sessuali contro maggiori anni 14Violenze sessuali contro minori di anni 14 3.Furti: AbigeatoBorseggiScippiFurti in uffici pubbliciFurti in negozi Furti in appartamentiFurti su auto in sosta Furti in ferroviaFurti di opere d'arteFurti di merci su automezzi pesanti,Furti di autoveicoliFurti di armi, esplosivi o munizioniAltri Furti Rapine in banca Rapine in uffici postali Rapine in gioiellerie e laboratori Rapine a rappresentanti di preziosiRapine a trasportatori di valori bancari Rapine a trasportatori di valori postali Rapine in danno di coppie o prostituteRapine di automezzi pesanti italiani e stranieriRapine a passantiRapine in negozi Altre rapine . Estorsioni Strage (Art.422 C.P.) Sequestri di persone a scopo estorsivo Sequestri di persona con ostaggio a scopo di rapina Sequestri di persona per motivi sessuali Sequestri di persona per altri motivi Danneggiamenti Associazione per delinquere Incendi dolosi Attentati dinamitardi/Incendiari Truffe Ricettazioni Risse Minacce,Oltraggio,Resistenza a P_U,Evasione, ContrabbandoUsura,Violazione legge armi,Violazione legge stranieri,Prod e commercio stupefacenti,Reati connessi alla prostituzione,Altri delitti. 4.Rapine: 5. da Estorsioni ad Altri 3Delitti 3^fase dell’AMD Il caso di studio esaminato codifiche a posteriori di variabili A)la misura della criminalità e il calcolo dei quozienti di criminalità • Richiami sulla definizione e misura della micro-criminalità (v. ‘La calma insicurezza’ pagg.29-36) : • Il concetto di ‘numero oscuro’: criminalità ‘reale’ = criminalità apparente (denunciata)+’numero oscuro’ si può stimare con le indagini di vittimizzazione • Rapporti statistici e misure della criminalità: n° dei delitti denunciati per il reato i-mo in un dato luogo e anno Quozienti di criminalità: ×1000 popolazione residente a metà anno nello stesso luogo e anno Altre misure: - Quozienti di criminalità ponderati (con la pena media edittale=gravità del reato) - L’indice di delittuosità - Le mappe tematiche e l’autocorrelazione spaziale B) Prime analisi statistiche unidimensionali preliminari delle matrici dei quozienti calcolate (pag. 36-43) 3^fase La codifica per variabili 3^=4^ fase: le scelta tabelle dei dati Le 6 matrici X N 19, K 5 dei quozienti di criminalità 1000ab nei 19 municipi di Roma dal 1999 al 2004 TABLEAU DES DONNEES 1999 -----------------------0 I II III IV V VI VII VIII IX X XI XII XIII XV XVI XVII XVIII XIX XX OMIC .5160 .2650 .5250 .0880 .3540 .1350 .1350 .2340 .0820 .0670 .0500 .0520 .1450 .1880 .2500 .2520 .1650 .0390 .2440 VSES .0570 .0400 .1220 .0150 .0330 .1350 .0400 .0160 .0150 .0000 .0140 .0260 .0160 .0260 .0270 .0800 .0300 .0110 .0490 FURT 73.6850 40.8720 84.5470 8.5180 7.9560 .0520 24.7230 11.6800 36.5500 21.6690 22.9450 23.3590 10.3870 21.0480 19.9390 67.7180 17.9910 21.3850 23.5460 RAPI 2.1140 1.6890 2.8500 .2980 .4030 2.2090 1.0700 .7640 1.0550 .7610 .8550 .9010 .3280 .7310 .7890 1.6440 .5400 .5190 .6980 ESTO 10.7500 7.9940 15.4410 1.6900 2.6340 .7250 6.4230 4.7950 6.1670 4.3320 2.7080 4.4100 4.7980 4.0750 3.5800 9.8260 4.7420 2.4430 6.0380 Il caso di studio esaminato TABLEAU DES DONNEES 2004 0 TABELLA DEI DATI 1999 TABELLA DEI DATI 2000 TABELLA DEI DATI 2001 TABELLA DEI DATI 2002 TABELLA DEI DATI 2003 TABELLA DEI DATI 2004 I II III IV V VI VII VIII IX X XI XII XIII XV XVI XVII XVIII XIX XX OMIC .4400 .3050 .7890 .1560 .2890 .0010 1.1060 .1680 1.2900 .0880 1.3500 1.2880 .0890 .1870 .0810 .7670 .2230 .4920 .8100 -----------------------VSES FURT RAPI .1710 87.3700 1.8510 .0320 33.6800 1.4690 .0530 70.8580 2.7720 .0100 7.9950 .2870 .0210 6.8560 .6380 .0000 .0220 .0010 .0790 33.1810 2.3460 .0200 9.8490 .6740 .1040 45.7060 3.1990 .0000 19.1070 .7880 .1000 68.5860 4.0870 .0880 82.0890 4.4910 .0260 9.2350 .4610 .0060 16.7140 .6760 .0070 16.8380 .5340 .0930 90.6170 3.5980 .0300 15.9870 .6160 .0620 50.3420 1.9850 .1030 76.6240 3.0080 NOTA: E’ preferibile costruire la tabella dei dati come media aritmetica di un triennio per eliminare eventuali variazioni dovute a semplici oscillazioni dei dati e non effettive variazioni nell’entità della microcriminalità. ESTO 11.7900 8.5640 15.5790 1.5330 2.4660 .0060 9.7540 3.5900 14.4500 3.6680 18.6060 20.5410 5.2140 4.6160 2.9890 28.5080 4.0320 15.0860 22.2610 Le matrici dell’Analisi dei Dati a Tre Vie (3-way data analysis): Codifiche a priori(2^fase dell’AMD) • • • • • • • • • Analisi dei Dati a Tre Vie (three-way data analysis) mediante la quale si possono esaminate più tabelle nella forma di tabelle di dati quantitativi , tutte insieme, globalmente e contemporaneamente, secondo tre diversi aspetti: a) la rappresentazione globale di tutte le tabelle e la distanza tra esse (analisi dell’interstruttura); b) individuare la tabella ‘compromesso’ o ‘ matrice media’ (analisi dell’intrastruttura ) c)confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme delle occasioni considerate e individuare quali di esse sono quelle che hanno contribuito maggiormente alla differenza tra le tabelle (analisi delle traiettorie) Si possono avere diverse codifiche a posteriori di una matrice dei dati a tre vie secondo le situazioni di ricerca: 1) Una matrice di dimensione [ N , (KO)] in cui si considerano diverse le K variabili rilevate in O occasioni successive ed uguali le N u.s.; 2) Una matrice di dimensione [ (N O) , K] in cui si considerano uguali le K variabili e diverse le N u.s. rilevate in O occasioni successive. 3) Una matrice di dimensione [(N x K), O] in cui si considerano uguali sia le N u.s. che le K variabili rilevate in O occasioni successive. Le matrici a tre indici per l’Analisi dei Dati a Tre Vie: 1^ fase AMD N = u.s.; K= caratteri O = occasioni Un esempio: La O MICROCRIMINALITA’ nei 19 Municipi di Roma dal 1999 al 2004 X NxK 4( anni) X 19( MunicipiRM), 5( delitti) DATI CUBICI a TRE MODI (N,K,O)e TRE INDICI (i,j,k) O X N ,K Convegno di Studi su: La criminalità diffusa a Roma. Percezione sociale del rischio ed uso della città. I risultati di una ricerca. 7 maggio 2003 – Centro Congressi dell’Università degli Studi di Roma ‘La Sapienza’ ‘Analisi multidimensionale spazio-temporale della criminalità diffusa nei municipi di Roma’ di Mary Fraire Professore ordinariodi Statistica, Università degli Studi di Roma ‘La Sapienza’. 4^ fase AMD La tabella dei dati Tabella 6 - La tabella dei dati a 3-vie impiegata per le analisi O T (1999 2002) X N 19, K 5 OMI VSES FURT RAPI ESTO I 0.516 0.057 73.685 2.114 10.750 II 0.265 0.040 40.872 1.689 7.994 ……………………………………………………………………. XIX 0.039 0.011 21.385 0.519 2.443 XX 0.244 0.049 23.546 0.698 6.038 I 0.440 0.171 87.370 1.851 11.790 II 0.305 0.032 33.680 1.469 8.564 …………………………………………………………………… XIX 0.492 0.062 50.342 1.985 15.086 XX 0.810 0.103 76.624 3.008 22.261 I 1.050 0.258 147.905 3.908 21.558 II 0.249 0.016 31.768 1.404 6.957 …………………………………………………………….. XIX 0.061 0.000 15.375 0.570 3.340 XX 0.205 0.020 15.459 0.764 5.223 I 0.367 0.147 64.680 1.827 12.445 II 0.177 0.008 31.936 1.116 7.277 …………………………………………………………………… XIX 0.078 0.011 15.852 0.620 2.905 XX 0.129 0.075 14.230 0.565 5.642 Note: 1) I Municipi sono in totale 19 in quanto il XIV Municipio, ‘Fiumicino’, è diventato comune a se stante . 2) Le etichette delle variabili sono: OMI= Omicidi e lesioni, VSES = Violenze sessuali, FURT = Furti, RAPI = Rapine, ESTO=Estorsioni ed altri delitti, la classificazione dei delitti riportata nella tabella L’Analisi a 3-vie (3-way data analysis) La situazione di ricerca e le tabelle dei dati impiegate Si possono avere diverse tabelle dei dati a tre vie O X N , K Nella presente ricerca ci si trova nella situazione di ricerca seguente: N = u.s.; K= caratteri statistici; O = occasioni OT (19992002) X N 19, K 5 X ( N 19K 5),T 4 in cui si considerano uguali sia le N u.s. che le K variabili osservate in O occasioni successive qui gli anni dal 1999 al 2002. Il metodo di analisi a 3-vie impiegato Analyse Conjointe de Tableaux Quantitatifs (A.C.T.) – Méthode STATIS (Escoufier, 1980) per analizzare le 4 tabelle dei dati suddette contemporaneamente e globalmente sotto tre diversi aspetti: analisi dell’interstruttura ; analisi dell’intrastruttura; analisi delle traiettorie Software impiegato: ACT-Statis (CISIA, 1989,France) I risultati dell’analisi a 3-vie: L’INTERSTRUTTURA Rappresentazione globale delle 4 tabelle dei dati nel primo piano fattoriale 1 2 76,02% ( dell’inerzia totale) rispetto alla matrice ‘media’ (WD) (‘matrice compromesso’, sintesi di tutte le matrici) : la vicinanza indica tabelle con strutture globalmente simili: Analisi dell’inter-struttura Figura 8-Il plot delle 4 tabelle dei dati per i 4 anni considerati sul primo piano principale ( 76,03 % dell’inerzia totale) centrato rispetto alla matrice compromesso (WD) 1 2 Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Interstructure. Analisi dell’intrastruttura: la matrice compromesso e il municipio medio rispetto alla microcriminalità nel periodo considerato Figura 10 -Rappresentazione degli individui compromesso: i 19 Municipi (punti unità-medi) rispetto ai primi due assi compromesso ( 1 42 , 48 % 2 17 , 70 % 60 ,18 % ) -----------------------------------------------------------------------------------------------------------------------1! ! XVII ! 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 11! ! ! 12! ! ! 13! ! ! 14! ! ! 15! ! ! 16! ! ! 17! ! ! 18! ! ! 19! ! ! 20! ! ! 21! ! ! 22! ! ! 23! ! ! 24! ! ! 25! ! ! 26! ! ! 27! ! ! 28! ! ! 29! ! ! 30! ! ! 31! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! XVII ! ! 38! ! ! 39! ! ! 40! XX ! ! 41! ! ! 42! XII ! ! XVI 43! VII 45!----------------XV ! ! 44! ! 46! 47! 48! ------- ! ! ! ! ---------------------------------------------------------------------------------------- ! ! ! III ! ! ! ! ! 49! 50!IV V VIII XIX VIXIII ! II ! ! ! X ! ! ! ! ! ! ! ! ! I ! ------------------------------------------------------------------------------------------------------ ------------------ 51! 52! 53! 54! 55! 56! 57! XI IX Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Intrastructure Sul primo asse si può notare la contrapposizione tra i Municipi XVI, VII, XV,XII , VIII e il III, I; sul secondo asse il XVII, XX contro il IX, XI. Mentre nella Figura 11 si riporta lo stesso plot riferito invece che alle u.s. (19 Municipi) alle variabili (i 5 tipi di delitti nei 4 anni). Il confronto tra i due plot consente di interpretare i risultati considerando la vicinanza tra i punti-medi unità (Municipi) e i punti-medi variabili (5 tipologie di delitti )incluso l’anno di riferimento (qui indicato con i numeri 1=1999, 2=2000,3=2001,4=2002 posti accanto al nome della variabile). Analisi dell’intrastruttura: la matrice compromesso e il tipo di reato ‘medio’ rispetto alla microcriminalità nel periodo considerato Figura 11 – Correlazioni delle variabili con gli assi: i 5 punti-medi variabili sul primo pian fattoriale I risultati dell’analisi a 3-vie: LE TRAIETTORIE dei Municipi (indicizzate rispetto al I asse fattoriale Municipi da I a V: il diverso ruolo nella criminalità 1 57,75% ) Le traiettorie della criminalità diffusa degli altri Municipi: confronti Una sintesi dei risultati • • • • • • • E’ possibile analizzare singolarmente ogni Municipio per i 4 anni considerati e confrontare la sua traiettoria rispetto agli altri: si noti che l’ordine in cui appaiono è in effetti una graduatoria (multidimensionale perché riferita ai 5 tipi di delitti denunciati contemporaneamente considerati) decrescente rispetto alla criminalità nei vari anni di ciascun Municipio. Limitandoci qui a commentare in particolare il III e il V Municipio, essendo quelli in cui si è svolta l’indagine campionaria di cui si vedranno alcuni risultati nel paragrafo che segue. -Si può anzitutto notare che il I Municipio è quello che ha la criminalità più elevata -mentre il V quella più bassa rispetto agli altri Municipi considerati - inoltre nei 4 anni mentre la criminalità nel V Municipio è rimasta pressoché invariata nel I Municipio si sono avuti notevoli cambiamenti nei 4 anni come si può vedere dalla traiettoria del Municipio I in figura 11: andamento alterno con una brusca diminuzione nel 2000 ed una notevole ripresa nel 2001. E’ da notare che questa rappresentazione consente la condensazione e sintesi di una notevole mole di informazioni e soprattutto consente il confronto spazio-temporale delle u.s. rispetto alle variabili considerate. Il caso di studio esaminato Caso di studio n.3 • Se sono dati testuali: • Se è una matrice dei dati testuali • ‘Le preoccupazioni sociali rilevanti e la QdV nelle C.M.’ e l’analisi a tre vie per l’individuazione di indicatori lessicali empirici • Relazione presentata alla 5^JADT2000, Losanna 9-11 marzo su M.Fraire, ‘Analisi a 3-vie delle risposte a domande aperte e indicatori empirici • Riferim.bibliograf. ‘Sociologia e Ricerca Sociale’ n.61/anno XXI, 2000 1^ fase AMD L’Analisi dei dati testuali a 3-vie • La documentazione statistica di partenza: • campo d’indagine, questionario, popolazione e le matrici • • • • • • • • • • dei dati iniziali Particolare questionario ‘Scheda descrittiva-per problemi’ caratterizzato da una serie di 8 domande aperte miranti ad individuare le ‘preoccupazioni sociali rilevanti’ per ciascuna delle seguenti 8 ‘aree di rilevanza sociale’: A: ‘Salute’ ; B:’Istruzione e formazione professionale’; C: ‘Occupazione e Qualità del lavoro’; D:’Impiego del tempo libero’; E: ‘Situazione economica personale’; F:’Ambiente fisico’; G:’Ambiente sociale’; H: ‘Sicurezza personale’, nelle quali era stata scomposta la definizione astratta di QdV. le risposte alle 8 domande aperte date da ciascuno dei 22 operatori (presidenti di C.M.) hanno costituito il file di testo originario composto quindi da 8 sub-files • Creazione della matrice dei dati testuali e • codifiche a posteriori: correzione, disambiguazione e segmentazione del testo e le prime analisi statistiche dei testi. un esempio di matrice dei dati testuali (Il questionario:1^fase dell’AMD) ………………………………… Le matrici dei dati iniziali testuali (2^fase dell’AMDT) : il file di testo nell’Analisi dei Dati Testuali: La matrice ‘QdVCM.txt' - - - ----01PIECN A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI SERVIZI DI TRASPORTO. ++++ B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI. PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI. SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE ESIGENZE DEL MONDO DEL LAVORO. ++++ C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE. DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI PRIMA OCCUPAZIONE. AUMENTA IL LAVORO NERO E PART-TIME. ++++ D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE. PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE. ++++ E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO. PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO E IL COSTO PER IL RISCALDAMENTO. ++++ F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL TRAFFICO PROVINCIALE. DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE. ++++ G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI RIGUARDANO L'ASSISTENZA AGLI ANZIANI. FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO DELLA DROGA. ++++ H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI. ----02VADAO A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA DI TRASPORTI. ++++ B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE. MANCA UNA SEDE UNIVERSITARIA. ++++ ………………………... ----22SARNU 3^fase AMD Analisi dei dati testuali Un esempio di codifiche a posteriori di 3^ fase: la selezione delle risposte caratteristiche • Selezione delle risposte caratteristiche secondo le ripartizioni geografiche. (Criterio del Chi-quadrato) • • • • • • • • • • • • • • • INDICE CHI-QUADRATO RISPOSTE CARATTERISTICHE Nord-Ovest .447 -1 ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI. .592 -2 ASSENZA DI OSPEDALI E PRONTO SOCCORSO 2 MALATTIE TIPICHE DEGLI ANZIANI.NEOPLASIE. .738 -3 ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE 3 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE PER CARENZA DI TRASPORTI. Nord-Est .480 -1 ELEVATA PRESENZA DI GOZZO PER CARENZA DI IODIO NELL'ACQUA POTABILE. 1 ALTO TASSO DI INVALIDI IN AGRICOLTURA PER INCIDENTI. .725 -2 ALTO TASSO DI HANDICAP E INVALIDI. .754 -3 NON FUNZIONALITA DEI DISTRETTI DI BASE 3 ASSENZA DI STRUTTURE PER HANDICAPPATI. .766 -4 CLIMA UMIDO MALATTIE REUMATICHE E BRONCHIALI . .864 -5 DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE IN CASO DI EMERGENZA. Centro .534 -1 STRUTTURE SANITARIE ACCENTRATE PRESSO L'OSPEDALE CIVILE. 1 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER ASS.DISTR DI BASE. .640 -3 CARENZA DI UN CONSULTORIO FAMILIARE 3 ASSENZA DI CENTRI DI IGIENE MENTALE .735 -4 ASSENZA DI PRESTAZIONI SANITARIE PERIFERICHE. .804 -5 ALTO TASSO MALATTIE REUMATICHE PER CLIMA UMIDO. 5 ALTO TASSO DI ANZIANI PER SPOPOLAMENTO. Sud .501 -1 ASSENZA DI ASILI NIDO E STRUTTURE PER HANDICAPPATI 504 2 ALTO TASSO DI HANDICAPS E INVALIDI CIVILI. 2 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER ASS.DI DISTR.DI BASE .561 -3 ALTO TASSO DI HANDICAPS PER POLIOMIELITE. .772 -4 ASSENZA DI SERVIZI PER ANZIANI.CARENZA DI STRUTTURE PER HANDICAPPATI. .778 -5 ALTO TASSO DI INVALIDI 5 ASSENZA DI PRESTAZIONI SANITARIE PUBBLICHE. Isole .376 -1 ASSENZA DI UN CENTRO DI RIANIMAZIONE. 1 CARENZA DI CENTRI DI SERVIZIO SOCIALE IN AMBITO USL .695 -2 ALTO TASSO DI INVALIDI CIVILI.CARENZA DI SERVIZI SANITARI. .937 -3 ALTO TASSO DI HANDICAP E INVALIDI. • • • • • • • • • • • • • • • • • • • • • • L’analisi a tre-vie • Mediante l’analisi dei dati a tre vie si sono volute esaminare tutte insieme, contemporaneamente e globalmente, le 8 aree di rilevanza sociale (occasioni), le u.s. (5 ripartizioni geografiche) e le tre variabili (primi 3 fattori) di ogni area ossia le 8 tabelle di contingenza nella forma di tabelle di dati quantitativi suddetta al fine di individuare: • a) attraverso la rappresentazione globale di tutte le tabelle quali di esse hanno una struttura simile o diversa e, attraverso la loro distanza dalla tabella ‘media’ (matrice compromesso), valutare quali di esse contribuiscono maggiormente alla parte di variabilità eccedente quella comune rappresentata dalla matrice compromesso (analisi dell’interstruttura); • b) individuare sia per gli individui (punti individui-medi) che per le variabili (punti variabili-medie) le caratteristiche della variabilità media nelle 8 occasioni (analisi dell’intrastruttura). • c) individuare e confrontare le ‘traiettorie’ di ciascuna u.s.(qui le 5 ripartizioni geografiche) per l’insieme delle 8 occasioni (aree di rilevanza sociale) considerate ossia i diversi ‘percorsi’ e quindi il diverso ruolo di ciascuna area di rilevanza sociale nel definire la QdV di ciascuna ripartizione (analisi delle traiettorie). 3^fase AMD Le codifiche a posteriori • . Si sono considerati i dati centrati e ridotti perché la variabilità delle singole variabili era molto diversa. Infine si è richiesta la normalizzazione delle tabelle per ottenere coefficienti di relazione tra tabelle (l’indice RV di Escoufier) varianti tra 0 e 1. • in generale nelle applicazioni informatiche (qui ad esempio si è impiegato il software ACTméthode STATIS), tale codifica si è ottenuta per impilamento delle tabelle e imponendo poi la condizione che le variabili fossero diverse in ogni occasione e le u.s. uguali A)Analisi dell’interstruttura: la collocazione delle aree di rilevanza sociale attravero l’analisi dell’interstruttura Fig.2 - Rappresentazione sul primo piano fattoriale centrato (72,04%) rispetto alla matrice compromesso delle 8 aree di rilevanza sociale -----------------------------------------------------------------------------------------------------------------------1! 1 ! 2 28,14% ! 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 11! ! ! 12! ! ! 13! ! ! 14! ! ! 15! ! ! 16! ! ! 17! ! 5 ! 18! ! ! 19! ! ! 20! ! ! 21! ! ! 22! ! ! 29! ! ! 30! ! ! 31! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! ! ! 38! 2 ! 39! ! ! 1 43,90%, 40! ! ! 41!7 --------------------------------------------------------WD -------------------------------------------------------! 42! ! ! ! 45! ! 8 ! 46! ! ! 47! 6 ! 48! ! ! 49! ! ! 50! ! ! 51! ! ! 52! ! ! 53! ! ! 54! ! ! 60! ! ! 61! ! ! 62! ! ! 63! ! ! 64! ! ! 65! ! ! 66! ! ! 67! ! ! 68! ! 3 69! ! ! 70! ! ! 71! ! ! 72! ! 4 ------------------------------------------------------------------------------------------------------------------------ (salute) (Situaz.econ.person.) (Istruz.e Form.Prof.) (Ambiente sociale) (Ambiente fisico) (Sicurezza sociale) (Occupazione) (Impieghi del t.l.) Questa classificazione ‘a posteriori’ in due clusters delle 8 aree definite ‘a priori’ emerge comunque dall’analisi della parte di variabilità delle 8 tabelle eccedente la variabilità ‘media’. Esaminiamo allora più dettagliatamente sia rispetto alle u.s. che alle variabili le caratteristiche della variabilità ‘media’. B)Analisi dell’intrastruttura: la collocaizone delle ripartizoni geografiche rispetto alle preoccupazioni sociali rilevanti Rappresentazione delle 5 ripartizioni geografiche (5 punti unità-medi) rispetto ai primi due assi compromesso (60,48%) -----------------------------------------------------------------------------------------------------------------------1! SUD ! ! 2 2! ! ! 3! ! ! 4! ! ! 5! ! ! 6! ! ! 7! ! ! 8! ! ! 9! ! ! 10! ! ! 32! ! ! 33! ! ! 34! ! ! 35! ! ! 36! ! ! 37! ! ! 38! ! ! 39! ! ! 40! ! ! 41! ! ! 42! ! ! 43! ! ! 1 44! ! ! 45!------------------------------------ ! --------------------------------------------------------------------------------! 46! NEst ! 47! ! ! 48! ! ! 49! ! ! 50! ! ! 51! ! ! 52! ! ! 53! ! NOvest 54! ! ! 55! ! ! 56! ! ! 57! ISOL ! 58! ! ! 59! ! ! 60! ! ! 61! ! ! 62! ! ! 63! ! ! 64! ! ! 65!CENTRO ! ! ------------------------------------------------------------------------------------------------------------------------ 28,00% 32,48% Sul primo asse si evidenzia la contrapposizione tra NEst (-) e Novest (+), mentre sul secondo asse la contrapposizione tra Sud (+) e Isole (-). Il Centro come già rilevato nell’Analisi delle corrispondenze è scarsamente correlato (contributi assoluti molto bassi) su entrambi gli assi. C)Analisi delle traiettorie Fig.4 – Traiettorie delle 5 Ripartizioni geografiche primo (4a)e al secondo (4b)asse fattoriale in funzione di rilevanza sociale. rispetto al delle 8 aree 0!------------------------------------------------------------------------------------------------------------------------ 1! Fig.4a : 1 32, 48% 2! A ! 3! A ! 4! ! 5! ! 6! A A ! 7! ! 8! ! 9! A A ! 10! ! 11! ! 12! ! 13! ! 14! ! 15! A ! 16! NOvest A ! 17! ! 24! ! 25! NEst B ! 26! ! 27! ! 28! ! 29! D ! 30! ! 31! ! 32! D ! 33! B ! 34!------------1 ----------2 ---------3E --------4 ----------5B --------6 ----------7 ----------8E -------------------35! 36! D ! 37! D D ! 38! E D B ! 39! D E ! 40! E ! 41! Isole E B ! 42! Centro C B ! 43! Sud D C ! 44! E ! 45! ! 46! E C C C B C ! 47! ! 48! B ! 49! C ! 50! C ! ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------1! 2! 3! 4! 5! 6! 7! 8! 9! 10! 11! 12! 13! Fig.4b: 2 28,00% D D D D Sud D D D D ! ! ! ! ! ! ! ! ! ! ! ! 23! B ! 24! ! 25! NEst B ! 26! ! 27! ! 28! B B ! 29! A ! 30!------------1 ----------2 ----------3 ----------4 ----------5 ----------6 ----------7 ----------8 ----------------------! 31! E B ! 32! E A C ! 33! A ! 34! C B ! 35! A ! 36! ! 37! E A E ! 38! Centro C A A ! 39! B E ! 40! NOvest A E E ! 41! B ! 42! C E ! Isole 43! ! 44! C C 45! ! 46! ! 47! C ! 48! ! 49! ! 50! C ! ------------------------------------------------------------------------------------------------------------------------ Legenda:Ripart. Geograf.: A:Novest; B:NEst; C: Centro; D:Sud; E:Isole. AreediRil.Soc.:1:Salute;2:Istruz.eForm.Prof.;3:Occup.eQdL;4:ImpieghiT.L.;5:S it.Econ.Pers.;6: Ambiente Fisico;7: Ambiente Sociale; 8: Sicurezza Personale. Le linee tratteggiate non vanno ovviamente interpretate come funzioni ma qui sono solo strumentalmente impiegate per facilitare il confronto delle diverse traiettorie sovrapposte. Si noti come rispetto alle traiettorie del primo asse (Fig.4a) è la ripartizione NOvest che si differenzia nettamente dalle altre nell’articolazione delle 8 aree di rilevanza sociale che costituiscono la definizione di QdV ipotizzata mentre rispetto al secondo asse (Fig.4b) è il Sud a differenziarsi nettamente dalle traiettorie delle altre ripartizioni. Inoltre, pur nella diversità dei ‘percorsi’ delle ripartizioni dovuti ad una diversa struttura delle preoccupazioni sociali rilevanti di ciascuna area, vi sono delle aree vicine ossia tabelle di una data area simili nella struttura, ad esempio nella Fig.4a: l’area 1:‘Salute’ nelle Isole, Centro e Sud; l’area 7: ‘Ambiente sociale’ nel NEst e Sud; Centro e Isole; l’area 4: ‘Impieghi del T.L.’ per il Centro e NEst.