X - Dipartimento di Scienze Sociali ed Economiche

SAPIENZA – Università di Roma
Dipartimento di di Scienze Sociali
(DiSS)
DdR
RICERCA APPLICATA ALLE
SCIENZE SOCIALI (RASS.)
a.a. 2010-2011
‘Analisi esplorativa delle
tabelle multiple:
la multi-way data analysis’
Lezione del 19 APRILE 2011
ore 16:00-19:00, Aula B8
SAPIENZA – Università di Roma
Dipartimento di di Scienze Sociali (DiSS)
DdR
RICERCA APPLICATA ALLE SCIENZE SOCIALI (RASS)
a.a. 210-2011
‘Analisi esplorativa delle tabelle multiple:
la multi-way data analysis’
Prof.ssa Mary Fraire
Lezione del 19 APRILE 2011
ore 16:00-19:00, Aula B8
Indice degli argomenti
1.Introduzione : Analisi esplorativa multidimensionale dei dati (EMDA-Exploratory Multidimensional Data
Analysis) e analisi confermativa multivariata dei dati (CMDA-Confirmatory Multivariate Data
Analysis) . Una distinzione importante nell’analisi delle relazioni statistiche. Un approccio alla
complessità: l’analisi dei dati come ‘sistema’e le 7 fasi statistiche e informatiche dell’EMDA
2.Le fasi preliminari dell’EMDA (cenni).
3.L’analisi esplorativa delle tabelle multiple (multi-way data analysis):
- origini storiche e classificazione delle diverse tecniche
- le 3 fasi della multi-way
- aspetti statistici e informatici
4. Caso di studio n.1: se è una tabella inventario (il questionario; un database)
[Rif.bibliogr.: M.Fraire, Analisi multi-way delle principali caratteristiche di ingresso, percorso ed esito
degli studenti delle facoltà di Sociologia italiane, in A.Fasanella, L’impatto della riforma universitaria
del ‘3+2’ sulla formazione sociologica, Franco Angeli]
5. Caso di studio n.2: se è una matrice di intensità (uso del tempo) codificata a posteriori come tabella di
contingenza;[Rif.bibliogr.:M.Fraire, (2006) , Multi-way data analysis for comparing time use in
different coutrie. Application to time budgets at different stages of life in six European caountries, in
eIJTUR 2006, vol.3, No.1, 88-109]
6. Caso di Studio n. 2 bis: se è una matrice di intensità (uso del tempo) codificata a posteriori come tabella di
intensità con le durate medie generiche in minuti [L’uso del tempo dei partner];[Rif.bibliogr.:M.Fraire,
(2009) , Statistical Methods for Exploratory Multidimensional Data Analysis on Time Use, in
Statistica anno LXIX, n.4,2009
7.. Caso di Studio n.2ter: se è una matrice di intensità o dati quantitativi (codificata a posteriori con i
quozienti di micro-criminalità) .[Rifer.bibliogr.:M.Fraire,(2003),, Analisi multidimensionale spaziotemporale della criminalità diffusa nei Municipi di Roma, in Beato F., La calma insicurezza.
Percezione sociale del rischio ed uso della città, Liguori Ed. 2003
8. Caso di studio n.3 : se sono dati testuali (la matrice dei dati testuali). [Rifer.bibliogr.: M.Fraire,(2000),
Analisi dei Dati a Tre-Vie delle Risposte a Domande Aperte e Indicatori Empirici, Actes 5 Journées
internationales d’Analyse statistique des Données Textuelles (JADT 2000 Losanna, 9-11
marzo 2000), EPFL, M.Rajman & J.-C. Chappelier editeurs
Prof.ssa Mary Fraire – Professore ordinario di Statistica
Dip.to di Scienze Sociali (DiSS)
e-mail: [email protected]
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Università di Roma ‘La Sapienza’
Riferimenti bibliografici
Multidimensional and Multivariate Data Analysis and Methodology
Act-Statis 1989),Analyse conjointe de tableaux quantitatifs. Méthode STATIS, CISIA, Saint Mandé (France)
Anderberg M.R. (1973), Cluster Analysis for Applications, New York, Academic Press Inc.
Bolasco S. (1999), Analisi Multidimenislnale dei dati, Roma, Carocci Ed.
Benzécri J.P. (1973), L’Analyse des Données, tome I: Taxinomie, tome II: Analyse des Correspondaneces, Dunod,
Paris;
Bertier P., Bouroche J-M (1975), Analyse des Données Multidimensionneelles, France, Ed. P.U.F.
Caillez F., Pages J.P. (1976), Introduction à l’Analyse des Données, Paris, S.M.A.S.H.
Coppi R. (1979), Alla base dei metodi statistici: la formalizzazione dei dati, in Quaderni di Statistica Sanitaria, Anno
II, n.1, Facoltà Sciense Stat.Dem.Att., Università di Roma ‚La Sapienza‘.
Coppi R., Bolasco S (eds)(1989), The Analysis of Multiway Data Matrices, North Holland, Amsterdam
Corbetta P.G.(1992), Metodi di Analisi Multivariata per le Scienze Sociali, Bologna, il Mulino
P. Corbetta, G.Gasperoni, M.Pisati,(2001) Statistica per la ricerca sociale, Ed. Il Mulino, Bologna, 2001
Di Franco(2001) EDS: esplorare, descrivere e sintetizzare I dati.Guida pratica all’analisi dei dati nella ricerca sociale,
FrancoAngeli 2001
Di Franco (2003), L’Analisi multivariata nelle scienze sociali. Modelli log-lineari e variabili categoriali, Carocci2003
Escofier B., Pagès J. (1984), L’analyse factorielle multiple, in Cahiers du Bureau Univ. Recherche Operat., Série
Recherche 423
Escoufier Y. (1980), L’analyse conjointe de plusieurs matrices, in Jolivet et al. (eds.), Biométrie et Temps, Société
Francaise de Biométrie.
Fabbris L., 1997, Statistica multivariata, Milano, McGraw-Hill
Fisher W.F.(1958), On grouping for maximum Homogeneity, Journ.Amer.Stat.Ass., 53, pp789-98
Fraire M., (1989) , Problemi e metodologie statistiche di misurazione di fenomeni complessi tramite indicatori e indici
sintetici, in 'Statistica', anno XLIX n.2, 1989.
ID. (1994), Metodi di Analisi Multidimensionale dei Dati. Aspetti statistici e applicazioni informatiche., Roma, CISU,
1994;
ID.(1995), Multidimensional data analysis ans its preliminary phases: statistical aspects, in Rizzi A. Ed., Some
Relations Between Matrices and Structures of Multidimensional Data Analysis, Applied Mathematics
Monographs, n.8 1995, Giardini Editori e Stampatori in Pisa, Italy.
ID.(1997), Complessità instabilità e caos: esplorazione statistica multidimensionale e fenomeni sociali, Atti V°
Congresso Internazionale degli Studi sulle Utopie, Macerata 27 maggio 1995, Giuffrè Ed. Milano,
ID.(2000), Analisi dei Dati a Tre-Vie delle Risposte a Domande Aperte e Indicatori Empirici, Actes 5 Journées
internationales d’Analyse statistique des Données Textuelles (JADT 2000 Losanna, 9-11
marzo 2000), EPFL, M.Rajman & J.-C. Chappelier editeurs
ID(2002), L’Analisi in Componenti Principali (ACP) e la Cluster Analysis (CA), Note metodologiche in R.Cipollini (a
cura di), Stranieri. Percezione dello straniero e pregiudizio etnico, Franco Angeli
ID (2003),, Analisi multidimensionale spazio-temporale della criminalità diffusa nei Municipi di Roma, in Beato F., La
calma insicurezza. Percezione sociale del rischio ed uso della città, Liguori Ed. 2003
ID (2006) , Multi-way data analysis for comparing time use in different coutrie. Application to time budgets at different
stages of life in six European caountries, in eIJTUR 2006, vol.3, No.1, 88-109
ID (2007), Analisi multi-way delle principali caratteristiche di ingresso, percorso ed esito degli studenti delle facoltà
di Sociologia italiane, in A.Fasanella, L’impatto della riforma universitaria del ‘3+2’ sulla formazione
sociologica, Franco Angeli
ID(2009),Statistical Methods for Exploratory Multidimensional Data Analysis on Time Use, in 'Statistica', annoLXIX
n.4, 2009
Hotelling H. (1936), Analysis of a Complex of Statistical Variables into Principal Components, Journal Educational.
Psychology 24,pp 417-41, 498-520
Lauro N.C., D’Ambra L. (1984), L’Analyse non-symétrique des Correspondances, in Data Analysis and Informatics,
III, Diday et al. Ed.North-Holland,p 433-446
Lauro N.C., Decarli (1982), Correspondence analysis and log-linear models, in Metron, multiway contingency tables
study, 1-2, p 213-234
Lebart L. Morineau A., Piron M. (1997), Statistique Exploratoire Multidimensionnelle, Paris, Dunod, ISTAT
Pearson K (1901), On lines and planes of closest fit to systems of points in space, Philosophical Magazine, 6, 2, pp55971
Rizzi A. (1989), Analisi dei Dati. Applicazioni dell’informatica alla Statistica, Roma , NIS.
Statera G., 1997, La Ricerca Sociale.Logica, strategie, tecniche, Roma SEAM
Tryon R.C., Bayley D. (1939), Cluster Analysis, New York, McGraw Hill 1970
Tucker L.R. (1958), An inter.battery method of factor analysis, Psychometrika, 23, (2)
Una distinzione importante nell’analisi
delle relazioni statistiche
• Nell’analisi delle relazioni statistiche è
importante distinguere:
• Analisi
dell’interdipendenza
strettamente
statistica (‘osservata ’): correlazione, covariazione,
connessione: si può osservare, semplicemente
osserviamo che due variabhili presentanto variazioni
concomitanti, al variare dell’una l’altra varia (Tecniche
di esplorazione e riduzione dei dati dell’Analisi
Esplorativa Multidimensionale dei Dati)
•  Analisi della dipendenza ‘logica’ , ‘causazione’
(non si può osservare, necessita di una ‘teoria) la
causazione implica la nozione di ‘produzione’ ossia se
X è causa di Y ad una trasformazione di X si produce
una trasformazione in Y e non soltanto che una
trasformazione di X è seguita o ‘associata’ ad una
trasformazione
di
Y
(Blalock,1961)(Tecniche
confermative multivariate di Regressione multipla e
Analisi causale, predittive)
ANALISI DELLA COVARIANZA
e ANALISI DELLA ‘CAUSAZIONE’
►L’analisi dell’interdipendenza o covariazione o dipendenza
strettamente statistica (‘osservata’) tra due caratteri
consente di misurare, attraverso opportuni indici statistici, la
forma (segno nel caso di variabili ordinali e cardinali) e la
forza (intensità) del legame (correlazione, cograduazione,
connessione) esistente tra due caratteri considerati sullo
stesso piano (simmetrici) ma non la direzione
(dipendenza/indipendenza) che presuppone asimmetria.
L’analisi dell’interdipendenza in altri termini consiste nell’
osservare se le due variabili presentano variazioni
concomitanti (al variare dell’una l’altra varia ) ed a seconda
del livello di misurazione dei caratteri (categoriali: nominali
e ordinali, cardinali) si hanno diversi indici statistici.
► L’analisi del rapporto causa-effetto o causazione o
dipendenza logica invece non è ‘osservabile’ implica:
- una teoria (note a priori relazioni di causa ed effetto)
- la nozione di ‘produzione’ ossia se X è causa di Y ad una
trasformazione di X si deve produrre una trasformazione di Y
(Blalock, 1961)ossia la manifestaizone di un determinato
evento come conseguenza diretta e necessaria del manifestarsi
di un altro evento o insieme di eventi è la ‘spiegazione
causale’ obiettivo centrale della ricerca sociale
- il legame diretto e non meramente associato
• E’ da osservare che
- la covarianza non implica causazione;
- può esistere una covariazione ‘spuria’ tra due variabili senza
che esista effettivamente una covariazione tra le due.
Analisi multidimensionale e analisi multivariata :
analisi esplorative e analisi confermative
 Sebbene non sempre sia fatta la distinzione tra analisi multivariate e
analisi multidimensionali dei dati esistono invece importanti
differenze tra i due che fanno riferimento in definitiva alla
classificazione delle analisi in esplorative-descrittive-riduttive e
confermative-verificative-predittive.
 Per Analisi Confermativa multivariata dei dati (CMDAConfirmatory Multivariate Data Analysis) si intende in genere lo
studio delle relazioni di un insieme circoscritto di variabili
statistiche (minore di dieci e studiandone interazioni di ordine
superiore a due)(Bolasco,1999; Corbetta 2002) sulle quali si
avanzano a priori assunzioni sul tipo di distribuzione teorica. Sono di
questo tipo :
I modelli di regressione: la regressione lineare(GLM) e non-lineare;
la regressione STEPWISE; i modelli log-lineari; la regressione
probit e logit; la regressione logistica; analisi discriminante.
L’analisi causale: I modelli di equazioni strutturali (es.LISREL) I
modelli recorsivi e l’analisi dei percorsi causali (path analysis); i
modelli non recorsivi (sistemi di equazioni simultanee o sistemi
interdipendenti).
Difronte all’ampliarsi dei campi di applicazione: strutture
complesse dei dati (es. dati ecologico-ambientali, dati sull’uso del
tempo,
dati simbolici, testuali, telerilevamento spaziale e
trattamento digitale delle immagini) e dei fenomeni complessi
soprattutto in campo sociale caratterizzati da molte unità statistiche
sulle quali si osservano contemporaneamante molti caratteri
(mutabili e variabili) statistici le analisi statistiche multivariate
suddette risultano inadeguate o quantomeno insufficienti ad una
prima esplorazione e sintesi di fenomeni sui quali non si hanno che
ipotesi ‘concettuali’ [e non matematico-formali, modelli, teorie ‘a
priori’ da verificare] bensì ipotesi basate prevalentemente sulla
verifica dell’esistenza o meno di una correlazione, interdipendenza,
statisticamente osservabile. A tal scopo è allora adatta l’EAMDExploratory Multidimensional Data Analysis).
.
Analisi Esplorativa
Multidimensionale dei Dati
Per Analisi Esplorativa Multidimensionale dei Dati
(EMDA-Exploratory Multidimensinal Data Analysis)
si intende un gruppo numeroso di tecniche statistiche
multivariate adatte ad analizzare statisticamente, sotto
diversi aspetti secondo gli scopi della ricerca,fenomeni
complessi caratterizzati da molte unità statistiche sulle
quali sono rilevati molti caratteri statistici rappresentativi
di diversi aspetti o dimensioni tra loro interagenti
multidimesionali, multi-fattoriali).
Queste analisi includono tre gruppi molto numerosi di
metodi statistici:
1. Classificatorie (cluster analyses);
2. Analisi fattoriali per tabelle a due vie (ACP, ACS e
ACM, MDS ecc.);
3. Analisi delle tabelle multiple( 3-vie o multi-way data
analyses).
Origini storiche
dell’ Analisi Multidimensionale dei Dati
Tecniche statistiche multivariate
-

Trattam.autom.dei dati
1970 primo chip commerciale.
- sviluppo minicalcolatori, pc
e altro hardware e programmi
-Cluster Analysis (Tryon,1939)
Analisi lineari dei dati:
An.Componenti Principali (Pearson,1901)
An.Correlazione Canonica (Hotelling,1930)
An.Corrispondenze Semplice e
An.Corrispondenze Multiple.(Fisher,1936;Benzecri,1960)
An. Tabelle Multiple [Procrustean analysis
(Tucker, 1958); Metrical and non
metrical multi dimensional scaling
(PARAFAC, Harshman1970), INDSCAL
(Carrol and Chang,1970);
Multiple Factorial Analysis (Escofier B.
et Pages, 1983);
STATIS method (Escoufier Y., 1980, 1985);
Generalised Canonical Analysis (Horst, 1961)].
In Francia, alla fine degli anni ‘60
(J.P.Benzecri, Cailles e Pages, Y.Escoufier ecc.)
nasce l’indirizzo metodologico dell’analyse des donnée
L’AMD come ‘sistema’:
un approccio alla complessità
•
•
•
•
•
.
In passato l’applicazione di una tecnica statistica multivariata
consisteva sinteticamente in
tabella dei dati contenente implicitamente le ipotesi di modello
tecnica statistica multivariata
output dei risultati
Oggi l’ampliarsi dei campi di applicazione dei metodi di analisi dei
dati sia nelle scienze sociali che naturali, la varietà e complessità delle
situazioni specificihe di ricerca, hanno portato a dare rilievo sia dal
punto di vista metodologico che informatico una serie di aspetti
trascurati in passato: le fasi ‘preliminari’ dell’AMD riguardanti la
formalizzazione del problema, le codifiche a priori e a posteriori.
L’AMD riguarda analisi statistiche di tipo complesso ossia costituite
da più elaborazioni tra loro concatenate, al fine di poter esaminare
sistematicamente, in modo unitario e articolato, tali aspetti è utile
considerare l’AMD come un ‘sistema’ composto di più fasi tutte
ugualmente importanti ed interdipendenti
ed aventi ciascuna aspetti statistici e informatici.
Molto schematicamente è possibile ipotizzare 7 fasi principali nelle
quali si svolge un’AMD (Fraire, 1989-2005):
Le 7 fasi di un’a EMDA e le prime 4
‘preliminari
•
In particolare tra le 7 fasi particolare importanza hanno le fasi
preliminari costituite dalla 1ª,2ª,3ª,4ª fase e riguardano :
1ª: Documentazione statistica di partenza
2ª: Codifica a priori o creazione della matrice dei dati iniziali
3ª: Codifica a posteriori (come trasformazione di variabili della matrice
dei dati iniziali)
4: Codifica a posteriori dell’intera matrice dei dati
Le matrici a tre indici
I dati cubici multidimensionali,
il data warehouse e il data mining
•
Un esempio di dati cubici multidimensionali
•
•
•
•
•
data warehouse è un metodo e procedura informatica per archiviare
e interrogare massicce quantità di dati) che si basa su dati cubici
multidimensionali ossia dati strutturati come un ipercubo
multidimensionale in cui ogni lato è una dimensione.
I dati cubici permettono infatti di essere analizzati e modellati
multidimensionalmente.
Un esempio di architettura ‘integrata’ del data mining facendo
riferimento, ad esempio, al ‘magazzino di dati’ relativo alle vendite e
marketing (sales & marketing data warehouse) e le diverse tecniche
statistiche di analisi dei dati e out-put delle soluzioni finali (enduser solutions)
Un esempio di architettura ‘integrata’ del data mining
David Hand, Heikki Mannila, Padhraic Smyth (2001). Principles of Data Mining, MIT Press, Cambridge
Le matrici a tre indici per
l’Analisi dei Dati a Tre Vie:
O
X N ,K
N = u.s.; K= caratteri O = occasioni
Due esempi:
O
X NxK 4( anni) X19( MunicipiRM), 5( delitti)
O
X NxK  O6nazioniX N 1categ. pop.;K 12att. primarie
Caso di studio
un esempio
di matrice dei dati testuali
(Il questionario:1^fase dell’AMD)
1^fase AMD
…………………………………
La matrice dei dati iniziali: il file di testo (2^fase dell’AMDT).
Il file di testo 'QdVCM.txt'
Caso di studio
----01PIECN
A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI.
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI SERVIZI DI TRASPORTO.
++++
B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE
PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI.
PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI.
SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE
ESIGENZE DEL MONDO DEL LAVORO.
++++
C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI
OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E
ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE.
DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI
PRIMA OCCUPAZIONE.
AUMENTA IL LAVORO NERO E PART-TIME.
++++
D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE.
PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE.
++++
E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO.
PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO
E IL COSTO PER IL RISCALDAMENTO.
++++
F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL
TRAFFICO PROVINCIALE.
DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE.
++++
G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO
DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI
FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI
GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI
RIGUARDANO L'ASSISTENZA AGLI ANZIANI.
FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO
DELLA DROGA.
++++
H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA
SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI.
----02VADAO
A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI TRASPORTI.
++++
B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI
MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I
BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE.
MANCA UNA SEDE UNIVERSITARIA.
++++
C)LA CRISI GENERALE DELLA SIDERURGIA SI RIFLETTE SULLO
STABILIMENTO COGNE-SIAS DELLA ZONA CON RIPERCUSSIONI SULLA
OCCUPAZIONE.
++++
D)MANCANZA DI COMPLESSI PER ATTIVITA RICREATIVO-SPORTIVE.
COSTO ECCESSIVO DI ALCUNE ATTIVITA COME IL TENNIS.
MANCANO DEL TUTTO I TEATRI.
++++
E)I PREZZI DI TUTTI I GENERI SIA DI PRIMA NECESSITA CHE NON SONO
NOTEVOLMENTE ALTI ESSENDO LA NOSTRA UNA REGIONE A CARATTERE
TURISTICO.
++++
………………………...
----22SARNU
2^fase
AMD
• La multi-way data analysis
• Le matrici a tre indici
I dati cubici multidimensionali
Breve introduzione ai metodi statistici
di analisi dei dati a più vie
Nell’ambito delle analisi multidimensionali dei dati,
esplorative e asimmetriche, l’analisi dei dati a più vie (multiway data analysis), ed in particolare l’analisi dei dati a trevie (three-way data analysis), costituisce un insieme di
metodi di grande interesse per l’analisi esplorativa,
comparativa e sintetica delle tabelle multiple, ossia l’analisi
secondo diverse ottiche possibili di più matrici globalmente
e contemporaneamente considerate. Scopo dell’analisi a tre
vie è di comparare più studi, ricerche, indagini quando
ciascuno di essi ha molte variabili osservate su molte unità
statistiche.
Esistono diverse tecniche di multi-way data analysis
basate sulle matrici a tre indici, a seconda delle diverse
situazioni
di
ricerca:
Procrustean
Analysis,
Multidimensional Scaling metrica e non metrica, Multiple
Factorial Analysis, Act-Méthode Statis e Act-Méthode
Statis-Duale, Generalised Canonical Analysis.
In particolare, nelle applicazioni che seguono si
considererà l’analisi dei dati a tre modi e tre vie riferita a
dati quantitativi ed, in particolare, i metodi Statis-Duale e
Analyse Factorielle Multiple
1
Gli acronimi hanno il seguente significato: ACT significa Analyses Conjointes
des Tableaux; STATIS indica Structuration des Tableaux A Trois Indices de la
Statistique; SPAD Système Portable pour l’Analyse des Données. I due software
menzionati sono rispettivamente dell’Unité de Biométrie (INRA-ENSA) di
Montpellier, France e del CISIA, Centre International de Statististques et
d’Informatique Appliquée, Montreuil Cedex, France.
La matrice a due modi e due indici e le
matrici a più modi e più indici:
un breve richiamo
• Sia P la popolazione statistica o collettivo definita da:
P
•
•
•
in cui i è l’individuo o unità statistica (u.s.) appartenente
all’insieme N: iN (i = 1, 2,…, n); l’insieme N è l’insieme di tutte
le n u.s. ed è generalmente supposto essere finito e numerabile
(nelle indagini di tipo socio-demografico, N è, invece, infinito
nelle popolazioni teoriche o in particolari indagini sperimentali),
Xj è il carattere statistico o variabile (nel caso di matrici di
intensità o dati quantitativi è una variabile) appartenente
all’insieme X dei k caratteri statistici: XjX (j = 1, 2,…, k);
l’insieme X è definito “a priori”.
La matrice a due modi[1] e due indici [2] a n righe a k colonne è
data da:
x 11
x 12
... x 1 j ... x 1 k
X
•
i  N ( i  1 , 2 ,..., n )
x j  X ( j  1 , 2 ,..., k )
N ,K

x 21
...
x 22
...
...
...
x2 j
...
...
...
x2k
...
x i1
...
x N1
xi2
...
xN2
...
...
...
x ij
...
x Nj
...
...
...
x ik
...
x Nk
.
•
[1] Per modo si intende il tipo di informazioni considerate nella
matrice in esame; in questo caso, ad esempio, il modo “individui”
e il modo “variabili”, ma potrebbero essere altri modi come
luoghi, tempi, giudici, ecc.
[2] Gli indici indicano, invece, il criterio di classificazione del
“dato statistico” xij in cui iN (i = 1, 2,…, n) sono gli individui e
XjX per j = 1, 2,…, k sono le variabili statistiche considerate.
Unl caso di
studio
esaminato
Le matrici a tre indici per
l
’Analisi dei Dati a Tre Vie del caso di studio
N = u.s.; K= caratteri O = occasioni
5 Fac.Soc.
X N 18categ.stud;K 14var
casi di
studio
esaminati
Le matrici a tre indici per
l’Analisi dei Dati a Tre Vie:
N = u.s.; K= caratteri; O = occasioni
Due esempi:
O
X NxK 4( anni) X19( MunicipiRM), 5( delitti)
O
X NxK O6nazioniX N 1categ. pop.;K 12att. primarie
O
O
X NxK
O5classidietà
X N 22categ. partner.;K 9 att. primarie
X N ,K
4^
Fase
AMD
Le matrici dell’Analisi dei Dati a Tre Vie
(3-way data analysis):
Codifiche a posteriori(4^fase dell’AMD)
•
•
•
•
•
•
•
•
•
Analisi dei Dati a Tre Vie (three-way data analysis)
mediante la quale si possono esaminate più tabelle nella
forma di tabelle di dati quantitativi , tutte insieme, globalmente
e contemporaneamente, secondo tre diversi aspetti:
a) la rappresentazione globale di tutte le tabelle e la distanza
tra esse (analisi dell’interstruttura);
b) individuare la tabella ‘compromesso’ o ‘ matrice media’
(analisi dell’intrastruttura )
c)confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme delle
occasioni considerate e individuare quali di esse sono quelle
che hanno contribuito maggiormente alla differenza tra le
tabelle (analisi delle traiettorie)
Si possono avere diverse codifiche a posteriori di una matrice
dei dati a tre vie secondo le situazioni di ricerca:
1) Una matrice di dimensione [ N , (KO)] in cui si
considerano diverse le K variabili rilevate in O occasioni
successive ed uguali le N u.s.;
2) Una matrice di dimensione [ (N O) , K] in cui si
considerano uguali le K variabili e diverse le N u.s. rilevate in
O occasioni successive.
3) Una matrice di dimensione [(N x K), O] in cui si
considerano uguali sia le N u.s. che le K variabili rilevate in O
occasioni successive.
Le 7 fasi dell’EMDA nella multi-way
data analysis
II°feedback: la matrice delle traiettorie
I°feedback: la matrice compromesso
tre possibili
codifiche
• 4 fase: riguarda la scelta della tabella dei dati sulla quale
applicare i metodo di EMDA scelto qui la 3-vie
• Nella multi-way analysis questa fase riguarda la scelta di una
delle tre possibili codifiche a posteriori dell’intera matrice dei
dati a seconda di tre diverse situazioni di ricerca.
• Inoltre nella multi-way contano molto i feedback.
Le tre tappe dell’analisi a 3-vie
•
Il metodo di analisi a tre-vie si compone di tre diversi aspetti
che sono eseguiti in successione e tra loro concatenati nel
senso che i risultati del la I^ fase costituiscono la tabella dei
dati della 2^ fase e questa a sua volta della 3^ fase:
•
•
(1) analisi dell’inter-struttura;
la rappresentazione globale di tutte le tabelle e la
distanza tra esse;
•
•
(2) analisi dell’intra-struttura o compromesso;
individuare la tabella ‘compromesso’ o ‘ matrice media’:
individui compromesso e variabili compromesso;
•
•
(3) analisi delle traiettorie.
confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme
delle occasioni considerate e individuare quali di esse
sono quelle che hanno contribuito maggiormente alla
differenza tra le tabelle
Codifiche a posteriori della matrice dei
dati a tre-vie: la scelta della tabella dei dati
(4^ fase AMD)
6^fase:scelta
metodo
Output
dei risultati
Sulla tabella dei dati scelta si possono
eseguire tramite gli appositi software (ActStatis e SPAD) più tecniche statistiche multiway di analisi dei dati. In particolare, le
seguenti analisi statistiche multi-way:
(a) Analisi Congiunta delle tabelle (metodo
STATIS): analisi a tre-vie con il metodo
STATIS e STATIS-Duale considerando 18
unità statistiche attive (categorie di studenti
secondo le variabili di ingresso) e 14
modalità-variabili (di percorso e di esito)
attive;
(b) Analisi Fattoriale Multipla (AFM):
1
NOTA: Con il software SPAD-méthode
STATIS la tabella si costruisce, mettendo
consecutivamente, anziché impilate, le 5
matrici delle ‘occasioni’ considerate.
Con il software ACT-STATIS invece la
tabella dei dati si mette per impilamento
delle ‘occasioni’.
Multi-way Analysis
Casi di
studio
esaminati
• I CASI DI STUDIO
Il caso di
studio
esaminato
Caso di studio n.1
• Se è una tabella inventario:
• il caso di studio di un data base
sugli studenti delle Facoltà di
Sociologia in Italia:
• 5 files degli studenti immatricolati in 5
Facoltà di Sociologia in Italia negli
aa.aa.2001-02/2003-04
forniti dagli
archivi degli atenei di competenza.
• Riferim.bibliogr.: M.Fraire (2007), Analisi multiway delle principali caratteristiche di ingresso,
percorso ed esito degli studenti delle facoltà di
Sociologia italiane, in A.Fasanella, L’impatto della
riforma universitaria del ‘3+2’ sulla formazione
sociologica, Franco Angeli
( FacSocCH)
AN 458, K 34
Il caso di
studio
esaminato
1^ fase AMD
AN 458,K 34
La matrice dei dati iniziali è una tabella inventario
SE E’ UN DATABASE ( BASE DI DATI)
•
•
il caso di studio considerato è un data base costituito dai 5 files degli
studenti immatricolati in 5 Facoltà di Sociologia in Italia negli
aa.aa.2001-02/2003-04 sono stati forniti dagli archivi degli atenei di
competenza.
Sede della facoltà di Sociologia Totale immatricolati (v.
► Le unità di analisi in microdati:
Trento
841
gli studenti immatricolati
► Le variabili di analisi :
Milano
806
in totale 34 o 39 (secondo le Facoltà) variabili
che è possibile classificare
Roma
2.991
Chieti
458
Napoli
2.762
Totale
7.858
secondo la loro posizione
nel ‘percorso universitario’ .
degli studenti.
Le variabili che considereremo :
(a) variabili di ingresso:
(b) Variabili di percorso:
(c) Variabili di esito:
Genere (2 modalità),
Età alla I^iscriz.
Tipo di Diploma
Voto di diploma
Crediti complessivi
conseguiti
Votazione media esami
[Posizione
amministrativa al 2°
anno
Posizione amministrativa
al 3° anno
Posizione amministrativa
al 4° anno]
Posizione
amministrat.attuale
Il caso
di
studio
esamin
ato
La matrice dei dati iniziali :
tabella inventario AN 458,K 34
2^fase
AMD
le variabili disponibili originali
3^fase
[anche con ricodifiche di 3^ fase AMD]
e codifiche (labels e value label dei dati)2^fase AMD:
Il caso
di
studio
esamina
to
Ipotesi di classificazione delle variabili: Ingresso Percorso Esito
Il caso di
studio
esaminato
Le matrici a tre indici per
l
’Analisi dei Dati a Tre Vie del caso di studio
N = u.s.; K= caratteri O = occasioni
5 Fac.Soc.
X N 18categ.stud;K 14var
•
•
•
Scopi dell’analisi a 3-vie nel caso di
studio considerato
Mediante l’Analisi dei Dati a Tre Vie (three-way data analysis) si possono esaminare
contemporaneamente e globalmente più tabelle di dati quantitativi nella forma delle
matrici dei dati a due indici XN,K suddette scegliendo “a priori” (perciò l’analisi è detta
asimmetrica) un terzo “indice” o criterio denominato “occasioni”, che può essere
rappresentato da tempi (anni, età ecc.), luoghi, situazioni di ricerca o altro criterio non
necessariamente costituito da una variabile, può essere anche una mutabile e non avere
un ordinamento delle modalità (sconnessa) come nel caso in esame.
Molto schematicamente, facendo riferimento al caso qui considerato, si potrebbe
rappresentare l’analisi dei dati a tre-modi e tre-vie, ossia dati “cubici”[1] nel modo
seguente:
Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata[MF1]
•
Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata
•
•
•
•
•
•
In particolare, la matrice dei dati a tre indici = considerata è definita dai seguenti
elementi:
N = 18 categorie di studenti universitari ottenuti dall’incrocio delle variabili di ingresso
(genere, età all’immatricolazione, tipo di diploma, voto di diploma);
Xj (j = 1, 2,…, k) = 14 modalità-variabili delle variabili di percorso (crediti e votazione
media) e di esito (posizione amministrativa attuale);
Or (r = 1, 2,…, 5) = 5 facoltà di Sociologia (Trento, Milano, Roma, Chieti, Napoli);
(r = 1,..., 5; i = 1,…, 18; j = 1,.., 14) = frequenza relativa dell’i-ma categoria di studente
(sul totale N) per la j-ma variabile-modalità nell’r-ma occasione (facoltà di Sociologia).
È da notare che in questo caso il dato statistico è un numero razionale positivo
(frequenza relativa) e ogni matrice dei dati iniziali è una tabella di contingenza
normalizzata che può essere trattata come una matrice di intensità a due indici unità
× variabili.
[1] I dati cubici sono strutturati come un ipercubo multidimensionale in cui ogni lato è
una dimensione; essi permettono di essere analizzati e modellati multidimensionalmente
a scopo sia predittivo che classificatorio per l’individuazione di tipologie, modelli,
strutture dei dati anche latenti.
4^fase
AMD
La scelta della tabella dei dati per
l’analisi a tre-vie
• Si possono avere tre diverse codifiche a
posteriori di una matrice dei dati a tre-vie
secondo le situazioni di ricerca :
• 1) Una matrice di dimensione [ N , (KO)]
in cui si considerano diverse le K variabili
rilevate in O occasioni successive ed uguali
le N u.s.;
• 2) Una matrice di dimensione [ (N O) , K]
in cui si considerano uguali le K variabili e
diverse le N u.s. rilevate in O occasioni
successive;
• 3) Una matrice di dimensione [(N x K), O]
in cui si considerano uguali sia le N u.s. che
le K
variabili rilevate in O occasioni
successive.
• Nell’applicazione considerata, la scelta
della codifica a posteriori è stata quella di
tipo 2)
4^
Fase
AMD
Codifiche a posteriori della matrice dei
dati a tre-vie: la scelta della tabella dei dati
(4^ fase AMD)
.
Nel presente lavoro la situazione di ricerca considerata è quella descritta al
punto (2), ossia si hanno uguali le K = 14 variabili (di percorso e di esito) e
diverse le N = 18 categorie di studenti universitari in O occasioni rappresentate,
in questo caso, dalle 5 facoltà di Sociologia in Italia.
Sinteticamente la matrice dei dati a tre indici considerata può essere indicata:
O  5 Fac. Soc.
X N 18, K 14  X ( N 18O  5), K 14
In particolare, si riporta nella tabella 5.3 la tabella dei dati (4° fase
dell’AMD) costituente la matrice dei dati a tre-vie considerata per le analisi
multi-way che seguono e facendo riferimento in particolare alla forma richiesta
(impilamento delle 5 matrici) dal software statistico Act-STATIS.
Sulla tabella dei dati sono state eseguite tramite gli appositi software (ActStatis e SPAD) più tecniche statistiche multi-way di analisi dei dati. In
particolare, nell’applicazione che segue sono state impiegate ripetutamente le
seguenti analisi statistiche multi-way:
(a) Analisi Congiunta delle tabelle (metodo STATIS): analisi a tre-vie con il
metodo STATIS-Duale considerando 18 unità statistiche attive (categorie di
studenti secondo le variabili di ingresso) e 14 modalità-variabili (di percorso
e di esito) attive;
(b) Analisi Fattoriale Multipla (AFM): 18 unità statistiche attive (categorie
di studenti) e 14 modalità-variabili di percorso e esito attive.
Analoghe analisi multi-way del tipo (a) sono state effettuate considerando le
stesse unità attive (categorie di studenti), ma diverse variabili, ossia:
- 18 unità statistiche attive e 9 modalità-variabili di percorso attive;
- 18 unità statistiche attive e 5 modalità-variabili di esito attive.
Ugualmente per le analisi di tipo (b) Analisi Fattoriale Multipla:
18 individui (categorie di studenti) attivi e 9 modalità-variabili di percorso
attive;
- 18 individui (categorie di studenti) attivi e 5 modalità-variabili di
esito attive
1
Con il software SPAD-méthode STATIS tale tabella si costruisce,
invece, mettendo consecutivamente, anziché impilate, le 5 matrici
delle 5 facoltà considerate.
4^fase
AMD:
La tabella dei dati:
matrice di contingenza generalizzata
N r 18;s14
4^ fase:
le scelta
tabelle dei dati
Il caso di
studio
esaminato
Codifiche a posteriori: una possibile
ricodifica
(di 4^ fase dell’AMD: scelta della tabella
dei dati)
delle unità di analisi
le unità di analisi in macrodati: le categorie di studenti
le unità di analisi N = 7.858 u.s. sono state trasformate in N = 18
categorie di studenti ottenute considerando le 4 variabili di ingresso: (1)
genere; (2) età all’immatricolazione; (3) tipo di diploma; (4) voto di
diploma.
Le 18 categorie di studenti sono quindi: (1) maschi; (2). femmine; (3)
totale (maschi e femmine); (4) età 18-21; (5) età 22-25; (6) età 26-29;
(7) età 30 e oltre; (8) liceo classico; (9) liceo scientifico; (10) liceo
socio-pedagogico e istituto magistrale; (11) licei linguistico e artistico;
(12) istituto professionale; (13) istituto tecnico; (14) altro tipo di istituto;
(15) voto di diploma basso; (16) voto di diploma medio-basso; (17) voto
di diploma medio-alto; (18) voto di diploma alto.
È da osservare che ulteriori categorie di studenti si potrebbero ottenere
mediante gli incroci tra le modalità delle variabili, non necessariamente
solo di ingresso, che sarebbero ugualmente interessanti.
Se si considerassero, ad esempio, la variabile genere e il totale
incrociate con tutte le altre variabili di ingresso si avrebbero: 3
(M,F,T) + 3 × 4 (classi di età all’immatricolazione) = 12 + 3 × 7 (tipo
di diploma) = 21 + 3×4 (classi voto di diploma) = 12 categorie di
studenti, in totale quindi 3 + 12 + 21 + 12 = 48 categorie di studenti
La tabella dei dati
AMD:
del caso di studio considerato :
le codifiche a posteriori effettuate a partire dal
data base (matice dei dati iniziali)
4^fase
• Nella situazione di ricerca qui considerata, la tabella dei dati è
una matrice di intensità o di dati quantitativi in quanto la
suddetta matrice Xn,k è composta da dati statistici xij
rappresentati da numeri reali, frequenze relative, numeri
razionali positivi in una tabella di contingenza (qui in
particolare normalizzata[1]) in cui ogni riga della matrice
può essere vista come un vettore numerico a k dimensioni
indicante le coordinate di un punto-individuo in uno spazio Rk
a k-dimensioni, denominato spazio delle unità statistiche.
Dualmente ogni colonna della matrice è rappresentata da un
vettore numerico a n dimensioni indicante le coordinate di un
punto-variabile nello spazio Rn a n-dimensioni, denominato
spazio delle variabili.
• Come noto (cfr Fraire, 1994), tale matrice ha struttura
algebrica di spazio vettoriale euclideo; ciò significa che ad
essa possono essere applicate tutte le operazioni tra matrici e
la maggior parte dei metodi di Analisi dei dati, sia predittivi
che
esplorativi.
• [1] Ponderando le frequenze assolute delle 14 modalitàvariabili considerate secondo la numerosità N degli
immatricolati di ciascuna facoltà si ottiene una tabella di
contingenza normalizzata che tiene conto della diversa
numerosità degli immatricolati di ciascuna delle 5 sedi
considerate.
Analisi dell’inter-struttura
• Con l’analisi dell’inter-struttura si vuole valutare se le
5 tabelle dei dati considerate attraverso la loro
rappresentazione globale e simultanea hanno strutture
simili (vicine) o dissimili (lontane). Ciò significa
verificare quali categorie di studenti secondo le 14
modalità-variabili considerate di percorso e di esito
hanno strutture simili o diverse al variare delle 5
facoltà di Sociologia italiane considerate nel triennio
2001-2003 (cfr. Cap. 3). In altri termini, si vuole
esaminare se le 5 facoltà hanno di fatto strutture
“omologhe”, ossia non presentano cambiamenti
strutturali degli studenti immatricolati tra una e l’altra
nel periodo considerato. Sinteticamente si potrebbe
rappresentare (cfr. Bolasco, 1999) così la somiglianza
o dissomiglianza delle strutture:
•
a: simili
b: dissimili
• A tal scopo si calcola la matrice delle distanze euclidee
tra matrici di correlazione; essa è simmetrica, quadrata,
di dimensione 5  5 (perchè sono 5 le occasioni =
facoltà di Sociologia considerate). I coefficienti della
matrice, essendo distanze euclidee, sono indici positivi
che assumono valore 0 = massima similarità e valori
diversi da 0 = dissimilarità tra le coppie considerate
Analisi dell’interstruttura
Tab. 5.4 – Metodo Statis-Duale: Matrice delle distanze euclidee tra i coefficienti di correlazione (range: 0 =
massima similarità, maggiore di 0 = dissimilarità) tra tutte le coppie di facoltà di Sociologia1
RM
NA
TR
CH
MI
RM
0.000
NA
4.847
0.000
TR
4.844
0.000
2.885
CH
5.931
5.452
4.982
0.000
MI
4.896
5.032
0.000
3.096
0.821
Fig. 5.3 – Plot delle 5 facoltà di Sociologia sul primo piano principale
Molto sinteticamente si riportano i risultati per un più agevole confronto nella
tabella 5.5.
Tab. 5.5 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia
Analisi multi-way: MetodoStatis-Duale – Variabili
attive
Somiglianti
Dissomiglianti
14 modalità-variabili attive di percorso e esito
[variabili di percorso: crediti acquisiti (4
modalità), votazione media conseguita (5
modalità);
variabili di esito: posizione
amministrativa attuale (5 modalità)].
TR-MI (0,821)
TR-NA (2,885)
MI-NA (3,096)
RM-CH (5,931)
NA-CH (5,452)
MI-CH (5,032)
1
La similarità o dissimilarità tra le 5 tabelle dei dati può essere misurata sia impiegando una metrica basata
su distanze tra unità statistiche (ad esempio, distanza euclidea, di Manhattan, di Mahalanobis, indici di distanza
come il ² e così via) sia da distanze tra varianze-covarianze, correlazioni secondo il tipo di codifica a posteriori
scelta per la matrice a tre-vie. Nell’applicazione considerata la metrica riguarda la distanza euclidea tra
coefficienti di correlazione.
Analisi dell’interstruttura: una sintesi
Nella tabella 5.6 si riporta una sintesi dei risultati finali dell’analisi
dell’inter-struttura qualora si considerino come variabili attive
rispettivamente: (a) solo le 9 modalità-variabili di percorso e (b) solo
le 5 modalità-variabili di esito 1.
Tab. 5.6 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia
Analisi multi-way: MetodoStatis- Somiglianti
Dissomiglianti
Duale – Variabili attive
(a) 9 modalità-variabili attive di TR-MI (0,247) RM-CH
percorso [crediti acquisiti (4 TR-NA (2,431) (4,710)
modalità),
votazione
media MI-NA (2,551) MI-RM (4,228)
conseguita (5 modalità)].
TR-RM (4,216)
(b) 5 modalità-variabili attive di RM-TR (0,154) NA-CH (1,020)
esito [posizione amministrativa RM-NA
RM-CH
attuale (5 modalità)].
(0,253)
(0,961)
NA-TR (0,374) CH-TR (0,868)
Queste ulteriori analisi mettono in evidenza il maggior ruolo delle
variabili attive di esito nel differenziare le 5 facoltà considerate. Si
noti, inoltre, che dal valore dell’inerzia spiegata dai primi due assi
principali si possono ipotizzare due dimensioni sottostanti le variabili
attive considerate.
NOTA: Nel caso (a) il primo piano fattoriale è risultato spiegare lo 85,26% della
varianza totale originaria (in particolare il primo fattore il 47,15% e il secondo il
38,11%). Nel caso (b) il primo piano fattoriale è risultato spiegare il 93,69% della
varianza totale originaria (il primo fattore lo 81,10% e il secondo il 12,59%).
1
Analisi dell’intra-struttura: individui e variabili
compromesso, la nuvola dei punti- medi
Con l’analisi dell’intra-struttura si vogliono individuare i punti-individui
medi (lo studente delle facoltà di Sociologia-medio) e i punti-variabili medi
(variabili di percorso e di esito-medi) attraverso le 5 facoltà di Sociologia.
Per l’analisi dell’intra-struttura si diagonalizza la matrice compromesso dalla
quale si ottengono, limitandosi qui a riportare solo i primi due fattori (assi
compromesso), i seguenti autovalori per le tre analisi multi-way effettuate:
(a1) 14 modalità-variabili attive di percorso ed esito: 1+ 2 = 83,65% +
5,18% = 88,83%
(a2) 9 modalità-variabili attive di percorso: 1+ 2 = 81,65% + 7,01% =
88,66%
(a3) 5 variabili attive di esito: 1+ 2 = 90,98% + 5,21% = 96,20%
Anche in questo caso è possibile rappresentare sul primo piano fattoriale sia
le variabili (punti variabili-medie) che le u.s. (punti-individui-medi) rispetto ai
primi due assi compromesso. Si riporta nella figura 5.4 il plot sul primo piano
principale compromesso dei punti-variabili medi e nella tabella 5.7 i principali
indici statistici, limitandosi ai primi due fattori e solo alla prima delle tre analisi
multi-way considerate.
La matrice ‘media’ o ‘matrice compromesso’:
calcolo e significato nel caso di studio considerato
Al fine di interpretare più agevolmente i plot suddetti, si riportano le
coordinate fattoriali, i contributi assoluti (correlazioni variabili-assi principali
compromesso) e il coseno quadrato (contributo relativo = cos², variante tra 0 e 1,
con 0 = pessima e 1= ottima qualità della rappresentazione dei punti sul primo
piano principale compromesso) per la prima delle tre analisi multi-way effettuate
e con riferimento al solo primo piano principale.
Nelle applicazioni considerate (casi diversi, stesse variabili) la matrice
compromesso è ottenuta come prodotto scalare delle matrici di correlazione con
la loro media aritmetica ponderata. Circa il significato da attribuire alla matrice
compromesso, è da osservare che nel caso esaminato essa può essere interpretata
come lo studente medio, più rappresentativo rispetto alle 5 facoltà di Sociologia
italiane nel periodo considerato.
È da osservare che la matrice media o matrice compromesso rappresenta la
sintesi di tutte le matrici ed è data dalla media aritmetica ponderata delle matrici
di similarità o distanza N  N tra individui corrispondenti alle matrici originarie
espresse in scarti dalla media ponderate con gli autovettori corrispondenti al
primo più grande autovalore della matrice C  Cij, essendo Cij = tr(iSjS).
Basandosi sul primo autovalore la matrice compromesso è robusta in quanto
poco influenzata dalle piccole variazioni delle matrici di similarità (cfr. Rizzi,
1987).
Tab. 5.7 – Indici statistici del primo piano principale compromesso
Numero
Autovalore
Percentuale
Percentuale cumulata
Istogramma
1
11,7116
83,65
83,65
*****************************
2
0,7252
5,18
88,83
*****
3
0,4438
3,17
92,00
****
4
0,3122
2,23
94,23
***
5
0,2461
1,76
95,99
**
Coordinate fattoriali, contributi assoluti e coseno quadrato del primo piano fattoriale compromesso
(88,83% dell’inerzia totale)
Coordinate fattoriali
Contribuiti assoluti
Coseni quadrati
Modalità-variabili
1
2
1
2
1
2
Improduttivi
-0,96
-0,15
0,08
0,03
0,92
0,02
Poco produttivi
-0,97
-0,06
0,07
0,12
0,87
0,08
Abbastanza produttivi
-0,97
-0,06
0,08
0,00
0,94
0,00
Produttivi
-0,79
0,44
0,05
0,27
0,62
0,19
Nessuna votazione
-0,92
-0,32
0,07
0,14
0,84
0,10
Votazione bassa
-0,79
0,19
0,05
0,05
0,63
0,04
Votazione medio-bassa
-0,86
-0,32
0,06
0,14
0,74
0,10
Votazione medio-alta
-0,94
0,15
0,08
0,03
0,89
0,02
Votazione alta
-0,89
0,25
0,07
0,09
0,79
0,06
Iscritto
-0,99
0,06
0,08
0,00
0,98
0,00
Interpretazione dei risultati dell’intra-struttura
• L’analisi dei suddetti plot e dei relativi indici statistici
dei punti-variabile medi fornisce un’indicazione circa il
significato che si potrebbe attribuire alle due
dimensioni sottostanti, ai due assi principali
compromesso:
• - il primo asse principale (compromesso) rappresenta
lo studente avente percorso “medio” nelle variabili di
percorso (votazione media, produttivi);
• - il secondo asse principale (compromesso) dà conto,
invece, dello studente “atipico”, sia in positivo che in
negativo, rispetto alle variabili di percorso, ossia molto
produttivo, con votazione alta ed esito positivo
(laureato) oppure con votazione bassa, improduttivo ed
esito negativo.
• Le variabili di esito non risultano, quindi, essere
discriminanti, almeno rispetto alle 18 categorie di
studenti “medi”. Per poter approfondire ulteriormente
tale risultato, apparentemente incongruente, è
necessario effettuare un’analisi delle unità statistiche,
oltre che delle variabili medie, ossia delle 18 categorie
di studenti attraverso le 5 facoltà di Sociologia, al fine
di individuarne eventuali cluster.
L’Analisi fattoriale multipla (AFM)
(analyse factorielle multiple)
Nell’ambito delle analisi multi-way Statis, poiché nella codifica della matrice dei
dati considerata le u.s. (categorie di studenti) sono state considerate diverse
(essendo diversi gli studenti delle 5 facoltà di Sociologia considerate), non ha
significato calcolare oltre che le variabili-medie anche gli individui-medi
(compromesso), possibile, invece, nel caso di una codifica a posteriori in cui anche le
u.s. siano considerate uguali attraverso le occasioni (cfr. Par. 5.2.2).
Per esaminare più dettagliatamente anche le unità statistiche attraverso le 5
facoltà considerate si effettuerà un’analisi fattoriale multipla (AFM) mediante la
quale sarà possibile individuare cluster di studenti.
Nell’ambito delle analisi multi-way (cfr Par. 5.2.1) l’Analisi Fattoriale Multipla
(AFM) è adatta per analizzare differenti gruppi di individui sui quali sono osservate
le stesse o differenti variabili quantitative o qualitative. L’AFM si basa su ripetute
applicazioni e sintesi di Analisi in Componenti Principali (d’ora in avanti ACP) nel
caso di variabili o di Analisi delle Corrispondenze Multiple per mutabili (d’ora in
avanti ACM). Come già sopra accennato nell’Analisi a tre-vie duale, ossia in cui si
considerano diversi gli individui (18 categorie di studenti) e uguali le variabili (di
percorso ed esito), il plot degli individui-medi non viene calcolato. Si propone allora
di applicare in questo caso sulla stessa tabella dei dati (cfr. tab. 5.3) l’Analisi
Fattoriale Multipla (Analyse Factorielle Multiple) al fine di avere una classificazione
degli individui rispetto alle 5 facoltà di sociologia contemporaneamente considerate,
ossia individuare clusters di individui.
Per brevità si riportano solo alcuni dei risultati ottenuti dall’AFM e, in particolare,
solo quelli relativi all’analisi globale delle 5 tabelle di dati considerate ed ai soli
punti-individui1, limitandosi al primo piano principale globale delle 14 variabili attive
nelle figure 5.5a, 5.5b e 5.5c.
NOTA: Le elaborazioni dei dati sono state effettuate con il software WinSPAD, Analyse des Tableaux
Multiples, Analyse Factorielle Multiple. L’output dei risultati è in realtà molto ricco e comprende sia le ACP
per le singole matrici dei dati considerate (in questo caso cinque ACP sulle 5 matrici di dati quantitativi) con i
relativi indici statistici (autovalori, coordinate fattoriali, contributi assoluti e relativi, ecc.) che i risultati
numerici e grafici dell’Analisi Globale, ossia delle 5 tabelle dei dati simultaneamente considerate riferendo,
quindi, ai risultati sia numerici (autovalori, coordinate fattoriali, contributi assoluti e relativi ecc.) che grafici
riferiti ai punti-individui e ai punti-variabili sui piani principali “compromesso”.
I risultati dell’AFM:
Fig. 5.5a – Analisi Fattoriale Multipla: Plot dei 90 punti-individui attivi 1 sul primo piano principale globale (1+  = 79,87% + 7,51% = 87,38% della
varianza totale)2
Dall’analisi fattoriale multipla mediante la quale è stato possibile individuare 6 cluster
delle 14 categorie di studenti attraverso le 5 facoltà di Sociologia. Essi si collocano sul
primo piano principale come segue:
- il 1° cluster nel IV versante si contrappone al 6° cluster nel II versante;
- il 4° cluster nel I versante si contrappone al 2° cluster nel III versante;
- il 3° cluster si colloca nelle vicinanze dell’origine degli assi, quindi con scarsissima
correlazione con entrambi gli assi;
- il 5° cluster si colloca in una posizione inter-cluster.
1
18 categorie di studenti × 5 Facoltà di Sociologia = 90 punti-individui attivi.
Il primo piano principale si riferisce qui al piano delle 14 variabili (attive) di percorso e di esito. È da osservare che
nell’AFM è possibile rappresentare oltre al plot degli individui anche il plot dei punti-variabili, che qui per brevità non si riporta,
tramite il cerchio delle correlazioni sul primo piano fattoriale; esso tuttavia coincide con la rappresentazione dei punti-variabili
medi rappresentate con il metodo Statis-duale sul primo piano principale compromesso che è stato riportato qui in figura 5.4.
2
Considerazioni conclusive
Con l’analisi multi-way ed, in particolare, con l’analisi a tre-vie è stato possibile
- confrontare globalmente e simultaneamente le 5 facoltà di Sociologia rispetto
alle 18 categorie di studenti e alle 14 modalità-variabili inerenti. In particolare, con
l’analisi dell’inter-struttura la coppia di facoltà di Sociologia più simile rispetto
alle caratteristiche di percorso e di esito risulta essere Trento-Milano seguita, a
molta distanza, quindi, con una similitudine assai minore, da Trento-Napoli e
Milano-Napoli. La Facoltà di Sociologia di Roma si configura con una
caratterizzazione abbastanza singolare e contrapposta, sullo stesso asse fattoriale a
Napoli, Milano e Trento. Esaminando anche le altre due analisi dell’inter-struttura
(soltanto di percorso e soltanto di esito) si potrebbe ipotizzare che tale unicità sia
dovuta alle variabili di percorso degli studenti piuttosto che alle variabili di esito.
Inoltre, rispetto alla Facoltà di Sociologia di Chieti si registra, invece, una forte,
con valori tutti elevati, dissomiglianza con tutte le altre facoltà di Sociologia e la
sua posizione sul secondo asse fattoriale.
Con l’analisi dell’intra-struttura si sono individuate due dimensioni sottostanti le
14 variabili di percorso ed esito-compromesso considerate
- una prima dimensione (primo asse principale compromesso) rappresentante lo
studente con percorso “medio” nelle variabili di percorso (votazione media,
mediamente produttivi).
- Una seconda dimensione (secondo asse principale compromesso) rappresentante,
invece, lo studente “atipico” sia in positivo che in negativo rispetto alle variabili
di percorso ossia molto produttivo, con votazione alta ed esito positivo (ossia
laureato) oppure improduttivo, con votazione bassa ed esito negativo. Ciò
porterebbe a immaginare difficoltà inerenti non solo la “dotazione” dello studente
in ingresso, ma “l’architettura” stessa, l’organizzazione intesa come numero di
esami e relativi crediti introdotta di fatto dal 3+2, moltiplicando notevolmente il
numero dei moduli didattici e, quindi, i relativi esami da sostenere nel triennio, che
sono spesso di gran lunga superiori a quelli che erano previsti nel vecchio
ordinamento e risultano molto “pesanti” non solo per gli studenti meno ma anche
per quelli più dotati, per i quali risulta spesso assai difficile mantenere un profilo di
esito (ad esempio, laurearsi nel numero di anni previsto dal corso anziché
fuoricorso) come, invece, avveniva nel vecchio ordinamento.
Anche dall’analisi fattoriale multipla mediante la quale è stato possibile
individuare 6 cluster delle 14 categorie di studenti attraverso le 5 facoltà di
Sociologia.
Il caso di
studio
esaminato
Caso di studio n.2
►Se è una matrice di intensità o dati
quantitativi
•
Il caso di studio dell’uso del tempo a
differenti stadi della vita in 6 paesi europei
• Rif.bibliogr.:M.Fraire,
(2006) , Multi-way data
analysis for comparing time use in different coutrie.
Application to time budgets at different stages of life
in six European caountries, in eIJTUR 2006, vol.3,
No.1, 88-109
• .
( FacSocCH)
AN 458, K 34
Il caso di
studio
esaminato
Caso di studio n.2
► Il caso di studio dell’uso del
tempo a differenti stadi della
vita in 6 paesi europei
‘Time-use at different stages of life in 6
european countries in 2003 ‘
A) Esempio tratto dalla lezione tenuta da Mary Fraire per il
dottorato europeo Socio-Economic and Statistical Studies
(SESS) - European PhD
su
‘Multidimensional Data Analysis for exploring, synthesizing
and comparing complex data tables. Applications to timebudget data.’
B) Relazione presentata al XXVI International Association
of Time Use Research (IATUR) Conference 2004, 27-29
October 2004, Rome, Italy on ‘Time use: what’s new in
methodology and application field’.
C) Pubblicato in M.Fraire, Multiway data analysis for
comparing time use in different countries. Application to
time-budgets at different stages of life in six european
countries. In electronic Internatinal Journal of Time use
Research eIJTUR 2006, Vol.3, No.1, 88-109
http://www.eijtur.org/,
3-way data analysis:
the 3-ways methods : there are
various multiway data analysis: Procrustean
analysis (Tucker 1958);Multidimensional
scaling (PARAFAC, INDSCAL,1970);
Multiple Factorial Analysis ((Escofier,
Pages 1983) and the STATIS method
(Escoufier, 1980)
 the méthode applied: STATIS)
‘Analyse
Conjointe
de
Tableaux
Quantitatifs’
(A.C.T.)
suitable
for
quantitative matrices has been applied to
analyse the 5 above mentioned time use
two-indices tables simultaneously and
overall according to the three different steps
characterizing the 3-way analysis:
A) analysis of the inter-structure ;
B) analysis of the intra-structure;
C) analysis of the trajectories
 Software impiegato: ACT-Statis
Duale Method and Multiple Factor
Analysis (CISIA, 1989,France)
3-way data analysis:
analysing more time use two indices
matrices overall and simultaneously
The
3-way
data
analysis
an
asymmetrical
multidimensional analysis by which it is possible to analyse
more quantitative two-way indices matrices overall and
simultaneously across a third criteria, ‘occasions’, chosen ‘a
priori’. Occasions may be times, places or any other criteria
(qualitative or quantitative). Schematically for example O = 5
age classes or O = 6 european countries
is
 the three indices matrix is indicated with three indices
in which O = occasions, N = cases, K = variables.
 This matrix can have three various a-posteriori coding
according to different situations research:
1) Three-indices matrix of dimension N,(KO) in which in the
various Occasions (i.e. years or places) the individuals N are
the same and the variables are different;
2) Three-indices matrix of dimension (NO),K in which in
the various Occasions the individuals N are different and
the variables are the same;
3) Three-indices matrix of dimension (NK), O in which in the
various Occasions the individuals N and the variables K are
the same.
Application 3-way data analysis:
Time-use at different stages of life in 6 european
countries in 2003
 Source of data = Eurostat, data downloaded from Eurostat web site: http://europa.eu.int.
 Countries considered: BELGIUM, ESTONIA, FINLAND, NORWAY, SLOVENIA,
UNITED KINGDOM (the eurostat data refer to 13 countries time-use surveys but only
6 followed the harmonized guidelines issued by Eurostat).
 Analysis variables (employment and sex) and lifecycle variables defining the set
N = cases = 14 categories of population :
. 1.Women (W) ; 2. EmployedW; 3.W<25AgeNoChild<18 living with parents
(W<25NCh<18); 4. WAll ages living in Couple youngest child 0-6 living with parents
(WCACh0-6); 5.W All ages living in Couple youngest child 7-17 living with parents
(WCACh7-17); 6.W45-64Age living in couple No children<18 living with parents
((W4564CN<18); 7.W>65 living in Couple, no children<18 living with parents
(W>65CN<18); 8.Men (M); 9.Employed Men; 10.M<25AgeNoChild<18 living with
parents (M<25NCh<18); 11.M All ages living in Couple youngest child 0-6 living with
parents (MCACh0-6); 12.M All ages living in couple youngest child 7-17 living with
parents (MCACh7-17); 13.M4564Age living in Couple No Child<18 living with
parents (M4564CN<18); 14.M>65 Age living in Couple No Child<18 living with
parents(M>65CN<18)
xijk
 Classification of the activities: defining the set K = variables
PRIMARY
GROUPS (labels)
1. SLEEP (Slee)
ACTIVITY
Sleep
2. EATS (Eats)
3. WORK (Work)
4. STUDY (Stud)
5. Housework & Family care
(H&Fa)
6. VOLUNTEER WORK (FreV)
7. SOCI ALIZING (Soci)

PRIMARY ACTIVITIES
Meals and personal care
Gainful work
Study
Household work and family care
Volunteers work and informal help to other households ;
Socializing (participatory activities, social life and entertainment and
culture);
8. LEISURE TIME (Leis)
Sports and outdoor activities, hobbies and games, unspecified leisure
time and resting;
9. TV (Tv)
TV and video;
10. OTHER MEDIA (OMed)
Other mass media (radio, music, reading);
11. TRAVEL (Trav)
Travel including travel for work ;
12.OTHER
UNSPECIFIED Other, unspecified and filling in TUS diary
(OUns)
x
Defining the data r ij
(r =1,..,6; i = 1,..14;j =1,..,12) = data concerning average
duration (in minutes and decimals) referred to all persons of the i-th category of
population in the j-th activity in the r-th occasion . In the application the i-th row is the
time- budget of the i-th category of population (case). Than the data has been
transformed in standard deviations (mean = 0 and std = 1) in view to reduce not just the
different mean intensity of the single variables (activity groups) but also their very
different variability.
 Type of day: average day of the week.
The three indices matrix of the application (a
posteriory coding: same cases and same variables
across countries) O6 X N 14;K 12
1440
3-way analysis some results:
comparing the overall similarity
of the time-use tables of the 6 countries:
A) Inter-structure
RV matrix and Plot
Simultaneous representation of the 6 time use tables on the plot of the first factorial
plane (explaining 93,15 % of the total variance).
Distances matrix of correlation coefficients (range: 0 =max distance (dissimilarity), 1=
max similarity between pairs of tables)
UNITED
BELGIUM ESTONIA FINLAND NORWAY SLOVENIA KINGDOM
BELGIUM
1.000
ESTONIA
0.806
1.000
FINLAND
0.906
0.818
1.000
NORWAY
0.863
0.782
0.902
1.000
SLOVENIA
0.900
0.864
0.860
0.894
1.000
UNITED
KINGDOM
0.899
0.734
0.906
0.893
0.809
1.000
Source : own elaboration on sub-file extracted from the EUROSTAT ‘Time-use at different stages of life in 13
european countries in 2003’ Data File. 3-way analysis: ACT-méthode STATIS-DUALE – inter-structure
analysis.
It is possible to verify the countries similar and dissimilar and their deviation
from the mean represented by the compromise matrix V : countries similar are
Finland and Belgium, United Kingdom and Norway and on the opposite side of
the factorial plane under the mean, Estonia and Slovenia .
Further examining the reciprocal position of the six countries we note that
Norway, Finland and Belgium are very near (similar), more distant from them
the United Kingdom, all four countries over the mean (V) . Estonia and
Slovenia are not very similar but under the mean.
3-way analysis results:
B) The Intra-structure analysis:
the compromise individuals and variables
 The intra-structure analysis has the goal to
analyse the individuals and variables ( 9
activity groups) in view to identifying the
mean or compromise-individuals points
(mean-partner) and
the mean
or
compromise-variables points (activities)
across the five occasions and how much
and what individuals and variables are
distant from the mean.
 It is possible to represent on the principal
planes the mean-individuals points and the
mean-variables points across the occasions.
3-way analysis results:
Intra-structure analysis
The underlying dimensions of the six european countries time-budgets. Mean-variable
points on the first factorial compromise plan (explaining 69,75% of total variance).
Source : own elaboration on sub-file extracted from the EUROSTAT. Three-way analysis: ACT-méthode
STATIS-DUALE – intra-structure analysis.
Two underlying dimensions (factors) characterize the time-budgets structures:
the first compromise axis characterized by the activities of gainful work opposed to leisurewatching tv-other media ;
the second compromise axis characterised from the housework and family care -volunteers
work opposed to study and socializing.
Three activities groups are correlated with both axes and could be defined interstructural
activity groups: Sleep, eats and personal care, travel.
.
The trajectories analysis:
comparing analytically
activities and individuals
across the 6 countries
It is possible to represent the trajectories in many different ways.
In the application because the cases are different and the data are
macrodata (average durations of categories of population) the
analysis of the trajectories obtained by the statis-duale method do
not add new important informations with respect to the analysis
above mentioned. On the contrary it is possible to obtain a more
analytical description of the variables and individuals by the
Multiple Factor Analysis (MFA).
Plot of the 84 categories of population at different stages of life across the six countries
on the first factorial plane (explaining the 72,39 % of the total variance).
The size (number of points), shape and dispersion of the four clusters.
Source: own elaborations on sub-file extracted from the EUROSTAT. Multiple Factor Analysis method.
Among the multiway analysis the Multiple Factor Analysis is suitable to analyse different groups of individuals on
which are observed the same or different quantitative or qualitative variables. MFA is based on repeated applications
and synthesis of Principal Component Analysis (for quantitative variables) or Multiple Correspondence Analysis ( for
qualitative variables).
From Figure 8 it is possible to see and compare with the other clusters the size (number of
points), the shape and the dispersion of the individual points of the cluster ;
cluster 2: Men and Women 45-64 years old living in couple without children living with
parents in all countries;
cluster 3: Men and Women more than 65 years old living in couple not having children less
than 18 years living with parents in all countries;
cluster 4: Men and Women less than 25 years old Not having cildren less than 18 years old
living with them in all countries.
Il caso di
studio
esaminato
Caso di studio n.2bis
►Se è una matrice di intensità o dati
quantitativi
•
Il caso di studio dell’uso del tempo di
diverse categorie di partner (sposati o
conviventi) secondo le classi di età in un
giorno feriale e in un giorno festivo
Riferim. Bibl.: M. Fraire(2009),Statistical Methods for
Exploratory Multidimensional Data Analysis on Time Use,
in 'Statistica', annoLXIX n.4, 2009
• .
( FacSocCH)
AN 458, K 34
Il caso di
studio
esaminato
1^fase AMD
Il caso di studio
esaminato
La documentazione statistica di partenza
Fonte dei dati: la fonte dei dati impiegata per le applicazioni è
rappresentata da un sub-file estratto dal dataset dell’Indagine
Time_Use 1988_89 dell’ISTAT Campione : riguarda N = 327 coppie
(99% sposate e 1% coabitanti) equivalenti a 654 partners nei giorni
feriali e N= 361 coppie (722 partners) la domenica in famiglie
mononucleari viventi in grandi centri urbani (11 città italiane:
Torino, Milano, Venezia Genova, Bologna, Firenze, Roma, Napoli,
Bari, Palermo, Catania.)
N=22 unità statistiche nelle applicazioni sono rappresentate da macrounità, categorie di popolazione, qui in particolare ‘categorie di
partners’ ottenute per incrocio delle modalità delle seguenti
variabili di analisi e variabili relative al ciclo di vita (variabili di
classificazione) Le 22 categorie di partner sono state quindi le seguenti
(indicate con le loro labels): 1.Females; 2.FemaleNotEmployed; 3.Femployed;
4.FlowEducLev; 5.FhighEducLev; 6.FWithChild<18; 7.FWithouthChild<18;
8.FMiddleEducLev; 9.FWithYoungestChild<05; 10. FwithYoungestChild; 11.
FWithYoungestChild 12-18 . Ugualmente per gli 11 casi di partner maschili..
Analysis Variables and Life Cycle Variables for the set N = 22 macro-cases
ANALYSIS VARIABLES
Value label
1. DAY
Day of Interview: Sunday ; Workdays (from monday to friday)
2. SEX
Sex: Man; Female
3. PARTNER AGE
Age Class: 15-24; 25-44; 55-64; 65-74; 75-84;85+
4. AVERAGE AGE IN THE COUPLE Average Age Class: 20-35 ; 36-50 ; >50
5. EDUCATION
Education level: High ;Middle; Low
6. EMPSTAT IN THE COUPLE
Employment Status in the couple
(married/cohabiting)
Both employed;One only employed;None employed
LIFE CYCLE VARIABLES
Life cycle
7. CHILD <18 YEARS LIVING IN
Without children less 18 years living in the couple ; With children less
THE COUPLE
18 years living in the couple;
8. AGE OF YOUNGEST CHILD
Youngest Age
LIVING IN THE COUPLE
Adult living with at least one child aged < 5 ; Adult living with at least
one child aged 6-11;Adult living with at least one child aged 12-18 .
Il caso di
studio
esaminato
1^fase AMD
La documentazione statistica di partenza
Xk (k=1,2,..,9) = 9 variabili sono qui costituite invece da 9 gruppi
di attività giornaliere esaustivi di tutte le attività svole ed aventi le
seguenti caratteristiche: sono attività primarie
PRIMARY ACTIVITIES
PRIMARY ACTIVITY GROUPS
1. TV
TV and video
2. OMED
Other mass media (radio, music, reading)
3. FREE
Free time: leisure time (sports, outdoor activities, hobbies and games
unspecified); volunteers work and informal help to other households.
4. SOCI
Socializing (participatory activities, social life and entartainment and
culture).
5. TRAV
Travel including travel for work
6. H&FA
Home and family care
7. WORK
Gainful work, study
8. EATS
Meals
9. SLEEP
Sleep
4^fase
AMD
La scelta della tabella dei dati per
l’analisi a tre-vie
• Si possono avere tre diverse codifiche a
posteriori di una matrice dei dati a tre-vie
secondo le situazioni di ricerca :
• 1) Una matrice di dimensione [ N , (KO)]
in cui si considerano diverse le K variabili
rilevate in O occasioni successive ed uguali
le N u.s.;
• 2) Una matrice di dimensione [ (N O) , K]
in cui si considerano uguali le K variabili e
diverse le N u.s. rilevate in O occasioni
successive;
• 3) Una matrice di dimensione [(N x K), O]
in cui si considerano uguali sia le N u.s. che
le K
variabili rilevate in O occasioni
successive.
• Nell’applicazione
considerata, la
scelta della codifica a posteriori è stata
quella di tipo 3)
La scelta della codifica a posteriori
per la tabella dei dati
• La situazione di ricerca considerata è quella
descritta al punto (3), ossia si hanno uguali le
K = 9 variabili, attività primarie, e uguali le
N = 22 categorie di partner in O occasioni
rappresentate, in questo caso, dalle 5 classi di
età. La matrice dei dati a tre indici considerata
può essere indicata:
• definita dai seguenti elementi:
• Xj (j=1,2,…,k) = 9 primary activities ;
• N = 22 types of partners
• Or (r =1,2,…,5) = partners’ age classes: 1824 years; 25-44 years; 45-64 years; 65-74
years;75-84 years
• (r=1,..,5; i = 1,..22;j=1,..,9) = average
duration (in minutes and decimals) referred
to all persons of i-th partner’s category in jth activity in r-th occasion . I-th row is the
time- budget of i-th partner..
5^ fase AMD
time use three-way matrix codificata in modo adatto
alla situazine di ricerca considerata e al software
impiegato[1]
Analisi dell’interstruttura
Distances matrix of correlation coefficients (range: 0 =max
distance (dissimilarity), 1= max similarity between pairs of tables)
Most similar pairs of time use tables are : 65-74 / 75-84
age classes (RV = 0.626);
18-24 / 25-44 age classes
but with RV coefficient = 0.357;
most dissimilar pairs of time use tables : 18-24 / 65-74 age
classes (RV = 0.057 ; 18-24 / 75-84 age classes (RV =
0.084).
plot of the five
time-use tables
on
first
factorial plane
(65,65%
of
total variance)
Analisi dell’intrastruttura o
compromesso
i seguenti cluster 1: adult (18-24/25-44) at home:
sleep; socialities; eat; other media; free time ; cluster 2:
old (65-74/75-84) relax-routine at home: eat, sleep,
travel, tv; cluster 3: adult (18-24/25-44) out of home:
travel; work;other , the day considered is working day.
Plot of meanvariables
(activities)
points across
five age classes
on the first
compromise
factorial plane
Analisi delle traiettorie
delle unità e delle variabili
Trajectories of the 22 categories of partners across the five age classes.
Factor scores on the first factorial axis ( 42,48% of the total variance).
Partners\Age classes
Male
MNotEmploy
Memploy
MLowEduc
MMiddleEduc
MHighEduc
MWithChild<18
MNoChild<18
MWithChild<05
MWithChild6-11
MWithChild12-18
Female
FNotEmploy
FEmploy
FLowEduc
FMiddleEduc
FHighEduc
FWithChild<18
FNoChild<18
FWithChild<05
FWithChild6-11
FWithChild12-18
18-24
25-44
45-64
0,0936
0,1546
0,1956
*
0,4975
0,4339
0,0936
0,1405
-0,1607
*
0,2492
0,4106
0,0936
0,0905
-0,0347
*
0,1888
0,1256
0,0936
0,1561
-0,1527
0,1675
0,1485
0,501
0,0936
0,1429
-0,3478
*
0,2146
0,0209
*
0,0734
-0,1762
-0,2325
-0,2025
0,2607
-0,267
-0,1329
1,2403
-0,1769
-0,0985
-0,8499
*
-0,3785
0,2803
-0,2967
-0,2232
0,1978
-0,1825
-0,0961
0,3343
-0,348
-0,2597
-0,1268
-0,0455
0,108
0,386
-0,348
-0,2991
-2,0525
*
-0,151 *
*
-0,2072 *
2
MNot Employ
Memploy
1
MLowEduc
MMiddleEduc
0,5
MHighEduc
0
25-44
45-64
65-74
75-84
MNoChild<18
MWit hChild<05
MWit hChild6-11
MWit hChild12-18
-1,5
1,5
Female
FNotEmploy
1
FEmploy
0,5
FLowEduc
0
-1
FMiddleEduc
18-24
25-44
45-64
65-74
75-84
FHighEduc
FWithChild<18
FNoChild<18
-1,5
-2
-2,5
Traiettorie di 11 categorie
di
partner
maschili
attraverso 5 classi di età
MWit hChild<18
18-24
-1
-0,5
75-84
1,1929
0,8231
*
1,1494
1,314
1,418
*
*
*
-0,8548
-0,8548
0,8231
*
-0,8548
0,8595
0,6611
-0,8548
*
0,8231
*
*
*
Male
1,5
-0,5
65-74
1,0745
0,6389
0,7379
1,0625
1,0919
1,1152
*
*
*
-1,2446
-1,2446
0,6421
0,9903
-1
0,5953
0,9494
0,5866
*
0,6421
*
*
*
FWithChild<05
FWithChild6-11
FWithChild12-18
Traiettorie di 11 categorie
di partner femminili
attraverso 5 classi di età
Il caso di
studio
esaminato
Caso di studio n.2ter
• Se è una matrice di intensità: i
quozienti di criminalità
• Dati sulla microcriminalità forniti
dalle Questure di Roma
• Negli anni 1999-2004
• Fa parte della Ricerca sulla
percezione sociale del rischio di
criminalità a Roma
• Riferim.bibl.: F.Beato, La calma
insicurezza, Liguori Ed.2003 in particolare:
• M.Fraire, Analisi Multidimensionale spaziotemporale della criminalità
diffusa nei
X
Municipi di Roma
1999
N 19, K 5
Il caso di
studio
statisticaesaminato
di partenza:
1^fase dell’AMD
La documentazione
dati grezzi della microcriminalità della
Polizia nei municipi di Roma:
Questura di Roma
Divisione Polizia Anticrimine
Sezione Statistiche, Analisi e Proposte
UFFICIO DI P.S. :
Aurelio
PERIODO DAL
02/01/2002
AL 01/01/2003
Delitti denunciati all'Autorità Giudiziaria dalla Polizia di Stato
ed altri dati attinenti alla sicurezza pubblica
SEZIONE PRIMA
AVVENUTI
N.
OMICIDI DOLOSI CONSUMATI
1
PERS. DENUNCIATE
di cui in Totale
Roma scoperti
2
3
N.
di cui
di cui
minori stranieri
4
5
6
PERSONE ARRESTATE
N.
7
di cui
di cui
minori stranieri
8
9
1) a scopo di furto o rapina
2
0
0
0
0
0
0
0
0
0
2) per mafia camorra o 'ndrangheta
3
0
0
0
0
0
0
0
0
0
3) per motivo di onore o passionali
4
0
0
0
0
0
0
0
0
0
4) a scopo terroristico (Art. 280 C.P.)
5
0
0
0
0
0
0
0
0
0
5) per altri motivi
6
0
0
0
0
0
0
0
0
0
TOTALE da 1 a 5
7
0
0
0
0
0
0
0
0
0
Infanticidi
8
0
0
0
0
0
0
0
0
0
Omicidi preterintenzionali
9
0
0
0
0
0
0
0
0
0
Tentati omicidi
10
0
0
0
0
0
0
0
0
0
Omicidi colposi
11
0
0
0
0
0
0
0
0
0
Omicidi colposi da incidente stradale
12
0
0
0
0
0
0
0
0
0
Lesioni dolose
13
5
5
3
4
0
3
3
0
0
VIOLENZE SESSUALI
1) su minori di anni 14
14
1
1
0
0
0
0
0
0
0
2) su maggiori di anni 14
15
3
3
3
0
0
0
6
4
1
TOTALE 1 + 2
16
4
4
3
0
0
0
6
4
1
FURTI SEMPLICI E AGGRAVATI
1) abigeato
17
0
0
0
0
0
0
0
0
0
2) borseggio
18
569
569
49
7
4
7
63
16
61
3) scippo
19
19
19
0
0
0
0
0
0
0
………………………………………………………………….
2^ fase dell’AMD
Il caso di
studio
esaminato
La codifica a priori : matrice dei dati grezzi sulla
microcriminalità nei 19 municipi di Roma:
X N 19;K 5
►scelta della classificazione dei delitti
► calcolo valori assoluti (per somma delitti inclusi in
ogni categoria)
Esempio : La matrice dei valori assoluti dei delitti nei
19 Municipi per l’anno 2003
2003
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XV
XVI
XVII
XVIII
XIX
XX
ROMA
Omic/Les Viol sess
77
10
15
4
20
5
19
3
22
2
11
2
16
1
19
3
17
3
41
4
12
3
31
5
15
4
9
4
2
0
30
3
18
3
10
2
15
5
399
66
Furti
Rapine Estors/Altri
9636
163
1323
3696
110
721
2939
100
767
1342
92
381
1437
66
396
1622
64
445
1707
58
590
1162
72
267
3293
108
1150
3466
92
913
3561
101
1154
2986
158
941
1317
45
397
1993
98
302
1760
87
258
3086
82
997
1671
84
769
2999
75
586
1995
75
923
51668
1730
13280
Totale
11209
4546
3831
1837
1923
2144
2372
1523
4571
4516
4831
4121
1778
2406
2107
4198
2545
3672
3013
67143
Il caso di
studio
esaminato
2^ fase dell’AMD
La classificazione dei delitti in 5 tipologie
v. Testo: ‘La calma insicurezza’ pag.38
Tabella 1 - Classificazione dei delitti
Classi di delitti
Delitti inclusi
1.Omicidi e lesioni:
Omicidio a scopo di furto o rapinaOmicidio per motivo di onore o passionali
Omicidio a scopo terroristicoOmicidio per altri motiviOmicidi preterintenzionali
Tentati omicidiOmicidi colposiLesioni dolose
2.Violenze Sessuali:
Violenze sessuali contro maggiori anni 14Violenze sessuali contro minori di anni 14
3.Furti:
AbigeatoBorseggiScippiFurti in uffici pubbliciFurti in negozi
Furti in appartamentiFurti su auto in sosta Furti in ferroviaFurti di opere d'arteFurti di merci su
automezzi pesanti,Furti di autoveicoliFurti di armi, esplosivi o munizioniAltri Furti
Rapine in banca Rapine in uffici postali Rapine in gioiellerie e laboratori Rapine a rappresentanti
di preziosiRapine a trasportatori di valori bancari Rapine a trasportatori di valori postali  Rapine in
danno di coppie o prostituteRapine di automezzi pesanti italiani e stranieriRapine a passantiRapine
in negozi Altre rapine .
Estorsioni Strage (Art.422 C.P.) Sequestri di persone a scopo estorsivo Sequestri di persona con
ostaggio a scopo di rapina Sequestri di persona per motivi sessuali Sequestri di persona per altri
motivi Danneggiamenti Associazione per delinquere Incendi dolosi Attentati
dinamitardi/Incendiari Truffe Ricettazioni Risse
Minacce,Oltraggio,Resistenza a P_U,Evasione, ContrabbandoUsura,Violazione legge
armi,Violazione legge stranieri,Prod e commercio stupefacenti,Reati connessi alla
prostituzione,Altri delitti.
4.Rapine:
5. da Estorsioni ad Altri
3Delitti
3^fase dell’AMD
Il caso di
studio
esaminato
codifiche a posteriori di variabili
A)la misura della criminalità e il calcolo dei quozienti
di criminalità
• Richiami sulla definizione e misura della micro-criminalità
(v. ‘La calma insicurezza’ pagg.29-36) :
• Il concetto di ‘numero oscuro’:
criminalità ‘reale’ = criminalità apparente
(denunciata)+’numero oscuro’
si può stimare con le indagini
di vittimizzazione
• Rapporti statistici e misure della criminalità:
n° dei delitti denunciati per il reato i-mo in un
dato luogo e anno
Quozienti di criminalità:
×1000
popolazione residente a metà anno nello stesso
luogo e anno
Altre misure:
- Quozienti di criminalità ponderati (con la pena media
edittale=gravità del reato)
- L’indice di delittuosità
- Le mappe tematiche e l’autocorrelazione spaziale
B) Prime analisi statistiche unidimensionali
preliminari delle matrici dei quozienti calcolate (pag.
36-43)
3^fase
La codifica
per variabili
3^=4^ fase:
le scelta
tabelle dei dati
Le 6 matrici X N 19, K 5 dei quozienti di
criminalità 1000ab
nei 19 municipi di Roma dal 1999 al 2004
TABLEAU DES DONNEES 1999
-----------------------0
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XV
XVI
XVII
XVIII
XIX
XX
OMIC
.5160
.2650
.5250
.0880
.3540
.1350
.1350
.2340
.0820
.0670
.0500
.0520
.1450
.1880
.2500
.2520
.1650
.0390
.2440
VSES
.0570
.0400
.1220
.0150
.0330
.1350
.0400
.0160
.0150
.0000
.0140
.0260
.0160
.0260
.0270
.0800
.0300
.0110
.0490
FURT
73.6850
40.8720
84.5470
8.5180
7.9560
.0520
24.7230
11.6800
36.5500
21.6690
22.9450
23.3590
10.3870
21.0480
19.9390
67.7180
17.9910
21.3850
23.5460
RAPI
2.1140
1.6890
2.8500
.2980
.4030
2.2090
1.0700
.7640
1.0550
.7610
.8550
.9010
.3280
.7310
.7890
1.6440
.5400
.5190
.6980
ESTO
10.7500
7.9940
15.4410
1.6900
2.6340
.7250
6.4230
4.7950
6.1670
4.3320
2.7080
4.4100
4.7980
4.0750
3.5800
9.8260
4.7420
2.4430
6.0380
Il caso di
studio
esaminato
TABLEAU DES DONNEES 2004
0
TABELLA DEI DATI 1999
TABELLA DEI DATI 2000
TABELLA DEI DATI 2001
TABELLA DEI DATI 2002
TABELLA DEI DATI 2003
TABELLA DEI DATI 2004
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XV
XVI
XVII
XVIII
XIX
XX
OMIC
.4400
.3050
.7890
.1560
.2890
.0010
1.1060
.1680
1.2900
.0880
1.3500
1.2880
.0890
.1870
.0810
.7670
.2230
.4920
.8100
-----------------------VSES
FURT
RAPI
.1710
87.3700
1.8510
.0320
33.6800
1.4690
.0530
70.8580
2.7720
.0100
7.9950
.2870
.0210
6.8560
.6380
.0000
.0220
.0010
.0790
33.1810
2.3460
.0200
9.8490
.6740
.1040
45.7060
3.1990
.0000
19.1070
.7880
.1000
68.5860
4.0870
.0880
82.0890
4.4910
.0260
9.2350
.4610
.0060
16.7140
.6760
.0070
16.8380
.5340
.0930
90.6170
3.5980
.0300
15.9870
.6160
.0620
50.3420
1.9850
.1030
76.6240
3.0080
NOTA:
E’ preferibile costruire la tabella dei dati come media
aritmetica di un triennio per eliminare eventuali variazioni dovute a
semplici oscillazioni dei dati e non effettive variazioni nell’entità della
microcriminalità.
ESTO
11.7900
8.5640
15.5790
1.5330
2.4660
.0060
9.7540
3.5900
14.4500
3.6680
18.6060
20.5410
5.2140
4.6160
2.9890
28.5080
4.0320
15.0860
22.2610
Le matrici dell’Analisi dei Dati a Tre Vie
(3-way data analysis):
Codifiche a priori(2^fase dell’AMD)
•
•
•
•
•
•
•
•
•
Analisi dei Dati a Tre Vie (three-way data analysis)
mediante la quale si possono esaminate più tabelle nella
forma di tabelle di dati quantitativi , tutte insieme, globalmente
e contemporaneamente, secondo tre diversi aspetti:
a) la rappresentazione globale di tutte le tabelle e la distanza
tra esse (analisi dell’interstruttura);
b) individuare la tabella ‘compromesso’ o ‘ matrice media’
(analisi dell’intrastruttura )
c)confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme delle
occasioni considerate e individuare quali di esse sono quelle
che hanno contribuito maggiormente alla differenza tra le
tabelle (analisi delle traiettorie)
Si possono avere diverse codifiche a posteriori di una
matrice dei dati a tre vie secondo le situazioni di ricerca:
1) Una matrice di dimensione [ N , (KO)] in cui si
considerano diverse le K variabili rilevate in O occasioni
successive ed uguali le N u.s.;
2) Una matrice di dimensione [ (N O) , K] in cui si
considerano uguali le K variabili e diverse le N u.s. rilevate in
O occasioni successive.
3) Una matrice di dimensione [(N x K), O] in cui si
considerano uguali sia le N u.s. che le K variabili rilevate in O
occasioni successive.
Le matrici a tre indici per
l’Analisi dei Dati a Tre Vie:
1^ fase AMD
N = u.s.; K= caratteri O = occasioni
Un esempio: La
O
MICROCRIMINALITA’ nei 19 Municipi di
Roma dal 1999 al 2004
X NxK  4( anni) X 19( MunicipiRM), 5( delitti)
DATI CUBICI a TRE MODI (N,K,O)e TRE INDICI (i,j,k)
O
X N ,K
Convegno di Studi su:
La criminalità diffusa a Roma. Percezione sociale del rischio ed uso
della città.
I risultati di una ricerca.
7 maggio 2003 – Centro Congressi dell’Università degli Studi di
Roma ‘La Sapienza’
‘Analisi
multidimensionale
spazio-temporale
della criminalità
diffusa
nei municipi di Roma’
di
Mary Fraire
Professore ordinariodi Statistica, Università
degli Studi di Roma ‘La Sapienza’.
4^ fase
AMD
La tabella dei dati
Tabella 6 - La tabella dei dati a 3-vie
impiegata per le analisi
O T (1999  2002) X N 19, K 5
OMI
VSES
FURT
RAPI
ESTO
I
0.516 0.057
73.685 2.114 10.750
II
0.265 0.040
40.872 1.689
7.994
…………………………………………………………………….
XIX
0.039 0.011
21.385 0.519
2.443
XX
0.244 0.049
23.546 0.698
6.038
I
0.440 0.171
87.370 1.851 11.790
II
0.305 0.032
33.680 1.469
8.564
……………………………………………………………………
XIX
0.492 0.062
50.342 1.985 15.086
XX
0.810 0.103
76.624 3.008 22.261
I
1.050 0.258 147.905 3.908 21.558
II
0.249 0.016
31.768 1.404
6.957
……………………………………………………………..
XIX
0.061 0.000
15.375 0.570
3.340
XX
0.205 0.020
15.459 0.764
5.223
I
0.367 0.147
64.680 1.827 12.445
II
0.177 0.008
31.936 1.116
7.277
……………………………………………………………………
XIX
0.078 0.011
15.852 0.620
2.905
XX
0.129 0.075
14.230 0.565
5.642
Note:
1)
I Municipi sono in
totale
19 in quanto il XIV
Municipio, ‘Fiumicino’, è diventato comune a se stante
.
2) Le etichette delle variabili sono: OMI= Omicidi e
lesioni, VSES = Violenze sessuali, FURT = Furti, RAPI =
Rapine,
ESTO=Estorsioni
ed
altri
delitti,
la
classificazione dei delitti
riportata nella tabella
L’Analisi a 3-vie
(3-way data analysis)
La situazione di ricerca e le tabelle
dei dati impiegate
Si possono avere diverse tabelle dei dati a tre vie O X N , K
Nella presente ricerca ci si trova nella situazione di ricerca seguente:
N = u.s.; K= caratteri
statistici; O = occasioni
OT (19992002) X N 19, K 5
 X ( N 19K 5),T 4
in cui si considerano uguali sia le N u.s. che le K variabili osservate in
O occasioni successive qui gli anni dal 1999 al 2002.
 Il metodo di analisi a 3-vie impiegato
Analyse Conjointe de Tableaux Quantitatifs (A.C.T.) – Méthode
STATIS (Escoufier, 1980) per analizzare le 4 tabelle dei dati
suddette contemporaneamente e globalmente sotto tre diversi aspetti:
 analisi dell’interstruttura ; analisi dell’intrastruttura;  analisi
delle traiettorie
Software impiegato: ACT-Statis (CISIA, 1989,France)
I risultati dell’analisi a 3-vie:
L’INTERSTRUTTURA
Rappresentazione globale delle 4 tabelle dei dati
nel
primo
piano
fattoriale 1  2  76,02% (
dell’inerzia totale) rispetto alla matrice ‘media’
(WD) (‘matrice compromesso’, sintesi di tutte le
matrici) : la vicinanza indica tabelle con strutture
globalmente simili:
Analisi dell’inter-struttura
Figura 8-Il plot delle 4 tabelle dei dati per i 4 anni considerati sul primo piano principale
(     76,03 % dell’inerzia totale) centrato rispetto alla matrice compromesso (WD)
1
2
Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Interstructure.
Analisi dell’intrastruttura: la matrice compromesso e
il municipio medio rispetto alla microcriminalità nel
periodo considerato
Figura 10 -Rappresentazione degli individui compromesso: i 19 Municipi (punti unità-medi)
rispetto ai primi due assi compromesso ( 1  42 , 48 %   2  17 , 70 %  60 ,18 % )
-----------------------------------------------------------------------------------------------------------------------1!
!
XVII
!
2!
!
!
3!
!
!
4!
!
!
5!
!
!
6!
!
!
7!
!
!
8!
!
!
9!
!
!
10!
!
!
11!
!
!
12!
!
!
13!
!
!
14!
!
!
15!
!
!
16!
!
!
17!
!
!
18!
!
!
19!
!
!
20!
!
!
21!
!
!
22!
!
!
23!
!
!
24!
!
!
25!
!
!
26!
!
!
27!
!
!
28!
!
!
29!
!
!
30!
!
!
31!
!
!
32!
!
!
33!
!
!
34!
!
!
35!
!
!
36!
!
!
37!
XVII
!
!
38!
!
!
39!
!
!
40!
XX
!
!
41!
!
!
42!
XII
!
!
XVI
43!
VII
45!----------------XV
!
!
44!
!
46!
47!
48!
------- !
!
!
!
---------------------------------------------------------------------------------------- !
!
!
III
!
!
!
!
!
49!
50!IV
V
VIII
XIX
VIXIII
!
II
!
!
!
X
!
!
!
!
!
!
!
!
!
I !
------------------------------------------------------------------------------------------------------ ------------------
51!
52!
53!
54!
55!
56!
57!
XI IX
Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Intrastructure
Sul primo asse si può notare la contrapposizione tra i Municipi XVI, VII, XV,XII , VIII e il III, I;
sul secondo asse il XVII, XX contro il IX, XI. Mentre nella Figura 11 si riporta lo stesso plot
riferito invece che alle u.s. (19 Municipi) alle variabili (i 5 tipi di delitti nei 4 anni). Il confronto tra i
due plot consente di interpretare i risultati considerando la vicinanza tra i punti-medi unità
(Municipi) e i punti-medi variabili (5 tipologie di delitti )incluso l’anno di riferimento (qui indicato
con i numeri 1=1999, 2=2000,3=2001,4=2002 posti accanto al nome della variabile).
Analisi dell’intrastruttura: la matrice compromesso e
il tipo di reato ‘medio’ rispetto alla microcriminalità
nel periodo considerato
Figura 11 – Correlazioni delle variabili con gli assi: i 5 punti-medi variabili sul primo pian
fattoriale
I risultati dell’analisi a 3-vie:
LE TRAIETTORIE dei Municipi
(indicizzate rispetto al I asse fattoriale
Municipi da I a V: il diverso ruolo nella criminalità
1  57,75%
)
Le traiettorie della
criminalità diffusa degli altri
Municipi: confronti
Una sintesi dei risultati
•
•
•
•
•
•
•
E’ possibile analizzare singolarmente ogni Municipio per i 4
anni considerati e confrontare la sua traiettoria rispetto agli
altri: si noti che l’ordine in cui appaiono è in effetti una
graduatoria (multidimensionale perché riferita ai 5 tipi di
delitti
denunciati
contemporaneamente
considerati)
decrescente rispetto alla criminalità nei vari anni di ciascun
Municipio.
Limitandoci qui a commentare in particolare il III e il V
Municipio, essendo quelli in cui si è svolta l’indagine
campionaria di cui si vedranno alcuni risultati nel paragrafo
che segue.
-Si può anzitutto notare che il I Municipio è quello che ha la
criminalità più elevata
-mentre il V quella più bassa
rispetto agli altri Municipi considerati
- inoltre nei 4 anni mentre la criminalità nel V Municipio è
rimasta pressoché invariata nel I Municipio si sono avuti
notevoli cambiamenti nei 4 anni come si può vedere dalla
traiettoria del Municipio I in figura 11: andamento alterno
con una brusca diminuzione nel 2000 ed una notevole ripresa
nel 2001.
E’ da notare che questa rappresentazione consente la
condensazione e sintesi di una notevole mole di informazioni
e soprattutto consente il confronto spazio-temporale delle u.s.
rispetto alle variabili considerate.
Il caso di
studio
esaminato
Caso di studio n.3
• Se sono dati testuali:
• Se è una matrice dei dati testuali
• ‘Le preoccupazioni sociali rilevanti
e la QdV nelle C.M.’ e l’analisi a
tre vie per l’individuazione di
indicatori lessicali empirici
• Relazione
presentata
alla
5^JADT2000, Losanna 9-11 marzo su
M.Fraire, ‘Analisi a 3-vie delle risposte
a domande aperte e indicatori empirici
• Riferim.bibliograf.
‘Sociologia
e
Ricerca Sociale’ n.61/anno XXI, 2000
1^ fase AMD
L’Analisi dei dati testuali a 3-vie
• La documentazione statistica di partenza:
• campo d’indagine, questionario, popolazione e le matrici
•
•
•
•
•
•
•
•
•
•
dei dati iniziali
Particolare questionario ‘Scheda descrittiva-per problemi’
caratterizzato da una serie di 8 domande aperte miranti ad
individuare le ‘preoccupazioni sociali rilevanti’ per ciascuna
delle seguenti 8 ‘aree di rilevanza sociale’:
A: ‘Salute’ ;
B:’Istruzione e formazione professionale’;
C: ‘Occupazione e Qualità del lavoro’;
D:’Impiego del tempo libero’;
E: ‘Situazione economica personale’;
F:’Ambiente fisico’;
G:’Ambiente sociale’;
H: ‘Sicurezza personale’, nelle quali era stata scomposta la
definizione astratta di QdV.
le risposte alle 8 domande aperte date da ciascuno dei 22
operatori (presidenti di C.M.) hanno costituito il file di testo
originario composto quindi da 8 sub-files
•
Creazione della matrice dei dati testuali e
•
codifiche a posteriori: correzione, disambiguazione e
segmentazione del testo e le prime analisi statistiche dei testi.
un esempio
di matrice dei dati testuali
(Il questionario:1^fase dell’AMD)
…………………………………
Le matrici dei dati iniziali testuali (2^fase dell’AMDT) :
il file di testo nell’Analisi dei Dati Testuali:
La matrice ‘QdVCM.txt'
-
-
-
----01PIECN
A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI.
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI SERVIZI DI TRASPORTO.
++++
B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE
PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI.
PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI.
SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE
ESIGENZE DEL MONDO DEL LAVORO.
++++
C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI
OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E
ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE.
DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI
PRIMA OCCUPAZIONE.
AUMENTA IL LAVORO NERO E PART-TIME.
++++
D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE.
PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE.
++++
E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO.
PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO
E IL COSTO PER IL RISCALDAMENTO.
++++
F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL
TRAFFICO PROVINCIALE.
DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE.
++++
G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO
DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI
FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI
GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI
RIGUARDANO L'ASSISTENZA AGLI ANZIANI.
FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO
DELLA DROGA.
++++
H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA
SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI.
----02VADAO
A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI TRASPORTI.
++++
B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI
MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I
BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE.
MANCA UNA SEDE UNIVERSITARIA.
++++
………………………...
----22SARNU
3^fase
AMD
Analisi dei dati testuali
Un esempio di codifiche a posteriori di 3^ fase:
la selezione delle risposte caratteristiche
•
Selezione delle risposte caratteristiche secondo le ripartizioni geografiche.
(Criterio del Chi-quadrato)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
INDICE CHI-QUADRATO
RISPOSTE CARATTERISTICHE
Nord-Ovest
.447 -1 ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI.
.592 -2 ASSENZA DI OSPEDALI E PRONTO SOCCORSO
2 MALATTIE TIPICHE DEGLI ANZIANI.NEOPLASIE.
.738 -3 ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE
3 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE PER CARENZA DI TRASPORTI.
Nord-Est
.480 -1 ELEVATA PRESENZA DI GOZZO PER CARENZA DI IODIO NELL'ACQUA POTABILE.
1 ALTO TASSO DI INVALIDI IN AGRICOLTURA PER INCIDENTI.
.725 -2 ALTO TASSO DI HANDICAP E INVALIDI.
.754 -3 NON FUNZIONALITA DEI DISTRETTI DI BASE
3 ASSENZA DI STRUTTURE PER HANDICAPPATI.
.766 -4 CLIMA UMIDO MALATTIE REUMATICHE E BRONCHIALI .
.864 -5 DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE IN CASO DI
EMERGENZA.
Centro
.534 -1 STRUTTURE SANITARIE ACCENTRATE PRESSO L'OSPEDALE CIVILE.
1 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER
ASS.DISTR DI BASE.
.640 -3 CARENZA DI UN CONSULTORIO FAMILIARE
3 ASSENZA DI CENTRI DI IGIENE MENTALE
.735 -4 ASSENZA DI PRESTAZIONI SANITARIE PERIFERICHE.
.804 -5 ALTO TASSO MALATTIE REUMATICHE PER CLIMA UMIDO.
5 ALTO TASSO DI ANZIANI PER SPOPOLAMENTO.
Sud
.501 -1 ASSENZA DI ASILI NIDO E STRUTTURE PER HANDICAPPATI
504
2 ALTO TASSO DI HANDICAPS E INVALIDI CIVILI.
2 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER
ASS.DI DISTR.DI BASE
.561 -3 ALTO TASSO DI HANDICAPS PER POLIOMIELITE.
.772 -4 ASSENZA DI SERVIZI PER ANZIANI.CARENZA DI STRUTTURE PER
HANDICAPPATI.
.778 -5 ALTO TASSO DI INVALIDI
5 ASSENZA DI PRESTAZIONI SANITARIE PUBBLICHE.
Isole
.376 -1 ASSENZA DI UN CENTRO DI RIANIMAZIONE.
1 CARENZA DI CENTRI DI SERVIZIO SOCIALE IN AMBITO USL
.695 -2 ALTO TASSO DI INVALIDI CIVILI.CARENZA DI SERVIZI SANITARI.
.937 -3 ALTO TASSO DI HANDICAP E INVALIDI.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
L’analisi a tre-vie
• Mediante l’analisi dei dati a tre vie si sono volute esaminare
tutte insieme, contemporaneamente e globalmente, le 8 aree
di rilevanza sociale (occasioni), le u.s. (5 ripartizioni
geografiche) e le tre variabili (primi 3 fattori) di ogni area
ossia le 8 tabelle di contingenza nella forma di tabelle di
dati quantitativi suddetta al fine di individuare:
• a) attraverso la rappresentazione globale di tutte le tabelle
quali di esse hanno una struttura simile o diversa e, attraverso
la loro distanza dalla tabella ‘media’ (matrice compromesso),
valutare quali di esse contribuiscono maggiormente alla parte
di variabilità eccedente quella comune rappresentata dalla
matrice compromesso (analisi dell’interstruttura);
• b) individuare sia per gli individui (punti individui-medi) che
per le variabili (punti variabili-medie) le caratteristiche della
variabilità
media
nelle
8
occasioni
(analisi
dell’intrastruttura).
• c) individuare e confrontare le ‘traiettorie’ di ciascuna
u.s.(qui le 5 ripartizioni geografiche) per l’insieme delle 8
occasioni (aree di rilevanza sociale) considerate ossia i diversi
‘percorsi’ e quindi il diverso ruolo di ciascuna area di
rilevanza sociale nel definire la QdV di ciascuna ripartizione
(analisi delle traiettorie).
3^fase
AMD
Le codifiche a posteriori
• . Si sono considerati i dati centrati e
ridotti perché la variabilità delle
singole variabili era molto diversa.
Infine
si
è
richiesta
la
normalizzazione delle tabelle per
ottenere coefficienti di relazione tra
tabelle (l’indice RV di Escoufier)
varianti tra 0 e 1.
• in generale nelle applicazioni
informatiche (qui ad esempio si è
impiegato il software ACTméthode STATIS), tale codifica si è
ottenuta per impilamento delle
tabelle
e imponendo poi la
condizione che le variabili fossero
diverse in ogni occasione e le u.s.
uguali
A)Analisi dell’interstruttura:
la collocazione delle aree di rilevanza sociale
attravero l’analisi dell’interstruttura
Fig.2 - Rappresentazione sul primo piano fattoriale centrato (72,04%)
rispetto alla matrice compromesso delle 8 aree di rilevanza
sociale
-----------------------------------------------------------------------------------------------------------------------1!
1
!
2  28,14% !
2!
!
!
3!
!
!
4!
!
!
5!
!
!
6!
!
!
7!
!
!
8!
!
!
9!
!
!
10!
!
!
11!
!
!
12!
!
!
13!
!
!
14!
!
!
15!
!
!
16!
!
!
17!
!
5
!
18!
!
!
19!
!
!
20!
!
!
21!
!
!
22!
!
!
29!
!
!
30!
!
!
31!
!
!
32!
!
!
33!
!
!
34!
!
!
35!
!
!
36!
!
!
37!
!
!
38!
2
!
39!
!
!
1  43,90%,
40!
!
!
41!7
--------------------------------------------------------WD -------------------------------------------------------!
42!
!
!
!
45!
!
8
!
46!
!
!
47!
6
!
48!
!
!
49!
!
!
50!
!
!
51!
!
!
52!
!
!
53!
!
!
54!
!
!
60!
!
!
61!
!
!
62!
!
!
63!
!
!
64!
!
!
65!
!
!
66!
!
!
67!
!
!
68!
!
3
69!
!
!
70!
!
!
71!
!
!
72!
!
4
------------------------------------------------------------------------------------------------------------------------
(salute)
(Situaz.econ.person.)
(Istruz.e Form.Prof.)
(Ambiente sociale)
(Ambiente fisico)
(Sicurezza sociale)
(Occupazione)
(Impieghi del t.l.)
Questa classificazione ‘a posteriori’ in due clusters delle 8 aree definite ‘a priori’ emerge
comunque dall’analisi della parte di variabilità delle 8 tabelle eccedente la variabilità ‘media’.
Esaminiamo allora più dettagliatamente sia rispetto alle u.s. che alle variabili le caratteristiche
della variabilità ‘media’.
B)Analisi dell’intrastruttura:
la collocaizone delle ripartizoni geografiche
rispetto alle preoccupazioni sociali rilevanti
Rappresentazione delle 5 ripartizioni geografiche (5 punti
unità-medi) rispetto ai primi due assi compromesso (60,48%)
-----------------------------------------------------------------------------------------------------------------------1!
SUD !
!
2
2!
!
!
3!
!
!
4!
!
!
5!
!
!
6!
!
!
7!
!
!
8!
!
!
9!
!
!
10!
!
!
32!
!
!
33!
!
!
34!
!
!
35!
!
!
36!
!
!
37!
!
!
38!
!
!
39!
!
!
40!
!
!
41!
!
!
42!
!
!
43!
!
!
1
44!
!
!
45!------------------------------------ ! --------------------------------------------------------------------------------!
46!
NEst
!
47!
!
!
48!
!
!
49!
!
!
50!
!
!
51!
!
!
52!
!
!
53!
!
NOvest
54!
!
!
55!
!
!
56!
!
!
57!
ISOL
!
58!
!
!
59!
!
!
60!
!
!
61!
!
!
62!
!
!
63!
!
!
64!
!
!
65!CENTRO
!
!
------------------------------------------------------------------------------------------------------------------------
  28,00%
  32,48%
Sul primo asse si evidenzia la contrapposizione tra NEst (-) e Novest (+), mentre sul secondo
asse la contrapposizione tra Sud (+) e Isole (-). Il Centro come già rilevato nell’Analisi delle
corrispondenze è scarsamente correlato (contributi assoluti molto bassi) su entrambi gli assi.
C)Analisi delle traiettorie
Fig.4
–
Traiettorie
delle
5
Ripartizioni
geografiche
primo (4a)e al secondo (4b)asse fattoriale in
funzione
di rilevanza sociale.
rispetto
al
delle 8 aree
0!------------------------------------------------------------------------------------------------------------------------

1!
Fig.4a : 1  32, 48%
2!
A
!
3!
A
!
4!
!
5!
!
6!
A
A
!
7!
!
8!
!
9!
A
A
!
10!
!
11!
!
12!
!
13!
!
14!
!
15!
A
!
16!
NOvest A
!
17!
!
24!
!
25!
NEst
B
!
26!
!
27!
!
28!
!
29!
D
!
30!
!
31!
!
32!
D
!
33!
B
!
34!------------1 ----------2 ---------3E
--------4 ----------5B
--------6 ----------7 ----------8E -------------------35!
36!
D
!
37!
D
D
!
38!
E
D B
!
39!
D
E
!
40!
E
!
41!
Isole
E
B
!
42!
Centro
C
B
!
43!
Sud
D
C
!
44!
E
!
45!
!
46!
E C
C
C B
C
!
47!
!
48!
B
!
49!
C
!
50!
C
!
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------1!
2!
3!
4!
5!
6!
7!
8!
9!
10!
11!
12!
13!
Fig.4b: 
2
 28,00%
D
D
D
D
Sud
D
D
D
D
!
!
!
!
!
!
!
!
!
!
!
!
23!
B
!
24!
!
25!
NEst
B
!
26!
!
27!
!
28!
B
B
!
29!
A
!
30!------------1 ----------2 ----------3 ----------4 ----------5 ----------6 ----------7 ----------8 ----------------------!
31!
E
B
!
32!
E
A C
!
33!
A
!
34!
C
B
!
35!
A
!
36!
!
37!
E
A
E
!
38!
Centro
C
A
A
!
39!
B
E
!
40!
NOvest
A E
E
!
41!
B
!
42!
C
E
!
Isole
43!
!
44!
C
C
45!
!
46!
!
47!
C
!
48!
!
49!
!
50!
C
!
------------------------------------------------------------------------------------------------------------------------
Legenda:Ripart.
Geograf.:
A:Novest;
B:NEst;
C:
Centro;
D:Sud;
E:Isole.
AreediRil.Soc.:1:Salute;2:Istruz.eForm.Prof.;3:Occup.eQdL;4:ImpieghiT.L.;5:S
it.Econ.Pers.;6:
Ambiente
Fisico;7:
Ambiente
Sociale;
8:
Sicurezza
Personale.
Le linee tratteggiate non vanno ovviamente interpretate come funzioni ma qui sono solo
strumentalmente impiegate per facilitare il confronto delle diverse traiettorie sovrapposte.
Si noti come rispetto alle traiettorie del primo asse (Fig.4a) è la ripartizione NOvest che si
differenzia nettamente dalle altre nell’articolazione delle 8 aree di rilevanza sociale che
costituiscono la definizione di QdV ipotizzata mentre rispetto al secondo asse (Fig.4b) è il Sud
a differenziarsi nettamente dalle traiettorie delle altre ripartizioni. Inoltre, pur nella diversità dei
‘percorsi’ delle ripartizioni dovuti ad una diversa struttura delle preoccupazioni sociali rilevanti
di ciascuna area, vi sono delle aree vicine ossia tabelle di una data area simili nella struttura, ad
esempio nella Fig.4a: l’area 1:‘Salute’ nelle Isole, Centro e Sud; l’area 7: ‘Ambiente sociale’
nel NEst e Sud; Centro e Isole; l’area 4: ‘Impieghi del T.L.’ per il Centro e NEst.