DdRRASS Prof.ssa Fraire_Slides LEZ.17_20

SAPIENZA – Università di Roma
Dipartimento di di Scienze Sociali e
Economiche(DiSSE
DdR
RICERCA APPLICATA ALLE SCIENZE
SOCIALI (RASS.)
a.a. 2013-2014
Lezione del 17 marzo 2014 ore 17:00-19:00, Aula
B8:
Introduzione
all’
analisi
esplorativa
multidimensionale dei dati”(EMDA-Exploratory
Multidimensional Data Analysis: aspetti statistici
e informatici
Lezione del 20 marzo 2014:ore 17:00-19:00, Aula
B8: I casi di studio dell’EMDA
Mary Fraire
Prof.ssa Mary Fraire – Professore ordinario di Statistica
Dip.to di Scienze Sociali e Economiche (DiSSE)
e-mail: [email protected]
Sito web: http://www.sociologia.uniroma1.it/users/fraire
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Università di Roma ‘La Sapienza’
Riferimenti bibliografici
Multidimensional and Multivariate Data Analysis and Methodology
Act-Statis 1989),Analyse conjointe de tableaux quantitatifs. Méthode STATIS, CISIA, Saint Mandé (France)
Anderberg M.R. (1973), Cluster Analysis for Applications, New York, Academic Press Inc.
Bolasco S. (1999), Analisi Multidimenislnale dei dati, Roma, Carocci Ed.
Benzécri J.P. (1973), L’Analyse des Données, tome I: Taxinomie, tome II: Analyse des Correspondaneces, Dunod,
Paris;
Bertier P., Bouroche J-M (1975), Analyse des Données Multidimensionneelles, France, Ed. P.U.F.
Caillez F., Pages J.P. (1976), Introduction à l’Analyse des Données, Paris, S.M.A.S.H.
Coppi R. (1979), Alla base dei metodi statistici: la formalizzazione dei dati, in Quaderni di Statistica Sanitaria, Anno
II, n.1, Facoltà Sciense Stat.Dem.Att., Università di Roma ‚La Sapienza‘.
Coppi R., Bolasco S (eds)(1989), The Analysis of Multiway Data Matrices, North Holland, Amsterdam
Corbetta P.G.(1992), Metodi di Analisi Multivariata per le Scienze Sociali, Bologna, il Mulino
P. Corbetta, G.Gasperoni, M.Pisati,(2001) Statistica per la ricerca sociale, Ed. Il Mulino, Bologna, 2001
Di Franco(2001) EDS: esplorare, descrivere e sintetizzare I dati.Guida pratica all’analisi dei dati nella ricerca sociale,
FrancoAngeli 2001
Di Franco (2003), L’Analisi multivariata nelle scienze sociali. Modelli log-lineari e variabili categoriali, Carocci2003
Escofier B., Pagès J. (1984), L’analyse factorielle multiple, in Cahiers du Bureau Univ. Recherche Operat., Série
Recherche 423
Escoufier Y. (1980), L’analyse conjointe de plusieurs matrices, in Jolivet et al. (eds.), Biométrie et Temps, Société
Francaise de Biométrie.
Fabbris L., 1997, Statistica multivariata, Milano, McGraw-Hill
Fisher W.F.(1958), On grouping for maximum Homogeneity, Journ.Amer.Stat.Ass., 53, pp789-98
Fraire M., Rizzi A. (2011), Analisi dei Dati per il Data Mining, Carocci Ed., Roma 2011
Fraire M., (1989) , Problemi e metodologie statistiche di misurazione di fenomeni complessi tramite indicatori e indici
sintetici, in 'Statistica', anno XLIX n.2, 1989.
ID. (1994), Metodi di Analisi Multidimensionale dei Dati. Aspetti statistici e applicazioni informatiche., Roma, CISU,
1994;
ID.(1995), Multidimensional data analysis ans its preliminary phases: statistical aspects, in Rizzi A. Ed., Some
Relations Between Matrices and Structures of Multidimensional Data Analysis, Applied Mathematics
Monographs, n.8 1995, Giardini Editori e Stampatori in Pisa, Italy.
ID.(1997), Complessità instabilità e caos: esplorazione statistica multidimensionale e fenomeni sociali, Atti V°
Congresso Internazionale degli Studi sulle Utopie, Macerata 27 maggio 1995, Giuffrè Ed. Milano,
ID.(2000), Analisi dei Dati a Tre-Vie delle Risposte a Domande Aperte e Indicatori Empirici, Actes 5 Journées
internationales d’Analyse statistique des Données Textuelles (JADT 2000 Losanna, 9-11
marzo 2000), EPFL, M.Rajman & J.-C. Chappelier editeurs
ID(2002), L’Analisi in Componenti Principali (ACP) e la Cluster Analysis (CA), Note metodologiche in R.Cipollini (a
cura di), Stranieri. Percezione dello straniero e pregiudizio etnico, Franco Angeli
ID (2003),, Analisi multidimensionale spazio-temporale della criminalità diffusa nei Municipi di Roma, in Beato F., La
calma insicurezza. Percezione sociale del rischio ed uso della città, Liguori Ed. 2003
ID (2006) , Multi-way data analysis for comparing time use in different coutrie. Application to time budgets at different
stages of life in six European caountries, in eIJTUR 2006, vol.3, No.1, 88-109
ID (2007), Analisi multi-way delle principali caratteristiche di ingresso, percorso ed esito degli studenti delle facoltà
di Sociologia italiane, in A.Fasanella, L’impatto della riforma universitaria del ‘3+2’ sulla formazione
sociologica, Franco Angeli
ID(2009),Statistical Methods for Exploratory Multidimensional Data Analysis on Time Use, in 'Statistica', annoLXIX
n.4, 2009
Hotelling H. (1936), Analysis of a Complex of Statistical Variables into Principal Components, Journal Educational.
Psychology 24,pp 417-41, 498-520
Lauro N.C., D’Ambra L. (1984), L’Analyse non-symétrique des Correspondances, in Data Analysis and Informatics,
III, Diday et al. Ed.North-Holland,p 433-446
Lauro N.C., Decarli (1982), Correspondence analysis and log-linear models, in Metron, multiway contingency tables
study, 1-2, p 213-234
Lebart L. Morineau A., Piron M. (1997), Statistique Exploratoire Multidimensionnelle, Paris, Dunod, ISTAT
Pearson K (1901), On lines and planes of closest fit to systems of points in space, Philosophical Magazine, 6, 2, pp55971
Rizzi A. (1989), Analisi dei Dati. Applicazioni dell’informatica alla Statistica, Roma , NIS.
Statera G., 1997, La Ricerca Sociale.Logica, strategie, tecniche, Roma SEAM
Tryon R.C., Bayley D. (1939), Cluster Analysis, New York, McGraw Hill 1970
Tucker L.R. (1958), An inter.battery method of factor analysis, Psychometrika, 23, (2)
Riferimenti bibliografici
e materiale on line
• Le slides che seguono si riferiscono
prevalentemente ai testi:
• Mary Fraire, Alfredo Rizzi Analisi dei Dati
per il Data Mining, Carocci Editore,
Roma 2011
• Mary Fraire, Metodi di analisi
multidimensionale dei dati. Aspetti
statistici e applicazioni informatiche, ed.
CISU, Roma 1994
•
• Altro materiale didattico e le slides
della lezione sono disponibili on line
•
http://www.sociologia.uniroma1.it/users/fraire
• andando alla cartella DdR RASS.
Indice degli argomenti
L’indicazione dei capitoli e paragrafi seguenti si riferiscono al
testo:
Mary Fraire Alfredo Rizzi, Analisi dei Dati per il Data Mining,
Carocci Editore, Roma 2011;
Cap.3 - Le fasi dell'analisi dei dati.
Cap.4 - Metodi di classificazione.( applicazioni attraverso casi di
studio)
Cap.5 - Analisi lineari dei dati. .( applicazioni attraverso casi di
studio) -Analisi in Componenti Principali (ACP)
-Analisi delle Corrispondenze Semplice e Multipla
(ACS e ACM)
-Analisi delle matrici dei dati a 3-vie
- Regressione lineare semplice e multipla (RLS,RLM)
come tecnica di analisi esplorativa
NOTA: Il Prof. Alfredo Rizzi tratterà il 3/05/2013ore 15-18aula B8
Cap.1 - Le matrici dei dati.
Cap.2 - Misure di diversità tra le unità statistiche e relazioni tra
variabili.
I fenomeni complessi,
il ‘gap’ tra teorie e concetti
le definizioni ‘operative’
il ruolo delle analisi statistiche multidimensionali
• Nello studio empirico di fenomeni sociali è molto
importante sottolineare uno degli aspetti della complessità
legato al fatto che di uno stesso fenomeno (ad es. salute,
intelligenza, QdV, ma anche occupazione, disoccupazione,
PIL, RNL ecc.) non esiste un’unica definizione ‘operativa’
perché il linguaggio empirico è intricato con la teoria.
• Esiste un ‘gap’ tra concetti e misure empiriche che non è
colmabile con la logica del certo, misure uniche, valide in
qualsiasi contesto sociale, culturale, storico, politico.
• In
questo
contesto
l’approccio
dell’analisi
multidimensionale dei dati (AMD) è un approccio statisticoempirico adeguato a tale complessità ed in particolare allo
scopo
esplorativo-descrittivo-documentaristico
dei
fenomeni sociali come quelli che tratteremo in questa lezione.
• Nell’ AMD la definizione operativa deve essere resa
esplicita: ad es. nella definizione della tabella dei dati
iniziali: la selezione dei casi e delle variabili di analisi che
saranno analizzati consentendo a chiunque quindi di
controllarne la definizione operativa (ed anche i suoi ‘limiti’),
le procedure impiegate e rendere chiara l’interpretazione dei
risultati.
• In quest’ottica si ritiene di particolare rilevanza l’approccio
dell’AMD attraverso l’esplicitazione della ‘mappa
concettuale’ di tutte le fasi statistico-informatiche
dell’AMD .
La formalizzazione del problema da analizzare:
un esempio di fenomeno sociale complesso:
la QdV dal punto di vista macro-sociale
QdV
delle
20 regioni
italiane
Approccio:
MACROSOC.
OGGETTIVO
DESCRITT.
Es.:
Comparazione
della QdV nelle
20 regioni
italiane
Aspetti o dimens.
rilev. (social areas):
A)socio-demogr.
B)sanitaria
C)lavoro e occup.
D)sicurezza sociale
E)stress, disagio soc.
F)benessere econ.
G)cultura e t.l.
Indicatori empirici
(indic.soc.oggettivi):
A) X1 : indvecch (-)
X2 : e0 ,e x (in
anni)(+)
B) X3 : mortinf (-)
X4 : plpubb(+)
X5: tuplpubb(+)
C) X6 : nflineta (-)
X7 : flpop (+)
X8 : disocc.(-)
D) X9:delpers(-)
X10 :incstrad(-)
E) X11 : suicidi (-)
F) X12 : PIL (+)
X13 : autopriv (+)
G) X14 : consricr (+)
X15 : abbtvpr (+)
X 16: laureati (+)
… X17……………….
X18:
20,18
Matrice dei
dati iniziali:
X 20,18
X1 X 2 ..X j .. X18
01Pie \ x1,1 x1,2 ..x1, j .. x1,18
02Vad x2,1 x2,2 ..x2, j .. x2,18
N\X
...
... ...
...
...
...
x
...
20Sar x20,1 x20,2 20, j x20,18
Matrice
d’intensità
o dati quantitativi
( variabili)
[struttura
algebrica di
spazio vettoriale]
•Esiste un gap tra concetti e misure empiriche non colmabile con la logia del certo, regole uniche: ma
assume rilevanza l’esplicitazione del processo logico-concettuale di passaggio dai concetti alle misure
empiriche: l’operazionalizzazione della definizione teorica. Non ci soffermiamo qui su tale argomento che
irguarda il vasto argomento degli ‘indicatori sociali’.
Un caso di
studio
Un caso di studio: QdV nelle 20 regioni italiane
nel 2002 (media triennio 2001-03):
la matrice degli indicatori oggettivi-descrittivi 20 ×18:
è una matrice di intensità o dati quantitativi X(20x18)
Regioni INDVECCH EOM EOF MORTINF PLPUBB TUPLPUBB NFLINETA FLPOP DISOCC DELPERS INCSTRAD AUTOPRIV SUICIDI PIL CONSALIM CONSRICR ABBTVPRIV LAUREATI
Piemonte
173.1 76.5 82.6 3.5
4.2
83
52.6
44.5
5.4
594.9
2.4
63.2
8.2 24 414
13.6
8.7
73.9
0.23
Valle d'Aosta
148.8 76.5 82.6 4.8
4.2
86.6
54.1
47.6
4.1
301.2
2.9
100.1
11.6 26 989
10.3
5.9
73.2
Lombardia
135.8 76.4 83
3.5
4.4
82.7
57.2
45.5
4
601.3
1.4
59.5
6.4 27 192
13.2
7.8
76.3
0.28
Trentino - Alto Adige 105.4 77.1 83.9 3.1 5.1 70.3
55.4
46.6
2.6
291.3
2.5
53.8
10.2 27 825
9.7
7
75.1
0.17
Veneto
134.4 76.9 83.5 2.9
4.9
81
55.6
45.4
3.5
279.2
2.4
58.5
8.9 24 181
12.3
8
77.5
0.25
Friuli - Venezia Giulia 188.5 76.4 82.8 2.7 4.9 74.7
54.6
43.6
4.1
493.8
2.5
59.9
12.2 23 892
13.5
7.3
79.4
0.31
Liguria
238.9 76.6 82.6 4.2
5.3
84.8
48.6
40.6
7
637.5
1.2
52.4
8.8 23 153
14.3
7.4
79.1
0.25
Emilia Romagna
193.7 77.1 83.2 3.6
4.3
98
47.5
47
3.7
328.1
2.2
62.1
9.2 26 701
12.4
8.6
79.3
0.41
Toscana
189.8 77.4 83.2 2.9
4.4
78.8
50
43.5
5.3
654.8
1.8
61.8
7.4 23 420
13.8
7.9
80.4
0.33
Umbria
182.9 77.7 83.4 3.1
4.2
77.1
50.1
41.6
5.8
546.4
2.3
65.1
10.5 20 432
14
7.4
77.6
0.33
Marche
166.9
78 83.9 3.8
4.4
73.3
50.2
43.3
4.7
512.3
1.8
60.9
7.2 21 218
14.3
8.3
79.8
0.33
Lazio
122.8 76.7 82.5 4.4
4.2
85.5
57.5
41.7
9.9
542.1
1.8
67
5.7 23 940
14.1
7
71.1
0.38
Abruzzo
141.9 77.4 83.4 4.4
4.3
76.8
53
38.9
6.6
745.7
2.4
57.3
6.6 18 024
15.3
7
77.1
0.27
Molise
145.6 77.4 83.4 4.8
4.7
91.4
51
38.9 13.4
781.6
2.4
51
7.8 16 448
16.6
6.3
75.1
0.14
Campania
73.1
75.3 81.1
5
2.7
84.8
64.4
35.8 22.4
625.2
2.5
53.8
3.7 14 054
18.7
6.8
53.3
0.26
Puglia
90.7
77.3 82.7 5.7
4.2
83.3
61.3
35.9 15.3
385.9
3.3
49
3.8 14 197
18
6.9
77.6
0.2
Basilicata
114.1 77.1 82.8 5.4
4.3
67.3
56.4
36.4
16
656.7
3.8
48.7
6.7 14 869
17.9
7.3
73.7
0.05
Calabria
98
77.5 82.5 5.7
3.2
68
59.9
36.8 25.4
631.9
2.5
50.1
4.2 13 177
18.5
6.6
58.6
0.12
Sicilia
92.7
76.6 81.6 6.4
3.5
65.2
58.5
35.1 21.9
777.3
1.7
54.8
5.2 14 118
18.7
6
58.3
0.21
Sardegna
110.3 76.3 83
3.9
4.3
75.3
61.4
40.3 19.3
703
2.9
52.5
9 16 090
16.1
6.5
72.9
0.24
Fonte: Tesi di laurea di Isabella Latini a.a.2005-06 su ‘La QdV nelle Regioni italiane: graduatorie
multidimensionali’
La formalizzazione del problema da analizzare:
un esempio di fenomeno sociale complesso:
la QdV dal punto di vista soggettivo-percettivo
QdV
degli individui
Approccio:
MICROSOC:
SOGG.
PERCETT.
Es.: Inchiesta
(survey) sulla
QdV.
Campione
prob. di
n = 500 indiv.
Aspetti della
vita
(life
domains):
Indicatori empirici
(soggettivi-percett.)
ITEM:”Pensando
agli ultimi
dodici mesi, quanto
01)salute
02)matrimonio si ritiene
insoddisfatto
o
03)governo
soddisfatto
04)amicizie
dei seguenti aspetti
05)abitazione
che
06)svago e t.l.
hanno riguardato
07)lavoro
la sua vita?
08)rapp.di
Quale numero si
vicin.
09)sit.econ.pers. avvicina di più a ciò
che sente?”
10)istruzione
1 2 3 4 5 6 7
tot.
insod.
indiff.
Matrice dei dati
iniziali
A 5001
,0
K
IT1 IT2 .....IT10
N-----------------------001 5 4 6
002 7 6 7
..... .........................
500 4 5 4
tot.
sodd.
Matrice dei
punteggi
(considerando solo
le var.attive)[struttura
algebrica di spazio
vettoriale]
Oggi la Qualità della vita si chiama BES
ed è un concetto multidimensionale e
importante per future ricerche:
ISTAT – CNEL
-Individuati indicatori oggettivi e
soggettivi per ciascuna area di rilevanza
sociale
-Livello territoriale: regioni
- 12 Aree di rilevanza sociale: 134 indicatori
Analisi multivariata e analisi multidimensionale :
analisi confermative e analisi esplorative
 Sebbene non sempre sia fatta la distinzione tra analisi multivariate e
analisi multidimensionali dei dati esistono invece importanti
differenze tra i due che fanno riferimento in definitiva alla
classificazione delle analisi in esplorative-descrittive-riduttive e
confermative-verificative-predittive.
 Per Analisi Confermativa multivariata dei dati (CMDAConfirmatory Multivariate Data Analysis) si intende in genere lo
studio delle relazioni di un insieme circoscritto di variabili
statistiche (circa dieci e studiandone interazioni di ordine superiore a
due)(Bolasco,1999; Corbetta 2002 ecc.) sulle quali si avanzano a
priori assunzioni sul tipo di distribuzione teorica. Sono di questo
tipo:
I modelli di regressione: la regressione lineare(GLM) e nonlineare; la regressione STEPWISE; i modelli log-lineari; la
regressione probit e logit; la regressione logistica; analisi
discriminante.
L’analisi causale: I modelli di equazioni strutturali (es.LISREL) I
modelli recorsivi e l’analisi dei percorsi causali (path analysis); i
modelli non recorsivi (sistemi di equazioni simultanee o sistemi
interdipendenti).
Difronte all’ampliarsi dei campi di applicazione: strutture
complesse dei dati (es. dati ecologico-ambientali, dati sull’uso del
tempo,
dati simbolici, testuali, telerilevamento spaziale e
trattamento digitale delle immagini) e dei fenomeni complessi
soprattutto in campo sociale caratterizzati da molte unità statistiche
sulle quali si osservano contemporaneamante molti caratteri
(mutabili e variabili) statistici le analisi statistiche multivariate
suddette risultano inadeguate o quantomeno insufficienti ad una
prima esplorazione e sintesi di fenomeni sui quali non si hanno che
ipotesi ‘concettuali’ [e non matematico-formali, modelli, teorie ‘a
priori’ da verificare] bensì ipotesi basate prevalentemente sulla
verifica dell’esistenza o meno di una correlazione, interdipendenza,
statisticamente osservabile. A tal scopo è allora adatta l’EAMDExploratory Multidimensional Data Analysis).
.
Analisi Esplorativa
Multidimensionale dei Dati
Per Analisi Esplorativa Multidimensionale dei Dati
(EMDA-Exploratory Multidimensinal Data Analysis)
si intende un gruppo numeroso di tecniche statistiche
multivariate adatte ad analizzare statisticamente, sotto
diversi aspetti secondo gli scopi della ricerca,fenomeni
complessi caratterizzati da molte unità statistiche sulle
quali sono rilevati molti caratteri statistici rappresentativi
di diversi aspetti o dimensioni tra loro interagenti
multidimesionali, multi-fattoriali).
Queste analisi includono tre gruppi molto numerosi di
metodi statistici:
1. Classificatorie (cluster analyses);
2. Analisi fattoriali per tabelle a due indici (ACP, ACS e
ACM, MDS ecc.);
3. Analisi delle tabelle a più indici ( 3-vie, multi-way
data analyses).
Origini storiche
dell’ Analisi Multidimensionale dei Dati
Tecniche statistiche multivariate
-

Trattam.autom.dei dati
1970 primo chip commerciale.
- sviluppo minicalcolatori, pc
e altro hardware e programmi
-Cluster Analysis (Tryon,1939)
Analisi lineari dei dati:
An.Componenti Principali (Pearson,1901)
An.Correlazione Canonica (Hotelling,1930)
An.Corrispondenze Semplice e
An.Corrispondenze Multiple.(Fisher,1936;Benzecri,1960)
An. Tabelle Multiple [Procrustean analysis
(Tucker, 1958); Metrical and non
metrical multi dimensional scaling
(PARAFAC, Harshman1970), INDSCAL
(Carrol and Chang,1970);
Multiple Factorial Analysis (Escofier B.
et Pages, 1983);
STATIS method (Escoufier Y., 1980, 1985);
Generalised Canonical Analysis (Horst, 1961)].
In Francia, alla fine degli anni ‘60
(J.P.Benzecri, Cailles e Pages, Y.Escoufier ecc.)
nasce l’indirizzo metodologico dell’analyse des donnée
L’AMD come ‘sistema’:
un approccio alla complessità
la mappa concettuale delle 7 fasi dell’EAMD
•
•
•
•
•
.
Dal punto di vista metodologico e applicativo e al di là delle
specifiche tecniche di EMDA è utile considerare l’analisi
esplorativa dei dati come un sistema composto di un numero
di fasi ugualmente importanti e interdipendenti.
E’ possibile ipotizzare 7 fasi principali nelle quali si svolge un
EMDA e che rappresentano i punti ‘cruciali’ dell’intero
processo di anali dei dati (Fraire, 1989, 1994, 2006)
L’EMDA è inoltre a forte base computazionale nel senso
che sono analisi che si possono effettuare solo tramite
computer a appositi software statistici; oggi la crescente
possibilità di trattare grandi masse di dati ed effettuare
rapidamente calcoli complessi impiegando hardware e
software appositi e a tutti accessibili e ‘friendly’ nel loro
impiego hanno contribuito a diffondere ulteriormente le
EMDA nei più diversi campi di ricerca.
Ciascuna fase ha aspetti statistici e informatici.
Molto schematicamente è possibile ipotizzare la mappa
concettuale delle 7 fasi principali nelle quali si svolge
un’EMDA (Fraire, 1989-2006):
La mappa concettuale delle 7 fasi di
un’AMD
e le prime 4 fasi ‘preliminari’
(pre-processing o preparazione dei dati)
•
In particolare tra le 7 fasi particolare importanza hanno le fasi
preliminari costituite dalla 1ª,2ª,3ª,4ª fase e riguardano :
1ª: Documentazione statistica di partenza
2ª: Codifica a priori o creazione della matrice dei dati iniziali
3ª: Codifica a posteriori (come trasformazione di variabili della
matrice dei dati iniziali)
4: Codifica a posteriori dell’intera matrice dei dati
1^fase: DOCUMENTAZIONE STATISTICA DI
PARTENZA
Le prime due fasi di un’indagine statistica:
A) PIANO DELLA RILEVAZIONE DEI DATI:
Campo d’indagine: la definizione della
Riguarda tutte le
popolazione o collettivo statistico P:è
operazioni
definita da due insiemi
preliminari
indispensabili a
N finito* (avente elementi i  N
qualsiasi indagine
(i=1,2,..,N) delle unità statistiche
statistica. In essa
si
definiscono
P
sulle quali si osservano:
l’oggetto e scopo
della
ricerca
K (avente elementi kj K (j=1,2,..,k)
nonché
la
caratteri statistici definiti ‘a priori.
raccolta di tutti i
dati grezzi ossia  Metodo di rilevazione dei dati:
in forma ancora
- diretto (es.questionario)
non
-indiretto (es.acquisizione dati
statisticamente
ISTAT)
trattabile
(es.
pacco
dei
-sperimentale (es.test)
questionari
Altre specificazioni nella raccolta: Periodo
compilati)
che
di osservazione;Materiali e personale
costituiscono la
necessario; Costi prime elaborazioni;
documentazione
Mezzi di diffusione dei dati e risultati
statistica
di
partenza.
B) RACCOLTA DEI DATI Raccolta
 In questa fase
occorre definire:
materiale dei dati : tecnica di raccolta: diretta
(per questionario) o indiretto (per acquisizione dati
rilevati da altri enti-ricercatori ecc.)
* Nella maggior parte delle indagini sociali. Nelle popolazioni
teoriche o alcune particolari popolazioni(es.stelle dell’universo)
può essere infinito numerabile o non numerabile.
Richiamo sulle
tecniche di
rilevazione
diretta
Le TECNICHE DI RILEVAZIONE
nel metodo diretto per questionario possono essere
diverse:
PAPI (Paper and Pencil Interview) per
intervista
diretta
(presenza
dell’intervistatore);
CAPI (Computer Assisted Personal
Interview)
CATI (Computer Assisted Telephone
Interview) per intervista telefonica .
CAWI (Computer Assisted Web Interview)
 per autocompilazione (es. sondaggi
postali);
 una combinazione delle tecniche
precedenti (es. bilanci del tempo; bilanci di
famiglia);
NOTA: a seconda della tecnica impiegata
occorre prevedere il questionario più
adatto.
I due casi di studio che saranno
considerati per illustrare le 7
fasi dell’AMD (pagg.78-82):
• Caso di studio A: Indagine sugli
atteggiamenti e opinioni degli studenti
della
Facoltà
di
Sociologia
dell’Università di Roma ‘La Sapienza’
nei confronti della statistica.(Metodo
diretto:
rilevaz.
Tramite
questionario)
• Caso di studio B: L’uso del tempo in
un giorno festivo di diverse categorie
di popolazione secondo il genere,
l’età, la condizione professionale e la
ripartizione geografica in Italia
(Metodo indiretto, acquisizione dati
rilevati ad es. Indagine
ISTAT –
Uso del Tempo in Italia).
•
Le 7 fasi dell’Analisi
Multidimensionale dei Dati
2^fase: Codifica a priori o creazione della
matrice dei dati iniziali
Riguarda la trasposizione dei dati grezzi rilevati nella 1^ fase in una
MATRICE DEI DATI iniziali, AN,K , generalmente a N righe e
K colonne.
Sia la popolazione P definita da :
AN , K
iN
(i=1,2,..,n) finito delle unità statistiche
P
sulle quali si osservano
k K
(j=1,2,..,k) caratteri statistici definiti ‘a
priori’.
j
La matrice
AN , K
è data da:
K= insieme dei
k caratteri
statistici scelto come
descrizione
1k completa del
fenomeno
2k
N \ K K1 K 2 ... K j ... K
N = insieme delle
u.s.
che sia
rappresentativo
delle u.s. della P
considerata
AN ,K 
1
a11 a12 ... a1 j ... a
2
...
a21 a22 ... a2 j ... a
... ... ... ... ... ...
i
ai1 ai 2 ... aij ... aik
...
...
N
aN1 aN 2 ... aNj ... aNk
... ... ... ... ...
numero reale
Dato statistico:
codice alfanunerico
(attributo)
Distribuzione
del carattere
K
j
Descrizione completa
(profilo-riga) dell’u.s
i-esima
Un esempio semplificato di matrice dei dati iniziali
“ la tabella inventario o matrice dei dati misti”
2^fase
AN , K
Profilo riga
AN 10, K 6
Distribuzione del carattere k2 = età
La classificazione dei caratteri statistici
(richiami)
(v. pag.83-Fraire, Rizzi, Analisi dei dati per il Data mining,Carocci)
•
scale nominali (a=b) (ab)
• Le variabili categoriali
• (mutabili)
scale ordinali (a<b) a>b)
• non possiedono una struttura algebrica
•
• Le variabili cardinali
•
scale di intervalli (a±b)
scale di rapporti (a:b)
• possiedono una struttura algebrica.
• NOTA: le scale d’intervalli non possiedono uno 0 assoluto
tramite le trasformazioni in scarti dalla media S o in scarti
standardizzati Z è possibile ricondurre la scala d’intervalli a
quella di rapporti. E’ tuttavia da tener conto del significato
‘convenzionale’ assunto dallo 0.
La classificazione dei caratteri statistici
SECONDO IL LORO RUOLO
nell’analisi multidimensionale esplorativa e nell’analisi
multivariata confermativa
a) Qualora si applichino tecniche di Analisi Esplorativa
Multidimensionale dei Dati- AMD:
(Cluster Analysis, Analisi in Componenti Principali, Analisi delle
Corrispondenze Multiple, occorre distinguere:
►le VARIABILI ATTIVE (concernenti l’oggetto di indagine)
►le VARIABILI SUPPLEMENTARI o ILLUSTRATIVE
es. genere dell’intervistato, età, stato civile ecc.
[►le VARIABILI CRITERIO-OCCASIONE (nell’analisi
multi-way) : scelta del 3° criterio nella Multi-way data
Analysis tempi, luoghi, situazioni ecc..]
Le VAR.SUPPL. servono ad interpretare, ricercare relazioni,
‘vicinanze’ con le var.attive, ‘tipologie’, regolarità nei dati
ottenuti dalle VAR.ATTIVE.
b)
Qualora invece si applichino tecniche di Analisi
Multivariate Confermative dei Dati :generalmente
riferibili ad un numero limitato di variabili, ad es. nell’
Analisi di Regressione lineare (multipla, logistica
binomiale e multinomiale, ecc.) occorre avere una ‘teoria’
delle ‘ipotesi per distinguere il diverso ruolo attribjito alle
variabili:
►le VARIABILI INDIPENDENTI (esogene o esplicative o
predittori o antecedenti- presunte cause o variabili di
controllo)
►le VARIABILI DIPENDENTI (o endogene o da spiegare o
di risposta)
4^ fase
AMD
La scelta delle variabili di analisi (4^fase AMD)
Un esempio di variabili attive e illustrative o
passive nell’ACM:
la percezione sociale della criminalità a Roma
•Variabili Attive
•Modalità
Un caso di
studio
•V04 - pericolosità zona
•v1molto-v2abbast.-v3poco-v4per niente
•V05 - pericolosità città
•v1molto-v2abbast.-v3poco-v4per niente
•V06 - piccola crim. quartiere
•v1più freq.-v2invariati-v3meno freq.-v9rm[1]
•V11 - sicurezza buio strada
•v1molto-v2abbast.-v3poco-v4per niente
•V12 - sicurezza buio casa
•v1molto-v2abbast.-v3poco-v4per niente
•V19 – esp. vittimizzazione
•v1 0 reati-v2 1 reato-v3 2+ reati
•Variabili Illustrative
•Modalità
•V51 - sesso
•v1maschio-v2femmina
•V52 - età
•v1 20/34-v2 35/44-v3 55/64-v4 65+
•V55 - stato civile
•v1nubile/celibe-v2coniugato-v3separato-v4divorziatov5vedovo
•V61 - condizione occupazionale
•v1t.pieno-v2t.parz.-v3in
cerca1°occ.-v4disocc.v5ritirato v6inabile-v7studente-v8casalinga-v9altro
•V66 - titolo di studio
•v1nessuno-v2lic.elem.-v3avviam.-v4media inf.-v5media
sup. v6form.prof.-v7dipl.univ.-v8laurea-v9dottorato
•V67 - livello economico
•v1molte diff.-v2con diff.-v3qualche diff.-v4abb.facilm.
v5facilm.-v6molto facilm.-v9rm
•V68 - livello sociale
•v1alto-v2m.alto-v3medio-v4m.basso-v5basso-v9r.m.
•V69 - orientamento politico
•v1sin.-v2centro
v6altro-v9r.m.
s.-v3centro-v4centro
d.-v5destra-
7^fase AMD:
Output risultati
ACM(Analisi delle Corrispondenze Multiple):
Rappresentazione simultanea sul PRIMO PIANO FATTORIALE
delle variabili ATTIVE e ILLUSTRATIVE
[plot del primo piano fattoriale (20,78% dell’inerzia totale)]
Le dimensioni o variabili latenti emerse dall’analisi hanno
consentito di individuare diverse tipologie di portatori di ‘sentimenti
di insicurezza’ (‘fear of crime’):‘privilegiati’, ‘deprivati
socialmente’, ‘ossessivi catturati da l’obsession sécuritaire’,
‘xenofobi e autoritori’.
Fonte- F.Beato (a cura di) – La calma insicurezza – Liguori editore 2003
Un caso
di studio
esaminat
o
Analisi confermative:
Analisi della DIPENDENZA
La regressione lineare multipla
(le variabili indipendenti e dipendenti)
Y  B0  B1 X1  B2 X 2
Si vuole verificare se ( modello ipotizzato)
X1= Età I^iscriz.
Y= votaz. media esami conseguiti
X2=Voto Diploma (centesimi)
Tramite il data base fornito dalla segreteria studenti della
Facoltà di Sociologia di una data città in Italia relativo a N=2991
Studenti delle lauree triennali nell’a.a.2009-2010. Effettuata la
regressione lineare tripla si sono ottenuti i seguenti risultati:
Y (Vot.Esami)  24,5  0,137 X1 ( Età )  2,120 X 2 (VotoDipl )
Con un coefficiente di determinazione corretto R²=0,54
7^ fase AMD: Output dei risultati con il software SPSS
Coeffici entsa
Model
1
Uns tandardized
Coef f icients
Y B BX B X
B
Std. Error
25, 048
1, 834
-, 137
,059
0
(Constant)
Età 1^ is criz. (in anni)
Voto Diploma in
centesimi
-, 020
1 1
2 2
Standardized
Coef f icients
Beta
,009
Correlat ions
Part ial
Collinearity Stat istics
Toleranc e
VIF
Sig.
,000
,019
Zero-order
-, 109
t
13, 658
-2,347
Part
-, 103
-, 109
-, 109
,996
1, 004
-, 099
-2,136
,033
-, 093
-, 100
-, 099
,996
1, 004
a. Dependent Variable: Votaz.media esami conseguit a
2
R  R2 
k
(1  R 2 )
N  k 1
2
Model Summaryb
R  R 2 ; k  n var .
Change St atistic s
Model
1
R
,143a
R Square
,020
Adjust ed
R Square
,016
Std. Error of
the Estimate
12, 23246
R Square
Change
,020
F Change
4, 753
a. Predic tors : (Const ant), Vot o Diploma in centesimi, Età 1^ iscriz. (in anni)
b. Dependent Variable: Vot az.media esami conseguit a
df 1
2
df 2
455
Sig. F C hange
,009
2^ fase
(Codifica a priori: trasposizione di tutti i dati (grezzi)
rilevati nella 1^ fase nella matrice dei dati iniziali)
TIPI DI MATRICI DEI DATI INIZIALI (PG.91-92)
Esistono diversi tipi di matrici dei dati, secondo le situazioni di ricerca,
ciascuna avente una data struttura complessa:
 TABELLA INVENTARIO (n x k): contiene dati misti codici alfanumerici e
numeri reali; nessuna struttura richiede ulteriori codifiche a posteriori
.Dato statistico: [aij  codici ; val.numerici ]
MATRICE DI DATI QUALITATIVI (n x k): contiene codici alfanumerici;
nessuna struttura richiede ulteriori cod.a posteriori per essere
statisticamente trattabile. Dato statistico: [aij  codici ; ]
 MATRICE DI INTENSITA’ o DATI QUANTITATIVI(n x k): contiene numeri reali
, possiede struttura algebrica di spazio vettoriale. Dato statistico: [a  ]
ij
 MATRICE DI CONTINGENZA (r x s): contiene frequenze assolute (R+)

possiede struttura algebrica di spazio vettoriale. Dato statistico:[aij  nij   ]
•
MATRICE DEI RANGHI (n x k): i dati sono costituiti da ranghi (mutabili
[aij  ]
rettilinee), possiede struttura d’ordine.
[aij  ]
•
MATRICE DELLE PREFERENZE (k x n): contiene ranghi o punteggi
•
MATRICE DI DESCRIZIONE LOGICA o BOOLEANA (n x k): i dati sono
costituiti da 0 o 1, non possiede struttura. Dato statistico: [aij  0;1]
•
MATRICE DEI PUNTEGGI (n x k):contiene numeri interi naturali , ha
struttura algebrica di spazio vettoriale. Dato statistico:
•
MATRICI DI PROSSIMITA’(k x k):contiene distanze espresse in ranghi
(struttura d’ordine) o in punteggi (struttura algebrica di spazio vettoriale).
•
 MATRICI A TRE O PIU’ VIE (multiway) (N x K x O): contiene dati in
numeri reali, possiede struttura algebrica.
•
 MATRICI DI DATI TESTUALI: contiene parole o frasi o testi,nessuna
struttura, richiede ulteriori particolari codifiche a posteriori per essere
statisticamente trattabile.
La struttura S delle matrici dei dati
(2^ fase dell’AMD)
Esistono molti tipi di matrici dei dati iniziali secondo le
diverse situazioni di ricerca ciascuna avente una data struttura
o senza alcuna struttura;
 Le matrici aventi struttura algebrica di spazio vettoriale
euclideo sono quella alle quali si applicano la maggior parte
dei metodi di AMD (ACP, ACC, ACS, ACM, MDS, 3-way
Statis ecc.)
 Uno degli scopi della 3^ e 4^ fase dell’AMD riguardanti le
codifiche a posteriri delle matrici dei dati iniziali è quello di
trasformare la matrice dei dati iniziali affinchè abbia tale
struttura.
 E’ da osservare inoltre che raramente nell’AMD si applicano i
metodi multivariati alla matrice dei dati iniziali infatti
nell’AMD:
matrice dei dati iniziali  tabella dei dati
(pertinente
omogenea
esaustiva)
Caso di studio
2^ fase
Caso di studio: Indagine sull’atteggiamento e opinioni degli studenti nei
confronti della statistica
•
•
•
•
La codifica a priori o creazione del data set: matrice dei dati e
dizionario delle variabili (codebook)
La
matrice
dei
dati
iniziali
è
una
tabella inventario
AN 260,K 52
260 unità e 52 caratteri
Costruita in base alla codifica a priori = trasposizione di tutti i
dati grezzi rilevati tramite questionario in una matrice NxK
tramite la codifica indicata nel dizionario delle variabili o
codebook.
La matrice dei dati grezzi o tabella inventario AN  260, K 52
N K1-Nick K2-CdLK3-Altro K4-AnnoImmK5-IscrAlK6-trQaFacualeFac K7-TestOrK8-Quale K9-GenereK10-Eta K11-TitStudK12-AltroTiK13-t VotoDiK14-p OccupK15-AltraCoOc K16-Af GMat K17-Af GSbPr K18-Af GFami
1 999 2 2005-2006 1
2Psicol. 2 20 2 79/100
1
5
2 3
2 999 2 2006-2007 1
1
2 20 3 96/100
8Stud.&Lav.in nero
4
3 1
3
acbe2 2005-2006 1
1
1 34 5 40/60
5
4
1 1
4 999 2 2005-2006 1
1
2 20 5 72/100
8Stud&Disoccup.
4
3 1
5 999 4 2005-2006 1
1
1 20 2 70/100
1
4
2 1
6
agat2 a 2004-2005 2lingue e let stran. 1
2 41 6linguist. 56/60
5
5
3 1
7
bebba4 2005/2006 1
1
2 24 3 76/100
4
5
5 1
8 999 2 2003/2004 1
1
1 26 6itc 48/60
5
5
2 1
9 999 3 2004/2005 1
1
1 22 1 65/100
1
4
4 3
10 999 2 2004/2005 2laurea med chir 1
2 60 1 8 decimi 8pensionata
5
1 1
…
…
260……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………….
2^fase
Un altro
caso di
studio
MATRICE DI CONTINGENZA N r , s
:
contiene frequenze assolute (R+) possiede struttura algebrica di
spazio vettoriale. (
Dato statistico: [a  n   ]
ij
NOTA: le righe non sono confrontabili
ij
4^fase
AMD
La tabella o matrice di contingenza
dei profili riga
Un caso
di
studi
o
MATRICE DI INTENSITA’ o DATI QUANTITATIVI
la matrice dei dati quantitativi X n ,k
(n x k): contiene numeri reali , possiede struttura algebrica di
spazio vettoriale. Dato statistico: [ x  ]
ij
Sia P un dato collettivo o popolazione statistica definita da:
 i  N (i  1, 2,..., N )u.s.
P
 x j  X ( j  1, 2,..., k ) var
xj  X
in cui N è l’insieme supposto finito delle u.s.e k il numero delle variabili
definito ‘a priori’.
Si ha la matrice dei dati quantitativi X n ,k a n righe e k colonne seguente:
X n,k
N\X
X1
X2
... X j ... X k
1
x11
x12
... x1 j
2
 ...
i
x21
...
x22
...
... x2 j ... x2 k
... ... ... ...
xi1
xi 2
...
...
N
xij
... x1k
... xik
... ... ... ... ... ...
xN 1 xN 2 ... xNj ... xNk
Ogni riga della matrice è un vettore numerico a k elementi reali:
xi  ( xi1 , xi 2 ,..., xij ,..., xik )
indicante le coordinate di un punto-unità nello spazio  a k dimensioni.
L’insieme di tutti i vettori riga xi (i  1, 2,..., n)
definisce la NUVOLA DEI PUNTI-UNITA’, N , nello spazio delle unità
k a k dimensioni.
Dualmente ogni colonna della matrice è un vettore numerico a n elementi reali:
x j  ( x1 j , x2 j ,..., xij ,..., xnj )
k
L’insieme di tutti i vettori colonna definisce la NUVOLA
DEI PUNTIn
VARIABILI, N , nello spazio delle variabili
a n dimensioni.

x j ( j  1, 2,..., k )
Lo spazio delle unità e lo spazio dei caratteri
in una matrice di dati quantitativi o variabili
possiede struttura algebrica di spazio vettoriale
N \ X X 1 X 2 ... X j ... X k
•
1
x11 x12 ... x1 j ... x1k
2
X n,k  ...
i
x21 x22 ... x2 j ... x2 k
... ... ... ... ... ...
i'
N
xi '1 xi '2 ... xi ' j ... xi ' k
xN 1 xN 2 ... xNj ... xNk
xi1
xi 2 ... xij ... xik
Spazio delle unità
N\X
i
X1
x11
X2
x12
i'
x21
x22
X
22
X
12
Spazio delle variabili
N\X
i
X1
x11
X2
x12
i'
x21
x22
X(22)
X(21)
2
1
x
11
X
1
X(11)
x
21
X
2
X(12)
(cenni) Definizione di struttura ( S )
algebrica
e le matrici di dati quantitativi
Esistono diversi tipi di strutture algebriche
(semigruppo, gruppo, gruppo abeliano, anello,
corpo, corpo commutativo, reticolo, reticolo di
Boole, modulo, spazio vettoriale, spazio vettoriale
euclideo ecc. ). In generale per struttura algebrica si
intende ogni insieme A dotato di una o più leggi di
composizione (interna, esterna).
Per le definizioni e proprietà delle strutture in
particolare delle strutture:
• Strutture algebriche di corpo *(M.Fraire,
op.cit.,pg.12)
• Strutture algebriche di gruppo e di corpo
commutativo (pg.13)*
•
Spazio vettoriale (lineare)(pg.13)*
•
Spazio vettoriale euclideo(pg.14)*
* Le pagine si riferiscono al testo M.Fraire, Metodi di Analisi
Multidimensionale dei Dati. Aspetti statistici e applicazioni
informatiche, ed. CISU, 1994
*La struttura algebrica delle matrici dei dati
quantitativi X n ,k
•
Per una matrice di dati quantitativi la STRUTTURA ALGEBRICA(*) o
SPAZIO di RIFERIMENTO è lo SPAZIO VETTORIALE (o LINEARE) e
VETTORIALE EUCLIDEO.
Legge di composizione interna “+”
(addizione o somma vettoriale:
applicazione di XXX)
con le proprietà assiomatiche:
x, y , z  X
SPAZIO
a) x  y  y  x
VETTORIALE
b)( x  y )  z  x  ( y  z )
c)esiste(u  0) : x  u  u  x  x(u  neutro)
SPAZIO
VETTORIALE
EUCLIDEO:
Sono definite:
d )opposto :  x : x  ( x)  0
Legge di composizione interna “•”
(moltiplicazione per uno scalare o
prodotto esterno:  X  X
con le seguenti proprietà assiomatiche:
se per l’insieme X dei vettori di ordine
n ove le x sono numeri reali in  n
i
a )(  1) x  x
b)    x  ( ) x
c )0  x  0
d ) ( x  y )   x   y
e)(   ) x   x   x
Prodotto scalare o interno X  X    ,  
proprietà assiomatiche:
a)  x, y  Y , X 
con le seguenti
b)  x  y, z  xz    yz 
c)   x, y    x, y 

(*) Per struttura algebrica si intende ogni insieme X dotato di una o più leggi di composizione interna o esterna . Una
operazione o legge di composizione interna _ |_ associa ad ogni coppia di elementi (x;y) di X un elemento z
appartenente ancora ad X ossia x  y  z
. Una operazione o legge di composizione esterna connette gli
elementi dell’insieme X con gli elementi ω di un altro insieme  = operatori di X in modo tale che per ogni coppia
(x; ω) esiste un unico elemento z appartenente ancora ad X ossia ω | x = z.
La matrice di intensità (o dati quantitativi )dell’Uso del
Tempo in un giorno festivo di 56 categorie di popolazione in
Italia(pg.105 Fraire, rizzi, Analisi dei Dati, op.cit.)
K
Caso di studio B
2^fase
N 56, K 15
N AMD
X
Categ.pop.
OM15-24
OM25-44
OM45-64
OM65+
NONM15-24
NONM25-44
NONM45-64
NONM65+
NEM15-24
NEM25-44
NEM45-64
NEM65+
NOM15-24
NOM25-44
NOM45-64
NOM65+
CM15-24
CM25-44
CM45-64
CM65+
SM15-24
SM25-44
SM45-64
SM65+
IM15-24
IM25-44
IM45-64
IM65+
OF15-24
OF25-44
OF45-64
OF65+
NONF15-24
NONF25-44
NONF45-64
NONF65+
NEF15-24
NEF25-44
NEF45-64
NEF65+
NOF15-24
NOF 25-44
NOF45-64
NOF65+
CF15-24
CF25-44
CF45-64
CF65+
SF15-24
SF25-44
SF45-64
SF65+
IF15-24
IF25-44
IF45-64
IF65+
DOR MAN ALCUR LR ISTR LDO ACQ CURF VOL VITS SPOR LETT TV GIOC SPT
mg
mg
mg
mg mg
mg
mg
mg
mg
mg
mg
mg mg mg
mg TOT
617
135
95
92
3
17
4
5
13
148
51
92
19
143 1440
578
137
99
77
2
50
10
30
16
101
59
20 126
6
19
116 1440
551
139
104
96
0
70
14
9
24
82
60
28 144
23
96 1440
558
146
113 131
0
29
9
0
21
93
51
34 141
24
90 1440
633
129
84
7
47
17
7
2
17
150
63
11 118
47
108 1440
593
136
120
7
31
34
9
8
10
129
69
18 127
31
118 1440
556
141
107
4
0
101
14
3
38
91
66
33 184
23
79 1440
580
137
124
1
0
82
12
2
32
87
65
36 189
27
66 1440
662
130
71
33
28
20
4
1
16
142
56
12 112
37
116 1440
597
134
92
59
4
63
8
30
20
98
54
25 121
21
114 1440
552
144
99
62
0
99
10
7
28
87
56
33 154
23
86 1440
628
139
112
15
0
71
7
2
33
90
51
38 192
34
28 1440
628
133
78
28
30
21
9
5
24
152
50
5 114
47
116 1440
595
133
81
57
5
55
13
32
17
93
61
23 142
23
110 1440
561
137
94
48
0
95
15
7
35
80
57
33 172
22
84 1440
567
142
112
6
0
86
12
0
29
86
75
49 186
26
64 1440
648
130
83
11
31
21
7
3
10
158
47
10 109
33
139 1440
576
137
100
89
6
50
11
25
14
101
57
20 119
14
121 1440
549
142
94
75
0
84
16
10
25
80
71
29 155
20
90 1440
585
133
116
16
0
100
12
2
21
75
69
33 189
27
62 1440
612
130
101
36
39
11
6
4
14
150
71
10 108
35
113 1440
553
142
122
77
6
32
9
27
14
115
68
13 118
21
123 1440
548
140
125
72
0
53
12
7
25
93
66
25 145
27
102 1440
579
136
149
6
0
66
12
2
41
91
66
21 174
27
70 1440
625
129
95
52
35
14
2
0
9
139
66
11 108
40
115 1440
565
135
125
75
4
41
7
22
12
121
55
21 127
22
108 1440
543
131
125
83
0
63
15
4
28
89
60
29 154
23
93 1440
594
134
133
5
0
54
17
9
35
104
47
33 193
18
64 1440
615
146
113
58
14
82
8
4
10
125
47
14
82
13
109 1440
567
133
103
54
5
179
11
49
25
80
41
21
74
8
90 1440
525
125
100
62
0
266
11
37
71
34
24
94
8
71 1440
563
100
130 181
0
206
6
12
O
24
35
33
17 116
4
51 1440
624
133
109
2
69
74
6
6
21
121
48
14
96
26
91 1440
543
136
103
1
13
228
12
55
29
84
42
15
90
6
83 1440
529
131
103
1
0
307
12
7
43
73
33
17 113
9
62 1440
581
123
126
1
0
229
8
6
50
68
24
19 152
10
43 1440
587
131
95
6
52
126
3
3
17
134
37
14 105
24
106 1440
572
134
99
38
8
180
9
52
19
90
43
26
75
8
87 1440
537
130
102
29
0
270
8
8
41
71
32
23 116
7
66 1440
582
127
132
2
1
218
4
4
41
60
27
27 157
16
42 1440
661
133
94
20
52
57
7
3
15
125
40
21
95
30
87 1440
576
133
93
40
2
202
14
52
23
73
37
25
84
7
79 1440
503
131
89
18
0
287
13
5
35
73
42
27 114
11
62 1440
564
126
116
7
0
229
14
7
51
71
29
24 141
12
49 1440
611
144
99
15
66
70
10
5
18
144
49
10
87
14
98 1440
571
135
102
38
11
170
14
48
22
84
45
16
80
7
97 1440
533
128
96
31
0
298
11
12
36
68
35
17 103
9
63 1440
598
119
121
2
0
243
9
9
38
52
30
18 157
8
36 1440
595
134
125
14
62
86
5
10
19
103
60
14
96
23
94 1440
521
136
111
23
12
220
10
57
37
80
45
9
79
6
94 1440
514
129
114
24
0
303
13
12
47
75
27
11
92
8
71 1440
583
124
129
1
0
222
8
6
59
76
16
7 159
5
45 1440
603
140
131
22
44
101
9
4
22
115
43
11
77
22
96 1440
548
132
119
20
7
224
9
42
33
88
33
14
87
7
77 1440
524
123
117
7
0
313
11
7
52
74
24
18 104
5
61 1440
579
111
143
0
0
231
5
2
68
81
11
15 146
5
43 1440
• La multi-way data analysis
• Le matrici a tre indici
I dati cubici multidimensionali
La matrice a due modi e due indici e le
matrici a più modi e più indici: Richiamo
un breve richiamo
• Sia P la popolazione statistica o collettivo definita da:
P
•
•
•
in cui i è l’individuo o unità statistica (u.s.) appartenente
all’insieme N: iN (i = 1, 2,…, n); l’insieme N è l’insieme di tutte
le n u.s. ed è generalmente supposto essere finito e numerabile
(nelle indagini di tipo socio-demografico, N è, invece, infinito
nelle popolazioni teoriche o in particolari indagini sperimentali),
Xj è il carattere statistico o variabile (nel caso di matrici di
intensità o dati quantitativi è una variabile) appartenente
all’insieme X dei k caratteri statistici: XjX (j = 1, 2,…, k);
l’insieme X è definito “a priori”.
La matrice a due modi[1] e due indici [2] a n righe a k colonne è
data da:
x 11
x 12
... x 1 j ... x 1 k
X
•
i  N ( i  1 , 2 ,..., n )
x j  X ( j  1 , 2 ,..., k )
N ,K

x 21
...
x 22
...
...
...
x2 j
...
...
...
x2k
...
x i1
...
x N1
xi2
...
xN2
...
...
...
x ij
...
x Nj
...
...
...
x ik
...
x Nk
.
•
[1] Per modo si intende il tipo di informazioni considerate nella
matrice in esame; in questo caso, ad esempio, il modo “individui”
e il modo “variabili”, ma potrebbero essere altri modi come
luoghi, tempi, giudici, ecc.
[2] Gli indici indicano, invece, il criterio di classificazione del
“dato statistico” xij in cui iN (i = 1, 2,…, n) sono gli individui e
XjX per j = 1, 2,…, k sono le variabili statistiche considerate.
casi di
studio
Le matrici a tre indici per
l’Analisi dei Dati a Tre Vie:
N = u.s.; K= caratteri; O = occasioni
Tre esempi:
O
X NxK 4( anni) X19( MunicipiRM), 5( delitti)
O
X NxK O6nazioniX N 1categ. pop.;K 12att. primarie
O
O
X NxK
O5classidietà
X N 22categ. partner.;K 9 att. primarie
X N ,K
Le matrici dell’Analisi dei Dati a Tre Vie
(3-way data analysis):
Codifiche a priori
•
•
•
•
•
•
•
•
•
•
•
2^fase dell’AMD)
Analisi dei Dati a Tre Vie (three-way data analysis) mediante la quale si
possono esaminate più tabelle nella forma di tabelle di dati quantitativi ,
tutte insieme, globalmente e contemporaneamente, secondo tre diversi
aspetti:
a) la rappresentazione globale di tutte le tabelle e la distanza tra esse
(analisi dell’interstruttura);
b) individuare la tabella ‘compromesso’ o ‘ matrice media’ (analisi
dell’intrastruttura )
c)confrontare le ‘traiettorie’ di ciascuna u.s per l’insieme delle occasioni
considerate e individuare quali di esse sono quelle che hanno contribuito
maggiormente alla differenza tra le tabelle (analisi delle traiettorie)
Si possono avere diverse codifiche a posteriori di una matrice dei dati a tre
vie secondo le situazioni di ricerca:
1) Una matrice di dimensione [ N , (KO)] in cui si considerano diverse le K
variabili rilevate in O occasioni successive ed uguali le N u.s.;
2) Una matrice di dimensione [ (N O) , K] in cui si considerano uguali le K
variabili e diverse le N u.s. rilevate in O occasioni successive.
3) Una matrice di dimensione [(N x K), O] in cui si considerano uguali sia le
N u.s. che le K variabili rilevate in O occasioni successive.
A seconda del software statistico impiegato inoltre la codifica della matrice
dei dati iniziali può essere fatta:
A) Per impilamento delle diverse tabelle dei dati; (es. STATIS)
B) Mettendo uno dopo l’altra, consecutivamente, le tabelle dei dati (SPADstatis)
Un caso di
studio
particolare
• Se sono dati testuali:
• Se è una matrice dei dati testuali
• ‘Le preoccupazioni sociali rilevanti
e la QdV nelle C.M.’ e l’analisi a
tre vie per l’individuazione di
indicatori lessicali empirici
• Relazione
presentata
alla
5^JADT2000, Losanna 9-11 marzo su
M.Fraire, ‘Analisi a 3-vie delle risposte
a domande aperte e indicatori empirici
• Riferim.bibliograf.
‘Sociologia
e
Ricerca Sociale’ n.61/anno XXI, 2000
L’Analisi dei dati testuali
Un caso di
studio
particolare
• La documentazione statistica di partenza:
1^ fase AMD
•
•
•
•
•
•
•
•
•
•
•
E’ un questionario con domande a risposta
‘libera’ ossia non strutturata.
Il questionario è stato denominato ‘Scheda descrittiva-per
problemi’ caratterizzato da una serie di 8 domande aperte
miranti ad individuare le ‘preoccupazioni sociali rilevanti’
per ciascuna delle seguenti 8 ‘aree di rilevanza sociale’:
A: ‘Salute’ ;
B:’Istruzione e formazione professionale’;
C: ‘Occupazione e Qualità del lavoro’;
D:’Impiego del tempo libero’;
E: ‘Situazione economica personale’;
F:’Ambiente fisico’;
G:’Ambiente sociale’;
H: ‘Sicurezza personale’, nelle quali era stata scomposta la
definizione astratta di QdV.
2^ fase
Le risposte alle 8 domande aperte date da ciascuno dei
22 operatori (presidenti di C.M.) hanno costituito il file di
testo originario composto quindi da 8 sub-files
3
• 3^fase
Creazione della matrice dei “dati testuali “
^
f
• 4^fase codifiche a posteriori: correzione, disambiguazione e
a
segmentazione
del testo e le prime analisi statistiche dei testi.
s
e
Un caso di
studio
particolare
1^ fase AMD
un esempio
di matrice dei dati testuali
(Il questionario:1^fase dell’AMD)
…………………………………
2^fase
AMD
Un caso di studio
particolare
La matrice dei dati iniziali: il file di testo (2^fase dell’AMDT).
Il file di testo 'QdVCM.txt'
----01PIECN
A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI.
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI SERVIZI DI TRASPORTO.
++++
B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE
PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI.
PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI.
SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE
ESIGENZE DEL MONDO DEL LAVORO.
++++
C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI
OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E
ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE.
DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI
PRIMA OCCUPAZIONE.
AUMENTA IL LAVORO NERO E PART-TIME.
++++
D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE.
PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE.
++++
E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO.
PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO
E IL COSTO PER IL RISCALDAMENTO.
++++
F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL
TRAFFICO PROVINCIALE.
DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE.
++++
G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO
DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI
FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI
GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI
RIGUARDANO L'ASSISTENZA AGLI ANZIANI.
FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO
DELLA DROGA.
++++
H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA
SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI.
----02VADAO
A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI TRASPORTI.
++++
B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI
MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I
BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE.
MANCA UNA SEDE UNIVERSITARIA.
++++
C)LA CRISI GENERALE DELLA SIDERURGIA SI RIFLETTE SULLO
STABILIMENTO COGNE-SIAS DELLA ZONA CON RIPERCUSSIONI SULLA
OCCUPAZIONE.
++++
D)MANCANZA DI COMPLESSI PER ATTIVITA RICREATIVO-SPORTIVE.
COSTO ECCESSIVO DI ALCUNE ATTIVITA COME IL TENNIS.
MANCANO DEL TUTTO I TEATRI.
++++
E)I PREZZI DI TUTTI I GENERI SIA DI PRIMA NECESSITA CHE NON SONO
NOTEVOLMENTE ALTI ESSENDO LA NOSTRA UNA REGIONE A CARATTERE
TURISTICO.
++++
………………………...
----22SARNU
…………………..
Le 7 fasi dell’Analisi
Multidimensionale dei Dati
Le fasi
‘preliminari’
3^fase
CODIFICHE A POSTERIORI
(v.pagg.92-106 fraire, rizzi, op.cit.)
della 3^fase;
Riguardano tutte le trasformazioni della matrice dei dati iniziali per
renderla compatibile e significativa con le tecniche multiv. da
impiegare
Scopi delle codifiche a posteriori sono:
A) Requisiti statistici oggettivi ai quali devono rispondere i dati per
essere statisticamente trattabili (es. omogeneità, struttura
algebrica)
B) Costruzione della TABELLA DEI DATI più significativa e adatta
alla tecnica di AMD che si impiegherà:
Codifiche a posteriori della 3^fase:
trasformazioni di variabili (singole colonne o tutte le
colonne)
sono di tue tipi:
TIPO I (div.in classi, trasf. in ranghi ecc.): trasformazioni
che operano un cambiamento nella struttura originaria
TIPO II (scarti centrati, scarti standardardizzati,
trasf.aritm.,
algebriche,
funz.
non
ottimali):
trasformazioni che NON operano un cambiamento nella
struttura originaria
La 3^ fase dell’AMD: le codifiche a posteriori
come trasformazioni di variabili
(v.pagg.93-97)
Codifiche di TIPO I: trasformazioni che operano un
cambiamento nella struttura originaria della variabile
considerata. Sono di questo tipo:
- la divisione in classi di una variabile cardinale considerandola
poi una variabile categoriale. Esistono come noto diversi criteri
(non ottimali e ottimali) per la divisione in classi di una variabile;
scopi è descrivere la variabile atttraverso distribuzioni di
freqeunza più significative sei singoli valori o trattare tale
variabile insieme alle variabili categoriali. Si perdono
informazioni: da una scala di rapporti o intervalli (struttura
algebrica) ad una mutabile (nessuna struttura), la distanza tra
unità per quelle appartenenti alla stessa classe;
- trasformazione per ranghi (graduatorie) di una variabile
consistente nel sostituire al valore della variabile cardinale il
posto o rango occupato dall’unità nel collettivo in esame. Da una
scalla di rapporti o intervalli ad una mutabile ordinata
(rettilinea). Scopi principali di tali codifiche sono quelli di
rendere omogennee variabil iespresse in diversa unità di misura,
trattare insieme variabili cardinali e categoriali rettilinee. Si
perdono informazioni: la distanza tra unità statistiche
- codifiche sfuocate o codage flou da variabili discrete a variabili
continue in un dato intervallo.
3^ fase
Le codifiche di tipo II: non alterano la
struttura originaria dei caratteri
Codifiche di TIPO II): trasformazioni che non operano un
cambiamento nella struttura originaria della variabile. Sono di questo
tipo:
- la trasformazione delle variabili cardinali in variabili scarti dalla
media. In generale considerando la matrice dei dati originari una
matrice XN,K di intensità o dati quantitativi la trasformazione in
matrice degli scarti centrati o dalla media SN,K si ottiene mediante la
trasformazione: SN,K = XN,K  UN,K Dk 
in cui UN,K è la matrice composta di tutti 1 di dimensione nk e Dk
=diag [ x , x ,..., x ] delle medie.
Si noti che per l’intera matrice dei dati tale trasformazione equivale a
porre l’origine degli assi della nuvola dei punti-unità NI nello spazio
delle unità Rk nel centro di gravità o baricentro g= [ x , x ,..., x ] . Tale
trasformazione consente la semplificazione di molti indici statistici. I
risultati ottenuti dall’applicazione di un metodo di AMD alla matrice
SN,K sono gli stessi della matrice originaria XN,K eccetto ovviamente la
media delle singole variabili che qui ènulla E(Sj )=0. Tale
trasformazione ridurrà l’intensità media di variabili tra loro omegenee
nell’unità di misura ma con medie molto diverse.
la trasformazione delle variabili cardinali variabili
standardizzate. In generale considerando la matrice dei dati originari
una matrice XN,K di intensità o dati quantitativi la trasformazione in
matrice degli scarti standardizzati ZN,K si ottiene mediante la
trasformazione:
ZN,K = SN,K D-1 
in cui SN,K è la matrice degli scarti dalla media già vista, D-1
=diag[ [ 1 , 1 ,..., 1 ] è la matrice diagonale avente sulla diagonale
1
2
k
1
X X
1
2
X
k
principale gli inversi degli s.q.m. delle singole variabili
2
k
3^ fase:
Codifiche a posteriori
esempio di trasformazioni di tipo II
X N 13, K  2
Addetti
comm.
3^ fase:
Codifiche a posteriori
Le nuvole dei punti-unità delle matrici
Scarti dalla media S(N,K)
Scarti standardizzati Z(N,K)
X N 13,K 2
S N 13, K  2
Z N 13,K 2
3^ fase
altre codifiche di tipo II
(pagg.92-97)
- altre trasformazioni delle matrici di intensità o dati
quantitavi sono le matrici dei valori normati ossia dividendo
ciascuna variabile per un suo valore medio o un indice di
variabilità mettendo in evidenza l’importanza di ciascun
valore della variabile rispetto all’intensità media o alla
variabilità media.
- trasformazioni aritmetiche, algebriche, funzionali :
a) creare nuove variabili dalle variabili originarie (es.
calcolare rapporti statistici :rapporti medi, numeri indice,
quozienti demografici ecc.);
b) effettuare un cambiamento di scala, ad es. in scala 0-100
mediante la trasformazione:
oppure
yij 
y ij 
xij
xij  min( X j )
Range( X j )
 100
 100
max o min( X j )
c) nella misura dell’inquinamento atmosferico si rapporta,
se si vuole un dato annuale comparabile con altri
(standardizzato) il valore medio dell’inquinante rilevato (es.
benzene C6H6, biossido di azoto NO2) al max raggiungibile
secondo la normativa vigente nell’anno;
d) Le trasformazioni logit per la regressione logistica;
e) le trasformazioni in variabili dummy per le variabili
categoriali indipendenti nella regressione;
f) trattamento dei MISSING VALUE;
g)riorientamento degli items nelle scale di atteggiamenti;
ecc.ecc.
Le 7 fasi dell’AMD
(PAG.6 – m.Fraire-Metodi di AMD – CISU, Roma
1994)
4^ fase
La 4^ fase dell’AMD:
la scelta della tabella dei dati:
codifiche a posteriori dell’intera matrice
dei dati (var. attive)
(v. pagg.107-110)
•
•
•
Le codifiche a posteriori dell’intera matrice dei dati
corrispondenti alla 4^ fase dell’AMD sono codifiche di
diverso tipo e scopi. Con tali codifiche comunque si sceglie la
tabella dei dati - che è diversa in genere dalla matrice dei dati
iniziali - che sarà sottoposta alla ‘specifica’ tecnica di AMD
scelta.
Scopo di queste codifiche è quindi rendere ‘compatibile’ la
matrice dei dati iniziali con la tecnica di AMD che si
impiegherà;
Ogni tecnica di AMD ha determinate tabelle dei dati come
matrici di input ‘accettate’ e che abbiano un ‘significato’ per
il tipo di approccio che quella specifica tecnica
multidimensionale ha del set di dati da analizzare.
tecnica di AMD
tipi di TABELLE DEI DATI
per l’ACP
per Cluster Analysis( CA)
Matrici S n ,k Z n ,k
Tutti i tipi di matrici individui
(r )
 variabili X n,k , Sn,k , Z n,k , Pr ,s
Matrice di distanze Dn ,n
Matrice di similarità S n ,n
Tabella sotto forma disgiuntiva
completa An ,m
per l’A Corrisp. Semp.
Matrici dei profili-riga Pr , s ( c )
Matrici dei profili-colonna Pr , s
Tabella sotto forma disgiuntiva
completa An ,m ;
Tabella di Burt Bm,m
Tabella sotto forma disgiuntiva
completa An ,m ;
per l’A Corrisp.Multiple
(r )
4^ fase
Codifiche a posteriori della
4^ fase:
Trasformano l’intera matrice dei dati. Le principali
sono:
- Tabella sotto forma disgiuntiva completa.;
- Tabelle dei profili-riga e profili-colonna;
- Tabella. di contingenza generalizzata o di Burt;
- Tabella a variabili incorrelate
(Le
trasformazioni ottimali: optimal scaling (per la
quantificazione di mutabili); spline transformations (per
trasformazioni non lineari di variabili).
• E’ da notare che dalla ‘scelta’ del tipo di codifica a
posteriori della matrice dei dati iniziali dipenderà la
5^ fase dell’AMD: scelta di una metrica per le unità
statistiche (distanze, similarità) o di una metrica per i
caratteri statistici (correlazioni, varianze e
covarianze ecc.)
• Nelle applicazioni sia le codifiche a posteriori della 3^
fase che quelle della 4^ fase possono essere entrambe
necessarie o non essere necessarie affatto (in tal caso
la matrice dei dati iniziali coincide con la ‘tabella dei
dati’ che sarà sottoposta ad un’AMD) o essere
necessarie solo in parte per uno solo dei due tipi di
codifiche (es. la matrice degli scarti standardizzati
potrebbe costituire già la tabella dei dati).
4^ fase
La 4^ fase dell’AMD:
codifiche a posteriori dell’intera matrice dei dati (var. attive):
d) La tabella di contingenza generalizzata o di Burt
• Qualora si vogliano trattare più di due caratteri qualitativi
(sconnessi o ordinati) o variabili divise in classi oltre alla
codifica a posteriori sotto forma disgiuntiva completa un’altra
codifica, è quella di trasformare la tabella inventario (matrice
dei dati iniziali) nella tabella di contingenza generalizzata o
di Burt.
• Esempio: La tabella di contingenza generalizzata a partire
dalla tabella inventario
An 10, k 6
N \ K K1  Sex K 2  Eta K 3  TitStud K 4  QdV K 5  Stip K 6  AnzServ
01
1
21
3
6
1200
1
02
2
22
5
5
8000
2
03
1
35
4
5
2500
7
04
1
27
5
7
2600
5
...
...
...
...
...
...
...
10
1
24
4
6
2100
3
• .
•
4^ fase
Un esempio di codifica disgiuntiva completa:
la tabella inventario An10,k 6
La tabella inventario An 10,k 6
N \ K K1  Sex K 2  Eta K 3  TitStud K 4  QdV K 5  Stip K 6  AnzServ
01
1
21
3
6
1200
1
02
2
22
5
5
8000
2
03
1
35
4
5
2500
7
04
1
27
5
7
2600
5
...
...
...
...
...
...
...
10
1
24
4
6
2100
3
La tabella sotto forma disgiuntiva completa
An10,m31
N
01 10
10
00100
00000100000
10
100000000
02 01
10
00001
00001000000
01
010000000
………………………………………………………………….
10 10
10
00010
00000100000
01
001000000
4^ fase
(Richiami) Le tabelle di contingenza:
dei profili riga, dei profili colonna , normalizzata
SESSO M F Totale
STATURA
140-159
6
5
11
160-179
14 18
32
180-199
3
4
7
Totale
23 27
50
6
 0,55
11
5
 0,45
11
A) Tabella dei profili-riga:
M
F
TOT
140-160 0,55 0,45
1,00
160-180 0,44 0,56
1,00
180-199 0,43 0,57
1,00
TOT
0,46 0,54
1,00 profilo-riga medio
6
B)Tabella dei profili-colonna:
 0,26
M
F
TOT
23
140-160 0,26 0,19
0,22
14
160-180 0,61 0,66
0,64 profilo-colonna  0,61
23
180-199 0,13 0,15
0,14 medio
3
TOT
1,00 1,00
1,00
 0,13
C) Tabella dei profili sul totale N:
23
M
F TOT
140-160 0,12 0,10 0,22
6
160-180 0,28 0,36 0,64 Profilo-colonna
 0,12
180-199 0,06 0,08 0,14 medio
50
TOT
0,46 0,54 1,00
Profilo-riga medio
(baricentro)
(V. ANCHE LA FORMALIZZAZIONE MATRICIALE)
2^fase
Un altro
caso di
studio
MATRICE DI CONTINGENZA N r , s
:
contiene frequenze assolute (R+) possiede struttura algebrica di
spazio vettoriale. (
Dato statistico: [a  n   ]
ij
NOTA: le righe non sono confrontabili
ij
4^fase
AMD
La tabella o matrice di contingenza
dei profili riga
Un caso
di
studi
o
4^ fase
(Cenni) La 4^ fase dell’AMD:
codifiche a posteriori dell’intera matrice dei dati (var. attive):
e) La matrice Yn , k
o Yn , p  k
a variabili incorrelate
f) Trasformazioni ‘ottimali’
FINE
DELLE 4 FASI
PRELIMINARI
DELL’ANALISI DEI
DATI
LA 5 FASE:
LA SCELTA DELLA
METRICA
5^fase
Scelta della metrica
La 5^fase:
la scelta della metrica
La 5^ fase dell’AMD
SCELTA DELLA METRICA
• Riguarda la scelta di una misura
(metrica) di:
• RASSOMIGLIANZA-DISSOMIGLIANZA
tra unità statistiche: Matrici n x n delle
distanze o delle similarità.
• Esistono molti tipi di misure a seconda del tipo
di tabella dei dati da analizzare (distanze di
Minkowski, di Mahalanobis, di Hamming; indici
di distanza; indici di diversità;indici di
similarità)  nella Cluster Analysis è rilevante
la scelta della misura di rass./diss. tra u.s.
• RELAZIONE TRA CARATTERI: Matrici k x
k di devianze e codevianze; varianze e
covarianze;correlazione, correlazione parziale
ecc.)  nell’ACP è rilevante la scelta di una
misura di relazione tra variabili.
La distanza tra due vettori-riga
Il coseno tra due vettori colonna
•
xi , xi '  R k
x j , x j '  Rn
Data la matrice di dati quantitativi:
N \ X X 1 X 2 ... X j ... X k
1
x11 x12 ... x1 j ... x1k
2
X n,k  ...
i
x21 x22 ... x2 j ... x2 k
... ... ... ... ... ...
i'
N
xi '1 xi '2 ... xi ' j ... xi ' k
xN 1 xN 2 ... xNj ... xNk
xi , xi '  Rk
xi1
xi 2 ... xij ... xik
x j , x j '  Rn
Spazio delle unità
N\X
i
X1
x11
X2
x12
i'
x21
x22
X
22
X
12
i’
i
x
11
N\X
i
X1
x11
X2
x12
i'
x21
x22
X(22)
X(21)
X
1
X(11)
x
21
X
2
X(12)
Spazio delle variabili
5^ fase dell’AMD:
scelta di una misura di rassomiglianzadissomiglianza tra le u.s.
•
•
Data la matrice di dati quantitativi:
N \ X X 1 X 2 ... X j ... X k
1
x11 x12 ... x1 j ... x1k
2
x21 x22 ... x2 j ... x2 k
...
... ... ... ... ...
X n ,k  ...
i
xi1 xi 2 ... xij ... xik
i'
xi '1 xi '2 ... xi ' j ... xi ' k
N
xN 1 xN 2 ... xNj ... xNk
se si vogliono avere delle misure di rassomiglianza o
dissomiglianza tra tutte le possibili coppie (n  n) di unità
statistiche rispetto ai k caratteri contemporaneamente
considerati (vettori-riga xi  R k )
occorre
scegliere una misura che fornisca la distanza (diversità) o la
vicinanza
(somiglianza)
tra
due
vettori-riga.
Esistono molte misure a seconda delle prorietà possedute
e del livello di misurazione dei caratteri con i quali ciascuna di
esse
è
compatibile.
La scelta tra le diverse misure è legata alla struttura S
posseduta dalla tabella dei dati considerata e le misure con
essa
compatibili.
Una prima distinzione tra le diverse misure di
rassomiglianza/dissomiglianza tra u.s. è comunque quella tra
DISTANZE
(diversi
indici)
per
le
variabili
e
SIMILARITA’(diversi
indici)
per
le
mutabili.
La matrice che contiene tutte le distanze per tutte le coppie
di
u.s.
è
la
matrice
delle
distanze
Dn ,n
•
•
I principali tipi di tabelle dei dati (4^fase dell’AMD) e
le diverse misure di rass./dissom. fra u.s. (5^fase
dell’AMD: la scelta della metrica):
V. M.Fraire pagg.94 per le proprietà degli indici e 95 per la tabella)
Tabella dei dati
(4^ fase dell’AMD)
Misura di rass./dissom. tra unità
(5^fase dell’AMD)
Tabella d’intensità o dati
quantitativi (variabili)
Distanze: Minkowski (semplici e
ponder.)
Mahalanobis
Indici di diversità: Lance e Williams ecc.
Tabelle di contingenza
Distanze: Minkowski (semplici e
ponder.)
Indici di distanza: distanze del ²
Tabelle di descrizione
logica (booleane)
Distanze: Minkowski (semplici e
ponder.)
Hamming
Indici di distanza: distanze del ²
Indici di similarità: Sokal e Michener
Russel e Rao
Jaccard
ecc.
Tabelle dei ranghi
Distanze: Minkowski (semplici e ponder.)
Rizzi
Indici di diversità: ’ di Sperman (*)
’ di Kendall (*)
(*)corretti affinchè varino tra 0 e 1 anziché tra
–1 e +1
La matrice delle distanze
Dn ,n
• In generale se consideriamo tutte le possibili n  n
coppie delle N u.s. si ha la matrice delle distanze
indicata con Dn , n
d ( X1 X 3 )
d ( X1 X1 )  0 d ( X1 X 2 )
 d(X X ) d(X X )  0 d(X X )
2 1
2 2
2 3

Dn,n   d ( X 3 X1 )
d(X3X3)  0

...
...
...

 d ( X n X 1 )
d(Xn X2)
...
...
...
...
...
...
d ( X1 X n ) 
( X 2 X n ) 
(X3Xn ) 

...

d ( X n X n )  0
• Essa fornisce una misura della rassomiglianza-dissomiglianza
di tutte le N u.s., prese a due a due, rispetto a tutti i k caratteri
contemporaneamente considerati.
• La matrice è una matrice:
•
QUADRATA di dimensione n  n
•
SIMMETRICA d ( X i X i ' )  d ( X i ' X i )
•
POSITIVA perché per le proprietà stesse di una distanza
• qualunque essa sia è sempre positiva o nulla d ( X X )  0i, i '
i
•
NULLA solo se d ( X i X i ' )  0  i  i '
•
n° di distanze utili:
n( n  1)
2
i'
Distanze di Minkowski
Tra le più impiegate distanze aventi il maggior numero di
proprietà si sono le distanze di Minkowski la cui formula è data
da:
k
dt 
t
X
j 1
t
 X i ' j (t  1int ero)
ij
a seconda del valore assunto dal parametro t si hanno le
distanze:
t = 1 Distanza della città a blocchi o di Manhattan
k
d1   X ij  X i ' j
es.: d1 (1; 2)  2  3  3  5  3
j 1
= 2 Distanza euclidea
dt 
k
t
(X
j 1
ij
 X i ' j )2
es.: d1 (1;2)  (2  3)2  (3  5)2  5  2,24
t =  Distanza di Lagrange

d  max r 1,2,...,k X ij  X i ' j
 es.: d (1;2)  max  2  3 ; 3  5   2

Esempi di calcolo:data la matrice di dati quantitativi
X n  3, k  2

N

 1
 
 2
 3



X1
2
3
7
X n 3, k  2
X2 


3 

5 
4 



Le distanze euclidee per tutte le coppie possibili di u.s. sono date da:
Esempi di calcolo delle distanze euclidee:
dalla la matrice di dati quantitativi
X n3,k 2
•
X n 3, k  2

N

1

2
3



X1
2
3
7
X2 


3 

5 
4 



• Le distanze euclidee per tutte le coppie possibili di u.s.
sono date da:
n(n  1) 3  2

3
2
2
d 2 (1; 2)  (2  3) 2  (3  5) 2 
1  4  2, 24
d 2 (1;3)  (2  7) 2  (3  4) 2  25  1  5, 09
d 2 (2;3);  (3  7) 2  (5  4) 2  16  1  4,12
•
La matrice delle distanze (euclidee) D(3,3)
1
2
3
1 0 2, 24 5,09
D3,3 
2 2, 24 0 4,12
3 5,09 4,12 0
La 5^ fase dell’AMD
SCELTA DELLA METRICA
• Riguarda la scelta di una misura
(metrica) di:
• RASSOMIGLIANZA-DISSOMIGLIANZA
tra unità statistiche: Matrici n x n delle
distanze o delle similarità.
• Esistono molti tipi di misure a seconda del tipo
di tabella dei dati da analizzare (distanze di
Minkowski, di Mahalanobis, di Hamming; indici
di distanza; indici di diversità;indici di
similarità)  nella Cluster Analysis è rilevante
la scelta della misura di rass./diss. tra u.s.
• RELAZIONE TRA CARATTERI: Matrici k x
k di devianze e codevianze; varianze e
covarianze;correlazione, correlazione parziale
ecc.)  nell’ACP è rilevante la scelta di una
misura di relazione tra variabili.
5^ fase dell’AMD
Misure di relazioni tra caratteri:
le matrici k  k
La matrice di varianze e covarianze
  X1

X2 
 X 2 X1

.. 
k ,k
 ...
Xk 
 X k X1
X1

X1 2
…
X2
X X
1

...
k ,k
X X 

...  X 2 X k 

...
... 
...  X2 k 
2
2
X2
...
X
Xk
k X2
1
k
tr k ,k
•
•
•
•
Rango: lo stesso rango della matrice dei dati
linearmente indipendenti
Quadrata kk
k (k  1)



Simmetrica : X1 X 2
utili
X 2 X1 con
2
L’inerzia totale o varianza totale è data da:
tr k ,k
•
k
  X2 j
j 1
X n ,k ossia k colonne
k
  X2 j
j 1
è un indice di variabilità lineare (le variabili devono essere
omogenee nell’unità di misura): consente di verificare
l’omoschedasticità della nuvola dei punti:
L’inerzia totale o varianza totale
(v.pagg40-44 in M.Fraire, op,cit.)
• L’inerzia totale o varianza totale indica la dispersione totale
della nuvola dei punti-unità intorno al loro baricentro o centro
di gravità g definito dal vettore g  [ x1 , x 2 ,..., x3 ]
• Se si considera lo spazio delle unità statistiche ossia i vettoririga
l’inerzia totale o varianza totale è definita
xi  R k
da:
k
k
n
I N ( g )    x2j   ( xij  x j ) 2 pi
j 1
j 1 i 1
• è uguale alla somma delle varianze delle variabili considerate
o alla media aritmetica ponderata con pesi p0 dei quadrati
delle distanze euclidee tra i punti x e il loro baricentro.
x j  Rn
• Si consideri lo spazio delle variabili ossia i vettori-colonna
• e la matrice di varianze e covarianze  k ,k :

k ,k
  X2 1  X1 X 2

2
 X 2 X1  X 2

...
 ...
 X X  X X
k 2
 k 1
...  X1 X k 

...  X 2 X k 

... ... 
...  X2 k 
• L’inerzia totale o varianza totale se si considera la metrica
K=I =diag[1,1,…,1] è:
k
I N ( g )  tr ( K  kk )  tr ( K  I  kk )  tr ( kk )    x2j
• Se
si
considera
invece
l’inerzia totale o varianza totale è data da:
 1 1
1 
K  diag  2 , 2 ,..., 2 
 X k 
 X1  X 2
• in cui Rk ,k è la matrice
la
j 1
X X

1
rX1X 2  1 2

 X 1 X 2
di correlazione: 


rX X  X 2 X1
1
R

)

tr
(
R
)

k
k
,
k
kk
kk
 2 1  X 2  X1

...
 ...
 r
rX k X 2
 X k X1
I N ( g )  tr ( K  kk )  tr ( D 2 1 
metrica
 X1 X k 

 X 1 X k 

rX 2 X k 


... 

1

... rX1X k 
...
...
...
5^ fase dell’AMD
Misure di relazioni tra caratteri:
La matrice delle correlazioni Rk ,k
• La matrice delle correlazioni Rk ,k




Rk ,k   rX 2 X1





rX1 X 2 
1

 X 2 X1
 X1 X 2
 X1 X k 

 X 1 X k 


rX 2 X k


...


1

... rX1 X k 
 X 1 X 2
 X 2  X1
1
...
...
...
...
rX k X1
rX k X 2
...
• Rango: lo stesso rango della matrice dei dati X n,k
ossia k colonne linearmente indipendenti
• Quadrata kk
k (k  1)
• Simmetrica : rX X  rX X
con
utili
2
r scarti standardizzati
• Se le variabili sono espresse in
l’inerzia totale o varianza totale
è data da:
k
1 2
2 1
X jX j'
tr ( Rk ,k )  1  k
• Se c’è dipendenza linearej 1tra due o più variabili
• rX j X j '  1 det|R|=0
• Se le variabili sono linearmente indipendenti ( rX j X j '  0
) det|R|=I
• Fine lezione
• del 17 marzo
2014
SAPIENZA – Università di Roma
Dipartimento di di Scienze Sociali e
Economiche(DiSSE
DdR
RICERCA APPLICATA ALLE SCIENZE
SOCIALI (RASS.)
a.a. 2012-2013
Lezione del 3 APRILE 2013 ore 15:00-17:00, Aula
C3: Analisi esplorativa multidimensionale dei
dati”(EMDA-Exploratory Multidimensional Data
Analysis: aspetti statistici e informatici
Lezione del 4 APRILE 2013:ore 15:00-17:00,
Aula C3: I casi di studio dell’EMDA
Mary Fraire
Prof.ssa Mary Fraire – Professore ordinario di Statistica
Dip.to di Scienze Sociali e Economiche (DiSSE)
e-mail: [email protected]
Sito web: http://www.sociologia.uniroma1.it/users/fraire
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Università di Roma ‘La Sapienza’
•I casi di studio
Uso del tempo:
Un caso di studio per
la cluster analysis
Caso di studio n.1 :
L’uso del tempo
• Caso di studio B: L’uso del
tempo in un giorno festivo
di diverse categorie di
popolazione
secondo
il
genere, l’età, la condizione
professionale
e
la
ripartizione geografica in
Italia (Metodo indiretto,
acquisizione dati rilevati ad
es. Indagine ISTAT – Uso
del Tempo in Italia).
•
Il caso di studio B
USO DEL TEMPO
Uso del
tempo:
caso di
studio
Analisi trasversali
Le durate medie generiche
e il b.t. per l’individuazione di
tipologie di uso del tempo
Cluster Analysis
Cap.4 – pagg.174-178
• Fraire, Rizzi, Analisi dei
Dati per il Data mining,
Carocci ed.
•
CAP.3
• L’ANALISI DEI GRUPPI
(CLUSTER ANALYSIS )
Focus su i bilanci del tempo e
le indagini sull’Uso del
tempo
Le indagini sull’Uso del Tempo
(v. box pag.81 Fraire, Rizzi, Analisi dei
dati, op.cit.)
 Le indagini Uso del Tempo rientrano negli studi statistici sui Bilanci
del Tempo ( Cfr Fraire M., 2004, I Bilanci del Tempo e le Indagini
sull’Uso del tempo, Time-Budget Studies (TBS) and Time Use Surveys
(TUS), CISU ed. 2004.
 La denominazione di bilancio del tempo (b.t.) nasce in analogia con
quella di bilancio di famiglia (b.f.): entrambi i tipi di bilancio rilevano
infatti la destinazione di un ‘fondo’ : i b.f. la destinazione del reddito nei
vari capitoli di spesa, i b.t. la destinazione delle 24 ore (o altro intervallo
di tempo socialmente significativo: es. un giorno feriale, semi-festivo e
festivo) in varie attività come il nutrirsi, dormire, lavorare, curare i figli,
leggere, assistere parenti, conversare con amici, tragitti per lavoro o studio,
fare sport, vedere la tv, riflettere e pensare alla propria vita e così via. Nei
b.f. figurano gli aspetti monetari della vita degli individui, nei b.t. figurano
‘anche’ quegli aspetti sociali, culturali e di costume che non sono monetari
e/o monetizzabili: la cura dei figli, l’esposizione ai mass-media, le
conversazioni con amici, la ‘navigazione’ via internet per motivi vari (elearning, e-commerce, e-government ecc.), le attività non-profit, la
partecipazione alla cultura e agli svaghi di ogni tipo, i tempi impiegati nei
tragitti per lavoro o studio e così via.
L’ISTAT ha svolto le seguenti indagini UsoTempo nei seguenti anni:
1986-87; 1996(Indagine Pilota); 2002-2003; 2008-09(in corso) su un
campione casuale, a due stadi con stratificazione al primo stadio (Comuni)
ed estrazione sistematica al secondo (famiglie). In particolare l’ Indagine
ISTAT 1986-87 n = 38.110 persone in 13.729 famiglie ; nel 2002-03 il
campione di n= 24.136 famiglie base +2480 ( Comune di Torino) ., nel
2008-2009 40.945 diari giornalieri in 18.250 famiglie
La documentazione statistica di partenza:
dati ISTAT, L’Uso del tempo, Indagine
1^ fase AMD
Multiscopo sulle famiglie ‘Uso del tempo’, Anni
2002-03, Istat-Informazioni n.2, 2007 €27 con CD
Caso di studioB
Tavola 1.1.1 - Attività svolte in un giorno medio settimanale dalla popolazione di 15 anni e più per tipo di attività e alcune caratteristiche
Anni 2002-2003 - (durata media generica in ore e minuti e quota percentuale di tempo sulle 24 ore)
CARATTERISTICHE
T O T A LE
CARATTERISTICHE DEMOGRAFICHE
CLASSI DI ETÀ
15-24
25-44
45-64
65 e più
STATO CIVILE
Celibe/Nubile
Coniugato/a
Separato/a, divorziato/a
Vedovo/a
CARATTERISTICHE SOCIO-ECONOMICHE
LIVELLO DI ISTRUZIONE
Laurea
Diploma superiore
Licenza media
Licenza elementare, nessun titolo
Dormire,
mangiare e
altra cura
della
persona
%
Mg
sulle
CARATTERISTICHE TERRITORIALI
RIPARTIZIONI GEOGRAFICHE
Nord-ovest
Nord-est
Centro
Sud
Isole
TIPI DI COMUNE
Comune centro dell'area metropolitana
Periferia dell'area metropolitana
Fino a 2.000 abitanti
Da 2.001 a 10.000 abitanti
Da 10.001 a 50.000 abitanti
50.001 abitanti e più
Istruzione e
formazione
Volontariat
Tempo libero
o, aiuti,
Vita
Letture, Tv, Altre attività
partecipazi
sociale,
radio e
di tempo
one sociale visione di
Internet
libero
e religiosa spettacoli e
%
%
%
%
%
Mg
Mg
Mg
Mg
Mg
sulle
sulle
sulle
sulle
sulle
Lavoro
familiare
Mg
%
sulle
Mg
%
sulle
10,8
0:25
1,8
3:19
12:01
50,0
2:36
11:53
49,5
1:37
6,8
2:47
11,6
11:24
47,5
4:12
17,5
0:11
0,8
11:40
48,6
2:51
11,9
0:01
13:33
56,4
0:12
0,9
11:53
49,5
2:47
11:52
49,4
2:47
11:33
48,1
13:33
56,5
13,8
0:18
1,2
1:02
4,3
2:11
9,1
1:05
4,5
0:08
3:10
13,2
0:09
0,6
1:41
0,7
0:58
7,0
1:51
4,0
1:40
0,1
3:59
16,6
0:23
1,6
0:52
3,6
-
-
3:56
16,4
0:29
2,0
1:01
11,6
1:29
6,2
1:27
11,6
0:01
0,1
4:04
6,1
0:11
17,0
0:18
0,8
1,2
3:41
15,4
0:05
0,3
3:11
13,2
0:18
1,3
0:24
1,7
-
-
4:13
17,5
0:35
Spostame
nti
Totale
Tempo non
specificato
Mg
%
sulle
Mg
%
sulle
Mg
%
sulle
0:44
3,1
3:57
16,5
1:22
5,7
0:03
0,2
7,7
1:07
4,6
4:39
19,4
1:48
7,5
0:03
0,2
7,0
0:37
2,5
3:14
13,5
1:36
6,7
0:03
0,2
2:14
9,3
0:40
2,8
3:45
15,7
1:18
5,4
0:03
0,2
4,2
3:08
13,0
0:51
3,5
4:59
20,8
0:49
3,4
0:02
0,1
1:30
6,3
1:57
8,2
0:59
4,1
4:26
18,5
1:44
7,2
0:02
0,2
0:49
3,4
2:11
9,1
0:39
2,7
3:40
15,3
1:16
5,3
0:03
0,2
0:55
3,8
2:00
8,3
0:40
2,8
3:35
14,9
1:35
6,6
0:02
0,2
2,4
1:01
4,2
2:52
11,9
0:36
2,5
4:29
18,6
0:45
3,1
0:01
0,1
11:17
47,0
4:10
17,4
0:15
1,0
2:34
10,7
0:15
1,0
0:55
3,8
2:03
8,6
0:46
3,2
3:44
15,6
1:42
7,1
0:03
0,2
11:30
11:46
47,9
49,0
3:28
2:47
14,5
11,6
0:33
0:42
2,3
2,9
2:51
3:07
11,9
13,0
0:13
0:15
0,9
1,1
1:03
1:05
4,4
4,5
1:59
2:03
8,2
8,5
0:45
0:46
3,1
3,2
3:46
3:53
15,7
16,2
1:36
1:26
6,7
6,0
0:03
0:03
0,2
0,2
13:07
54,6
0:54
3,8
..
..
4:18
17,9
0:27
1,9
1:00
4,2
2:36
10,8
0:42
2,9
4:18
17,9
0:54
3,8
0:02
0,1
CONDIZIONE LAVORATIVA
Occupato/a
11:14
46,8
Dirigente, imprenditore/rice, libero/a professionista
11:08
46,4
Direttivo, quadro, insegnante, impiegato/a
11:07
46,3
Operaio/a
11:23
47,4
Lavoratore/rice in proprio, socio/a cooperativa, coadiuvante
11:14
46,8
In cerca di occupazione
12:27
51,9
Casalinga
12:12
50,8
Studente/essa
11:48
49,2
Ritirato/a dal lavoro
13:09
54,8
Altro
13:51
57,7
CARATTERISTICHE FAMILIARI
AMPIEZZA DELLA FAMIGLIA
1 componente
2 componenti
3 componenti
4 componenti
5 componenti e più
Lavoro
retribuito
5:31
23,0
0:03
0,2
6:06
25,4
0:02
0,1
5:00
20,8
0:04
5:28
22,8
0:04
6:20
26,4
0:03
2:13
9,2
1:38
6,8
0,3
2:41
0,3
2:02
0,2
1:53
0:10
0,7
0:53
3,7
1:43
7,1
0:35
2,4
3:11
13,2
0:09
0,6
0:43
3,0
1:54
7,9
0:36
2,5
3:13
13,4
11,2
0:11
0,8
0:53
3,7
1:44
7,2
0:37
2,6
3:14
8,5
0:09
0,6
1:00
4,2
1:41
7,0
0:36
2,5
3:18
7,8
0:08
0,6
0:45
3,1
1:36
6,6
0:29
2,0
2:50
1:37
6,7
0:03
0,2
1:43
7,1
0:02
0,1
13,4
1:41
7,0
0:03
0,2
13,7
1:34
6,5
0:03
0,2
11,8
1:31
6,3
0:02
0,1
0:23
1,6
0:29
2,0
3:37
15,0
0:17
1,2
1:43
7,1
2:15
9,4
1:04
4,4
5:02
21,0
1:40
7,0
0:04
0,3
0:02
0,1
0:01
0,1
6:59
29,1
0:25
1,7
0:54
3,7
2:02
8,4
0:25
1,7
3:20
13,9
0:58
4,0
0:03
0,2
0:07
0,5
4:38
19,3
0:50
3,5
0:08
0,6
1:33
6,5
1:56
8,0
1:10
4,8
4:38
19,3
1:47
7,4
0:02
0,2
0:03
0,2
..
..
3:59
16,6
0:31
2,1
1:04
4,4
3:11
13,3
1:03
4,4
5:18
22,1
0:57
4,0
0:02
0,1
0:14
1,0
0:06
0,4
3:23
14,1
0:26
1,8
1:19
5,5
2:54
12,1
0:49
3,4
5:01
20,9
0:55
3,8
0:03
0,2
0,1
12:34
52,4
1:55
8,0
0:05
0,3
3:11
13,3
0:35
2,4
1:10
4,9
2:32
10,5
0:45
3,1
4:27
18,5
1:12
5,0
0:02
12:31
52,2
1:49
7,6
0:06
0,4
3:37
15,0
0:24
1,7
0:59
4,1
2:35
10,8
0:48
3,4
4:22
18,2
1:09
4,8
0:02
0,1
11:48
49,2
3:01
12,6
0:20
1,4
3:20
13,9
0:15
1,0
0:59
4,1
2:06
8,7
0:44
3,0
3:49
15,9
1:24
5,9
0:03
0,2
11:36
48,3
3:05
12,8
0:44
3,1
3:11
13,2
0:11
0,8
1:03
4,4
1:53
7,8
0:42
2,9
3:38
15,2
1:32
6,4
0:03
0,2
11:54
49,6
2:42
11,3
0:53
3,7
3:08
13,1
0:10
0,7
1:05
4,5
1:55
8,0
0:43
3,0
3:42
15,4
1:27
6,0
0:03
0,2
11:42
48,8
2:47
11,6
0:22
1,5
3:21
13,9
0:19
1,3
0:56
3,9
2:22
9,9
0:45
3,2
4:04
16,9
1:23
5,8
0:02
0,1
11:52
49,4
2:54
12,1
0:17
1,2
3:19
13,8
0:19
1,3
0:59
4,1
2:15
9,3
0:45
3,1
3:59
16,6
1:19
5,5
0:02
0,1
12:05
50,4
2:42
11,3
0:26
1,8
3:17
13,7
0:16
1,1
0:58
4,0
2:06
8,7
0:45
3,1
3:49
15,9
1:22
5,7
0:03
0,2
12:14
51,0
2:15
9,3
0:35
2,4
3:19
13,8
0:17
1,2
1:10
4,9
1:58
8,2
0:46
3,2
3:54
16,3
1:25
5,9
0:02
0,1
12:24
51,6
2:12
9,2
0:28
1,9
3:19
13,8
0:16
1,1
1:09
4,8
2:12
9,2
0:38
2,7
4:00
16,7
1:17
5,3
0:05
0,3
12:02
50,1
2:32
10,5
0:24
1,7
3:04
12,8
0:16
1,1
0:59
4,1
2:30
10,4
0:47
3,3
4:17
17,8
1:23
5,8
0:02
0,1
12:00
50,0
2:34
10,7
0:27
1,9
3:20
13,9
0:17
1,2
1:01
4,3
2:07
8,8
0:44
3,0
3:52
16,1
1:25
5,9
0:04
0,3
12:01
50,0
2:37
10,9
0:22
1,5
3:34
14,9
0:16
1,1
1:04
4,4
2:01
8,4
0:43
3,0
3:48
15,8
1:21
5,6
0:02
0,1
12:00
50,0
2:44
11,4
0:25
1,7
3:27
14,4
0:19
1,3
1:00
4,2
2:02
8,4
0:40
2,8
3:42
15,4
1:21
5,6
0:03
0,2
12:02
50,1
2:33
10,6
0:25
1,8
3:21
13,9
0:19
1,3
1:06
4,6
2:05
8,7
0:45
3,1
3:56
16,4
1:21
5,7
0:03
0,2
11:58
49,9
2:33
10,7
0:28
1,9
3:11
13,3
0:16
1,1
1:02
4,3
2:20
9,7
0:49
3,4
4:11
17,4
1:21
5,6
0:02
0,1
La matrice di intensità (o dati quantitativi )dell’Uso del
Tempo in un giorno festivo di 56 categorie di popolazione in
Italia(pg.105 Fraire, rizzi, Analisi dei Dati, op.cit.)
2^fase
K
Caso di
AMD
studio
N 56, K 15
X
N
Categ.pop.
OM15-24
OM25-44
OM45-64
OM65+
NONM15-24
NONM25-44
NONM45-64
NONM65+
NEM15-24
NEM25-44
NEM45-64
NEM65+
NOM15-24
NOM25-44
NOM45-64
NOM65+
CM15-24
CM25-44
CM45-64
CM65+
SM15-24
SM25-44
SM45-64
SM65+
IM15-24
IM25-44
IM45-64
IM65+
OF15-24
OF25-44
OF45-64
OF65+
NONF15-24
NONF25-44
NONF45-64
NONF65+
NEF15-24
NEF25-44
NEF45-64
NEF65+
NOF15-24
NOF 25-44
NOF45-64
NOF65+
CF15-24
CF25-44
CF45-64
CF65+
SF15-24
SF25-44
SF45-64
SF65+
IF15-24
IF25-44
IF45-64
IF65+
B
DOR MAN ALCUR LR ISTR LDO ACQ CURF VOL VITS SPOR LETT TV GIOC SPT
mg
mg
mg
mg mg
mg
mg
mg
mg
mg
mg
mg mg mg
mg TOT
617
135
95
92
3
17
4
5
13
148
51
92
19
143 1440
578
137
99
77
2
50
10
30
16
101
59
20 126
6
19
116 1440
551
139
104
96
0
70
14
9
24
82
60
28 144
23
96 1440
558
146
113 131
0
29
9
0
21
93
51
34 141
24
90 1440
633
129
84
7
47
17
7
2
17
150
63
11 118
47
108 1440
593
136
120
7
31
34
9
8
10
129
69
18 127
31
118 1440
556
141
107
4
0
101
14
3
38
91
66
33 184
23
79 1440
580
137
124
1
0
82
12
2
32
87
65
36 189
27
66 1440
662
130
71
33
28
20
4
1
16
142
56
12 112
37
116 1440
597
134
92
59
4
63
8
30
20
98
54
25 121
21
114 1440
552
144
99
62
0
99
10
7
28
87
56
33 154
23
86 1440
628
139
112
15
0
71
7
2
33
90
51
38 192
34
28 1440
628
133
78
28
30
21
9
5
24
152
50
5 114
47
116 1440
595
133
81
57
5
55
13
32
17
93
61
23 142
23
110 1440
561
137
94
48
0
95
15
7
35
80
57
33 172
22
84 1440
567
142
112
6
0
86
12
0
29
86
75
49 186
26
64 1440
648
130
83
11
31
21
7
3
10
158
47
10 109
33
139 1440
576
137
100
89
6
50
11
25
14
101
57
20 119
14
121 1440
549
142
94
75
0
84
16
10
25
80
71
29 155
20
90 1440
585
133
116
16
0
100
12
2
21
75
69
33 189
27
62 1440
612
130
101
36
39
11
6
4
14
150
71
10 108
35
113 1440
553
142
122
77
6
32
9
27
14
115
68
13 118
21
123 1440
548
140
125
72
0
53
12
7
25
93
66
25 145
27
102 1440
579
136
149
6
0
66
12
2
41
91
66
21 174
27
70 1440
625
129
95
52
35
14
2
0
9
139
66
11 108
40
115 1440
565
135
125
75
4
41
7
22
12
121
55
21 127
22
108 1440
543
131
125
83
0
63
15
4
28
89
60
29 154
23
93 1440
594
134
133
5
0
54
17
9
35
104
47
33 193
18
64 1440
615
146
113
58
14
82
8
4
10
125
47
14
82
13
109 1440
567
133
103
54
5
179
11
49
25
80
41
21
74
8
90 1440
525
125
100
62
0
266
11
37
71
34
24
94
8
71 1440
563
100
130 181
0
206
6
12
O
24
35
33
17 116
4
51 1440
624
133
109
2
69
74
6
6
21
121
48
14
96
26
91 1440
543
136
103
1
13
228
12
55
29
84
42
15
90
6
83 1440
529
131
103
1
0
307
12
7
43
73
33
17 113
9
62 1440
581
123
126
1
0
229
8
6
50
68
24
19 152
10
43 1440
587
131
95
6
52
126
3
3
17
134
37
14 105
24
106 1440
572
134
99
38
8
180
9
52
19
90
43
26
75
8
87 1440
537
130
102
29
0
270
8
8
41
71
32
23 116
7
66 1440
582
127
132
2
1
218
4
4
41
60
27
27 157
16
42 1440
661
133
94
20
52
57
7
3
15
125
40
21
95
30
87 1440
576
133
93
40
2
202
14
52
23
73
37
25
84
7
79 1440
503
131
89
18
0
287
13
5
35
73
42
27 114
11
62 1440
564
126
116
7
0
229
14
7
51
71
29
24 141
12
49 1440
611
144
99
15
66
70
10
5
18
144
49
10
87
14
98 1440
571
135
102
38
11
170
14
48
22
84
45
16
80
7
97 1440
533
128
96
31
0
298
11
12
36
68
35
17 103
9
63 1440
598
119
121
2
0
243
9
9
38
52
30
18 157
8
36 1440
595
134
125
14
62
86
5
10
19
103
60
14
96
23
94 1440
521
136
111
23
12
220
10
57
37
80
45
9
79
6
94 1440
514
129
114
24
0
303
13
12
47
75
27
11
92
8
71 1440
583
124
129
1
0
222
8
6
59
76
16
7 159
5
45 1440
603
140
131
22
44
101
9
4
22
115
43
11
77
22
96 1440
548
132
119
20
7
224
9
42
33
88
33
14
87
7
77 1440
524
123
117
7
0
313
11
7
52
74
24
18 104
5
61 1440
579
111
143
0
0
231
5
2
68
81
11
15 146
5
43 1440
2^ fase
AMD
X N 56,K 15
Caso di
studi
oB
La creazione della matrice dei dati iniziali
pg89-90 (Fraire, rizzi, op.cit.)
L’insieme N=56 u.s.= categorie di popolazione (macro-dati)
Le N= 56 u.s. rappresentano nel caso di studio considerato ‘categorie di
popolazione’ ottenute dall’incrocio delle modalità dei caratteri scelti per le
analisi:
1. Genere (2 modalità: m,f);
2. età (4 modalità, classi di età:14-24;25-44;45-64;65+);
3. condizione occupazionazionale ( con 2 modalità: occupato, non occupato)
4. Ripartizione geografica
(con 5 modalità: nord-ovest;nordest;centro;sud;isole).
NOTA: Data la struttura delle tabelle dei dati ISTAT disponibili soltanto
Genere ed Età (GE=24=8) possono essere incrociati con gli altri due
caratteri scelti (condizione occupazionale, ripartizione geografica). Pertanto
risultano le seguenti 56 u.s.:
(2 × 4) = 8 ×2= 16 + (8×5)=40 = 56 categorie di popolazione
date dalle seguenti labels:
OM15-24; OM25-44;OM45-64; OM65+; NONM15-24; NONM25-44;
NONM45-64;
NONM65+; NEM15-24; NEM25-44; NEM45-64;
NEM65+; NOM15-24 ; NOM25-44 ; NOM45-64; NOM65+ ; CM15-24;
CM25-44; CM45-64; CM65+; SM15-24; SM25-44; SM45-64 ; SM65+ ;
IM15-24 ; IM25-44; IM45-64; IM65+; OF15-24 ; OF25-44; OF45-64;
OF65+ ;
NONF15-24; NONF25-44; NONF45-64; NONF65+; NONF65+; NEF1524; NEF25-44; NEF45-64; NEF65+ ; NOF15-24; NOF 25-44; NOF4564; NOF65+; CF15-24; CF25-44; CF45-64; CF65+ ; SF15-24;
SF25-44; SF45-64; SF65+; IF15-24; IF25-44; IF45-64; IF65+ ;
2^ fase
AMD
Caso di
studi
oB
La creazione della matrice dei dati iniziali
L’insieme K=15 variabili (= attività giornaliere)
e i dati statistici aij (i=1,..,56;j=1,..,16)i
X N 56,K 15
Le K = 15 variabili qui sono rappresentate da 15 gruppi di attività
(primarie) esaustivi di tutte le attività giornaliere avendo impiegato
la stessa classifica dell’ISTAT pubblicate nelle tavole suddette. In
particolare i 16 gruppi riguardano::
Cura della persona: K1 dormire (DOR), K2=mangiare (MAN),
K3= altra cura di sé (ALCUR); K4= lavoro retribuito (LRE); K5=
istruzione e formazione professionale (IST); lavoro non retribuito::
K6= lavoro domestico (LDO); K7= cure familiari (CURF); K8=
acquisti (ACQ); K9= attività di volontariato (VOL); tempo libero:
K10 = vita sociale (VITS); K11= sport (SPORT); K12= lettura
(LETT), K13=tv e video (TV); K14= giochi (GIOC) ; K15=
spostamenti (SPT)
c) e i dati aij (i=1,…,56; j=1,…,15) in questo caso sono costituiti da
intensità , numeri reali, durate medie, in ore e minuti per ciascuna
delle attività considerate.
NOTA: In particolare occorrerà poi, dato il formato internazionale
scelto dall’ISTAT per l’indicazione delle durate ossia il formato in
ore:minuti (es. 9:39) che è una ‘stringa’ anziché un numero reale,
occorrerà procedere ad un ulteriore codifica ‘a posteriori’ per
trasformare idati in minuti o in ore e decimi di ora.
3^ fase
Caso di studio
B
Le codifiche a posteriore del caso di
studio B: l’uso del tempo in un giorno
festivo di diverse categorie di
popolazione
• Dai dati ISTAT iniziali (1^ fase:
doc.stat. di partenza) in formato excel
relativa ai bilanci del tempo di un
giorno festivo di 56 categorie di
popolazione già nella 2^ fase si è
creata la matrice di intensità o dati
quantitativi (v.pg.105) : ricodificando i
dati espressi in ‘stringhe’ ore:minuti in
dati espressi in minuti primi , inoltre è
stata effettuata la ‘quadratura’ a 1440
minuti = 24 ore delle somme per riga
delle durate medie generiche (Mg)di
tutte le attività.
• Pertanto nella 3^ fase si sono calcolate
solo le prime statistiche univariate
della matrice dei dati di intensità
X(N=56,K=15) riportate a pg.106.
Caso di
studio
B
3^ fase
Le statistiche univariate della matrice
di intensità X(N=56,K=15) dei bilanci
del tempo (pg.106)
Le statistiche univariate della matrice XN=56,K=15 dei
bilanci del tempo
\\\\\\\\\\\
MEDIA
MAX
MIN
DOR
MAN
\\\\\\\\\\\
MEDIA
MAX
MIN
W
σ
σ2
CV
CV%
LR
ISTR
LDO
ACQ
144,07
341,66
345,69
119,05
155,32
47,37
662
146
151
526
312
320
76
503
74
73
0
0
44
27
159
72
78
526
312
276
49
37,09756832
80,74493729
358,9052938
85,02119896
90,87872996
81,98042169
11,54426651
1303,034439
6519,744898
128813,0088
7228,604273
8258,943559
6720,789541
133,2700893
0,02
0,56
1,05
0,24
0,76
0,52
0,24
2
56
105
24
76
52
42
W
σ
σ2
CV
CV%
ALCUR
577,53
CURF
VOL
VITS
SPOR
LETT
TV
GIOC
SPT
85,98
60,82
112,01
117,26
66,87
150,55
108,12
98,69
220
106
197
143
92
209
134
148
0
2
59
69
40
103
69
62
220
104
138
74
52
106
65
86
42,44975647
23,75477933
35,81275265
16,13170245
10,87602622
29,98685405
11,6366706
21,38834766
1801,981824
564,2895408
1282,553253
260,231824
118,2879464
899,2114158
134,6450893
457,4614158
0,49
0,39
0,31
0,13
0,16
0,19
0,1
0,21
49
39
31
13
16
19
10
21
NOTA: Le statistiche univariate della 3^ fase dimostrano
una forte
variabilità nella durata media dedicata alle 15 attività dalle
56 categorie di popolazione pertanto come tabella dei dati
è preferibile scegliere la matrice dei dati standardizzati Z
Z
N=56,K=15
5^ fase dell’AMD:
scelta di una misura di rassomiglianzadissomiglianza tra le u.s.
•
•
Data la matrice di dati quantitativi:
N \ X X 1 X 2 ... X j ... X k
1
x11 x12 ... x1 j ... x1k
2
x21 x22 ... x2 j ... x2 k
...
... ... ... ... ...
X n ,k  ...
i
xi1 xi 2 ... xij ... xik
i'
xi '1 xi '2 ... xi ' j ... xi ' k
N
xN 1 xN 2 ... xNj ... xNk
se si vogliono avere delle misure di rassomiglianza o
dissomiglianza tra tutte le possibili coppie (n  n) di unità
statistiche rispetto ai k caratteri contemporaneamente
considerati (vettori-riga xi  R k )
occorre
scegliere una misura che fornisca la distanza (diversità) o la
vicinanza
(somiglianza)
tra
due
vettori-riga.
Esistono molte misure a seconda delle prorietà possedute
e del livello di misurazione dei caratteri con i quali ciascuna di
esse
è
compatibile.
La scelta tra le diverse misure è legata alla struttura S
posseduta dalla tabella dei dati considerata e le misure con
essa
compatibili.
Una prima distinzione tra le diverse misure di
rassomiglianza/dissomiglianza tra u.s. è comunque quella tra
DISTANZE
(diversi
indici)
per
le
variabili
e
SIMILARITA’(diversi
indici)
per
le
mutabili.
La matrice che contiene tutte le distanze per tutte le coppie
di
u.s.
è
la
matrice
delle
distanze
Dn ,n
•
•
I principali tipi di tabelle dei dati (4^fase dell’AMD) e
le diverse misure di rass./dissom. fra u.s. (5^fase
dell’AMD: la scelta della metrica):
V. M.Fraire pagg.94 per le proprietà degli indici e 95 per la tabella)
Tabella dei dati
(4^ fase dell’AMD)
Misura di rass./dissom. tra unità
(5^fase dell’AMD)
Tabella d’intensità o dati
quantitativi (variabili)
Distanze: Minkowski (semplici e
ponder.)
Mahalanobis
Indici di diversità: Lance e Williams ecc.
Tabelle di contingenza
Distanze: Minkowski (semplici e
ponder.)
Indici di distanza: distanze del ²
Tabelle di descrizione
logica (booleane)
Distanze: Minkowski (semplici e
ponder.)
Hamming
Indici di distanza: distanze del ²
Indici di similarità: Sokal e Michener
Russel e Rao
Jaccard
ecc.
Tabelle dei ranghi
Distanze: Minkowski (semplici e ponder.)
Rizzi
Indici di diversità: ’ di Sperman (*)
’ di Kendall (*)
(*)corretti affinchè varino tra 0 e 1 anziché tra
–1 e +1
l’Analisi Esplorativa Multidimensionale dei Dati:
Cluster Analysis per l’individuazione di tipologie di popolazione
nell’uso del tempo (giorno feriale)
5^
6^
scelta della distanza e di
almeno 3 metodi di cluster
analysis gerarchica aggregativa e
Es. metodi gerarchici aggregativi:
legame medio, ward
Distanza: euclidea e per Ward quadrato della distanza euclidea
7^
Scelta della partizione P a n°? cluster
risultata più significativa nel confronto
tra i metodi gerarchici impiegati.
LE X? TIPOLOGIE FINALI DI POPOLAZIONE
attraverso il metodo NON GERARCHICO delle K-medie
(sulla tabella dei dati non standardizzati)
i baricentri dei cluster e le unità statistiche in ciascuno di essi:
trovare le ‘etichette’ (tipologie) dei cluster
7^
Agglomeration
schedule
(software SPSS)
7^fase
Percorso n.1 : OUPUT SPSS dei Risultati
La Cluster Analysis e i dendrogrammi
dei metodi gerarchici
P
4
P
3
P
3
7^fase
Il metodo non gerarchico delle kmeans
(output SPSS) I baricentri dei 3 clusters
(il vettore delle medie dei clusters):
le 3 tipologie di bilancio del tempo
Number of Cases in each Cluster.
Cluster
unweighted cases
weighted cases
1
2
3
13,0
14,0
13,0
13,0
14,0
13,0
0
40,0
40,0
Missing
Valid cases
7^
•
•
•
•
•
•
•
•
•
•
•
La Cluster Analysis:
i bilanci del tempo tipici e le tipologie finali
Cl1:‘Junior & Senior’
Cl2: ‘Gli stakanovisti’
Cl3:’Home Sweet Home’
Cluster n.1:"Junior & Senior“
N = 13 categorie di popolazione
1CM65+1CF65+2CM65+3CM65+3CF65+4CM14-244CM65+4CF14244CF65+ 5CM14-245CM65+5CF14-245CF65+
Baricentro, Bilancio del tempo tipico del Cluster 1 (in ore e
decimi di ora: CUR 10,7 ;PAS 1,9; IST1,3; LRE1,3; LNR2,6;
PAR0,1; ATL2,4; ASP0,2; LET0,4; TV2,3; SPO0,8. Totale24 ore
Cluster n.2: "Gli stakanovisti“
N = 15 categorie di popolazione
1CM14-24;1CM25-44;1CM45-64;1CF14-24; 1CF25-44; 2CM14-24;
2CM25-44; 2CM45-64; 3CM14-24; 3CM25-44; 3CM45-64; 4CM2544; 4CM54-64; 5CM25-44; 5CM45-64
Baricentro, Bilancio del tempo tipico del Cluster 2 (in ore e
decimi di ora: CUR 9,4; PAS1,4; IST0,4; LRE6,1; LNR1,2; PAR0,1;
ATL2,2; ASP0,2; LET 0,3; TV 1,5; SPO1,2.Totale24
Cluster n.3: "Home sweet home“
N = 12 categorie di popolazione
1CF45-64; 2CF14-24; 2CF25-44; 2CF45-64; 2CF65+; 3CF25-44;
3CF45-64; 3CF65+; 4CF25-44; 4CF45-64;5CF25-44; 5CF45-64
Baricentro, Bilancio del tempo tipico del Cluster 3 (in ore e
decimi di ora: CUR9,4; PAS1,7; IST0,1; LRE2,1; LNR6,4; PAR0,1;
ATL1,8; ASP0 ;LET0,2;TV1,7;SPO0,5.Totale24
7^fase
Cluster Analysis:
Le tipologie finali di bilanci del tempo
costruire con Excel le tipologie finali
Att. e opin. Degli studenti nei
confronti della statistica:
Un caso di studio per l’analisi in
componenti principali (ACP) e le scale
di Likert
Il caso di studio n.2
A:
Atteggiamenti e opinioni degli
studenti nei confronti della
statistica
Caso di studio
A
1^ fase
La documentazione statistica di partenza:
è un questionario
•
La definizione della popolazione P
•
•
•
N = 260 studenti frequentanti corsi di Statistica
Fac.Soc.-Roma Sapienza a.a.2006-07
• P
•
•
•
•
K = 52 modalità-risposta (caratteri)
derivanti dalle Q = 44 domande del
questionario di indagine
Le rilevazioni sono state effettuate tramite metodo
diretto per questionario di indagine composto di Q = 44
domande, parzialmente precodificate e trasposte poi
nella 2^ fase dell’AMD nella matrice dei dati iniziali
AN 260,K 52
•
tramite il software Excel per un totale di K= 52
modalità risposta. Att&OpSt.xls
•
Le rilevazioni sono state effettuate rispettivamente nel
19/10/2006 e 13/3- 19/4/2007
La documentazione statistica di
partenza:
1^fase
Caso di studio A
1^ fase dell’Analisi dei Dati
Rilevazione
a.a.2006-2007
Studenti del corso di
Questionario
N.|_|_|_|_|_|
Università degli Studi di Roma ‘La Sapienza’ – Facoltà di Sociologia
STATISTICA (SECS-S/01) - Prof.ssa Mary Fraire
Indagine sugli atteggiamenti e sulle opinioni
nei confronti della statistica
ICERCA
La presente indagine è anonima ed è fatta esclusivamente per motivi di studio metodologico-statistico. Essa è
inalizzata a sperimentare nuovi strumenti di valutazione degli studenti nei confronti dell’apprendimento di una
disciplina - qui in particolare della statistica - nella consapevolezza del legame esistente tra l’apprendimento
oncettuale e gli aspetti emotivi dell’apprendimento.I risultati oltre ad essere comunicati a rilevazione ultimata
on saranno utilizzati per altri fini.
► Il questionario è anonimo ma se sarai disponibile ad una II^ rilevazione metti qui il tuo
NICKNAME (e conservalo da qualche parte ad es. sul cellulare): ____________________
1. A quale Corso di laurea e Facoltà appartenevi?
1. Vecchio ordinamento – Fac. Soc. di _Roma_________
2. Corso di laurea triennale : SOCIOLOGIA - Fac. Soc. di _Roma
3. Corso di laurea triennale : STESS- Fac. Soc. di _Roma
4. Corso di laurea triennale : GORU- Fac. Soc. di _Roma
5. Corsi di laurea magistrali (specificare ):________________________
_________________________
6. Altra Facoltà e Corso di laurea (specificare):
2. __________________________________
Anno di immatricolazione, anno di laurea, voto di laurea:
1.Anno immatric._____
2.
Anno laurea_______ 3. Voto di laurea:____
3. Sei stato iscritto prima in altra/e Facoltà?
1. No 
2. Si 
Se sì quale/i (specificare):_____________________________________
4. Vuoi indicare in poche parole quale o quali motivazioni ti hanno spinto a frequentare un
Dottorato anziché altri tipi di formazione post-laurea (master ecc.)?
1. No  2. Non so
3. Si 
Se sì quale/i (specificare):_________________________________
___________________________________________________________________________
___________________________________________________________________________
5. Genere
1. Maschio 
2. Femmina 
6. Età (in anni compiuti) : _______
7. Maturità conseguita:
1. Classica
2. Scientifica
3. Tecnico
4. Professionale
5. Socio-pedagogico e magistrale
5. Altro (specificare): _____________________
8. Quale è stato il voto di diploma? _______
1^fase
Caso di
studio
A
9. Quale è la tua condizione occupazionale?
1. Studente
2. Lavoratore senza contratto
3. Lavoratore occasionale o saltuario
4. Lavoratore parasubordinato (a progetto)
5. Lavoratore dipendente (assunzione a tempo indeterminato)
6. Lavoratore autonomo
7. Disoccupato (lavorava in precedenza)
8. Altro (specificare): ___________________________________
Ora segue una batteria di affermazioni per ciascuna delle quali puoi indicare un
punteggio da 1 a 5 secondo l’intensità del tuo disaccordo o accordo con quanto
affermato, impiegando la seguente scala:
1
Totale
disaccordo
2
Raramente
d’accordo
3
Qualche volta
d’accordo
4
Spesso
d’accordo
5
Totale
accordo
Rispondi liberamente assecondando la tua emotività nei confronti delle affermazioni
che seguono.
14. Affermazioni di carattere generale:
1. Ho scelto questa facoltà per le materie trattate ………………….…..
2. Ho scelto la facoltà per i suoi sbocchi professionali …………….……
3. Ho scelto questa facoltà su consiglio della famiglia …………….….…
4. Ho scelto la facoltà su consiglio di amici …………………….………..
1
1
1
1
15. Affermazioni specifiche riguardanti la statistica
1. La statistica mi piace……………………………….……………… …. 1
2. Mi sento insicuro quando devo risolvere
un problema di statistica ……………………………………… ..……. 1
3. Ho problemi a capire la statistica seguendo
il mio modo di ragionare ………………………………………… …… 1
4. Le formule statistiche sono semplici da capire ………………… ..……. 1
5. La statistica è inutile ………………………………………………… .… 1
6. La statistica è una materia complicata …………………………… ….. 1
7. Il mio tirocinio professionale richiederà conoscenze statistiche … .…. 1
8. La conoscenza della statistica mi aiuterà a cercare lavoro ……… … 1
9. Non ho idea di come funzioni la statistica……………………………… 1
2
2
2
2
3
3
3
3
4
4
4
4
5
5
5
5
2 3 4 5
2 3 4 5
2
2
2
2
2
2
2
3
3
3
3
3
3
3
4
4
4
4
4
4
4
5
5
5
5
5
5
5
1^fase
Caso di studioA
10. La statistica non è utile per le professioni comuni ……………… ….. 1 2 3 4 5
11. Mi sento frustrato quando devo affrontare un esercizio di
statistica in classe………………………………………………. ………1 2 3 4 5
12. I ragionamenti statistici non sono applicabili nella
vita quotidiana al di fuori del lavoro…………………………….………..1 2 3 4 5
13. Uso la statistica nella vita di tutti i giorni ………..……………………. 1 2 3 4 5
14. Mi sento stressato durante le ore dei corsi di statistica……………….…1 2 3 4 5
15. Mi diverte frequentare i corsi di statistica ……………………………….1 2 3 4 5
16. Le conclusioni statistiche si presentano raramente nella
vita di tutti i giorni………………………………………………….…..….1 2 3 4 5
17. La statistica è una materia che la maggior parte delle
persone apprende lentamente………………………………….………….1 2 3 4 5
18. Imparare la statistica richiede molta dedizione………………………….1 2 3 4 5
19. Nella mia professione non applicherò mai la statistica………………..…1 2 3 4 5
20. Faccio molti errori matematici in statistica …………………….………..1 2 3 4 5
21. La statistica mi spaventa…………………………………………….…….1 2 3 4 5
22. La statistica comporta molti calcoli……………………………………….1 2 3 4 5
23. Riesco ad imparare la statistica…………………………………………...1 2 3 4 5
24. Capisco le formule statistiche………………………………………..……1 2 3 4 5
25. La statistica è irrilevante per la mia vita……………………………..…..1 2 3 4 5
26. La statistica è particolarmente tecnica …………………………………..1 2 3 4 5
27. Trovo molto difficile comprendere i concetti statistici…………………..1 2 3 4 5
28. Molte persone devono imparare un nuovo modo
di pensare per affrontare la statistica……………………………………..1 2 3 4 5
16. Hai studiato statistica e/o probabilità nella scuola superiore?
1. Sì 
2. No 
17. Come andavi a scuola in matematica ? (1 = molto male,…...,5 = molto bene).
1 2 3 4 5
18. Hai già sostenuto esami di statistica (ad es.statistica di base, statistica sociale
statistica multivariata ecc.)?
1. No 
2. Si 
Se sì quali e quale voto hai preso?: 1. ___________
2. ____________
►Eventuali
osservazioni
sul
questionario
3. ____________
e
la
sua
_____
_____
_____
compilazione:
____________________________________________________________________________________
____________________________________________________________________________________
____________________________________________________________________________________
Grazie per la collaborazione !
Richiamo sulle
domande di
opinione
Le domande di opinione:
un caso particolare di domande strutturate
• Le domande di opinione sono un caso particolare di
domande (strutturate) oggi molto impiegate nelle
indagini demoscopiche, di mercato ecc.
Definizione:
Le domande di opinione sono domande nelle quali
si chiede all’intervistato di esprimere la propria
opinione (atteggiamento, sensazione ecc.) nei
confronti di UNO o PIU’(‘batterie’) SOGGETTI
(stimoli, item) - ad es. prodotti, personaggi,
affermazioni, argomenti ecc. - per il quale o i quali
l’intervistato
potrà
esprimere
una
VALUTAZIONE DI INTENSITA’ attraverso:
• una SCALA VERBALE
• una SCALA NUMERICA
• una SCALA GRAFICA
• o una combinazione di queste.
(v. esempi
pagg.45-51 in M.Fraire,A.Rizzi –
Statistica. Metodi esplorativi e inferenziali,
Carocci ed.)
Cenni su le SCALE INDIRETTE o SCALING e le scale di
Likert
(v.box pagg.98-99 –Fraire, Rizzi, Analisi dei dati op.cit.))
• Le domande di opinione sono molto impiegate nello scaling
ossia la costruzione di scale indirette per la misura delle
opinioni,
atteggiamenti
(sensazioni=affective,
opinioni=cognitive,comportamenti=behavioral) nei confronti
di un dato argomento, o una batteria di items.
• Tali scale sono dette ‘indirette’ perchè ottenute generalmente
da ‘opportune’ combinazioni di due (o più) tipi delle 4 scale
base (generalmente le scale ordinali o le scale d’intervalli o le
dicotomie).
• Le procedure mediante le quali si ottengono le scale indirette
sono di molti tipi e talvolta assai complesse.
• Si accenna soltanto ad esempio alle:
• a) scale parzialmente ordinate ossia scale collocantesi tra le
scale nominali e ordinali impiegando diverse tecniche non
verificando completamente l’assioma dell’ordinamento :
• -tecniche per somma; scale di Likert (ordina le
unità=individui e non le variabili=items); -scalogramma di
Guttmann ecc.;
• Ecc.
• b) scale ad ordinamento metrico: tecnica di Thurstone;
punteggi fattoriali; optimal scaling ecc.)
• I modelli di scaling si possono distinguere a seconda che
siano mirati a scalare le persone o gli stimoli (items) o
entrambi.
• Nelle scale di Likert l’approccio è ‘subject-centered’ ossia
solo gli individui hanno un punteggio e quindi sono
ordinati.Nell’esprimere il suo livello di disaccordo-accordo
con laffermazione ogni risposta ha un punteggio e il
punteggio totale dell’individuo è ottenuto per somma dei valri
di ciascuna risposta agli items.
Caso di studio
2^ fase
La codifica a priori o creazione del data set: matrice dei
dati e dizionario delle variabili (codebook)
•
•
•
La
matrice
tabella inventario
dei
dati
iniziali
è
una
AN 260,K 52
Costruita in base alla codifica a priori = trasposizione di tutti i
dati grezzi rilevati tramite questionario in una matrice NxK
tramite la codifica indicata nel dizionario delle variabili o
codebook.
La matrice dei dati grezzi o tabella inventario AN 260, K 52
N K1-Nick K2-CdLK3-Altro K4-AnnoImmK5-IscrAK6-ltrQaFacualeFac K7-TestOrK8-Quale K9-GenereK10-Eta K11-TitStudK12-AltroTiKt13-VotoDiKp14-OccupK15-AltraCoOc K16-Af GMat K17-Af GSbPr K18-Af GFami
1 999 2 2005-2006 1
2Psicol. 2 20 2 79/100
1
5
2 3
2 999 2 2006-2007 1
1
2 20 3 96/100
8Stud.&Lav.in nero
4
3 1
3
acbe2 2005-2006 1
1
1 34 5 40/60
5
4
1 1
4 999 2 2005-2006 1
1
2 20 5 72/100
8Stud&Disoccup.
4
3 1
5 999 4 2005-2006 1
1
1 20 2 70/100
1
4
2 1
6
agat2 a 2004-2005 2lingue e let stran. 1
2 41 6linguist. 56/60
5
5
3 1
7
bebba4 2005/2006 1
1
2 24 3 76/100
4
5
5 1
8 999 2 2003/2004 1
1
1 26 6itc 48/60
5
5
2 1
9 999 3 2004/2005 1
1
1 22 1 65/100
1
4
4 3
10 999 2 2004/2005 2laurea med chir 1
2 60 1 8 decimi 8pensionata
5
1 1
…
…
260……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………………….
Caso di studio
2^ fase
A
CASO DI Studio A:Att&OpSt
La codifica a priori o creazione del data set:
A:.matrice dei dati B:.dizionario delle variabili (codebook)
•
La
matrice
tabella inventario
dei
dati
AN 260,K 52
iniziali
è
una
[aij  codici ; valori _ numerici ]
Dato statistico:
Costruita in base alla codifica a priori = trasposizione di tutti i
dati grezzi rilevati tramite questionario in una matrice NxK
tramite la codifica indicata nel dizionario delle variabili o
codebook. NON HA NESSUNA STRUTTURA
• La matrice dei dati grezzi o tabella inventario AN 260, K 52
(in formato .xls) dell’indagine sull’atteggiamento e opinione degli
studenti nei confronti della statistica file: Att&OpSt.xls
•
•
V01-N°Quest
V02-Nick
V03-CdL
1
999
2
999
3
acbe
4
999
5
999
6
agata
7
bebba
8
999
9
999
10
999
11
rosablu
12
999
13
999
14
999
15
999
16
999
17
999
18
999
19
999
20
999
21
999
22
999
23
me
24
999
25
999
26
999
27
999
28
999
29
999
30
999
31
sango
32
feffa
33
999
34
999
35
999
36
999
37
999
38
999
39
999
40
999
41
statistica
42
999
43
999
44
999
V04-Altro
2
2
2
2
4
2
4
2
3
2
1
2
2
2
2
2
1
2
2
2
2
2
2
2
2
2
2
2
2
4
2
2
2
1
2
2
4
2
2
2
2
4
2
2
V05-AnnoImmV06-IsAltrFac
V07-QualeFac
V08-TestOr
V09-Quale
2005-2006
1
2 Psicologia
2006-2007
1
1
2005-2006
1
1
2005-2006
1
1
2005-2006
1
1
2004-2005
2 lingue e lett straniere
1
2005/2006
1
1
2003/2004
1
1
2004/2005
1
1
2004/2005
2 laurea med chir
1
1999/2000
1
1
2006/2007
1
1
2006/2007
2 sci della formaz
1
2006/2007
1
2 logopedia
2006/2007
1
1
2006/2007
1
1
1999/2000
2 econ e comm
1
2003/2004
2 sci politiche
1
2006/2007
1
2 psicologia
2006/2007
1
1
2004/2005
1
1
2006/2007
1
1
2004/2005
1
1
2004/2005
2 lettere e filo
1
2004/2005
1
1
2004/2005
2 acc. Mil-aeron
1
2006/2007
1
1
2003/2004
1
1
2004/2005
1
1
2006/2007
1
2 psicologia
2003/2004
1
1
2004/2005
2 farmacia
2 medicina
2006/2007
2
999
1
1999/2000
1
2 psicologia
2006/2007
1
1
2006/2007
2
2
2006/2007
1
1
2005/2006
1
1
2006/2007
1
1
2006/2007
1
1
2004/2005
1
2 psicologia
2006/2007
1
2 logopedia
2004/2005
1
1
999
1
2 psicologia
V10-Genere
V11-Eta
V12-TitStu
2
20
2
2
20
3
1
34
5
2
20
5
1
20
2
2
41
6
2
24
3
1
26
6
1
22
1
2
60
1
2
42
4
1
19
1
2
20
5
2
19
5
1
24
4
2
18
2
1
30
3
2
26
1
2
20
6
2
19
5
2
20
2
2
45
4
2
21
6
2
24
5
2
21
2
1
26
1
2
47
3
1
23
2
2
45
3
2
37
6
2
22
2
2
22
2
1
999
1
2
27
3
1
20
2
2
19
1
1
19
2
2
20
2
1
19
2
1
20
2
2
22
5
2
19
5
1
21
2
2
19
3
2^
fase
Il dizionario delle variabili o codebook (in formato
excel) v.pag.86-88 Fraire, Rizzi, Analisi deiDati,
op.cit.
Carattere
Modalità
Unita statistiche
Nickname
Corso di Laurea (D01)
N° questionario
nick
Vecchio Ordinamento
CdL Trienn.: Sociologia
CdL Trienn.:STESS
CdL Trienn.:GORU
CdL Magistr
Altra Fac o CdL
AltroCdLFac
Anno accademico
No
Sì
nome facoltà
No
Sì
nome facoltà
Maschio
Femmina
età
Maturità classica
Maturità scientifica
Istituto Tecnico
Istituto Professionale
Istituto Socio-pedagogico e mag.
Altro titolo
Altro
voto
Studente
Lavoratore senza contratto
Lavoratore occasionale o saltuario
Lavoratore parasub. (a progetto)
Lavoratore dipendente
Lavoratore autonomo
Disoccupato
Altro
Anno immatricolazione (D02)
Precedente Iscriz. In altra facoltà(D03)
Facoltà precedente iscrizione (D03)
Se ha fatto test di orient.presso altre fac.(D04)
Presso quale facoltà(D04)
Genere(D05)
Eta(D06)
Titolo di studio(D07)
Titolo di studio(D07)
Voto di diploma (D08)
Condizione occupazionale (D09)
Altra condiz.occupaz.
Ho scelto questa fac.per le materie trattate(D14.1)
Ho scelto la facoltà per i suoi sbocchi professionali (D14.2)
Ho scelto questa facoltà su consiglio della famiglia (D14.3)
Ho scelto la facoltà su consiglio di amici (D14.4)
La statistica mi piace (D15.1)
Totale disaccordo
Raramente d'accordo
Qualche volta d'accordo
Spesso d'accordo
Totale accordo
Totale disaccordo
Raramente d'accordo
Qualche volta d'accordo
Spesso d'accordo
Totale accordo
Totale disaccordo
Raramente d'accordo
Qualche volta d'accordo
Spesso d'accordo
Totale accordo
Totale disaccordo
Raramente d'accordo
Qualche volta d'accordo
Spesso d'accordo
Totale accordo
Totale disaccordo
Raramente d'accordo
Qualche volta d'accordo
Spesso d'accordo
Caso di
studi
oA
Codice modalità
001-125
dato testuale
1
2
3
4
5
6
dato testuale
dato testuale
1
2
dato testuale
1
2
dato testuale
1
2
in anni compiuti
1
2
3
4
5
6
dato testuale
in 100 o 30 o 10
1
2
3
4
5
6
7
8
dato testuale
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
mutabile sconnessa
mutabile sconnessa
da codificare
mutabile ordinata
ordinata
mutabile logica (booleane, variabile dicotomi
mutabile connessa-nessuan struttura algebri
mutabile logica (booleane, variabile dicotomi
mutabile connessa-nessuan struttura algebri
mutabile sconnessa
variabile (continua)-struttura algebr.
mutabile connessa-nessuan struttura algebri
da codificare
variabile (discreta)-struttura algebrica
mutabile connessa-nessuan struttura algebri
da codificare
variabile discreta-struttura algebrica
variabile discreta-struttura algebrica
variabile discreta-struttura algebrica
variabile discreta-struttura algebrica
variabile discreta-struttura algebrica
3^ fase
AMD
•
•
•
•
•
•
•
Caso di studio
Le codifiche a posteriori di 3^ fase del caso di
studio considerato:
-Codifiche di TIPO I:
- Divisione in classi di variabili cardinali: nel caso
considerato l’età rilevata è in anni compiuti. Le classi di età
scelte sono state tre: 18-25; 26-30;oltre 30.
Codifiche di TIPO II
- Ricodifica del voto di diploma in votazioni tutti in /100
essendo stati forniti alcuni anche in /60 e /10
- Riorientamento degli items delle scale di atteggiamenti
visto che gli items della scala di atteggiamenti consistono in
una serie di affermazioni-stimoli concernenti la statistica, sia
positivi ossia che definiscono un atteggiamento positivo nei
confronti della statistica ( “la statistica mi piace” , “mi diverte
frequentare i corsi di statistica” e così via) ; che negativi ossia
denotanti un atteggiamento negativo nei confronti della
statistica ( “la statistica è inutile”, “mi sento insicuro quando
devo risolvere un problema di statistica”, ecc.). Occorre allora
riorientare questi items in modo che si possa identificare un
punteggio 5 con un atteggiamento sempre positivo,
indipendentemente dall’item che si sta analizzando e ad un
punteggio 1, un atteggiamento sempre negativo,
indipendentemente dall’item che si analizza. In sintesi, a
prescindere dall’item preso in considerazione, un punteggio
basso coincide con un atteggiamento negativo nei confronti
della statistica e un punteggio alto con un atteggiamento
positivo
I missing value ovvero le mancate risposte, che appaiono
nella matrice con il codice 999. In questo caso si è deciso ad
esempio di sostituire i missing con la media della serie, cioè
con il valore medio dell’item preso in considerazione ma
sarebbe preferibile la mediana
3^ fase
Caso di studio
A
(segue) Caso di studio A: Att&OpSt
le codifiche a posteriori.
1
Codifica
di tipo I: Il riorientamento degli items
Quindi, per tutti gli items che denotano un atteggiamento
positivo, es.” la statistica mi piace”,il punteggio è rimasto
invariato, ovvero: 1= totale disaccordo, 2=raramente
d’accordo, 3=qualche volta d’accordo, 4=spesso
d’accordo, 5=totale accordo. Per quegli items, invece,
cosiddetti negativi, es. “la statistica è inutile” il punteggio
è stato invertito, e si avrà: 1=totale accordo, 2=spesso
d’accordo, 3=qualche volta d’accordo, 4=raramente
d’accordo, 5=totale disaccordo.
In sintesi, a prescindere dall’item preso in considerazione,
un punteggio basso coincide con un atteggiamento
negativo nei confronti della statistica e un punteggio alto
con un atteggiamento positivo .
Codifica di tipo I: I missing value
I missing value ovvero le mancate risposte, che appaiono
nella matrice con il codice 999. In questo caso si è deciso
ad esempio di sostituire i missing con la media della
serie, cioè con il valore medio dei punteggi dati all’item
preso in considerazione mentre sarebbe più giusto
sostituire con la mediana (opzione generalmente non
disponibile nei software) trattandosi di distribuzioni molto
asimmetriche e quindi la mediana rappresenta meglio il
valore medio della distribuzione.
Caso di studio
A
3^ fase
Tra le codifiche della 3^ fase:
importanti anche le prime statistiche
descrittive
( v.pag.103-104 Fraire, Rizzi, op.cit).
Figura 9: Statistiche descrittive dei 32 intems sugli atteggiamenti e opinioni
nei confronti della statistica: media aritmetica,mediana, moda, s.q.m., varianza,
asimmetria
Mean
Median
Mode
Std.
Deviation
Variance
Skewness
V27AffSpec.
'La
statistica
mi piace'
14,15
3,00
3
106,616
V28V29AffSpec
AffSpec
V30'Mi sento
'Ho
AffSpec.'
insicuro problemi
Le
quando
a capire
formule
devo
la stat. statistiche
sono
ris.proble secondo il
mi di
mio modo semplici
stat.'
di rag.' da capire'
14,92
25,86
29,40
4,00
3,00
3,00
5
3
3
106,536
149,860
V32AffSpec.
V31'La
AffSpec.'La
statistica è
statistica è
una materia
inutile'
complicata'
13,0
11,13
1,00
4,00
1
3
V33AffSpec.'Il
mio
tirocinie
profess.
richiede
conoscenze
di stat.'
18,43
3,00
3
161,595
106,730
87,152
122,815
11366,965 11349,885 22458,138 26112,966
9,199
9,199
6,389
5,879
11391,196
9,200
7595,396
11,333
15083,566
7,919
4^ fase
Caso di studio
A
Caso di studio A: Att&OpSt
La scelta della tabella dei dati
• La tabella dei dati scelta , in forma non
standardizzata, è una matrice di
punteggi avente struttura algebrica di
spazio vettoriale .
• La tabella dei dati X(N=260; K=32+3)
ha 32 variabili attive (4 item generici e
28 item specifici, v. quest.pg.79-80) e
• 3variabili illustrative: genere, titolo di
studio, condizione professionale) in cui
sono state effettuate rispetto alla
matrice dei dati iniziali A(N=260,
K=52)le codifiche a posteriori di 3^
fase sopra indicate (riorientamento
degli items negativi delle scale di
atteggiamenti, missing values).
La tabella dei dati, in forma non
standardizzata, dell’indagine sugli
4^fase
‘Atteggiamenti e opinioni degli studenti nei confronti
della statistica’ riguardante N=260 studenti ,
28 items come variabili attive e 3 variabili
illustrative (genere, titolo di studio,”come andavi a
scuola in matematica”?)
X N 260,K 283
NUM
QUES
V1
V2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
3
3
3
3
3
3
3
3
2
3
3
2
3
1
1
2
3
5
4
3
3
5
3
3
4
4
3
3
3
3
2
2
4
2
-----
V27
V28
4
5
4
2
4
4
4
3
4
1
5
2
2
2
3
5
4
4
5
5
5
5
3
3
3
4
1
5
3
4
4
5
3
4
……. …
….
…
….
……
.
……
.
250
251
252
253
254
255
256
257
258
259
260
3
5
3
1
3
4
2
2
1
3
5
4
4
3
4
5
4
3
4
4
4
5
5
5
3
4
5
5
3
4
2
3
5
3
4
3
2
2
4
3
3
2
3
2
V54
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
3
3
3
4
5
4
2
2
2
1
3
2
4
3
3
3
2
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
……..
3
4
3
2
3
3
2
3
1
2
3
Gen
ere
Tit.
Stud
2
2
1
2
1
2
2
1
1
2
2
1
2
2
1
2
2
2
3
5
5
2
6
3
6
1
1
4
1
5
5
4
2
2
Come
andavi
a
scuola
n
mat?.
1
8
5
8
1
5
4
5
1
8
5
1
1
1
1
1
1
1
2
1
2
2
2
2
2
2
2
2
2
2
1
1
1
3
3
1
5
2
6
1
1
1
1
1
6
1
1
1
1
1
…
….
Caso di
studi
o
6^fase AMD
Variabili attive: i 28 items
mediante l’ACP si individuano le
dimensioni sottostanti l’atteggiamento
degli studenti nei confronti della
statistica
Tabella 3: Matrice degli autovalori :
Figura 4: Scree plot
Autovalori
Valori
assoluti
10,293
3,453
1,893
1,383
1,277
1,011
% varianza
36,761
12,332
6,760
4,939
4,561
3,611
Scree Plot
%cumulata
36,761
49,093
55,853
60,792
65,354
68,964
12
10
8
Eigenvalue
Componen
ti Principali
CP1
CP2
CP3
CP4
CP5
CP6
6
4
2
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Component Number
Dalla matrice dei pesi fattoriali (factor loadings) si interpretano le
CP scelte, nel caso di studio considerato si individuarono:
CP1: “UTILITA’ E UTILIZZO”,
CP2: “SFORZO E SODDISFAZIONE”
CP3:“MOTIVI E-MOTIVI”
La matrice dei pesi fattoriali (factor loadings)7^ fase
dei risulta
o correlazioni variabili originarie-CP OUTPUT
-Numerici
Tabella 5.5 : La matrice delle correlazioni variabili originarie (32 item)/ CP.
Il
caso
di
studi
o A
consi
dera
to
Items
V23-AffGener.'Ho scelto la Fac.per le materie
trattate'
V24-AffGener.'Ho scelto la Fac.per sbocchi
profess.'
V25-AffGener.'Ho scelto la Fac.su consiglio
famiglia'
V26-AffGener.'Ho scelto la Fac.su consiglio amici'
CP1
CP2
CP3
,117
,647
-,236
,079
,597
,734
,067
,583
,755
,010
,379
,841
V27-AffSpec. 'La statistica mi piace'
,140
,618
-,142
,629
,596
-,350
,493
,572
-,068
,453
,331
-,318
,108
,499
-,303
,629
,596
-,351
,441
,251
,178
,475
,575
,056
,116
,598
-,350
,787
-,184
,026
,681
-,186
-,039
V28-AffSpec 'Mi sento insicuro quando devo
ris.problemi di stat.'
V29-AffSpec 'Ho problemi a capire la stat. secondo
il mio modo di rag.'
V30-AffSpec.'Le formule statistiche sono semplici
da capire'
V31-AffSpec.'La statistica è inutile'
V32-AffSpec. 'La statistica è una materia
complicata'
V33-AffSpec.'Il mio tirocinie profess. richiede
conoscenze di stat.'
V34-AffSpec.'La conoscenza della stat. mi aiuterà a
cercare lavoro'
V35-AffSpec. 'Non ho idea di come funzioni la
statistica'
V36-AffSpec.'La statistica non è utile per le
professioni comuni'
V37-AffSpec.'Mi sento frustrato quando devo
affrontare un esercizio di statistica'
- grafici
NOTA: 1) le correlazioni variabili-fattori (pesi fattoriali) delle CP dovrebbero essere
al di sopra di |0.3-0.4| affinché le variabili originarie (items) possano essere
considerate misure ‘parallele’ (CONSISTENTI) della stessa variabile concettuale
NOTA 2) Il quadrato dei pesi fattoriali rappresenta, per riga, la quota di varianza
della variabile originaria spiegata da ciascuna componente principale (la
somma di tutte le CP è uguale ad 1 essendo gli autovettori normalizzati.)
(segue)La matrice dei pesi fattoriali
(factor loadings)
o correlazioni variabili originarie-CP(pag.199-201)
V37-AffSpec.'Mi sento frustrato quando devo
affrontare un esercizio di statistica'
V38-AffSpec.'I ragionamenti statistici non sono
applicab, nella vita quotidiana'
V39-AffSpec. 'Uso la statistica nella vita di tutti
i giorni'
V40-AffSpec. 'Mi sento stressato durante le ore
dei corsi di statistica'
V41-AffSpec. 'Mi diverte frequentare i corsi di
statistica'
V42-Aff.Spec.'Le conclusioni stat. si presentano
raramente nella vita quotidiana'
V43-AffSpec. 'La statistica è una materia che la
maggior parte '
V44-AffSpec. 'Imparare la statistica richiede
molta dedizione'
V45-AffSpec.
'Nella
mia
profess.
non
applicherò mai la statistica'
V46-AffSpec. 'Faccio molti errori matematici in
statistica'
V47-AffSpec. 'La statistica mi spaventa'
V48-AffSpec. 'La statistica comporta molti
calcoli'
V49-AffSpec. 'Riesco ad imparare la statistica'
V50-AffSpec. 'Capisco le formule statistiche'
V51-AffSpec.'La statistica è irrilevante per la
mia vita'
V52-AffSpec. ' La statistica è particolarmente
tecnica'
V53-AffSpec.'Trovo
molta
difficoltà
ad
esprimere i concetti statistici'
V54-AffSpec. 'Molte persone devono imparare
un nuovo modo di pensare '
,681
-,186
-,039
,617
-,163
,006
,309
-,241
,087
,763
-,202
-,020
,619
-,117
,129
,630
-,169
,020
,368
-,139
,140
,632
-,128
,130
,705
-,068
,126
,639
-,170
-,058
,359
-,266
,106
,940
-,199
,037
,716
,762
-,072
-,201
,010
-,038
,940
-,199
,039
,611
-,078
,100
,494
-,171
-,068
,838
-,082
,137
Il caso di
studio A
considerat
o
7^ fase
OUTPUT dei risultati:
-Numerici
- grafici
NOTA: 1) le correlazioni variabili-fattori (pesi fattoriali) delle CP dovrebbero essere
al di sopra di |0.3-0.4| affinché le variabili originarie (items) possano essere
considerate misure ‘parallele’ (CONSISTENTI) della stessa variabile concettuale
NOTA 2) Il quadrato dei pesi fattoriali rappresenta, per riga, la quota di varianza
della variabile originaria spiegata da ciascuna componente principale (la
somma di tutte le CP è uguale ad 1 essendo gli autovettori normalizzati.)
7^ fase
OUTPUT dei risultati:
-Numerici
- grafici
Il caso di
studio
considerato
Ouput ACP:
Plot dei pesi fattoriali nello spazio
delle prime 3 CP (pag.199)
Component Plot
1,0
C
o
m
p
2
w
nt
ab
f
g
x
y
1
5 2o
h
6
e s
rj u
,5
0,0
i
3 p
d
klq
c
m
z
4
v
-,5
1,0
,5
0,0
C omp -,5
1
0,0
-,5
3
Comp
,5
1,0
Ouput ACP(SPSS):
Plot dei pesi fattoriali
sul piano delle prime due CP
spiegano il 46,029% della varianza totale originaria
7^ fase
(λ
1=32,493+λ2=13,536=46,029)
OUTPUT
dei risultati:
Il caso di
studio
considerato
-Numerici
- grafici
Per migliorare l’interpretazione si può effettuare una “rotazione
degli assi principali”. Ci sono due tipi di rotazioni: ortogonali (es.
varimax, quartimax) e oblique (es.oblimin).
Le tre variabili sintetiche
CP1= Utilità e utilizzo
, CP2= Sforzo e soddisfazione
CP3= Motivi e-Movivi
N
001
002
003
..
..
..
..
..
..
..
..
..
..
.
..
.260.
CP1Va rima x
Utilità &Utilizzo
-0,25805
-0,12924
-0,12734
-0,12228
-0,12134
-0,12154
-0,77755
-0,11656
-0,12163
-0,72957
-0,12283
-0,11811
-0,12265
0,88896
-0,25955
-0,12162
0,75587
-0,1209
-0,12023
-0,11897
0,7898
-0,11496
0,79273
-0,11695
-0,25776
-0,35265
0,5686
-0,11951
-0,15468
-0,14936
0,16727
-0,14677
0,24747
Caso di
studi
oA
CP2:
CP3-Motivi e -Motiv
Sforz o e Soddisfa z -0,124
-0,16602
1,83581
-0,16531
-0,10518
-0,16025
-0,10031
-0,15943
-0,10585
-0,16153
-0,10418
-0,15961
-0,1032
-0,16545
-0,10315
-0,1615
-0,10412
-0,15968
-0,10289
-0,1573
-0,10265
1,44942
-0,1071
-0,15639
-0,10681
-0,15826
-0,1092
-0,15488
-0,10457
-0,1598
-0,10893
-0,16119
-0,44551
0,58586
-0,10624
-0,1712
-0,0278
-0,60441
-0,1058
-0,16052
-0,91683
-0,15698
-0,10214
-0,15249
-0,38169
-0,45756
-0,09955
-0,16184
-0,10438
-0,15887
-0,10223
-0,16465
-0,43954
-0,15954
-0,10352
-0,15481
-0,17308
-0,10013
-0,09213
-0,06903
-0,09583
-0,08887
-0,08767
-0,0839
-0,08397
-0,08499
-0,08756
-0,06717
NOTA: nell’ambito delle fasi dell’analisi dei dati tale output è
rappresentato dal feedback dall’output dei risultati alla ‘nuova’
tabella dei dati:
Caso di
ACP nello spazio delle unità:
studio
Esempi di utilizzo delle nuove variabii sintetiche A
variabili illustrativa scelta:
dom.5-Genere
Variabile sintetica CP1: Utilità e utilizzo secondo il genere
Genere
Non utile o non utilizzerò
Qualche volta utile o
utilizzerò
Utile e/o utilizzerò
Totale
N.
Maschio
57
Femmina
127
Totale
184
%
80,3%
67,2%
70,8%
N.
0
9
9
,0%
4,8%
3,5%
N.
14
53
67
%
19,7%
28,0%
25,8%
N.
71
189
260
%
100,0%
100,0%
100,0%
%
Variabile sintetica CP2: Sforzo e soddisfazione secondo il genere
Genere
Con sforzo o
insoddisfazione
N.
Maschio
27
%
38,0%
40,6%
39,9%
Qualche volta con
sforzo e soddisfazione
N.
%
10
19
29
14,1%
10,2%
11,2%
N.
34
92
126
%
47,9%
49,2%
48,8%
N.
71
187
258
%
100,0%
100,0%
100,0%
Senza sforzo e
con soddisfazione
Totale
Femmina
76
Totale
103
Variabile sintetica CP3: Motivi e-Motivi secondo il genere
Genere
Mi sento insicuro, ho
problemi
N.
Maschio
54
Femmina
114
Totale
168
%
76,1%
60,3%
64,6%
A volte mi piace a volte
sono insicuro
N.
4
16
20
5,6%
8,5%
7,7%
N.
13
59
72
%
18,3%
31,2%
27,7%
N.
71
189
260
%
100,0%
100,0%
100,0%
Mi piace, non ho problemi
Totale
%
La percezione sociale dell’insicurezza
urbana:
Un caso di studio per l’analisi in
componenti principali (ACP) delle
corrispondenze multiple e gli indici
sintetici
Il caso di studio 3:
• La QUALITA’ DELLA VITA
NELLE REGIONI
ITALIANE
• Un ESEMPIO emblematico di fenomeno
complesso e del ruolo dell’AMD
• La
costruzione
di
INDICI
SINTETICI
‘OTTIMALI’
per
la
GRADUAZIONE
MULTIDIMENSIONALE DI UN FENOMENO
COMPLESSO: Un’applicazione alla Qualità della
Vita (QdV) delle regioni italiane
Elementi importanti percorribili con l’AMD nella
costruzione degli indici sintetici:
• La struttura multidimensionale:
dimensioni latenti’ (es. nell’ACP)
i ‘fattori o
o le tipologie politomiche (nell’ACM, CA)
• La teoria ausiliaria alla misurazione empirica
percorribile con l’AMD
• L’attendibilità delle misure empiriche ottenute
• Un feedback ‘non indifferente’ sulla ‘validità’
della definizione concettuale : migliorare la
definizione del fenomeno complesso!!!!
La formalizzazione del problema da analizzare:
un esempio di fenomeno sociale complesso:
la QdV dal punto di vista macro-sociale
QdV
delle
20 regioni
italiane
Approccio:
MACROSOC.
OGGETTIVO
DESCRITT.
Es.:
Comparazione
della QdV nelle
20 regioni
italiane
Aspetti o dimens.
rilev. (social areas):
A)socio-demogr.
B)sanitaria
C)lavoro e occup.
D)sicurezza sociale
E)stress, disagio soc.
F)benessere econ.
G)cultura e t.l.
Indicatori empirici
(indic.soc.oggettivi):
A) X1 : indvecch (-)
X2 : e0 ,e x (in
anni)(+)
B) X3 : mortinf (-)
X4 : plpubb(+)
X5: tuplpubb(+)
C) X6 : nflineta (-)
X7 : flpop (+)
X8 : disocc.(-)
D) X9:delpers(-)
X10 :incstrad(-)
E) X11 : suicidi (-)
F) X12 : PIL (+)
X13 : autopriv (+)
G) X14 : consricr (+)
X15 : abbtvpr (+)
X 16: laureati (+)
… X17……………….
X18:
20,18
Matrice dei
dati iniziali:
X 20,18
X1 X 2 ..X j .. X18
01Pie \ x1,1 x1,2 ..x1, j .. x1,18
02Vad x2,1 x2,2 ..x2, j .. x2,18
N\X
...
... ...
...
...
...
x
...
20Sar x20,1 x20,2 20, j x20,18
Matrice
d’intensità
o dati quantitativi
( variabili)
[struttura
algebrica di
spazio vettoriale]
•Esiste un gap tra concetti e misure empiriche non colmabile con la logia del certo, regole uniche: ma
assume rilevanza l’esplicitazione del processo logico-concettuale di passaggio dai concetti alle misure
empiriche: l’operazionalizzazione della definizione teorica. Non ci soffermiamo qui su tale argomento che
irguarda il vasto argomento degli ‘indicatori sociali’.
La formalizzazione del problema da analizzare:
un esempio di fenomeno sociale complesso:
la QdV dal punto di vista soggettivo-percettivo
QdV
degli individui
Approccio:
MICROSOC:
SOGG.
PERCETT.
Es.: Inchiesta
(survey) sulla
QdV.
Campione
prob. di
n = 500 indiv.
Aspetti della
vita
(life
domains):
Indicatori empirici
(soggettivi-percett.)
ITEM:”Pensando
agli ultimi
dodici mesi, quanto
01)salute
02)matrimonio si ritiene
insoddisfatto
o
03)governo
soddisfatto
04)amicizie
dei seguenti aspetti
05)abitazione
che
06)svago e t.l.
hanno riguardato
07)lavoro
la sua vita?
08)rapp.di
Quale numero si
vicin.
09)sit.econ.pers. avvicina di più a ciò
che sente?”
10)istruzione
1 2 3 4 5 6 7
tot.
insod.
indiff.
Matrice dei dati
iniziali
A 5001
,0
K
IT1 IT2 .....IT10
N-----------------------001 5 4 6
002 7 6 7
..... .........................
500 4 5 4
tot.
sodd.
Matrice dei
punteggi
(considerando solo
le var.attive)[struttura
algebrica di spazio
vettoriale]
La base dei dati per la costruzione dei 18 indicatori
della QdV
Fonte dei dati:ISTAT – Compendio statistico italiano - anno 1993 e le Regioni in cifre 1993
ed hanno riguardato i seguenti indicatori oggettivi-descrittivi dei quali si indicano i
numeratori e denominatori dei rapporti statistici impiegati ricordando che sono riferiti
alle regioni :
X1 = INDVECCH pop.65anni e oltre/Pop. In età 0-14 × 100 nel 1991
X2 = EOM vita media (n° di anni) alla nascita dei maschi (nel 1984-88)
X3 = EOF vita media (n° di anni) alla nascita delle femmine maschi (nel 1984-88)
X4 = MORTINF n.morti 1°anno di vita/Nati-vivi x 1000× nel 1991
X5 = PLPUBB n.posti letto ospedal.pubbl./pop.resid.regione × 1000 abit.
X6 = TUPLPUBB tasso di utilizzazione media dei posti letto pubblici: [tot.giornate
di degenza per tutti i ricoveri avvenuti nell’anno/n°posti letto × 365] ×100
X7= NFLINETA non forze di lavoro (studenti, casalinghe, pensionati e ritirati dal
lavoro altre categ.non profess.) maschi in età lavorativa(18-65 anni)/ totale
non forze di lavoro maschili × 100
X8 = FLPOP forze di lavoro (occupati + in cerca) sul totale popolazione × 100
X9 = DISOCC n. in cerca di lavoro/tot.forze di lavoro × 100
X10 = DELPERS n.delitti contro la persona / pop.resid. regione× 100.000
X11 = INCSTRAD n.morti per incid.strad / n.infortunati per inc.strad. × 100
X12 = AUTO n.autovetture ad uso privato /pop.resid.regione × 100
X13 = SUICIDI n.suicidi /pop.resid.regione × 100.000
X14 = PIL prodotto interno lorod per ab. in lire correnti 1989
X15 = CONSALIM spese in lire per cons. alimentari/tot.spese per consumi delle
famiglie × 100
X16 = CONSRICR spese per consumi ricreativi(esclusa l’istruzione)/tot. spese per cons.
Delle famiglie × 100
X17=ABBTVPRI n.abbon.tv /n.famiglie × 100
X18=LAUREATI n.laureati /pop.resid.da 6 anni ed oltre nel 1981
la costruzione di indici sintetici ‘ottimali’
per la graduazione multidimensionale
(ad es.della QdV delle regioni italiane)
•
•
•
•
•
•
•
•
•
•
Tra gli scopi per i quali può essere impiegata l’ACP di particolare
interesse per la ricerca ‘applicata’ è la costruzione di indici sintetici
(composite indices) e variabili sintetiche (composite variable,
index, scale indirette)
Un indice sintetico può essere definito come una misura unica, un
unico valore numerico ottenuto, per ciascuna unità statistica iN
del collettivo considerato, tramite diversek possibili
procedure
j  K
statistiche (tecniche di scaling) consistenti in ‘opportune’
combinazioni, non necessariamente lineari, dei caratteri originari che
denomineremo qui anche ‘indicatori ‘(semplici) costituenti la
descrizione completa (vettore-riga) di ciascuna unità statistica.
L’insieme di tutti gli indici composti per tutte le N u.s. costituiscono
le ‘determinazioni’ di una variabile sintetica semplice (composite
variable, index)
La misurazione sintetica di fenomeni complessi riveste particolare
utilità per la ricerca applicata consentendo tramite la variabile
sintetica :
- confronti di fenomeni multivariati nel tempo e nello spazio non
altrimenti possibili
- l’inserimento della variabile sintetica come variabile statistica
semplice in modelli complessi (regressione multipla, path analysis
ecc.)
Affinchè tuttavia gli indici sintetici e le variabili sintetiche abbiano
effettivo carattere di operatività devono essere costruiti con criteri
di ottimalità dal punto di vista statistico e di carattere oggettivo al
fine di consentire una chiara interpretazione concettuale
dell’indice sintetico ottenuto e disporre di una misura della sua
attendibilità (reliability).
Gli indici sintetici calcolati con l’ACP che qui considereremo
sono di due tipi:
a) single factor solution;
b) secondo il segno della prima componente (A.Rizzi)
Un esempio di matrice di dati quantitativi:
La matrice X N 20, K 18 dei 18 Indicatori oggettividescrittivi della QdV (approccio macro-sociale,
ecologico) delle 20 Regioni Italiane.Anno 1991.(*)
Fonte: M.Fraire – Metodi di AMD – CISU pagg.66-69. Gli indicatori sono stati
costruiti con dati presi da ISTAT Compendio Statistico Italiano.Anno 1993 e le Regioni in cifre
1993
La QdV nelle regioni italiane nel 1991:
Analisi in Componenti Principali (ACP): output dei
risultati
N
Lo spazio delle variabili
R
La matrice degli autovalori
Total Variance Explained
Total
9,700
2,183
1,679
1,265
1,086
,520
,392
,318
,249
,181
,150
,139
5,599E-02
3,033E-02
2,313E-02
1,905E-02
5,933E-03
9,276E-04
Scree Plot
Extraction Sums of Squared Loadings
Total % of Variance Cumulativ e %
9,700
53,891
53,891
2,183
12,129
66,021
1,679
9,330
75,351
1,265
7,029
82,380
1,086
6,036
88,416
,520
2,891
91,306
,392
2,179
93,486
,318
1,765
95,251
,249
1,383
96,634
,181
1,008
97,642
,150
,834
98,476
,139
,772
99,248
5,599E-02
,311
99,559
3,033E-02
,168
99,728
2,313E-02
,128
99,856
1,905E-02
,106
99,962
5,933E-03
3,296E-02
99,995
9,276E-04
5,153E-03
100,000
Eigenvalue
Component
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Init ial Eigenv alues
% of Variance Cumulativ e %
53,891
53,891
12,129
66,021
9,330
75,351
7,029
82,380
6,036
88,416
2,891
91,306
2,179
93,486
1,765
95,251
1,383
96,634
1,008
97,642
,834
98,476
,772
99,248
,311
99,559
,168
99,728
,128
99,856
,106
99,962
3,296E-02
99,995
5,153E-03
100,000
Extraction Method: Principal Component Analy sis.
Component Matrixa
10
8
6
4
2
0
1
3
2
5
4
7
6
9
8
11
10
13
12
15
14
17
16
18
Component Plot
Component Number
1,0
laureati
Matrice
dei
pesi
fattoriali =
correlazioni
variabilifattori)
Extraction Method: Principal Component Analy sis.
Component 2
IndVECCH
EOM
EOF
MortInf
PLPubb
TUPLPubb
NFLinEta
FLPop
Disoc c
DelPers
IncSt rad
AutoPriv
Suicidi
PIL
ConsAlim
ConsRicr
AbbTVPriv
Laureat i
Component
1
2
,803
,357
-, 392
,560
,546
,288
-, 721
,526
,721 8, 434E-03
,674 -7,53E-02
,820
,228
,871 -8,21E-02
-, 960 5, 330E-02
,377
,186
-, 446
-, 687
,891
,135
,800
-, 279
,939 2, 347E-02
-, 848
,119
,862
-, 106
,796 -2,72E-02
6, 512E-02
,828
12
mortinf
eom
,5
indvecch
eof
nfl ineta
delpers
autopri v
pil
plpubb
abbtvpriv
tupl pubb
fl
pop
consri cr
consali m
disocc
0,0
sui cidi
-,5
incstrad
-1,0
-1,0
-,5
Component 1
0,0
,5
1,0
La matrice completa dei pesi fattoriali (correlazioni
indicatori-CP)
Component Matrixa
IndVECCH
EOM
EOF
MortInf
PLPubb
TUPLPubb
NFLinEta
FLPop
Disocc
DelPers
IncStrad
AutoPriv
Suicidi
PIL
ConsAlim
ConsRicr
AbbTVPriv
Laureati
1
,803
-, 392
,546
-, 721
,721
,674
,820
,871
-, 960
,377
-, 446
,891
,800
,939
-, 848
,862
,796
6,512E-02
2
,357
,560
,288
,526
8,434E-03
-7,53E-02
,228
-8,21E-02
5,330E-02
,186
-, 687
,135
-, 279
2,347E-02
,119
-, 106
-2,72E-02
,828
3
4
5
6
7
,120 ,176 ,207 -8,81E-02 ,323
,519 ,203 -, 387 -3,06E-02 8,869E-02
,697 -5,25E-02 -, 226 9,578E-02 5,822E-03
-7,17E-02 -, 127 ,191 ,259 ,138
,349 -, 274 ,404 -9,01E-02 -2,13E-02
-, 387 ,318 -, 273 ,259 ,208
-, 213 ,164 ,193 -, 114 ,105
-6,79E-02 3,481E-03 -, 406 8,880E-02 -, 102
-1,07E-02 ,132 7,429E-02 -, 117 8,878E-02
,174 ,649 ,487 ,161 -, 297
,224 8,943E-02 9,968E-02 ,442 9,871E-02
-, 155 ,164 -, 250 -5,44E-02 -, 173
3,949E-03 ,434 2,973E-02 -, 104 ,145
-, 245 -, 141 -5,98E-02 6,438E-02 -6,32E-02
8,149E-02 ,384 -9,90E-02 -2,52E-02 2,527E-02
2,700E-03 -, 276 ,176 4,915E-02 ,167
,502 -, 180 -2,58E-02 ,145 -3,72E-02
-, 400 -, 180 6,393E-02 ,250 -7,05E-02
Extraction Method: Principal Component Analy sis.
a. 18 components extracted.
8
9,621E-02
-9,79E-02
7,849E-02
-6,43E-02
-, 192
-, 227
,334
8,816E-02
-3,12E-02
-5,72E-02
,160
-1,58E-02
-, 139
6,782E-02
,155
-4,09E-02
3,280E-02
1,138E-02
Component
9
10
4,598E-02 -3,96E-02
,129 5,515E-02
-, 120 -, 124
,133 ,141
-, 168 ,168
-, 178 5,085E-02
-9,08E-02 5,020E-02
,115 9,118E-03
-1,77E-02 -, 154
9,349E-02 -3,29E-02
7,849E-03 -1,10E-02
8,066E-02 5,428E-02
3,140E-03 -7,90E-02
4,481E-02 9,407E-02
-5,85E-02 ,211
,279 -2,86E-02
-7,25E-02 2,132E-02
-, 113 -, 140
11
3,854E-03
,173
-, 171
-7,07E-02
1,542E-03
-2,65E-03
8,435E-02
-, 120
3,805E-02
-2,14E-02
,106
,107
-4,58E-02
2,216E-02
-, 143
-6,42E-02
,110
2,275E-02
12
8,014E-02
1,093E-02
8,449E-03
3,071E-02
,111
-, 124
-7,57E-02
5,764E-02
-2,61E-02
-7,04E-02
,130
9,939E-02
,133
4,414E-02
-9,37E-03
-, 115
-, 148
8,436E-02
13
-2,01E-03
4,071E-02
1,800E-02
-7,98E-02
7,469E-02
4,419E-02
2,984E-02
3,479E-02
9,728E-03
1,772E-02
4,222E-02
2,004E-02
-, 106
-6,88E-02
3,524E-03
7,142E-02
-, 119
1,445E-02
14
1,195E-02
7,825E-03
-4,06E-02
-7,38E-02
3,513E-03
-1,61E-02
-5,03E-02
-1,87E-02
-2,73E-03
-1,03E-02
5,517E-03
-7,73E-03
2,249E-02
1,159E-02
9,282E-02
5,829E-02
4,257E-02
7,219E-02
15
-6,04E-02
4,914E-02
-2,44E-02
-1,49E-03
2,085E-02
-1,41E-02
4,970E-02
5,368E-02
-7,97E-03
2,437E-03
-1,56E-03
-8,27E-02
5,287E-02
-1,11E-03
-1,17E-02
3,304E-03
-5,25E-03
2,436E-02
16
-6,63E-02
2,793E-03
4,454E-02
1,585E-02
7,231E-03
-1,22E-03
3,038E-02
-4,64E-02
4,915E-02
-1,04E-02
1,133E-02
4,139E-02
3,087E-02
4,098E-02
1,750E-02
4,153E-02
-1,57E-02
1,399E-03
17
-9,79E-04
-1,39E-02
-1,27E-02
1,574E-02
1,503E-02
-7,52E-04
5,458E-03
3,531E-02
4,138E-02
-5,32E-03
3,468E-04
2,159E-02
1,883E-03
-2,89E-02
7,681E-03
1,777E-03
2,662E-02
2,769E-03
18
5,749E-03
1,992E-03
-6,04E-04
-3,24E-03
3,648E-03
2,500E-03
-4,78E-03
6,360E-03
1,579E-02
3,658E-03
9,920E-06
-8,09E-03
-6,80E-03
1,994E-02
-9,91E-05
-3,61E-03
-1,05E-03
-3,28E-03
La QdV nelle regioni italiane nel 1991:
ACP: output dei risultati
Lo spazio delle variabili
R K:
LA ROTAZIONE DEGLI ASSI: ROTAZIONE QUARTIMAX
Component Matrixa
a
Rotated Component Matrix
Component
1
2
IndVECCH
,803
,357
EOM
-,392
,560
EOF
,546
,288
MortInf
-,721
,526
PLPubb
,721 8,434E-03
TUPLPubb
,674 -7,53E-02
NFLinEta
,820
,228
FLPop
,871 -8,21E-02
Disocc
-,960 5,330E-02
DelPers
,377
,186
IncStrad
-,446
-,687
AutoPriv
,891
,135
Suicidi
,800
-,279
PIL
,939 2,347E-02
ConsAlim
-,848
,119
ConsRicr
,862
-,106
AbbTVPriv
,796 -2,72E-02
Laureati
6,512E-02
,828
Component
1
2
IndVECCH
,808
,347
EOM
-,385
,565
EOF
,550
,281
MortInf
-,713
,536
PLPubb
,721 -1,13E-03
TUPLPubb
,673 -8,42E-02
NFLinEta
,823
,217
FLPop
,870 -9,37E-02
Disocc
-,959 6,602E-02
DelPers
,380
,181
IncStrad
-,455
-,681
AutoPriv
,893
,123
Suicidi
,796
-,290
PIL
,939 1,101E-02
ConsAlim
-,846
,130
ConsRicr
,861
-,118
AbbTVPriv
,796 -3,78E-02
Laureati
7,610E-02
,827
Extraction Method: Principal Component Analy sis.
a. 2 components extracted.
Extraction Method: Principal Component Analysis.
Rotation Method: Quartimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
Component Plot
Component Plot in Rotated Space
1,0
1,0
laureati
mortinf
laureati
eom
mortinf
,5
eof
delpers
indvecch
nfl ineta
autopri v
pil
plpubb
abbtvpriv
tupl pubb
fl
pop
consri cr
consali m
disocc
0,0
eom
,5
indvecch
eof
nfl ineta
delpers
autopri v
pil
plpubb
abbtvpriv
tupl pubb
fl
pop
consri cr
consali m
disocc
0,0
sui cidi
Component 2
-,5
incstrad
-1,0
-1,0
-,5
sui cidi
0,0
,5
-,5
incstrad
-1,0
1,0
-1,0
-,5
0,0
,5
1,0
Interpretazione dei risultati
Dagli autovalori e lo ‘scree-plot’ emergono due dimensioni sottostanti la
QdV per la loro ‘interpretazione ‘ occore esaminare le
 le correlazioni variabili-fattori (pesi fattoriali) della CP1 sono tutte al di
sopra di 0.3-0.4 quindi le variabili originarie (indicatori semplici) possono
essere considerate misure ‘parallele’ (CONSISTENTI) della stessa
variabile concettuale (QdV);
 Considerando il quadrato dei pesi fattoriali si dispone della misura del
grado di attendibilità di ciascun indicatore per ciascuna componente
principale (Nota:somma dei quadrati per colonna = autovalore della CP
considerata = varianza totale spiegata dalla CP) altrimenti sommando per
riga i quadrati dei pesi fattoriali si ottiene la quota di varianza di ciascuna
variabile originaria (indicatore) spiegata dalle p<<K CP scelte (Nota: se si
considerano tutte le CP ossia p=k=18 si otterrebbe 1 ossia il 100% della
variabilità originaria è spiegata dalle nuove variabili CP ciò perché il
metodo impiegato è l’ACP trasformazione esatta delle variabili originarie)
 solo la prima CP è risultata tuttavia interpretabile (anche dopo aver
effettuato una rotazione ortogonale) perche troppo pochi indicatori sono
correlatiti con la seconda CP: ciò significa che occorre ritornare alla
scelta degli indicatori che possano rappresentare la seconda dimensione.
Esaminando gli indicatori fortemente correlati con la prima CP essa
potrebbe essere interpretata come ‘benessere duale’ o ‘asse dello
sviluppo socio-economico duale’ in un contesto economicamente
sviluppato,
 per quanto riguarda la costruzione dell’INDICE SINTETICO della QdV
esistono due diversi metodi di sintesi mediante l’’ACP:
A) SINGLE FACTOR SOLUTION
B) SEGNO DELLA PRIMA COMPONENTE (di A.Rizzi)
 Facendo riferimento al metodo della single factor solution si potrà
calcolare l’indice solo rispetto alla prima CP perché è la sola
‘interpretabile’ e che spiega il 53,9% della varianza totale o inerzia della
nuvola dei punti originaria. (l’indice  di Bentler, 1968
misura
l’attendibilità dell’index)
 Facendo riferimento al secondo metodo del segno della prima componente
potrà essere calcolato un unico indice sintetico senza necessità di
interpretare le singole componenti ed utilizzando tutti gli indicatori quindi
spiegando il 100% della varianza delle variabili originarie.
Caso di
studio
QdV
L’indice sintetico con l’ACP
output
Lo spazio delle unità
 per quanto riguarda la costruzione
dell’’INDICE SINTETICO (factor score)
esistono due diversi metodi:
 A) single factor solution si potra calcolare
l’indice solo rispetto alla prima CP perché è la
sola ‘interpretabile’ e che spiega il 53,9%
della varianza totale o inerzia della nuvola dei
punti originaria.
 B) secondo il segno della prima componente
(Rizzi)
Secondo metodo segno della prima
componenti (di A.Rizzi) potrà essere
calcolato un unico indice sintetico senza
necessità di interpretare le singole
componenti ed utilizzando tutti gli indicatori
Caso di
studio
QdV
Esempio di costruzione di un indice sintetico ‘ottimale’
per graduare le 20 regioni italiane secondo 18
indicatori della QdV contemporaneamente considerati
(graduazione multidimensionale)
(v.par.3.5.4. Pagg.189-209 in M.Fraire, Metodi di AMD, CISU)
a) INDICE SINTETICO CON IL METODO DELLA
SINGLE FACTOR SOLUTION
Le fasi di costruzione dell’indice sintetico sono:
 Si esegue l’ACP e si interpretano i risultati:
- le correlazioni variabili-fattori (pesi fattoriali) della CP1
sono tutte al di sopra di 0.3-0.4 quindi le variabili originarie
(indicatori semplici) possono essere considerate misure
‘parallele’ (CONSISTENTI) della stessa variabile
concettuale (QdV);
- solo la prima CP è risultata tuttavia interpretabile (anche
dopo aver effettuato una rotazione ortogonale) ad es. come
‘benessere duale’ o ‘asse dello sviluppo socio-economico
duale’ in un contesto economicamente sviluppato, quindi
l’indice sintetico potrà, usando uno dei due metodi proposti
fare riferimento solo alla prima CP che spiega il 53,9%
della varianza totale o inerzia della nuvola dei punti
originaria;
- si calcolano quindi tramite il package statistico impiegato :
- la matrice dei coefficienti dei punteggi fattoriali (component
score coefficients matrix) (standardizzati) w
- l’indice sintetico f per ciascuna unità statistica (es. regione)
che sarà dato dalla combinazione delle variabili originaria in
forma standardizzata (z) per i pesi w della matrice:
CP1
f i CP1  z i ,1 w1CP1  zi , 2 w2CP1  ...  z i ,18 w18
Un caso di
studi
o
QdV
Un esempio di indice sintetico ottenuto con ACP:
la QdV dal punto di vista macro-sociale
(v.par.3.5.4 pag.189 in M.Fraire,Metodi di AMD.ed.CISU,op.cit.)
Nel caso di calcolo degli indici sintetici con la single factor
solution si avrebbe ad es. il seguente QdVIndex riferito alla sola
prima CP1 del caso di studio QdV nelle 20 regioni italiane tramite
18 indicatori oggettivi-descrittivi, ed avente come pesi WK , K i
coefficienti
dei punteggi fattoriali contenuti nella matrice
(component score coefficients matrix - standardizzati) calcolata
nell’ACP.
wij
QdV INDEX:
graduatoria (multidimensionale)in ordine decrescente
Matrice dei dati
(standardizzati)
Pesi o
punteggi
fattoriali
 z11 z12
z
z 22
(1)
21

F1  Z 20,18  w18 
 ..
..

 z N1 z N 2
fi
CP1
z w
CP1
i ,1 1
 zi , 2 w
CP1
2
.. z1k  w 


.. z 2 k  w 

.. ..   .. 

 
.. z Nk  w18CP1 
CP1
1
CP1
2
 ...  z w
CP1
i ,18 18
VAD
1. 29218
FVG
1. 20723
EMR
1. 11141
LI G
. 85261
LOM
. 79183
VEN
. 77007
TAA
. 75339
TOS
. 63678
PI E
. 61753
MAR
. 27440
UMB
. 24679
LAZ
- . 08691
ABR
- . 17280
MOL
- . 47679
SAR
- . 75536
PUG
- 1. 11073
BAS
- 1. 11242
SI C
- 1. 37286
CAL
- 1. 71080
CAM
- 1. 75555
Calcolo dell’indice sintetico per l’i-esima u.s. = regione
Un caso di
studi
o
QdV
output
4^fase
La matrice degli indici sintetici
(punteggi fattoriali o componenziali)
(la variabile sintetica QdV Index)
Regioni
PI E
VAD
LOM
TAA
VEN
FVG
LI G
EMR
TOS
UMB
MAR
LAZ
ABR
MOL
CAM
PUG
BAS
CAL
SI C
SAR
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
...
FAC1_1
. 61753
1. 29218
. 79183
. 75339
. 77007
1. 20723
. 85261
1. 11141
. 63678
. 24679
. 27440
- . 08691
- . 17280
- . 47679
- 1. 75555
- 1. 11073
- 1. 11242
- 1. 71080
- 1. 37286
- . 75536
FAC2_1
- . 63923
- 1. 28443
- . 27115
- 1. 57839
- . 89988
- . 77798
1. 77597
. 42351
. 89436
1. 11363
1. 20435
1. 99822
. 50786
- . 93188
- . 22392
- . 71540
- . 54815
- . 10178
. 29584
- . 24154
FAC3_1
- . 61270
- 1. 18524
- . 84616
. 00314
. 18581
- . 00769
- . 20394
- . 01533
. 72878
1. 12010
1. 18162
- 1. 84236
1. 05054
. 65914
- 2. 24691
1. 00620
. 85332
. 44183
- . 93885
. 66871
FAC4_1
. 90523
2. 26569
- . 66206
- 1. 46441
- 1. 76845
. 04097
. 51951
- . 73106
- . 39192
1. 95676
- . 50070
- . 82496
- . 19699
. 87553
- . 00069
- . 71018
. 53238
. 07413
- . 04677
. 12798
FAC5_1
- . 06538
- 1. 68908
. 65433
- . 35701
. 05590
2. 53545
1. 71131
- . 92678
- . 82301
. 59043
- 1. 32724
- . 96019
. 33494
. 09057
. 29933
. 44065
- . 53810
- . 02821
. 69530
- . 69322
FAC6_1
. 38673
- . 44248
. 78317
. 28711
- . 38577
- 1. 27173
- . 15153
. 27654
- 1. 22462
. 78966
- . 56641
1. 27033
. 25395
2. 31285
- . 44412
1. 73513
- 1. 19754
- . 64002
- . 85924
- . 91203
FAC7_1
. 16360
- . 01647
- 1. 22166
- . 26726
- . 26428
- . 70030
2. 30393
2. 01073
. 30508
- 1. 72710
- . 32051
- 1. 17410
- . 86866
1. 00387
. 48360
. 45925
. 38213
. 36381
- . 32406
- . 59162
FAC8_1
1. 77179
- 1. 28043
1. 18831
- 1. 17833
. 26708
. 19127
- . 47191
- . 12313
. 83388
. 12072
- . 11424
. 03834
- . 91032
. 00978
. 98965
- . 47867
. 53660
. 99153
- 2. 64102
. 25909
FAC9_1
1. 16542
- . 75802
1. 91194
- . 23514
- . 75745
- . 93066
- . 87649
1. 33503
. 04553
. 24032
. 25998
- 1. 29986
. 35446
- . 27125
- . 45041
- . 66092
. 86518
- . 18120
1. 83919
- 1. 59564
FAC10_1
- . 14768
1. 01236
. 36593
- . 32661
. 41731
- . 66067
. 41741
- . 36254
- . 75017
. 40427
1. 52667
- 1. 25777
. 80554
- 1. 83266
1. 52348
1. 71449
- . 70579
. 02095
- . 92679
- 1. 23775
FAC11_1
1. 44445
. 42179
- . 79651
- 1. 36346
- . 30686
. 86911
- . 59259
. 10122
. 70327
- . 88065
- . 85471
1. 10121
. 08362
- 1. 26794
- 1. 24567
2. 34770
. 75192
- . 44283
. 39693
- . 46999
FAC12_1
1. 03417
- . 25464
- 1. 54788
. 92907
- . 90370
. 95290
- 1. 03049
. 97708
- . 03522
. 47983
. 43700
. 05041
- . 05662
- . 25194
- . 04320
- . 26297
- 2. 13617
2. 25289
. 19946
- . 78998
FAC13_1
- . 92136
. 54042
- . 68190
- 1. 83724
2. 57453
. 19577
- . 79528
. 51580
- . 02637
. 31801
- . 57076
. 31605
. 85320
. 90819
. 06512
- . 80996
. 21294
. 78134
. 10673
- 1. 74522
FAC14_1
- 1. 79371
. 40810
. 77126
. 28081
- . 83420
1. 15901
- . 23445
- . 11282
- . 07151
. 20310
1. 18306
. 66610
- 2. 37074
. 30531
- . 40792
. 58655
1. 25168
. 80403
- . 22603
- 1. 56764
FAC15_1
- . 31876
. 12035
. 06079
. 71517
- 1. 11953
. 47180
. 24841
. 77114
- 1. 85554
- . 64491
- . 52682
. 86396
2. 16731
- . 66860
- . 25945
- . 76606
1. 70474
. 74981
- 1. 41287
- . 30093
FAC16_1
- . 78363
. 90063
1. 86161
- . 83953
. 23230
- . 72534
. 60875
. 35028
- . 36750
- . 34978
- 1. 06536
- . 23193
- . 30459
- . 73441
- 1. 52819
. 39715
- 1. 10128
2. 20793
. 19459
1. 27829
Matrice iniziale degli indicatori X(N=20,K=18) ;
La matrice dei punteggi fattoriali FAC1-FAC18 che sono
automaticamente messi in ‘coda’ alla matrice.
Andranno copiati e incollati in un foglio Excel per
costituire una nuova ‘tabella dei dati’ da analizzare.
NOTA: nell’ambito delle fasi dell’analisi dei dati tale output è
rappresentato dal feedback dall’output dei risultati alla ‘nuova’
tabella dei dati:
FAC17_1
- 1. 21528
- . 23802
. 01478
- . 92943
- . 41437
. 93526
- 1. 20537
2. 66383
- . 59569
1. 04049
- . 42614
- . 32660
- . 39806
- . 38202
1. 02934
. 54973
- . 24228
- 1. 14514
- . 19999
1. 48497
FAC18_1
1. 39467
- . 47669
- . 65885
- . 35443
1. 44499
- . 11838
. 48057
. 21157
- 2. 82820
. 34518
1. 32148
. 32132
- 1. 39085
- . 39229
- . 80961
- . 26289
. 53727
- . 02998
. 53257
. 73257
Un caso di
studi
o
QdV
output
La matrice dei pesi componenziali
= punteggi fattoriali
(factor scores coefficient matrix)
wK j ( j  1,2,.., kCP; k  1,2,.., kVar.Orig.)
CP
Component Score Coefficient Matrix
IndVECCH
EOM
EOF
MortInf
PLPubb
TUPLPubb
NFLinEta
FLPop
Disocc
DelPers
IncStrad
AutoPriv
Suicidi
PIL
ConsAlim
ConsRicr
AbbTVPriv
Laureati
1
,083
-,040
,056
-,074
,074
,070
,085
,090
-,099
,039
-,046
,092
,082
,097
-,087
,089
,082
,007
2
,164
,256
,132
,241
,004
-,034
,105
-,038
,024
,085
-,315
,062
-,128
,011
,055
-,049
-,012
,379
3
,072
,309
,415
-,043
,208
-,230
-,127
-,040
-,006
,104
,134
-,092
,002
-,146
,049
,002
,299
-,238
Extraction Method: Principal Component Analy sis.
Component Scores.
4
,139
,160
-,041
-,101
-,217
,252
,130
,003
,105
,513
,071
,130
,343
-,112
,304
-,218
-,142
-,142
5
,190
-,356
-,208
,176
,372
-,252
,178
-,374
,068
,449
,092
-,230
,027
-,055
-,091
,162
-,024
,059
6
-,169
-,059
,184
,497
-,173
,498
-,220
,171
-,225
,310
,849
-,104
-,200
,124
-,048
,094
,279
,481
7
,823
,226
,015
,352
-,054
,531
,267
-,261
,226
-,758
,252
-,440
,370
-,161
,064
,426
-,095
-,180
8
,303
-,308
,247
-,202
-,604
-,715
1,051
,277
-,098
-,180
,504
-,050
-,437
,213
,486
-,129
,103
,036
Component
9
10
,185 -,218
,518 ,304
-,483 -,686
,534 ,776
-,676 ,925
-,713 ,280
-,365 ,277
,463 ,050
-,071 -,849
,376 -,181
,032 -,061
,324 ,299
,013 -,435
,180 ,518
-,235 1,161
1,119 -,158
-,291 ,118
-,452 -,771
11
,026
1,155
-1,137
-,471
,010
-,018
,562
-,797
,253
-,142
,706
,714
-,305
,148
-,953
-,427
,733
,151
12
,577
,079
,061
,221
,798
-,893
-,545
,415
-,188
-,507
,937
,716
,960
,318
-,067
-,831
-1,066
,607
13
-,036
,727
,321
-1,424
1,334
,789
,533
,621
,174
,316
,754
,358
-1,885
-1,229
,063
1,276
-2,130
,258
14
,394
,258
-1,340
-2,432
,116
-,531
-1,658
-,616
-,090
-,341
,182
-,255
,741
,382
3,060
1,922
1,403
2,380
15
-2,613
2,125
-1,053
-,065
,901
-,608
2,149
2,321
-,345
,105
-,067
-3,577
2,286
-,048
-,507
,143
-,227
1,053
16
-3,482
,147
2,338
,832
,380
-,064
1,595
-2,436
2,580
-,546
,595
2,173
1,621
2,152
,919
2,181
-,822
,073
17
18
-,165 6,198
-2,340 2,148
-2,147 -,651
2,653 -3,490
2,533 3,932
-,127 2,695
,920 -5,149
5,951 6,857
6,975 17,020
-,897 3,944
,058 ,011
3,639 -8,716
,317 -7,330
-4,877 21,500
1,295 -,107
,299 -3,896
4,487 -1,133
,467 -3,536
Un caso di
studi
o
QdV
Un indice di attendibilità (reliability)
dell’indice sintetico ottenuto
CON IL METODO A) SINGLE FACTOR SOLUTION.
 Impiegando il metodo di sintesi dell’ACP è possibile
calcolare un indice di attendibilità (reliability) dell’indice
sintetico ottenuto.
Calcolo dell’attendibilità dell’indice sintetico ottenuto.
Nel caso qui considerato di una ‘single factor solution’(*)
l’indice statistico per la misura dell’attendibilità dell’indice
sintetico è l’indice  di Bentler, 1968 che varia tra 0
attendibilità nulla e 1 max attendibilità:
k  1  18 
1 
  1   
1
 0,950


k  1  1  18  1  9,700385 
indicante un’elevata attrendibilità dell’QdV Index calcolato.
indice sintetico ottenuto CON IL METODO
B) SEGNO DELLA PRIMA COMPONENTE
E’ possibile considerare anziché soltanto la
prima CP tutte le k CP e farne una
combinazione lineare con il segno della prima
componente (Metodo di A.Rizzi)
In tal caso andranno sommati dopo essere
stati elevati al quadrato tutti i punteggi
componenziali calcolati: in questo caso i 18
factore scores (che figurano ‘ in coda’ alla
matrice dei dati con il software SPSS) elevati
poi al quadrato e sommati dando poi il segno
della prima componente e quindi ricalcolata
la graduatoria delle regioni italiane. Il
vantaggio di questo indice è che tiene conto di
tutta l’informazione disponibile (la varianza
totale della nuvola dei punti originaria).
 L’attendibilità dell’indice sintetico non va
calcolata ed è del 100% considerando tutta la
varianza totale delle variabili originarie.
La graduatoria multidimensionale (in ordine
decrescente) delle 20 regioni italiane in base al QdV
index secondo due metodi.
I° metodo: considerando solo
la prima CP (single factor
solution)
VAD
1. 29218
FVG
1. 20723
EMR
1. 11141
LI G
. 85261
LOM
. 79183
VEN
. 77007
TAA
. 75339
TOS
. 63678
PI E
. 61753
MAR
. 27440
UMB
. 24679
LAZ
- . 08691
ABR
- . 17280
MOL
- . 47679
SAR
- . 75536
PUG
- 1. 11073
BAS
- 1. 11242
SI C
- 1. 37286
CAL
- 1. 71080
CAM
- 1. 75555
II° metodo considerando il
segno della prima
componente (Metodo di
A.Rizzi)
EMR
TAA
UMB
TOS
CAL
FVG
LI G
PI E
LOM
VEN
MAR
VAD
BAS
ABR
MOL
LAZ
PUG
SI C
CAM
SAR
-
8.
7.
5.
4.
4.
3.
3.
2.
1.
1.
1.
.
-.
-.
1.
1.
3.
4.
5.
6.
47647
76254
36685
82207
40829
36604
35641
38587
71779
70649
11569
66400
04643
25819
04453
37878
45905
68785
02512
34931
:
Un caso di studio per la cluster
analysis e l’analisi delle tabelle
multiple MULTIWAY
CASO DI STUDIO N.4
Analisi
multidimensionale
spazio-temporale della
criminalità diffusa
nei municipi di Roma
Le matrici a tre indici per
l’Analisi dei Dati a Tre Vie:
1^ fase AMD
N = u.s.; K= caratteri O = occasioni
Un esempio: La
O
MICROCRIMINALITA’ nei 19 Municipi di
Roma dal 1999 al 2004
X NxK  4( anni) X 19( MunicipiRM), 5( delitti)
DATI CUBICI a TRE MODI (N,K,O)e TRE INDICI (i,j,k)
O
X N ,K
Il caso di
studio
statisticaesaminato
di partenza:
1^fase dell’AMD
La documentazione
dati grezzi della microcriminalità della
Polizia nei municipi di Roma:
Questura di Roma
Divisione Polizia Anticrimine
Sezione Statistiche, Analisi e Proposte
UFFICIO DI P.S. :
Aurelio
PERIODO DAL
02/01/2002
AL 01/01/2003
Delitti denunciati all'Autorità Giudiziaria dalla Polizia di Stato
ed altri dati attinenti alla sicurezza pubblica
SEZIONE PRIMA
AVVENUTI
N.
OMICIDI DOLOSI CONSUMATI
1
PERS. DENUNCIATE
di cui in Totale
Roma scoperti
2
3
N.
di cui
di cui
minori stranieri
4
5
6
PERSONE ARRESTATE
N.
7
di cui
di cui
minori stranieri
8
9
1) a scopo di furto o rapina
2
0
0
0
0
0
0
0
0
0
2) per mafia camorra o 'ndrangheta
3
0
0
0
0
0
0
0
0
0
3) per motivo di onore o passionali
4
0
0
0
0
0
0
0
0
0
4) a scopo terroristico (Art. 280 C.P.)
5
0
0
0
0
0
0
0
0
0
5) per altri motivi
6
0
0
0
0
0
0
0
0
0
TOTALE da 1 a 5
7
0
0
0
0
0
0
0
0
0
Infanticidi
8
0
0
0
0
0
0
0
0
0
Omicidi preterintenzionali
9
0
0
0
0
0
0
0
0
0
Tentati omicidi
10
0
0
0
0
0
0
0
0
0
Omicidi colposi
11
0
0
0
0
0
0
0
0
0
Omicidi colposi da incidente stradale
12
0
0
0
0
0
0
0
0
0
Lesioni dolose
13
5
5
3
4
0
3
3
0
0
VIOLENZE SESSUALI
1) su minori di anni 14
14
1
1
0
0
0
0
0
0
0
2) su maggiori di anni 14
15
3
3
3
0
0
0
6
4
1
TOTALE 1 + 2
16
4
4
3
0
0
0
6
4
1
FURTI SEMPLICI E AGGRAVATI
1) abigeato
17
0
0
0
0
0
0
0
0
0
2) borseggio
18
569
569
49
7
4
7
63
16
61
3) scippo
19
19
19
0
0
0
0
0
0
0
………………………………………………………………….
2^ fase dell’AMD
Il caso di
studio
esaminato
La codifica a priori : matrice dei dati grezzi sulla
microcriminalità nei 19 municipi di Roma:
X N 19;K 5
►scelta della classificazione dei delitti
► calcolo valori assoluti (per somma delitti inclusi in
ogni categoria)
Esempio : La matrice dei valori assoluti dei delitti nei
19 Municipi per l’anno 2003
2003
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XV
XVI
XVII
XVIII
XIX
XX
ROMA
Omic/Les Viol sess
77
10
15
4
20
5
19
3
22
2
11
2
16
1
19
3
17
3
41
4
12
3
31
5
15
4
9
4
2
0
30
3
18
3
10
2
15
5
399
66
Furti
Rapine Estors/Altri
9636
163
1323
3696
110
721
2939
100
767
1342
92
381
1437
66
396
1622
64
445
1707
58
590
1162
72
267
3293
108
1150
3466
92
913
3561
101
1154
2986
158
941
1317
45
397
1993
98
302
1760
87
258
3086
82
997
1671
84
769
2999
75
586
1995
75
923
51668
1730
13280
Totale
11209
4546
3831
1837
1923
2144
2372
1523
4571
4516
4831
4121
1778
2406
2107
4198
2545
3672
3013
67143
Il caso di
studio
esaminato
2^ fase dell’AMD
La classificazione dei delitti in 5 tipologie
v. Testo: ‘La calma insicurezza’ pag.38
Tabella 1 - Classificazione dei delitti
Classi di delitti
Delitti inclusi
1.Omicidi e lesioni:
Omicidio a scopo di furto o rapinaOmicidio per motivo di onore o passionali
Omicidio a scopo terroristicoOmicidio per altri motiviOmicidi preterintenzionali
Tentati omicidiOmicidi colposiLesioni dolose
2.Violenze Sessuali:
Violenze sessuali contro maggiori anni 14Violenze sessuali contro minori di anni 14
3.Furti:
AbigeatoBorseggiScippiFurti in uffici pubbliciFurti in negozi
Furti in appartamentiFurti su auto in sosta Furti in ferroviaFurti di opere d'arteFurti di merci su
automezzi pesanti,Furti di autoveicoliFurti di armi, esplosivi o munizioniAltri Furti
Rapine in banca Rapine in uffici postali Rapine in gioiellerie e laboratori Rapine a rappresentanti
di preziosiRapine a trasportatori di valori bancari Rapine a trasportatori di valori postali  Rapine in
danno di coppie o prostituteRapine di automezzi pesanti italiani e stranieriRapine a passantiRapine
in negozi Altre rapine .
Estorsioni Strage (Art.422 C.P.) Sequestri di persone a scopo estorsivo Sequestri di persona con
ostaggio a scopo di rapina Sequestri di persona per motivi sessuali Sequestri di persona per altri
motivi Danneggiamenti Associazione per delinquere Incendi dolosi Attentati
dinamitardi/Incendiari Truffe Ricettazioni Risse
Minacce,Oltraggio,Resistenza a P_U,Evasione, ContrabbandoUsura,Violazione legge
armi,Violazione legge stranieri,Prod e commercio stupefacenti,Reati connessi alla
prostituzione,Altri delitti.
4.Rapine:
5. da Estorsioni ad Altri
3Delitti
3^fase dell’AMD
Il caso di
studio
esaminato
codifiche a posteriori di variabili
A)la misura della criminalità e il calcolo dei quozienti
di criminalità
• Richiami sulla definizione e misura della micro-criminalità
(v. ‘La calma insicurezza’ pagg.29-36) :
• Il concetto di ‘numero oscuro’:
criminalità ‘reale’ = criminalità apparente
(denunciata)+’numero oscuro’
si può stimare con le indagini
di vittimizzazione
• Rapporti statistici e misure della criminalità:
n° dei delitti denunciati per il reato i-mo in un
dato luogo e anno
Quozienti di criminalità:
×1000
popolazione residente a metà anno nello stesso
luogo e anno
Altre misure:
- Quozienti di criminalità ponderati (con la pena media
edittale=gravità del reato)
- L’indice di delittuosità
- Le mappe tematiche e l’autocorrelazione spaziale
B) Prime analisi statistiche unidimensionali
preliminari delle matrici dei quozienti calcolate (pag.
36-43)
3^fase
La codifica
per variabili
3^=4^ fase:
le scelta
tabelle dei dati
Le 6 matrici X N 19, K 5 dei quozienti di
criminalità 1000ab
nei 19 municipi di Roma dal 1999 al 2004
TABLEAU DES DONNEES 1999
-----------------------0
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XV
XVI
XVII
XVIII
XIX
XX
OMIC
.5160
.2650
.5250
.0880
.3540
.1350
.1350
.2340
.0820
.0670
.0500
.0520
.1450
.1880
.2500
.2520
.1650
.0390
.2440
VSES
.0570
.0400
.1220
.0150
.0330
.1350
.0400
.0160
.0150
.0000
.0140
.0260
.0160
.0260
.0270
.0800
.0300
.0110
.0490
FURT
73.6850
40.8720
84.5470
8.5180
7.9560
.0520
24.7230
11.6800
36.5500
21.6690
22.9450
23.3590
10.3870
21.0480
19.9390
67.7180
17.9910
21.3850
23.5460
RAPI
2.1140
1.6890
2.8500
.2980
.4030
2.2090
1.0700
.7640
1.0550
.7610
.8550
.9010
.3280
.7310
.7890
1.6440
.5400
.5190
.6980
ESTO
10.7500
7.9940
15.4410
1.6900
2.6340
.7250
6.4230
4.7950
6.1670
4.3320
2.7080
4.4100
4.7980
4.0750
3.5800
9.8260
4.7420
2.4430
6.0380
Il caso di
studio
esaminato
TABLEAU DES DONNEES 2004
0
TABELLA DEI DATI 1999
TABELLA DEI DATI 2000
TABELLA DEI DATI 2001
TABELLA DEI DATI 2002
TABELLA DEI DATI 2003
TABELLA DEI DATI 2004
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XV
XVI
XVII
XVIII
XIX
XX
OMIC
.4400
.3050
.7890
.1560
.2890
.0010
1.1060
.1680
1.2900
.0880
1.3500
1.2880
.0890
.1870
.0810
.7670
.2230
.4920
.8100
-----------------------VSES
FURT
RAPI
.1710
87.3700
1.8510
.0320
33.6800
1.4690
.0530
70.8580
2.7720
.0100
7.9950
.2870
.0210
6.8560
.6380
.0000
.0220
.0010
.0790
33.1810
2.3460
.0200
9.8490
.6740
.1040
45.7060
3.1990
.0000
19.1070
.7880
.1000
68.5860
4.0870
.0880
82.0890
4.4910
.0260
9.2350
.4610
.0060
16.7140
.6760
.0070
16.8380
.5340
.0930
90.6170
3.5980
.0300
15.9870
.6160
.0620
50.3420
1.9850
.1030
76.6240
3.0080
NOTA:
E’ preferibile costruire la tabella dei dati come media
aritmetica di un triennio per eliminare eventuali variazioni dovute a
semplici oscillazioni dei dati e non effettive variazioni nell’entità della
microcriminalità.
ESTO
11.7900
8.5640
15.5790
1.5330
2.4660
.0060
9.7540
3.5900
14.4500
3.6680
18.6060
20.5410
5.2140
4.6160
2.9890
28.5080
4.0320
15.0860
22.2610
Prime statistiche unidimensionali per l’analisi
preliminare della tabella dei dati:
il caso di studio della microcriminalità nei 19 Municipi
di Roma
(v. F.Beato, pagg.32-43
Figura 2 - Mappa territoriale dei quozienti di criminalità x 1000 ab.per il TOTALE dei delitti
denunciati nei 19 Municipi di Roma nel 1999
Figura 4 - Distribuzione percentuale delle 5 tipologie di delitti sul totale dei delitti di ciascun Tabella 2 - Graduatoria dei 19 Municipi di Roma in ordine decrescente dei quozienti di
Municipio di Roma nel 2002
criminalità x 1000 ab nel 1999 e nel 2002 per i FURTI e per ESTORSIONI e ALTRI DELITTI e
TOTALE dei DELITTI
1999
2002
1999
2002
1999
2002
Municipi TOTALE Municipi
TOTALE.
Figura 3 - Mappa territoriale dei quozienti di criminalità x 1000 ab. per il TOTALE dei delitti denunciati nei 19 Municipi di Roma
nel 2002
Municipi
Furti
Municipi
Furti Municipi Estors. e Al.Del. Municipi Estors. e Al.Del.
III
84,547
I
64,680
XVII
15,441
III
14,202
III
103,485
I
87,769
I
73,685
III
58,396
III
10,750
XVII
13,284
I
87,123
III
71,869
XVII
67,718
XVII
42,643
V
9,826
I
12,445
XVII
79,519
XVII
60,617
II
40,872
II
31,936
I
7,994
II
7,277
II
50,861
II
40,385
IX
36,550
IX
27,244
XX
6,423
XI
7,253
IX
43,869
IX
34,899
VII
24,723
XI
23,990
VIII
6,167
IX
6,965
VII
32,391
XI
31,134
XX
23,546
XII
19,253
VI
6,038
VII
6,054
XX
30,575
XII
25,145
XII
23,359
X
16,809
XV
4,798
XX
5,642
XII
28,748
VII
23,130
XI
22,945
XIX
15,852
XIII
4,795
XII
5,518
X
26,828
X
22,188
X
21,669
VII
14,981
XIX
4,742
VI
3,753
XI
26,573
XVI
21,811
XIX
21,385
XVI
14,252
X
4,410
IV
3,610
XV
26,068
XX
21,671
XV
21,048
VI
14,242
XVIII
4,332
X
3,418
XVI
24,620
XIX
19,077
XVI
19,939
XX
14,230
XVI
4,075
XIX
2,905
XIX
24,398
VI
18,992
XVIII
17,991
XV
13,936
XI
3,580
XVIII
2,658
XVIII
23,468
XV
18,604
VIII
11,680
XVIII
11,828
XII
2,708
XVI
2,628
VIII
17,488
XVIII
17,550
XIII
10,387
V
7,760
VII
2,634
XIII
2,405
XIII
15,674
VIII
11,283
IV
8,518
XIII
7,409
IV
2,443
XV
2,099
V
11,379
XIII
9,838
V
7,956
IV
6,990
II
1,690
V
1,916
IV
10,609
V
9,747
VI
0,052
VIII
6,687
IX
0,725
VIII
1,448
VI
3,448
IV
8,728
Media
28,346
Media
Media
5,451
Media
5,552
Media
35,112
Media
29,181

22,493

16,298

3,443

3,822

26,341

21,227
0,749
Coeff.Var.
0,631
Coeff.Var.
0,688
Coeff.Var.
0,750
Coeff.Var.
0,727
Coeff.Var. 0,793 Coeff.Var.
21,743
3^fase AMD
I grafici della micro-criminalità nei
Municipi di Roma con Excel e Paintbrush
• Grafico a Barre
(orizzontali) 3D
in pila %
Figura 4 - Distribuzione percentuale delle 5 tipologie di delitti sul totale dei delitti di ciascun
Municipio di Roma nel 2002
Tab. - Distribuzione percentuale dei tipi di delitti denunciati (*)nei 19 Municipi di Roma nel 2002
Municipi Tot.Omicidi e Lesioni
Tot.Violenze Sess Tot.Furti Tot Rapine
Tot.Estorsioni e Altri Delitti
I
0,462
0,185
81,394 2,299
15,661
II
0,436
0,020
78,826 2,756
17,962
III
0,886
0,093
77,138 3,123
18,760
IV
1,315
0,088
62,473 3,858
32,267
V
1,328
0,159
76,792 2,762
18,959
VI
0,443
0,161
75,383 4,150
19,863
VII
0,435
0,036
68,562 3,260
27,707
VIII
1,086
0,286
76,043 6,118
16,467
IX
0,384
0,021
77,297 2,537
19,761
X
1,353
0,156
79,469 2,862
16,159
XI
0,224
0,067
75,218 1,748
22,743
XII
0,524
0,262
74,613 3,218
21,383
XIII
0,904
0,100
72,540 2,912
23,544
XV
0,566
0,000
81,465 5,700
12,269
XVI
0,763
0,038
79,825 4,653
14,722
XVII
0,416
0,000
74,133 2,358
23,093
XVIII
0,620
0,000
76,431 5,773
17,176
XIX
0,402
0,057
81,435 3,185
14,921
XX
0,626
0,363
68,942 2,737
27,333
Tot.Roma
0,623
0,111
76,568 3,145
19,553
1) Scegliere 3 o 4 classi di valori
per i quozienti
di criminalità
2) Scegliere un colore per
ciascuna classe di valori
3) Con il ‘pennello’ di paintbrush
colorare i municipi aventi lo
stesso colore
I dati della microcriminalità in formato
‘spaziale’: georeferenziati
Strade
Longitudine
Latitudine
Strada ipotizzata
come baricentro
Indirizzo
Trevi
Castro Pretorio
Viminale
Celio
Esquilino
Trastevere
I Municipio.
12°30'
12°30'
12°29'
12°29'
12°29'
12°28'
41°54'
41°54'
41°54'
41°53'
41°53'
41°52'
12°30'
-
41°54'
-
Piazza di Trevi
Via del Castro Pretorio
Piazza del Viminale
Via Celio Vibenna
Via dell'Esquilino
Viale di Trastevere
Porta del Popolo
Villa Glori
Salario Parioli
Vescovio
II Municipio.
12°28'
12°28'
12°29'
12°30'
41°54'
41°55'
41°55'
41°55'
12°29'
-
41°55'
-
Via F.Fuga
Piazzale di Villa Glori
Viale dei Parioli
Piazza Vescovio
S. Ippolito
Porta Pia
S. Lorenzo
Comm.to Università
III Municipio.
12°31'
12°30'
12°30'
12°30'
41°54'
41°54'
41°53'
41°54'
12°31'
-
41°54'
-
Via di S.Ippolito
Piazzale di Porta Pia
Via di S. Lorenzo
Viale dell'Università
IV M.Sacro
12°32'
41°55'
-
-
Via di M.Sacro
V S.Basilio
12°29'
41°54'
-
-
V. di S.Basilio
Torpignattara
Porta Maggiore
VI Municipio.
12°32'
12°30'
41°52'
41°53'
12°32'
-
41°52'
-
Torpignattara
Via di Porta Maggiore
Prenestino
Centocelle
VII Municipio.
12°32'
12°33'
41°53'
41°52'
12°33'
41°52'
Piazzale Prenestino
Via di Centocelle
VIII Municipio Casilino
12°32'
41°52'
S. Giovanni
Appio Nuovo
IX Municipio.
12°29'
12°30'
41°53'
41°53'
X Municipio.Tuscolano
12°32'
41°51'
Colombo
Tor Carbone
XI Municipio.
12°28'
12°31'
41°50'
41°49'
12°28'
-
41°50'
-
Via C.Colombo
Via di Tor Carbone
Esposizione
Spinaceto
XII Municipio.
12°30'
12°29'
41°48'
41°50'
12°29'
41°50'
Via Cecchignola
Spinaceto
XIII Municipio.OstiaLido
12°17'
41°43
12°29'
-
Vicolo Casilino
41°53'
-
-
Via Tuscolana
-
-
-
Via di S. Giovanni in Laterano
Via Appia Nuova
Viale della Pineta di Ostia
XV Municipio.S.Paolo
12°28'
41°51'
-
-
Viale di S. Paolo
XVI Municipio.Monteverde
12°26'
41°52'
-
-
Via di Monteverde
Prati
Borgo
Comm.to Palazzo di Giustizia
Comm.to RAI
XVIIMunicipio.
12°28'
12°24'
12°28'
12°29'
41°54'
41°58'
41°54'
41°54'
XVIII Municipio.Aurelio
12°27'
41°53'
Primavalle
Monte Mario
XIX Municipio.
12°24'
12°25'
41°54'
41°56'
12°24'
-
41°54'
-
Via dei Monti di Primavalle
Rampa di Monte Mario
Ponte Milvio
Flaminio Nuovo
XX Municipio.
12°27'
12°28'
41°56'
41°54'
12°27'
-
41°56'
-
Piazzale Milvio
Via Flaminia
12°28'
-
-
41°54'
-
-
Lungotevere Prati
Piazza Cavour
Piazzale Clodio
Viale Mazzini
Piazzale Aurelio
Fonte: Tesi di laurea di Sonia D’Amico, a.a.2003-04 Strumenti statistici per il controllo e la
prevenzione della microcriminalità con particolare riguardo all’analisi spaziale.
Un’applicazione: le mappe dei Municipi di Roma., Relatore: Prof.ssa M.Fraire
baricentro di ciascun reato relativo alle zone di Roma
che compongono i municipi.
• I baricentri delle longitudini X e delle latitudini Y sono pari
alle medie aritmetiche delle coordinate medesime ponderate
in base ai cinque tipi di reati (omicidi e lesioni, violenze
sessuali, furti, rapine ed estorsioni ed altri ed altri delitti)Ni
dei XIX Municipi.
s
X
 xi  ni
i 1
s

i 1
ni
s
Y
 yi  ni
i 1
s

i 1
ni
• Con riferimento ad esempio al I° Municipio e al Totale
Omicidi e Lesioni:
Anno 1999
X =
(12  29 / 60) *14  (12  30 / 60) * 4  (12  29 / 60) *10  (12  29 / 60) *17  (12  29 / 60) *15(12  28 / 60) * 3
=
63
12,475° = 12°29’
Y =
(41  54 / 60) * 14  (41  54 / 60) * 4  (41  54 / 60) * 10  (41  53 / 60) * 17  (41  53 / 60) * 15  (41  52 / 60) * 3
=
63
41,889° = 41°53’
•
Fonte: Tesi di laurea di Sonia D’Amico, a.a.2003-04 op.cit
I baricentri o centri di gravità delle 5 tipologie di
reati nei 19 Municipi di Roma nel 1999
ANNO 1999
Municipi
I Municipio.
Baricentri:
longitudine
12°29'
12°29'
12°29'
12°29'
12°29'
X
Baricentri:
latitudine
41°53'
41°52'
41°53'
41°53'
41°53'
Y
Tipologia di reati
Omicidi e Lesioni
Violenze sessuali
Furti
Rapine
Estorsioni ed altri
delitti
Mappe della microcriminalità nei Municipi di Roma
•Fonte: Tesi di laurea di Sonia D’Amico, a.a.2003-04 op.cit
L’analisi dei gruppi (cluster
analysis):
i ’profili multidimensionali della
criminalità’ dei municipi di Roma
La tabella dei dati e i metodi impiegati
in cui N = 19 u.s. : i Municipi di
X
5 variabili:le 5 tipologie di delitti in cui
sono stati classificati tutti i tipi di delitti
denunciati; i dati sono i quoz. di crimin. ‰ ab.. Ad
es. per il 2002:
( Anno)
Roma;
N 19, KK=
5
 si sono costruite 4 tabelle dei dati per i 4 anni
considerati (1999-2002). I dati sono stati centrati e
ridotti.
 si è effettuata su ciascuna la cluster analysis (3
metodi gerarchici e il metodo delle k-medie) e si
sono individuati i clusters di Municipi omogenei
rispetto ai diversi profili multidimensionali della
criminalità
 Software impiegato: SPSS, SPAD, Matlab,
CrimeStat
I risultati della Cluster
Analysis:
tipologie di Municipi rispetto al
profilo multidimensionale della
criminalità
( Profili medi (baricentri) dei clusters. Quoz. di criminalità
‰ ab.)
1999
2002
Profili
criminal Cluster
1
Cluster 2 Cluster 3 Cluster 4
ità
Crimin.A Crimin.ME Crimin.BA Crimin.SCA
LTA
DIA
SSA
RSA
L’Analisi a 3-vie
(3-way data analysis)
La situazione di ricerca e le tabelle
dei dati impiegate
Si possono avere diverse tabelle dei dati a tre vie O X N , K
Nella presente ricerca ci si trova nella situazione di ricerca seguente:
N = u.s.; K= caratteri
statistici; O =
occasioni
OT (19992002) X N 19, K 5
 X ( N 19K 5),T 4
in cui si considerano uguali sia le N u.s. che le K variabili osservate in
O occasioni successive qui gli anni dal 1999 al 2002.
 Il metodo di analisi a 3-vie impiegato
Analyse Conjointe de Tableaux Quantitatifs (A.C.T.) – Méthode
STATIS (Escoufier, 1980) per analizzare le 4 tabelle dei dati
suddette contemporaneamente e globalmente sotto tre diversi aspetti:
 analisi dell’interstruttura ; analisi dell’intrastruttura;  analisi
delle traiettorie
Software impiegato: ACT-Statis (CISIA, 1989,France)
4^ fase
AMD
La tabella dei dati
Tabella 6 - La tabella dei dati a 3-vie
impiegata per le analisi
O T (1999  2002) X N 19, K 5
OMI
VSES
FURT
RAPI
ESTO
I
0.516 0.057
73.685 2.114 10.750
II
0.265 0.040
40.872 1.689
7.994
…………………………………………………………………….
XIX
0.039 0.011
21.385 0.519
2.443
XX
0.244 0.049
23.546 0.698
6.038
I
0.440 0.171
87.370 1.851 11.790
II
0.305 0.032
33.680 1.469
8.564
……………………………………………………………………
XIX
0.492 0.062
50.342 1.985 15.086
XX
0.810 0.103
76.624 3.008 22.261
I
1.050 0.258 147.905 3.908 21.558
II
0.249 0.016
31.768 1.404
6.957
……………………………………………………………..
XIX
0.061 0.000
15.375 0.570
3.340
XX
0.205 0.020
15.459 0.764
5.223
I
0.367 0.147
64.680 1.827 12.445
II
0.177 0.008
31.936 1.116
7.277
……………………………………………………………………
XIX
0.078 0.011
15.852 0.620
2.905
XX
0.129 0.075
14.230 0.565
5.642
Note:
1)
I Municipi sono in
totale
19 in quanto il XIV
Municipio, ‘Fiumicino’, è diventato comune a se stante
.
2) Le etichette delle variabili sono: OMI= Omicidi e
lesioni, VSES = Violenze sessuali, FURT = Furti, RAPI =
Rapine,
ESTO=Estorsioni
ed
altri
delitti,
la
classificazione dei delitti
riportata nella tabella
I risultati dell’analisi a 3-vie:
L’INTERSTRUTTURA
Rappresentazione globale delle 4 tabelle dei dati
nel
primo
piano
fattoriale 1  2  76,02% (
dell’inerzia totale) rispetto alla matrice ‘media’
(WD) (‘matrice compromesso’, sintesi di tutte le
matrici) : la vicinanza indica tabelle con strutture
globalmente simili:
Analisi dell’inter-struttura
Figura 8-Il plot delle 4 tabelle dei dati per i 4 anni considerati sul primo piano principale
(     76,03 % dell’inerzia totale) centrato rispetto alla matrice compromesso (WD)
1
2
Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Interstructure.
Analisi dell’intrastruttura: la matrice compromesso e
il municipio medio rispetto alla microcriminalità nel
periodo considerato
Figura 10 -Rappresentazione degli individui compromesso: i 19 Municipi (punti unità-medi)
rispetto ai primi due assi compromesso ( 1  42 , 48 %   2  17 , 70 %  60 ,18 % )
-----------------------------------------------------------------------------------------------------------------------1!
!
XVII
!
2!
!
!
3!
!
!
4!
!
!
5!
!
!
6!
!
!
7!
!
!
8!
!
!
9!
!
!
10!
!
!
11!
!
!
12!
!
!
13!
!
!
14!
!
!
15!
!
!
16!
!
!
17!
!
!
18!
!
!
19!
!
!
20!
!
!
21!
!
!
22!
!
!
23!
!
!
24!
!
!
25!
!
!
26!
!
!
27!
!
!
28!
!
!
29!
!
!
30!
!
!
31!
!
!
32!
!
!
33!
!
!
34!
!
!
35!
!
!
36!
!
!
37!
XVII
!
!
38!
!
!
39!
!
!
40!
XX
!
!
41!
!
!
42!
XII
!
!
XVI
43!
VII
45!----------------XV
!
!
44!
!
46!
47!
48!
------- !
!
!
!
---------------------------------------------------------------------------------------- !
!
!
III
!
!
!
!
!
49!
50!IV
V
VIII
XIX
VIXIII
!
II
!
!
!
X
!
!
!
!
!
!
!
!
!
I !
------------------------------------------------------------------------------------------------------ ------------------
51!
52!
53!
54!
55!
56!
57!
XI IX
Fonte: ns. elaborazione su dati forniti dalla Questura di Roma. Software impiegato: ACT-Statis. Intrastructure
Sul primo asse si può notare la contrapposizione tra i Municipi XVI, VII, XV,XII , VIII e il III, I;
sul secondo asse il XVII, XX contro il IX, XI. Mentre nella Figura 11 si riporta lo stesso plot
riferito invece che alle u.s. (19 Municipi) alle variabili (i 5 tipi di delitti nei 4 anni). Il confronto tra i
due plot consente di interpretare i risultati considerando la vicinanza tra i punti-medi unità
(Municipi) e i punti-medi variabili (5 tipologie di delitti )incluso l’anno di riferimento (qui indicato
con i numeri 1=1999, 2=2000,3=2001,4=2002 posti accanto al nome della variabile).
Analisi dell’intrastruttura: la matrice compromesso e
il tipo di reato ‘medio’ rispetto alla microcriminalità
nel periodo considerato
Figura 11 – Correlazioni delle variabili con gli assi: i 5 punti-medi variabili sul primo pian
fattoriale
I risultati dell’analisi a 3-vie:
LE TRAIETTORIE dei Municipi
(indicizzate rispetto al I asse fattoriale
Municipi da I a V: il diverso ruolo nella criminalità
1  57,75%
)
Le traiettorie della
criminalità diffusa degli altri
Municipi: confronti
Una sintesi dei risultati
•
•
•
•
•
•
•
E’ possibile analizzare singolarmente ogni Municipio per i 4
anni considerati e confrontare la sua traiettoria rispetto agli
altri: si noti che l’ordine in cui appaiono è in effetti una
graduatoria (multidimensionale perché riferita ai 5 tipi di
delitti
denunciati
contemporaneamente
considerati)
decrescente rispetto alla criminalità nei vari anni di ciascun
Municipio.
Limitandoci qui a commentare in particolare il III e il V
Municipio, essendo quelli in cui si è svolta l’indagine
campionaria di cui si vedranno alcuni risultati nel paragrafo
che segue.
-Si può anzitutto notare che il I Municipio è quello che ha la
criminalità più elevata
-mentre il V quella più bassa
rispetto agli altri Municipi considerati
- inoltre nei 4 anni mentre la criminalità nel V Municipio è
rimasta pressoché invariata nel I Municipio si sono avuti
notevoli cambiamenti nei 4 anni come si può vedere dalla
traiettoria del Municipio I in figura 11: andamento alterno
con una brusca diminuzione nel 2000 ed una notevole ripresa
nel 2001.
E’ da notare che questa rappresentazione consente la
condensazione e sintesi di una notevole mole di informazioni
e soprattutto consente il confronto spazio-temporale delle u.s.
rispetto alle variabili considerate.
La percezione sociale dell’insicurezza
urbana:
Un caso di studio per
l’analisi delle corrispondenze multiple
Il caso di studio 5:
• La percezione sociale
dell’insicurezza urbana:
Indagine per questionario
1^fase:
La documentazione
statistica di partenza
Se è un questionario.
Esempio: Questionaro di Indagine
sulla “Sicurezza Urbana e Percezione della Criminalità
Università degli Studi di Roma “La sapienza”
Facoltà di Sociologia
La percezione sociale dell’insicurezza urbana:
il caso di Roma
Ricerca sulle opinioni, gli atteggiamenti e i comportamenti dei cittadini romani nei confronti della
microcriminalità, svolta nell’ambito dei “Programmi di ricerca scientifica di rilevante interesse
nazionale” del Ministero dell’Università e della Ricerca Scientifica e Tecnologica.
Direttore di ricerca
Prof.Fulvio Beato
Consiglio scientifico:
Prof. Enzo Campelli
Prof. Lucia Ciampi
Prof. Mary Fraire
Prof. Fiammetta Mignella Calvosa
Prof. Stefano Nobile
1^fase:
La documentazione
statistica di partenza
Il Questionario d’indagine
La percezione sociale dell’insicurezza urbana:
il caso di Roma
1. Codice intervistatore
2. Intervista numero
3. Intervista effettuata nella zona
PERCEZIONE DELLA CRIMINALITÀ
4. Come definirebbe in termini di pericolo rispetto alla piccola criminalità (scippi, furti, atti
di teppismo e simili) la zona dove abita?
1.
2.
3.
4.
Molto pericolosa
Abbastanza pericolosa
Poco pericolosa
Per niente pericolosa
5. Come definirebbe in termini di pericolo rispetto alla piccola criminalità la città di Roma
nel suo complesso?
1.
2.
3.
4.
Molto pericolosa
Abbastanza pericolosa
Poco pericolosa
Per niente pericolosa
6. Negli ultimi due anni, gli episodi di piccola criminalità nel suo quartiere sono diventati
1.
2.
3.
4.
Più frequenti
Non sono aumentati né diminuiti
Meno frequenti
Non so
7. Negli ultimi due anni, gli episodi di piccola criminalità a Roma sono diventati
1.
2.
3.
4.
Più frequenti
Non sono aumentati né diminuiti
Meno frequenti
Non so
Il
2^fase
questionario CODIFICATO
17. Se potesse, cambierebbe casa per ragioni di sicurezza, andando a vivere in un quartiere più tranquillo da questo punto di
vista? V17
1. No
2. Forse
3. Sì
(codifica: In colonna V17 codici o 1 o 2 o 3)
18. Il senso di insicurezza delle persone dipende dal fatto che… V18A, V18B,V18C,V18D
a.
b.
c.
d.
Codifica: si creano 4 colonne
per ogni item a.,b.,c.,d.,
e per ciascuna si codifica
Con 0 (no), 1(sì)
Non fanno abbastanza affidamento su se stesse
Hanno pochi rapporti con gli altri e vivono isolate
Non hanno piena fiducia nelle istituzioni e nelle forze dell’ordine
L’imprevisto è in agguato tutti i giorni
ESPERIENZE PERSONALI DI CRIMINALITÀ
19. Di quali dei seguenti reati le è capitato di essere vittima a Roma? V19A, V19B, V19C, V19D, V19E, V19F, V19G, V19H,
V19I, V19J, V19K, V19L, V19Altro (dati testuali), V19N, V19P, V19Q (colonne per ulteriori codifiche)
a.
b.
c.
d.
e.
f.
g.
h.
i.
j.
k.
l.
m.
n.
Scippo
Borseggio
Rapina
Aggressione
Molestie fisiche
(Per
Telefonate oscene
Esibizionismo
Ricatti sessuali sul luogo di lavoro
Furto in casa
Tentato furto in casa
Furto di veicoli
Furto di parti appartenenti ai veicoli e di oggetti dai veicoli
Atti di vandalismo
Altro (specificare)
la codifica :idem come dom.17)
20.Quando è stata l’ultima volta in cui ha subito un atto di microcriminalità a Roma? V20 (dato testuale)
__________________________________________________________________________
21.In quale zona è successo? V21
1. Nel mio quartiere
2. In centro
3. In periferia
4. In semiperiferia
5. Altro (specificare)
6. Non sa, non ricorda
99. n.d.
Il questionario CODIFICATO
2^fase
Le variabili illustrative o passive
CARATTERISTICHE SOCIO-DEMOGRAFICHE
51. Sesso V51
1. Maschio
2. Femmina
52. Anno di nascita V52, V52ETA’
53. Luogo di nascita V53 (dati testuali), V53REC (!,2,3)
54. Cittadinanza V54
1. Italiana
2. Altro Paese dell’Unione Europea
3. Altro Paese fuori dall’unione Europea
55. Stato civile V55
1.Nubile/celibe
2. Coniugato
3.Separato
4.Divorziato
5.Vedovo
Quartiere di residenza V56 (dati testuali)_______________________________
2^fase
Codifica a priori o creazione
della matrice dei dati iniziali:
tabella inventario
AN 702, K 46
ID
V03MUNI V19ASCI V19BBORSV19CRAPI
1
3
0
0
0
2
3
0
0
0
3
3
1
0
0
4
3
1
0
0
5
3
0
0
0
6
3
1
0
0
7
3
0
1
0
8
3
0
1
0
9
3
0
0
0
V51SESSOV52ETA V53LUO V54CITTA V55STCIV
2
1
1
1
1
2
1
1
1
1
2
4
3
1
5
… 2
4
3
1
2
1
2
1
1
… 1
1
1
1
1
1
1
2
4
2
2
1
3
1
1
4
1
4
3
1
2
……………………………………………………………………
……………….…………………………………………………..
700
701
702
3
5
3
0
1
0
0
0
0
0
0
0
2
1
2
1
2
1
1
3
3
1
1
1
TABELLA INVENTARIO (n x k): contiene dati misti
codici alfanumerici e numeri reali; nessuna struttura
richiede ulteriori codifiche a posteriori .Dato statistico:
[aij  codici ; val.numerici ]
1
2
1
4^ fase
AMD
La scelta delle variabili di analisi (4^fase AMD)
Un esempio di variabili attive e illustrative o
passive nell’ACM:
la percezione sociale della criminalità a Roma
•Variabili Attive
•Modalità
•V04 - pericolosità zona
•v1molto-v2abbast.-v3poco-v4per niente
•V05 - pericolosità città
•v1molto-v2abbast.-v3poco-v4per niente
•V06 - piccola crim. quartiere
•v1più freq.-v2invariati-v3meno freq.-v9rm[1]
•V11 - sicurezza buio strada
•v1molto-v2abbast.-v3poco-v4per niente
•V12 - sicurezza buio casa
•v1molto-v2abbast.-v3poco-v4per niente
•V19 – esp. vittimizzazione
•v1 0 reati-v2 1 reato-v3 2+ reati
•Variabili Illustrative
•Modalità
•V51 - sesso
•v1maschio-v2femmina
•V52 - età
•v1 20/34-v2 35/44-v3 55/64-v4 65+
•V55 - stato civile
•v1nubile/celibe-v2coniugato-v3separato-v4divorziatov5vedovo
•V61 - condizione occupazionale
•v1t.pieno-v2t.parz.-v3in
cerca1°occ.-v4disocc.v5ritirato v6inabile-v7studente-v8casalinga-v9altro
•V66 - titolo di studio
•v1nessuno-v2lic.elem.-v3avviam.-v4media inf.-v5media
sup. v6form.prof.-v7dipl.univ.-v8laurea-v9dottorato
•V67 - livello economico
•v1molte diff.-v2con diff.-v3qualche diff.-v4abb.facilm.
v5facilm.-v6molto facilm.-v9rm
•V68 - livello sociale
•v1alto-v2m.alto-v3medio-v4m.basso-v5basso-v9r.m.
•V69 - orientamento politico
•v1sin.-v2centro
v6altro-v9r.m.
s.-v3centro-v4centro
d.-v5destra-
7^fase AMD:
Output risultati
ACM(Analisi delle Corrispondenze Multiple):
Rappresentazione simultanea sul PRIMO PIANO FATTORIALE
delle variabili ATTIVE e ILLUSTRATIVE
[plot del primo piano fattoriale (20,78% dell’inerzia totale)]
Le dimensioni o variabili latenti emerse dall’analisi hanno
consentito di individuare diverse tipologie di portatori di ‘sentimenti
di insicurezza’ (‘fear of crime’):‘privilegiati’, ‘deprivati
socialmente’, ‘ossessivi catturati da l’obsession sécuritaire’,
‘xenofobi e autoritori’.
Fonte- F.Beato (a cura di) – La calma insicurezza – Liguori editore 2003
:
Un caso di studio per l’analisi a 3 vie
(MULTIWAY data analysis)
• Il caso di studio 6:
• DATABASE degli studenti delle
Facoltà di Sociologia in Italia
Un caso di
studio
esaminato
AN 458,K 34
La matrice dei dati iniziali è una tabella inventario
SE E’ UN DATABASE ( BASE DI DATI)
•
•
il caso di studio considerato è un data base costituito dai 5 files degli
studenti immatricolati in 5 Facoltà di Sociologia in Italia negli
aa.aa.2001-02/2003-04 sono stati forniti dagli archivi degli atenei di
competenza.
Sede della facoltà di Sociologia Totale immatricolati (v.a.)
► Le unità di analisi in microdati:
Trento
841
gli studenti immatricolati
► Le variabili di analisi :
Milano
806
in totale 34 o 39 (secondo le Facoltà) variabili
che è possibile classificare
Roma
2.991
Chieti
458
Napoli
2.762
Totale
7.858
secondo la loro posizione
nel ‘percorso universitario’ .
degli studenti.
Le variabili che considereremo :
(a) variabili di ingresso:
(b) Variabili di percorso:
(c) Variabili di esito:
Genere (2 modalità),
Età alla I^iscriz.
Tipo di Diploma
Voto di diploma
Crediti complessivi
conseguiti
Votazione media esami
[Posizione
amministrativa al 2°
anno
Posizione amministrativa
al 3° anno
Posizione amministrativa
al 4° anno]
Posizione
amministrat.attuale
le variabili disponibili originali
3^fase
[anche con ricodifiche di 3^ fase AMD]
e codifiche (labels e value label dei dati)2^fase AMD:
Il caso
di
studio
esamina
to
Ipotesi di classificazione delle variabili: Ingresso Percorso Esito
Il caso di
studio
esaminato
Le matrici a tre indici per
l
’Analisi dei Dati a Tre Vie del caso di studio
N = u.s.; K= caratteri O = occasioni
5 Fac.Soc.
X N 18categ.stud;K 14var
•
•
•
Scopi dell’analisi a 3-vie nel caso di
studio considerato
Mediante l’Analisi dei Dati a Tre Vie (three-way data analysis) si possono esaminare
contemporaneamente e globalmente più tabelle di dati quantitativi nella forma delle
matrici dei dati a due indici XN,K suddette scegliendo “a priori” (perciò l’analisi è detta
asimmetrica) un terzo “indice” o criterio denominato “occasioni”, che può essere
rappresentato da tempi (anni, età ecc.), luoghi, situazioni di ricerca o altro criterio non
necessariamente costituito da una variabile, può essere anche una mutabile e non avere
un ordinamento delle modalità (sconnessa) come nel caso in esame.
Molto schematicamente, facendo riferimento al caso qui considerato, si potrebbe
rappresentare l’analisi dei dati a tre-modi e tre-vie, ossia dati “cubici”[1] nel modo
seguente:
Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata[MF1]
•
Fig. 5.2 – L’analisi dei dati a tre-modi e tre-vie impiegata
•
•
•
•
•
•
In particolare, la matrice dei dati a tre indici = considerata è definita dai seguenti
elementi:
N = 18 categorie di studenti universitari ottenuti dall’incrocio delle variabili di ingresso
(genere, età all’immatricolazione, tipo di diploma, voto di diploma);
Xj (j = 1, 2,…, k) = 14 modalità-variabili delle variabili di percorso (crediti e votazione
media) e di esito (posizione amministrativa attuale);
Or (r = 1, 2,…, 5) = 5 facoltà di Sociologia (Trento, Milano, Roma, Chieti, Napoli);
(r = 1,..., 5; i = 1,…, 18; j = 1,.., 14) = frequenza relativa dell’i-ma categoria di studente
(sul totale N) per la j-ma variabile-modalità nell’r-ma occasione (facoltà di Sociologia).
È da notare che in questo caso il dato statistico è un numero razionale positivo
(frequenza relativa) e ogni matrice dei dati iniziali è una tabella di contingenza
normalizzata che può essere trattata come una matrice di intensità a due indici unità
× variabili.
[1] I dati cubici sono strutturati come un ipercubo multidimensionale in cui ogni lato è
una dimensione; essi permettono di essere analizzati e modellati multidimensionalmente
a scopo sia predittivo che classificatorio per l’individuazione di tipologie, modelli,
strutture dei dati anche latenti.
4^fase
AMD
La scelta della tabella dei dati per
l’analisi a tre-vie
• Si possono avere tre diverse codifiche a
posteriori di una matrice dei dati a tre-vie
secondo le situazioni di ricerca :
• 1) Una matrice di dimensione [ N , (KO)]
in cui si considerano diverse le K variabili
rilevate in O occasioni successive ed uguali
le N u.s.;
• 2) Una matrice di dimensione [ (N O) , K]
in cui si considerano uguali le K variabili e
diverse le N u.s. rilevate in O occasioni
successive;
• 3) Una matrice di dimensione [(N x K), O]
in cui si considerano uguali sia le N u.s. che
le K
variabili rilevate in O occasioni
successive.
• Nell’applicazione considerata, la scelta
della codifica a posteriori è stata quella di
tipo 2)
4^
Fase
AMD
Codifiche a posteriori della matrice dei
dati a tre-vie: la scelta della tabella dei dati
(4^ fase AMD)
.
Nel presente lavoro la situazione di ricerca considerata è quella descritta al
punto (2), ossia si hanno uguali le K = 14 variabili (di percorso e di esito) e
diverse le N = 18 categorie di studenti universitari in O occasioni rappresentate,
in questo caso, dalle 5 facoltà di Sociologia in Italia.
Sinteticamente la matrice dei dati a tre indici considerata può essere indicata:
O  5 Fac. Soc.
X N 18, K 14  X ( N 18O  5), K 14
In particolare, si riporta nella tabella 5.3 la tabella dei dati (4° fase
dell’AMD) costituente la matrice dei dati a tre-vie considerata per le analisi
multi-way che seguono e facendo riferimento in particolare alla forma richiesta
(impilamento delle 5 matrici) dal software statistico Act-STATIS.
Sulla tabella dei dati sono state eseguite tramite gli appositi software (ActStatis e SPAD) più tecniche statistiche multi-way di analisi dei dati. In
particolare, nell’applicazione che segue sono state impiegate ripetutamente le
seguenti analisi statistiche multi-way:
(a) Analisi Congiunta delle tabelle (metodo STATIS): analisi a tre-vie con il
metodo STATIS-Duale considerando 18 unità statistiche attive (categorie di
studenti secondo le variabili di ingresso) e 14 modalità-variabili (di percorso
e di esito) attive;
(b) Analisi Fattoriale Multipla (AFM): 18 unità statistiche attive (categorie
di studenti) e 14 modalità-variabili di percorso e esito attive.
Analoghe analisi multi-way del tipo (a) sono state effettuate considerando le
stesse unità attive (categorie di studenti), ma diverse variabili, ossia:
- 18 unità statistiche attive e 9 modalità-variabili di percorso attive;
- 18 unità statistiche attive e 5 modalità-variabili di esito attive.
Ugualmente per le analisi di tipo (b) Analisi Fattoriale Multipla:
18 individui (categorie di studenti) attivi e 9 modalità-variabili di percorso
attive;
- 18 individui (categorie di studenti) attivi e 5 modalità-variabili di
esito attive
1
Con il software SPAD-méthode STATIS tale tabella si costruisce,
invece, mettendo consecutivamente, anziché impilate, le 5 matrici
delle 5 facoltà considerate.
4^fase
AMD:
La tabella dei dati:
matrice di contingenza generalizzata
N r 18;s14
4^ fase:
le scelta
tabelle dei dati
Il caso di
studio
esaminato
Codifiche a posteriori: una possibile
ricodifica
(di 4^ fase dell’AMD: scelta della tabella
dei dati)
delle unità di analisi
le unità di analisi in macrodati: le categorie di studenti
le unità di analisi N = 7.858 u.s. sono state trasformate in N = 18
categorie di studenti ottenute considerando le 4 variabili di
ingresso: (1) genere; (2) età all’immatricolazione; (3) tipo di
diploma; (4) voto di diploma.
Le 18 categorie di studenti sono quindi: (1) maschi; (2). femmine;
(3) totale (maschi e femmine); (4) età 18-21; (5) età 22-25; (6) età
26-29; (7) età 30 e oltre; (8) liceo classico; (9) liceo scientifico;
(10) liceo socio-pedagogico e istituto magistrale; (11) licei
linguistico e artistico; (12) istituto professionale; (13) istituto
tecnico; (14) altro tipo di istituto; (15) voto di diploma basso; (16)
voto di diploma medio-basso; (17) voto di diploma medio-alto;
(18) voto di diploma alto.
È da osservare che ulteriori categorie di studenti si potrebbero
ottenere mediante gli incroci tra le modalità delle variabili, non
necessariamente solo di ingresso, che sarebbero ugualmente
interessanti.
Se si considerassero, ad esempio, la variabile genere e il
totale incrociate con tutte le altre variabili di ingresso si
avrebbero: 3 (M,F,T) + 3 × 4 (classi di età
all’immatricolazione) = 12 + 3 × 7 (tipo di diploma) = 21 + 3×4
(classi voto di diploma) = 12 categorie di studenti, in totale
quindi 3 + 12 + 21 + 12 = 48 categorie di studenti
La tabella dei dati
AMD:
del caso di studio considerato :
le codifiche a posteriori effettuate a partire dal
data base (matice dei dati iniziali)
4^fase
• Nella situazione di ricerca qui considerata, la tabella dei dati è
una matrice di intensità o di dati quantitativi in quanto la
suddetta matrice Xn,k è composta da dati statistici xij
rappresentati da numeri reali, frequenze relative, numeri
razionali positivi in una tabella di contingenza (qui in
particolare normalizzata[1]) in cui ogni riga della matrice
può essere vista come un vettore numerico a k dimensioni
indicante le coordinate di un punto-individuo in uno spazio Rk
a k-dimensioni, denominato spazio delle unità statistiche.
Dualmente ogni colonna della matrice è rappresentata da un
vettore numerico a n dimensioni indicante le coordinate di un
punto-variabile nello spazio Rn a n-dimensioni, denominato
spazio delle variabili.
• Come noto (cfr Fraire, 1994), tale matrice ha struttura
algebrica di spazio vettoriale euclideo; ciò significa che ad
essa possono essere applicate tutte le operazioni tra matrici e
la maggior parte dei metodi di Analisi dei dati, sia predittivi
che
esplorativi.
• [1] Ponderando le frequenze assolute delle 14 modalitàvariabili considerate secondo la numerosità N degli
immatricolati di ciascuna facoltà si ottiene una tabella di
contingenza normalizzata che tiene conto della diversa
numerosità degli immatricolati di ciascuna delle 5 sedi
considerate.
Analisi dell’inter-struttura
• Con l’analisi dell’inter-struttura si vuole valutare se le
5 tabelle dei dati considerate attraverso la loro
rappresentazione globale e simultanea hanno strutture
simili (vicine) o dissimili (lontane). Ciò significa
verificare quali categorie di studenti secondo le 14
modalità-variabili considerate di percorso e di esito
hanno strutture simili o diverse al variare delle 5
facoltà di Sociologia italiane considerate nel triennio
2001-2003 (cfr. Cap. 3). In altri termini, si vuole
esaminare se le 5 facoltà hanno di fatto strutture
“omologhe”, ossia non presentano cambiamenti
strutturali degli studenti immatricolati tra una e l’altra
nel periodo considerato. Sinteticamente si potrebbe
rappresentare (cfr. Bolasco, 1999) così la somiglianza
o dissomiglianza delle strutture:
•
a: simili
b: dissimili
• A tal scopo si calcola la matrice delle distanze euclidee
tra matrici di correlazione; essa è simmetrica, quadrata,
di dimensione 5  5 (perchè sono 5 le occasioni =
facoltà di Sociologia considerate). I coefficienti della
matrice, essendo distanze euclidee, sono indici positivi
che assumono valore 0 = massima similarità e valori
diversi da 0 = dissimilarità tra le coppie considerate
Analisi dell’interstruttura
Tab. 5.4 – Metodo Statis-Duale: Matrice delle distanze euclidee tra i coefficienti di correlazione (range: 0 =
massima similarità, maggiore di 0 = dissimilarità) tra tutte le coppie di facoltà di Sociologia1
RM
NA
TR
CH
MI
RM
0.000
NA
4.847
0.000
TR
4.844
0.000
2.885
CH
5.931
5.452
4.982
0.000
MI
4.896
5.032
0.000
3.096
0.821
Fig. 5.3 – Plot delle 5 facoltà di Sociologia sul primo piano principale
Molto sinteticamente si riportano i risultati per un più agevole confronto nella
tabella 5.5.
Tab. 5.5 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia
Analisi multi-way: MetodoStatis-Duale – Variabili
attive
Somiglianti
Dissomiglianti
14 modalità-variabili attive di percorso e esito
[variabili di percorso: crediti acquisiti (4
modalità), votazione media conseguita (5
modalità);
variabili di esito: posizione
amministrativa attuale (5 modalità)].
TR-MI (0,821)
TR-NA (2,885)
MI-NA (3,096)
RM-CH (5,931)
NA-CH (5,452)
MI-CH (5,032)
1
La similarità o dissimilarità tra le 5 tabelle dei dati può essere misurata sia impiegando una metrica basata
su distanze tra unità statistiche (ad esempio, distanza euclidea, di Manhattan, di Mahalanobis, indici di distanza
come il ² e così via) sia da distanze tra varianze-covarianze, correlazioni secondo il tipo di codifica a posteriori
scelta per la matrice a tre-vie. Nell’applicazione considerata la metrica riguarda la distanza euclidea tra
coefficienti di correlazione.
Analisi dell’interstruttura: una sintesi
Nella tabella 5.6 si riporta una sintesi dei risultati finali dell’analisi
dell’inter-struttura qualora si considerino come variabili attive
rispettivamente: (a) solo le 9 modalità-variabili di percorso e (b) solo
le 5 modalità-variabili di esito 1.
Tab. 5.6 – Somiglianze e dissomiglianze tra le 5 facoltà di Sociologia
Analisi multi-way: MetodoStatis- Somiglianti
Dissomiglianti
Duale – Variabili attive
(a) 9 modalità-variabili attive di TR-MI (0,247) RM-CH
percorso [crediti acquisiti (4 TR-NA (2,431) (4,710)
modalità),
votazione
media MI-NA (2,551) MI-RM (4,228)
conseguita (5 modalità)].
TR-RM (4,216)
(b) 5 modalità-variabili attive di RM-TR (0,154) NA-CH (1,020)
esito [posizione amministrativa RM-NA
RM-CH
attuale (5 modalità)].
(0,253)
(0,961)
NA-TR (0,374) CH-TR (0,868)
Queste ulteriori analisi mettono in evidenza il maggior ruolo delle
variabili attive di esito nel differenziare le 5 facoltà considerate. Si
noti, inoltre, che dal valore dell’inerzia spiegata dai primi due assi
principali si possono ipotizzare due dimensioni sottostanti le variabili
attive considerate.
NOTA: Nel caso (a) il primo piano fattoriale è risultato spiegare lo 85,26% della
varianza totale originaria (in particolare il primo fattore il 47,15% e il secondo il
38,11%). Nel caso (b) il primo piano fattoriale è risultato spiegare il 93,69% della
varianza totale originaria (il primo fattore lo 81,10% e il secondo il 12,59%).
1
Analisi dell’intra-struttura: individui e variabili
compromesso, la nuvola dei punti- medi
Con l’analisi dell’intra-struttura si vogliono individuare i punti-individui
medi (lo studente delle facoltà di Sociologia-medio) e i punti-variabili medi
(variabili di percorso e di esito-medi) attraverso le 5 facoltà di Sociologia.
Per l’analisi dell’intra-struttura si diagonalizza la matrice compromesso dalla
quale si ottengono, limitandosi qui a riportare solo i primi due fattori (assi
compromesso), i seguenti autovalori per le tre analisi multi-way effettuate:
(a1) 14 modalità-variabili attive di percorso ed esito: 1+ 2 = 83,65% +
5,18% = 88,83%
(a2) 9 modalità-variabili attive di percorso: 1+ 2 = 81,65% + 7,01% =
88,66%
(a3) 5 variabili attive di esito: 1+ 2 = 90,98% + 5,21% = 96,20%
Anche in questo caso è possibile rappresentare sul primo piano fattoriale sia
le variabili (punti variabili-medie) che le u.s. (punti-individui-medi) rispetto ai
primi due assi compromesso. Si riporta nella figura 5.4 il plot sul primo piano
principale compromesso dei punti-variabili medi e nella tabella 5.7 i principali
indici statistici, limitandosi ai primi due fattori e solo alla prima delle tre analisi
multi-way considerate.
La matrice ‘media’ o ‘matrice compromesso’:
calcolo e significato nel caso di studio considerato
Al fine di interpretare più agevolmente i plot suddetti, si riportano le
coordinate fattoriali, i contributi assoluti (correlazioni variabili-assi principali
compromesso) e il coseno quadrato (contributo relativo = cos², variante tra 0 e 1,
con 0 = pessima e 1= ottima qualità della rappresentazione dei punti sul primo
piano principale compromesso) per la prima delle tre analisi multi-way effettuate
e con riferimento al solo primo piano principale.
Nelle applicazioni considerate (casi diversi, stesse variabili) la matrice
compromesso è ottenuta come prodotto scalare delle matrici di correlazione con
la loro media aritmetica ponderata. Circa il significato da attribuire alla matrice
compromesso, è da osservare che nel caso esaminato essa può essere interpretata
come lo studente medio, più rappresentativo rispetto alle 5 facoltà di Sociologia
italiane nel periodo considerato.
È da osservare che la matrice media o matrice compromesso rappresenta la
sintesi di tutte le matrici ed è data dalla media aritmetica ponderata delle matrici
di similarità o distanza N  N tra individui corrispondenti alle matrici originarie
espresse in scarti dalla media ponderate con gli autovettori corrispondenti al
primo più grande autovalore della matrice C  Cij, essendo Cij = tr(iSjS).
Basandosi sul primo autovalore la matrice compromesso è robusta in quanto
poco influenzata dalle piccole variazioni delle matrici di similarità (cfr. Rizzi,
1987).
Tab. 5.7 – Indici statistici del primo piano principale compromesso
Numero
Autovalore
Percentuale
Percentuale cumulata
Istogramma
1
11,7116
83,65
83,65
*****************************
2
0,7252
5,18
88,83
*****
3
0,4438
3,17
92,00
****
4
0,3122
2,23
94,23
***
5
0,2461
1,76
95,99
**
Coordinate fattoriali, contributi assoluti e coseno quadrato del primo piano fattoriale compromesso
(88,83% dell’inerzia totale)
Coordinate fattoriali
Contribuiti assoluti
Coseni quadrati
Modalità-variabili
1
2
1
2
1
2
Improduttivi
-0,96
-0,15
0,08
0,03
0,92
0,02
Poco produttivi
-0,97
-0,06
0,07
0,12
0,87
0,08
Abbastanza produttivi
-0,97
-0,06
0,08
0,00
0,94
0,00
Produttivi
-0,79
0,44
0,05
0,27
0,62
0,19
Nessuna votazione
-0,92
-0,32
0,07
0,14
0,84
0,10
Votazione bassa
-0,79
0,19
0,05
0,05
0,63
0,04
Votazione medio-bassa
-0,86
-0,32
0,06
0,14
0,74
0,10
Votazione medio-alta
-0,94
0,15
0,08
0,03
0,89
0,02
Votazione alta
-0,89
0,25
0,07
0,09
0,79
0,06
Iscritto
-0,99
0,06
0,08
0,00
0,98
0,00
Interpretazione dei risultati dell’intra-struttura
• L’analisi dei suddetti plot e dei relativi indici statistici
dei punti-variabile medi fornisce un’indicazione circa il
significato che si potrebbe attribuire alle due
dimensioni sottostanti, ai due assi principali
compromesso:
• - il primo asse principale (compromesso) rappresenta
lo studente avente percorso “medio” nelle variabili di
percorso (votazione media, produttivi);
• - il secondo asse principale (compromesso) dà conto,
invece, dello studente “atipico”, sia in positivo che in
negativo, rispetto alle variabili di percorso, ossia molto
produttivo, con votazione alta ed esito positivo
(laureato) oppure con votazione bassa, improduttivo ed
esito negativo.
• Le variabili di esito non risultano, quindi, essere
discriminanti, almeno rispetto alle 18 categorie di
studenti “medi”. Per poter approfondire ulteriormente
tale risultato, apparentemente incongruente, è
necessario effettuare un’analisi delle unità statistiche,
oltre che delle variabili medie, ossia delle 18 categorie
di studenti attraverso le 5 facoltà di Sociologia, al fine
di individuarne eventuali cluster.
L’Analisi fattoriale multipla (AFM)
(analyse factorielle multiple)
Nell’ambito delle analisi multi-way Statis, poiché nella codifica della matrice dei
dati considerata le u.s. (categorie di studenti) sono state considerate diverse
(essendo diversi gli studenti delle 5 facoltà di Sociologia considerate), non ha
significato calcolare oltre che le variabili-medie anche gli individui-medi
(compromesso), possibile, invece, nel caso di una codifica a posteriori in cui anche le
u.s. siano considerate uguali attraverso le occasioni (cfr. Par. 5.2.2).
Per esaminare più dettagliatamente anche le unità statistiche attraverso le 5
facoltà considerate si effettuerà un’analisi fattoriale multipla (AFM) mediante la
quale sarà possibile individuare cluster di studenti.
Nell’ambito delle analisi multi-way (cfr Par. 5.2.1) l’Analisi Fattoriale Multipla
(AFM) è adatta per analizzare differenti gruppi di individui sui quali sono osservate
le stesse o differenti variabili quantitative o qualitative. L’AFM si basa su ripetute
applicazioni e sintesi di Analisi in Componenti Principali (d’ora in avanti ACP) nel
caso di variabili o di Analisi delle Corrispondenze Multiple per mutabili (d’ora in
avanti ACM). Come già sopra accennato nell’Analisi a tre-vie duale, ossia in cui si
considerano diversi gli individui (18 categorie di studenti) e uguali le variabili (di
percorso ed esito), il plot degli individui-medi non viene calcolato. Si propone allora
di applicare in questo caso sulla stessa tabella dei dati (cfr. tab. 5.3) l’Analisi
Fattoriale Multipla (Analyse Factorielle Multiple) al fine di avere una classificazione
degli individui rispetto alle 5 facoltà di sociologia contemporaneamente considerate,
ossia individuare clusters di individui.
Per brevità si riportano solo alcuni dei risultati ottenuti dall’AFM e, in particolare,
solo quelli relativi all’analisi globale delle 5 tabelle di dati considerate ed ai soli
punti-individui1, limitandosi al primo piano principale globale delle 14 variabili attive
nelle figure 5.5a, 5.5b e 5.5c.
NOTA: Le elaborazioni dei dati sono state effettuate con il software WinSPAD, Analyse des Tableaux
Multiples, Analyse Factorielle Multiple. L’output dei risultati è in realtà molto ricco e comprende sia le ACP
per le singole matrici dei dati considerate (in questo caso cinque ACP sulle 5 matrici di dati quantitativi) con i
relativi indici statistici (autovalori, coordinate fattoriali, contributi assoluti e relativi, ecc.) che i risultati
numerici e grafici dell’Analisi Globale, ossia delle 5 tabelle dei dati simultaneamente considerate riferendo,
quindi, ai risultati sia numerici (autovalori, coordinate fattoriali, contributi assoluti e relativi ecc.) che grafici
riferiti ai punti-individui e ai punti-variabili sui piani principali “compromesso”.
I risultati dell’AFM:
Fig. 5.5a – Analisi Fattoriale Multipla: Plot dei 90 punti-individui attivi 1 sul primo piano principale globale (1+  = 79,87% + 7,51% = 87,38% della
varianza totale)2
Dall’analisi fattoriale multipla mediante la quale è stato possibile individuare 6 cluster
delle 14 categorie di studenti attraverso le 5 facoltà di Sociologia. Essi si collocano sul
primo piano principale come segue:
- il 1° cluster nel IV versante si contrappone al 6° cluster nel II versante;
- il 4° cluster nel I versante si contrappone al 2° cluster nel III versante;
- il 3° cluster si colloca nelle vicinanze dell’origine degli assi, quindi con scarsissima
correlazione con entrambi gli assi;
- il 5° cluster si colloca in una posizione inter-cluster.
1
18 categorie di studenti × 5 Facoltà di Sociologia = 90 punti-individui attivi.
Il primo piano principale si riferisce qui al piano delle 14 variabili (attive) di percorso e di esito. È da osservare che
nell’AFM è possibile rappresentare oltre al plot degli individui anche il plot dei punti-variabili, che qui per brevità non si riporta,
tramite il cerchio delle correlazioni sul primo piano fattoriale; esso tuttavia coincide con la rappresentazione dei punti-variabili
medi rappresentate con il metodo Statis-duale sul primo piano principale compromesso che è stato riportato qui in figura 5.4.
2
Considerazioni conclusive
Con l’analisi multi-way ed, in particolare, con l’analisi a tre-vie è stato possibile
- confrontare globalmente e simultaneamente le 5 facoltà di Sociologia rispetto
alle 18 categorie di studenti e alle 14 modalità-variabili inerenti. In particolare, con
l’analisi dell’inter-struttura la coppia di facoltà di Sociologia più simile rispetto
alle caratteristiche di percorso e di esito risulta essere Trento-Milano seguita, a
molta distanza, quindi, con una similitudine assai minore, da Trento-Napoli e
Milano-Napoli. La Facoltà di Sociologia di Roma si configura con una
caratterizzazione abbastanza singolare e contrapposta, sullo stesso asse fattoriale a
Napoli, Milano e Trento. Esaminando anche le altre due analisi dell’inter-struttura
(soltanto di percorso e soltanto di esito) si potrebbe ipotizzare che tale unicità sia
dovuta alle variabili di percorso degli studenti piuttosto che alle variabili di esito.
Inoltre, rispetto alla Facoltà di Sociologia di Chieti si registra, invece, una forte,
con valori tutti elevati, dissomiglianza con tutte le altre facoltà di Sociologia e la
sua posizione sul secondo asse fattoriale.
Con l’analisi dell’intra-struttura si sono individuate due dimensioni sottostanti le
14 variabili di percorso ed esito-compromesso considerate
- una prima dimensione (primo asse principale compromesso) rappresentante lo
studente con percorso “medio” nelle variabili di percorso (votazione media,
mediamente produttivi).
- Una seconda dimensione (secondo asse principale compromesso) rappresentante,
invece, lo studente “atipico” sia in positivo che in negativo rispetto alle variabili
di percorso ossia molto produttivo, con votazione alta ed esito positivo (ossia
laureato) oppure improduttivo, con votazione bassa ed esito negativo. Ciò
porterebbe a immaginare difficoltà inerenti non solo la “dotazione” dello studente
in ingresso, ma “l’architettura” stessa, l’organizzazione intesa come numero di
esami e relativi crediti introdotta di fatto dal 3+2, moltiplicando notevolmente il
numero dei moduli didattici e, quindi, i relativi esami da sostenere nel triennio, che
sono spesso di gran lunga superiori a quelli che erano previsti nel vecchio
ordinamento e risultano molto “pesanti” non solo per gli studenti meno ma anche
per quelli più dotati, per i quali risulta spesso assai difficile mantenere un profilo di
esito (ad esempio, laurearsi nel numero di anni previsto dal corso anziché
fuoricorso) come, invece, avveniva nel vecchio ordinamento.
Anche dall’analisi fattoriale multipla mediante la quale è stato possibile
individuare 6 cluster delle 14 categorie di studenti attraverso le 5 facoltà di
Sociologia.
Il caso di
studio
Caso di studio n.7
• Se sono dati testuali:
• Se è una matrice dei
dati testuali
• ‘Le preoccupazioni sociali rilevanti
e la QdV nelle C.M.’ e l’analisi a
tre vie per l’individuazione di
indicatori lessicali empirici
• Relazione
presentata
alla
5^JADT2000, Losanna 9-11 marzo su
M.Fraire, ‘Analisi a 3-vie delle risposte
a domande aperte e indicatori empirici
• Riferim.bibliograf.
‘Sociologia
e
Ricerca Sociale’ n.61/anno XXI, 2000
1^ fase AMD
L’Analisi dei dati testuali a 3-vie
• La documentazione statistica di partenza:
• campo d’indagine, questionario, popolazione e le matrici
•
•
•
•
•
•
•
•
•
•
dei dati iniziali
Particolare questionario ‘Scheda descrittiva-per problemi’
caratterizzato da una serie di 8 domande aperte miranti ad
individuare le ‘preoccupazioni sociali rilevanti’ per ciascuna
delle seguenti 8 ‘aree di rilevanza sociale’:
A: ‘Salute’ ;
B:’Istruzione e formazione professionale’;
C: ‘Occupazione e Qualità del lavoro’;
D:’Impiego del tempo libero’;
E: ‘Situazione economica personale’;
F:’Ambiente fisico’;
G:’Ambiente sociale’;
H: ‘Sicurezza personale’, nelle quali era stata scomposta la
definizione astratta di QdV.
le risposte alle 8 domande aperte date da ciascuno dei 22
operatori (presidenti di C.M.) hanno costituito il file di testo
originario composto quindi da 8 sub-files
•
Creazione della matrice dei dati testuali e
•
codifiche a posteriori: correzione, disambiguazione e
segmentazione del testo e le prime analisi statistiche dei testi.
un esempio
di matrice dei dati testuali
(Il questionario:1^fase dell’AMD)
…………………………………
Le matrici dei dati iniziali testuali (2^fase dell’AMDT) :
il file di testo nell’Analisi dei Dati Testuali:
La matrice ‘QdVCM.txt'
-
-
-
----01PIECN
A) ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI.
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI SERVIZI DI TRASPORTO.
++++
B)DIFFICOLTA DI ACCESSO ALLA SCUOLA MEDIA SUPERIORE E SCUOLE
PROFESSIONALI PER CARENZA TRASPORTI PUBBLICI.
PROBLEMA DELLA MENSA PER GLI ALUNNI PENDOLARI.
SCUOLE PROFESSIONALI SCARSAMENTE CORRELATE CON LE EFFETTIVE
ESIGENZE DEL MONDO DEL LAVORO.
++++
C)FINO AD UN ANNO FA NON VI ERANO GROSSE DIFFICOLTA DI
OCCUPAZIONE MA ATTUALMENTE IN VARI SETTORI INDUSTRIALI E
ARTIGIANALI VI E RIDUZIONE DELL'OCCUPAZIONE.
DIFFICOLTA SOPRATTUTTO PER I GIOVANI E LE DONNE IN CERCA DI
PRIMA OCCUPAZIONE.
AUMENTA IL LAVORO NERO E PART-TIME.
++++
D)LA ZONA PRESENTA SCARSE OPPORTUNITA DI CARATTERE CULTURALE.
PIU FAVOREVOLI INVECE SONO LE POSSIBILITA DI ATTIVITA SPORTIVE.
++++
E) IN GENERALE IL REDDITO PRO-CAPITE E DISCRETO.
PARTICOLARMENTE ONEROSO SPECIE PER LE CATEGORIE A BASSO REDDITO
E IL COSTO PER IL RISCALDAMENTO.
++++
F)PARTICOLARMENTE CARENTE E LA SS20 DEL COLLEDITENDA PER IL
TRAFFICO PROVINCIALE.
DEGRADO DOVUTO ALL'ATTIVITA DELLE CAVEE LA PRESENZA DI INDUSTRIE.
++++
G) L'AMBIENTE SOCIALE E DIVERSO NEL FONDO-VALLE RISPETTO A QUELLO
DELL'ALTA-VALLE. NEI PAESI DI FONDO-VALLE.NEI PAESI DI
FONDO-VALLE IL SERVIZIO SOCIALE SI OCCUPA DEI PROBLEMI DEI
GIOVANI E DELLE FAMIGLIE MENTRE NELL'ALTA VALLE I PROBLEMI
RIGUARDANO L'ASSISTENZA AGLI ANZIANI.
FENOMENO DIFFUSO E INOLTRE L'ALCOOLISMO MENTRE EMERGENTE E QUELLO
DELLA DROGA.
++++
H) SONO IN AUMENTO NEL SETTORE DEI REATI I FURTI. IN GENERALE LA
SICUREZZA PERSONALE NON PRESENTA PARTICOLARI PROBLEMI.
----02VADAO
A)ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE
DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE PER CARENZA
DI TRASPORTI.
++++
B)LA FREQUENZA ALLE SCUOLE ELEMENTARI NON PRESENTA PROBLEMI
MENTRE LA FREQUENZA ALLE SCUOLE SUPERIORI E UN PROBLEMA PER I
BAMBINI CHE ABITANO NELLE FRAZIONO ALTE DELLE VALLATE.
MANCA UNA SEDE UNIVERSITARIA.
++++
………………………...
----22SARNU
3^fase
AMD
Analisi dei dati testuali
Un esempio di codifiche a posteriori di 3^ fase:
la selezione delle risposte caratteristiche
•
Selezione delle risposte caratteristiche secondo le ripartizioni geografiche.
(Criterio del Chi-quadrato)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
INDICE CHI-QUADRATO
RISPOSTE CARATTERISTICHE
Nord-Ovest
.447 -1 ESISTENZA DI MALATTIE PROFESSIONALI:SILICOSI.
.592 -2 ASSENZA DI OSPEDALI E PRONTO SOCCORSO
2 MALATTIE TIPICHE DEGLI ANZIANI.NEOPLASIE.
.738 -3 ASSENZA DI PRESTAZIONI SANITARIE SPECIALISTICHE
3 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE PER CARENZA DI TRASPORTI.
Nord-Est
.480 -1 ELEVATA PRESENZA DI GOZZO PER CARENZA DI IODIO NELL'ACQUA POTABILE.
1 ALTO TASSO DI INVALIDI IN AGRICOLTURA PER INCIDENTI.
.725 -2 ALTO TASSO DI HANDICAP E INVALIDI.
.754 -3 NON FUNZIONALITA DEI DISTRETTI DI BASE
3 ASSENZA DI STRUTTURE PER HANDICAPPATI.
.766 -4 CLIMA UMIDO MALATTIE REUMATICHE E BRONCHIALI .
.864 -5 DIFFICOLTA DI ACCESSO ALLE PRESTAZIONI SANITARIE IN CASO DI
EMERGENZA.
Centro
.534 -1 STRUTTURE SANITARIE ACCENTRATE PRESSO L'OSPEDALE CIVILE.
1 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER
ASS.DISTR DI BASE.
.640 -3 CARENZA DI UN CONSULTORIO FAMILIARE
3 ASSENZA DI CENTRI DI IGIENE MENTALE
.735 -4 ASSENZA DI PRESTAZIONI SANITARIE PERIFERICHE.
.804 -5 ALTO TASSO MALATTIE REUMATICHE PER CLIMA UMIDO.
5 ALTO TASSO DI ANZIANI PER SPOPOLAMENTO.
Sud
.501 -1 ASSENZA DI ASILI NIDO E STRUTTURE PER HANDICAPPATI
504
2 ALTO TASSO DI HANDICAPS E INVALIDI CIVILI.
2 DIFFIC.DI ACCESSO ALLE PRESTAZ.SANITARIE IN CASO DI EMERGENZA PER
ASS.DI DISTR.DI BASE
.561 -3 ALTO TASSO DI HANDICAPS PER POLIOMIELITE.
.772 -4 ASSENZA DI SERVIZI PER ANZIANI.CARENZA DI STRUTTURE PER
HANDICAPPATI.
.778 -5 ALTO TASSO DI INVALIDI
5 ASSENZA DI PRESTAZIONI SANITARIE PUBBLICHE.
Isole
.376 -1 ASSENZA DI UN CENTRO DI RIANIMAZIONE.
1 CARENZA DI CENTRI DI SERVIZIO SOCIALE IN AMBITO USL
.695 -2 ALTO TASSO DI INVALIDI CIVILI.CARENZA DI SERVIZI SANITARI.
.937 -3 ALTO TASSO DI HANDICAP E INVALIDI.
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
L’analisi a tre-vie
• Mediante l’analisi dei dati a tre vie si sono volute esaminare
tutte insieme, contemporaneamente e globalmente, le 8 aree
di rilevanza sociale (occasioni), le u.s. (5 ripartizioni
geografiche) e le tre variabili (primi 3 fattori) di ogni area
ossia le 8 tabelle di contingenza nella forma di tabelle di
dati quantitativi suddetta al fine di individuare:
• a) attraverso la rappresentazione globale di tutte le tabelle
quali di esse hanno una struttura simile o diversa e, attraverso
la loro distanza dalla tabella ‘media’ (matrice compromesso),
valutare quali di esse contribuiscono maggiormente alla parte
di variabilità eccedente quella comune rappresentata dalla
matrice compromesso (analisi dell’interstruttura);
• b) individuare sia per gli individui (punti individui-medi) che
per le variabili (punti variabili-medie) le caratteristiche della
variabilità
media
nelle
8
occasioni
(analisi
dell’intrastruttura).
• c) individuare e confrontare le ‘traiettorie’ di ciascuna
u.s.(qui le 5 ripartizioni geografiche) per l’insieme delle 8
occasioni (aree di rilevanza sociale) considerate ossia i diversi
‘percorsi’ e quindi il diverso ruolo di ciascuna area di
rilevanza sociale nel definire la QdV di ciascuna ripartizione
(analisi delle traiettorie).
3^fase
AMD
Le codifiche a posteriori
• . Si sono considerati i dati centrati e
ridotti perché la variabilità delle
singole variabili era molto diversa.
Infine
si
è
richiesta
la
normalizzazione delle tabelle per
ottenere coefficienti di relazione tra
tabelle (l’indice RV di Escoufier)
varianti tra 0 e 1.
• in generale nelle applicazioni
informatiche (qui ad esempio si è
impiegato il software ACTméthode STATIS), tale codifica si è
ottenuta per impilamento delle
tabelle
e imponendo poi la
condizione che le variabili fossero
diverse in ogni occasione e le u.s.
uguali
A)Analisi dell’interstruttura:
la collocazione delle aree di rilevanza sociale
attravero l’analisi dell’interstruttura
Fig.2 - Rappresentazione sul primo piano fattoriale centrato (72,04%)
rispetto alla matrice compromesso delle 8 aree di rilevanza
sociale
-----------------------------------------------------------------------------------------------------------------------1!
1
!
2  28,14% !
2!
!
!
3!
!
!
4!
!
!
5!
!
!
6!
!
!
7!
!
!
8!
!
!
9!
!
!
10!
!
!
11!
!
!
12!
!
!
13!
!
!
14!
!
!
15!
!
!
16!
!
!
17!
!
5
!
18!
!
!
19!
!
!
20!
!
!
21!
!
!
22!
!
!
29!
!
!
30!
!
!
31!
!
!
32!
!
!
33!
!
!
34!
!
!
35!
!
!
36!
!
!
37!
!
!
38!
2
!
39!
!
!
1  43,90%,
40!
!
!
41!7
--------------------------------------------------------WD -------------------------------------------------------!
42!
!
!
!
45!
!
8
!
46!
!
!
47!
6
!
48!
!
!
49!
!
!
50!
!
!
51!
!
!
52!
!
!
53!
!
!
54!
!
!
60!
!
!
61!
!
!
62!
!
!
63!
!
!
64!
!
!
65!
!
!
66!
!
!
67!
!
!
68!
!
3
69!
!
!
70!
!
!
71!
!
!
72!
!
4
------------------------------------------------------------------------------------------------------------------------
(salute)
(Situaz.econ.person.)
(Istruz.e Form.Prof.)
(Ambiente sociale)
(Ambiente fisico)
(Sicurezza sociale)
(Occupazione)
(Impieghi del t.l.)
Questa classificazione ‘a posteriori’ in due clusters delle 8 aree definite ‘a priori’ emerge
comunque dall’analisi della parte di variabilità delle 8 tabelle eccedente la variabilità ‘media’.
Esaminiamo allora più dettagliatamente sia rispetto alle u.s. che alle variabili le caratteristiche
della variabilità ‘media’.
B)Analisi dell’intrastruttura:
la collocaizone delle ripartizoni geografiche
rispetto alle preoccupazioni sociali rilevanti
Rappresentazione delle 5 ripartizioni geografiche (5 punti
unità-medi) rispetto ai primi due assi compromesso (60,48%)
-----------------------------------------------------------------------------------------------------------------------1!
SUD !
!
2
2!
!
!
3!
!
!
4!
!
!
5!
!
!
6!
!
!
7!
!
!
8!
!
!
9!
!
!
10!
!
!
32!
!
!
33!
!
!
34!
!
!
35!
!
!
36!
!
!
37!
!
!
38!
!
!
39!
!
!
40!
!
!
41!
!
!
42!
!
!
43!
!
!
1
44!
!
!
45!------------------------------------ ! --------------------------------------------------------------------------------!
46!
NEst
!
47!
!
!
48!
!
!
49!
!
!
50!
!
!
51!
!
!
52!
!
!
53!
!
NOvest
54!
!
!
55!
!
!
56!
!
!
57!
ISOL
!
58!
!
!
59!
!
!
60!
!
!
61!
!
!
62!
!
!
63!
!
!
64!
!
!
65!CENTRO
!
!
------------------------------------------------------------------------------------------------------------------------
  28,00%
  32,48%
Sul primo asse si evidenzia la contrapposizione tra NEst (-) e Novest (+), mentre sul secondo
asse la contrapposizione tra Sud (+) e Isole (-). Il Centro come già rilevato nell’Analisi delle
corrispondenze è scarsamente correlato (contributi assoluti molto bassi) su entrambi gli assi.
C)Analisi delle traiettorie
Fig.4
–
Traiettorie
delle
5
Ripartizioni
geografiche
primo (4a)e al secondo (4b)asse fattoriale in
funzione
di rilevanza sociale.
rispetto
al
delle 8 aree
0!------------------------------------------------------------------------------------------------------------------------

1!
Fig.4a : 1  32, 48%
2!
A
!
3!
A
!
4!
!
5!
!
6!
A
A
!
7!
!
8!
!
9!
A
A
!
10!
!
11!
!
12!
!
13!
!
14!
!
15!
A
!
16!
NOvest A
!
17!
!
24!
!
25!
NEst
B
!
26!
!
27!
!
28!
!
29!
D
!
30!
!
31!
!
32!
D
!
33!
B
!
34!------------1 ----------2 ---------3E
--------4 ----------5B
--------6 ----------7 ----------8E -------------------35!
36!
D
!
37!
D
D
!
38!
E
D B
!
39!
D
E
!
40!
E
!
41!
Isole
E
B
!
42!
Centro
C
B
!
43!
Sud
D
C
!
44!
E
!
45!
!
46!
E C
C
C B
C
!
47!
!
48!
B
!
49!
C
!
50!
C
!
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------1!
2!
3!
4!
5!
6!
7!
8!
9!
10!
11!
12!
13!
Fig.4b: 
2
 28,00%
D
D
D
D
Sud
D
D
D
D
!
!
!
!
!
!
!
!
!
!
!
!
23!
B
!
24!
!
25!
NEst
B
!
26!
!
27!
!
28!
B
B
!
29!
A
!
30!------------1 ----------2 ----------3 ----------4 ----------5 ----------6 ----------7 ----------8 ----------------------!
31!
E
B
!
32!
E
A C
!
33!
A
!
34!
C
B
!
35!
A
!
36!
!
37!
E
A
E
!
38!
Centro
C
A
A
!
39!
B
E
!
40!
NOvest
A E
E
!
41!
B
!
42!
C
E
!
Isole
43!
!
44!
C
C
45!
!
46!
!
47!
C
!
48!
!
49!
!
50!
C
!
------------------------------------------------------------------------------------------------------------------------
Legenda:Ripart.
Geograf.:
A:Novest;
B:NEst;
C:
Centro;
D:Sud;
E:Isole.
AreediRil.Soc.:1:Salute;2:Istruz.eForm.Prof.;3:Occup.eQdL;4:ImpieghiT.L.;5:S
it.Econ.Pers.;6:
Ambiente
Fisico;7:
Ambiente
Sociale;
8:
Sicurezza
Personale.
Le linee tratteggiate non vanno ovviamente interpretate come funzioni ma qui sono solo
strumentalmente impiegate per facilitare il confronto delle diverse traiettorie sovrapposte.
Si noti come rispetto alle traiettorie del primo asse (Fig.4a) è la ripartizione NOvest che si
differenzia nettamente dalle altre nell’articolazione delle 8 aree di rilevanza sociale che
costituiscono la definizione di QdV ipotizzata mentre rispetto al secondo asse (Fig.4b) è il Sud
a differenziarsi nettamente dalle traiettorie delle altre ripartizioni. Inoltre, pur nella diversità dei
‘percorsi’ delle ripartizioni dovuti ad una diversa struttura delle preoccupazioni sociali rilevanti
di ciascuna area, vi sono delle aree vicine ossia tabelle di una data area simili nella struttura, ad
esempio nella Fig.4a: l’area 1:‘Salute’ nelle Isole, Centro e Sud; l’area 7: ‘Ambiente sociale’
nel NEst e Sud; Centro e Isole; l’area 4: ‘Impieghi del T.L.’ per il Centro e NEst.
FINE
LEZIONI 3-4
APRILE 2013
DdR RASS