Fonti, metodi e strumenti per l`analisi dei flussi turistici

Analisi delle corrispondenze
È una tecnica che permette una rappresentazione sintetica di
un numero elevato di variabili in un numero ridotto di nuovi
costrutti chiamati fattori. La sintesi avviene attraverso la
combinazione delle variabili di partenza.
Scopo è semplificare un insieme ricco e complesso di dati.
Le variabili che si usano per l’analisi delle corrispondenze
semplici o binarie (e multipla) sono variabili categoriali.
Se sono presenti variabili quantitative bisogna ridurle in classi
cioè trasformarle in variabili qualitative ordinabili
Analisi delle corrispondenze semplici
Il caso più semplice di AC: ho 2 variabili categoriali con un
numero elevato di modalità inserite in una tabella di
contingenza
Requisito: presenza di valori positivi nelle celle
Obiettivo: analisi della dipendenza fra le modalità delle due
variabili. Si studia la somiglianza o la diversità tra le
modalità attraverso la costruzione dei profili riga (frequenze
relative di riga) e dei profili colonna (frequenze relative di
colonna)
Analisi delle corrispondenze semplici
I profili (riga o colonna) si considerano le coordinate di uno spazio a più
dimensioni pesate però per la rispettiva massa data dalla frequenza
relativa (in questo caso facendo l’analisi sui profili riga, ossia come
unità le testate e come variabile i tipi di articoli, la massa sarà data dalla
percentuale di articoli scritti)
I profili riga: posso proiettarli in un piano a c dimensioni (dove c = numero
di modalità della variabile in colonna)
Il profilo riga medio (quello calcolato sul totale) è il baricentro della
nuvola di punti che si staglia sull’iperpiano (spazio a più dimensioni)
Andremo a calcolare le distanze tra i profili riga e il profilo riga medio
attraverso una metrica della distanza: utilizziamo la distanza del chiquadrato χ2 che tiene conto anche del peso (massa) delle modalità
Analisi delle corrispondenze semplici
Scopo è sintetizzare in uno spazio a meno dimensioni (2
massimo 3) la nuvola di punti. Le due (max 3) dimensioni
nuove dovranno essere dei fattori che intersecano meglio la
nuvola di punti, cioè
si individua un sottospazio ottimale che consente di
rappresentare al meglio le distanze tra i profili riga e il
profilo medio
attraverso l’individuazione di fattori che esprimono il
massimo della variabilità espressa dalle variabili originarie.
Lo spazio migliore è quello che massimizza l’inerzia (o
variabilità) iniziale
La scelta dei fattori
Nuovi fattori (che sono combinazione lineare dei profili riga
di partenza): per ogni fattori viene indicato quanta inerzia
riescono a riprodurre. Il massimo numero di fattori prodotto
è uguale al numero delle modalità. Se utilizzassi tutti i
fattori avrei riprodotto il 100% della variabilità.
Quanta variabilità riprodotta accetto?
 Identifico una soglia a priori (solitamente il 70% di inerzia)
 Scelgo un numero fisso di fattori (ad esempio 2)
 Prendo solo valori di inerzia spiegata maggiori della media
 Utilizzo lo scree test, baso la scelta sul grafico
Lettura dei risultati
Per ogni fattore scelto ho degli indici statistica calcolati in
base alle variabili di partenza che hanno contribuito a
crearlo
Contributo assoluto: rappresenta la parte di inerzia del
fattore dovuta alla modalità di riferimento. Per ogni fattore
la somma di tutti i contributi assoluti è uguale a 100. il
contributo assoluto di una modalità è proporzionale alla sua
massa. Si valuta quanto una modalità ha influenzato il
fattore in esame.
Lettura dei risultati
Contributo relativo (o coseno quadrato): permette di
valutare il contributo che un fattore fornisce alla
riproduzione della dispersione (inerzia) di ogni modalità.
Se è basso la modalità non è ben rappresentata dal fattore,
se è alto è vero il contrario.
Lettura dei risultati
Coordinata fattoriale: stabiliscono la posizione della
modalità sul fattore e possono avere segno positivo e
negativo. Il valore 0 rappresenta la media delle coordinate
sul fattore. Più il valore è distante dallo 0 più la modalità è
significativa per il fattore.
Analisi delle corrispondenze multiple
L’analisi delle corrispondenze multiple (ACM) consente di ridurre la
rappresentazione delle osservazioni da uno spazio a k dimensioni
ad uno spazio a k* dimensioni in cui k* k, procedendo per
combinazioni lineari di variabili e avendo come obiettivo la minor
perdita di variabilità possibile.
Le k* dimensioni costituiscono dei fattori ciascuno dei quali
sintetizza un aspetto dell’insieme multivariato di informazione
raccolta eliminando al tempo stesso la ridondanza di
informazione.
L’ACM richiede la costruzione di una matrice disgiunta dei dati,
essendo stata ideata per essere applicata a variabili di qualsiasi
scala (anche nominale).
Per questo motivo l’ACM è particolarmente utile quando si abbiano
dati qualitativi.
Analisi delle corrispondenze multiple
Per ogni variabile categoriale si definisce un insieme di nuove
variabili dette variabili indicatrici che assumono valori 0/1 di
presenza o assenza. Con una semplice operazione algebrica i
software trasformano la matrice dei dati nella matrice di Burt o
matrice delle corrispondenze multiple che è una distribuzione
multipla di frequenze: contiene tutte le tabelle di contingenze che
si possono ottenere incrociando tutte le variabili immesse
nell’analisi.
L’analisi prosegue sulla matrice di Burt.
Scelta delle variabili
Le variabili possono essere attive nell’analisi e contribuire alla
formazione dei fattori oppure illustrative, proiettate sui piani
fattoriali, ma non inserite all’inizio dell’analisi (cioè non
contribuiscono alla formazione degli assi)
Nell’analisi delle corrispondenze multiple (e non nell’ac) la vicinanza
tra modalità di variabili diverse può essere interpretata in
termine di associazione tra variabili.
Configurazioni grafiche
Ci sono alcune configurazioni grafiche tipiche:
A forma di ellisse intorno all’asse principale (al primo fattore)
 Con nuvole separate: gli insieme non si compenetrano, si può fare
una analisi separata tra due insiemi distinti
 A ferro di cavallo, a parabola: il secondo fattore incide poco
 A triangolo

Si possono inserire anche le traiettorie sulle modalità della stessa
variabile
Critiche:
Emerge ciò che è facilmente vedibile già dai dati grezzi
 Producono risultati instabili (i dati anomali rischiano di
influenzare il modello)
 Sono tecniche esplorative

Possibili soluzioni:
 Eliminazione dei casi anomali
 Riclassificazione di alcune variabili per ridurre le modlaità
con pochi valori
 Avere matrici di dati abbastanza grandi