Fonti, metodi e strumenti per l`analisi dei flussi turistici

annuncio pubblicitario
ACP
C1 = u11x1 + u12x2 + … + u1pxp
La componente principale è un costrutto algebrico ottenuta
come combinazione lineare delle variabili originarie
Le up sono le correlazioni tra la componente e le variabili
originari: son i contributi che le variabili forniscono alla
formazione della componente principale
ACP: interpretazione
Autovalore della componente: permette di valutare il suo
potere di sintesi – più è grande più è alta la % di varianza
spiegata da quella componente
Comunalità (o coseno quadrato): permette di valutare il
contributo che un fattore fornisce alla riproduzione della
dispersione (inerzia) di ogni modalità. Se è basso la
modalità non è ben rappresentata dal fattore, se è alto è vero
il contrario.
Coordinata fattoriale (component loadings): stabiliscono la
posizione della modalità sul fattore e possono avere segno
positivo e negativo. Il valore 0 rappresenta la media delle
coordinate sul fattore. Più il valore è distante dallo 0 più la
modalità è significativa per il fattore.
Analisi delle corrispondenze multiple
L’analisi delle corrispondenze multiple (ACM) consente di ridurre la
rappresentazione delle osservazioni da uno spazio a k dimensioni
ad uno spazio a k* dimensioni in cui k* k, procedendo per
combinazioni lineari di variabili e avendo come obiettivo la minor
perdita di variabilità possibile.
Le k* dimensioni costituiscono dei fattori ciascuno dei quali
sintetizza un aspetto dell’insieme multivariato di informazione
raccolta eliminando al tempo stesso la ridondanza di
informazione.
L’ACM richiede la costruzione di una matrice disgiunta dei dati,
essendo stata ideata per essere applicata a variabili di qualsiasi
scala (anche nominale).
Per questo motivo l’ACM è particolarmente utile quando si abbiano
dati qualitativi.
Analisi delle corrispondenze multiple
Per ogni variabile categoriale si definisce un insieme di nuove
variabili dette variabili indicatrici che assumono valori 0/1 di
presenza o assenza. Con una semplice operazione algebrica i
software trasformano la matrice dei dati nella matrice di Burt o
matrice delle corrispondenze multiple che è una distribuzione
multipla di frequenze: contiene tutte le tabelle di contingenze che
si possono ottenere incrociando tutte le variabili immesse
nell’analisi.
L’analisi prosegue sulla matrice di Burt.
Scelta delle variabili
Le variabili possono essere attive nell’analisi e contribuire alla
formazione dei fattori oppure illustrative, proiettate sui piani
fattoriali, ma non inserite all’inizio dell’analisi (cioè non
contribuiscono alla formazione degli assi)
Nell’analisi delle corrispondenze multiple la vicinanza tra modalità di
variabili diverse può essere interpretata in termine di
associazione tra variabili.
La scelta dei fattori
Nuovi fattori (che sono combinazione lineare dei profili riga
di partenza): per ogni fattori viene indicato quanta inerzia
riescono a riprodurre. Il massimo numero di fattori prodotto
è uguale al numero delle modalità. Se utilizzassi tutti i
fattori avrei riprodotto il 100% della variabilità.
Quanta variabilità riprodotta accetto?
 Identifico una soglia a priori (solitamente il 70% di inerzia)
 Scelgo un numero fisso di fattori (ad esempio 2)
 Prendo solo valori di inerzia spiegata maggiori della media
 Utilizzo lo scree test, baso la scelta sul grafico
Lettura dei risultati
Per ogni fattore scelto ho degli indici statistica calcolati in
base alle variabili di partenza che hanno contribuito a
crearlo
Contributo assoluto: rappresenta la parte di inerzia del
fattore dovuta alla modalità di riferimento. Per ogni fattore
la somma di tutti i contributi assoluti è uguale a 100. il
contributo assoluto di una modalità è proporzionale alla sua
massa. Si valuta quanto una modalità ha influenzato il
fattore in esame.
Lettura dei risultati
Contributo relativo (o coseno quadrato): permette di
valutare il contributo che un fattore fornisce alla
riproduzione della dispersione (inerzia) di ogni modalità.
Se è basso la modalità non è ben rappresentata dal fattore,
se è alto è vero il contrario.
Lettura dei risultati
Coordinata fattoriale: stabiliscono la posizione della
modalità sul fattore e possono avere segno positivo e
negativo. Il valore 0 rappresenta la media delle coordinate
sul fattore. Più il valore è distante dallo 0 più la modalità è
significativa per il fattore.
Configurazioni grafiche
Ci sono alcune configurazioni grafiche tipiche:
A forma di ellisse intorno all’asse principale (al primo fattore)
 Con nuvole separate: gli insieme non si compenetrano, si può fare
una analisi separata tra due insiemi distinti
 A ferro di cavallo, a parabola: il secondo fattore incide poco
 A triangolo

Si possono inserire anche le traiettorie sulle modalità della stessa
variabile
Critiche:
Emerge ciò che è facilmente vedibile già dai dati grezzi
 Producono risultati instabili (i dati anomali rischiano di
influenzare il modello)
 Sono tecniche esplorative

Possibili soluzioni:
 Eliminazione dei casi anomali
 Riclassificazione di alcune variabili per ridurre le modlaità
con pochi valori
 Avere matrici di dati abbastanza grandi
Scarica