Analisi di gruppi - Metanalisi

Tecniche descrittive
• Utilizzano modelli matematici per
semplificare le relazioni fra le
variabili in studio
• Il fine è la descrizione semplificata
del fenomeno attraverso il modello
di riferimento
Tecniche descrittive
• Metodo: il modello è creato ad hoc sui
dati sperimentali
• Diversi livelli di complessità del modello
a seconda del fenomeno in studio
• Esempi: distribuzioni di probabilità,
analisi fattoriale, analisi discriminante,
cluster analysis
Tecniche descrittive
Applicazioni:
• Indagini esplorative sui dati
sperimentali per la successiva
formulazione di idee
• Verifica della validità interna e
esterna di test psicometrici
Analisi Discriminante
Fine: suddividere il campione in
gruppi
Metodo
1. Fase di addestramento
2. Fase di analisi
Analisi Discriminante
Assunti:
• I fattori predittivi devono avere distribuzione
gaussiana
• I fattori devono essere scarsamente correlati fra
loro
• Le correlazioni devono essere costanti all’interno
dei gruppi
• Le medie e deviazioni standard dei fattori non
devono essere correlate fra loro
Analisi Discriminante
La fase di addestramento utilizza
un campione di soggetti, di cui si
conosce l’appartenenza a uno dei
gruppi considerati, per calcolare i
parametri necessari alla
classificazione di un nuovo
soggetto
Analisi Discriminante
I valori prodotti dalla funzione
discriminante hanno media = zero,
varianza = 1 e garantiscano la
massima differenza possibile fra le
medie di gruppo
Analisi Discriminante
La fase di analisi applica i parametri
calcolati per la classificazione di nuovi
soggetti in una delle classi possibili
La classificazione si basa sul calcolo di
una funzione in grado di fornire un
valore soglia opportunamente
determinato che discrimini i gruppi
Analisi Discriminante
Funzione ottenuta come combinazione lineare
dei parametri misurati, cioè come somma dei
parametri moltiplicati per opportuni coefficienti
dik= b0k+bjkxi1+…bpkxip
dik è il valore della k funzione discriminante
relativa al soggetto i
bjk è il valore del coefficiente j per la
funzione k
p è il numero dei fattori predittivi
xij è il valore dovuto al fattore j per il
soggetto i
Analisi Discriminante
Parametri determinati in modo che:
1. i valori prodotti dalla funzione
discriminante abbiano media zero,
varianza unitaria
2. garantiscano la massima differenza
possibile fra le medie di gruppo
Analisi Discriminante
Per ogni soggetto viene calcolata la
probabilità di appartenere a
ciascun gruppo e si procede
all’assegnazione del soggetto al
gruppo per cui è maggiore la
probabilità di appartenenza
Analisi Discriminante
2 gruppi: la soglia che divide i due
gruppi è situata nel punto di mezzo
delle due medie di gruppo
Più di 2 gruppi: le funzioni utilizzate
sono tante quante il numero dei gruppi
meno uno (non è possibile usare una
sola soglia ma occorre calcolare la
probabilità di appartenenza del soggetto
al gruppo)
Analisi Discriminante
• Al termine della fase di apprendimento
è possibile riassegnare i soggetti ai
gruppi di appartenenza utilizzando le
funzioni discriminanti calcolate
• Questa operazione permette di valutare
l’efficienza del sistema di classificazione
Analisi Discriminante
Successo dipende:
• dall’efficienza con cui abbiamo
creato le funzioni di classificazione
• dalle ipotesi che abbiamo
formulato
• dai parametri che abbiamo
conseguentemente considerato
Analisi Discriminante
Utilizzo:
• Sistema di classificazione in grado di
classificare ogni nuovo soggetto senza
conoscere realmente a quale gruppo
appartiene
• Individuare quali fattori incidono
maggiormente nella discriminazione fra
più gruppi
Cluster Analysis
Scopo: individuare la miglior
suddivisione in gruppi del campione
in esame
Cluster: addensamento attorno a un
valore centrale in uno spazio a n
dimensioni
Cluster Analysis
Assunti:
• Variabili che determinano la
suddivisione possono essere a
distribuzione gaussiana o categoriche
• Individua i gruppi in modo che siano
massimamente omogenei al loro interno
e eterogenei fra loro
Cluster Analysis
La funzione dell’analisi dei cluster è quella
di classificare i casi in un certo numero
di gruppi senza che venga richiesta una
preliminare identificazione dei gruppi.
Questi gruppi possono essere utilizzati in
ulteriori analisi statistiche per la verifica
di ipotesi riguardanti nuove variabili non
utilizzate nella classificazione
Cluster Analysis
Analisi Cluster gerarchica: generano
suddivisioni gerarchicamente ordinate
(n-1 possibili cluster)
Analisi Cluster non gerarchica: generano
un’unica suddivisione (numero
prefissato di gruppi); riservati a dati
quantitativi, basati sulle distanze
euclidee dai centroidi.
Cluster Analysis
Analisi Cluster gerarchica
1. Identificazione delle variabili
2. Selezione del tipo di distanza
3. Selezione di una tecnica di
raggruppamento
4. Identificazione del numero dei
gruppi
5. Valutazione e interpretazione
della soluzione
Cluster Analysis
• Si parte da un algoritmo che
inizialmente prevede tanti gruppi quanti
sono i casi e in seguito unisce i gruppi
tra loro a due a due fino ad ottenere un
unico cluster.
• Le misure delle distanze sono generate
dalla matrice di prossimità
• A seconda del tipo di scala si sceglie il
metodo per il calcolo delle distanze più
appropriato
Cluster Analysis
• Quanti gruppi scegliere rimane un
problema!
– dai coefficienti di agglomerazione, si sceglie
il livello precedente al livello con coefficiente
più alto
– Dal dendrogramma che delinea le relazioni,
si sceglie la soluzione che prevede una certa
similarità degli elementi del cluster e che sia
parsimoniosa
Cluster Analysis
• Valutazione e interpretazione dei
risultati
– Statistica descrittiva
• Relativa alle variabili di partenza
• Relativa ai cluster e ai punteggi prodotti
dai cluster
– Statistica inferenziale
Cluster Analysis
Analisi Cluster non gerarchica (kmedie)
1. Identificazione delle variabili*
2. Identificazione del numero dei
gruppi
3. Identificazione dei semi della
ripartizione
4. Valutazione e interpretazione
della soluzione
*quantitative gaussiane
Cluster Analysis
La distanza fra i gruppi viene calcolata sulle medie dei
gruppi che devono essere il più diverse possibili
Si individua il centroide ovvero il punto che ha come
coordinate le variabili considerate
Si assegnano gli oggetti ai gruppi in modo da minimizzare
le distanze
Si ridefiniscono (iterative method) i centroidi in modo da
rendere minima la varianza interna e massima la
varianza tra i cluster
Il processo termina fino a quando non c’è più un
decremento
significativo
della
funzione
da
minimizzare@
Metodo per creare la distanza (k-medie):
Distanza euclidea: la somma dei quadrati delle differenze
di tutte le variabili utilizzate (trasformate in variabili z)
Cluster Analysis
•
Il numero dei gruppi è stabilito
dal ricercatore in base alle
considerazioni teoriche sul
fenomeno in studio
• Le distanze sono calcolate tra i casi
MISURA della
CORRELAZIONE
Correlazione fra più variabili di
uno stesso campione
•
•
•
•
Analisi della correlazione
Analisi della regressione
Analisi della covarianza
Analisi della correlazione parziale
Analisi della Correlazione
Scopo: analizzare la relazione fra variabili
quantitative (a distribuzione gaussiana o
non gaussiana)
Fornisce sia il senso della relazione che la
significatività
Analisi della Correlazione
Correlazioni parametriche:
• r di Pearson
Correlazioni non parametriche:
• Tau di Kendall
• Rho di Spearman
Analisi della Correlazione
r di Pearson
• Misura dell’associazione lineare fa due
variabili. I valori del coefficiente vanno da
-1 a 1. Il segno del coefficiente indica una
relazione positiva o negativa. Il suo valore
assoluto indica la forza della relazione.
• Dipende dalla numerosità campionaria
quindi va associato alla significatività
Analisi della Correlazione
• Tau di Kendall
• Rho di Spearman
Entrambi misura dell’associazione non
parametrica basata su dati o ordinali o a ranghi.
• I valori di entrambi i coefficienti vanno da -1 a 1.
Il segno del coefficiente indica una relazione
positiva o negativa. Il suo valore assoluto indica
la forza della relazione.
• Dipendono dalla numerosità campionaria quindi
va associato alla significatività
Esempio
Analisi della Correlazione
Utilizzi
• Misura dell’associazione fra variabili
• Verifica dell’attendibilità e della validità di
questionari
Relazione fra risultati prodotti
da diverse ricerche
• Misura dell’effect-size
• Meta analisi
• Review
Effect size o forza dell’effetto
• Grado con cui il fenomeno è presente nella
popolazione
• Intensità della relazione fra fattore e
variabile dipendente
• Confronto fra variabilità dovuta ai fattori
e la variabilità totale
• Variabilità misurata come varianza
spiegata
• Diversi indici a seconda dei dati e dei test
utilizzati
Meta Analisi
Scopo: permette di confrontare i risultati di
diverse ricerche riguardanti uno stesso
argomento nonostante siano basate su
numerosità campionaria diverse e diversi test
statistici utilizzati
Finalità: comprendere il funzionamento del
fenomeno da studi diversi a volte discordanti
Meta Analisi
Per evitare di fare confronti inutili occorre
specificare ovvero delimitare l’ambito di analisi
in modo da semplificare il problema e quindi
l’interpretazione dei risultati
Limitare le variabili in studio e eventualmente
applicare più di una metanalisi
ES. Studio dell’effetto dell’ansia sulle prestazioni
cognitive: quali indici di ansia considerare?
Meta Analisi
Procedimento:
1. Raccolta e codifica degli studi
2. Calcolo degli indici di
confronto
3. Sintesi: calcolo dell’effetto
medio
4. Interpretazione dei risultati
Meta Analisi: 1. Raccolta e codifica
• Gli studi raccolti devono essere adeguati e di
ampia numerosità per evitare l’errore dovuto
alle pubblicazioni (pubblication bias) e all’errore
di campionamento
• Definire l’ipotesi di riferimento che specifica le
variabili da utilizzare (fattori o predittori,
covariate o moderatori)
• Pesare gli studi in base alla correttezza
metodologica (es attraverso intention to treat
analysis)
Meta Analisi:
2. Calcolo degli indici di confronto
Valutazione delle differenze fra le medie
rapportate alla deviazione standard
casuale
Tale valutazione, nel caso di due gruppi
indipendenti, può essere calcolata dalla
formula
effect size 
x1  x 2
s
2
Meta Analisi:
2. Calcolo degli indici di confronto
Nel caso conosciamo solo la numerosità dei
gruppi e il valore del parametro t
possiamo ottenere lo stesso indice dalla
formula
n1  n2
effect size  t 
n1  n2
Meta Analisi:
3. Calcolo dell’effetto medio
Effetto medio: media degli effetti nelle
diverse ricerche effettuate
Permette di ottenere una valutazione
complessiva dei risultati
Meta Analisi: 4. Interpretazione
Permette di trasformare le descrizioni delle
ricerche effettuate su un particolare argomento
in una valutazione obiettiva dei risultati ottenuti
Tuttavia necessitano di una interpretazione
dettagliata e motivata dell’analisi
Inoltre considera solo le ricerche pubblicate