ALBERI DECISIONALI
terza parte
Argomenti della lezione
 Il metodo CHAID: Chi-Squared
Automatic Interaction
Detection
 Il test del chi-quadrato
 Il fattore di Bonferroni
 Esempio di impiego degli alberi
decisionali
Caratteristiche
principali del metodo
CHAID
CHAID unisce le categorie
del predittore che sono
omogenee rispetto alla
variabile dipendente,
ma mantiene distinte tutte
le categorie che sono
eterogenee
CHAID utilizza il moltiplicatore
il moltiplicatore di Bonferroni
per compiere gli aggiustamenti
necessari per compiere
inferenze statistiche
simultanee
CHAID, a differenza di altri
metodi di partizione
iterativa, è limitato
a caratteri di tipo ordinale
e nominale
Utilizza il test del
chi-quadrato per saggiare
l'indipendenza tra caratteri
(insieme all'aggiustamento
di Bonferroni) per stabilire
la significatività statistica
della partizione
Il test chi-quadrato di
indipendenza
  ( n ij 2
x
=
i
j
*
nij
* 2
n )
ij
dove
nij
è la frequenza empirica che
corrisponde alla combinazione
della modalità i del primo carattere
con la modalità j del secondo
carattere
*
n
ij
= ninj
è la corrispondente frequenza
teorica calcolata in accordo
all'ipotesi di indipendenza tra
i due caratteri considerati
ESEMPIO
Famiglie secondo la zona
di residenza e il possesso
di personal computer
(frequenze empiriche)
Zona geografica
Possesso
di personal
computer
NordCentro
Mezzogiorno In
complesso
SI
150
100
250
NO
500
250
750
In
complesso
650
350
1000
Famiglie secondo la zona
di residenza
e il possesso di personal
computer
(frequenze teoriche)
Zona geografica
Possesso
di personal
computer
NordCentro
Mezzogiorno In
complesso
SI
162,5
87,5
250,0
NO
487,5
262,5
750,0
In
complesso
650,0
350,0
1000,0
Calcolo del test:
(500-487,5)2/487,5+
(87,5-100)2/87,5+
(162,5-150)2/162,5+
(250-262,5)2/262,5=
Il fattore di aggiustamento
di Bonferroni
 Consideriamo la variabile dipendente
R e i predittori B, con cinque categorie,
e A, con due
 Poniamo che a sia l'errore del primo
tipo associato con il test di
indipendenza in una tabella a doppia
entrata che associa B e R
(ad esempio a =0,05)
Vi sono 24 -1 = 15 modi differenti
di rendere dicotomica la variabile B
Se i 15 test di ipotesi fossero
indipendenti, la probabilità di fare
un errore del primo tipo sarebbe
pari a:
1-(1-a)15 > a
Nell'esempio di cui sopra,
15 è chiamato fattore di Bonferroni
Se a è piccolo
1 - (1-a)M = Ma
Per il predittore A la probabilità
di commettere un errore del primo
tipo è semplicemente a
Nel metodo CHAID
si confronta il valore di a
associato con il test
di indipendenza per la variabile
A con il valore di a per
la variabile B corretto con
il fattore di Bonferroni
Componenti di
base del metodo
CHAID:
1
Una variabile dipendente
categorica
2
Un insieme di variabili
indipendenti anch'esse
categoriche, combinazioni delle
quali sono usate per definire
le partizioni
3
Un insieme di parametri per
l'esecuzione dell'analisi
In ogni passo dell'analisi,
ciascun sottogruppo è
analizzato e si identifica
il miglior predittore, definito
come quello che ha
il valore di a corretto con il
fattore di Bonferroni più piccolo
Tipi di variabili predittive
in CHAID
1
Monotoniche
2
Libere
3
Fluttuanti
L'algoritmo CHAID:
Passo 1: Fusione
Passo 2: Divisione
Passo 3: Arresto
Fusione
Per ciascun
predittore
1
Forma la tabella a
doppia entrata
completa
2
Per ogni coppia di categorie
che possono essere fuse assieme
calcola il test chi-quadrato. Per
ogni coppia che risulta non
significativa procedi alla fusione
e vai al passo 3. Se tutte le
coppie rimanenti sono
significative vai al passo 4
3
Per tutte le categorie
risultanti dalla fusione di tre
o più categorie originarie
controlla con il test chiquadrato se ogni categoria
originaria può essere
separata dalle altre. Torna al
passo 2
4 Unisci le categorie che hanno
un numero di casi troppo
basso, selezionando quelle
che presentano il valore
di a più alto
5
Calcola il valore di a corretto
con il fattore di Bonferroni
sulla tabella risultante dal
processo di fusione
Divisione
 Seleziona come miglior predittore
quello che presenta il più piccolo
valore di a corretto con il fattore
di Bonferroni
 Se nessun predittore mostra
un valore di a significativo, non
dividere quel sottogruppo
Arresto
Ritorna al passo 1 e analizza
il sottogruppo successivo.
Interrompi quando tutti
i sottogruppi sono stati
analizzati o contengono troppo
poche osservazioni
Esempio di impiego del
metodo chaid
Variabile dipendente:
tasso di risposta ad una offerta
promozionale di abbonamento
ad una rivista
Variabili
indipendenti
età del capofamiglia - 5
categorie -fluttuante (AGE)
genere - 2 categorie -monotonica
- (GENDER)
presenza di bambini - 2 categorie
- monotonica (KIDS)
reddito familiare - 8 categorie monotonica (INCOME)
carta di credito - 2 categorie monotonica (BANKCARD)
numero di componenti - 6 categorie
- fluttuante - (HHSIZE)
tipo di occupazione -4 categorie libera (OCCUP)
Rappresentazione
del processo
di partizione tramite
il dendrogramma
Total
0.02
81,040
HHSIZE
1
0.03
25,384
23
0.13
16,132
45
0.00
6,198
?
- 0.04
33,326
OCCUP
-1-
GENDER
-4-
W
0.36
1,758
BO?
0.10
14,374
M
- 0.04
25,531
F
- 0.05
7,795
-2-
-3-
-5-
-6-
Interpretazione dei
risultati
Comparazione dei tassi
di risposta secondo
la variabile ampiezza
familiare prima e dopo
la fusione
% di risposte
Frequenza
prima della
fusione
1
25384
1,09
1,09
2
11240
1,49
1,52
3
4892
1,59
1,52
4
3187
1,79
1,92
3011
2,06
1,92
33326
0,87
0,87
HHSIZE
5
dato
mancante
dopo la
fusione
Ordinamento dei
segmenti secondo
il tasso di risposta
Rango
Numero
Descrizione
Tasso di
risposta
1
Segmento 2 Famiglie con due o
2,39
2
Segmento 4 Famiglie con
1,92
tre componenti,
capofamiglia
impiegato
quattro
componenti e più
Rango
Numero
Descrizione
Tasso di
risposta
3
Segmento 3 Famiglie con due
1,42
4
Segmento 1 Famiglie con un
componente
1,09
o tre componenti,
capofamiglia con
occupazione
diversa
da impiegato
Rango
Numero
Descrizione
Tasso di
risposta
5
Segmento 6 Famiglie di cui
1,08
6
Segmento 5 Famiglie di cui
0,81
non si conosce il
numero di
componenti,
capofamiglia donna
non si conosce il
numero di
componenti,
capofamiglia uomo