Distanza di Mahalanobis Fatto: Le linee di livello della d.d.p.

Distanza di Mahalanobis
Fatto: Le linee di livello della d.d.p. gaussiana multivariata
(ellissi) individuano le regioni che, a parità di area, sono più
probabili (o, viceversa, le regioni che, a parità di probabilità,
hanno area minima)
⇓
giusto allarmarsi quando osservo un punto su un
ellissoide "esterno" (= a probabilità bassa)
x2
P = 0.8
µ2
P = 0.997
x1
µ1
Osservazione: Un punto è tanto più probabile quanto più
l'ellisse sui cui giace è vicina al centro (le cui coordinate sono
i valori medi [µ 1 ,…, µ n ]' = E[x]).
Idea: Introduco una misura di distanza ("improbabilità") che
cresce a mano a mano che x si sposta su ellissi più esterne
Distanza di Mahalanobis:
Q := (x- µ )' Σ -1 (x- µ )
Σ = Var[x] =
 σ12
 σ21

…
 σn1
σ12 … σ1n 
σ22 … σ2n 
… …
σn2 …

… 
σn2 
Osservazioni:
•
Caso particolare: n = 2, r = 0
(x 1 - µ 1 ) 2 (x 2 - µ 2 ) 2
Q :=
+
σ12
σ22
x2
B
A
C
µ2
µ1
x1
Peso di meno le variabili più disperse
•
Q è l'esponente della gaussiana multivariata:
f X (x) =
1
(2π)ndet(Σ)
√
e
-
(x- µ )' Σ -1 (x- µ )
2
L'ellisse di controllo
Proprietà: Q = (x- µ )'Σ -1(x- µ ) ~ χ n2
Ipotesi: n = 2
Ellisse di controllo: Fissato α, trovo χ2α,n e traccio l'ellisse di
equazione (x-µ )'Σ -1(x-µ ) = χ 2α,n. Segnalo un fuori controllo
quando un punto cade fuori.
UCL
LCL
UCL
LCL
Svantaggi:
•
Si perde la sequenza temporale dei punti.
•
Cosa fare per n > 2?
La carta χ 2
Idea: Per ogni campione x(t), calcolo
Q(t) = (x(t)-µ )'Σ -1(x(t)-µ )
e lo riporto su una carta apposita.
Limite di controllo: UCL = χ 2α ,n
UCL
1
3
5
7
9
11
13
15
17
19
21
23
Sample number
Carta T 2 (Hotelling 1947)
Nella pratica, µ e Σ non sono noti, ma disponiamo di
¯ e Σ̂.
stime X
Punti da disegnare:
¯ )'Σ̂-1(x(t) - X
¯)
T 2 (t) = (x(t) - X