sorrento, 14 17 aprile 1998

CALIBRAZIONE DELLO SCHEMATIC PLOT BIVARIATO
Calibration of the Bivariate Schematic Plot
MARIO ROMANAZZI
Dipartimento di Statistica
Università degli Studi di Venezia “Ca’ Foscari”
! " #
! $$%
!"#$"% & '"$" (! %")!"% $"%! (!! "##* +,,,-
%" %,,.././,.
$& '(!
#"$"%!!0!#%#"!%!!0! %("1"%!""(!!2"(!.3,3,/
)"%%"!" !("%!""!.,.4,,55,
"$"%($"%6"%("""#72"#
"%
"8""%8!
9"1"5
.44%!"
!6:4+.-55335
';6:4+.-55//5
2"!6<"%=84,"8,"
#%" "%""">(""##*"%#!"82!%""%"("""8"%",
""%("2!2("!)!"%
%?")*@"%("""#72"# "%
"8""%8!%!",
CALIBRAZIONE DELLO SCHEMATIC PLOT BIVARIATO
Calibration of the Bivariate Schematic Plot
MARIO ROMANAZZI
Dipartimento di Statistica
Università degli Studi di Venezia “Ca’ Foscari”
1. Centralità di Tukey
Fissiamo arbitrariamente un punto z0 = (z01, ..., z0p)T e un vettore u = (u1, ..., up)T di
norma unitaria nello spazio euclideo p-dimensionale Rp. L’iperpiano HP(u, z0) passante
per z0 e ortogonale ad u divide Rp in due semispazi chiusi, HS-(u, z0) = {z ∈ Rp : uTz ≤
uTz0} e HS+(u, z0) = {z ∈ Rp : uTz ≥ uTz0} la cui frontiera comune è HP(u, z0). Data una
misura di probabilità F su Rp consideriamo la probabilità PF[HS-(u, z0)] = PF{z ∈ Rp : uTz
≤ uTz0}. Se z0 è fisso, allora PF[HS-(u, z0)] è una funzione di u e il valore minimo di questa
probabilità misura il grado di centralità di z0 rispetto ad F.
Definizione 1. La centralità di z0 ∈ Rp rispetto ad F è
dHS(z0; F) = inf PF[HS-(u, z0)],
(1)
in cui l’estremo inferiore è calcolato nella classe di tutti i vettori u ∈ Rp normalizzati o,
equivalentemente, nella classe di tutti i semispazi chiusi di Rp che includono z0.
Se {X1, ..., Xn} è un campione bernoulliano di n osservazioni da F ed Fn è la
corrispondente distribuzione empirica, la centralità campionaria dHS(z0; Fn) si ottiene
sostituendo Fn al posto di F nella (1). Di conseguenza dHS(z0; Fn) = n-1 inf u {numero di Xi :
uTXi ≤ uTz0} è proporzionale al minimo numero di osservazioni campionarie incluse in un
semispazio chiuso contenente z0. Consideriamo, per semplicità, la classe dei semispazi
HS−(u, z0) e sia p(u) = PF[HS−(u, z0)]. Se n è fisso, il numero di osservazioni campionarie
incluse in un particolare semispazio chiuso HS−(u, z0) segue una distribuzione Binomiale
Bi(n, p(u)) e quindi dHS(z0; Fn) è il minimo di una famiglia infinita, non numerabile, di
distribuzioni Binomiali stocasticamente dipendenti. La centralità campionaria dHS(z0; Fn) è
uno stimatore non parametrico di dHS(z0; F) che, al divergere di n, converge quasi
certamente a dHS(z0; F) (Donoho e Gasko, 1992, p. 1817).
In questo lavoro hanno particolare rilievo le curve di livello della funzione dHS(z;
F), z ∈ Rp e, più in generale, le cosiddette regioni d-centrali.
Definizione 2. Fissato z0 ∈ Rp sia dHS(z0; F) ≡ d la centralità di z0 rispetto ad F. La regione
d-centrale rispetto ad F è l’insieme
DHS(d; F) = {z ∈ Rp : dHS(z; F) ≥ d },
183
(2)
i cui elementi sono tutti i punti di Rp la cui centralità è almeno pari a d; la frontiera è
formata da punti con centralità esattamente uguale a d. Il seguente teorema fornisce una
caratterizzazione geometrica delle regioni d-centrali.
Teorema 1 (Donoho e Gasko, 1992, Lemma 2.2; Romanazzi, 1997a, Lemma 2).
Sia F una distribuzione di probabilità non degenere su Rp e sia d un valore della
funzione di centralità tale che DHS(d; F) ≠∅. Allora
i. DHS(d; F) è l’intersezione dei semispazi chiusi di Rp aventi probabilità maggiore di 1 - d;
ii. DHS(d; F) è un insieme chiuso, convesso e limitato;
iii. se d1 > d2, DHS(d1; F) ⊆ DHS(d2; F).
DHS(d; F) è equivariante rispetto alle trasformazioni affini: se FA,b è la distribuzione
di Az + b, allora DHS(d; FA,b) = ADHS(d; F) + b. Inoltre, per molte importanti famiglie
parametriche di distribuzioni, esiste un collegamento preciso tra caratteristiche della
distribuzione e proprietà geometriche delle regioni d-centrali. Una discussione dettagliata
di questa relazione per alcune distribuzioni bivariate è reperibile in Romanazzi (1997a). Il
Teorema 2 descrive le caratteristiche di DHS(d; F) nel caso particolare delle distribuzioni
ellitticamente simmetriche. Siccome queste distribuzioni sono centrosimmetriche rispetto
alla media µ, 0 < dHS(z; F) ≤ 1/2 e dHS(z; F) = 1/2 se e solo se z = µ.
Teorema 2 (Romanazzi, 1997a, Lemma 2).
Se F è una distribuzione ellitticamente simmetrica, le regioni d-centrali sono
ellissoidi e dHS(z; F) è una funzione decrescente della distanza di Mahalanobis di z da µ.
Nelle applicazioni si considerano regioni d-centrali corrispondenti a particolari
valori di d. L’esempio più importante è DHS(dSup; F) in cui dSup = sup {d ∈ (0, 1) : DHS(d;
F) ≠∅}; DHS(dSup; F) è l’insieme dei punti con centralità massima rispetto ad F e viene
talvolta chiamato regione mediana.
La funzione dHS(z; Fn) e le regioni DHS(d; Fn) producono stime non parametriche di
dHS(z; F) e DHS(d; F), rispettivamente. Questa caratteristica non deve essere confusa con la
robustezza rispetto a contaminazioni della distribuzione di riferimento. Sulla base delle
proprietà della funzione d’influenza di dHS(z; F), Romanazzi (1997b) argomenta che le
osservazioni più esposte a variazioni importanti dell’indice di Tukey sono quelle con
dHS(z; F) → 0, mentre le osservazioni con dHS(z; F) → dSup sono più resistenti. I risultati di
Donoho e Gasko (1992), basati sul break-down point confermano la robustezza delle stime
di posizione basate sull’indice di centralità di Tukey.
2. Schematic plot
Lo schematic plot è il grafico di particolari regioni di centralità, ritenute
rappresentative della sottostante distribuzione. La definizione è sostanzialmente identica
per distribuzioni teoriche ed empiriche e non dipende nemmeno dalla dimensionalità delle
osservazioni. Le applicazioni più interessanti riguardano le distribuzioni empiriche per p =
2 o p = 3 perché in questo caso le proprietà geometriche immediatamente percepibili delle
regioni d-centrali possono suggerire, smentire o avvalorare le caratteristiche di un ipotetico
modello distributivo. Nel seguito di questo lavoro considereremo dunque un campione
bernoulliano di n osservazioni (Xi1, Xi2)T , i = 1, ..., n, da una distribuzione bivariata F.
L’idea di base dello schematic plot è di usare le regioni empiriche DHS(d; Fn) come
approssimazioni delle corrispondenti regioni teoriche DHS(d; F). In particolare DHS(dSup;
184
Fn) è uno stimatore della regione mediana, mentre DHS(1/4; Fn) è uno stimatore della
regione “centrale” DHS(1/4; F) interpretabile alla stregua di un “intervallo interquartilico”
bivariato. Posizione ed estensione delle due regioni forniscono informazioni su posizione
e dispersione della parte centrale della distribuzione. Inoltre, se F è ellitticamente
simmetrica o una sua contaminazione, e se d è abbastanza elevato, le regioni d-centrali
campionarie sono stime robuste e consistenti delle corrispondenti regioni teoriche
(Donoho, Gasko, 1992, Lemma 2.5). Esse dovrebbero quindi dare informazioni attendibili
sulla correlazione delle variabili. Se F non è ellitticamente simmetrica, la relazione fra
regioni di centralità campionarie e regioni teoriche è assai meno chiara, tuttavia esempi
noti suggeriscono che orientamento e caratteristiche di simmetria/asimmetria di DHS(d; Fn)
restano significativi.
I primi due elementi dello schematic plot sono la regione mediana DHS(dSup; Fn) e
la regione centrale DHS(1/4; Fn). In base al Teorema 1 le due regioni sono insiemi chiusi,
convessi e limitati e DHS(dSup; Fn) ⊆ DHS(1/4; Fn). Per calcolare le centralità campionarie
dHS(Xi; Fn) e disegnare il contorno delle regioni d-centrali sono utili i programmi
FORTRAN sviluppati da Rousseeuw e Ruts (1996a, b). Il terzo elemento dello schematic
plot è la regione estrema, coincidente con l’involucro convesso dei punti campionari.
L’uso di un criterio di riconoscimento dei dati anomali porta a sostituire alla regione
estrema la regione “regolare”, contenuta nella regione estrema, ma in generale non
appartenente alla famiglia delle regioni d-centrali.
3. Calibrazione dello schematic plot
Consideriamo una distribuzione Normale bivariata con vettore delle medie µ e
matrice di covarianza Σ. In base al Teorema 2, le regioni d-centrali sono le ellissi Ell(b²;
µ,Σ) = {z ∈ R² : (z - µ)TΣ -1(z - µ) ≤ b²} il cui contenuto di probabilità può essere
facilmente valutato mediante la distribuzione χ22. Se vogliamo che sia uguale ad α la
probabilità pOut della regione esterna all’ellisse dovrà essere P(Ell(b²; µ,Σ)) = P(χ2²≤ b²) =
1 - α e quindi b² ≡ bα² = - 2lnα. Dalla dimostrazione del Teorema 2 (Romanazzi, 1997a)
segue anche che la centralità di un’osservazione x posta sulla frontiera di Ell(bα²; µ,Σ) è
uguale alla probabilità del semipiano tangente all’ellisse nel punto x, e quindi
dHS(x; F) = PF {z ∈ R² : uxTz ≤ uxTx} = Φ(-((x - µ)TΣ -1(x - µ))½) = Φ(-bα),
(3)
in cui ux è il vettore normale al piano tangente e Φ(.) indica la funzione di ripartizione
della distribuzione Normale standard. Se, ad esempio, pOut = 0.00698, allora bα ≅ 3.151 e
Φ(- bα) ≅ 0.000813. Questo significa che, se la probabilità delle osservazioni esterne alla
regione regolare deve essere uguale a 0.00698, allora le osservazioni “anomale” sono
quelle con centralità al massimo uguale a 0.000813.
Sulla scala standard la costante -bα rappresenta la barriera (inferiore) che separa le
osservazioni interne alla regione regolare da quelle esterne lungo la direzione ux.
Indicando con Q1, Q3 e SIQ il primo e terzo quartile e lo scarto interquartilico di una
Normale standard, allora da -bα = Q1 - cα SIQ ricaviamo la costante di calibrazione cα =
(bα + Q1)/ SIQ ≅ (bα - 0.675)/1.349. Se pOut = 0.00698, cα ≅ 1.84. La Tab. 1 mostra le
costanti di calibrazione associate a valori comunemente attribuiti a pOut.
Tab. 1: Costanti di calibrazione c e probabilità pOut
c
1.513 1.574 1.648 1.750 1.836 1.913
pOut %
2.5
2.0
1.5
1.0
0.698
0.5
185
2.066
0.25
Ora possiamo definire con precisione la regione regolare. Fissiamo k ∈ {1, ..., n} e
consideriamo una direzione ottimale uk associata ad Xk tale che
{numero di Xi : uk T Xi ≤ uk T Xk } ≤ {numero di Xi : uT Xi ≤ uT Xk }
(4)
per ogni vettore u. Dopo aver calcolato le proiezioni Yi(k) = ukTXi, i = 1, ..., n, determiniamo
i quartili Q1(Y(k)), Q3(Y(k)), lo scarto interquartilico SIQ(Y(k)) = Q3(Y(k)) - Q1(Y(k)) e la
barriera B(Y(k)) = Q1(Y(k)) - cα SIQ(Y(k)). Come nel box-plot univariato, il dato Xi è
considerato anomalo se Yi(k) è inferiore a B(Y(k)) lungo qualche direzione uk . Se tutti i
valori Yi(k) sono maggiori di B(Y(k)) registriamo l’osservazione campionaria (non anomala)
corrispondente a mini Yi(k); in caso contrario registriamo l’osservazione campionaria (non
anomala) col più piccolo valore di Yi(k) non minore di B(Y(k)). Il procedimento produce un
insieme I di m osservazioni campionarie la regione regolare è l’involucro convesso di I.
I = { X i1 ,..., X im };
Osservazione 1. Mentre la centralità dHS(z; F) è unica, il semispazio ottimale non
lo è. Questo comporta, in particolare, che il numero delle direzioni ottimali, m, è di solito
maggiore della numerosità campionaria. Il problema è discusso da Romanazzi (1997c).
Osservazione 2. Il controllo dei dati anomali può essere semplice o multiplo. Nel
controllo semplice la posizione di Xi è esaminata solo lungo le direzioni ottimali associate
ad Xi. Nel controllo multiplo, più restrittivo, la posizione di Xi è esaminata lungo tutte le
direzioni ottimali campionarie.
4. Esempio
I dati qui analizzati (Rousseeuw, Leroy, 1987: 27) sono stati usati anche da
Goldberg e Iglewicz (1992) per illustrare il loro box-plot bivariato. Le unità campionarie
sono 47 stelle del gruppo denominato CYG OB1; le variabili sono X: logaritmo della
temperatura superficiale, Y: logaritmo della luminosità. La caratteristica più appariscente
in Fig. 1 è la presenza di quattro stelle giganti (unità n. 11, 20, 30 e 34) chiaramente
eterogenee rispetto al gruppo principale. Il valore massimo della centralità per i dati
campionari è 18/47, mentre dSup = 19/47. La regione centrale, corrispondente a DHS(12/47;
Fn) contiene 9 osservazioni, il 19.1% del totale. Il baricentro della regione mediana (4.41,
5.01)T è una stima resistente del centro della distribuzione, alternativa al centroide ( x , y )
= (4.31, 5.01)T. La posizione della regione centrale e di quella mediana, un po’ spostata
verso il bordo superiore destro della regione regolare, suggerisce un certo grado di
asimmetria della distribuzione. È però possibile che la frontiera della regione regolare sia
“attratta” dalle osservazioni sparse presenti sul lato superiore sinistro. Vale la pena
osservare che, mentre il coefficiente di correlazione lineare per l’intero campione è pari a 0.210, l’orientamento delle curve di centralità più interne mostra correttamente che le
variabili sono correlate positivamente nel gruppo principale.
Se il controllo dei dati anomali è semplice e c = 1.5, le quattro stelle giganti sono
escluse dalla regione regolare, mentre per c = 1.75 e c = 1.84 solo le giganti n. 30 e n. 34
rimangono all’esterno della regione regolare. Se il controllo è multiplo e c = 1.5, oltre alle
stelle giganti anche le unità n. 7 e n. 14 sono esterne alla regione regolare; per c = 1.75 e
1.84 la stella n. 14 rimane sulla frontiera della regione regolare. Il confronto con i risultati
di Goldberg e Iglewicz (1992) suggerisce che il controllo semplice è permissivo mentre il
186
controllo multiplo, in cui l’eccentricità di ogni dato è valutata su un insieme molto più
ampio di direzioni, è più efficace. C’è tuttavia la possibilità che, al crescere della
numerosità campionaria e del numero di direzioni ottimali, il controllo incrociato diventi
troppo selettivo.
Fig. 1: Schematic plot dei dati di temperatura e luminosità di 47 stelle
5. Risultati delle simulazioni
La probabilità pOut associata ad una costante di calibrazione è un valore asintotico,
valido per campioni gaussiani. Per numerosità campionarie non molto elevate, dell’ordine
di qualche decina, qualche discrepanza è inevitabile. Per ottenere indicazioni precise
sull’entità dello scostamento abbiamo simulato campioni bivariati gaussiani di numerosità
comprese fra 8 e 60. Per ogni valore di n abbiamo effettuato 5000 repliche calcolando la
percentuale fIn(n) dei campioni privi di dati anomali e la percentuale fOut(n) dei dati
campionari anomali. Abbiamo messo a confronto controllo semplice e multiplo con c =
1.84.
Le statistiche fIn(n), fOut(n) sono discusse in dettaglio da Hoaglin et al. (1986):
fIn(n)/100 è una stima della probabilità che un (futuro) campione di numerosità n non
abbia dati esterni alla regione regolare, 1 - fIn(n)/100 stima la probabilità che almeno un
dato del campione sia esterno mentre fOut(n)/100 stima la probabilità che una singola
(futura) osservazione campionaria sia esterna alla regione regolare. Tutte le probabilità
sono valutate sotto l’ipotesi di campionamento da una distribuzione Normale.
Una sintesi dei risultati appare in Fig. 2. Consideriamo dapprima il controllo
semplice. La percentuale dei campioni privi di dati anomali mostra un andamento
tendenzialmente decrescente al crescere di n. I valori di 1 - fIn(n)/100 suggeriscono che la
187
probabilità che un campione gaussiano bivariato abbia almeno un dato anomalo è
approssimativamente uguale a 0.30 per n = 20, sale a circa 0.40 per n = 40 per attestarsi
attorno a 0.45 per n = 60. Il valore limite teorico di fIn(n) è 0. Anche fOut(n) tende a
ridimensionarsi al crescere di n, tuttavia la discrepanza rispetto al valore limite teorico
(circa uguale a 0.7%) rimane tutt’altro che trascurabile anche per numerosità campionarie
uguali a 40 o 50.
Fig. 2: Risultati delle simulazioni, c = 1.84
In accordo con le aspettative, il controllo multiplo riduce fIn(n) e aumenta fOut(n) in
modo sistematico. Il valore di fIn(n)/100 rimane stabilmente al di sotto di 0.5 per n > 20,
mentre fOut(n)/100 è sempre superiore a 0.05 per n < 20. Valori diversi della costante di
calibrazione non modificano in modo significativo queste proprietà.
È interessante notare che all’andamento tendenzialmente decrescente di fIn(n) ed
fOut(n) si sovrappone una fluttuazione ciclica dipendente dal resto della divisione di n per
4. Questo risultato, già notato da Hoaglin et al. (1986), è attribuibile al metodo di calcolo
dei quartili campionari.
188
6. Discussione
Lo schematic plot permette una più agevole interpretazione dello scatter plot grazie
alla visualizzazione della regione mediana, che identifica la “posizione” della
distribuzione, e della regione centrale, la cui estensione mostra il grado di dispersione;
inoltre, l’orientamento della regione centrale è collegato alla correlazione delle variabili.
Le due regioni sono resistenti alla contaminazione dei dati campionari, purché contenuta
entro una percentuale ragionevole della numerosità. Diversamente dal box plot bivariato di
Goldberg e Iglewicz (1992), lo schematic plot è non parametrico, essendo basato
sull’indice di centralità di Tukey.
Nell’analisi di dati reali il controllo multiplo dà risultati migliori del controllo
semplice, mentre le simulazioni mostrano che il controllo semplice ha un comportamento
più equilibrato, almeno rispetto alle statistiche fIn(n) e fOut(n). Un espediente idoneo ad
attenuare la selettività del controllo multiplo è quello di richiedere almeno k > 1 violazioni
delle barriere lungo le direzioni ottimali.
Riferimenti bibliografici
DONOHO D. L., GASKO M. (1992), “Breakdown Properties of Location Estimates Based
on Halfspace Depth and Projected Outlyingness”, Annals of Statistics, 20, pp. 18031827.
GOLDBERG K. M., IGLEWICZ B. (1992), “Bivariate Extensions of the Box-Plot”,
Technometrics, 34, pp. 307-320.
HOAGLIN D. C., IGLEWICZ B., TUKEY J. W. (1986), “Performance of Some Resistant
Rules for Outlier Labeling ”, Journal of the American Statistical Association, 396, pp.
991-999.
ROMANAZZI M. (1997a), “Halfspace Depth of Bivariate Distributions”, Rapporto
Tecnico, Dipartimento di Statistica, Università di Venezia.
ROMANAZZI M. (1997b), “Ordering Multivariate Data by Location Depth”, in Janssen
J., Lauro C. N. “VIII International Symposium on Applied Stochastic Models andData
Analysis ”, pp. 339-346, Rocco Curto Editore, Napoli.
ROMANAZZI M. (1997c), “A Schematic Plot for Bivariate Data Based on Halfspace
Depth”, Student, 2 , pp. 149-158.
ROUSSEEUW P. J., LEROY A. M. (1987), Robust Regression and Outlier Detection,
Wiley, New York.
ROUSSEEUW P. J., RUTS I. (1996a), “Bivariate Location Depth”, Applied Statistics, 45,
pp. 516-526.
ROUSSEEUW P. J., RUTS I. (1996b), “Computing Depth Contours of Bivariate Point
Clouds”, Computational Statistics & Data Analysis, 23, pp. 153-168.
189
Summary
CALIBRAZIONE DELLO SCHEMATIC PLOT BIVARIATO
Calibration of the Bivariate Schematic Plot
The schematic plot is a scatter plot augmented with selected contours of Tukey’s
halfspace depth. The standard version is formed by the median region, the central region
and the regular region, whose definition incorporates an outlier labeling rule. First the
sample points are projected onto the optimal directions associated with halfspace depth;
then each direction is checked and the observations with projections below Q1 - cα IQR are
discarded. Here cα is a calibration constant controlling the outside rate per observation. We
suggest cα = 1.84 to obtain a theoretical outside rate per observation equal to 0.7% for
Normal samples. The simulations carried out to investigate the finite-sample behaviour of
the criterion show that, for sample sizes ranging from 8 to 60, the all-inside rate varies
from 77% to 49% and the outside rate varies from 8% to 1% (simple control).
Keywords
Halfspace depth, Halfspace region, Robustness, Outlier
190
! " #
$%&'()*+
,
-.
/ * 0
12 " 0 .
3 4 4 5
&6708#4(/
-9
-3 / :
4 0
-3
29
-3 / :
6 (
4 0 -3 2 9
;
4 0 & 0
-3 2 " ( </ /"=
.>