CALIBRAZIONE DELLO SCHEMATIC PLOT BIVARIATO Calibration of the Bivariate Schematic Plot MARIO ROMANAZZI Dipartimento di Statistica Università degli Studi di Venezia “Ca’ Foscari” ! " # ! $$% !"#$"% & '"$" (! %")!"% $"%! (!! "##* +,,,- %" %,,.././,. $& '(! #"$"%!!0!#%#"!%!!0! %("1"%!""(!!2"(!.3,3,/ )"%%"!" !("%!""!.,.4,,55, "$"%($"%6"%("""#72"# "% "8""%8! 9"1"5 .44%!" !6:4+.-55335 ';6:4+.-55//5 2"!6<"%=84,"8," #%" "%""">(""##*"%#!"82!%""%"("""8"%", ""%("2!2("!)!"% %?")*@"%("""#72"# "% "8""%8!%!", CALIBRAZIONE DELLO SCHEMATIC PLOT BIVARIATO Calibration of the Bivariate Schematic Plot MARIO ROMANAZZI Dipartimento di Statistica Università degli Studi di Venezia “Ca’ Foscari” 1. Centralità di Tukey Fissiamo arbitrariamente un punto z0 = (z01, ..., z0p)T e un vettore u = (u1, ..., up)T di norma unitaria nello spazio euclideo p-dimensionale Rp. L’iperpiano HP(u, z0) passante per z0 e ortogonale ad u divide Rp in due semispazi chiusi, HS-(u, z0) = {z ∈ Rp : uTz ≤ uTz0} e HS+(u, z0) = {z ∈ Rp : uTz ≥ uTz0} la cui frontiera comune è HP(u, z0). Data una misura di probabilità F su Rp consideriamo la probabilità PF[HS-(u, z0)] = PF{z ∈ Rp : uTz ≤ uTz0}. Se z0 è fisso, allora PF[HS-(u, z0)] è una funzione di u e il valore minimo di questa probabilità misura il grado di centralità di z0 rispetto ad F. Definizione 1. La centralità di z0 ∈ Rp rispetto ad F è dHS(z0; F) = inf PF[HS-(u, z0)], (1) in cui l’estremo inferiore è calcolato nella classe di tutti i vettori u ∈ Rp normalizzati o, equivalentemente, nella classe di tutti i semispazi chiusi di Rp che includono z0. Se {X1, ..., Xn} è un campione bernoulliano di n osservazioni da F ed Fn è la corrispondente distribuzione empirica, la centralità campionaria dHS(z0; Fn) si ottiene sostituendo Fn al posto di F nella (1). Di conseguenza dHS(z0; Fn) = n-1 inf u {numero di Xi : uTXi ≤ uTz0} è proporzionale al minimo numero di osservazioni campionarie incluse in un semispazio chiuso contenente z0. Consideriamo, per semplicità, la classe dei semispazi HS−(u, z0) e sia p(u) = PF[HS−(u, z0)]. Se n è fisso, il numero di osservazioni campionarie incluse in un particolare semispazio chiuso HS−(u, z0) segue una distribuzione Binomiale Bi(n, p(u)) e quindi dHS(z0; Fn) è il minimo di una famiglia infinita, non numerabile, di distribuzioni Binomiali stocasticamente dipendenti. La centralità campionaria dHS(z0; Fn) è uno stimatore non parametrico di dHS(z0; F) che, al divergere di n, converge quasi certamente a dHS(z0; F) (Donoho e Gasko, 1992, p. 1817). In questo lavoro hanno particolare rilievo le curve di livello della funzione dHS(z; F), z ∈ Rp e, più in generale, le cosiddette regioni d-centrali. Definizione 2. Fissato z0 ∈ Rp sia dHS(z0; F) ≡ d la centralità di z0 rispetto ad F. La regione d-centrale rispetto ad F è l’insieme DHS(d; F) = {z ∈ Rp : dHS(z; F) ≥ d }, 183 (2) i cui elementi sono tutti i punti di Rp la cui centralità è almeno pari a d; la frontiera è formata da punti con centralità esattamente uguale a d. Il seguente teorema fornisce una caratterizzazione geometrica delle regioni d-centrali. Teorema 1 (Donoho e Gasko, 1992, Lemma 2.2; Romanazzi, 1997a, Lemma 2). Sia F una distribuzione di probabilità non degenere su Rp e sia d un valore della funzione di centralità tale che DHS(d; F) ≠∅. Allora i. DHS(d; F) è l’intersezione dei semispazi chiusi di Rp aventi probabilità maggiore di 1 - d; ii. DHS(d; F) è un insieme chiuso, convesso e limitato; iii. se d1 > d2, DHS(d1; F) ⊆ DHS(d2; F). DHS(d; F) è equivariante rispetto alle trasformazioni affini: se FA,b è la distribuzione di Az + b, allora DHS(d; FA,b) = ADHS(d; F) + b. Inoltre, per molte importanti famiglie parametriche di distribuzioni, esiste un collegamento preciso tra caratteristiche della distribuzione e proprietà geometriche delle regioni d-centrali. Una discussione dettagliata di questa relazione per alcune distribuzioni bivariate è reperibile in Romanazzi (1997a). Il Teorema 2 descrive le caratteristiche di DHS(d; F) nel caso particolare delle distribuzioni ellitticamente simmetriche. Siccome queste distribuzioni sono centrosimmetriche rispetto alla media µ, 0 < dHS(z; F) ≤ 1/2 e dHS(z; F) = 1/2 se e solo se z = µ. Teorema 2 (Romanazzi, 1997a, Lemma 2). Se F è una distribuzione ellitticamente simmetrica, le regioni d-centrali sono ellissoidi e dHS(z; F) è una funzione decrescente della distanza di Mahalanobis di z da µ. Nelle applicazioni si considerano regioni d-centrali corrispondenti a particolari valori di d. L’esempio più importante è DHS(dSup; F) in cui dSup = sup {d ∈ (0, 1) : DHS(d; F) ≠∅}; DHS(dSup; F) è l’insieme dei punti con centralità massima rispetto ad F e viene talvolta chiamato regione mediana. La funzione dHS(z; Fn) e le regioni DHS(d; Fn) producono stime non parametriche di dHS(z; F) e DHS(d; F), rispettivamente. Questa caratteristica non deve essere confusa con la robustezza rispetto a contaminazioni della distribuzione di riferimento. Sulla base delle proprietà della funzione d’influenza di dHS(z; F), Romanazzi (1997b) argomenta che le osservazioni più esposte a variazioni importanti dell’indice di Tukey sono quelle con dHS(z; F) → 0, mentre le osservazioni con dHS(z; F) → dSup sono più resistenti. I risultati di Donoho e Gasko (1992), basati sul break-down point confermano la robustezza delle stime di posizione basate sull’indice di centralità di Tukey. 2. Schematic plot Lo schematic plot è il grafico di particolari regioni di centralità, ritenute rappresentative della sottostante distribuzione. La definizione è sostanzialmente identica per distribuzioni teoriche ed empiriche e non dipende nemmeno dalla dimensionalità delle osservazioni. Le applicazioni più interessanti riguardano le distribuzioni empiriche per p = 2 o p = 3 perché in questo caso le proprietà geometriche immediatamente percepibili delle regioni d-centrali possono suggerire, smentire o avvalorare le caratteristiche di un ipotetico modello distributivo. Nel seguito di questo lavoro considereremo dunque un campione bernoulliano di n osservazioni (Xi1, Xi2)T , i = 1, ..., n, da una distribuzione bivariata F. L’idea di base dello schematic plot è di usare le regioni empiriche DHS(d; Fn) come approssimazioni delle corrispondenti regioni teoriche DHS(d; F). In particolare DHS(dSup; 184 Fn) è uno stimatore della regione mediana, mentre DHS(1/4; Fn) è uno stimatore della regione “centrale” DHS(1/4; F) interpretabile alla stregua di un “intervallo interquartilico” bivariato. Posizione ed estensione delle due regioni forniscono informazioni su posizione e dispersione della parte centrale della distribuzione. Inoltre, se F è ellitticamente simmetrica o una sua contaminazione, e se d è abbastanza elevato, le regioni d-centrali campionarie sono stime robuste e consistenti delle corrispondenti regioni teoriche (Donoho, Gasko, 1992, Lemma 2.5). Esse dovrebbero quindi dare informazioni attendibili sulla correlazione delle variabili. Se F non è ellitticamente simmetrica, la relazione fra regioni di centralità campionarie e regioni teoriche è assai meno chiara, tuttavia esempi noti suggeriscono che orientamento e caratteristiche di simmetria/asimmetria di DHS(d; Fn) restano significativi. I primi due elementi dello schematic plot sono la regione mediana DHS(dSup; Fn) e la regione centrale DHS(1/4; Fn). In base al Teorema 1 le due regioni sono insiemi chiusi, convessi e limitati e DHS(dSup; Fn) ⊆ DHS(1/4; Fn). Per calcolare le centralità campionarie dHS(Xi; Fn) e disegnare il contorno delle regioni d-centrali sono utili i programmi FORTRAN sviluppati da Rousseeuw e Ruts (1996a, b). Il terzo elemento dello schematic plot è la regione estrema, coincidente con l’involucro convesso dei punti campionari. L’uso di un criterio di riconoscimento dei dati anomali porta a sostituire alla regione estrema la regione “regolare”, contenuta nella regione estrema, ma in generale non appartenente alla famiglia delle regioni d-centrali. 3. Calibrazione dello schematic plot Consideriamo una distribuzione Normale bivariata con vettore delle medie µ e matrice di covarianza Σ. In base al Teorema 2, le regioni d-centrali sono le ellissi Ell(b²; µ,Σ) = {z ∈ R² : (z - µ)TΣ -1(z - µ) ≤ b²} il cui contenuto di probabilità può essere facilmente valutato mediante la distribuzione χ22. Se vogliamo che sia uguale ad α la probabilità pOut della regione esterna all’ellisse dovrà essere P(Ell(b²; µ,Σ)) = P(χ2²≤ b²) = 1 - α e quindi b² ≡ bα² = - 2lnα. Dalla dimostrazione del Teorema 2 (Romanazzi, 1997a) segue anche che la centralità di un’osservazione x posta sulla frontiera di Ell(bα²; µ,Σ) è uguale alla probabilità del semipiano tangente all’ellisse nel punto x, e quindi dHS(x; F) = PF {z ∈ R² : uxTz ≤ uxTx} = Φ(-((x - µ)TΣ -1(x - µ))½) = Φ(-bα), (3) in cui ux è il vettore normale al piano tangente e Φ(.) indica la funzione di ripartizione della distribuzione Normale standard. Se, ad esempio, pOut = 0.00698, allora bα ≅ 3.151 e Φ(- bα) ≅ 0.000813. Questo significa che, se la probabilità delle osservazioni esterne alla regione regolare deve essere uguale a 0.00698, allora le osservazioni “anomale” sono quelle con centralità al massimo uguale a 0.000813. Sulla scala standard la costante -bα rappresenta la barriera (inferiore) che separa le osservazioni interne alla regione regolare da quelle esterne lungo la direzione ux. Indicando con Q1, Q3 e SIQ il primo e terzo quartile e lo scarto interquartilico di una Normale standard, allora da -bα = Q1 - cα SIQ ricaviamo la costante di calibrazione cα = (bα + Q1)/ SIQ ≅ (bα - 0.675)/1.349. Se pOut = 0.00698, cα ≅ 1.84. La Tab. 1 mostra le costanti di calibrazione associate a valori comunemente attribuiti a pOut. Tab. 1: Costanti di calibrazione c e probabilità pOut c 1.513 1.574 1.648 1.750 1.836 1.913 pOut % 2.5 2.0 1.5 1.0 0.698 0.5 185 2.066 0.25 Ora possiamo definire con precisione la regione regolare. Fissiamo k ∈ {1, ..., n} e consideriamo una direzione ottimale uk associata ad Xk tale che {numero di Xi : uk T Xi ≤ uk T Xk } ≤ {numero di Xi : uT Xi ≤ uT Xk } (4) per ogni vettore u. Dopo aver calcolato le proiezioni Yi(k) = ukTXi, i = 1, ..., n, determiniamo i quartili Q1(Y(k)), Q3(Y(k)), lo scarto interquartilico SIQ(Y(k)) = Q3(Y(k)) - Q1(Y(k)) e la barriera B(Y(k)) = Q1(Y(k)) - cα SIQ(Y(k)). Come nel box-plot univariato, il dato Xi è considerato anomalo se Yi(k) è inferiore a B(Y(k)) lungo qualche direzione uk . Se tutti i valori Yi(k) sono maggiori di B(Y(k)) registriamo l’osservazione campionaria (non anomala) corrispondente a mini Yi(k); in caso contrario registriamo l’osservazione campionaria (non anomala) col più piccolo valore di Yi(k) non minore di B(Y(k)). Il procedimento produce un insieme I di m osservazioni campionarie la regione regolare è l’involucro convesso di I. I = { X i1 ,..., X im }; Osservazione 1. Mentre la centralità dHS(z; F) è unica, il semispazio ottimale non lo è. Questo comporta, in particolare, che il numero delle direzioni ottimali, m, è di solito maggiore della numerosità campionaria. Il problema è discusso da Romanazzi (1997c). Osservazione 2. Il controllo dei dati anomali può essere semplice o multiplo. Nel controllo semplice la posizione di Xi è esaminata solo lungo le direzioni ottimali associate ad Xi. Nel controllo multiplo, più restrittivo, la posizione di Xi è esaminata lungo tutte le direzioni ottimali campionarie. 4. Esempio I dati qui analizzati (Rousseeuw, Leroy, 1987: 27) sono stati usati anche da Goldberg e Iglewicz (1992) per illustrare il loro box-plot bivariato. Le unità campionarie sono 47 stelle del gruppo denominato CYG OB1; le variabili sono X: logaritmo della temperatura superficiale, Y: logaritmo della luminosità. La caratteristica più appariscente in Fig. 1 è la presenza di quattro stelle giganti (unità n. 11, 20, 30 e 34) chiaramente eterogenee rispetto al gruppo principale. Il valore massimo della centralità per i dati campionari è 18/47, mentre dSup = 19/47. La regione centrale, corrispondente a DHS(12/47; Fn) contiene 9 osservazioni, il 19.1% del totale. Il baricentro della regione mediana (4.41, 5.01)T è una stima resistente del centro della distribuzione, alternativa al centroide ( x , y ) = (4.31, 5.01)T. La posizione della regione centrale e di quella mediana, un po’ spostata verso il bordo superiore destro della regione regolare, suggerisce un certo grado di asimmetria della distribuzione. È però possibile che la frontiera della regione regolare sia “attratta” dalle osservazioni sparse presenti sul lato superiore sinistro. Vale la pena osservare che, mentre il coefficiente di correlazione lineare per l’intero campione è pari a 0.210, l’orientamento delle curve di centralità più interne mostra correttamente che le variabili sono correlate positivamente nel gruppo principale. Se il controllo dei dati anomali è semplice e c = 1.5, le quattro stelle giganti sono escluse dalla regione regolare, mentre per c = 1.75 e c = 1.84 solo le giganti n. 30 e n. 34 rimangono all’esterno della regione regolare. Se il controllo è multiplo e c = 1.5, oltre alle stelle giganti anche le unità n. 7 e n. 14 sono esterne alla regione regolare; per c = 1.75 e 1.84 la stella n. 14 rimane sulla frontiera della regione regolare. Il confronto con i risultati di Goldberg e Iglewicz (1992) suggerisce che il controllo semplice è permissivo mentre il 186 controllo multiplo, in cui l’eccentricità di ogni dato è valutata su un insieme molto più ampio di direzioni, è più efficace. C’è tuttavia la possibilità che, al crescere della numerosità campionaria e del numero di direzioni ottimali, il controllo incrociato diventi troppo selettivo. Fig. 1: Schematic plot dei dati di temperatura e luminosità di 47 stelle 5. Risultati delle simulazioni La probabilità pOut associata ad una costante di calibrazione è un valore asintotico, valido per campioni gaussiani. Per numerosità campionarie non molto elevate, dell’ordine di qualche decina, qualche discrepanza è inevitabile. Per ottenere indicazioni precise sull’entità dello scostamento abbiamo simulato campioni bivariati gaussiani di numerosità comprese fra 8 e 60. Per ogni valore di n abbiamo effettuato 5000 repliche calcolando la percentuale fIn(n) dei campioni privi di dati anomali e la percentuale fOut(n) dei dati campionari anomali. Abbiamo messo a confronto controllo semplice e multiplo con c = 1.84. Le statistiche fIn(n), fOut(n) sono discusse in dettaglio da Hoaglin et al. (1986): fIn(n)/100 è una stima della probabilità che un (futuro) campione di numerosità n non abbia dati esterni alla regione regolare, 1 - fIn(n)/100 stima la probabilità che almeno un dato del campione sia esterno mentre fOut(n)/100 stima la probabilità che una singola (futura) osservazione campionaria sia esterna alla regione regolare. Tutte le probabilità sono valutate sotto l’ipotesi di campionamento da una distribuzione Normale. Una sintesi dei risultati appare in Fig. 2. Consideriamo dapprima il controllo semplice. La percentuale dei campioni privi di dati anomali mostra un andamento tendenzialmente decrescente al crescere di n. I valori di 1 - fIn(n)/100 suggeriscono che la 187 probabilità che un campione gaussiano bivariato abbia almeno un dato anomalo è approssimativamente uguale a 0.30 per n = 20, sale a circa 0.40 per n = 40 per attestarsi attorno a 0.45 per n = 60. Il valore limite teorico di fIn(n) è 0. Anche fOut(n) tende a ridimensionarsi al crescere di n, tuttavia la discrepanza rispetto al valore limite teorico (circa uguale a 0.7%) rimane tutt’altro che trascurabile anche per numerosità campionarie uguali a 40 o 50. Fig. 2: Risultati delle simulazioni, c = 1.84 In accordo con le aspettative, il controllo multiplo riduce fIn(n) e aumenta fOut(n) in modo sistematico. Il valore di fIn(n)/100 rimane stabilmente al di sotto di 0.5 per n > 20, mentre fOut(n)/100 è sempre superiore a 0.05 per n < 20. Valori diversi della costante di calibrazione non modificano in modo significativo queste proprietà. È interessante notare che all’andamento tendenzialmente decrescente di fIn(n) ed fOut(n) si sovrappone una fluttuazione ciclica dipendente dal resto della divisione di n per 4. Questo risultato, già notato da Hoaglin et al. (1986), è attribuibile al metodo di calcolo dei quartili campionari. 188 6. Discussione Lo schematic plot permette una più agevole interpretazione dello scatter plot grazie alla visualizzazione della regione mediana, che identifica la “posizione” della distribuzione, e della regione centrale, la cui estensione mostra il grado di dispersione; inoltre, l’orientamento della regione centrale è collegato alla correlazione delle variabili. Le due regioni sono resistenti alla contaminazione dei dati campionari, purché contenuta entro una percentuale ragionevole della numerosità. Diversamente dal box plot bivariato di Goldberg e Iglewicz (1992), lo schematic plot è non parametrico, essendo basato sull’indice di centralità di Tukey. Nell’analisi di dati reali il controllo multiplo dà risultati migliori del controllo semplice, mentre le simulazioni mostrano che il controllo semplice ha un comportamento più equilibrato, almeno rispetto alle statistiche fIn(n) e fOut(n). Un espediente idoneo ad attenuare la selettività del controllo multiplo è quello di richiedere almeno k > 1 violazioni delle barriere lungo le direzioni ottimali. Riferimenti bibliografici DONOHO D. L., GASKO M. (1992), “Breakdown Properties of Location Estimates Based on Halfspace Depth and Projected Outlyingness”, Annals of Statistics, 20, pp. 18031827. GOLDBERG K. M., IGLEWICZ B. (1992), “Bivariate Extensions of the Box-Plot”, Technometrics, 34, pp. 307-320. HOAGLIN D. C., IGLEWICZ B., TUKEY J. W. (1986), “Performance of Some Resistant Rules for Outlier Labeling ”, Journal of the American Statistical Association, 396, pp. 991-999. ROMANAZZI M. (1997a), “Halfspace Depth of Bivariate Distributions”, Rapporto Tecnico, Dipartimento di Statistica, Università di Venezia. ROMANAZZI M. (1997b), “Ordering Multivariate Data by Location Depth”, in Janssen J., Lauro C. N. “VIII International Symposium on Applied Stochastic Models andData Analysis ”, pp. 339-346, Rocco Curto Editore, Napoli. ROMANAZZI M. (1997c), “A Schematic Plot for Bivariate Data Based on Halfspace Depth”, Student, 2 , pp. 149-158. ROUSSEEUW P. J., LEROY A. M. (1987), Robust Regression and Outlier Detection, Wiley, New York. ROUSSEEUW P. J., RUTS I. (1996a), “Bivariate Location Depth”, Applied Statistics, 45, pp. 516-526. ROUSSEEUW P. J., RUTS I. (1996b), “Computing Depth Contours of Bivariate Point Clouds”, Computational Statistics & Data Analysis, 23, pp. 153-168. 189 Summary CALIBRAZIONE DELLO SCHEMATIC PLOT BIVARIATO Calibration of the Bivariate Schematic Plot The schematic plot is a scatter plot augmented with selected contours of Tukey’s halfspace depth. The standard version is formed by the median region, the central region and the regular region, whose definition incorporates an outlier labeling rule. First the sample points are projected onto the optimal directions associated with halfspace depth; then each direction is checked and the observations with projections below Q1 - cα IQR are discarded. Here cα is a calibration constant controlling the outside rate per observation. We suggest cα = 1.84 to obtain a theoretical outside rate per observation equal to 0.7% for Normal samples. The simulations carried out to investigate the finite-sample behaviour of the criterion show that, for sample sizes ranging from 8 to 60, the all-inside rate varies from 77% to 49% and the outside rate varies from 8% to 1% (simple control). Keywords Halfspace depth, Halfspace region, Robustness, Outlier 190 ! " # $%&'()*+ , -. / * 0 12 " 0 . 3 4 4 5 &6708#4(/ -9 -3 / : 4 0 -3 29 -3 / : 6 ( 4 0 -3 2 9 ; 4 0 & 0 -3 2 " ( </ /"= .>