1 lo stimatore nearest neighbour Lo stimatore k-nearest neighbour è strettamente kernel (con kernel uniforme) l’intervallo centrato in x sarà fissa il valore di h e conta del tipo ( x dk ( x ), x dk ( x )) quante hanno e avrà ampiezza 2 d k ( x ) e la una distanza da x minore o stima della densità in x avrà uguale ad h. l’espressione: Lo osservazioni stimatore k-nearest neighbour invece si basa sul f ( x ) k . n2 d k ( x ) legato allo stimatore kernel. procedimento inverso: si fissa Nel caso di una sola variabile il numero k e si considerano si è visto come la stima della le k osservazioni più vicine al In funzione di densità in un punto x in cui si vuole l’intervallo attorno al punto x punto calcolare di non avrà ampiezza fissa ma proporzione di osservazioni densità; l’intervallo attorno al varierà al variare di x in modo che cadono all’interno punto x viene definito allora tale da contenere esattamente dell’intervallo di ampiezza 2h considerando la distanza tra il k osservazioni (quelle più centrato punto x e il k-esimo punto xi vicine ad x). più vicino a x. Nello Per chiarire meglio il concetto neighbour supponiamo k. svolge lo stesso ruolo del Calcoliamo poi le distanze tra parametro h nello stimatore ciascun punto delle n kernel, da cui dipende il grado in cui K (u) 1 se |u| h e osservazioni e il punto x; di irregolarità della funzione K (u) 0 se |u| h indichiamo queste distanze di densità stimata: grandi uniforme) è equivalente alla con le valori di k producono una espressione: distanze in ordine crescente, funzione di densità stimata dalla più piccola alla più molto liscia e piuttosto piatta grande, solamente le prime k mentre piccoli valori di k distanze vengono considerate, producono dove k è proprio in numero di che individuano i primi k molto irregolare. osservazioni xi punti più vicini a x. Se Come per lo stimatore kernel, xi x è in data x, lunghezza dalla diviso la dell’intervallo stesso. Infatti l’espressione: f ( x ) 1 n K (x xi ) n2h i 1 f ( x ) (kernel k n2h che la funzione di d ( x , xi ) . fissare xi Ordinate questo caso stimatore il quindi k-nearest parametro una k funzione la il passaggio dal caso di una di lunghezza distanza da x del k-esimo sola variabile al caso di due o 2h. In pratica lo stimatore punto xi più vicino a x allora appartengono all’intervallo ( x h, x h) indichiamo con dk (x ) 1 d 2 (x, xi ) (xi x) S 1 (xi x) più variabili è abbastanza dove semplice. dell’ellissoide Quando si lavora con più di attorno al punto x. una variabile la cella costruita Occorre però decidere come Altre attorno al punto x non è più devono essere calcolate le possono essere utilizzate, per un un distanze tra punti in uno esempio ponendo V uguale segmento di retta) ma una spazio a più dimensioni, cioè alla matrice diagonale delle regione occorre definire una “metrica” varianze (ellissoide) centrata nel punto nello spazio dei punti x. ciascuna x: questa regione è definita L’espressione generale della matrice come l’insieme dei punti dello distanza tra due punti x e z è corrisponde spazio z tali che la loro data dalla formula: euclidea). intervallo (cioè dello spazio è il volume vk ( x ) costruito d 2 (x, z) ( z x) V 1 ( z x) r viene preso uguale alla distanza tra x e il k-esimo punto più vicino a x e l’ellissoide attorno ad x è costituito allora da tutti quei punti z tali che d 2 (x, z) dk2 (x) dove dk2 (x) è proprio il quadrato della distanza tra x e la k-esima osservazione più vicina a x. dove è una matrice quadrata simmetrica di ordine p che definisce la metrica dello spazio. utilizzata quando si lavora nello spazio delle osservazioni x i relative a p variabili è la matrice di varianza e covarianza stimata S e la distanza che ne deriva apparterranno come regione, per come questa è distanza il densità nel punto x sarà data osservazione k f ( x) nvk ( x) di Mahalanobis; le distanze tra stata definita, e la stima della allora dalla formula: o identità alla (che alla metrica particolare osservazione sulla punto allora: quindi stimando separatamente le funzioni di densità nei due gruppi e applicando La matrice V generalmente viene indicata in letteratura questa variabile di training set si può procedere V 1 Esattamente k osservazioni x i a campionarie base delle osservazioni del Nel caso dello stimatore knearest neighbour, fissato k, tuttavia Per la classificazione di una distanza da x sia minore di un certo valore r. metriche x e xi ciascuna diventano regole introdotte poi di una delle classificazione precedentemente. In questo caso possono essere utilizzate due metriche diverse nei due gruppi per il calcolo delle distanze; per esempio V potrà essere la matrice di varianza e covarianza di gruppo. Fissato k, il metodo trova la distanza tra x e la k-esima osservazione del training set più vicina ad x secondo la metrica Sj 1 (nel j-esimo 2 gruppo) e costruisce gli confronto tra le densità o tra parametri h e k degli stimatori ellissoidi attorno a x dati dai le probabilità a posteriori. Ciò kernel e k-nearest neighbour punti che è rilevante è invece la nella stima delle funzioni di k j / n j di d 2 (x, z) ( z x) Sj 1 ( z x) d jk2 (x)proporzione . Se indichiamo con k j in osservazioni del gruppo j che densità del vettore x nelle due numero di osservazioni del appartengono all’ellissoide; in e k producono una funzione gruppo particolare se si assume che le appiattita all’interno dell’ellissoide (in probabilità siano funzione di densità in ciascun ciascun gruppo) la densità uguali, l’osservazione x viene punto non è corretta) mentre stimata di x per il gruppo j è: assegnata al gruppo per il piccoli valori degli quale parametri danno luogo ad una z tali j che f ( x| j ) che cadono kj n j v jk ( x ) a è priori maggiore la proporzione k j / n j . Se anche dove n j è la numerosità del le numerosità dei due gruppi gruppo j-esimo e v jk ( x ) è il sono uguali, x sarà assegnato volume al gruppo per il quale è dell’ellissoide maggiore corrispondente. Tuttavia la scelta di un’unica metrica nei due gruppi, nel caso specifico la matrice di varianza e complessiva covarianza stimata dalle osservazioni di entrambi i gruppi, classificazione ed elimina la necessità della stima delle funzioni di densità di gruppo. questo numero osservazioni di che appartengono all’ellissoide. Infine se si pone k = 1 allora x sarà assegnato al gruppo a cui appartiene l’osservazione con caso infatti indipendente dall’appartenenza delle molto della stessi irregolare (con una distorsione minore ma con una variabilità abbastanza elevata). La scelta di questi parametri è quindi cruciale per ottenere una buona stima della funzione di densità. Diversi metodi sono stati proposti in letteratura (per una Hand, 1982). Molti di questi metodi 2 Appendice D: Scelta dei parametri di smoothing nella discriminante non parametrica si basano sull’ottimizzazione di una funzione obiettivo che coinvolge la differenza tra la funzione di densità stimata e quella vera: in questo caso h e k vengono scelti in modo da ogni gruppo e il suo volume è costante stima Silverman, 1986 e l’ellissoide è lo stesso per una funzione (la rassegna si vedano i lavori di distanza minima da x. semplifica notevolmente la procedura di In il popolazioni: grandi valori di h ottimizzare una misura di Nelle precedenti appendici abbiamo osservazioni ad uno dei due sottolineato il gruppi e quindi ininfluente nel fondamentale svolto ruolo adattamento delle stime delle densità di gruppo alle vere distribuzioni (o ad una dai 3 qualche approssimazione alcune obiezioni concrete per sarà più indicato scegliere i calcolabile di queste). il suo uso, cfr. Hand, 1982) . parametri di smoothing in Nell’analisi discriminante In questo caso la stima delle maniera da ottimizzare la tuttavia l’obiettivo principale funzioni di densità di gruppo stima delle densità di gruppo è quello di minimizzare il è (per una discussione sulla tasso della intermedio mentre l’obiettivo scelta classificazione della regola finale è quello di ottenere una ottimizzazione utilizzata. Poiché, da ciò che buona classificazione (anche 1982) . si è detto precedentemente, la se migliori In questo analisi abbiamo funzione saranno le stime delle densità deciso di scegliere i valori di di gruppo migliore sarà la h parametri di smoothing, un classificazione). minimizzare il tasso di errore: approccio appropriato situazioni per esempio anche stimato quello di stime della densità non molto discriminante del sofisticate possono dare una nearest-neighbour) parametro di smoothing che buona se diversi valori di h e k viene minimizza il tasso di errore tuttavia si è interessati anche scelto quello che ottiene il (benché in alcune circostanze ad ottenere stime accurate tasso di errore più basso. possano delle probabilità a posteriori di diventa sembra scegliere errore discriminante funzione più essere il valore essere dei avanzate solamente un obiettivo ovviamente In classificazione; certe e del k criterio in cfr. di Hand, maniera il da modello (kernel e per 4 3 Bibliografia Alberici, A. (1975), Analisi dei bilanci e previsioni delle insolvenze, Isedi, Milano. Altman, E. (1993), Corporate Financial Distress and Bankruptcy, 2nd ed., Wiley, New York. Altman, E.I., Eom, Y.H., Kim, D.W. (1994), ‘Distress classification of Korean firms’, Working Paper Series S-94-6, New York University Salomon Center. Atkinson, A.C. e Riani, M (1997), Bivariate Boxplots, Multiple Outliers, Multivariate transformations and Discriminant Analysis: the 1997 Hunter Lecture, Environmetrics, 8. Balestri, Forster, G. (1986), Financial Statement Analysis, 2nd ed., Prentice Hall, New York. Hand, D.J. (1981), Discrimination and classification, Wiley, New York. Hand, D.J. (1982), Kernel discriminant analysis, Research Studies Press. Hartigan, J.A. (1975), Clustering Algorithms, Wiley, New York. Huberty, C.J. (1994), Applied discriminant analysis, Wiley, New York. Jollife, I.T. (1986), Principal Component Analysis, Springer Verlag, New York. Krzanowski, W.J. (1988), Principle of multivariate analysis, a user’s perspective, Clarendon Press, Oxford. Marbach, G. (1989), Previsioni e Misure di Efficienza Aziendale, NIS, Roma. Mardia K.V., Kent J.V. and Bibby, J.M. (1994), Multivariate Analysis, Academic Press, Londra. Mclachlan G.J (1992), Discriminant analysis and statistical Pattern Recognition, Wiley, New York. Milligan, G.W., Cooper, M.C. (1985), An Examination of Procedures for Determining the Number of Clusters in a Data Set, Psychometrika, pp. 159-179. Murphy, B.J, Moran M.A. (1986), ‘Parametric and kernel density estimation in discriminant analysis: another comparision’, Comput. Math. Applic. 12A . Riani, M. (1997), Monitoraggio delle imprese in base ai bilanci: il caso delle aziende tessili del distretto di Prato, Atti del convegno SIS: La statistica per le imprese, Torino. Riani, M. e Zani, S. (1997), “An Iterative Procedure for the Detection of Multiple Outliers”, Metron. Silverman, B.W. (1986), Density estimation for statistics and data analysis, Chapman and Hall, London. Atkinson, A.C. and Riani, M. "Robust Diagnostic Regression Analysis, Springer Verlag, New York (2000). Harvey, A.C., Koopman, S.J, Riani, M. (1997) "The Modeling and Seasonal Adjustment of Weekly Observations", Journal of Business and Economic Statistics, , pp. 354-368. 5 Riani, M. (1998) "Weights and Robustness of Model Based Seasonal Adjustment", Journal of Forecasting, pp. 19-34. Cerioli, A. and Riani, M. (1999) "The Ordering of Spatial Data and the Detection of Multiple Outliers", Journal of Computational and Graphical Statistics, (1999), pp. 1-20. 6 7