1 lo stimatore nearest neighbour kernel (con kernel uniforme) del tipo ( x dk ( x ), x dk ( x )) fissa il valore di h e conta e avrà ampiezza 2 d k ( x ) e la quante stima della densità in x avrà l’espressione: uguale ad h. Lo stimatore k-nearest è hanno una distanza da x minore o Lo neighbour osservazioni strettamente stimatore k-nearest f ( x ) neighbour invece si basa sul k . n2 d k ( x ) procedimento inverso: si fissa legato allo stimatore kernel. il numero k e si considerano In Nel caso di una sola variabile le k osservazioni più vicine al l’intervallo attorno al punto x si è visto come la stima della punto x in cui si vuole non avrà ampiezza fissa ma funzione di densità in un calcolare di varierà al variare di x in modo punto dalla densità; l’intervallo attorno al tale da contenere esattamente proporzione di osservazioni punto x viene definito allora k osservazioni (quelle più che cadono all’interno considerando la distanza tra il vicine ad x). dell’intervallo di ampiezza 2h punto x e il k-esimo punto xi Nello centrato più vicino a x. neighbour Per chiarire meglio il concetto svolge lo stesso ruolo del supponiamo k. parametro h nello stimatore Calcoliamo poi le distanze tra kernel, da cui dipende il grado ciascun punto delle n di irregolarità della funzione osservazioni e il punto x; di densità stimata: grandi in cui K (u) 1 se |u| h e indichiamo queste distanze valori di k producono una K (u) 0 se |u| h con le funzione di densità stimata uniforme) è equivalente alla distanze in ordine crescente, molto liscia e piuttosto piatta espressione: dalla più piccola alla più mentre piccoli valori di k grande, solamente le prime k producono distanze vengono considerate, molto irregolare. che individuano i primi k Come per lo stimatore kernel, dove k è proprio in numero di punti più vicini a x. Se il passaggio dal caso di una osservazioni xi indichiamo xi x è in data x, lunghezza diviso la dell’intervallo stesso. Infatti l’espressione: f ( x ) 1 n K (x xi ) n2h i 1 f ( x ) (kernel k n2h che la funzione di d ( x , xi ) . con fissare xi Ordinate dk (x ) questo caso stimatore il quindi k-nearest parametro una k funzione la sola variabile al caso di due o appartengono all’intervallo distanza da x del k-esimo più variabili è abbastanza ( x h, x h) di lunghezza punto xi più vicino a x allora semplice. 2h. In pratica lo stimatore l’intervallo centrato in x sarà 1 d 2 (x, xi ) (xi x) S 1 (xi x) Quando si lavora con più di dove una variabile la cella costruita dell’ellissoide attorno al punto x non è più attorno al punto x. un un Occorre però decidere come Altre segmento di retta) ma una devono essere calcolate le possono essere utilizzate, per regione spazio distanze tra punti in uno esempio ponendo V uguale (ellissoide) centrata nel punto spazio a più dimensioni, cioè alla matrice diagonale delle x: questa regione è definita occorre definire una “metrica” varianze come l’insieme dei punti dello nello spazio dei punti x. ciascuna spazio z tali che la loro L’espressione generale della matrice distanza da x sia minore di un distanza tra due punti x e z è corrisponde certo valore r. data dalla formula: euclidea). intervallo (cioè dello è il volume vk ( x ) costruito d 2 (x, z) ( z x) V 1 ( z x) punto più vicino a x e l’ellissoide attorno ad x è costituito allora da tutti quei punti z tali che d 2 (x, z) dk2 (x) dove dk2 (x) dove è una matrice quadrata simmetrica di ordine p che definisce la metrica dello spazio. utilizzata quando si lavora distanza tra x e la k-esima osservazioni x i relative a p spazio delle variabili è la matrice di Esattamente k osservazioni x i varianza e covarianza stimata apparterranno questa S e la distanza che ne deriva regione, per come questa è viene indicata in letteratura stata definita, e la stima della come densità nel punto x sarà data allora dalla formula: k f ( x) nvk ( x) o identità alla (che alla metrica particolare osservazione sulla distanza di Mahalanobis; le distanze tra il punto osservazione allora: quindi stimando separatamente le funzioni di densità nei due gruppi e applicando La matrice V generalmente nello a variabile di training set si può procedere V 1 è proprio il quadrato della osservazione più vicina a x. campionarie base delle osservazioni del r viene preso uguale alla distanza tra x e il k-esimo tuttavia Per la classificazione di una Nel caso dello stimatore knearest neighbour, fissato k, metriche x e xi ciascuna diventano regole introdotte poi di una delle classificazione precedentemente. In questo caso possono essere utilizzate due metriche diverse nei due gruppi per il calcolo delle distanze; per esempio V potrà essere la matrice di varianza e covarianza di gruppo. Fissato k, il metodo trova la distanza tra x e la k-esima osservazione del training set più vicina ad x secondo la metrica Sj 1 (nel j-esimo 2 gruppo) e costruisce gli confronto tra le densità o tra parametri h e k degli stimatori ellissoidi attorno a x dati dai le probabilità a posteriori. Ciò kernel e k-nearest neighbour punti che è rilevante è invece la nella stima delle funzioni di k j / n j di d 2 (x, z) ( z x) Sj 1 ( z x) d jk2 (x)proporzione . Se indichiamo con k j in osservazioni del gruppo j che densità del vettore x nelle due numero di osservazioni del appartengono all’ellissoide; in e k producono una funzione gruppo particolare se si assume che le appiattita all’interno dell’ellissoide (in probabilità siano funzione di densità in ciascun ciascun gruppo) la densità uguali, l’osservazione x viene punto non è corretta) mentre stimata di x per il gruppo j è: assegnata al gruppo per il piccoli valori degli quale parametri danno luogo ad una z tali j che f ( x| j ) che cadono kj n j v jk ( x ) a è priori maggiore la proporzione k j / n j . Se anche dove n j è la numerosità del le numerosità dei due gruppi gruppo j-esimo e v jk ( x ) è il sono uguali, x sarà assegnato volume al gruppo per il quale è dell’ellissoide maggiore corrispondente. Tuttavia la scelta di un’unica metrica nei due gruppi, nel caso specifico la matrice di varianza e complessiva covarianza stimata dalle osservazioni di entrambi i gruppi, classificazione ed elimina la necessità della stima delle funzioni di densità di gruppo. questo numero osservazioni di che appartengono all’ellissoide. Infine se si pone k = 1 allora x sarà assegnato al gruppo a cui appartiene l’osservazione con caso infatti indipendente dall’appartenenza delle molto della stessi irregolare (con una distorsione minore ma con una variabilità abbastanza elevata). La scelta di questi parametri è quindi cruciale per ottenere una buona stima della funzione di densità. Diversi metodi sono stati proposti in letteratura (per una Hand, 1982). Molti di questi metodi 2 Appendice D: Scelta dei parametri di smoothing nella discriminante non parametrica si basano sull’ottimizzazione di una funzione obiettivo che coinvolge la differenza tra la funzione di densità stimata e quella vera: in questo caso h e k vengono scelti in modo da ogni gruppo e il suo volume è costante stima Silverman, 1986 e l’ellissoide è lo stesso per una funzione (la rassegna si vedano i lavori di distanza minima da x. semplifica notevolmente la procedura di In il popolazioni: grandi valori di h ottimizzare una misura di Nelle precedenti appendici abbiamo osservazioni ad uno dei due sottolineato il gruppi e quindi ininfluente nel fondamentale svolto ruolo adattamento delle stime delle densità di gruppo alle vere distribuzioni (o ad una dai 3 qualche approssimazione alcune obiezioni concrete per sarà più indicato scegliere i calcolabile di queste). il suo uso, cfr. Hand, 1982) . parametri di smoothing in Nell’analisi discriminante In questo caso la stima delle maniera da ottimizzare la tuttavia l’obiettivo principale funzioni di densità di gruppo stima delle densità di gruppo è quello di minimizzare il è (per una discussione sulla tasso della intermedio mentre l’obiettivo scelta classificazione della regola finale è quello di ottenere una ottimizzazione utilizzata. Poiché, da ciò che buona classificazione (anche 1982) . si è detto precedentemente, la se migliori In questo analisi abbiamo funzione saranno le stime delle densità deciso di scegliere i valori di di gruppo migliore sarà la h parametri di smoothing, un classificazione). minimizzare il tasso di errore: approccio appropriato situazioni per esempio anche stimato quello di stime della densità non molto discriminante del sofisticate possono dare una nearest-neighbour) parametro di smoothing che buona se diversi valori di h e k viene minimizza il tasso di errore tuttavia si è interessati anche scelto quello che ottiene il (benché in alcune circostanze ad ottenere stime accurate tasso di errore più basso. possano delle probabilità a posteriori di diventa sembra scegliere errore discriminante funzione più essere il valore essere dei avanzate solamente un obiettivo ovviamente In classificazione; certe e del k criterio in cfr. di Hand, maniera il da modello (kernel e per 4 3 Bibliografia Alberici, A. (1975), Analisi dei bilanci e previsioni delle insolvenze, Isedi, Milano. Altman, E. (1993), Corporate Financial Distress and Bankruptcy, 2nd ed., Wiley, New York. Altman, E.I., Eom, Y.H., Kim, D.W. (1994), ‘Distress classification of Korean firms’, Working Paper Series S-94-6, New York University Salomon Center. Atkinson, A.C. and Riani, M. "Robust Diagnostic Regression Analysis, Springer Verlag, New York (2000). Atkinson, A.C. e Riani, M (1997), Bivariate Boxplots, Multiple Outliers, Multivariate transformations and Discriminant Analysis: the 1997 Hunter Lecture, Environmetrics, 8. Balestri, Cerioli, A. and Riani, M. (1999) "The Ordering of Spatial Data and the Detection of Multiple Outliers", Journal of Computational and Graphical Statistics, (1999), pp. 1-20. Forster, G. (1986), Financial Statement Analysis, 2nd ed., Prentice Hall, New York. Hand, D.J. (1981), Discrimination and classification, Wiley, New York. Hand, D.J. (1982), Kernel discriminant analysis, Research Studies Press. Hartigan, J.A. (1975), Clustering Algorithms, Wiley, New York. Harvey, A.C., Koopman, S.J, Riani, M. (1997) "The Modeling and Seasonal Adjustment of Weekly Observations", Journal of Business and Economic Statistics, , pp. 354-368. Huberty, C.J. (1994), Applied discriminant analysis, Wiley, New York. Jollife, I.T. (1986), Principal Component Analysis, Springer Verlag, New York. Krzanowski, W.J. (1988), Principle of multivariate analysis, a user’s perspective, Clarendon Press, Oxford. Marbach, G. (1989), Previsioni e Misure di Efficienza Aziendale, NIS, Roma. Mardia K.V., Kent J.V. and Bibby, J.M. (1994), Multivariate Analysis, Academic Press, Londra. Mclachlan G.J (1992), Discriminant analysis and statistical Pattern Recognition, Wiley, New York. Milligan, G.W., Cooper, M.C. (1985), An Examination of Procedures for Determining the Number of Clusters in a Data Set, Psychometrika, pp. 159-179. Murphy, B.J, Moran M.A. (1986), ‘Parametric and kernel density estimation in discriminant analysis: another comparision’, Comput. Math. Applic. 12A . Riani, M. (1997), Monitoraggio delle imprese in base ai bilanci: il caso delle aziende tessili del distretto di Prato, Atti del convegno SIS: La statistica per le imprese, Torino. 5 Riani, M. (1998) "Weights and Robustness of Model Based Seasonal Adjustment", Journal of Forecasting, pp. 19-34. Riani, M. e Zani, S. (1997), “An Iterative Procedure for the Detection of Multiple Outliers”, Metron. Silverman, B.W. (1986), Density estimation for statistics and data analysis, Chapman and Hall, London. 6 7