1 lo stimatore nearest neighbour

annuncio pubblicitario
1
lo stimatore
nearest
neighbour
Lo stimatore k-nearest
neighbour
è
strettamente
kernel (con kernel uniforme)
l’intervallo centrato in x sarà
fissa il valore di h e conta
del tipo ( x  dk ( x ), x  dk ( x ))
quante
hanno
e avrà ampiezza 2 d k ( x ) e la
una distanza da x minore o
stima della densità in x avrà
uguale ad h.
l’espressione:
Lo
osservazioni
stimatore
k-nearest
neighbour invece si basa sul
f ( x ) 
k
.
n2 d k ( x )
legato allo stimatore kernel.
procedimento inverso: si fissa
Nel caso di una sola variabile
il numero k e si considerano
si è visto come la stima della
le k osservazioni più vicine al
In
funzione di densità in un
punto x in cui si vuole
l’intervallo attorno al punto x
punto
calcolare
di
non avrà ampiezza fissa ma
proporzione di osservazioni
densità; l’intervallo attorno al
varierà al variare di x in modo
che cadono all’interno
punto x viene definito allora
tale da contenere esattamente
dell’intervallo di ampiezza 2h
considerando la distanza tra il
k osservazioni (quelle più
centrato
punto x e il k-esimo punto xi
vicine ad x).
più vicino a x.
Nello
Per chiarire meglio il concetto
neighbour
supponiamo
k.
svolge lo stesso ruolo del
Calcoliamo poi le distanze tra
parametro h nello stimatore
ciascun punto
delle n
kernel, da cui dipende il grado
in cui K (u)  1 se |u| h e
osservazioni e il punto x;
di irregolarità della funzione
K (u)  0 se |u| h
indichiamo queste distanze
di densità stimata: grandi
uniforme) è equivalente alla
con
le
valori di k producono una
espressione:
distanze in ordine crescente,
funzione di densità stimata
dalla più piccola alla più
molto liscia e piuttosto piatta
grande, solamente le prime k
mentre piccoli valori di k
distanze vengono considerate,
producono
dove k è proprio in numero di
che individuano i primi k
molto irregolare.
osservazioni xi
punti più vicini a x. Se
Come per lo stimatore kernel,
xi
x
è
in
data
x,
lunghezza
dalla
diviso
la
dell’intervallo
stesso. Infatti l’espressione:
f ( x ) 
1 n
 K (x  xi )
n2h i 1
f ( x ) 
(kernel
k
n2h
che
la
funzione
di
d ( x , xi ) .
fissare
xi
Ordinate
questo
caso
stimatore
il
quindi
k-nearest
parametro
una
k
funzione
la
il passaggio dal caso di una
di lunghezza
distanza da x del k-esimo
sola variabile al caso di due o
2h. In pratica lo stimatore
punto xi più vicino a x allora
appartengono
all’intervallo
( x  h, x  h)
indichiamo
con
dk (x )
1
d 2 (x, xi )  (xi  x) S 1 (xi  x)
più variabili è abbastanza
dove
semplice.
dell’ellissoide
Quando si lavora con più di
attorno al punto x.
una variabile la cella costruita
Occorre però decidere come
Altre
attorno al punto x non è più
devono essere calcolate le
possono essere utilizzate, per
un
un
distanze tra punti in uno
esempio ponendo V uguale
segmento di retta) ma una
spazio a più dimensioni, cioè
alla matrice diagonale delle
regione
occorre definire una “metrica”
varianze
(ellissoide) centrata nel punto
nello spazio dei punti x.
ciascuna
x: questa regione è definita
L’espressione generale della
matrice
come l’insieme dei punti dello
distanza tra due punti x e z è
corrisponde
spazio z tali che la loro
data dalla formula:
euclidea).
intervallo
(cioè
dello
spazio
è il volume
vk ( x )
costruito
d 2 (x, z)  ( z  x) V 1 ( z  x)
r viene preso uguale alla
distanza tra x e il k-esimo
punto più vicino a x e
l’ellissoide attorno ad x è
costituito allora da tutti quei
punti
z
tali
che
d 2 (x, z)  dk2 (x) dove dk2 (x)
è proprio il quadrato della
distanza tra x e la k-esima
osservazione più vicina a x.
dove
è una matrice
quadrata simmetrica di ordine
p che definisce la metrica
dello spazio.
utilizzata quando si lavora
nello
spazio
delle
osservazioni x i relative a p
variabili è la matrice di
varianza e covarianza stimata
S e la distanza che ne deriva
apparterranno
come
regione, per come questa è
distanza
il
densità nel punto x sarà data
osservazione
k
f ( x) 
nvk ( x)
di
Mahalanobis; le distanze tra
stata definita, e la stima della
allora dalla formula:
o
identità
alla
(che
alla
metrica
particolare osservazione sulla
punto
allora:
quindi
stimando
separatamente le funzioni di
densità nei due gruppi e
applicando
La matrice V generalmente
viene indicata in letteratura
questa
variabile
di
training set si può procedere
V 1
Esattamente k osservazioni x i
a
campionarie
base delle osservazioni del
Nel caso dello stimatore knearest neighbour, fissato k,
tuttavia
Per la classificazione di una
distanza da x sia minore di un
certo valore r.
metriche
x
e
xi
ciascuna
diventano
regole
introdotte
poi
di
una
delle
classificazione
precedentemente.
In questo caso possono essere
utilizzate
due
metriche
diverse nei due gruppi per il
calcolo delle distanze; per
esempio V potrà essere la
matrice
di
varianza
e
covarianza di gruppo.
Fissato k, il metodo trova la
distanza tra x e la k-esima
osservazione del training set
più vicina ad x secondo la
metrica
Sj 1
(nel
j-esimo
2
gruppo)
e
costruisce
gli
confronto tra le densità o tra
parametri h e k degli stimatori
ellissoidi attorno a x dati dai
le probabilità a posteriori. Ciò
kernel e k-nearest neighbour
punti
che è rilevante è invece la
nella stima delle funzioni di
k j / n j di
d 2 (x, z)  ( z  x) Sj 1 ( z  x)  d jk2 (x)proporzione
. Se indichiamo con k j in
osservazioni del gruppo j che
densità del vettore x nelle due
numero di osservazioni del
appartengono all’ellissoide; in
e k producono una funzione
gruppo
particolare se si assume che le
appiattita
all’interno dell’ellissoide (in
probabilità
siano
funzione di densità in ciascun
ciascun gruppo) la densità
uguali, l’osservazione x viene
punto non è corretta) mentre
stimata di x per il gruppo j è:
assegnata al gruppo per il
piccoli valori degli
quale
parametri danno luogo ad una
z
tali
j
che
f ( x| j ) 
che
cadono
kj
n j v jk ( x )
a
è
priori
maggiore
la
proporzione k j / n j . Se anche
dove n j è la numerosità del
le numerosità dei due gruppi
gruppo j-esimo e v jk ( x ) è il
sono uguali, x sarà assegnato
volume
al gruppo per il quale è
dell’ellissoide
maggiore
corrispondente.
Tuttavia la scelta di un’unica
metrica nei due gruppi, nel
caso specifico la matrice di
varianza
e
complessiva
covarianza
stimata
dalle
osservazioni di entrambi i
gruppi,
classificazione ed elimina la
necessità della stima delle
funzioni di densità di gruppo.
questo
numero
osservazioni
di
che
appartengono all’ellissoide.
Infine se si pone k = 1 allora x
sarà assegnato al gruppo a cui
appartiene l’osservazione con
caso
infatti
indipendente
dall’appartenenza
delle
molto
della
stessi
irregolare
(con una distorsione minore
ma
con
una
variabilità
abbastanza elevata). La scelta
di questi parametri è quindi
cruciale
per
ottenere
una
buona stima della funzione di
densità.
Diversi metodi sono stati
proposti in letteratura (per una
Hand,
1982). Molti di questi metodi
2
Appendice D:
Scelta dei
parametri di
smoothing nella
discriminante
non parametrica
si basano sull’ottimizzazione
di una funzione obiettivo che
coinvolge la differenza tra la
funzione di densità stimata e
quella vera: in questo caso h
e k vengono scelti in modo da
ogni gruppo e il suo volume è
costante
stima
Silverman, 1986 e
l’ellissoide è lo stesso per
una
funzione
(la
rassegna si vedano i lavori di
distanza minima da x.
semplifica
notevolmente la procedura di
In
il
popolazioni: grandi valori di h
ottimizzare una misura di
Nelle
precedenti
appendici
abbiamo
osservazioni ad uno dei due
sottolineato
il
gruppi e quindi ininfluente nel
fondamentale
svolto
ruolo
adattamento delle stime delle
densità di gruppo alle vere
distribuzioni
(o
ad
una
dai
3
qualche
approssimazione
alcune obiezioni concrete per
sarà più indicato scegliere i
calcolabile di queste).
il suo uso, cfr. Hand, 1982) .
parametri di smoothing in
Nell’analisi
discriminante
In questo caso la stima delle
maniera da ottimizzare la
tuttavia l’obiettivo principale
funzioni di densità di gruppo
stima delle densità di gruppo
è quello di minimizzare il
è
(per una discussione sulla
tasso
della
intermedio mentre l’obiettivo
scelta
classificazione della regola
finale è quello di ottenere una
ottimizzazione
utilizzata. Poiché, da ciò che
buona classificazione (anche
1982) .
si è detto precedentemente, la
se
migliori
In questo analisi abbiamo
funzione
saranno le stime delle densità
deciso di scegliere i valori di
di gruppo migliore sarà la
h
parametri di smoothing, un
classificazione).
minimizzare il tasso di errore:
approccio
appropriato
situazioni per esempio anche
stimato
quello
di
stime della densità non molto
discriminante
del
sofisticate possono dare una
nearest-neighbour)
parametro di smoothing che
buona
se
diversi valori di h e k viene
minimizza il tasso di errore
tuttavia si è interessati anche
scelto quello che ottiene il
(benché in alcune circostanze
ad ottenere stime accurate
tasso di errore più basso.
possano
delle probabilità a posteriori
di
diventa
sembra
scegliere
errore
discriminante
funzione
più
essere
il
valore
essere
dei
avanzate
solamente
un
obiettivo
ovviamente
In
classificazione;
certe
e
del
k
criterio
in
cfr.
di
Hand,
maniera
il
da
modello
(kernel
e
per
4
3
Bibliografia
Alberici, A. (1975), Analisi dei bilanci e previsioni delle insolvenze, Isedi, Milano.
Altman, E. (1993), Corporate Financial Distress and Bankruptcy, 2nd ed., Wiley, New York.
Altman, E.I., Eom, Y.H., Kim, D.W. (1994), ‘Distress classification of Korean firms’, Working Paper
Series S-94-6, New York University Salomon Center.
Atkinson, A.C. e Riani, M (1997), Bivariate Boxplots, Multiple Outliers, Multivariate transformations
and Discriminant Analysis: the 1997 Hunter Lecture, Environmetrics, 8.
Balestri,
Forster, G. (1986), Financial Statement Analysis, 2nd ed., Prentice Hall, New York.
Hand, D.J. (1981), Discrimination and classification, Wiley, New York.
Hand, D.J. (1982), Kernel discriminant analysis, Research Studies Press.
Hartigan, J.A. (1975), Clustering Algorithms, Wiley, New York.
Huberty, C.J. (1994), Applied discriminant analysis, Wiley, New York.
Jollife, I.T. (1986), Principal Component Analysis, Springer Verlag, New York.
Krzanowski, W.J. (1988), Principle of multivariate analysis, a user’s perspective, Clarendon Press,
Oxford.
Marbach, G. (1989), Previsioni e Misure di Efficienza Aziendale, NIS, Roma.
Mardia K.V., Kent J.V. and Bibby, J.M. (1994), Multivariate Analysis, Academic Press, Londra.
Mclachlan G.J (1992), Discriminant analysis and statistical Pattern Recognition, Wiley, New York.
Milligan, G.W., Cooper, M.C. (1985), An Examination of Procedures for Determining the Number of
Clusters in a Data Set, Psychometrika, pp. 159-179.
Murphy, B.J, Moran M.A. (1986), ‘Parametric and kernel density estimation in discriminant analysis:
another comparision’, Comput. Math. Applic. 12A .
Riani, M. (1997), Monitoraggio delle imprese in base ai bilanci: il caso delle aziende tessili del distretto
di Prato, Atti del convegno SIS: La statistica per le imprese, Torino.
Riani, M. e Zani, S. (1997), “An Iterative Procedure for the Detection of Multiple Outliers”, Metron.
Silverman, B.W. (1986), Density estimation for statistics and data analysis, Chapman and Hall, London.
Atkinson, A.C. and Riani, M. "Robust Diagnostic Regression Analysis, Springer Verlag, New York
(2000).
Harvey, A.C., Koopman, S.J, Riani, M. (1997) "The Modeling and Seasonal Adjustment of Weekly
Observations", Journal of Business and Economic Statistics, , pp. 354-368.
5
Riani, M. (1998) "Weights and Robustness of Model Based Seasonal Adjustment", Journal of
Forecasting, pp. 19-34.
Cerioli, A. and Riani, M. (1999) "The Ordering of Spatial Data and the Detection of Multiple Outliers",
Journal of Computational and Graphical Statistics, (1999), pp. 1-20.
6
7
Scarica