1
lo stimatore
nearest
neighbour
kernel (con kernel uniforme)
del tipo ( x  dk ( x ), x  dk ( x ))
fissa il valore di h e conta
e avrà ampiezza 2 d k ( x ) e la
quante
stima della densità in x avrà
l’espressione:
uguale ad h.
Lo stimatore k-nearest
è
hanno
una distanza da x minore o
Lo
neighbour
osservazioni
strettamente
stimatore
k-nearest
f ( x ) 
neighbour invece si basa sul
k
.
n2 d k ( x )
procedimento inverso: si fissa
legato allo stimatore kernel.
il numero k e si considerano
In
Nel caso di una sola variabile
le k osservazioni più vicine al
l’intervallo attorno al punto x
si è visto come la stima della
punto x in cui si vuole
non avrà ampiezza fissa ma
funzione di densità in un
calcolare
di
varierà al variare di x in modo
punto
dalla
densità; l’intervallo attorno al
tale da contenere esattamente
proporzione di osservazioni
punto x viene definito allora
k osservazioni (quelle più
che cadono all’interno
considerando la distanza tra il
vicine ad x).
dell’intervallo di ampiezza 2h
punto x e il k-esimo punto xi
Nello
centrato
più vicino a x.
neighbour
Per chiarire meglio il concetto
svolge lo stesso ruolo del
supponiamo
k.
parametro h nello stimatore
Calcoliamo poi le distanze tra
kernel, da cui dipende il grado
ciascun punto
delle n
di irregolarità della funzione
osservazioni e il punto x;
di densità stimata: grandi
in cui K (u)  1 se |u| h e
indichiamo queste distanze
valori di k producono una
K (u)  0 se |u| h
con
le
funzione di densità stimata
uniforme) è equivalente alla
distanze in ordine crescente,
molto liscia e piuttosto piatta
espressione:
dalla più piccola alla più
mentre piccoli valori di k
grande, solamente le prime k
producono
distanze vengono considerate,
molto irregolare.
che individuano i primi k
Come per lo stimatore kernel,
dove k è proprio in numero di
punti più vicini a x. Se
il passaggio dal caso di una
osservazioni xi
indichiamo
xi
x
è
in
data
x,
lunghezza
diviso
la
dell’intervallo
stesso. Infatti l’espressione:
f ( x ) 
1 n
 K (x  xi )
n2h i 1
f ( x ) 
(kernel
k
n2h
che
la
funzione
di
d ( x , xi ) .
con
fissare
xi
Ordinate
dk (x )
questo
caso
stimatore
il
quindi
k-nearest
parametro
una
k
funzione
la
sola variabile al caso di due o
appartengono
all’intervallo
distanza da x del k-esimo
più variabili è abbastanza
( x  h, x  h)
di lunghezza
punto xi più vicino a x allora
semplice.
2h. In pratica lo stimatore
l’intervallo centrato in x sarà
1
d 2 (x, xi )  (xi  x) S 1 (xi  x)
Quando si lavora con più di
dove
una variabile la cella costruita
dell’ellissoide
attorno al punto x non è più
attorno al punto x.
un
un
Occorre però decidere come
Altre
segmento di retta) ma una
devono essere calcolate le
possono essere utilizzate, per
regione
spazio
distanze tra punti in uno
esempio ponendo V uguale
(ellissoide) centrata nel punto
spazio a più dimensioni, cioè
alla matrice diagonale delle
x: questa regione è definita
occorre definire una “metrica”
varianze
come l’insieme dei punti dello
nello spazio dei punti x.
ciascuna
spazio z tali che la loro
L’espressione generale della
matrice
distanza da x sia minore di un
distanza tra due punti x e z è
corrisponde
certo valore r.
data dalla formula:
euclidea).
intervallo
(cioè
dello
è il volume
vk ( x )
costruito
d 2 (x, z)  ( z  x) V 1 ( z  x)
punto più vicino a x e
l’ellissoide attorno ad x è
costituito allora da tutti quei
punti
z
tali
che
d 2 (x, z)  dk2 (x) dove dk2 (x)
dove
è una matrice
quadrata simmetrica di ordine
p che definisce la metrica
dello spazio.
utilizzata quando si lavora
distanza tra x e la k-esima
osservazioni x i relative a p
spazio
delle
variabili è la matrice di
Esattamente k osservazioni x i
varianza e covarianza stimata
apparterranno
questa
S e la distanza che ne deriva
regione, per come questa è
viene indicata in letteratura
stata definita, e la stima della
come
densità nel punto x sarà data
allora dalla formula:
k
f ( x) 
nvk ( x)
o
identità
alla
(che
alla
metrica
particolare osservazione sulla
distanza
di
Mahalanobis; le distanze tra
il
punto
osservazione
allora:
quindi
stimando
separatamente le funzioni di
densità nei due gruppi e
applicando
La matrice V generalmente
nello
a
variabile
di
training set si può procedere
V 1
è proprio il quadrato della
osservazione più vicina a x.
campionarie
base delle osservazioni del
r viene preso uguale alla
distanza tra x e il k-esimo
tuttavia
Per la classificazione di una
Nel caso dello stimatore knearest neighbour, fissato k,
metriche
x
e
xi
ciascuna
diventano
regole
introdotte
poi
di
una
delle
classificazione
precedentemente.
In questo caso possono essere
utilizzate
due
metriche
diverse nei due gruppi per il
calcolo delle distanze; per
esempio V potrà essere la
matrice
di
varianza
e
covarianza di gruppo.
Fissato k, il metodo trova la
distanza tra x e la k-esima
osservazione del training set
più vicina ad x secondo la
metrica
Sj 1
(nel
j-esimo
2
gruppo)
e
costruisce
gli
confronto tra le densità o tra
parametri h e k degli stimatori
ellissoidi attorno a x dati dai
le probabilità a posteriori. Ciò
kernel e k-nearest neighbour
punti
che è rilevante è invece la
nella stima delle funzioni di
k j / n j di
d 2 (x, z)  ( z  x) Sj 1 ( z  x)  d jk2 (x)proporzione
. Se indichiamo con k j in
osservazioni del gruppo j che
densità del vettore x nelle due
numero di osservazioni del
appartengono all’ellissoide; in
e k producono una funzione
gruppo
particolare se si assume che le
appiattita
all’interno dell’ellissoide (in
probabilità
siano
funzione di densità in ciascun
ciascun gruppo) la densità
uguali, l’osservazione x viene
punto non è corretta) mentre
stimata di x per il gruppo j è:
assegnata al gruppo per il
piccoli valori degli
quale
parametri danno luogo ad una
z
tali
j
che
f ( x| j ) 
che
cadono
kj
n j v jk ( x )
a
è
priori
maggiore
la
proporzione k j / n j . Se anche
dove n j è la numerosità del
le numerosità dei due gruppi
gruppo j-esimo e v jk ( x ) è il
sono uguali, x sarà assegnato
volume
al gruppo per il quale è
dell’ellissoide
maggiore
corrispondente.
Tuttavia la scelta di un’unica
metrica nei due gruppi, nel
caso specifico la matrice di
varianza
e
complessiva
covarianza
stimata
dalle
osservazioni di entrambi i
gruppi,
classificazione ed elimina la
necessità della stima delle
funzioni di densità di gruppo.
questo
numero
osservazioni
di
che
appartengono all’ellissoide.
Infine se si pone k = 1 allora x
sarà assegnato al gruppo a cui
appartiene l’osservazione con
caso
infatti
indipendente
dall’appartenenza
delle
molto
della
stessi
irregolare
(con una distorsione minore
ma
con
una
variabilità
abbastanza elevata). La scelta
di questi parametri è quindi
cruciale
per
ottenere
una
buona stima della funzione di
densità.
Diversi metodi sono stati
proposti in letteratura (per una
Hand,
1982). Molti di questi metodi
2
Appendice D:
Scelta dei
parametri di
smoothing nella
discriminante
non parametrica
si basano sull’ottimizzazione
di una funzione obiettivo che
coinvolge la differenza tra la
funzione di densità stimata e
quella vera: in questo caso h
e k vengono scelti in modo da
ogni gruppo e il suo volume è
costante
stima
Silverman, 1986 e
l’ellissoide è lo stesso per
una
funzione
(la
rassegna si vedano i lavori di
distanza minima da x.
semplifica
notevolmente la procedura di
In
il
popolazioni: grandi valori di h
ottimizzare una misura di
Nelle
precedenti
appendici
abbiamo
osservazioni ad uno dei due
sottolineato
il
gruppi e quindi ininfluente nel
fondamentale
svolto
ruolo
adattamento delle stime delle
densità di gruppo alle vere
distribuzioni
(o
ad
una
dai
3
qualche
approssimazione
alcune obiezioni concrete per
sarà più indicato scegliere i
calcolabile di queste).
il suo uso, cfr. Hand, 1982) .
parametri di smoothing in
Nell’analisi
discriminante
In questo caso la stima delle
maniera da ottimizzare la
tuttavia l’obiettivo principale
funzioni di densità di gruppo
stima delle densità di gruppo
è quello di minimizzare il
è
(per una discussione sulla
tasso
della
intermedio mentre l’obiettivo
scelta
classificazione della regola
finale è quello di ottenere una
ottimizzazione
utilizzata. Poiché, da ciò che
buona classificazione (anche
1982) .
si è detto precedentemente, la
se
migliori
In questo analisi abbiamo
funzione
saranno le stime delle densità
deciso di scegliere i valori di
di gruppo migliore sarà la
h
parametri di smoothing, un
classificazione).
minimizzare il tasso di errore:
approccio
appropriato
situazioni per esempio anche
stimato
quello
di
stime della densità non molto
discriminante
del
sofisticate possono dare una
nearest-neighbour)
parametro di smoothing che
buona
se
diversi valori di h e k viene
minimizza il tasso di errore
tuttavia si è interessati anche
scelto quello che ottiene il
(benché in alcune circostanze
ad ottenere stime accurate
tasso di errore più basso.
possano
delle probabilità a posteriori
di
diventa
sembra
scegliere
errore
discriminante
funzione
più
essere
il
valore
essere
dei
avanzate
solamente
un
obiettivo
ovviamente
In
classificazione;
certe
e
del
k
criterio
in
cfr.
di
Hand,
maniera
il
da
modello
(kernel
e
per
4
3
Bibliografia
Alberici, A. (1975), Analisi dei bilanci e previsioni delle insolvenze, Isedi, Milano.
Altman, E. (1993), Corporate Financial Distress and Bankruptcy, 2nd ed., Wiley, New York.
Altman, E.I., Eom, Y.H., Kim, D.W. (1994), ‘Distress classification of Korean firms’, Working Paper
Series S-94-6, New York University Salomon Center.
Atkinson, A.C. and Riani, M. "Robust Diagnostic Regression Analysis, Springer Verlag, New York
(2000).
Atkinson, A.C. e Riani, M (1997), Bivariate Boxplots, Multiple Outliers, Multivariate transformations
and Discriminant Analysis: the 1997 Hunter Lecture, Environmetrics, 8.
Balestri,
Cerioli, A. and Riani, M. (1999) "The Ordering of Spatial Data and the Detection of Multiple Outliers",
Journal of Computational and Graphical Statistics, (1999), pp. 1-20.
Forster, G. (1986), Financial Statement Analysis, 2nd ed., Prentice Hall, New York.
Hand, D.J. (1981), Discrimination and classification, Wiley, New York.
Hand, D.J. (1982), Kernel discriminant analysis, Research Studies Press.
Hartigan, J.A. (1975), Clustering Algorithms, Wiley, New York.
Harvey, A.C., Koopman, S.J, Riani, M. (1997) "The Modeling and Seasonal Adjustment of Weekly
Observations", Journal of Business and Economic Statistics, , pp. 354-368.
Huberty, C.J. (1994), Applied discriminant analysis, Wiley, New York.
Jollife, I.T. (1986), Principal Component Analysis, Springer Verlag, New York.
Krzanowski, W.J. (1988), Principle of multivariate analysis, a user’s perspective, Clarendon Press,
Oxford.
Marbach, G. (1989), Previsioni e Misure di Efficienza Aziendale, NIS, Roma.
Mardia K.V., Kent J.V. and Bibby, J.M. (1994), Multivariate Analysis, Academic Press, Londra.
Mclachlan G.J (1992), Discriminant analysis and statistical Pattern Recognition, Wiley, New York.
Milligan, G.W., Cooper, M.C. (1985), An Examination of Procedures for Determining the Number of
Clusters in a Data Set, Psychometrika, pp. 159-179.
Murphy, B.J, Moran M.A. (1986), ‘Parametric and kernel density estimation in discriminant analysis:
another comparision’, Comput. Math. Applic. 12A .
Riani, M. (1997), Monitoraggio delle imprese in base ai bilanci: il caso delle aziende tessili del distretto
di Prato, Atti del convegno SIS: La statistica per le imprese, Torino.
5
Riani, M. (1998) "Weights and Robustness of Model Based Seasonal Adjustment", Journal of
Forecasting, pp. 19-34.
Riani, M. e Zani, S. (1997), “An Iterative Procedure for the Detection of Multiple Outliers”, Metron.
Silverman, B.W. (1986), Density estimation for statistics and data analysis, Chapman and Hall, London.
6
7