Misure di prossimità nell`analisi dei dati simbolici - UniFI

Misure di prossimità nell’analisi dei dati simbolici
Proximity Measures in Symbolic Data Analysis
Laura Bocci, Alfredo Rizzi
Dipartimento di Statistica, Probabilità e Statistiche Applicate
Università degli Studi di Roma “La Sapienza”
[email protected] , [email protected]
Abstract: The aim of this paper consists in showing the building of dissimilarity
measures between boolean and probabilistic symbolic objects. The paper also presents a
new approach to calculate the dissimilarity between probabilistic symbolic objects.
Parole chiave: Boolean and probabilistic symbolic objects, dissimilarity measures.
1. Premessa
Nell’analisi dei dati tradizionale ogni unità statistica (o oggetto) è caratterizzata da
modalità quantitative di un certo numero di variabili e/o da “codici-etichetta” relativi a
variabili qualitative.
L’analisi dei dati simbolici analizza oggetti che contengono un tipo di informazione che
non è possibile esprimere nell’ambito dell’analisi dei dati classica. Ad esempio ad
alcuni oggetti simbolici si può associare a ciascun carattere la sua distribuzione di
probabilità. Se un’unità statistica presenta le modalità di un carattere variabili secondo
una distribuzione di probabilità, un valore di sintesi, quale ad esempio un percentile, fa
perdere molta dell’informazione a disposizione.
Gli oggetti simbolici sono tali perché descritti da espressioni che contengono operatori
diversi da quelli usati per l’analisi dei dati classica. Un oggetto simbolico è definito
come la descrizione simbolica (intensione), in base alle M variabili osservate Yi, di un
insieme di oggetti che ne costituiscono l’estensione. In base al tipo di variabili a cui si fa
riferimento e al metodo di calcolo dell’estensione si distinguono due grandi classi di
oggetti simbolici: gli oggetti simbolici booleani e gli oggetti simbolici probabilistici.
Un oggetto simbolico s , sia esso booleano o probabilistico, è un’asserzione qualora la
sua descrizione in intensione consiste in una congiunzione di M eventi elementari
(rispettivamente booleani o probabilistici), ognuno dei quali è associato ad una data
variabile Yi. In particolare se l’evento elementare probabilistico è associato ad una
variabile statistica continua esso può essere rappresentato come un istogramma, mentre
se è associato ad una variabile statistica discreta o qualitativa sarà rappresentato come
un diagramma.
2. Misure di prossimità nell’analisi dei dati simbolici
Molte delle misure di dissimilarità tra oggetti simbolici, siano essi booleani o
probabilistici, sono costituite da una funzione di aggregazione che sintetizza le misure di
dissimilarità tra coppie ordinate di eventi elementari, associati alla medesima variabile,
corrispondenti alle due asserzioni simboliche messe a confronto. La funzione di
aggregazione è sempre ispirata alla misura di Minkowski, mentre per il confronto tra
coppie di eventi elementari sono stati definiti diversi indici di dissimilarità (De
Carvalho, 1994).
Una proposta nel caso della valutazione della dissimilarità tra coppie di eventi booleani
associati ad una variabile qualitativa è d e (ai , bi )  1  p / r ,dove r è la più grande delle
cardinalità degli insiemi dei due eventi e p sono le modalità comuni. Qualora si assuma
  0,5 tale espressione è ottenibile dalla formula di Ichino e Yaguchi. Laddove la
variabile associata ai due eventi da confrontare sia definita in intervalli, allora l’indice di
 dove  (a ) e
dissimilarità può essere d e (ai , bi )  1    (ai )   (bi )

i
2

(
a

b
)
i
i 

 (bi ) sono le lunghezze degli intervalli degli eventi elementari ai e bi ,
rispettivamente, mentre  (ai  bi ) è la lunghezza del più piccolo intervallo che
contiene i due intervalli considerati al numeratore.
Il nuovo approccio per il calcolo della dissimilarità tra coppie ordinate di eventi
elementari probabilistici consiste in una funzione di confronto che è il prodotto di due
componenti, la seconda delle quali interviene solo quando la variabile, alla quale sono
associati i due eventi elementari probabilistici a confronto, è quantitativa. La prima
componente è basata sull’energia potenziale di ognuno dei due eventi elementari messi a
confronto e sull’energia potenziale dei loro corrispondenti eventi elementari giunzione
cartesiana probabilistica e congiunzione cartesiana probabilistica. La seconda
componente è basata sulla distanza tra i valori medi degli scarti interquartilici dei due
eventi a confronto e dunque tiene conto della posizione nel piano dei due istogrammi (o
diagrammi) corrispondenti. L’indice così definito è un indice di dissimilarità che assume
valori nell’intervallo [0, 1] e, nel caso di variabili quantitative, ci consente di valutare la
dissimilarità tra eventi elementari probabilistici anche quando questi eventi non hanno
“nulla in comune”. Ciò accade quando i supporti della distribuzione della variabile, in
corrispondenza dei due eventi a confronto, sono disgiunti: in tal caso l’indice presentato
si riduce alla sola seconda componente. Allora pur non avendo nulla in comune, la
seconda componente dell’indice consente di calcolare la dissimilarità tra i due eventi
fornendo la distanza tra le posizioni delle masse delle rispettive distribuzioni nello
spazio cartesiano.
Riferimenti bibliografici
Bocci, L. (1999) A Dissimilarity Measure between Probabilistic Symbolic Objects, in:
Book of Short Papers – CLADAG 99, 129-132.
De Carvalho F.A.T. (1994) Proximity Coefficients between Boolean Symbolic Objects,
in: New Approaches in Classification and Data Analysis, Diday, E. & Lechevallier,
Y. & Schader, M. & Bertrand, P. & Burtschy, B. (Eds.), Springer Verlag, 387-394.
Diday E.(1995) Probabilist, possibilist and belief objects for knowledge analysis, Annals
of Operations Research, 55, 227-276.
Rizzi A. (1998) Metriche nell'analisi dei dati simbolici, Statistica, 4, 577-588.