Misure di prossimità nell’analisi dei dati simbolici Proximity Measures in Symbolic Data Analysis Laura Bocci, Alfredo Rizzi Dipartimento di Statistica, Probabilità e Statistiche Applicate Università degli Studi di Roma “La Sapienza” [email protected] , [email protected] Abstract: The aim of this paper consists in showing the building of dissimilarity measures between boolean and probabilistic symbolic objects. The paper also presents a new approach to calculate the dissimilarity between probabilistic symbolic objects. Parole chiave: Boolean and probabilistic symbolic objects, dissimilarity measures. 1. Premessa Nell’analisi dei dati tradizionale ogni unità statistica (o oggetto) è caratterizzata da modalità quantitative di un certo numero di variabili e/o da “codici-etichetta” relativi a variabili qualitative. L’analisi dei dati simbolici analizza oggetti che contengono un tipo di informazione che non è possibile esprimere nell’ambito dell’analisi dei dati classica. Ad esempio ad alcuni oggetti simbolici si può associare a ciascun carattere la sua distribuzione di probabilità. Se un’unità statistica presenta le modalità di un carattere variabili secondo una distribuzione di probabilità, un valore di sintesi, quale ad esempio un percentile, fa perdere molta dell’informazione a disposizione. Gli oggetti simbolici sono tali perché descritti da espressioni che contengono operatori diversi da quelli usati per l’analisi dei dati classica. Un oggetto simbolico è definito come la descrizione simbolica (intensione), in base alle M variabili osservate Yi, di un insieme di oggetti che ne costituiscono l’estensione. In base al tipo di variabili a cui si fa riferimento e al metodo di calcolo dell’estensione si distinguono due grandi classi di oggetti simbolici: gli oggetti simbolici booleani e gli oggetti simbolici probabilistici. Un oggetto simbolico s , sia esso booleano o probabilistico, è un’asserzione qualora la sua descrizione in intensione consiste in una congiunzione di M eventi elementari (rispettivamente booleani o probabilistici), ognuno dei quali è associato ad una data variabile Yi. In particolare se l’evento elementare probabilistico è associato ad una variabile statistica continua esso può essere rappresentato come un istogramma, mentre se è associato ad una variabile statistica discreta o qualitativa sarà rappresentato come un diagramma. 2. Misure di prossimità nell’analisi dei dati simbolici Molte delle misure di dissimilarità tra oggetti simbolici, siano essi booleani o probabilistici, sono costituite da una funzione di aggregazione che sintetizza le misure di dissimilarità tra coppie ordinate di eventi elementari, associati alla medesima variabile, corrispondenti alle due asserzioni simboliche messe a confronto. La funzione di aggregazione è sempre ispirata alla misura di Minkowski, mentre per il confronto tra coppie di eventi elementari sono stati definiti diversi indici di dissimilarità (De Carvalho, 1994). Una proposta nel caso della valutazione della dissimilarità tra coppie di eventi booleani associati ad una variabile qualitativa è d e (ai , bi ) 1 p / r ,dove r è la più grande delle cardinalità degli insiemi dei due eventi e p sono le modalità comuni. Qualora si assuma 0,5 tale espressione è ottenibile dalla formula di Ichino e Yaguchi. Laddove la variabile associata ai due eventi da confrontare sia definita in intervalli, allora l’indice di dove (a ) e dissimilarità può essere d e (ai , bi ) 1 (ai ) (bi ) i 2 ( a b ) i i (bi ) sono le lunghezze degli intervalli degli eventi elementari ai e bi , rispettivamente, mentre (ai bi ) è la lunghezza del più piccolo intervallo che contiene i due intervalli considerati al numeratore. Il nuovo approccio per il calcolo della dissimilarità tra coppie ordinate di eventi elementari probabilistici consiste in una funzione di confronto che è il prodotto di due componenti, la seconda delle quali interviene solo quando la variabile, alla quale sono associati i due eventi elementari probabilistici a confronto, è quantitativa. La prima componente è basata sull’energia potenziale di ognuno dei due eventi elementari messi a confronto e sull’energia potenziale dei loro corrispondenti eventi elementari giunzione cartesiana probabilistica e congiunzione cartesiana probabilistica. La seconda componente è basata sulla distanza tra i valori medi degli scarti interquartilici dei due eventi a confronto e dunque tiene conto della posizione nel piano dei due istogrammi (o diagrammi) corrispondenti. L’indice così definito è un indice di dissimilarità che assume valori nell’intervallo [0, 1] e, nel caso di variabili quantitative, ci consente di valutare la dissimilarità tra eventi elementari probabilistici anche quando questi eventi non hanno “nulla in comune”. Ciò accade quando i supporti della distribuzione della variabile, in corrispondenza dei due eventi a confronto, sono disgiunti: in tal caso l’indice presentato si riduce alla sola seconda componente. Allora pur non avendo nulla in comune, la seconda componente dell’indice consente di calcolare la dissimilarità tra i due eventi fornendo la distanza tra le posizioni delle masse delle rispettive distribuzioni nello spazio cartesiano. Riferimenti bibliografici Bocci, L. (1999) A Dissimilarity Measure between Probabilistic Symbolic Objects, in: Book of Short Papers – CLADAG 99, 129-132. De Carvalho F.A.T. (1994) Proximity Coefficients between Boolean Symbolic Objects, in: New Approaches in Classification and Data Analysis, Diday, E. & Lechevallier, Y. & Schader, M. & Bertrand, P. & Burtschy, B. (Eds.), Springer Verlag, 387-394. Diday E.(1995) Probabilist, possibilist and belief objects for knowledge analysis, Annals of Operations Research, 55, 227-276. Rizzi A. (1998) Metriche nell'analisi dei dati simbolici, Statistica, 4, 577-588.