2016 SEMEION CENTRO RICERCHE DI SCIENZE DELLA COMUNICAZIONE Massimo Buscema e Giulia Massini Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione Tutti i diritti riservati Introduzione Teorica al Data Mining Intelligente 1.0 Data Mining: informazioni palesi e nascoste L’obiettivo principale del Data Mining consiste nell’estrarre da una base di dati il maggior numero di informazioni significative rispetto ad uno o più obiettivi. Per “informazioni” si intendono le associazioni tra attributi e/o tra entità della base di dati. Per “informazioni significative” si intendono sia le associazioni “palesi”, che quelle “nascoste”, in grado di tracciare il profilo completo della base di dati analizzata. Per informazioni palesi si intendono le associazioni lineari tra attributi e/o tra entità osservate. Tali associazioni, dette correlazioni, sono rilevabili anche tramite strumenti di statistica lineare. Per informazioni nascoste si intendono le associazioni non lineari tra attributi e/o entità osservate. Queste ultime possono essere definite Associazioni Metastabili: È il caso di una variabile che non è correlata in modo significativo con ogni altra e/o con tutte le altre nel loro insieme. La bassa correlazione di quella variabile con le altre rappresenta quindi un segnale “debole”. Tuttavia, quando le altre variabili presentano certi valori, la variabile in questione, entro uno specifico intervallo di valori, è decisiva nel proiettare l’intero record (entità) in una regione dello spazio, mentre quando le altre variabili assumono altri valori, la stessa variabile è decisiva, entro lo stesso intervallo di valori, nel proiettare il record in una regione dello spazio opposta. Questi segnali nascosti in quanto deboli e linearmente non significativi si sono dimostrati fondamentali nel disegnare il futuro prossimo della base di dati esaminata. Informazioni di questo tipo sono invisibili agli algoritmi di statistica lineare1. 1.1 Un esempio di informazioni nascoste Immaginiamo una base dati composta da 815 aziende con 34.673 polizze (si precisa che con il termine polizza, in questo lavoro, si intende la posizione assistita da FASCHIM e non il contratto di assicurazione) e 403.454 pratiche di rimborso, catalogate con 8 attributi: a. Numero delle polizze per azienda; b. Numero delle polizze attive; c. Numero medio delle pratiche per azienda a carico dell’intestatario della polizza; d. Numero medio delle pratiche per azienda a carico del coniuge o del convivente; e. Numero medio delle pratiche per azienda a carico dei figli; f. Numero medio delle pratiche con importi compresi tra i 1000 e i 5000 euro; g. Numero medio delle pratiche con ticket; h. Numero medio delle pratiche di prevenzione. La Tabella 1 mostra la correlazione lineare di ogni variabile con ogni altra in tutta la base di dati. Da questa tabella si comprende che le prime quattro variabili sono molto correlate tra di loro, mentre le ultime quattro sono non correlate nè con le prime quattro nè tra di loro. L’ analisi in componenti principali (PCA) fornisce una più approfondita conferma a quanto mostrato: le prime due componenti lineari spiegano oltre il 53% della base dati e le variabili significative sono solo due (vedi Tabella 2). La Figura 1 mostra in una mappa le otto variabili analizzate secondo le prime due componenti principali. 1 M. Buscema M., E Grossi, L Montanini, M E Street, Data Mining of Determinants of Intrauterine Growth Retardation Revisited Using Novel Algorithms Generating Semantic Maps and Prototypical Discriminating Variable Profiles, PLoS ONE 10(7): June 9 (2015) e0126020. doi:10.1371/journal. Buscema M., Grossi E., Snowdon D., Antuono P., Auto‐Contractive Maps: an Artificial Adaptive System for Data Mining. An Application to Alzheimer Disease, in Current Alzheimer Research, 2008, 5, 481‐498. Buscema M., Grossi E., The Semantic Connectivity Map: an adapting self‐organizing knowledge discovery method in data bases. Experience in Gastro‐oesophageal reflux disease, Int. J. Data Mining and Bioinformatics, Vol. 2, No. 4, 2008. Enzo Grossi, Giorgio Tavano Blessi, Pier Luigi Sacco, Massimo Buscema, The Interaction Between Culture, Health and Psychological Well‐Being: Data Mining from the Italian Culture and Well‐Being Project, J Happiness Studies, Springer, 2011. F Drenos, E Grossi, M Buscema, S E Humphries, Networks in Coronary Heart Disease Genetics As a Step towards Systems Epidemiology, PLoS ONE 10(5): May 7 (2015). e0125876. doi:10.1371/journal.pone.0125876. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 2 ‐ Introduzione Teorica al Data Mining Intelligente Tabella 1: Correlazione Lineare a coppie tra le variabili esaminate. In rosso le correlazioni lineari significative. Tabella 2: prime due componenti della PCA. Più i valori sono diversi da 0 ( ‐1<=x<=1) più la variabile è esplicativa. Figura 1: Le prime due componenti lineari della PCA. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 3 ‐ Introduzione Teorica al Data Mining Intelligente Tuttavia, un’analisi effettuata con algoritmi di apprendimento non lineare mostrano una situazione completamente diversa: la Figura 2 evidenzia che se la variabile “Numero di Polizze viene impostata al suo massimo valore, in fase iniziale vengono richiamate due variabili non significative per l’analisi lineare (“Numero di pratiche a nome dell’Intestatario” e “Numero di Pratiche legate ad una polizza Attiva”), mentre in un secondo momento (dopo oltre 200 cicli di richiamo) si attivano in modo significativo altre tre variabili di cui una sola ritenuta significativa per l’analisi lineare (Pratiche intestate al “Coniuge”). La Figura 2, in breve, dimostra che la variabile “Polizza” è non linearmente connessa con variabili deboli (“Intestatario” e “Attivo”), le quali poi attivano altre variabili deboli (tra cui “Prestazione 1000‐5000” e “Figlio”, etc.), ritenute “rumore” per una analisi lineare. In questo caso le due variabili deboli “Intestatario” e “Attivo” si comportano come due variabili metastabili: quando le variabili “Polizza” è attiva, allora associano a quest’ultima altre variabili che ad un’analisi superficiale non sarebbero a questa connesse. La Figura 3 mostra il comportamento di una Rete Neurale particolare (Artificial Associative Memory 2) mentre esplora le connessioni tra la variabile “Polizza” e le altre: sulla ascissa il tempo virtuale del lavoro della Rete Neurale e sulle ordinate la velocità con cui la Rete reagisce alle connessioni con le altre variabili. Si può chiaramente vedere che solo dopo 225 cicli interni di esplorazione la Rete Neurale trova di colpo delle connessioni significative che erano rimaste nascoste fino a quel momento. Figura 2: Comportamento di una Rete Neurale particolare (Artificial Associative Memory) durante la sua esplorazione dello spazio delle fasi di tutte le variabili, a partire dalla attivazione vincolate della variabile “Polizza”. 2 M. Buscema, W. Tastle, Artificial Neural Network What‐If Theory, 52 International Journal of Information Systems and Social Change, 6(4), 52‐81, October‐December 2015. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 4 ‐ Introduzione Teorica al Data Mining Intelligente Figure 3: Dinamica della esplorazione di una Rete Neurale Artificiale dello spazio delle fasi di tutte le variabili. x= tempo virtuale di esplorazione; y= velocità di reazione delle Rete Neurale. 2.0 Basi di dati supervisionate e non supervisionate. Le variabili di una base di data possono essere viste sia come variabili dipendenti che indipendenti, a seconda degli obiettivi dell’analisi: le variabili dipendenti sono quelle di cui si vuole capire come possono essere approssimate utilizzando le variabili indipendenti. In questo caso il problema da risolvere si dice “supervisionato” e si procede nel modo seguente: si parte da un data set in cui tutte le variabili abbiamo una specifica valorizzazione (nessun dato mancante) e si divide casualmente più volte l’intero data set in K sotto campioni (generalmente K=2, oppure K=10 se il data set è molto numeroso). Immaginiamo, per comodità di ragionamento, delle divisioni casuali in 2 sotto‐campioni. Si sceglie, quindi, un classificatore (un algoritmo semplice o complesso) e lo si “addestra” su uno dei due sotto campioni perché impari ad associare le variabili indipendenti alle variabili dipendenti. Ad addestramento effettuato, si valida in cieco il classificatore addestrato sul secondo sotto‐ campione, in modo tale che, stimi la classe delle variabili dipendenti a cui ogni record appartiene, sapendo solo i valori delle variabili indipendenti. Infine, si calcola la correttezza della classificazione con opportune funzioni di costo. Tale procedura si ripete con un nuovo classificatore, invertendo i sotto‐campioni, ed, infine, l’intero protocollo si riapplica per ogni coppia di sotto‐campioni causali appositamente generati (vedi Figura 4). In questo modo tutti i classificatori addestrati e testati mostreranno una specifica affidabilità (media) nel predire le variabili dipendenti scelte, e quindi si potrà decidere se utilizzarli o meno per stimare nuovi casi di cui la variabile dipendente non è nota a priori. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 5 ‐ Introduzione Teorica al Data Mining Intelligente Figura 4: possibile protocollo di validazione per un problema supervisionato. Questa procedura è valida, consistente e robusta quando in una base di dati si hanno delle variabili che rappresentano il ”gold standard” dell’analisi; ad esempio: ho un data set dove le variabili indipendenti rappresentano i diversi tratti morfologici di un tessuto polmonare e di ogni tessuto in questione possiedo il risultato della biopsia che classifica in modo quasi certo se ogni tessuto è tumorale o no. In questo caso addestrare un classificatore per stimare la presenza o assenza di forme tumorali in ogni tessuto, evitando di eseguire ogni volta la biopsia può essere vantaggioso. Ma in casi di questo genere la variabile dipendente (esito della biopsia) è “garantita”. In caso contrario il sistema di classificazione potrebbe apprendere delle sciocchezze e propagarle in fase di predizione, con danni ingenti. Esistono, però, anche casi (e sono la maggioranza) nei quali non è possibile individuare neanche una variabile dipendente di interesse. Basi di dati nelle quali non esistono variabili che funzionino da “gold standard”. Un caso classico è costituito dal ritmo delle spese in carico a delle carte di credito: non esiste un solo modo di usare una carta di credito per capire se quella carta è utilizzata dal proprietario e da un truffatore. Lo stesso proprietario può utilizzare in modo diverso la sua carta di credito a seconda dei giorni, dei mesi, degli anni e delle occasioni contingenti che si trova ad affrontare. In casi del genere il problema risulta “non supervisionato”, e l’obiettivo più ragionevole a cui si può tendere consiste nel raggruppare i vari record della base di dati secondo la loro similarità. Esistono molti algoritmi per eseguire una clusterizzazione dei dati: algoritmi lineari classici come la Principal Component Analysis (PCA)3 e non lineari come alcune reti neurali, quali le Self Organizing Map (SOM)4, le New Recirculation Neural Networks5 e le Auto Contractive Map (Auto CM)6. Nel caso di sistemi lineari come la PCA la funzione obiettivo dell’algoritmo consiste del definire le coordinate 3 Abdi H & Williams L J (2010). "Principal component analysis.“, Wiley Interdisciplinary Reviews: Computational Statistics, 2: 433–459. 4 T. Kohonen, (1195). Self‐organizing maps .Springer‐Verlag. Heidelberg, 1995. 5 Buscema M (1998). Recirculation neural networks. Substance use and misuse vol. 33 (2): 383‐388. 6 Massimo Buscema and Pier L. Sacco (2010). Auto‐contractive Maps, the H Function, and the Maximally Regular Graph (MRG): A New Methodology for Data Mining, in V. Capecchi et al. (eds.), Applications of Mathematics in Models, Artificial Neural Networks and Arts, Chapter 11, Springer , 2010. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 6 ‐ Introduzione Teorica al Data Mining Intelligente dell’iperpiano ottimo che massimizza la varianza tra i record. L’effetto di questa ottimizzazione consiste nella definizione di nuove variabili che raggruppano i record stessi per similarità. I limiti di tali tecniche sono insite nella loro natura lineare. Dal punto di vista dell’interpolazione lineare, infatti, la costa frastagliata della Norvegia apparirebbe una successione di linee rette. Buon sistema forse per approssimare la forma generale la Norvegia, ma pessimo sistema per rappresentarne la mappa per chi deve navigare dentro i fiordi. I sistemi non lineari, invece, tentano di approssimare l’intera iper‐superficie del data set, in modo tale che ogni record sia un (iper) punto di una superficie continua che può avere una curvatura variabile. Iper‐ superficie che rappresenta tutto il paesaggio energetico sul quale giacciono tutti i record definiti dalle variabili del data set(vedi per esemplificazione Figure 5a,b,c). Queste specificità rendono gli algoritmi non supervisionati e non lineari basati su reti neurali dei potenti strumenti per diversi obiettivi: a. Ricostruire i parametri di come ogni variabile interagisce con tutte le altre (many‐to‐many) in modo piuttosto preciso, e senza le semplificazioni spesso aberranti generate dagli algoritmi lineari classici. b. Estrarre, quindi, dai dati stessi informazioni nascoste nelle intricate associazioni tra variabili; c. Simulare dinamicamente scenari che rappresentano mondi possibili compatibili con il data set di partenza: si può in breve simulare i casi in cui se alcune variabili assumessero certi valori, imposti dal ricercatore, con quali altri valori allora reagirebbero le altre e su quali valori finali il loro processo di interazione si stabilizzerebbe. Questi algoritmi sono peraltro sottoposti a test di ricostruzione in cieco, per definirne l’affidabilità’. Test di ricostruzione nei quali gli algoritmi non supervisionati lineari non possono nemmeno essere sottoposti (vedi Figure 6a‐6f). Figure 5°. Un piano 2d (viola) ed una superficie (rosso) 2d immersi in uno spazio 3d. Solo il record che avesse coordinate nel loro punto di tangenza (freccia) avrebbe variabili con gli stessi valori. Tutti gli altri record di uguale ascissa avrebbero ordinate molto diverse. Figure 5b. Un piano 2d (griglia azzurra) e una superficie 2d (griglia grigia) in uno spazio 3d: tutti i record giacenti sul piano avrebbero coordinate notevolmente diverse sulla superficie. In breve, queste due rappresentazioni attribuiscono allo stesso data set due “impronte digitali diverse”. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 7 ‐ Introduzione Teorica al Data Mining Intelligente Figura 5c. Superficie 2d immersa in uno spazio 3d: qualsiasi piano con qualsiasi inclinazione rappresenterebbe i punti della superficie con un’approssimazione inaccettabile. Figure 6a‐6f. Una Rete Neurale non supervisionata (Re‐Entry New Recirculation), addestrata su delle immagini alfanumeriche, tenta in fase di Test di ricostruire i caratteri a partire da immagini rumorose e completamente corrotte. In rosso l’input rumoroso, in giallo la ricostruzione. 2.1 Confronto tra una Rete Neurale AutoCM e una PCA Prendiamo un data set che rappresenta 36 caratteri alfanumerici in una matrice binaria 7x7 (vedi Figura 7). Il problema che si affronta in questo esempio consiste nel confrontare la diversa capacità di due algoritmi, uno lineare (PCA) ed uno altamente non lineare (AutoCM), nell’individuare le similarità tra i diversi caratteri sulla base solo della loro forma. Ognuno dei due algoritmi, alla fine del loro addestramento, genererà una matrice quadrata di parametri, nella quale ad ogni incrocio riga‐colonna l’algoritmo in prova avrà stabilito con dei suoi criteri la forza di associazione tra ogni coppia di caratteri (Vedi Figura 8a e 8b). Per verificare la diversa bontà dei parametri dei due algoritmi ogni matrice verrà filtrata tramite il Minimum Spanning Tree (MST), un tipo di grafo aciclico che evidenzia la struttura fondamentale di ciascuna delle due matrici. La semplice visualizzazione comparativa dei grafi di ciascun algoritmo permetterà di capire la loro diversa efficacia. Inoltre, un indice chiamato MST Similarity Index7 misurerà la quantità di similarità individuate nel grafo di ciascun algoritmo. La matematica di questo indice è piuttosto complessa, ma si può dire che meno sono le deformazioni che è necessario effettuare per passare da un nodo all’altro del grafo, più l’indice delle similarità’ rinvenute nel grafo dell’algoritmo analizzato tende a crescere. 7 P.M. Buscema, L. Gitto, S. Russo, A. Marcellusi, F. Fiori, G. Maurelli, G. Massini, F.S. Mennini, The perception of corruption in health: AutoCM methods for an international comparison, in submission, 2015. M Buscema, PL Sacco, MST Fitness and implicit data narratives: A comparative test on alternative unsupervised algorithms, in submission, 2015. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 8 ‐ Introduzione Teorica al Data Mining Intelligente Figura 7: Data set di 36 caratteri alfanumerici, disegnati su una matrice binaria 7x7. I due grafi in Figura 9a e 9b mostrano i prodotti dei due algoritmi sul data set dei 36 caratteri alfanumerici. Le zone in ciascun grafo cerchiate evidenziano le similarità molto dubbie che sono individuabili anche a vista. Si tratta delle zone in cui sembra evidente che l’algoritmo abbia lavorato in modo poco consistente. L’analisi visiva dei risultati dei due algoritmi mostra l’estrema precisione della rete neurale AutoCM rispetto alla ricostruzione grossolana ed imprecisa dell’algoritmo lineare PCA. Inoltre, la Figura 10 mostra la differenza di capacità tra i due algoritmi dal punto di vista quantitativo: di tutte le similarità presenti all’interno del data set dei caratteri, l’algoritmo AutoCM ne individua nel suo grafo il 95%, mentre l’algoritmo PCA solo il 52%. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 9 ‐ Introduzione Teorica al Data Mining Intelligente Figura 8a: Matrice dei parametri tra i 39 Patterns generata dalla Principal Components Analysis. Figura 8b: Matrice dei parametri tra i 39 patterns generata dalla Rete Neurale AutoCM. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 10 ‐ Introduzione Teorica al Data Mining Intelligente Figura 9a: MST generato dalla matrice dei parametri dell’algoritmo lineare PCA. Con dei cerchi sono evidenziate le molte associazioni che anche ad occhio nudo sembrano forzate. Figura 9b: MST generato dalla matrice dei parametri dell’algoritmo AutoCM. Con dei cerchi sono evidenziate le poche associazioni che anche ad occhio nudo sembrano forzate. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 11 ‐ Introduzione Teorica al Data Mining Intelligente Figura 10: MST Similarity Index dei grafi generati dai parametri dei due algoritmi nell’analisi del data set dei 36 caratteri alfanumerici. L’algoritmo AutoCM codifica nel suo grafo quasi il doppio in percentuale delle similarità totali presenti nell’intero data set, rispetto alla percentuale di quelle individuate dall’algoritmo lineare PCA. 3.0 Reti Neurali Non supervisionate e Appropriatezza. I record che vengono appresi da una rete neurale non supervisionata come la Self Organizing Map (SOM) non appartengono a classi e/o gruppi predefiniti. Sarà l’algoritmo stesso a aggregarli dinamicamente in gruppi a seconda delle loro caratteristiche globali, mentre apprende la specifica struttura di ciascun record. Al termine di tale clustering dinamico, ogni record verrà inserito in gruppi sfumati di densità variabile (con più o meno record). Quindi, potrà accadere che alcuni gruppi siano più popolosi di altri. Naturalmente, i gruppi più densamente popolati rappresentano record più proto‐tipici dell’intero data set. Tuttavia, tutti i gruppi che l’algoritmo ha generato, molto o poco densi che siano, avranno ciascuno i loro prototipi. Questo significa che tra i gruppi prodotti dall’algoritmo esisteranno prototipi più rappresentativi dell’intero data set, e prototipi meno rappresentativi. Anche i prototipi meno rappresentativi, comunque, potranno contenere al loro interno record più simili e più distanti dal prototipo del loro gruppo. Queste considerazioni permettono di definire due nuovi concetti: a. Gruppo prototipico o gruppo atipico all’interno del dato set; b. Record prototipico del suo gruppo o record atipico rispetto a tutti i gruppi. Definiamo di conseguenza un record inappropriato quando questo risulta atipico rispetto a tutti i gruppi che l’algoritmo ha generato durante l’apprendimento dell’intero data set (sia se è atipico rispetto ad un gruppo proto‐tipico sia rispetto ad un gruppo atipico). In altre parole, un record è inappropriato quando una rete neurale non supervisionata non riesce ha inserirlo in modo convincente in nessuno dei gruppi che la rete stessa ha generato durante la fase di apprendimento del data set. I gruppi atipici e i record inappropriati rappresentano dei punti di interesse e di allerta per qualsiasi ricercatore. Essi assumono significati particolari a seconda degli obiettivi dell’analisi e della natura delle variabili del data set, ma in tutti i casi sono dei casi salienti (vedi Figura 11). _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 12 ‐ Introduzione Teorica al Data Mining Intelligente Figura 11: Analisi di un data set tramite una Rete Neurale SOM e generazione di una mappa di 100 (10x10) gruppi di similarità tra i record (grandezza del cerchio = numero dei record in quel gruppo) 3.1 Esempio di generazione di prototipi tramite una SOM. Immaginiamo un data set di 1500 caratteri numerici, dallo “0” al “9”, scritti a mano libera e digitalizzati in un box binario 16x16. In questo data set esisteranno circa 150 disegni (occorrenze) di ognuno dei 10 caratteri numerici (tipi). È facile constatare che per ogni tipo di carattere alcune occorrenze risulteranno molto tipiche altre così insolite da confondersi anche a vista con altri tipi di carattere (vedi Figura 12). Figura 12: alcuni esempi di realizzazione a mano di caratteri numerici estratti da un data set di 1500 occorrenze. Una SOM, dopo un veloce addestramento non supervisionato, proietterà tutti i 1500 caratteri su una sua matrice bidimensionale di 16 righe e 16 colonne (30x30), generando quindi 256 codebook o prototipi. La Figura 13 mostra i 256 codebook della SOM dopo la fase di addestramento. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 13 ‐ Introduzione Teorica al Data Mining Intelligente Figura 13: i 256 codebook (prototipi) generati dalla SOM dopo la fase di addestramento sui 1500 disegni digitalizzati. La Figura 13 mostra come alcuni tipi di caratteri sono vicini tra di loro, formando una cluster di cluster, e cioè dei cluster tipici, mentre altri sono posizionati in delle zone della matrice dove esistono in maggioranza altri tipi di caratteri numerici, rappresentando quindi dei cluster atipici. La Figura 14 mostra la distribuzione dei cluster tipici e atipici in modo più evidente: i cluster tipici per ogni tipo di carattere appaiono vicini gli uni agli altri nella matrice, mentre quelli atipici appaiono parzialmente isolati. Si può notare, infatti, che il carattere “6” presenta solo codebook tipici tutti addensati in una specifica regione della matrice, mentre gli altri caratteri mostrano o più cluster tipici, oppure cluster tipici ed alcuni cluster atipici, isolati e/o sparsi. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 14 ‐ Introduzione Teorica al Data Mining Intelligente Figura 14: 1 256 codebook tipici e atipici generati dalla SOM: in ognuna delle matrici laterali appaiono come tipici i codebook vicini, e come atipici quelli isolati (le dimensioni del cerchio sono proporzionali al numero di disegni reali classificati dalla SOM in ogni codebook in fase di addestramento). 4.0 Reti Neurali Non supervisionate e Regolarizzazione. I gruppi prodotti da una Rete Neurale non supervisionata di tipo SOM rappresentano tutti i prototipi generabili da una certa base di dati. L’insieme di questi prototipi è a sua volta una data set, con lo stesso numero e tipi di variabili del data set originario e un numero di record pari al numero dei prototipi stessi. Si tratta del data set dei prototipi. Il data set dei prototipi, a sua volta, può funzionare come base di addestramento per una nuova rete neurale non supervisionata, una New Recirculation Neural Networks (NRC), il cui obiettivo questa volta deve consistere nell’approssimare la iper‐superficie continua dove tutti questi prototipi giacciono. Ciò allo scopo di riscrivere i valori di tutti i record del data set originario in funzione dei prototipi stessi. In questo modo, i record molto vicini a qualche prototipo (record tipici) verranno riscritti più o meno tali e quali, mentre i record atipici verranno regolarizzati. In pratica la rete modifica i loro valori originari per aggiustarli a come dovrebbero essere per rientrare in uno qualsiasi dei gruppi sui quali l’algoritmo è stato addestrato. I record atipici del data set originario vengono, quindi, da questo secondo algoritmo, identificati e regolarizzati. Questa applicazione produrrà, perciò, un terzo data set nel quale ogni record del data set originario verrà rappresentato da un vettore di “delta”, cioè delle quantità, positive o negative, che devono essere sommate ad ogni variabile di quel record per renderlo regolare. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 15 ‐ Introduzione Teorica al Data Mining Intelligente Questa matrice dei delta, omeomorfa a quella del data set originario, individua il grado sfumato di atipicità di ogni record e stabilisce quanto ogni variabile di ogni record andrebbe numericamente ricalibrata perché tutti i record rientrino in almeno uno dei gruppi presenti virtualmente nel data set originario. Questa applicazione permette inoltre di simulare gli scenari dinamici e le relazioni nascoste tra i dati già spiegate in precedenza (vedi Figura 15). La regolarizzazione effettuata da questo algoritmo permette, quindi, una conoscenza puntuale dei record atipici, mentre la possibilità di simulare scenari dinamici permette di misurare l’efficacia delle diverse tattiche di intervento sul problema rappresentato dai dati originari. Figura 15: I codebooks della SOM forniscono il campione di addestramento ad una New Recirculation (NRC) che, conclusa la fase di addestramento, riscrive il data set originario regolarizzando i valori di tutte le variabili di ogni record (matrice dei delta) ed individuando i record atipici. Inoltre, la NRC consente di simulare scenari dinamici, una sofisticata forma di What If Analysis (AWIT). 4.1 Esempio di individuazione e regolarizzazione dei record atipici Una Rete Neurale AWIT una volta addestrata sui codebook di una Rete SOM è in grado di individuare i record atipici del data set globale e di modificare i valori di ciascuno di questi per armonizzarlo con i valori di quelli più tipici. L’esempio che si propone è una dataset delle richieste di rimborso polizze sanitarie Faschim divise per aziende nelle quali gli intestatari delle polizze lavorano come dipendenti. Dopo un complesso pre‐processing dei dati originari si è ottenuto un data set di 31 variabili (attributi) e 815 record (aziende). L’algoritmo AWIT ha riscritto i valori di ogni variabile di ognuna delle 815 aziende in modo da rendere ogni azienda “non anomala” rispetto a tutti i tipi di richiesta di rimborso manifestato dalle altre. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 16 ‐ Introduzione Teorica al Data Mining Intelligente Questa procedura ha permesso di intercettare quelle aziende le cui polizze esprimono delle richieste di rimborso anomale rispetto ad ogni altra richiesta, sotto vari profili. Questo non significa che le richieste anomale sono necessariamente delle frodi. AWIT evidenzia semplicemente quelle aziende i cui assicurati esprimono collettivamente delle richieste che sarebbe opportuno verificare con maggiore scrupolo. AWIT, in breve, individua in alcune aziende un tipo di anomalia diffusa nelle richieste di rimborso. Tali “warnings” di AWIT sono facili da verificare anche ad occhio nudo. La Figura 16 mostra il grafico delle richieste anomale nelle 815 aziende rispetto alla variabile complessa “Numero delle Polizze presenti in ciascuna Azienda e numero delle pratiche di richiesta di rimborso nella stessa Azienda in tutte le altre variabili che nel data set caratterizzano ogni Azienda”. Questa formulazione complicata serve a far capire a chi legge che il lavoro dell’algoritmo AWIT non consiste nell’applicare qualche calcolo aritmetico per quanto complesso che confronta ogni azienda con tutto il data set. Il lavoro di AWIT non è possibile eseguirlo con gli attuali metodi della statistica classica. E non si tratta,in realtà, nemmeno di un “calcolo”. AWIT apprende tutti i modelli di rimborso possibile di tutte le Aziende collegando ogni variabile di ogni azienda ad ogni altra secondo tutti i valori possibili e tutte le combinazioni possibili di tutte le variabili di tutti i record. Questo confronto se fosse effettuato in modo esplicito nel caso in questione (31 variabili) comporterebbe un numero di operazioni aritmetiche, pari a 1062, se si suppone che ogni variabile delle 31 possa assumere solo 100 valori diversi. Si tenga presente che il numero di atomi di cui si stima sia composto l’universo osservabile è tra 1080 e 1085. Per dare un’idea di cosa significhi effettuare 1062 operazioni aritmetiche in successione è sufficiente immaginare un super computer, ancora inesistente, che potesse effettuare 100 miliardi di operazioni al secondo. Questo super computer per concludere il nostro “calcolo” impiegherebbe il seguente numero di anni: 31709791983764600000000000000000000000000000=3.E+43. Ovviamente AWIT non esegue realmente tutte queste operazioni, bensì calcola la funzione implicita che definisce l’iper‐superficie che interpola in modo ottimo tutti gli iper‐punti del data set che si sta analizzando. Il risultato è una stima molto accurata di ciò che si sarebbe ottenuto eseguendo tutte le operazioni in esplicito, con il vantaggio di richiedere meno di un’ora di computazione di un personal computer. Lo svantaggio è che siamo dovuti ricorrere ad una matematica piuttosto complessa non facilmente spiegabile al di fuori del mondo delle equazioni. Solo una volta effettuata questa complessa computazione AWIT è in grado di rileggere ogni record del data set originario e ricalibrare il valore di ogni variabile di ogni suo record in modo opportuno. Questa premessa è necessaria per sapere come leggere la Figura 16 e le figure che seguiranno. Ed anche per prevenire l’idea ingenua che si possano riprodurre gli stessi risultati con la stessa precisione con un semplice “calcoletto” di statistica attuariale. Potremmo dire che AWIT si comporta come un soggetto alieno ma molto intelligente a cui si sottopone un enorme data set, dove ogni record è un esempio di una possibile somma aritmetica calcolata correttamente. AWIT studia il data set e apprende le regole astratte delle somme in aritmetica. Quando in una seconda fase si sottoporrà ad AWIT una nuova somma che non era contenuta nei dati che aveva studiato, AWIT la riscriverà in modo identico, se quella nuova somma è corretta, ma modificherà gli addendi della nuova somma se questa è una somma errata, facendo in modo che anche quella somma, con le dovute correzioni, possa appartenere all’insieme infinito delle somme corrette. La Figura 16, quindi, mostra, molto semplicemente, quante polizze in più o in meno, secondo AWIT, dovrebbe avere ogni azienda delle 815 analizzate per il tipo di richiesta di rimborso presentata dai suoi dipendenti intestatari di una polizza Faschim. Qui il calcolo è semplice: _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 17 ‐ Introduzione Teorica al Data Mining Intelligente se R= Polizze_Reali e E= Polizze_Stimate_da_AWIT; allora Delta= R‐E. La Figura 16 ha una lettura molto semplice: a. le Aziende con un Delta molto positivo sono in questo caso le Aziende virtuose, in quanto chiedono un modello di rimborso che per AWIT suppone in quella Azienda meno polizze di quante ce ne siano effettivamente. b. Le Aziende con un Delta molto negativo sono in questo caso le Aziende “meno virtuose” (o viziose), in quanto AWIT stima che queste Aziende presentano dei modelli di rimborso tipici di Aziende che dovrebbe avere un numero maggiore di polizze di quelle che effettivamente hanno. Figura 16: Numero di Polizze in più o in meno che ogni Aziende dovrebbe avere in base alle pratiche di rimborso presentate. A questo punto è possibile identificare le Aziende anomale rispetto al numero di polizze utilizzando un semplice filtro: verificare tutte le aziende la cui differenza tra le polizze effettive e quelle stimate sia ad esempio maggiore di 5 polizze (Delta<‐5). Per poi concentrarsi su quelle dove il Delta è più vistoso. La Figura 17 mostra un dettaglio di quanto detto. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 18 ‐ Introduzione Teorica al Data Mining Intelligente Figura 17: Aziende che secondo AWIT dovrebbero avere almeno 10 polizze in più di quelle reali, a causa dei loro modelli di pratiche di rimborso (quantità e distribuzione). Una tabella e un grafico come quelli come quelli mostrati nelle Figure 16 e 17 sono generabili per ognuna delle 31 variabili del data set: ogni variabile che si focalizza è, infatti, una vista parziale di una elaborazione che AWIT ha eseguito in parallelo ponendo in interazione tutte le variabili e tutti i record. La Figura 18 mostra le stime di AWIT riguardo al numero di pratiche di rimborso emesse da ognuna delle 815 Aziende. Ovviamente il numero delle pratiche è stato in precedenza normalizzato rispetto al numero di polizze in essere in ciascuna Azienda. In questo caso il Delta tra la stima di AWIT e il valore di pratiche di rimborso effettivamente presentate assume un significato diverso rispetto al caso precedente: quando il Delta è molto positivo significa che AWIT valuta il numero di pratiche presentate da un’Azienda è maggiore di quello che ci si dovrebbe aspettare. In questo caso, quindi, sono i Delta positivi ad segnalare possibili anomalie, in quanto l’Azienda in questione, secondo AWIT, sta presentando un numero di fatture maggiore di quello che sarebbe congruo, considerando il suo modello implicito di richiesta di rimborso. La Figura 19 mostra le Aziende che mostrano un Delta positivo di oltre 5 fatture in media per polizza. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 19 ‐ Introduzione Teorica al Data Mining Intelligente Figura 18: Differenza tra la quantità media di fatture dichiarate da ogni Azienda e il numero medio di fatture stimato da AWIT come congruo. Delta molto positivi significano che una Azienda ha dichiarato un numero di fatture poco corrispondente, secondo AWIT, al suo modello implicito di richiesta di rimborso. Figura 19: Aziende che secondo AWIT dovrebbero avere almeno 5 fatture in meno per ogni polizza di quelle dichiarate nelle pratiche (Il numero delle fatture reali – seconda colonna – possono essere in formato decimale, in quanto il numero delle fatture viene normalizzato – diviso – per il numero delle polizze in essere in ogni Azienda). _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 20 ‐ Introduzione Teorica al Data Mining Intelligente Dal solo confronto di queste due grafici e di queste due tabelle risulta evidente che: a. Quelle Aziende che hanno meno polizze di quelle che secondo AWIT dovrebbero avere (Figura 16 e 17); b. E che simultaneamente presentano un numero medio di fatture per polizza superiore a quello che dovrebbero presentare (Figura 18 e 19); rappresentano dei casi di Aziende da sottoporre ad una attenta verifica. Ciò non perché AWIT in questi casi è in grado di dimostrare una sicura frode, ma che queste due anomalie in parallelo segnalano delle atipicità molto marcate. 5.0 Reti Neurali Non supervisionate e Similarità nascoste. La “matrice dei delta” generata dall’algoritmo di regolarizzazione mostra come i valori di tutte le variabili di ogni record del data set originario dovrebbe essere modificate, allo scopo di eliminare i valori inappropriati (e, quindi, anomali). Tale matrice dei delta, quindi, rappresenta un terzo data set: un interessante caso di dataset delle anomalie. È necessario analizzare in profondità questo nuovo data set, allo scopo di capire quali record del data set originario sono raggruppabili secondo la similarità delle loro anomalie. Una terza Rete Neurale Non Supervisionata, la Auto Contractive Map (AutoCM), è in grado di eseguire una tale analisi delle similarità nascoste e di proiettare i suoi risultati in un grafo pesato e colorato. In questo modo è possibile vedere in quale posizione topologica i record inappropriati si posizionano gli uni rispetto agli altri e quanto ognuno di essi è simile e/o diverso da quelli appropriati. Cluster di record atipici molto connessi gli uni agli altri permette di intuire una qualche forma di atipicità strategicamente pensata. Al contrario un record atipico circondato da record che rappresentano dei prototipi permette di individuare questi secondi come modelli di “buone pratiche” per il primo e quest’ultimo come anomalo solo riguardo ad alcune variabili. L’individuazione di raggruppamenti per similarità di anomalie fornisce, quindi, una conoscenza strategica delle caratteristiche dei dati analizzati e permette di prendere decisioni strategiche sul problema rappresentato dal data set originario (vedi Figura 20). _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 21 ‐ Introduzione Teorica al Data Mining Intelligente Figura 20: L’algoritmo AutoCM individua in un grafo pesato e colorato le similarità delle anomalie dei record analizzando la matrice dei Delta generata in precedenza dall’algoritmo AWIT. 5.1 Un esempio di analisi del Data set delle Anomalie L’algoritmo AWIT nelle sue analisi genera anche un nuovo data set, dove ogni Azienda viene rappresentata con i Delta (differenza tra ciò che ha presentato l’Azienda e ciò che sarebbe più congruo che avesse dichiarato) che per ogni sua variabile l’algoritmo ha stimato. In questo esempio immaginiamo di aver focalizzato la nostra attenzione su tutte le polizze di una delle Aziende risultate particolarmente anomale negli esempi precedenti. Tutte le 725 polizze di questa Azienda sono state di nuovo pre‐processate tramite 32 variabili (Figura 21). Il nuovo data set è stato processato nel modo consueto, fino a generare il data set delle polizze anomale e processarlo con AutoCM per poter capire la similarità delle anomalie tra le polizze analizzate (Figura 22). La Figura 23a mostra il vettore dei Delta tra il numero delle fatture emesse e quelle stimate per ogni polizza. La Figura 23b mostra invece le 26 polizze che AWIT ha individuato come anomale, in quanto il numero delle fatture emesse da queste polizze è maggiore di almeno di 5 unità al numero stimato congruo da AWIT. La Figure 24a e 24b mostrano in quali posizioni della matrice la SOM ha classificato le 26 polizze anomale rispetto alle altre. Dalla comparazione di queste figure emerge: _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 22 ‐ Introduzione Teorica al Data Mining Intelligente a. Che le posizioni nelle quali la SOM ha classificato le polizze, ritenute anomale per AWIT, sono anch’essi cluster atipici (poco densi); b. Che AWIT ha scelto le polizze anomale selezionando spesso in alcuni cluster atipici una polizza, ritenendo le altra dello stesso cluster “regolari”; c. Che le polizze anomale selezionate da AWIT si trovano spesso in cluster caratterizzati da un alto importo nelle richieste di rimborso. In breve, l’algoritmo SOM mette a fuoco le aree problematiche, mentre l’algoritmo AWIT distingue ed individua in modo specifico le polizze anomale. La Figura 25, infine, mostra il grafo delle similarità delle anomalie tra tutte le polizze, individuate da AWIT. L’algoritmo AutoCM, con il filtro del MRG, raggruppa ed organizza le polizze anomale, regolari e virtuose in un grafo pesato, nel quale le polizze vicine hanno scostamenti simili da una regolarità di riferimento. Figura 21: Le 32 variabili considerate per le 725 polizze dell’Azienda. Figura 22: Flusso del processo di analisi delle 725 polizze dell’Azienda. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 23 ‐ Introduzione Teorica al Data Mining Intelligente Figura 23a: Le 725 polizze dell’Azienda. Delta tra le fatture emesse e quelle ritenute congrue da AWIT. Figura 23b: Polizze dell’Azienda ritenute anomale dall’algoritmo AWIT. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 24 ‐ Introduzione Teorica al Data Mining Intelligente Figura 24a: Polizze dell’Azienda proiettate dalla SOM. Cerchiate in blu quelle ritenute anomale da AWIT. Figura 24b: Polizze dell’Azienda proiettate dalla SOM con gli importi richiesti. Cerchiate in blu quelle ritenute anomale da AWIT. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 25 ‐ Introduzione Teorica al Data Mining Intelligente Figura 25: Grafo delle similarità delle anomalie prodotto da AutoCM e MRG. In blu le polizze regolari, in verde le polizze anomale perché virtuose, in rosso le polizze anomale perché sospette. Il grafo della Figura 25 deve essere letto ed interpretato seguendo una metodica specifica di cui di seguito forniamo solo alcuni spunti: a. Le polizze (nodi) connesse direttamente da un legame presentano Delta molto simili su tutte le 32 variabili; b. Le polizze che appartengono ad una “clique” (nodi tutti connessi tra di loro) rappresentano un prototipo ricorrente di Delta su tutte le variabili; c. Le polizze connesse al resto del grafo da un solo legame (Foglie) rappresentano dei casi spesso isolati di Delta; d. Una polizza con molti legami verso le altra polizze, non direttamente connesse tra di loro, è un nodo “Hub”; un nodo i cui Delta sono la base comune dei Delta dei nodi vicini; e. Una polizza che connette in modo unico due o più aree del grafo è un nodo che segna il confine tra tipi di Delta caratterizzati da logiche diverse (Connettore); f. Il numero di legami che separa due polizze è proporzionale alla dissimilarità dei Delta tra le due polizze stesse; g. I nodi colorati in blu rappresentano le polizze i cui Delta su tutte le 32 variabili sono piuttosto piccoli e quindi le polizze evidenziano un modello di rimborso abbastanza regolare; h. I nodi colorati in verde rappresentano polizze anomale ma in senso “virtuoso”: il numero di fatture che emettono è inferiore a quello che dovrebbero emettere secondo AWIT; i. I nodi di colore rosso rappresentano le polizze anomale in senso “vizioso”: il numero di _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 26 ‐ Introduzione Teorica al Data Mining Intelligente fatture che emettono è superiore a quello che dovrebbero emettere secondo AWIT. Si tratta, quindi, delle polizze “sospette”. j. Quando una polizza valutata “viziosa” è circondata da polizze regolari o virtuose significa che la sua anomalia è locale: la sua anormalità, cioè, è dovuta principalmente all’eccesso di numero delle fatture emesse, mentre è probabile che le altre sue variabili non siano anomale; k. Quando una polizza valutata “viziosa” è vicina ad altre polizze viziose, allora è probabile che quella polizza e le sue vicine, mostrando una similarità di anomalie su tutte le variabili, abbiamo un’ispirazione comune. Una corretta lettura del grafo delle anomalie consente, quindi, di rendere palesi ulteriori informazioni nascoste, in aggiunta a quelle evidenziate dai precedenti algoritmi. 6.0 I Meta Algoritmi. Le considerazioni e le metodologie fin qui presentate evidenziano che per poter effettuare un Data Mining Intelligente, sono necessari tre prerequisiti fondamentali: a. La base di dati da analizzare deve essere pre‐processata con strumenti matematici idonei ad rendere esplicite tutte le informazioni statisticamente pertinenti all’obiettivo dell’analisi stessa; da questa pre‐analisi dovranno essere generati uno o più data set pronti ad essere elaborati con algoritmi intelligenti. b. I data set prodotti dovranno essere elaborati con algoritmi adattivi che siano in grado di considerare le complesse relazioni non lineari presenti nei dati, e non con semplici algoritmi di statistica lineare, quali la PCA per l’analisi multivariata o la k‐means per l’analisi in clusters, ecc. Varie tipologie di Artificial Neural Networks di ultima generazione (Deep Learning) sono disponibili per una analisi approfondita delle relazioni di ordine superiore che sono normalmente presenti nei data set reali. c. Non è sufficiente analizzare una base di dati che rappresenta un processo reale, naturale o culturale, con un singolo algoritmo, anche se adattivo e complesso. Solo una molteplicità di algoritmi adattivi, in cooperazione tra di loro, può essere in grado di far emergere le molte informazioni, palesi e nascoste, che sono incastonate in uno o più data set. Quindi, il Data Mining Intelligente consiste nel disegnare una strategia di analisi nella quale più algoritmi lavorino in parallelo e in successione sugli stessi dati, in modo da mettere in evidenza, ognuno secondo le sue specificità, le diverse caratteristiche dei dati, per poi combinarle in un’unica struttura interpretativa (vedi Figura 26). Definiamo Meta Algoritmo questo nuovo tipo di algoritmo composto da un flusso ordinato di algoritmi adattivi; precisiamo, inoltre, che il Data Mining Intelligente consiste nella capacità del ricercatore di disegnare Meta Algoritmi capaci di evidenziare più tipi di informazioni nascoste in una base di dati che rappresenta un processo reale. Il Data Mining Intelligente, quindi, si configura come la strategia matematica per scoprire le relazioni nascoste tra i dati, attraverso la cooperazione di una moltitudine di algoritmi che imitano in formato tascabile l’architettura informatica del cervello umano. La matematica del cervello, quindi, si rivela un modo ottimo per scoprire ciò che i cervelli reali producono e nascondono. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 27 ‐ Introduzione Teorica al Data Mining Intelligente Figura 26: Disegno sperimentale che comprende 4 algoritmi adattivi che cooperano in uno stesso processo a partire dagli stessi dati. _______________________________________________________________________________________________ Le informazioni contenute in questo documento sono di proprietà del Centro Ricerche Semeion © Copyright 2016 Semeion Centro Ricerche di Scienze della Comunicazione ‐ 28 ‐