Viaggio al centro della te…cnologia semantica: dal trattamento dei Big Data all’analisi del sentiment, passando attraverso il Natural Language Processing Marcello Pellacani Vice President Corporate Division, Expert System Bologna, 16 maggio 2012 Agenda Tecnologie per l'analisi del testo destrutturato: I diversi approcci (keyword, statistico, linguistico, semantico) per la gestione delle informazioni e dei dati strategici. Analisi semantica: le varie fasi. Sensigrafo, la rete semantica di Expert System: Capire con precisione il significato delle parole per sfruttare al meglio i Big Data e la conoscenza contenuta nei documenti Categorizzazione, tassonomie: Ordinare enormi quantità di documenti secondo tassonomie personalizzate Data mining, entity extraction: Estrarre i dati principali per supportare i processi di intelligence Intelligence ed OSINT: Estrarre informazioni rilevanti da fonti open source Sistemi di self-help in Natural Language Processing: Interagire con gli utenti attraverso la ricerca semantica e l'assistenza in NLP Analisi del sentiment e opinion mining: Supportare con efficacia i processi decisionali tramite l'analisi dei social media Use case ed esempi 2 Ogni minuto sul Web 3 La diffusione di Facebook & c. sse uno Se Facebook fo e la terza nazione sarebb ondo per più grande al m itanti numero di ab lli USA) (il doppio di que Quanto sono cresciuti i social media? 1 americano su giorno un vide 4 guarda ogni o su Youtube o caricate più Su Flickr vengon i al minuto di 3500 immagin LadyGaga co n di followers su ta oltre 13 milioni Twitter (set tembre 2011) Source: SEJ, Search Engine Journal, Infograhics; Dati aggiornati a settembre 2011 4 Il potere dei social media Non si può sottovalutare il potere di conversazioni, informazioni, pareri, che gli utenti esprimono online 5 Il consumo di informazioni Ogni giorno in azienda circolano email, documenti, pagine web, articoli, messaggi di ogni tipo… Troppe informazioni da gestire manualmente 6 BIG DATA Big data from Wikipedia, the free encyclopedia In information technology, big data consists of data sets that grow so large and complex that they become awkward to work with using onhand database management tools. Difficulties include capture, storage, search, sharing, analytics, and visualizing. This trend continues because of the benefits of working with larger and larger data sets allowing analysts to "spot business trends, prevent diseases, combat crime”. 7 Scovare le informazioni di valore La tecnologia semantica offre nuove opportunità di estrazione e condivisione della conoscenza, facendo emergere solo le informazioni strategiche... Che tipo di informazioni? Nascoste nei testi interni all’azienda Provenienti dagli angoli più remoti del web Già strutturate in database Intrappolate in testi e documenti 8 Tecnologie 1. information retrieval 2. statistiche 3. linguistiche e semantiche 9 Full text retrieval (kw based) L’approccio full text retrieval analizza i testi estraendone le sequenze alfanumeriche (keyword): in pratica identifica le keyword considerando come separatori gli spazi, la punteggiatura ed altri caratteri non alfabetici. Organizza degli indici di ricerca con le sequenze associate ai documenti dai quali sono state estratte. In generale elimina le keyword presenti nella maggior parte dei testi perché ritenute poco significative e, per la stessa ragione, non considera stop word, come gli articoli e le preposizioni. Questa tecnologia può essere integrata con eventuali strumenti aggiuntivi: • algoritmi di ranking, che definiscono la logica con cui ordinare per rilevanza i risultati delle interrogazioni (di solito numero delle occorrenze dei termini e loro posizione nel documento). La piattaforma di maggior successo oggi sul mercato è quella di Google che, applicata agli ipertesti HTML, calcola il ranking considerando anche il valore dei link fra le pagine; • thesaurus, ovvero un sistema di correlazione fra sequenze alfanumeriche il cui scopo è aggiungere sinonimi o flessioni; • talvolta uso di stemming, cioè raggruppamenti di parole in base alla loro radice per coglierne le possibili flessioni (es. developing troncato in develop per associare anche developed). 10 Statistica La tecnologia statistica si basa sulla deduzione delle caratteristiche dei testi durante una fase di addestramento con un corpus documentale di esempio; tali caratteristiche riguardano sia la cooccorrenza di termini fra documenti che trattano lo stesso argomento, che la presenza di parole di frequenza medio-bassa spesso considerate particolarmente significative per caratterizzare i testi. Questa tecnologia può essere integrata con eventuali strumenti aggiuntivi: • uso di stemming (processo di riduzione della forma flessa di una parola alla sua forma radice, detta tema. Esempio andai, andiamo, andranno ! tema: and, ! lemma: andare ); • Pattern Recognition, cioè identificazione della morfologia di raggruppamenti di termini, come somiglianza della sequenza di caratteri e come contestualizzazione. 11 Linguistica e Semantica Queste tecnologie sono basate sull'analisi linguistica approfondita, che arriva fino al riconoscimento del significato (semantica). Eseguono l’analisi morfologica elaborando le keyword, l’analisi grammaticale riconoscendo il lemma base (la forma del termine così come compare nel vocabolario), l’analisi logica di periodo (identificando soggetto, verbo, complemento oggetto, proposizioni reggenti, subordinate, ecc.) e con memoria del contesto nell'ambito del documento. Raggiungono in questo modo il livello di interpretazione concettuale, distinguendo fra le varie accezioni dei termini e riconoscendo i diversi modi per esprimere la stessa informazione. Il risultato dell'analisi è la costruzione di una mappa cognitiva e concettuale del testo. L’utilizzo di queste tecnologie porta inoltre i seguenti benefici: • comprende implicitamente la capacità di costruire indici sulle keyword, in quanto primo passo dell'analisi linguistica; • gestendo in maniera completa la lingua, non trae vantaggio dall'utilizzo congiunto con altre tecnologie; • riconoscendo i lemmi è in grado di gestire tutte le flessioni dei termini; arrivando all'identificazione dei concetti gestisce, tramite la rete semantica, i corretti sinonimi, ad es. distingue fra tempo sinonimo di clima e tempo inteso come epoca storica. 12 Valutazione efficacia: Recall and Precision Recall e Precision sono i principali indici per valutare l’efficacia delle soluzioni che effettuano l’analisi delle informazioni contenute nei testi. Recall è la capacità di trovare più informazioni possibili rilevanti e attinenti a ciò che si sta cercando; Precision è la capacità di individuare con precisione le informazioni utili (solo quelle). A seconda della funzionalità si può dare una definizione più esatta di questi indici. Ad esempio: nel caso di information retrieval, l’efficacia è la capacità di accedere a tutti e solo i documenti rilevanti per una data interrogazione. Quindi: Recall = RIRI / (RIRI + NRRI) Precision = RIRI / (RIRI + RINR) 13 Difficile trovare le informazioni Efficacia della ricerca Cresce la quantità di informazioni • 15 Petabytes di nuove informazioni al giorno • 15 milioni di ricerche al mese Diminuisce l’efficacia della ricerca • 1/3 delle ricerche non trovano risultati • oltre due ore al giorno spese nella ricerca di informazioni Web Desktop PC Era Social Web Keyword Search (Google) Directories Files & Folders Databases Quantità di informazioni Semantic Web Natural Language Search Tagging Il problema dell’analisi dei testi Stessa parola ma con diversi significati calcio elemento chimico sport Parole diverse ma con lo stesso significato Presidente del Consiglio Capo del Governo 15 Una tecnologia unica Partendo dalla comprensione delle frasi racchiuse nei testi, il software semantico COGITO® controlla il caos generato dalle migliaia di documenti con cui abbiamo a che fare ogni giorno: articoli, mail, pagine web, sms… Oltre i limiti delle keyword Grazie alla comprensione del significato delle parole, la tecnologia semantica seleziona, analizza, correla SOLO LE INFORMAZIONI GIUSTE 17 Il valore della semantica Luca mangia il pollo L’analisi semantica capisce: " le relazioni tra le parole Luca=soggetto mangia=verbo il pollo=comp.oggetto " il significato delle parole Mangiare=ingerire cibo Diverso il significato di mangiare in “si è mangiato il patrimonio di suo padre” “il maglione è mangiato dalle tarme” “la tua auto mangia troppo olio” Demo: Mangiare 18 Cogito: come funziona Il Sensigrafo® Italiano Il Sensigrafo® contiene tutte le informazioni occorrenti per l'analisi dei testi. Si tratta della conoscenza linguistica generica della lingua in uso, comprensiva dei nomi propri, che può essere arricchita e personalizzata con i termini appartenenti a particolari ontologie. Il Sensigrafo® Italiano: il syncon Nel Sensigrafo® i lemmi (cioè le parole) sono organizzati in syncon. Per syncon si intende un insieme di sinonimi che rappresentano lo stesso concetto lessicale. Ogni syncon coincide con un nodo della rete semantica ed è collegato agli altri da precise relazioni semantiche (= link) in una struttura gerarchica ad ereditarietà. In questo modo, ogni nodo si arricchisce delle caratteristiche e del significato dei nodi vicini. Parser Il Parser esegue una completa analisi morfologica, grammaticale e sintattica della frase in tempi estremamente ridotti, gestendo oltre 3500 regole. Il parser è costruito ad hoc per l interrogazione della rete semantica, superando i limiti delle metodologie di parsing esistenti. Parser Il Parser è il motore che identifica i singoli elementi che compongono un testo, attribuendogli l esatta funzione logica e grammaticale. Il Sensigrafo® Italiano: i principi di ordinamento Le relazioni semantiche (i link), che individuano le parentele semantiche tra i syncon, sono i principi di ordinamento per l'organizzazione dei concetti del Sensigrafo. I syncon possono contenere: - lemmi singoli ('sedia', 'vacanza'; 'lavorare', 'studiare'; 'bello') - parole composte ('non-stop', 'abat-jour', 'capoconvoglio') - collocazioni ('carta di credito', 'titolo di studio', 'andare avanti ) I principali elementi di un syncon sono: - il tipo grammaticale (sostantivo, verbo, aggettivo, avverbio) - la relazione semantica (o link) - la glossa, cioè la spiegazione del significato - dominio, registro, frequenza Il Sensigrafo® Italiano: le relazioni tra i syncon Nella rete semantica, il vero significato di un syncon è dato non solo dal concetto espresso dai suoi elementi (sinonimi), ma anche dalle relazioni che intercorrono con gli altri syncon. I principali tipi di link presenti nel Sensigrafo sono i seguenti: - supernomia/subnomia - superverbia/subverbia - omninomia/parsnomia - verbo/soggetto - verbo/complemento oggetto Il Sensigrafo Italiano: supernomia/subnomia La subnomia riguarda il rapporto che sussiste tra un concetto specifico e uno più generale. Il supernomen, quindi, è il termine più generico; è una parola che ha un significato generale rispetto ad altre che rappresentano specificazioni particolari di quello stesso significato. ESEMPI Cane – cane da caccia – irish terrier Abitazione – appartamento – bilocale Computer – computer portatile – palmtop computer Il Sensigrafo Italiano: superverbia/subverbia La subverbia è una delle relazioni semantiche che legano tra loro i syncon di tipo verbale. Per quanto riguarda la relazione verbale di superverbia/subverbia valgono le stesse regole della subnomia dei sostantivi. ESEMPI Mangiare - mangiucchiare, mangiare svogliatamente Dormire - sonnecchiare, dormicchiare Camminare - zoppicare Il Sensigrafo Italiano: omninomia/parsnomia La relazione di omninomia/parsnomia si tratta di una relazione tutto/parte . Parsnomen è cioè un termine che indica una parte di qualcosa (omninomen). ESEMPI Arto – mano – dito Casa – bagno – lavandino Albero – tronco – corteccia Il Sensigrafo® Italiano: verbo/soggetto Se, dato un sostantivo, si seleziona il link verbo/ soggetto , il Sensigrafo mostra tutti i verbi legati normalmente (cioè più frequentemente) a quel nome quando esso nella frase svolge la funzione di soggetto. ESEMPI Cibo – avariare/ disgustare/ scarseggiare Banca – accreditare/ vincolare/ finanziare Il Sensigrafo® Italiano: verbo/complemento oggetto Se, dato un sostantivo, si seleziona il link verbo/ oggetto , Il Sensigrafo mostra tutti i verbi legati normalmente a quel nome quando esso nella frase svolge la funzione di complemento oggetto. ESEMPI Acqua – bere/ inquinare/ mineralizzare Monumento – restaurare/ ammirare/ progettare Il Sensigrafo multilingue Il Sensigrafo multilingue si basa sulla rete semantica inglese a cui possono essere correlate N lingue diverse. La struttura consente di specificare, oltre che relazioni linguistiche, anche relazioni proprie del cliente che arricchiscono la rete di ontologie verticali e personalizzando sulla base delle specifiche esigenze. Il Sensigrafo multilingue: Inglese-Arabo I nodi della rete semantica inglese sono collegati logicamente con i corrispondenti concetti della lingua araba. In questo modo ereditano tutte le informazioni degli altri nodi consentendo ricerche incrociate e, in prospettiva, traduzioni automatiche. Disambiguare Per un uomo, il significato è una cosa scontata, perché molti sono gli elementi che vengono in aiuto per capire in quale accezione è utilizzata una parola. Ad un programma bisogna trasmettere un interpretazione del mondo univoca costruendogli un sistema di riferimento che sia l equivalente dell esperienza del mondo dell uomo Se addestrati a una sorta di buon senso umano, i computer possono dotarsi di una logica di comprensione del mondo e unirla alla potenza della propria memoria e capacità di calcolo, con risultati unici. Disambiguatore semantico Il disambiguatore dei significati è il programma che analizza singole frasi o interi documenti e distingue il giusto significato per ogni elemento che incontra, eliminando ogni possibile ambiguità. Compie ragionamenti che distinguono i diversi significati di tutti gli elementi di un testo, individuando il contesto in cui questi sono collocati. Cos’è una rete semantica? Una ricca mappa delle associazioni e dei significati delle parole • Contiene tutte le accezioni delle parole • Include le relazioni fra i vari significati delle parole La qualità dei risultati dell’analisi semantica dipende dalla ricchezza e dalla complessità della rete semantica La rete semantica italiana di COGITO: 438.000 concetti • 2.000.000 relazioni • Semantica, Application ambiti areas applicativi Le applicazioni 1. Ricerca semantica 2. Gestire contenuti 3. Estrarre informazioni 4. Intelligence 5. NLP 6. Sentiment 36 1.Ricerca semantica Accedere facilmente alle informazioni • Ricerca efficace grazie a una chiara comprensione di ciò che l’utente sta cercando • Navigazione flessibile tra i risultati della ricerca • Estrazione più veloce rispetto ai metodi tradizionali Che macchina cerchi? Ad esempio cercando il termine “macchina”, inteso come “veicolo a motore”, il motore semantico propone come risultati tutte le parole riferibili allo stesso concetto: “auto, automezzo, autoveicolo”e anche termini più particolari come “berlina, utilitaria, diesel, cabriolet” ecc., mentre non saranno considerati i termini “macchina fotografica, macchina del caffè, ecc. x x Demo: COGITO SEE Macchina 38 Information retrieval L’esempio più noto dell’attività di ricerca di informazioni riguarda i motori di ricerca internet che indicizzano le pagine dei siti web pubblici. La stessa funzionalità si può utilizzare in intranet o su archivi documentali. Esempio: Google! espresso… 39 2. Gestire contenuti Organizzare la conoscenza con efficacia • Categorizzazione precisa dei documenti, arricchimento dei contenuti con metadati e tag semantici • Esplorazione interattiva e recupero mirato di dati utili • Gestione efficiente di grandi quantità di contenuti editoriali 40 Categorizzazione La categorizzazione rappresenta l’archiviazione automatica dei testi secondo una tassonomia prestabilita. Le soluzioni di categorizzazione possono inoltre essere impiegate per lo smistamento automatico delle posta elettronica o della corrispondenza del protocollo informatico. Tassonomie: es. IPTC 41 3. eDiscovery Estrarre informazioni rilevanti in un mare di dati • Selezione, organizzazione e controllo dettagliato di dati strutturati e documenti testuali • Recupero tempestivo di informazioni specifiche, tramite un drill-down che consente di filtrare i dati di interesse • Riduzione di tempi e costi di gestione delle informazioni 42 Information extraction (ETL) Le soluzioni di Information Extraction sono software per l’estrazione di specifiche informazioni dai testi, la loro trasformazione in una forma normalizzata (univoca) e archiviazione in un database. DEMO: Webix 43 4. Intelligence Fiutare i rischi legati ai cambiamenti • Riduzione dei rischi di compliance grazie a un’accurata protezione e organizzazione dei dati nel rispetto delle normative • Costante monitoraggio di leggi e procedure per migliorare le opportunità di business e rendere più efficaci i modelli organizzativi 44 Intelligence Le applicazioni di intelligence elaborano le informazioni contenute nei testi con funzionalità sofisticate come la scoperta automatica di correlazioni e la costruzione di report di sintesi. DEMO: Webix quella ragazza è una bomba. 45 quella ragazza ha un bomba. 5. Collaborazione Connettere attivamente dati e persone • Semplice accesso e condivisione ai contenuti interni ed esterni • Gestione ottimizzata di apposite piattaforme di business collaboration (es. Sharepoint) • Aggiornamento in real-time, non più solo archivi statici 46 Interfaccia in linguaggio naturale Ricevere richieste e comandi tramite il linguaggio umano. Questa funzionalità si deve occupare di “interpretare” i comandi che l’operatore scrive. DEMO: wiki, Cosmos 47 Multichannel Self-help Solutions Self-help via web, email ed SMS per dare risposte immediate ai clienti Cogito Answers • Aumenta la customer satisfaction • Si riducono tempi e costi di assistenza 48 6. Sentiment Fiutare i rischi legati ai cambiamenti • Riduzione dei rischi di compliance grazie a un’accurata protezione e organizzazione dei dati nel rispetto delle normative • Costante monitoraggio di leggi e procedure per migliorare le opportunità di business e rendere più efficaci i modelli organizzativi 49 Semantica, perché è diversa Al contrario dei sistemi tradizionali che effettuano un’analisi superficiale, la tecnologia semantica è in grado di comprendere con precisione il significato delle parole e le relazioni tra i vari elementi di una frase… Quale auto è bella? La BMW è bella! La#BMW,#l’auto#che# ho#comprato#per# sos4tuire#la#mia# Mercedes,#è#bella# La#BMW#è#l’auto#che#ho# comprato#per#sos4tuire# la#mia#bella#Mercedes# La Mercedes è bella! 50 Understanding content Tabella riassuntiva Utilizzando le informazioni dei capitoli precedenti, vengono classificate tutte le tecnologie rispetto all’efficacia (la capacità di realizzare la funzione) e l’efficienza (il costo complessivo della soluzione e quindi l’applicabilità). Nel capitolo dedicato alle conclusione sarà interpretato quanto emerge in questo schema riassuntivo. L’evoluzione della tecnologia Confronto fra tecnologie semantiche Come tecnologie semantiche per la lingua italiana, oltre alla piattaforma COGITO® di Expert System, esistono solo sistemi software della ricerca universitaria, per la lingua inglese invece esiste qualche prodotto in competizione. In genere prevedono la strutturazione della conoscenza della lingua con una rete semantica. Un confronto potrebbe essere basato sui seguenti parametri. 54 Gestione delle diverse lingue La gestione di lingue diverse è un importante parametro di valutazione. Le tre diverse tecnologie utilizzano approcci diversi e richiedono differenti effort per la gestione del problema. Keyword • in quanto mere sequenze alfanumeriche, l'unico problema è gestire i diversi "set di caratteri" (latino, cirillico, etc.) cioè l'alfabeto; • lo stemming (troncare/approssimare le parole) in alcune lingue funziona male nell’identificazione delle flessioni. Ad es. per l’italiano considerando il verbo scegliere, se prendiamo la radice "sceglie" non riconosce "scelto"; • l'espansione delle keyword mediante thesaurus (sinonimi, flessioni) deve essere sviluppata specificatamente per le varie lingue; • impegno necessario per la gestione di diverse lingue ->Medio/Basso. Statistica • considera i testi come una sequenza di caratteri, quindi funziona indifferentemente per le varie lingue, deve solo gestire il "set di caratteri", cioè l'alfabeto; • impegno necessario per la gestione di diverse lingue ->Nullo. Linguistica e Semantica • l’analisi grammaticale, logica e semantica dipendono strettamente dalla lingua di riferimento; • lo sviluppo di una versione per un'altra lingua comporta la stesura di una versione specifica degli algoritmi e la creazione di una rete semantica; • impegno necessario per la gestione di diverse lingue ->Alto. 55 Solo in Silicon Valley? Silicon Valley: incubatore perfetto per le aziende tecnologiche Gli inizi Fondata a Modena nel 1989, Expert System ha perseguito fin da subito un obiettivo preciso: sviluppare un software unico al mondo. Dopo aver mosso i primi passi in un garage di periferia, grazie a un’idea vincente abbiamo conquistato la fiducia di Microsoft, che ha integrato i nostri software linguistici negli applicativi per ufficio più diffusi al mondo. Il coraggio di cambiare 1998: dai correttori grammaticali e ortografici al Natural Language Processing. In seguito all’avvento di internet, Expert System decide di trasformare la propria attività sviluppando soluzioni per il mercato business. Una forte cultura dell’innovazione: il ruolo dell’università Università serve una formazione approfondita, per coniugare le conoscenze scientifiche con la capacità di applicazione e gestione progettuale Alcuni dati " Ultimi tre anni: raddoppiati fatturato e valore della produzione, oltre €11,5 milioni nel 2010, EBITDA del 20%. " 2009-2011: 30% risorse impegnate in R&D, più €10 milioni investiti. +€5 milioni previsti per il prossimo biennio " Oltre 130 professionisti, sedi in Italia e uffici a Londra, Washington D.C. e Chicago Alcuni clienti Supporta aziende ed enti governativi di ogni settore nella gestione delle informazioni non strutturate e nell’utilizzo dei dati strategici, accelerando i processi di innovazione e migliorando la produttività. Parlano di noi Cogito, la comprensione automatica dei significati 63 Q&A 64 Contatti Grazie # Marcello Pellacani VP Corporate Division Expert System [email protected] www.expertsystem.it