slides in pdf

annuncio pubblicitario
Viaggio al centro della te…cnologia semantica:
dal trattamento dei Big Data all’analisi del sentiment, passando
attraverso il Natural Language Processing
Marcello Pellacani
Vice President Corporate Division,
Expert System
Bologna, 16 maggio 2012
Agenda
Tecnologie per l'analisi del testo destrutturato:
I diversi approcci (keyword, statistico, linguistico, semantico) per la gestione delle
informazioni e dei dati strategici. Analisi semantica: le varie fasi.
Sensigrafo, la rete semantica di Expert System:
Capire con precisione il significato delle parole per sfruttare al meglio i Big Data e la
conoscenza contenuta nei documenti
Categorizzazione, tassonomie:
Ordinare enormi quantità di documenti secondo tassonomie personalizzate
Data mining, entity extraction:
Estrarre i dati principali per supportare i processi di intelligence
Intelligence ed OSINT:
Estrarre informazioni rilevanti da fonti open source
Sistemi di self-help in Natural Language Processing:
Interagire con gli utenti attraverso la ricerca semantica e l'assistenza in NLP
Analisi del sentiment e opinion mining:
Supportare con efficacia i processi decisionali tramite l'analisi dei social media
Use case ed esempi
2
Ogni minuto sul Web
3
La diffusione di Facebook & c.
sse uno
Se Facebook fo
e la terza
nazione sarebb
ondo per
più grande al m itanti
numero di ab
lli USA)
(il doppio di que
Quanto sono cresciuti i social media?
1 americano
su
giorno un vide 4 guarda ogni
o su Youtube
o caricate più
Su Flickr vengon i al minuto
di 3500 immagin
LadyGaga co
n
di followers su ta oltre 13 milioni
Twitter (set
tembre 2011)
Source: SEJ, Search Engine Journal, Infograhics;
Dati aggiornati a settembre 2011
4
Il potere dei social media
Non si può sottovalutare il potere di
conversazioni, informazioni, pareri,
che gli utenti esprimono online
5
Il consumo di informazioni
Ogni giorno in azienda circolano
email,
documenti,
pagine web,
articoli,
messaggi di ogni tipo…
Troppe informazioni
da gestire manualmente
6
BIG DATA
Big data from Wikipedia, the free encyclopedia
In information technology, big data consists of
data sets that grow so large and complex that
they become awkward to work with using onhand database management tools. Difficulties
include capture, storage, search, sharing,
analytics, and visualizing.
This trend continues because of the benefits of
working with larger and larger data sets allowing
analysts to "spot business trends, prevent diseases,
combat crime”.
7
Scovare le informazioni di valore
La tecnologia semantica offre
nuove opportunità di estrazione
e condivisione della conoscenza,
facendo emergere solo le
informazioni strategiche...
Che tipo di informazioni?
Nascoste nei
testi interni
all’azienda
Provenienti
dagli angoli più
remoti del web
Già strutturate
in database
Intrappolate
in testi e
documenti
8
Tecnologie
1.  information retrieval
2.  statistiche
3.  linguistiche e semantiche
9
Full text retrieval (kw based)
L’approccio full text retrieval analizza i testi estraendone le sequenze alfanumeriche (keyword): in pratica identifica le
keyword considerando come separatori gli spazi, la punteggiatura ed altri caratteri non alfabetici.
Organizza degli indici di ricerca con le sequenze associate ai documenti dai quali sono state estratte. In generale elimina
le keyword presenti nella maggior parte dei testi perché ritenute poco significative e, per la stessa ragione, non
considera stop word, come gli articoli e le preposizioni.
Questa tecnologia può essere integrata con eventuali strumenti aggiuntivi:
• 
algoritmi di ranking, che definiscono la logica con cui ordinare per rilevanza i risultati delle interrogazioni (di solito
numero delle occorrenze dei termini e loro posizione nel documento). La piattaforma di maggior successo oggi sul
mercato è quella di Google che, applicata agli ipertesti HTML, calcola il ranking considerando anche il valore dei
link fra le pagine;
• 
thesaurus, ovvero un sistema di correlazione fra sequenze alfanumeriche il cui scopo è aggiungere sinonimi o
flessioni;
• 
talvolta uso di stemming, cioè raggruppamenti di parole in base alla loro radice per coglierne le possibili flessioni (es.
developing troncato in develop per associare anche developed).
10
Statistica
La tecnologia statistica si basa sulla deduzione delle caratteristiche dei testi durante una fase di
addestramento con un corpus documentale di esempio; tali caratteristiche riguardano sia la cooccorrenza di termini fra documenti che trattano lo stesso argomento, che la presenza di parole di
frequenza medio-bassa spesso considerate particolarmente significative per caratterizzare i testi.
Questa tecnologia può essere integrata con eventuali strumenti aggiuntivi:
• 
uso di stemming (processo di riduzione della forma flessa di una parola alla sua forma radice, detta
tema. Esempio andai, andiamo, andranno ! tema: and, ! lemma: andare );
• 
Pattern Recognition, cioè identificazione della morfologia di raggruppamenti di termini, come
somiglianza della sequenza di caratteri e come contestualizzazione.
11
Linguistica e Semantica
Queste tecnologie sono basate sull'analisi linguistica approfondita, che arriva fino al riconoscimento del significato
(semantica). Eseguono l’analisi morfologica elaborando le keyword, l’analisi grammaticale riconoscendo il lemma base
(la forma del termine così come compare nel vocabolario), l’analisi logica di periodo (identificando soggetto, verbo,
complemento oggetto, proposizioni reggenti, subordinate, ecc.) e con memoria del contesto nell'ambito del
documento. Raggiungono in questo modo il livello di interpretazione concettuale, distinguendo fra le varie accezioni dei
termini e riconoscendo i diversi modi per esprimere la stessa informazione. Il risultato dell'analisi è la costruzione di una
mappa cognitiva e concettuale del testo.
L’utilizzo di queste tecnologie porta inoltre i seguenti benefici:
•  comprende implicitamente la capacità di costruire indici sulle keyword, in quanto primo passo dell'analisi linguistica;
•  gestendo in maniera completa la lingua, non trae vantaggio dall'utilizzo congiunto con altre tecnologie;
•  riconoscendo i lemmi è in grado di gestire tutte le flessioni dei termini; arrivando all'identificazione dei concetti
gestisce, tramite la rete semantica, i corretti sinonimi, ad es. distingue fra tempo sinonimo di clima e tempo inteso
come epoca storica.
12
Valutazione efficacia: Recall and Precision
Recall e Precision sono i principali indici per valutare l’efficacia delle soluzioni che effettuano l’analisi delle informazioni
contenute nei testi.
Recall è la capacità di trovare più informazioni possibili rilevanti e attinenti a ciò che si sta cercando;
Precision è la capacità di individuare con precisione le informazioni utili (solo quelle).
A seconda della funzionalità si può dare una definizione più esatta di questi indici.
Ad esempio: nel caso di information retrieval, l’efficacia è la capacità di accedere a tutti e solo i documenti rilevanti per
una data interrogazione.
Quindi:
Recall = RIRI / (RIRI + NRRI)
Precision = RIRI / (RIRI + RINR)
13
Difficile trovare le informazioni
Efficacia della ricerca
Cresce la quantità di informazioni
• 15 Petabytes di nuove informazioni al giorno
• 15 milioni di ricerche al mese
Diminuisce l’efficacia della ricerca
• 1/3 delle ricerche non trovano risultati
• oltre due ore al giorno spese nella ricerca di informazioni
Web
Desktop
PC Era
Social Web
Keyword Search (Google)
Directories
Files & Folders
Databases
Quantità di informazioni
Semantic
Web
Natural Language Search
Tagging
Il problema dell’analisi dei testi
Stessa parola ma con diversi significati
calcio
elemento chimico
sport
Parole diverse ma con lo stesso significato
Presidente
del Consiglio
Capo del
Governo
15
Una tecnologia unica
Partendo dalla comprensione delle frasi racchiuse nei testi,
il software semantico COGITO® controlla il caos generato
dalle migliaia di documenti con cui abbiamo a che fare
ogni giorno: articoli, mail, pagine web, sms…
Oltre i limiti delle keyword
Grazie alla
comprensione del
significato delle parole,
la tecnologia semantica
seleziona,
analizza,
correla
SOLO LE INFORMAZIONI GIUSTE
17
Il valore della semantica
Luca mangia il pollo
L’analisi semantica capisce:
"  le relazioni tra le parole
Luca=soggetto
mangia=verbo
il pollo=comp.oggetto
"  il significato delle parole
Mangiare=ingerire cibo
Diverso il significato di mangiare in
“si è mangiato il patrimonio di suo padre”
“il maglione è mangiato dalle tarme”
“la tua auto mangia troppo olio”
Demo: Mangiare
18
Cogito: come funziona
Il Sensigrafo® Italiano
Il Sensigrafo® contiene
tutte le informazioni
occorrenti per l'analisi
dei testi. Si tratta della
conoscenza linguistica
generica della lingua in
uso, comprensiva dei
nomi propri, che può
essere arricchita e
personalizzata con i
termini appartenenti a
particolari ontologie.
Il Sensigrafo® Italiano: il syncon
Nel Sensigrafo® i lemmi (cioè le parole) sono organizzati in
syncon. Per syncon si intende un insieme di sinonimi che
rappresentano lo stesso concetto lessicale.
Ogni syncon coincide con un nodo della rete semantica ed è
collegato agli altri da precise relazioni semantiche (= link) in
una struttura gerarchica ad ereditarietà.
In questo modo, ogni nodo si arricchisce delle caratteristiche
e del significato dei nodi vicini.
Parser
Il Parser esegue una completa analisi morfologica,
grammaticale e sintattica della frase in tempi estremamente
ridotti, gestendo oltre 3500 regole. Il parser è costruito ad hoc
per l interrogazione della rete semantica, superando i limiti
delle metodologie di parsing esistenti.
Parser
Il Parser è il motore che identifica i singoli elementi che
compongono un testo, attribuendogli l esatta funzione logica
e grammaticale.
Il Sensigrafo® Italiano: i principi di ordinamento
Le relazioni semantiche (i link), che individuano le parentele
semantiche tra i syncon, sono i principi di ordinamento per
l'organizzazione dei concetti del Sensigrafo.
I syncon possono contenere:
-  lemmi singoli ('sedia', 'vacanza'; 'lavorare', 'studiare'; 'bello')
-  parole composte ('non-stop', 'abat-jour', 'capoconvoglio')
-  collocazioni ('carta di credito', 'titolo di studio', 'andare avanti )
I principali elementi di un syncon sono:
- il tipo grammaticale (sostantivo, verbo, aggettivo, avverbio)
- la relazione semantica (o link)
- la glossa, cioè la spiegazione del significato
- dominio, registro, frequenza
Il Sensigrafo® Italiano: le relazioni tra i syncon
Nella rete semantica, il vero significato di un syncon
è dato non solo dal concetto espresso dai suoi
elementi (sinonimi), ma anche dalle relazioni che
intercorrono con gli altri syncon.
I principali tipi di link presenti nel Sensigrafo sono i
seguenti:
- supernomia/subnomia
- superverbia/subverbia
- omninomia/parsnomia
- verbo/soggetto
- verbo/complemento oggetto
Il Sensigrafo Italiano:
supernomia/subnomia
La subnomia riguarda il rapporto che sussiste tra un
concetto specifico e uno più generale.
Il supernomen, quindi, è il termine più generico; è una
parola che ha un significato generale rispetto ad altre che
rappresentano specificazioni particolari di quello stesso
significato.
ESEMPI
Cane – cane da caccia – irish terrier
Abitazione – appartamento – bilocale
Computer – computer portatile – palmtop computer
Il Sensigrafo Italiano:
superverbia/subverbia
La subverbia è una delle relazioni semantiche che
legano tra loro i syncon di tipo verbale.
Per quanto riguarda la relazione verbale di
superverbia/subverbia valgono le stesse regole
della subnomia dei sostantivi.
ESEMPI
Mangiare - mangiucchiare, mangiare
svogliatamente
Dormire - sonnecchiare, dormicchiare
Camminare - zoppicare
Il Sensigrafo Italiano:
omninomia/parsnomia
La relazione di omninomia/parsnomia si tratta di
una relazione tutto/parte . Parsnomen è cioè un
termine che indica una parte di qualcosa
(omninomen).
ESEMPI
Arto – mano – dito
Casa – bagno – lavandino
Albero – tronco – corteccia
Il Sensigrafo® Italiano:
verbo/soggetto
Se, dato un sostantivo, si seleziona il link verbo/
soggetto , il Sensigrafo mostra tutti i verbi legati
normalmente (cioè più frequentemente) a quel nome
quando esso nella frase svolge la funzione di
soggetto.
ESEMPI
Cibo – avariare/ disgustare/ scarseggiare
Banca – accreditare/ vincolare/ finanziare
Il Sensigrafo® Italiano:
verbo/complemento oggetto
Se, dato un sostantivo, si seleziona il link verbo/
oggetto , Il Sensigrafo mostra tutti i verbi legati
normalmente a quel nome quando esso nella frase
svolge la funzione di complemento oggetto.
ESEMPI
Acqua – bere/ inquinare/ mineralizzare
Monumento – restaurare/ ammirare/ progettare
Il Sensigrafo multilingue
Il Sensigrafo
multilingue si basa
sulla rete semantica
inglese a cui possono
essere correlate N
lingue diverse.
La struttura consente
di specificare, oltre
che relazioni
linguistiche, anche
relazioni proprie del
cliente che
arricchiscono la rete
di ontologie verticali e
personalizzando sulla
base delle specifiche
esigenze.
Il Sensigrafo multilingue: Inglese-Arabo
I nodi della rete
semantica inglese
sono collegati
logicamente con i
corrispondenti
concetti della
lingua araba.
In questo modo
ereditano tutte le
informazioni degli
altri nodi
consentendo
ricerche incrociate
e, in prospettiva,
traduzioni
automatiche.
Disambiguare
Per un uomo, il significato è una cosa scontata, perché
molti sono gli elementi che vengono in aiuto per capire
in quale accezione è utilizzata una parola.
Ad un programma bisogna trasmettere
un interpretazione del mondo univoca costruendogli un
sistema di riferimento che sia l equivalente
dell esperienza del mondo dell uomo
Se addestrati a una sorta di buon senso umano, i
computer possono dotarsi di una logica di
comprensione del mondo e unirla alla potenza della
propria memoria e capacità di calcolo, con risultati
unici.
Disambiguatore semantico
Il disambiguatore dei significati è il programma che
analizza singole frasi o interi documenti e distingue il
giusto significato per ogni elemento che incontra,
eliminando ogni possibile ambiguità.
Compie ragionamenti che distinguono i diversi
significati di tutti gli elementi di un testo, individuando il
contesto in cui questi sono collocati.
Cos’è una rete semantica?
Una ricca mappa delle associazioni e dei significati delle parole
•  Contiene tutte le accezioni delle parole
•  Include le relazioni fra i vari significati delle parole
La qualità dei risultati
dell’analisi semantica
dipende dalla ricchezza
e dalla complessità della
rete semantica
La rete semantica italiana
di COGITO:
438.000 concetti
• 2.000.000 relazioni
•
Semantica,
Application ambiti
areas applicativi
Le applicazioni
1.  Ricerca semantica
2.  Gestire contenuti
3.  Estrarre informazioni
4.  Intelligence
5.  NLP
6.  Sentiment
36
1.Ricerca semantica
Accedere facilmente alle informazioni
•  Ricerca efficace grazie a una chiara comprensione di ciò che l’utente
sta cercando
•  Navigazione flessibile tra i risultati della ricerca
•  Estrazione più veloce rispetto ai metodi tradizionali
Che macchina cerchi?
Ad esempio cercando il termine “macchina”, inteso come
“veicolo a motore”, il motore semantico propone come
risultati tutte le parole riferibili allo stesso concetto: “auto,
automezzo, autoveicolo”e anche termini più particolari
come “berlina, utilitaria, diesel, cabriolet” ecc., mentre
non saranno considerati i termini “macchina fotografica,
macchina del caffè, ecc.
x x
Demo: COGITO SEE
Macchina
38
Information retrieval
L’esempio più noto dell’attività di
ricerca di informazioni riguarda i
motori di ricerca internet che
indicizzano le pagine dei siti web
pubblici. La stessa funzionalità si
può utilizzare in intranet o su archivi
documentali.
Esempio: Google! espresso…
39
2. Gestire contenuti
Organizzare la conoscenza con efficacia
•  Categorizzazione precisa dei documenti, arricchimento dei contenuti
con metadati e tag semantici
•  Esplorazione interattiva e recupero mirato di dati utili
•  Gestione efficiente di grandi quantità di contenuti editoriali
40
Categorizzazione
La categorizzazione rappresenta
l’archiviazione automatica dei testi
secondo una tassonomia
prestabilita. Le soluzioni di
categorizzazione possono inoltre
essere impiegate per lo smistamento
automatico delle posta elettronica o
della corrispondenza del protocollo
informatico.
Tassonomie: es. IPTC
41
3. eDiscovery
Estrarre informazioni rilevanti in un mare di dati
•  Selezione, organizzazione e controllo dettagliato di dati strutturati e
documenti testuali
•  Recupero tempestivo di informazioni specifiche, tramite un drill-down
che consente di filtrare i dati di interesse
•  Riduzione di tempi e costi di gestione delle informazioni
42
Information extraction (ETL)
Le soluzioni di Information Extraction
sono software per l’estrazione di
specifiche informazioni dai testi, la
loro trasformazione in una forma
normalizzata (univoca) e
archiviazione in un database.
DEMO: Webix
43
4. Intelligence
Fiutare i rischi legati ai cambiamenti
•  Riduzione dei rischi di compliance grazie a un’accurata protezione e
organizzazione dei dati nel rispetto delle normative
•  Costante monitoraggio di leggi e procedure per migliorare le
opportunità di business e rendere più efficaci i modelli organizzativi
44
Intelligence
Le applicazioni di intelligence elaborano le informazioni contenute nei testi con funzionalità sofisticate come la
scoperta automatica di correlazioni e la costruzione di report di sintesi.
DEMO: Webix
quella ragazza è una bomba.
45
quella ragazza ha un bomba.
5. Collaborazione
Connettere attivamente dati e persone
•  Semplice accesso e condivisione ai contenuti interni ed esterni
•  Gestione ottimizzata di apposite piattaforme di business collaboration
(es. Sharepoint)
•  Aggiornamento in real-time, non più solo archivi statici
46
Interfaccia in linguaggio naturale
Ricevere richieste e comandi tramite il linguaggio umano. Questa funzionalità si deve occupare di “interpretare” i
comandi che l’operatore scrive.
DEMO: wiki, Cosmos
47
Multichannel Self-help Solutions
Self-help via web, email ed SMS
per dare risposte immediate ai clienti
Cogito
Answers
•  Aumenta la
customer
satisfaction
•  Si riducono
tempi e costi di
assistenza
48
6. Sentiment
Fiutare i rischi legati ai cambiamenti
•  Riduzione dei rischi di compliance grazie a un’accurata protezione e
organizzazione dei dati nel rispetto delle normative
•  Costante monitoraggio di leggi e procedure per migliorare le
opportunità di business e rendere più efficaci i modelli organizzativi
49
Semantica, perché è diversa
Al contrario dei sistemi tradizionali che effettuano un’analisi
superficiale, la tecnologia semantica è in grado di
comprendere con precisione il significato delle parole e le
relazioni tra i vari elementi di una frase…
Quale auto è bella?
La BMW
è bella!
La#BMW,#l’auto#che#
ho#comprato#per#
sos4tuire#la#mia#
Mercedes,#è#bella#
La#BMW#è#l’auto#che#ho#
comprato#per#sos4tuire#
la#mia#bella#Mercedes#
La Mercedes
è bella!
50
Understanding content
Tabella riassuntiva
Utilizzando le informazioni dei capitoli precedenti, vengono classificate tutte le tecnologie rispetto all’efficacia (la
capacità di realizzare la funzione) e l’efficienza (il costo complessivo della soluzione e quindi l’applicabilità). Nel
capitolo dedicato alle conclusione sarà interpretato quanto emerge in questo schema riassuntivo.
L’evoluzione della tecnologia
Confronto fra tecnologie semantiche
Come tecnologie semantiche per la lingua italiana, oltre alla piattaforma COGITO® di Expert System, esistono solo
sistemi software della ricerca universitaria, per la lingua inglese invece esiste qualche prodotto in competizione.
In genere prevedono la strutturazione della conoscenza della lingua con una rete semantica. Un confronto
potrebbe essere basato sui seguenti parametri.
54
Gestione delle diverse lingue
La gestione di lingue diverse è un importante parametro di valutazione. Le tre diverse tecnologie utilizzano approcci
diversi e richiedono differenti effort per la gestione del problema.
Keyword
• 
in quanto mere sequenze alfanumeriche, l'unico problema è gestire i diversi "set di caratteri" (latino, cirillico, etc.)
cioè l'alfabeto;
• 
lo stemming (troncare/approssimare le parole) in alcune lingue funziona male nell’identificazione delle flessioni. Ad
es. per l’italiano considerando il verbo scegliere, se prendiamo la radice "sceglie" non riconosce "scelto";
• 
l'espansione delle keyword mediante thesaurus (sinonimi, flessioni) deve essere sviluppata specificatamente per le
varie lingue;
• 
impegno necessario per la gestione di diverse lingue ->Medio/Basso.
Statistica
• 
considera i testi come una sequenza di caratteri, quindi funziona indifferentemente per le varie lingue, deve solo
gestire il "set di caratteri", cioè l'alfabeto;
• 
impegno necessario per la gestione di diverse lingue ->Nullo.
Linguistica e Semantica
• 
l’analisi grammaticale, logica e semantica dipendono strettamente dalla lingua di riferimento;
• 
lo sviluppo di una versione per un'altra lingua comporta la stesura di una versione specifica degli algoritmi e la
creazione di una rete semantica;
• 
impegno necessario per la gestione di diverse lingue ->Alto.
55
Solo in Silicon Valley?
Silicon Valley:
incubatore perfetto
per le aziende
tecnologiche
Gli inizi
Fondata a Modena nel 1989, Expert System ha
perseguito fin da subito un obiettivo preciso:
sviluppare un software unico al mondo.
Dopo aver mosso i primi passi in un garage di
periferia, grazie a un’idea vincente abbiamo
conquistato la fiducia di Microsoft, che ha
integrato i nostri software linguistici negli
applicativi per ufficio più diffusi al mondo.
Il coraggio di cambiare
1998: dai correttori grammaticali e ortografici al
Natural Language Processing.
In seguito all’avvento di internet, Expert System decide di
trasformare la propria attività sviluppando soluzioni per il
mercato business.
Una forte cultura dell’innovazione:
il ruolo dell’università
Università
serve una formazione approfondita,
per coniugare le conoscenze scientifiche con la capacità
di applicazione e
gestione progettuale
Alcuni dati
"  Ultimi tre anni: raddoppiati fatturato e
valore della produzione, oltre €11,5 milioni
nel 2010, EBITDA del 20%.
" 
2009-2011: 30% risorse impegnate in R&D,
più €10 milioni investiti. +€5 milioni previsti
per il prossimo biennio
" 
Oltre 130 professionisti, sedi in Italia e uffici
a Londra, Washington D.C. e Chicago
Alcuni clienti
Supporta aziende ed enti
governativi di ogni settore
nella gestione delle informazioni
non strutturate e nell’utilizzo dei
dati strategici, accelerando i
processi di innovazione e
migliorando la produttività.
Parlano di noi
Cogito, la comprensione
automatica dei significati
63
Q&A
64
Contatti
Grazie #
Marcello Pellacani
VP Corporate Division
Expert System
[email protected]
www.expertsystem.it
Scarica