Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Intro
Information Overload
Migliaia di documenti vengono prodotti ogni
giorno:
80% testuali
20% numerici
[email protected]
2
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Intro
Information Overload
Internet/Intranet, DB, ...
HTML, XML, PDF, Word, TXT, …
Inglese, Francese, Tedesco, Italiano,
Arabo, Cinese, Russo…
[email protected]
3
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Intro
Information Overload
Brevetti, Pubblicazioni scientifiche
E-mail
WEB
Telefonate
Stampa
Percezione e Conoscenza della
realtà che ci circonda
[email protected]
4
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Che cosa è il Text Mining
Insieme di tecniche linguistico-matematiche per

Analizzare fonti testuali
Strutturare e classificare automaticamente il
contenuto


Trovare l’informazione nascosta
Supporto nel
Processo Decisionale
[email protected]
5
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Che cosa non è il Text Mining

Non è analisi puntuale di un testo, ma
analisi quantitativa e qualitativa di un
insieme esteso di testi.

Non è una metodologia di archiviazione
di testi in argomenti predefiniti, noti a
priori. Non è routing dell’informazione.
[email protected]
6
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Informazione
come Supporto nel
Processo Decisionale
Text Mining per

Ottenere una visione di insieme degli argomenti

Accedere all’informazione su base tematica

Trovare l’informazione nascosta
Trovare l’informazione
d’interesse
[email protected]
7
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Come gestire migliaia di documenti?
Banche
dati
Database
Internet
[email protected]
8
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Come gestire migliaia di documenti?
Innovazione online
Back-end
Banche
dati
Modelli
Dizionari
Grammatiche
SEARCHBOX+TWIDEXPERT
(Analisi linguistica, statistica)
STALKER/OML server
Front-end
Ufficio1
Internet
Search engine
Banca dati
Intranet
Ufficio3
Clustering engine
Ufficio2
[email protected]
9
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Architettura (STALKER)
Banche
dati
SearchBox
Crawler
Lexical
plugin
TWID
plugin
Modelli
Dizionari
Grammatiche
TWIDExpert
TWIDExpert
Internet
Stalker server
Reverse
indexes
Search engine
Banca dati
[email protected]
Clustering engine
10
Intro
Text Mining
STALKER/OM
L
Analisi dati
Analisi risultati
Il processo produttivo
Back-end

Scelta e preparazione dei dati

Analisi dei dati e storage
Front-end

Ricerca e Analisi dei risultati
Monitoraggio, consultazione e
approfondimento
[email protected]
11
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Scelta e Preparazione dati (BackEnd)

Scelta:

Preparazione:
[email protected]
12
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(brevetti, pubblicazioni, e-mail, …)
Analisi Lessicale per
Distinguere “ciò che è detto” da
“come viene detto”
trovare convergenze nel significato
cogliere l’informazione da classificare
[email protected]
13
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale)
Analisi Morfo-sintattica e/o
Terminologica
rimuovere Ambiguità
Analisi Logica
Analisi Semantica
trovare Sinonimi
espandere Acronimi
raggruppare Varianti Grafiche
estrarre Espressioni Composte
[email protected]
Identicazione
automatica
dei descrittori
per ciascun
documento
14
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Morfo-sintattica)
DETTI
DETTO: nome, masc. plur.
DETTARE: verbo, ind. pres. 2a pers. sing.
DARE: verbo, ind. pass. rem. 1a pers. sing.
DIRE: verbo, part. pass. masc. plur.
TRATTO
TRATTO, TRATTARE
Analisi Grammaticale riduce le ambiguità
Lemma
invio, inviati, invia  inviare [verb]
capi stazione  capo stazione [noun]
15
[email protected]
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Morfo-sintattica)
[email protected]
16
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Semantica)
( $, dollaro, biglietto verde, … )
trovare Sinonimi
espandere Acronimi
( ANP  Autorità Nazionale
Palestinese )
( visto, veduto )
raggruppare Varianti Grafiche
estrarre Espressioni Composte ( carta di credito,
Ministro degli Esteri )
trovare convergenza nel significato
[email protected]
17
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
Identificazione della
lingua
Lemmatizer/
Parsing, lemmatizzazione
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Estrazione terminologica
Multilingual Teminology
Allineamento multilingua
matcher
Multi-lingual
Dictionaries
Indicizzazione terminologica
Ricerca e clustering
Indexer
Documents DB
non solo lemmi,
ma soprattutto
[email protected]
18
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Morfo-statistica)
Analisi Morfologica + pattern matching
(n+base(n)  credit card, fuel cell, … )
( base(n)+prep+n+prep+n  arma di distruzione di massa, ... )
Analisi Statistica
• Soglia di Frequenza
• Soglia di Significatività
(n > 1, 1 = f(SW-MW,nTot,…) )
( log((1/n) * (nTot/nDoc) * f(POS)*...) > 2 )
Trovare l’informazione rilevante
[email protected]
19
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
guanto[NOUN]
paraffina [NOUN]
guanto di paraffina [NOUN]
rilevare [VERB]
traccia[NOUN]
polvere[NOUN]
polvere da sparo[NOUN]
non solo lemmi, ma terminologie
[email protected]
20
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Analisi Statistica
Identificazione della
lingua
Lemmatizer/
Parsing, lemmatizzazione
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Estrazione terminologica
Multilingual Teminology
Allineamento multilingua
matcher
Multi-lingual
Dictionaries
Indicizzazione terminologica
Ricerca e clustering
Indexer
Documents DB
[email protected]
21
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Analisi Statistica
[email protected]
22
Intro
Text Mining
STALKER/O
ML
Analisi dati
Analisi risultati
Ricerca e Classificazione
Ricerca per chiavi
ed accesso puntuale
Raggruppamento in
classi affini per contenuto
Concatenazione fra
classi correlate
[email protected]
23
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Analisi dei risultati
Mappe
Liste ordinate
[email protected]
24
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Scoperta di risultati inaspettati
Consultare documenti per tema
Trovare relazioni nascoste
[email protected]
25
Intro
Text Mining
STALKER/OML
Analisi dati
New
I nuovi sviluppi: motore di ricerca in
linguaggio naturale multilingua
[email protected]
26
Intro
Text Mining
STALKER/OML
Analisi dati
New
I nuovi sviluppi: document analyser
[email protected]
27
Intro
Text Mining
STALKER/OML
Analisi dati
Info
Indirizzi utili
Trovare l’informazione
[email protected]
http://www.synthema.it/textmining
http:// www.spi-rit.net
[email protected]
28