TEXT MINING
Una miniera di documenti…
C’è stata una enorme crescita nel volume dei
documenti on line (WWW, Intranet, Biblioteche
elettroniche)
Vi è la necessità di strumenti che permettano di
ottenere informazione a partire dai dati
Web Mining
Text Mining
Il Text Mining
Processo che ha lo scopo di trovare informazioni
interessanti a partire da testi non strutturati
servendosi di tecniche statistiche, informatiche,
linguistiche
Si
serve di tecniche automatiche (linguistiche,
statistiche, lessicometriche)
“Setacciare” l’informazione
codificata nel testo
OUTCOMES: Definire e rilevare le competenze professionali per la transizione UniversitàUniversità-Lavoro
Data Mining e Text Mining (1)
::
Data Mining
è un processo atto a:
scoprire correlazioni, relazioni, tendenze
nuove e significative, a partire da grandi
quantità di dati
immagazzinati nei repository,
usando tecniche di riconoscimento delle
relazioni
e
tecniche
statistiche
e
matematiche
E il TEXT Mining
Data Mining e Text Mining (2)
:: Data Mining DATI SRUTTURATI
Text Mining DATI NON STRUTTURATI
SOTTO FORMA DI TESTO
Linguaggio Naturale:
Naturale:
è difficile da modellizzare per la sua complessità
Gli obiettivi del Text Mining
:: Organizzare, classificare, categorizzare
:: Creare sintesi ed estratti
:: Identificare tendenze nel tempo
:: Identificare dipendenze e relazioni non note
:: Creare indicatori specifici per il Decision Making
:: Visualizzare le proprietà dei dati, degli insiemi di
dati e le relazioni tra dati e “collezioni”
Le fasi di un processo di
Text Mining
Information
Retrieval
Information
Extraction
Information
Mining
Interpretazione
Le tecniche di Text Mining
Necessità di tecniche che permettano:
• Il retrieval delle informazioni contenute
in testi
• La visualizzazione dell’informazione
• La classificazione di documenti
• L’identificazione di patterns e relazioni
tra i dati testuali
Uno strumento di Text Mining
dovrebbe permettere:
La ricerca:
essere in grado di recuperare la porzione di testo
o l’informazione interessante per l’applicazione ;
La visualizzazione:
essere in grado di ottenere una rappresentazione
grafica dell’informazione;
L’esplorazione:
avere una piattaforma che permetta all’utente di
navigare attraverso il testo costruendo propri
percorsi di navigazione e di ricerca
Compiti del Text Mining
Scopo => Aiutare l’utente a soddisfare il suo bisogno informativo
attraverso
:: Ricerca
:: Browsing (Navigazione)
:: Visualizzazione
::Altri compiti
compiti:: Overview dell’intera collezione,
Zoom, Filtering, Selezione e Dettaglio, Log
delle azioni per permettere azioni di
undo/redo,
Raffinamento
progressivo,
Identificazione su sub
sub--popolazioni
Ricerca
::
Nella ricerca l’utente formula una
domanda al sistema sotto forma di query
richiedendo di localizzare i documenti
corrispondenti
:: L’utente non sempre sa bene cosa cercare
(scarsa conoscenza del linguaggio e del
vocabolario appropriato, richieste vaghe)
Motori di ricerca
Es.. Google, Altavista
Es
Browsing
L’utente naviga all’interno della base di dati
testuali
Il browsing permette al navigatore di
soddisfare bisogni informativi vaghi poiché
non è richiesta un’esplicita descrizione dei
suoi bisogni informativi
:: Links tra documenti
:: Structure guided browsing
Es. le directory di Yahoo!
:: Flat browsing
Es. le mappe di documenti
Visualizzazione
Esistono bisogni informativi che richiedono la
considerazione di similarità, differenze,
interrelazioni tra collezioni di documenti
Nella visualizzazione si usa qualcosa di
“familiare” per illustrare qualcosa ancora non
familiare
L’utilizzo
di
adeguate
tecniche
di
visualizzazione permette la comunicazione
rapida ed intuitiva delle intricate relazioni tra
grandi collezioni di testi
Es. mappe fattoriali, SOM
Ambiti di applicazione
:: Motori di ricerca (in generale, information
retrieval)
:: Applicazioni aziendali: analisi delle e-mail
ricevute, analisi di report aziendali e sulla
concorrenza, analisi di risposte a questionari
con domande aperte, analisi dei reclami
:: Ambito letterario
:: Ambito politicopolitico-sociale
:: CRM
:: Case Based Reasoning
Tecniche utilizzate
::
::
::
::
::
Analisi statistica dei dati testuali
Linguistica Computazionale
AI (Intelligenza artificiale)
Machine Learning
Interazione tra: Statistica
Computer Science
Linguistica