TEXT MINING Una miniera di documenti… C’è stata una enorme crescita nel volume dei documenti on line (WWW, Intranet, Biblioteche elettroniche) Vi è la necessità di strumenti che permettano di ottenere informazione a partire dai dati Web Mining Text Mining Il Text Mining Processo che ha lo scopo di trovare informazioni interessanti a partire da testi non strutturati servendosi di tecniche statistiche, informatiche, linguistiche Si serve di tecniche automatiche (linguistiche, statistiche, lessicometriche) “Setacciare” l’informazione codificata nel testo OUTCOMES: Definire e rilevare le competenze professionali per la transizione UniversitàUniversità-Lavoro Data Mining e Text Mining (1) :: Data Mining è un processo atto a: scoprire correlazioni, relazioni, tendenze nuove e significative, a partire da grandi quantità di dati immagazzinati nei repository, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche E il TEXT Mining Data Mining e Text Mining (2) :: Data Mining DATI SRUTTURATI Text Mining DATI NON STRUTTURATI SOTTO FORMA DI TESTO Linguaggio Naturale: Naturale: è difficile da modellizzare per la sua complessità Gli obiettivi del Text Mining :: Organizzare, classificare, categorizzare :: Creare sintesi ed estratti :: Identificare tendenze nel tempo :: Identificare dipendenze e relazioni non note :: Creare indicatori specifici per il Decision Making :: Visualizzare le proprietà dei dati, degli insiemi di dati e le relazioni tra dati e “collezioni” Le fasi di un processo di Text Mining Information Retrieval Information Extraction Information Mining Interpretazione Le tecniche di Text Mining Necessità di tecniche che permettano: • Il retrieval delle informazioni contenute in testi • La visualizzazione dell’informazione • La classificazione di documenti • L’identificazione di patterns e relazioni tra i dati testuali Uno strumento di Text Mining dovrebbe permettere: La ricerca: essere in grado di recuperare la porzione di testo o l’informazione interessante per l’applicazione ; La visualizzazione: essere in grado di ottenere una rappresentazione grafica dell’informazione; L’esplorazione: avere una piattaforma che permetta all’utente di navigare attraverso il testo costruendo propri percorsi di navigazione e di ricerca Compiti del Text Mining Scopo => Aiutare l’utente a soddisfare il suo bisogno informativo attraverso :: Ricerca :: Browsing (Navigazione) :: Visualizzazione ::Altri compiti compiti:: Overview dell’intera collezione, Zoom, Filtering, Selezione e Dettaglio, Log delle azioni per permettere azioni di undo/redo, Raffinamento progressivo, Identificazione su sub sub--popolazioni Ricerca :: Nella ricerca l’utente formula una domanda al sistema sotto forma di query richiedendo di localizzare i documenti corrispondenti :: L’utente non sempre sa bene cosa cercare (scarsa conoscenza del linguaggio e del vocabolario appropriato, richieste vaghe) Motori di ricerca Es.. Google, Altavista Es Browsing L’utente naviga all’interno della base di dati testuali Il browsing permette al navigatore di soddisfare bisogni informativi vaghi poiché non è richiesta un’esplicita descrizione dei suoi bisogni informativi :: Links tra documenti :: Structure guided browsing Es. le directory di Yahoo! :: Flat browsing Es. le mappe di documenti Visualizzazione Esistono bisogni informativi che richiedono la considerazione di similarità, differenze, interrelazioni tra collezioni di documenti Nella visualizzazione si usa qualcosa di “familiare” per illustrare qualcosa ancora non familiare L’utilizzo di adeguate tecniche di visualizzazione permette la comunicazione rapida ed intuitiva delle intricate relazioni tra grandi collezioni di testi Es. mappe fattoriali, SOM Ambiti di applicazione :: Motori di ricerca (in generale, information retrieval) :: Applicazioni aziendali: analisi delle e-mail ricevute, analisi di report aziendali e sulla concorrenza, analisi di risposte a questionari con domande aperte, analisi dei reclami :: Ambito letterario :: Ambito politicopolitico-sociale :: CRM :: Case Based Reasoning Tecniche utilizzate :: :: :: :: :: Analisi statistica dei dati testuali Linguistica Computazionale AI (Intelligenza artificiale) Machine Learning Interazione tra: Statistica Computer Science Linguistica