Text Mining nella PA Text Mining nella PA Elena Fabbris SAS / Data Mining & CRM Solutions (in collaborazione con Settore Dati in Rete CSI Piemonte) Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Data Mining & Text Mining Data Mining Oggetto d’analisi Struttura dell’oggetto Obiettivo Anzianità Text Mining Dati categorici e File di testo numerici Database Forme testuali relazionali Classificazione Recupero e predizione informazioni da dati testuali Dal 1994 Dal 2000 Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Che cos’è il Text Mining? E’ il processo di analisi: per estrarre nuova e valida conoscenza dispersa nei documenti di testo Q per dedurre informazioni da dati non strutturati combinati con variabili quantitative Q conoscenza Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Obiettivi del Text Mining • Strumento di estrazione di conoscenza da documenti testuali • Sistema automatico che permette di – Leggere – Interpretare – Classificare ed integrare i dati provenienti da numerose fonti (Internet, Intranet, Banche dati, Mail, Forum, Report…) • Classificazione automatica dei documenti – Assegnazione di testi in distinte aree tematiche basandosi su documenti testuali ed utilizzando strumenti analitici Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Text Mining: Ambiti di applicazione • Gestione dei documenti all’interno di un datawarehouse • Risposte domande aperte nelle interviste • Commenti / Lamentele degli Utenti/Clienti • Database Scientifici o Legali • Rassegna Stampa • Filtro e redirezionamento delle e-mail • Organizzazione dei documenti per argomento • Classificazione automatica delle news • Classificazione delle richieste ai Call Center / Help Desk Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Fasi Text Mining File Testuali Cleaning dei dati Riduzione dei dati Analisi Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Analisi dei Dati • Cluster Analysis – I documenti vengono classificati in gruppi omogenei sulla base dei termini • Algoritmi predittivi – A partire dai risultati della Cluster Analysis è possibile classificare nuovi documenti – Nota una classificazione a priori è possibile indirizzare automaticamente documenti verso una delle classi Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Dalla Teoria … alla pratica: Esperienze di Text Mining nella PA in Piemonte • Guide del Gusto: Veronelli, Slowfood – Michelin, Gambero Rosso, Espresso, Touring Club, Accademia della Cucina Italiana • Banca Dati Leggi Regionali Piemonte • Rassegna Stampa Turismo Piemonte Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Guide del Gusto • In collaborazione con Osservatorio Turistico Regione Piemonte • Locali piemontesi censiti dalle guide Veronelli e Slowfood • ‘I Ristoranti di Veronelli’ 6 Cluster – Ristoranti Tipici spaziosi – Novità – Cucina Creativa – Ristoranti Tipici e Rurali – Ristoranti Prestigiosi – Ristoranti Tipici Molto Buoni Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Guide del Gusto • ‘Osterie d’Italia’ 4 Cluster – Cheap Osteria – Stagione Estiva – Osteria Tipica – Ristoranti ‘Chiocciolina’ Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Banca Dati Leggi Regionali • http://arianna.consiglioregionale.piemonte.it • Leggi Regionali del Piemonte dal 1971 al 2004 • 1.878 Leggi Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Frequenze Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Termine Termine Sinonimi Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Filtro Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Banca Dati Leggi Regionali – – – – – – Territorio Turismo&Cultura Rifiuti Organizzazione Regionale Formazione e Sviluppo Aziende Elena Fabbris – SAS / Data Mining & CRM Solutions – – – – – – Assistenza Agricoltura Finanziario Ambiente Ruoli Istituzionali Edilizia Text Mining nella PA Territorio Territoriale Turismo&Cultura Rifiuti Tutela Alberghiero Discarica Urbanistico Sport Depurazione Trasporti Sviluppo Smaltimento Ambiente Montano Scuola Raccolta Tutelare Agricoltura ….libero Tempo Inquinamento Fauna Agrario …. …. Forestale Fondiario Boschivo Allevamento …. …. Venatorio Produzione …. Trasformazione …. Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Interpretazione Gruppi • Gruppi per Materia Trattata • Gruppi negli Anni • Gruppi per Durata/Sedute Iter Elena Fabbris – SAS / Data Mining & CRM Solutions Text Mining nella PA Rassegna Stampa Turismo • Classificazione articoli Rassegna Stampa in gruppi simili per termini contenuti • Identificare i termini che caratterizzano la Regione Turistica sulla Stampa – Selezione del sottinsieme Turismo – Come viene descritta la Regione dalla Stampa? • Creazione di una nuova suddivisione da confrontare con la pre-esistente – Rassegna Stampa Regione Piemonte Elena Fabbris – SAS / Data Mining & CRM Solutions