Text Mining nella PA

annuncio pubblicitario
Text Mining nella PA
Text Mining nella PA
Elena Fabbris
SAS / Data Mining & CRM Solutions
(in collaborazione con Settore Dati in Rete CSI Piemonte)
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Data Mining & Text Mining
Data Mining
Oggetto
d’analisi
Struttura
dell’oggetto
Obiettivo
Anzianità
Text Mining
Dati categorici e
File di testo
numerici
Database
Forme testuali
relazionali
Classificazione
Recupero
e predizione
informazioni da dati
testuali
Dal 1994
Dal 2000
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Che cos’è il Text Mining?
E’ il processo di analisi:
per estrarre nuova e valida conoscenza
dispersa nei documenti di testo
Q
per dedurre informazioni da dati non
strutturati combinati con variabili quantitative
Q
conoscenza
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Obiettivi del Text Mining
• Strumento di estrazione di conoscenza da documenti testuali
• Sistema automatico che permette di
– Leggere
– Interpretare
– Classificare ed integrare i dati provenienti da numerose
fonti (Internet, Intranet, Banche dati, Mail, Forum,
Report…)
• Classificazione automatica dei documenti
– Assegnazione di testi in distinte aree tematiche basandosi
su documenti testuali ed utilizzando strumenti analitici
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Text Mining: Ambiti di applicazione
• Gestione dei documenti all’interno di un
datawarehouse
• Risposte domande aperte nelle interviste
• Commenti / Lamentele degli Utenti/Clienti
• Database Scientifici o Legali
• Rassegna Stampa
• Filtro e redirezionamento delle e-mail
• Organizzazione dei documenti per argomento
• Classificazione automatica delle news
• Classificazione delle richieste ai Call Center /
Help Desk
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Fasi Text Mining
File Testuali
Cleaning dei dati
Riduzione dei dati
Analisi
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Analisi dei Dati
• Cluster Analysis
– I documenti vengono classificati in gruppi
omogenei sulla base dei termini
• Algoritmi predittivi
– A partire dai risultati della Cluster Analysis è
possibile classificare nuovi documenti
– Nota una classificazione a priori è possibile
indirizzare automaticamente documenti verso
una delle classi
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Dalla Teoria … alla pratica:
Esperienze di Text Mining nella PA in
Piemonte
• Guide del Gusto: Veronelli, Slowfood
– Michelin, Gambero Rosso, Espresso, Touring Club,
Accademia della Cucina Italiana
• Banca Dati Leggi Regionali Piemonte
• Rassegna Stampa Turismo Piemonte
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Guide del Gusto
• In collaborazione con Osservatorio Turistico
Regione Piemonte
• Locali piemontesi censiti dalle guide Veronelli e
Slowfood
• ‘I Ristoranti di Veronelli’ 6 Cluster
– Ristoranti Tipici spaziosi
– Novità
– Cucina Creativa
– Ristoranti Tipici e Rurali
– Ristoranti Prestigiosi
– Ristoranti Tipici Molto Buoni
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Guide del Gusto
• ‘Osterie d’Italia’
4 Cluster
– Cheap Osteria
– Stagione Estiva
– Osteria Tipica
– Ristoranti ‘Chiocciolina’
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Banca Dati Leggi Regionali
• http://arianna.consiglioregionale.piemonte.it
• Leggi Regionali del Piemonte dal 1971 al
2004
• 1.878 Leggi
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Frequenze
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Termine
Termine
Sinonimi
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Filtro
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Banca Dati Leggi Regionali
–
–
–
–
–
–
Territorio
Turismo&Cultura
Rifiuti
Organizzazione Regionale
Formazione e Sviluppo
Aziende
Elena Fabbris – SAS / Data Mining & CRM Solutions
–
–
–
–
–
–
Assistenza
Agricoltura
Finanziario
Ambiente
Ruoli Istituzionali
Edilizia
Text Mining nella PA
Territorio
Territoriale
Turismo&Cultura
Rifiuti
Tutela
Alberghiero
Discarica
Urbanistico
Sport
Depurazione
Trasporti
Sviluppo
Smaltimento
Ambiente
Montano
Scuola
Raccolta
Tutelare
Agricoltura
….libero
Tempo
Inquinamento
Fauna
Agrario
….
….
Forestale
Fondiario
Boschivo
Allevamento
….
….
Venatorio
Produzione
….
Trasformazione
….
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Interpretazione Gruppi
• Gruppi per Materia Trattata
• Gruppi negli Anni
• Gruppi per Durata/Sedute Iter
Elena Fabbris – SAS / Data Mining & CRM Solutions
Text Mining nella PA
Rassegna Stampa Turismo
• Classificazione articoli Rassegna Stampa in
gruppi simili per termini contenuti
• Identificare i termini che caratterizzano la
Regione Turistica sulla Stampa
– Selezione del sottinsieme Turismo
– Come viene descritta la Regione dalla Stampa?
• Creazione di una nuova suddivisione da
confrontare con la pre-esistente
– Rassegna Stampa Regione Piemonte
Elena Fabbris – SAS / Data Mining & CRM Solutions
Scarica