Simona Balbi
Professore Ordinario di Statistica
Università di Napoli “Federico II”
http://unina.academia.edu/SimonaBalbi/
Nuovi metodi di classificazione automatica
Obiettivo della lezione è illustrare alcune tecniche di classificazione particolarmente
interessanti per affrontare problemi di categorizzazione dei documenti, ponendo
attenzione, in particolare, all’ottica del co-clustering di termini e documenti. Si
illustrerà come, anche quando l’obiettivo della classificazione sia rivolto ad un’unica
dimensione (di solito i documenti), possa risultare vantaggioso procedere a
raggruppamenti di righe e di colonne, sulla base dell’ottimizzazione di un opportuno
criterio. La motivazione è prima di tutto di natura computazionale, ma nel caso
specifico di tabelle documenti x termini, l’identificazione di gruppi di parole, non
necessariamente contigue, risulta essere maggiormente informativo dal punto di vista
dell’analisi del contenuto. Nel corso della lezione si illustreranno alcuni algoritmi noti
in letteratura, spesso sviluppati nell’ambito dell’analisi di espressione genica, ma con
applicazioni anche di text mining, ed alcune proposte meno note nate nell’ambito
dell’analisi dei dati testuali. Alcuni casi studio correderanno la presentazione.
Introduzione di informazione esterna per la visualizzazione del contenuto di
tabelle lessicali
Nell’analisi di dati di questionari sovente l’attenzione viene posta al trattamento
congiunto di risposte a domande aperte e a domande chiuse. Il caso tipico è quello
dell’analisi di una tabella lessicale aggregata, quando vengono costruiti gruppi di
rispondenti, sulla base della risposta da loro fornita ad una domanda chiusa.
L’obiettivo è analizzare le risposte aperte fornite, ad esempio, dai “giovani” o dalle
“donne anziane”. In questi casi, il tipico trattamento è l’analisi delle corrispondenze
lessicali. Si discuterà l’opportunità del ricorso ad una variante quale l’analisi non
simmetrica delle corrispondenze, al fine di tenere conto della relazione di dipendenza,
ad esempio, del vocabolario dalla caratteristica socio-demografica considerata.
Ulteriori esempi di trattamento congiunto di dati numerici e testuali verranno
illustrati, tratti da problemi di ricerche di mercato, quali la definizione del
prodotto/servizio ideale, in un contesto di conjoint analysis o quando si voglia
introdurre informazione esterna, oltre che sugli individui, anche sulle parole.
Sergio Bolasco
Professore ordinario di Statistica
SAPIENZA Università di Roma
http://geostasto.eco.uniroma1.it/utenti/bolasco/
Strumenti per l'estrazione di informazione e analisi statistiche
multidimensionali
In questa lezione si integrano tecniche per la selezione dell’informazione a livello
lessicale con analoghi strumenti per l’estrazione di entità di interesse a livello
testuale. Queste attività, finalizzate a processi di ETL (trasformazione di dati non
strutturati in informazioni strutturate), permettono di arricchire la matrici di
dati da sottoporre ad analisi con tecniche multidimensionali.
1
Nella sessione si presentano in maniera intuitiva i fondamenti delle tecniche di
riduzione dei dati: processi di mapping e interpretazione degli assi fattoriali,
nonché i criteri per interpretare una cluster analysis di documenti, applicata a
tabelle lessicali.
Casi di studio sulla costruzione di risorse statistico-linguistiche, esempi di
linguistica dei corpora e individuazione di dimensioni semantiche latenti.
La lezione è incentrata sui fondamenti per la costruzione di risorse statisticolinguistiche (dai lessici di frequenza alle grammatiche locali), nonché su casi di
categorizzazione automatica di documenti sia in forma deterministica e univoca,
sia di tipo fuzzy e quindi plurima.
Si illustrano alcune applicazioni reali con l’uso della piattaforma Taltac 2.10, in
filiera con l’utilizzo di tecniche statistiche multidimensionali (software Spad) per
analisi di contenuto e individuazione di modelli di senso su raccolte di documenti
semi-strutturati (rassegne stampa), domande aperte in questionari, diari
individuali, recensioni, forum.
Domenica Fioredistella Iezzi
Professore Associato di Statistica Sociale
Università di Roma “Tor Vergata”
http://www.filosofia.uniroma2.it/docenti/iezzi/index.html
Analisi esplorative per la visualizzazione di dati testuali
La trasformazione di un’informazione non strutturata in un dato strutturato produce,
generalmente, matrici di dati sparse, che sono scarsamente maneggevoli e non
visualizzabili. Questo problema è noto in letteratura con il nome di “maledizione della
dimensionalità”. Per contrastarlo è possibile eseguire un’operazione di riduzione delle
dimensioni della matrice sparsa, cercando, contemporaneamente, di perdere il minor
contenuto informativo possibile. Tra i metodi più noti in letteratura troviamo l’Analisi
in Componenti Principali, l’Analisi delle Corrispondenze Lessicali e lo Scaling
Multidimensionale.
La lezione ha l’obiettivo di mostrare delle applicazioni con le tecniche citate,
presentando punti di contatto e differenze tra i diversi metodi proposti. Gli esempi
saranno sviluppati mediante l’ausilio del software R.
Introduzione al text clustering
La clusterizzazione dei documenti rappresenta un ambito rilevante di applicazioni nel
campo del text mining. La maggior parte degli algoritmi proposti in letteratura utilizza
un approccio vettoriale, impiegando, generalmente, la matrice “bag-of-words’” per
rappresentare i testi e classificarne i contenuti.
Obiettivo della lezione è illustrare le principali caratteristiche degli algoritmi di text
clustering più utilizzati in letteratura. Si impiegheranno vari sistemi di pesi (binario,
di frequenza e TFIDF) e diverse matrici di prossimità (euclidea e del coseno). I casi di
studio, sviluppati durante la lezione, consentiranno di mostrare le peculiarità di
ciascun approccio.
Gli esempi saranno sviluppati con l’ausilio del software R.
2
Ludovic Lebart
Telecom - Paris-Tech
Direttore di ricerche del CNRS
http://www.dtmvic.com/05_SoftwareI.html
Il trattamento delle domande aperte nelle indagini campionarie e strumenti di
visualizzazione di base
Le domande aperte sono utilizzate in indagini socio-economiche, epidemiologiche,
marketing, ricerche di mercato. Esse rilevano aspetti essenziali per la ricerca,
soprattutto quando i temi trattati sono complessi o poco conosciuti. L’elaborazione di
risposte aperte è una sfida sia per gli statistici sia per gli specialisti che si occupano di
analisi del testo. La lezione avrà l’obiettivo di mostrare una serie di esempi di
trattamento di domande aperte e di discutere alcune varianti di pre-processing.
Si esamineranno, inoltre, gli strumenti di visualizzazione di base, come le analisi
fattoriali (analisi delle componenti principali e analisi delle corrispondenze) e i metodi
di clustering, che svolgono un ruolo importante nell'esplorazione informatizzata dei
corpora testuali. Queste tecniche, infatti, mostrano gruppi di parole e di individui,
evidenziano associazioni tra unità di senso; riescono a disambiguare un testo mediante
l'attribuzione dello stesso a una categoria di intervistati o ad un determinato periodo.
Altri strumenti di visualizzazione. Tecniche di validazione per ricampionamento
In questa lezione, saranno descritte altre tecniche di visualizzazione come il Self
Organizing Maps: SOM, minimum spanning tree e alcuni metodi di validazione di
risultati. In particolare, sarà illustrata la tecnica di ricampionamento bootstrap, che
permette di individuare delle aree di confidenza (ellissi o convex hulls) intorno ai
punti rappresentati sulle principali mappe, se i punti sono parole o testi. Si esaminano
in dettaglio diverse varianti di questa tecnica: il total bootstrap e il partial bootstrap
sia dal punto di vista teorico che applicativo.
Céline Poudat
Assistant professor of Linguistics- University of Paris 13
http://poudat.net/
A practice of textual data analysis with DtmVic and Lexico3.
This course is the practical application of Ludovic Lebart's conferences on
visualization and validation of textual data using DtmVic and Lexico3. The students
will develop skills in visualization tools (principal axes methods complemented with
clustering techniques, self organizing maps). Characteristic elements of partitions
(words, sentences) will also be presented both using the software DtmVic for the
computation of characteristic textual units, and Lexico3 for the computation of
chronological specificities. The course deals also with Lexico3 functionalities
regarding text sequentiality (section maps), and with the various validation techniques
available in DtmVic (bootstrap). A set of corpora will be provided together with the
software packages and the users guides.
3