Text mining

annuncio pubblicitario

TEXT MINING 1
la preparazione del corpus (come passare dal linguaggio naturale a
delle matrici su cui e possibile fare delle analisi statistiche)
INTRO:
Lo sviluppo di internet di tutti gli strumenti informatici che abbiamo oggi ha fatto si che la
quantità di dati a nostra disposizione sia vertigginosamente aumentata; la maggiorparte di
questi dati sono in formato testuale, che provengono da documenti ma anche da numerose
altre fonti (articoli di giornali, riviste, social network…).
.
Due sono gli elementi da sottolineare:
● Vi è una maggiore diffusione dell'informazione da un punto di vista socio
demografico culturale e geografico.
● Vi è una maggiore diversificazione del contenuto informativo, in relazione ai diversi
bisogni conoscitivi degli utenti.
La crescente mole di dati disponibili immediatamente su supporto digitale spesso in forma
documentaria, vede allo stesso tempo necessario e possibile il ricorso a strategie sempre
più complesse per l'estrazione, l'analisi e l'organizzazione della conoscenza, finalizzate
alla soddisfazione di uno specifico bisogno informativo.
Nell’ambito del knoledge discorvery database, nell’ambito del data mining si parte da dati gia
costruiti sulla quale cerchiamo pattern significativi che ci aiutano a prendere delle decisioni.
La mole delle informazioni testuali è diventata enorme, ciò a reso più netta la separazione
tra l’analisi di dati strutturati e l’analisi di dati non strutturati, al punto che il Data Mining e il
Text Mining sono ritenuti ambiti di ricerca nettamente distinguibili.
Il text mining ha come obiettivo quello di estrarre conoscenza a partire da
grandi raccolte di fonti testuali (cd documenti) es: voglio analizzare gli articoli
di giornale sull’immigrazione provenienti da un tot di testate giornalistiche
famose.
Quando parliamo di raccolta di documenti spesso ci riferiamo a Corpus di documenti,
o ancora la possiamo definire collezione di documenti.
La collezione di documenti rappresenta la nostra popolazione statistica, le
occorrenze saranno i termini presenti all’interno dei documenti e queste occorenze
avranno un diverso peso, che potrebbe essere la presenza assenza del termine nel
documento, potrebbe essere la frequenza di quel termine all’interno del doc...
FONTI DEL TEXT MINING:
1. EMAIL: Le email sono la forma più ricca dal punto di vista informativo è più semplice
da analizzare. E’ il mezzo attraverso cui le persone comunicano all'interno e
all'esterno di aziende ed organizzazione. Possono essere analizzate sia le email
interne ad un'organizzazione sia quelle ricevute dall'esterno od inviate all'esterno da
organizzazione.
Monti algoritmi di classificazione automatica sono nati per distinguere le mail di
spam, questo è un esempio tipico della applicazione del mining dove l’obiettivo è
andare a dividere in due categorie le email (supervisionata utiliziamo parole chiave o
trining set per indivisuare le email).
2. OPINION SURVEY: Spesso le opinioni che sono analizzate con cura nella parte
codificato dove prevista la risposta sì, no o numerica. Sono invece analizzate in
maniera superficiale nella parte testuale, ove si raccolgono le risposte un testo libero
le domande aperte. Il text mining usato per tutte quelle interviste di tipo qualitativo in
cui è prevista la risposta aperta (es focus group In cui vengono registrate le risposte
enti da un gruppo di individui sottoposti a un prodotto da un moderatore) oppure
word cloud delle opinioni espresse.
3. SOCIAL MEDIA DATA, NEWSGROUPS, CHATLINES: Sono importanti e ricche fonti
di informazione dato che riguardano i temi più disparati, dai consumi alla politica. il
problema con questo tipo di informazione è che l'informazione pertinente è all'interno
di frasi e/o affermazioni di scarsa importanza, espresse con linguaggio spesso
gergale. Grazie al text mining queste affermazioni/ opinioni possono essere
analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive.
I dati testuali stanno diventando sempre più importanti per i processi legati
all'estrazione di conoscenza. Il test mining applicazioni in tantissimi ambiti
Psicologici, Economici, andamento della borsa seguendo il sentiment dei twitt,
opinioni rispetto ad un brand, review di amazon, tripadvisor etc.
I testi sono dati non convenzionali perché non strutturati, per analizzarli da un punto di vista
statistico è necessario:
● Pretrattare i testi
● ridurre la dimensionalità
● ridurre la variabilità
● disambiguare
Hanno questa particolarità i testi perché la lingua è produttiva ed ha tantissima variabilità, e
la variabilità della lingua cambia anche in relazione all’idioma; i testi sono non strutturati
quindi per la loro analisi è necessario pretrattare cioé codificarli in qualche modo, ridurre la
dimensionalità e la variabilità; se andiamo a considerare ad es parola per parola all’interno di
un testo non avremo un granché di informazioni utili, avremo una matrice sparsa e vuota in
quanto ci sono tante parole diverse, poche ripetute e per lo più sono privi di utilità (es articoli
e connettivi preposizioni).
Disambiguare significa capire il contesto in una data parola è utilizzata, ad esempio parole
che si scrivono allo stasso modo ma hanno un significato diverso es canto sostantivo o
verbo oppure i termini polisemici pesca frutto o sport, questa è una pecca iytaliana perché
non scriviamo con gli accenti.
Obiettivi del text mining:
Un processo di text mining allo scopo di trovare informazioni interessanti a partire da testi
non strutturati servendosi di tecniche statistiche, informatiche, linguistiche
●
●
●
●
●
●
●
Organizzare, classificare, categorizzare documenti sia a fronte di informazioni
conosciute a priori
Creare sintesi ed estratti
Individuazione di topic attraverso classificazione di parole chiave e doc
identificare tendenze nel tempo, es attraverso twitter che è una miniera di
informazioni, come cambia la tendenza di un tema nel tempo
identificare dipendenze e relazioni non note
creare indicatori specifici per il decision making
visualizzare le proprietà dei dati, degli insiemi dei dati e le relazioni tra i dati e
collezioni.
Feature generation: individuazionde delle variabili (bag of words encoding che è un modo di
codificare il testo in forma vettoriale)
Feature selection: individuazione delle parole in modo da ridurre la variabilità del
vocabolario, individuando le keyword. Ridurre la variabilità facendo una selezione delle
keyword. -> metodi di riduzione dimensionale, che possono essere sia di feature selection
seleziono una parte delle variabili iniziali, l’altro approccio che si utilizza quando si fa l’acp o
l’analisi delle corrispondenze multiple è detto di feature extraction, ossia individuo delle
combinazioni lineari delle variabili di partenza che ne siano una sintesi, ciò provocare una
sintesi che nn sempre è interpretabile, entrambi gli pprocci hanno espressi positivi e
negativi.
LE ORIGINI DEL TEXT MINING: LO SUDIO DEL LINGUAGGIO
Il linguaggio naturale è la facoltà, esclusiva del genere umano, di esprimere sensazioni e
sentimenti, riflessioni, giudizi; narrare fatti o descrivere aspetti della realtà mediante un
Medium che sia espressione di un dato livello comunicativo.
Viene prima chiamata statistica lessicale successivamente viene chiamata statistica testuale
che è un mix Tra informatica e statistica, Gli statistici si sono entrati piano piano nell'ambito
del text mining è stata una prorogativa degli ingegneri e degli informatici, gli smbiti di
applicazione sono disparati:Sociologia psicologia filosofia economia eccetera.
Un esempio di lessici di frequenza sono i lessici costruiti con una serie di annate di
repubblica dove è stato costruito un dizionario di frequenza dei termini, e vengono utilizzati
per compararlo con altri dizionari, per capire se capire se sovro o sotto utilizza tali parole
(per stimare il lessico utilizzato in altri contesti- fare un paragone per capire la peculiarietà di
un linguaggio).
Con l’affermarsi e il diffondersi di strumenti informatici adeguati, sia hardware che software,
è stato possibile sviluppare delle tecniche d’analisi della lingua sempre più sofisticate.
Gli studi sul linguaggio naturale intrapresi da linguisti, sociologi e psicologi, sono stati
affiancati dal lavoro che informatici e statistici, partendo spesso da problematiche e
prospettive diverse, hanno effettuato sui dati testuali.
Gli approcci che si basano su metodologie statistiche fanno riferimento a strumenti di tipo
quantitativo per trattare le unità linguisti che contenute in una raccolta di testi.
Lo step iniziale riguarda l’analisi multidimensionale dei dati:
E’ in particolare alla scuola francese di Analyse des Donneés che va il merito di aver
determinato un notevole salto di qualità nell’analisi dei dati testuali e aver prodotto le prime
proposte metodologiche compatibili con quelle di taglio informatico.
In particolare: Negli anni 50’ le prime apllicazioni sn state di uno studio sulle opere di un
drammaturgo francese Cornelle, i primi studi sulla linguistica infatti si sono fatti per capire a
chi attribuire testi con autore sconosciuto.
Successivamente Benzécri si interesse ai metodi di analisi dei dati all’applicazione dello
studio della lingua, ponendo le basi alla Analisi dei Dati linguistici,(utilizzando l’analisi delle
corrispondenze binarie che è un caso particolare dell’analisi delle corrispondenze mutiple, e
va a studiare la struttura di associazione tra due var quelitative.
Negli anni 80’ Lebart e Salem hanno dato vita a quella che oggi chiamiamo Statistica
testuale (o statistica lessico testuale) che è un tipico approccio quantitativo alla lingua.
La statistica testuale a differenza della statistica lessicale pone maggiore attenzione alla
testualità della base di dati analizzata. La tendenza testuale attuale è quella di statistica
lessico/testuale che utilizza un approccio integrato, intervenendo a priori sul testo oggetto di
analisi e considerando un supporto delle meta-informazioni di carattere linguistico.
L'unità elementare del linguaggio, la parola, non si presta a diverse ad una definizione
univoca, perché la lingua difficilmente può essere vista in senso statistico come un
“universo”.
La variabilità del fenomeno lingua non è facilmente misurabile è l'ampiezza del vocabolario
risulta sensibilmente differente da idioma a idioma. Basta pensare al verbo parlare che in
italiano ha molte più derivazioni (è quindi più variabile) rispetto all'inglese.
NB La parola può essere tanto una singola parola che un insieme di parole, cioè frasi.
Vi è una grande variabilità nella lingua, la lingua è produttiva nel senso che vengono
proposte sempre nuove parole ; ad esempio nel vocabolario italiano possono venire
integrate nuove parole sia ufficialmente (incluse nel vocabolario) che officiosamente (es
#selfie, trade off).
Possiamo riferirsi a tutte queste modifiche ai termini parlando di processi morfologici, ad
esempio passare dal plurale al singolare, dal maschile al femminile eccetera..
La morfologia importante per il linguaggio naturale perché la lingua e produttiva.
In ogni testo analizzato è possibile Infatti incontrare parole o forme flesse di parole non
comprese nei dizionari cui si fa riferimento, parole nuove morfologicamente connesse a
parole note, da cui è possibile inserire le diverse proprietà sintattiche e semantiche.
I principali processi morfologici da considerare sono:
● Flessione
● Derivazione
● Composizione
Le flessioni sono modificazioni sistematiche della radice di una casa parola (cd lessema),
per mezzo di prefissi o suffissi.
Non cambiano il significato della parola e non agiscono sulla categoria grammaticale,
quindi non agiscono sulla categoria sul significato della parola ma su caratteristiche quali il
genere e il numero o il tempo verbale.
Il processo di derivazione invece è un cambiamento più forte, ad esempio il cambiamento
da aggettivi a sostantivi e dei sostantivi aggettivi in avverbi. Il cambiamento è più radicale
della categoria grammaticale spesso anche del significato e dell'uso della parola.
Composizione è la fusione di due parole distinte in una parola composta con, talvolta,
significato completamente diverso da quello delle singole parole costituenti. è l’unione di due
parole che ne frma una terza in inglese è definito multiword expression, è un fenomeno
molto diffuso in inglese.
Questo fenomeno è meno diffuso rispetto ad altre lingue necessità comunque dall'utilizzo di
preposizioni e congiunzioni. Es: portafoglio
Infatti sono i cd Gruppo nominale polirematico, es carta di credito, È un'espressione
linguistica composta non modificabile che ha un significato proprio (autonomo) come una
parola singola.
Un esempio il gruppo nominale polirematico è scalamobile.
Accanto a questi termini in un corpus di documenti potremmo avere situazioni di segmenti
ripetuti.
I Segmenti ripetuti, sono porzione di testo che si presentano nel testo più volte, e quindi
per l'analisi è opportuno tenerne conto, es presidente del consiglio, presidente del consiglio
dei ministri, presidente del senato, presidente della camera tutti questi termini significano
una cosa a se, e nell’analisi devo considerare ciascun di questi termini una cosa distinta.
Ossia ad es presidente del consiglio deeve rappresentare una colonna della matrice.
LE PARTI DEL DISCORSO
Linguisti solitamente raggruppano le parole proprie di una lingua in classi che mostrano un
comportamento sintattico simile, sovente una struttura semantica tipica.
Tali classi sono comunemente indicate con il nome di categorie grammaticali o categorie
sintattiche, ma con maggior precisione vengono indicate parti del discorso (POS).
Le POS lessicali o aperte(parole piene), Rappresentano la classe più numerosa e sono in
costante aggiornamento, poi è in continuo processo di acquisizione e coniazione di parole
nuove.
●
POS lessicali ~ sostantivi aggettivi verbi
Le POS funzionali o chiuse Numero di elementi limitati caratterizzate dal fatto di avere
all'interno di una grammatica un ruolo ed utilizzo definito.Servono per costruire il testo ma
non ha apporto informativo, per cui si potrebbero eliminare a monte
●
POS funzionali ~articoli, preposizioni, congiunzioni, pronomi , evverbi
PAROLE PIENE E PAROLE VUOTE
Le forme principali ho parole piene sono portatrice di parti sostanziali del contenuto di un
corpus, delle sue modalità di nunciazione o di azione. Sono le parole su cui effettivamente si
fa l’analisi (es analisi del sentiment).
Le forme strumentali Sono una classe di Forme che non hanno significato autonomo una
volta estrapolata dai contesti, e pertanto inutili da considerare nell'ottica del trattamento
statistico. Poliform sono generalmente indicate come parole vuote o stop Word: sono utili a
discernere il senso generale del fenomeno analizzato ma devono essere filtrata per
semplificare l'analisi, diminuendo la presenza di rumore nella base di dati.
Costruzione di un elenco di forme strumentali (stop list)è un problema delicato. è
impossibile Infatti compilare un elenco che vada bene per tutti gli scopi: non ci sono
particolari problemi con le POS funzionali ma è necessario individuare di volta in volta, a
seconda del contesto, quelle forme che risultano banali e quindi povere di contenuto
informativo.
STOP LIST= elenco di parole che posso decidere di eliminare dal corpus dei miei testi
perché non apportano contenuto, tale stop list non è unica e generale ma cambia in base al
contesto.
LA FORMA GRAFICA
Una parola è convenzionalmente una forma grafica ossia una sequenza di caratteri
appartenenti ad un alfabeto predefinito delimitata da due separatori ( Ad esempio segni
di interpunzione, spazi). tale definizione proprio perché frutto di convenzione risulta essere
arbitraria.
Il riconoscimento all'interno del Corpus di tutte le forme grafiche che lo compongono,
Conduce ad una perdita di informazione sul significato, i contesti, lo stile, è più in generale
di tutti quei fenomeni generati dalla combinazione di segnali linguistici, poiché stiamo
andando a spezzettare il testo in parole singole.
Nel momento in cui togliamo la parola da contesto non sappiamo più la diff ta ambito e
ambìto, amo: amore e amo della pesca
Dobbiamo fare un lavoro di disambiguazione.
PRETRATTAMENTO DEL CORPUS (text preprocessing)
A partire da una raccolta di testi dopo il parsing (raccolta di dati), si procede a
normalizzazione (eventuale), estrazione dei segmenti (tutte le parole composte),
lessicalizzazione dei segmenti individuati, costruzione del vocabolario, tagging
grammaticale, lemmatizzazione (eventuale), costruzione della tabella lessicale cioè scelta di
organizzazione dei dati (della matrice), ed infine analisi dei dati testuali.
NORMALIZZAZIONE
Attraverso la fase di normalizzazione si agisce sui caratteri non separatori per entrare alcune
delle possibili fonti di sdoppiamento del dato. In pratica con la normalizzazione si eliminano
ad es le date, le date scritte in modi diverso, o nomi: matteo e salvini può diventare tutto
matteo salvini. In questa fase bisogna stare attenti.
Una normalizzazione è l’abbassamente delle maiuscole, che però ci farebbe perdere i nomi
propri.
Uno dei problemi più comuni e di non facile trattazione quello della composizione, ho sia la
costruzione di forme derivate composte a partire dalle forme semplici, utilizzando il segno “-”
hyphen. Nell'italiano Infatti questi sono spesso grafie diverse di una stessa forma, ad es la
parola tradeoff può essere scritta trade off o trede-off ma vogliono dire tutte la stessa cosa.
E’ necessario normalizzare in un unica parola altrimenti occuperebbe tre colonne diverse.
Le normalizzazioni basate sul liste consentono ad esempio di ridurre il tasso delle unità
lessicali ambigue, ricorrendo ad un etichettatura di forme e/o sequenza di forme la cui
specificità andrebbe perduta nelle fasi successive di trattamenti.
NB possono esserci tantissimi modi di scrivere una stessa parola ad es IPhoneX, iphonex
ecc. bisogna indicarlo in maniera univoca in modo da facilitare l’analisi.
Le unità minimali di senso, daremo un misto di forme grafiche semplici e di frammenti più
lunghi di testo, che hanno senso da soli.
i segmenti ripetuti sono gruppi di parole che possono essere sia vuote come: nulladiche,
oppure caratteristiche: presidente del consiglie.
Sono definite forme testuali quelle più complesse.
I lemmi sono le parole così come si presentano nel vocabolario: canto diventerà cantare.
Cioè si prende la forma flessa e la traformiamo nel lemma di riferimento.
COME VENGONO IDENTIFICATI I SEGMENTI
Si considerano tutte le combinazioni di parole tra i separatori forti (cioè non lo spazio),
si prende il testo e R con la funzione collocation individua tutte le possibili combinazioni
presentando la frequenza con la quale si ripetono nel testo;
Per avere segmenti senza ridonzanza andiamo a sottrarre al segmento più lungo il numero
di volte che si presentano i segmenti più corti inclusi nello stesso (13-7=6).
Poiché piccola proprietà si presenta 13 volte complessivamente ma 7 volte sta insieme a
piccola proprietà contadina.
L’individuazione dei segmenti ci consente di ridurre la variabilità, ma soprattutto di
identificare aspetti fondamentali del testo.
Dopodiché andiamo a fare l’operazione di lessicalizzazione, cioè prendiamo i segmenti che
abbiamo individuato e tra loro inseriamo l’underscore “_” es giorgia_meloni,
piccola_proprietà_contadina.
In questo modo i segmenti diventernno un unica forma grafica.
Lessicalizzaziione=inserire un carattere che fa si che quella forma coposta o complessa
venga ridotta ad una singola entrata nel vocavbolario.
Il vocabolario non è altro che la lista di termini della nostra collezione.
Possiamo guardare il vocabolario in due modi diversi: o ordinato in ordine alfabetico, cd
Ordinamento lessicografico, oppure in ordine di occorrenza (frequenza), cd ordinamento
lessicometrico.
L’ordinamento alfabetico serve er individuare più facilmente tutti i refusi, ad es ci sn tanti
termini che hanno errori di battitura ma vanno accorpati, dipende anche dalla freq di questi
termini.
LEMMATIZZAZIONE
E’ una fase eventuale, ogni forma flessa contenuta nella collezione viene riportata al lemma
di riferimento, per lemma si intende la forma canonica contenuta nel dizionario.
La lemmatizazione è una fase eventuale poiché dipende dal nostro scopo e se ci
interessano o meno le forme flesse.
Anche perché ci sono molti termini ambigui ch potrebbero essere ricondotti al lemma
sbagliato, es pesce -> frutto e verbo pescare.
TAGGING GRAMMATICALE
Taggare ogni parola con la parte del discorso a cui appartiene, quindi ogni termine sapremo
se è un verbo un articolo un avverbio un sostantivo ecc, spesso questo passaggio è legato
alla lemmatizzazione, la lemmatizzazione è un procedimento automatico che tiene conto
della parola prescedente e di quella successiva.
Il tagging semantico significa etichettare delle forme del nostro vocabolario con delle
metainformazioni di tipo semantico, es stiamo analizzando dei documenti economici, usiamo
un vocabolario contenente i termini tecnici in modo da poter taggare i termini della collection,
tali termini possono anche essere messi nella stop list.
LA DISAMBIGUAZIONE
Forme omografe: per omonimia si intendono tutte quelle forme che possono essere
identiche come rappresentazione lessicale, ma si distinguono nei loro contesti pragmatici,
forme flesse di lemmi differenti. es Fine (obiettivo sostantivo maschile, la fine sostantivo
femminile, fine ->elegante aggettivo)
Forme polisemiche: a forme già esistenti vengono attribuiti nuovi significati per non inventare
una nuova parola es farfalla( è un insetto ma anche un elemento del motore).
Individuabili attraverso l’analisi delle concordanze, ossia guardando la parola prima di quella
e dopo quella per capire il contesto.
ANALISI DESCRITTIVA
Dopo aver fatto il preprocessing avremo l’ampiezza del nostro vocabolario, ossia l’insieme di
tutte le forme uniche (type) presenti nel corpus, per descrivere il corpus a livello quantitativo
in una prima fase, avremo il vocabolario con le forme distinte e il num di doc che abbiamo.
Vi sono tutti i miei type, v1 le forme che si presentano 1 volta cd hapax, v2 le forme che si
presentano due volte e così via. Numero di type.
Spesso gli hapax vengono eliminati, in quanto spesso sono gli errori di battitura.
N è il numero di token, ossia il num totale di forme che ci sono nel mio corpus di partenza,
N è dato dal numero di hapax + 2 per le parole che si presentano quelle parole e così via.
A partire da questi 2 numeri è possibile calcolare delle misure di ricchezza lessicale:
L’estensione lessicale= quanto più alto è tale valore tanto più è ricco il mio vocabolario,
poiché non mi ripeto.
La ricercatezza del linguaggio= rapporto tra il num di parole che si presentano una volta e il
numero di type, se ci sono tante parole che si ripetono una volta tanto maggiormente
ricercato è il mio linguaggio.
Per valori troppo alti significa che il linguaggio è costituito da troppe forme originali, quindi nn
ho possibilità di aggregazione.
Matrice NxV
Sono le parole strumentali il 25 % che non sono parole discriminanti, le forme rare sono
quasi la metà 45% che si presentano in una sola canzone.
Come scegliamo le parole da considerare e quali da eliminare? Dovremmi scegliere un
opportuno taglio cioè non consideriamo parole con una frequenza maggiore di e minore di.
La frequenza è importante perché la frequenza di una parola e un indizio per capirne il
contenuto (indicativo del contenuto) ->intensità di un tema all’interno di un testo.
TEXT MINING 2
La codifica dell’informazione testuale
Dopo la fase di pretrattamento del text mining vi è la fase di codifica dell’informazione
testuale, ossia trasformiamo la nostra base di dati testuali in una forma che sia trattabile con
strumenti statistici classici o strumenti ad hoc per i dati testuali; andremo quindi
sostanzialmente a trasformare la base dati in una matrice.
Lo schema maggiormente utilizzato e il cd bag of words, ogni documento viene visto come
un vettore nello spazio delle parole del vocabolario della nostra collezione, tali termini sono
tirati fuori dal proprio contesto, non si tiene più conto del ruolo grammaticale delle parole nel
testo, il vocabolario viene inserito come colonne di una matrice ed ogni riga sarà un
documento. Ogni doc sara un vettore Di con elementi wi1, wi2 … wip dove i e l’i-esimo doc
della nostra collezione, e ciascun termine w rappresenta il peso di quella parola all’interno
del documento.
I documenti essendo vettori possono essere giustapposti per riga per avere una matrice che
sia documenti per parole in cui all’incrocio vi è il peso associato al termine (esistono
moltissimi schemi di ponderazione diversi), lo schema di ponderazione più semplice è lo
schema booleano, che vuol dire semplicemente presenza /assenza del termine all’interno
del documento, 1 se c’è 0 se non c’è, lo svantaggio di questo schema è l’impossibilità di
ordinare i documenti per rilevanza, e quindi di fare un ranking basato sull’intensità di
presenza di un termine.
Il secondo tipo di schema è quello basato sulla frequenza e si suppone che quanto più un
termine sia presente all’interni di un documento tanto più sia espressione del contenuto del
documento, in pratica andiamo a contare quante volte ciascuno dei termini del vocabolario
della collezione si presenta per ciascuno dei documenti.
Dallo schema di peso basato sulla frequenza ne sono stati sviluppati altri più complessi ad
esempio frequenze normalizzate che tiene conto della presenza di ciascun termine rispetto
al termine che si presenta con maggior frequenza all’interno di quel documento, cioè nel
nostro vettore documenti individueremo il termine più frequente a cui rapporteremo le
frequenze degli altri termini.
Uno degli schemi di ponderazione più famoso è il TF-IDF.
E’ uno schema di ponderazione complesso formato dal prodotto tra due parti diverse: peso
locale e peso globale; il peso locale è una frequenza normalizzata che tiene conto del num
max di volte in cui il termine si presenta nel documento, mentre il peso globale è il rapporto
tra il num di doc nel corpus e il num di doc che presentano quel termine, in questo modo
cerchiamo di identificare il potere discriminante di una parola, cioè discriminazione del
contenuto. Nel momento in cui teniamo conto dell’inverso della frequenza di quel termine
dell’intera collezione teniamo conto del peso globale di quel termine, ad es se un termine è
presente in tutti i documenti quel termine non funge da discriminante dei doc, infatti quando
più Nj si avvicina a N tanto minore è log(N /N j) . Il peso che assoceremo al termine sarà un
numero,non più una frequenza, che rappresenta l’intensità di presenza e di quanto è
discriminante.
N.B esistono varianti di questo schema di ponderazione.
ESEMPIO:
L’idea del TF-IDF nasce nell’ambito dell’informatione retrival, andando a selezionare solo
alcuni documenti che ci interessano.
Tra i 4 doc estratti uno non c’entra nulla con quello che vogliamo cercare, l’ultimo.
L’idea è quello di andare a considerare le parole che si presentano di più insieme a golf, ad
es car, topgear e petrol, se vogliamo calcolare l’indice TF-IDF associato a queste 3 parole:
es Car si presenta nella collezione circa 3 volte-> tf-idf=13 topgear=13 e petrol=4
Le parole con un TF-IDF più alto saranno associate a golf più della parola petrol che ha un
TF-IDF =6 e che si presenta più volte nei doc;
Qindi facciamo una nuova ricerca considerando oltre alla parola golf anche la parola car e
topgear:
Viene fuori un nuovo documento che non contiene la parola golf ma le altre due, tale doc
riguarda comunque le auto, è importante tenere conto sia di quanto una parola è presente
ma anche di quanto essa è discriminante all’interno della collaezione, ciò rende questo
schema di ponderazione abbastanza utile per questo tipo di applicazione.
Usando la co-occorrenza dei termini possiamo assegnare un miglior ranking ai doc, cioè un
doc che non è rilevante perché non contiene la parola che ci interessa diviene rilevante dal
momento che contiene le parole che compaiono con il termine golf (le parole che concorrono
con essa), è importante individuare i termini che concorrono insieme in una collezione
perché i termini che si presentano insieme definiscono i topic dei doc, cioè sono espressione
di un concetto.
LE MATRICI DI DATI NEL TEXT MINING
A partire dai doc in codifica BOW e da eventuali metadati disponibili riguardanti il corpus
d’interesse è possibile ottenere diverse matrici di dati, utili per obiettvi di analisi differenti.
note: trasposta= docxparole o parolexdoc, dipende dall’obiettivo o categorizzzare i doc o
individuare i topic di una collezione.
es metadati: nei tweet possono essere la localizzazione del tweet, il nome utente, la data
ecc, per gli articoli di giornale possono essere la testata giornalistica, l’autore dell’articolo
ecc,
La prima matrice che abbiamo è la tabella lessicale cd matrice formexsub-testi, sub-testi
sono testi particolari come ad es. i paragrafi.
La seconda matrice è la matrice formexvariabili categoriali, definita tabella lessicale
aggregata.
La terza è una matrice di prossimità, è una matrice di distanza parolexparole (formexforme)
TABELLA LESSICALE
Ogni documento è un vettore, all’interno delle celle vi sono i pesi, nell’es è una matrice
dcotomica di presenza assenza, che può essere riga o colonna della matrice in base al fatto
che consideriamo la matrice formexdoc o docxforme.
A destra abbiamo una tabella di contingenza dove incrociamo le modalità di due variabili
qualitative e abbiamo all’incrocio la frequenza doppia nij che sarà il numero di volte che
l’i-esimo termine si presenta nel j-esimo documento (o viceversa), ni. è il marginale di riga e
rappresenta quante volte quel termine comprare nei documenti della collezione mentre n.j è
il marginale di colonna e ci dice la lunghezza di ogni documento.La somma dei marginali di
colonna (o di riga) ci da il nostro vocabolario pesato, cioè ogni parola del vocabolario è
pesata per il numero di volte con cui si presenta in tutta la collezione.
Essendo la tabella lessicale una matrice che tipicamente ha grandi dimensioni, che talvolta
presentano celle vuote, perché piccoli testi non contengono tante parole per cui presentano
tanti 0, sfruttiamo la conoscrenza di metadati per aggregare la tabella, rendendola meno
sparsa:
l’idea della tabella aggregata è quella di fare una moltiplicazione, moltiplicare la tabella
lessicale per la tabella Q che è una tabella in cui abbiamo per ciascun documento un
informazione, ad es se abbiamo una serie di tweet possiamo decidere di aggregarli per data
(data=informazione), le righe nn saranno più documenti ma date. Oppure possiamo
aggregare per utente (es partto politico).
La logica dell’aggregazion è quello di ridurre la sparsità delle tabella e la sua dimensionalità;
altre operazioni saranno l’analisi per corrispondenze lessicali, tecniche di feature extraction
e feature section, cioè tecniche per la riduzione della dimensione della tabella.
La matrice formexforme viene definita matrice delle co-occorrenze /di prossimità, nella cella
abbiamo il numero di volte che due parole si presentano insieme all’interno del doc, se le
due parole sono uguali vi è il num di volte in cui quella parola compare.
Invece della co-occorrenza potrebbe esserci un altro schema di ponderazione, ad es il
coefficiente di jaccard che mi dice il livello di similarità tra le parole.
Questa matrice è simile ad una matrice di correlazione, cioè è una matrice triangolare, sulla
diagonale principale posso avere o tutti 0, poichè non ci interessa come informazione,
oppure possiamo avere il num di volte che la parola si presenta all’interno della collezione.
Per passare da una tabella lessicale a una tabella formexforme:
Partiamo dalla tabella docxforme la dicotomizzo cioé dove c’è 0 resta 0 e dove c’è un valore
diverso diventa 1, tale matrice rinominata matrice A ne faccio la trasposta e la moltiplico per
A stessa: AT × A otterremo una matrice pxp, formexforme.
Tale matrice è molto importante, perché ci da a forza del legame tra le parole, può essere la
matrice di partenza della network text analysis:
Otteniamo una rete di parole, è un esempio di clustering gerarchico aglomerativo, specifico
per i testi; partendo dall’ipotesi che i doc sono espressione di determinati topic, che si basa
su un approccio probabilistico dell’individuazione dei topic, cd topic modelling.
Ciò ci permette sia di identificare i topic di una collezione e di attribuire a ciascun documento
la pertinenza con i diversi topic, è un metodo di classificazione non supervisionata.
La network text analysis è un metodo per codificare le relazioni tra le parole in un testo e
costruire una rete di parole legate, ciò che accade che la nostra matrice formex forme nel
linguaggio di rete è una matrice di adiacenza e dal punto di vista della visualizzazione si
tratta di un grafo non orientato pesato.
ESEMPIO:
Ogni canzone ha come dato iniziale l’anno e la decade. Il database di partenza sn 1189
brani, il numero di token sn 225112, il num di type=forme sono 8403, il numero di hapax
sono 3649, quasi la metà infatti la richhezza lessicale è alta, infatti quasi la metà delle forme
si presentano una sola volta, gli hapax sono 1.62% delle occorrenze totali, la media di
occorrenze per testo 189.33 il num medio di parole per ogni canzone.
Il vocabolario di partenza è stato lemmatizzato, abbiamo il POS lessicale di contenuto,
aggettivi, sostantivi e verbi (volere, amore, solo, ecc) e il POS strumentale cioè tutta la parte
di parole vuote, congiunzioni preposizioni e articoli, il vocabolario totale è dato dall’unione
del POS lessicale e POS strumentale, in cui però sorge il problema che le parole più
frequenti sono rappresentate dai POS strumentali che non sono utili per la nostra analisi;
poi abbiamo il vocabolario degli hapax.
La cosa più semplice che si può gare avendo le occorrenze a disposizione è la word cloud:
Le word cloud sono una rappresentazione grafica di un test dove la grandezza delle parole è
dettata dal peso che abbiamo dato a quella parola, se il peso è la frequenza, tanto maggiore
è la frequenza tanto maggiore sarà la grandezza del font di quella parola.
del 1970
In questo modo ho un primo impatto delle parole usate nelle canzoni del 1970.
Estratto della tabellalessicale classico, le parole e la loro occorrenza, osserviamo che vi
sono molti 0 per cui la matrice è sparsa.
A partire da quest matrice è possibile fare un analisi delle corrispondenze.
Oppure a partire dalla tabella lessicale grezza possiamo ricavare la tabella lessicale
aggregata:
anche se la situazione nn migliora tantissimo, stiamo aggregando per anno, per cui le mie
unità non sono più i doc ma sono gli anni, nelle celle abbioamo il num di volte che quella
parola si presenta all’interno dei doc.
Un altro tipo di aggregazione è tramite decade:
Abbiamo compattato in 6 colonne tutto il vocabolario.
Un altro es di tabella formexforme
Questa tabella ci dice a coppie di parole se appaiono o meno all’interno di tutti i doc della
collection.
Un esempio di community detection, cioè di network text analysis:
Che non è altro che una cluster analysis sui dati di rete, sulla matrice di cooccorrenza,
visualizzandola come un grafo.
I vertici sono molto connessi tra di loro e scarsamente connessi alle altre parti delle reti,
cerchiamo gruppi di individui che siano molto omogenei al loro interno ed eterogenei
all’esterno simile alla cluster analysis.
In questo grafico visualizziamo che: ci sono tutta una serie di canzone legata al tema della
solitudine e poi tutte la parte delle canzoni dedicate all’amore che si declina con il cuore;
NB sono stati posti dei limiti quantitativi alle occorrenze altrimenti nn si sarebbe capito nulla
e non si sarebbe vista la struttura.
Un altro esempio
Analisi sulle ultime parole dei condannati a morte in Texas.
DESCRIZIONE DELLE CLASSI
TEXT MINING 3
Si parte da un analisi dei dati univariata e poi si estende allo studio di più relazioni tra
variabili, l’AMD ci permette in generale di individuare dei fattori latenti, in num inferiore alle
variabili originarie, e ne siano una loro sintesi, spesso una loro combinazione lineare, e ciò ci
consentae di poter visualizzare sulle mappe (fattoriali) a coppie di fattori, quali sono le
relazioni tra unità e variabili in un sottospazio di dimensioni ridotte;
le rapprsentazioni grafiche comprendono anche le cluster analysis, quindi i tipi di
rappresentazioni sono da un lato le mappe fattoriali e dall’altro possono essere i
dendrogrammi, solitamente facciamo una cluster analysis sulle componenti principali,
potendo visualizzare i cluster sulla mappa fattoriale.
ANALISI DELLE CORRISPONDENZE LESSICALI
L’Analisi delle Corrispondenze Lessicali (ACL) applica ai dati testuali l’Analisi delle
Corrispondenze (AC), una tecnica di analisi dei dati per variabili categoriali elaborata
nell’ambito dell’approccio Analyse des données dalla scuola francese di J.P. Benzécri
all’inizio degli anni Sessanta. (Benzécri J.P.,L’analyse des données. Dunod, Paris 1973.)
E’ una classica applicazione dell’analisi delle corrispondenze binarie.
L’idea è quello di usare questa tecnica per individuare le dimensioni sottostanti ai dati.
Trattandosi di un procedimento di tipo fattoriale, attraverso l’ACL è possibile individuare
dimensioni sottese ai dati che sintetizzano le molteplici relazioni tra le variabili originarie
costituite dalle parole (o dalle categorie di parole) presenti nel corpus in esame.
Ciò per poter visualizzare le similarità tra i documenti e per poter individuare topic nella
collezione e attraverso la similarità di parole e quindi di concetti andare a visualizzare le
strutture linguistiche latenti;
Partendo dalla tabella lessicale documentix forme l’obiettvo è trovare il miglior sottospazio di
rappresentazione: vogliamo cioè rappresentare in un numero di dimensioni ridotte la nube
dei punti conservando però quanta più informazione possibile (per visualizzare le relazioni
tra i dati).
Nelle celle della nostra tabella lessicale spesso è presente la frequeza congiunta, cioè il num
di volte che la i-esima parola si presenta nel j-esimo doc;
in questo caso non partiamo dalle fequenze congiunte assolute ma partiamo dalle
frequenze relative:
1)La nostra matrice di partenza è F, di elemento generico fij, dove fij rappresenta una freq
relativa, cioè in che proporzione quella parola è presente in quel documento. Il totale delle
frequenze non sarà più N (che identificava tutti i doc della collezione) ma 1.
2)Il passaggio successivo è quello di andare ad estrarre il cd sistema di pesi; il sistema di
pesi nell’analisi delle corrispondenze è definito da 2 matrici diagonali: Dp e Dq , che hanno
elementi diversi da 0 solo sulla diagonale principale.
La matrice Dq è il vettore marginale di colonna della nostra tabella F, cioé il vettore che ha
come elementi le somme per riga della matrice F. (f.j), questa rappresentazione viene fuori
andando a moltiplicare il vettore marginale di colonna per la matrice identità.
La matrice Dp è il vettore marginale di riga della nostra tabella F, cioé il vettore che ha come
elementi le somme per colonna della matrice F. (fi.), questa rappresentazione viene fuori
andando a moltiplicare il vettore marginale di riga per la matrice identità.
Il marginale di riga della tabella docxparole rappresenta il numero di parole totali presenti nel
documento i, quindi il marginale relativo rappresenta la massa di quel documento, che
porzione ha nella collezione;
lo stesso vale per il marginale di colonna che rappresenta quante volte una parola si
presenta nella collezione, quindi il marginale relativo rappresenterà il peso di ogni parola
all’interno della collezione;
3)A partire quindi dalla tabella F e dalle tabelle dei pesi è possibile andare a costruire le cd
tabelle dei profili, sulla quale verrà effettuata l’analisi delle corrispondenze.
La tabella dei profili viene ottenuta come rapporto tra ciascuna frequenza e il marginale
−1
rispettivo: F * D q , Dq−1 l’inversa della matrice diagonale di colonna significa fare il
reciproco degli elementi lungo la diagonale della matrice diagonale. Ogni quantità (ciascuna
frequenza relativa) di F la sstiamo rapportando al marginale di colonna (tabella dei profili di
colonna).
−1
D−1
p * F , Dp l’inversa della matrice diagonale di riga significa fare il reciproco degli
elementi lungo la diagonale della matrice diagonale. Ogni quantità (ciascuna frequenza
relativa) di F la sstiamo rapportando al marginale di riga (tabella dei profili di riga).
I profili colonna saranno rappresentati nello spazio di righe e i profili riga saranno
rappresentati nello spazio delle colonne, la logica è la stessa dell’acp quando andiamo a
fare l’analisi in Rp e in Rn, la differenza con l’acp è che è un analisi (simmetrica) pesata i cui
pesi sono i marginali.
Nel momento in cui nella tabella dei profili colonna andrò a calcolare ciascuna frequanza
relativa rapportata al relativo marginale la somma per colonna sarà pari a 1,
ciò vale anche per la tabeòòa dei profili riga la somma per riga deve fare 1, poiché stiamo
rapportando le frequenze relative al marginale che rappresenta un ” totale” per riga o per
colonna.
4)Il vincolare la somma per riga o per colonna data tale trasformazione comporta la perdidita
di una dimensione, infatti i profili colonna (q) sono rappresentati nello spazio Rp−1 (e i profili
riga sono rappresentati nello spazio Rq−1 ), ciò perché la trasformazione che stiamo facendo
sui dati comporta la perdita a monte di una dimensione, e questo influirà sulla
determinazione degli autovalori, cioè vi è un autovalore con inerzia nulla.
Il triangolo è una rappresentazione definita simplesso, se abbiamo una matrice
tridimensionale nel momento in cui trasformo tale matrice in una matrice dei profili e
rappresento questi punti nello spazio tridimensionale tutti i punti si troveranno sul piano del
triangolo, questa è la diretta conseguenza della perdita di una dimensione.
AUTOVALORE BANALE
Partiamo da una classica tabella di contingenza a 5 elementi e 2 variabili, e poi calcoliamo la
matrice dei profili di riga facendo 7/10*100, 3/10*100….. e così via ( possiamo anche non
molt per 100), se andiamo a rappresentare le due var rappresentiamo questi 5 oggetti che si
presenteranno tutti lungo una retta. Nel caso a 3 dimensioni i punti giacciono sul piano (cd
simplesso); tutto ciò e quindi diretta conseguenza ad aver vincolato attraverso la
trasformazione la somma a 100.
MISURARE LA DISTANZA TRA DICUMENTI E FORME
Nell’ambito dell’analisi ACP noi vediamo la distanza euclidea che rispetto alla distanza del
chi-quadro, la distanza euclidea è uguale a:
Con la distanza chi-quadro abbiamo:
Il peso di j, è il peso che noi attribuiamo a ciascuna distanza, andiamo a pesare la distanza
tra due profili riga con il rispettivo marginale di colonna, in questo modo stiamo dando
importanza alle modalità/parole che hanno frequenza più bassa, ciò perché andiamo a
pesare con la quantità 1/f.j più è alto f.j, cioè la frequenza della parola minore sarà il peso
attribuito, bisogna stare molto attenti quando f.j è piccolo poichè il peso potrebbe esplodere.
La metrica del chi-quadro è costruita in modo da avere un effetto normalizzante
sull’importanza delle diverse parole, ciò è importante dato che nell’analisi dei dati testuali le
parole che si presentano di meno sono quelle maggiormente discriminanti;
ciò vale sia per i profili riga che per i profili colonna:
PRINCIPIO DELL’EQUIVALENZA DISTRIBUTIVA
La metrica del chi quadro gode della proprietà dell’equivalenza distributiva, cioè:
Vuol dire che se abbiamo due punti che sono molto vicini vuol dire che questi hanno un
comportamento simile, vuol dire che le parole sono simili tra loro, sono legate d qualche
associazione che magari non vediamo, nell’altro spazio se due documenti sono molto vicini
si suppone che abbiano un vocabolario condiviso.
La proprietà dell’equivalenza distributiva vuol dire quindi che se un documento ha una
massa tot e un altro documento ha una massa tot e questi documenti nello spazio di
rappresentazione sono molto vicini la possibilità è quella di aggregarli in un unico punto più
grande che abbia come massa/peso pari la somma delle masse dei due doc.
Ciò è importante sotto l’aspetto della riduzione dimensionale, che in parte abbiamo fatto con
il pretrattamento.
AC E TEST DI INDIPENDENZA
L’associazione tra due variabili in una tabella di contingenza viene misurata con il test del chi
quadro.
Per vedere se c’è associazione tra due variabili, verifico quanto mi discosto dalla situazione
in cui queste due variabili sono indipendenti, le due variabili sono indipendenti quando i
profili sono uguali al profilo medio, quindi alla somma dei profili, se sono uguali significa che
non c’è indipendenza da quello che succede alla colonna, cioè all’altra variabile, e viceversa.
L’idea del chi-quadro è quella di andare a calcolare la differenza tra
frequaneza osservata assoluta per n, mentre
n * f i. * f .j
n* f ij che rappresenta
rappresentano quelle che
vengono definite frequenze teoriche idi indipendenza, cioè sono quelle frequenze che si
presentano in caso di indipendenza
ad es se abbiamo due variabili v1 e v2:
V1
V2
ni.
N1
n11
n12
n1.
N2
n21
n22
n2.
n.j
n.1
n.2
N
la frequenza teorica in caso di indipendenza viene calcolata per ogni cella della tabella:
ñ 11 =
n 1. ×n .1
N
In questo modo calcoliamo la tabella delle frequenze teorice n cappello, e calcoliamo la
differenza tra la situazione che abbiamo osservato e la situazione di indipendenza (teorica),
quanto più mi discosto tanto più forte è l’associazione tra le variabili.
Quindi il chi-quadro e differenza al quadrato tra le frequenze osservate e frequenze teoriche
rapporteto alle frequenze teoriche.
Il chi-q è un indice >0 ( =0 implica indipendenza) che risente della dimensione della tabella,
quindi non ho un limite superiore, l’indice normalizzato viene definito phi-quadro (ф^2)
ottenuta portando n al di fuori della sommatoria:
ф^2 non varia tra 0 e 1, infatti esistono altre misure normalizzate che variano tra 0 e 1 come
ad es la V di cramer, che tengono conto del num di righe e colonne della tabella.
ф^2 misura l’intensità del legame tra le variabili indipendentemente dal numero di
osservazioni, ma ф^2 ha anche un importante significato geometrico:
L’inerzia è una misura di variabilità (stessa logica della varianza), ottenuta come somma
ponderata secondo il peso di ciascun profilo riga per la distanza al quadrato di ciascun punto
dal baricentro G, è un indicatore della dispersione della nube dei profili attorno al
baricentro, ed esaminare tale dispersione significa esaminare lo scarto tra i dati e il
modello di indipendenza. (cìè una dim che non facciamo che ci spiega come si passa dal
chi.-q a questa def).
DETERMINAZIONE DEL SOTTOSPAZIO DI MIGLIORE APPROSSIMAZIONE
Ogni studio multidimensionale è definito da una tripletta di valori:
La nostra matrice di partenza è la matrice dei profili riga o colonna, a secondo se l’analisi è
in Rp o in Rq, la metrica del chi-q che è la stessa cosa di un metrica euclidea ponderata, e il
sistema dei pesi definito dalle masse dei punti, che sono i marginali.
Nello spazio delle colonne ad es avremo che la metrica sarà definita dall’inverso del
marginale di riga e il peso sarà il marginale di colonna, viceversa nello spazio dele righe.
Spazio colonne-> l’idea è quella di individuare di volta in volta una direzione/un asse di
massima variabilità dei punti, e quindi di massima inerzia, e andiamo a considerare un
vettore di norma unitaria u che tenga conto del sistema dei pesi.
Ciò vuol dire che il vettore delle proiezioni di quei punti sull’asse viene dato dal prodotto tra
la matrice dei profili riga e l’asse ponderato con i pesi che stiamo considerando, ciò vale in
generale la proiezione viene effettuata moltiplicando la matrice di partenza con il vettore =
all’acp;
l’idea è che per individuare il sottospazio di migliore approssimazione significa proiettare i
punti in un sottospazio, in particolare quello che andiamo a massimizzare è la somma
dei quadrati delle proiezioni tenendo conto dei diversi pesi delle unità.
Andare a fare il quadrato significa moltiplicare ĉ’ con ĉ in questo modo abbiamo gli elementi
al quadrato di ciascuno dei vettori proiezione, e questa quantità va massimizzata con il
vincolo che il nostro vettore sia di norma unitaria. Mettere u’ e F’ fa si che abbiamo la somma
del quadrato delle proiezioni.
Diagonalizzare vuol dire individuare lo specchio di quella matrice, cioè individuare gli
autovalori e gli autovettori di quella matrice, la matrice da diagonalizzare S rappresenta il
prodotto tra la matrice dei profili riga e la matrice dei profili colonna.
Il primo asse che andiamo ad individuare sarà l’autovettore u1 rispondente al più grande
autovalore λ della matrice S, questo rappresenterà il primo asse principale della matrice.
Dopodiché verrano individuati gli assi successivi al primo con l’ulteriore vincolo di
ortogonalità all’asse precedente.
RIASSUMENDO:
La differenza con l’acp in cui non possiamo rappresentare le variabili nello stesso spaio degli
individui, in questo caso a meno di un fattore di proporzionalità : 1/ √λ è possibile avere
proiettati nello stesso spazio sia i profili riga che i profili colonna.
Avremo un num di assi pari al min tra il numero di righe o il num di colonne -1 perché
perdiamo una dimensione.
In generale come si interpreta un grafico fattoriale del genere? allora abbiamo le due
direzioni principali definite dagli autovettori u1 e u2 ai quali saranno associati gli autovalori
λ1 e λ2 che rappresenteranno la quota di variabilità spiegata dal primo asse e dal secondo
asse, più i punti sono distanti dall’origine più la nube dei punti è dispersa, più si discostano
dal profilo medio, tutto ciò che si discosta dagli assi è cd peculiare.
Osservando il grafico potrò dire quanto due profili riga sono simili, quanto due doc sono
simili, e quanto i profili colonna (le parole) sono simili, però non potremmo misurare
l’associazione tra i documenti e le parole, poiché sono due rappresentazioni l’una sull’altra.
Data la proprietà baricentrica in realtà l’unica relazione che posso mettere in atta tra parole e
doc è tra la parola rispetto alla nube dei documenti ma non rispetto tutti i doc, perché quella
parola rappresenterà il baricentro della nube dei doc, e viceversa.
La rappresentazione dei punti supplementari in linea di massima nell’anlisi dei dati si
possono utilizzare e sono ad es variabili categoriali come l’anno ecc.
AUSILI ALL’INTERPRETAZIONE
I contributi relativi ci dicono quanto un punto è ben rappresentato dall’asse.
Il nostro obiettivo è quello di avere la migliore approssimazione di sottospazio, e quindi
quello di avere la migliore proiezione dei punti sull’asse, per capire se è ben rappresentato
usiamo il coseno che ci dice il valore della proiezione, quanto più è grande il coseno tanto
più è ben rappresentato il punto, il coseno varia tra -1 e 1 è elevato al quadrato perché sia -1
che 1 indiano che il punto è ben rappresentato.
I contributi assoluti, ci dicono l’importanza di una data modalità per la formazione dell’asse,
(quanto una modalità contribuisce alla formazione dell’asse), in particolare nel caso dell’AC i
contributi sono calcolati come il rapporto tra la coordinata del punto al quadrato e la distanza
dal baricentro.
Le tre situazioni tipo che variano ripetto all’acp poiché qui abbiamo la massa;
1) Nel primo caso i due punti si trovano sulla stessa coordinata, poiché nel calcolo del
contributo si tiene conto sia della massa che la coordinata, in questo caso i’ ha una
massa più grande, per cui il suo contributo è più grande.
2) due punti hanno la stessa massa ma coordinate diverse, il contibuto maggiore lo da i’
che è più lontano dall’origine (valore medio) cioé ha coordinata maggiore.
3) questi due punti hanno contributo uguale perché i ha coordinata piccola ma massa
grande mentre il contrario per i’.
NB. Nell’AC suglia assi principali vedremo anche la quota di variabilità spiegata, definita
dagli autovalori, avremo una quota di variabilità spiegata maggiore nei primi assi e poi man
mano a scndere gli autovalori saranno sempre più piccoli, nello specifico nell’AC dato il
vincolo sulla somma di riga/o colonna avremo un primo autovalore definito autovalore
banale (=1)
e tutti gli altri autovalori sono tutti molto bassi , infatti nell’AC si utilizzano delle forme di
correzione per il calcolo della variabilità spiegata perché i valori sono tutti molto bassi, ad es
8%,
L’inerzia totale rappresenta la dispersione dei punti intorno alla media,ed è quindi una
misura di variabilità dei punti; un altro indicatore importante sono i tassi di inerzia che
identificano la forma dellla nube, e sono il rapporto tra i singoli autovalori e la loro somma
(che è l’inerza totale), e i singoli autovalori avranno una quota di variabilità spiegata
Abbiamo 4 situazioni principali:
1. un chi- quadro basso, non c’è associazione tra i dati, poiché un chi quadro basso
indica che i punti sono molto vicini alla media, e non ho direzione della nube.
2. in questo caso ho una nube che ha una bella direzione però ha un chi quadro
comunque basso, e quindi anche i tassi di inerzia saranno bassi, dato che gli
autovalori saranno bassi.
3. abbiamo un valorer grande di inerzia totale, però non abbiamo direzione di
associazione.
4. questo è il caso ideale, chi-q significativo e una direzione definita
Dato che l’AC può essere un analisi diretta alla riduzione della dimensionalità quindi:
Possiamo raggruppare i documenti per similarità individuare i topic andando a raggruppare.
Nel primo caso possiamo anche partire dalla tabela lessicle grezza e ossiamo applicare n k
means ed abbiamo una partizione dei datiche produce un vettore che mi dice ogni unità a
che gruppo appartiene senza dirmi come è avvenuta tale associazione, mentre cosa diversa
è il dendrogramma invece mi da un idea di come i punti sono associati ad ogni passo.
ESEMPIO
Studio esplorativo sul tema dei vaccini, analisi in componenti principali e clustering
gerarchico e network analysis su:
I 12 hashtags sono stati individuati tramite tendenze su google e tramite tendenze su
tweeter stesso.I dati sono stati aggregati per mese per poter fare un analisi mensile per
poter vedere di cosa si stava parlando.
sul corpus è stato effettuato il parsing e pretrattato, e aggregato per mese, qui vediamo la
distribuzione del numero di tweet per mesi, il numero di token, il numero di type, il numero di
hapax, il type token ratio = estenzione lessicale e la richhezza lessicale =num di hapax /num
di type che è quesi al limite, dato che caratteristica dei tweet sono testi molto brevi con una
grande variabilità e vocabolario di grandi dimensioni e una grande scarsità
Qui abbiamo una rappresentazione fattoriale, n cui sugli assi abbiamo la perc di variabilità
spiegata, è la rappresentazione dei mesi dato che l’acp è stata effettuata su una tabella
aggregata,considerando i tweet dei mesi di gennaio/giugno, abbiamo una tab di 6 righe
A marzo e aprile si è parlato delle stesse cose, mentra si sono discostati i mesi di gennaio e
maggio, perché? osserviamo la l’AC lessicale:
A gennaio e maggio abbiamo due trasmissioni televisive che hanno parlato dei vaccini:
presadiretta e virusrai2, qui si evidenziano una serie di tematiche di cui si è parlato.
NB questa è una selezione delle parole usate.A febbraio ha fatto scalpore il caso della
meningite in toscana ecc
Quindi abbiamo preso una base di 6000 tweet e siamo andati a individuare quali possono
essere le tematiche nell’ambito di quel periodo temporale.
Nella network text analysis abbiamo fatto una community detection su quelle che erano le
tematiche, è una rete tagliata su cui si evidenziano tutti i topic che si sono evidenziati e si è
diviso per mese, in modo da individuare la tematice di quel mese ed si è proceduto ad una
classificazione gerarchica:
GENNAIO a sx c’è la rete co-occorenza tra termini vincolata solo al mese di gennaio a dx
invece si sono individuati i gruppi di tweet con la specifica di quali parole rappresenta
ciascun gruppo.
Qui la rete individua l’associazione delle parole che comprare anche nel dendrogramma,
l’associazione emerge a prescindere dalla tecnica

Text mining

Documenti correlati

Prodotti

Supporto

Text mining

Documenti correlati

Aggiungere questo documento alla raccolta (s)

Aggiungere questo documento salvato

Suggeriscici come migliorare StudyLib