TEXT MINING 1 la preparazione del corpus (come passare dal linguaggio naturale a delle matrici su cui e possibile fare delle analisi statistiche) INTRO: Lo sviluppo di internet di tutti gli strumenti informatici che abbiamo oggi ha fatto si che la quantità di dati a nostra disposizione sia vertigginosamente aumentata; la maggiorparte di questi dati sono in formato testuale, che provengono da documenti ma anche da numerose altre fonti (articoli di giornali, riviste, social network…). . Due sono gli elementi da sottolineare: ● Vi è una maggiore diffusione dell'informazione da un punto di vista socio demografico culturale e geografico. ● Vi è una maggiore diversificazione del contenuto informativo, in relazione ai diversi bisogni conoscitivi degli utenti. La crescente mole di dati disponibili immediatamente su supporto digitale spesso in forma documentaria, vede allo stesso tempo necessario e possibile il ricorso a strategie sempre più complesse per l'estrazione, l'analisi e l'organizzazione della conoscenza, finalizzate alla soddisfazione di uno specifico bisogno informativo. Nell’ambito del knoledge discorvery database, nell’ambito del data mining si parte da dati gia costruiti sulla quale cerchiamo pattern significativi che ci aiutano a prendere delle decisioni. La mole delle informazioni testuali è diventata enorme, ciò a reso più netta la separazione tra l’analisi di dati strutturati e l’analisi di dati non strutturati, al punto che il Data Mining e il Text Mining sono ritenuti ambiti di ricerca nettamente distinguibili. Il text mining ha come obiettivo quello di estrarre conoscenza a partire da grandi raccolte di fonti testuali (cd documenti) es: voglio analizzare gli articoli di giornale sull’immigrazione provenienti da un tot di testate giornalistiche famose. Quando parliamo di raccolta di documenti spesso ci riferiamo a Corpus di documenti, o ancora la possiamo definire collezione di documenti. La collezione di documenti rappresenta la nostra popolazione statistica, le occorrenze saranno i termini presenti all’interno dei documenti e queste occorenze avranno un diverso peso, che potrebbe essere la presenza assenza del termine nel documento, potrebbe essere la frequenza di quel termine all’interno del doc... FONTI DEL TEXT MINING: 1. EMAIL: Le email sono la forma più ricca dal punto di vista informativo è più semplice da analizzare. E’ il mezzo attraverso cui le persone comunicano all'interno e all'esterno di aziende ed organizzazione. Possono essere analizzate sia le email interne ad un'organizzazione sia quelle ricevute dall'esterno od inviate all'esterno da organizzazione. Monti algoritmi di classificazione automatica sono nati per distinguere le mail di spam, questo è un esempio tipico della applicazione del mining dove l’obiettivo è andare a dividere in due categorie le email (supervisionata utiliziamo parole chiave o trining set per indivisuare le email). 2. OPINION SURVEY: Spesso le opinioni che sono analizzate con cura nella parte codificato dove prevista la risposta sì, no o numerica. Sono invece analizzate in maniera superficiale nella parte testuale, ove si raccolgono le risposte un testo libero le domande aperte. Il text mining usato per tutte quelle interviste di tipo qualitativo in cui è prevista la risposta aperta (es focus group In cui vengono registrate le risposte enti da un gruppo di individui sottoposti a un prodotto da un moderatore) oppure word cloud delle opinioni espresse. 3. SOCIAL MEDIA DATA, NEWSGROUPS, CHATLINES: Sono importanti e ricche fonti di informazione dato che riguardano i temi più disparati, dai consumi alla politica. il problema con questo tipo di informazione è che l'informazione pertinente è all'interno di frasi e/o affermazioni di scarsa importanza, espresse con linguaggio spesso gergale. Grazie al text mining queste affermazioni/ opinioni possono essere analizzate e filtrate al fine di conoscere quali sono le opinioni di chi scrive. I dati testuali stanno diventando sempre più importanti per i processi legati all'estrazione di conoscenza. Il test mining applicazioni in tantissimi ambiti Psicologici, Economici, andamento della borsa seguendo il sentiment dei twitt, opinioni rispetto ad un brand, review di amazon, tripadvisor etc. I testi sono dati non convenzionali perché non strutturati, per analizzarli da un punto di vista statistico è necessario: ● Pretrattare i testi ● ridurre la dimensionalità ● ridurre la variabilità ● disambiguare Hanno questa particolarità i testi perché la lingua è produttiva ed ha tantissima variabilità, e la variabilità della lingua cambia anche in relazione all’idioma; i testi sono non strutturati quindi per la loro analisi è necessario pretrattare cioé codificarli in qualche modo, ridurre la dimensionalità e la variabilità; se andiamo a considerare ad es parola per parola all’interno di un testo non avremo un granché di informazioni utili, avremo una matrice sparsa e vuota in quanto ci sono tante parole diverse, poche ripetute e per lo più sono privi di utilità (es articoli e connettivi preposizioni). Disambiguare significa capire il contesto in una data parola è utilizzata, ad esempio parole che si scrivono allo stasso modo ma hanno un significato diverso es canto sostantivo o verbo oppure i termini polisemici pesca frutto o sport, questa è una pecca iytaliana perché non scriviamo con gli accenti. Obiettivi del text mining: Un processo di text mining allo scopo di trovare informazioni interessanti a partire da testi non strutturati servendosi di tecniche statistiche, informatiche, linguistiche ● ● ● ● ● ● ● Organizzare, classificare, categorizzare documenti sia a fronte di informazioni conosciute a priori Creare sintesi ed estratti Individuazione di topic attraverso classificazione di parole chiave e doc identificare tendenze nel tempo, es attraverso twitter che è una miniera di informazioni, come cambia la tendenza di un tema nel tempo identificare dipendenze e relazioni non note creare indicatori specifici per il decision making visualizzare le proprietà dei dati, degli insiemi dei dati e le relazioni tra i dati e collezioni. Feature generation: individuazionde delle variabili (bag of words encoding che è un modo di codificare il testo in forma vettoriale) Feature selection: individuazione delle parole in modo da ridurre la variabilità del vocabolario, individuando le keyword. Ridurre la variabilità facendo una selezione delle keyword. -> metodi di riduzione dimensionale, che possono essere sia di feature selection seleziono una parte delle variabili iniziali, l’altro approccio che si utilizza quando si fa l’acp o l’analisi delle corrispondenze multiple è detto di feature extraction, ossia individuo delle combinazioni lineari delle variabili di partenza che ne siano una sintesi, ciò provocare una sintesi che nn sempre è interpretabile, entrambi gli pprocci hanno espressi positivi e negativi. LE ORIGINI DEL TEXT MINING: LO SUDIO DEL LINGUAGGIO Il linguaggio naturale è la facoltà, esclusiva del genere umano, di esprimere sensazioni e sentimenti, riflessioni, giudizi; narrare fatti o descrivere aspetti della realtà mediante un Medium che sia espressione di un dato livello comunicativo. Viene prima chiamata statistica lessicale successivamente viene chiamata statistica testuale che è un mix Tra informatica e statistica, Gli statistici si sono entrati piano piano nell'ambito del text mining è stata una prorogativa degli ingegneri e degli informatici, gli smbiti di applicazione sono disparati:Sociologia psicologia filosofia economia eccetera. Un esempio di lessici di frequenza sono i lessici costruiti con una serie di annate di repubblica dove è stato costruito un dizionario di frequenza dei termini, e vengono utilizzati per compararlo con altri dizionari, per capire se capire se sovro o sotto utilizza tali parole (per stimare il lessico utilizzato in altri contesti- fare un paragone per capire la peculiarietà di un linguaggio). Con l’affermarsi e il diffondersi di strumenti informatici adeguati, sia hardware che software, è stato possibile sviluppare delle tecniche d’analisi della lingua sempre più sofisticate. Gli studi sul linguaggio naturale intrapresi da linguisti, sociologi e psicologi, sono stati affiancati dal lavoro che informatici e statistici, partendo spesso da problematiche e prospettive diverse, hanno effettuato sui dati testuali. Gli approcci che si basano su metodologie statistiche fanno riferimento a strumenti di tipo quantitativo per trattare le unità linguisti che contenute in una raccolta di testi. Lo step iniziale riguarda l’analisi multidimensionale dei dati: E’ in particolare alla scuola francese di Analyse des Donneés che va il merito di aver determinato un notevole salto di qualità nell’analisi dei dati testuali e aver prodotto le prime proposte metodologiche compatibili con quelle di taglio informatico. In particolare: Negli anni 50’ le prime apllicazioni sn state di uno studio sulle opere di un drammaturgo francese Cornelle, i primi studi sulla linguistica infatti si sono fatti per capire a chi attribuire testi con autore sconosciuto. Successivamente Benzécri si interesse ai metodi di analisi dei dati all’applicazione dello studio della lingua, ponendo le basi alla Analisi dei Dati linguistici,(utilizzando l’analisi delle corrispondenze binarie che è un caso particolare dell’analisi delle corrispondenze mutiple, e va a studiare la struttura di associazione tra due var quelitative. Negli anni 80’ Lebart e Salem hanno dato vita a quella che oggi chiamiamo Statistica testuale (o statistica lessico testuale) che è un tipico approccio quantitativo alla lingua. La statistica testuale a differenza della statistica lessicale pone maggiore attenzione alla testualità della base di dati analizzata. La tendenza testuale attuale è quella di statistica lessico/testuale che utilizza un approccio integrato, intervenendo a priori sul testo oggetto di analisi e considerando un supporto delle meta-informazioni di carattere linguistico. L'unità elementare del linguaggio, la parola, non si presta a diverse ad una definizione univoca, perché la lingua difficilmente può essere vista in senso statistico come un “universo”. La variabilità del fenomeno lingua non è facilmente misurabile è l'ampiezza del vocabolario risulta sensibilmente differente da idioma a idioma. Basta pensare al verbo parlare che in italiano ha molte più derivazioni (è quindi più variabile) rispetto all'inglese. NB La parola può essere tanto una singola parola che un insieme di parole, cioè frasi. Vi è una grande variabilità nella lingua, la lingua è produttiva nel senso che vengono proposte sempre nuove parole ; ad esempio nel vocabolario italiano possono venire integrate nuove parole sia ufficialmente (incluse nel vocabolario) che officiosamente (es #selfie, trade off). Possiamo riferirsi a tutte queste modifiche ai termini parlando di processi morfologici, ad esempio passare dal plurale al singolare, dal maschile al femminile eccetera.. La morfologia importante per il linguaggio naturale perché la lingua e produttiva. In ogni testo analizzato è possibile Infatti incontrare parole o forme flesse di parole non comprese nei dizionari cui si fa riferimento, parole nuove morfologicamente connesse a parole note, da cui è possibile inserire le diverse proprietà sintattiche e semantiche. I principali processi morfologici da considerare sono: ● Flessione ● Derivazione ● Composizione Le flessioni sono modificazioni sistematiche della radice di una casa parola (cd lessema), per mezzo di prefissi o suffissi. Non cambiano il significato della parola e non agiscono sulla categoria grammaticale, quindi non agiscono sulla categoria sul significato della parola ma su caratteristiche quali il genere e il numero o il tempo verbale. Il processo di derivazione invece è un cambiamento più forte, ad esempio il cambiamento da aggettivi a sostantivi e dei sostantivi aggettivi in avverbi. Il cambiamento è più radicale della categoria grammaticale spesso anche del significato e dell'uso della parola. Composizione è la fusione di due parole distinte in una parola composta con, talvolta, significato completamente diverso da quello delle singole parole costituenti. è l’unione di due parole che ne frma una terza in inglese è definito multiword expression, è un fenomeno molto diffuso in inglese. Questo fenomeno è meno diffuso rispetto ad altre lingue necessità comunque dall'utilizzo di preposizioni e congiunzioni. Es: portafoglio Infatti sono i cd Gruppo nominale polirematico, es carta di credito, È un'espressione linguistica composta non modificabile che ha un significato proprio (autonomo) come una parola singola. Un esempio il gruppo nominale polirematico è scalamobile. Accanto a questi termini in un corpus di documenti potremmo avere situazioni di segmenti ripetuti. I Segmenti ripetuti, sono porzione di testo che si presentano nel testo più volte, e quindi per l'analisi è opportuno tenerne conto, es presidente del consiglio, presidente del consiglio dei ministri, presidente del senato, presidente della camera tutti questi termini significano una cosa a se, e nell’analisi devo considerare ciascun di questi termini una cosa distinta. Ossia ad es presidente del consiglio deeve rappresentare una colonna della matrice. LE PARTI DEL DISCORSO Linguisti solitamente raggruppano le parole proprie di una lingua in classi che mostrano un comportamento sintattico simile, sovente una struttura semantica tipica. Tali classi sono comunemente indicate con il nome di categorie grammaticali o categorie sintattiche, ma con maggior precisione vengono indicate parti del discorso (POS). Le POS lessicali o aperte(parole piene), Rappresentano la classe più numerosa e sono in costante aggiornamento, poi è in continuo processo di acquisizione e coniazione di parole nuove. ● POS lessicali ~ sostantivi aggettivi verbi Le POS funzionali o chiuse Numero di elementi limitati caratterizzate dal fatto di avere all'interno di una grammatica un ruolo ed utilizzo definito.Servono per costruire il testo ma non ha apporto informativo, per cui si potrebbero eliminare a monte ● POS funzionali ~articoli, preposizioni, congiunzioni, pronomi , evverbi PAROLE PIENE E PAROLE VUOTE Le forme principali ho parole piene sono portatrice di parti sostanziali del contenuto di un corpus, delle sue modalità di nunciazione o di azione. Sono le parole su cui effettivamente si fa l’analisi (es analisi del sentiment). Le forme strumentali Sono una classe di Forme che non hanno significato autonomo una volta estrapolata dai contesti, e pertanto inutili da considerare nell'ottica del trattamento statistico. Poliform sono generalmente indicate come parole vuote o stop Word: sono utili a discernere il senso generale del fenomeno analizzato ma devono essere filtrata per semplificare l'analisi, diminuendo la presenza di rumore nella base di dati. Costruzione di un elenco di forme strumentali (stop list)è un problema delicato. è impossibile Infatti compilare un elenco che vada bene per tutti gli scopi: non ci sono particolari problemi con le POS funzionali ma è necessario individuare di volta in volta, a seconda del contesto, quelle forme che risultano banali e quindi povere di contenuto informativo. STOP LIST= elenco di parole che posso decidere di eliminare dal corpus dei miei testi perché non apportano contenuto, tale stop list non è unica e generale ma cambia in base al contesto. LA FORMA GRAFICA Una parola è convenzionalmente una forma grafica ossia una sequenza di caratteri appartenenti ad un alfabeto predefinito delimitata da due separatori ( Ad esempio segni di interpunzione, spazi). tale definizione proprio perché frutto di convenzione risulta essere arbitraria. Il riconoscimento all'interno del Corpus di tutte le forme grafiche che lo compongono, Conduce ad una perdita di informazione sul significato, i contesti, lo stile, è più in generale di tutti quei fenomeni generati dalla combinazione di segnali linguistici, poiché stiamo andando a spezzettare il testo in parole singole. Nel momento in cui togliamo la parola da contesto non sappiamo più la diff ta ambito e ambìto, amo: amore e amo della pesca Dobbiamo fare un lavoro di disambiguazione. PRETRATTAMENTO DEL CORPUS (text preprocessing) A partire da una raccolta di testi dopo il parsing (raccolta di dati), si procede a normalizzazione (eventuale), estrazione dei segmenti (tutte le parole composte), lessicalizzazione dei segmenti individuati, costruzione del vocabolario, tagging grammaticale, lemmatizzazione (eventuale), costruzione della tabella lessicale cioè scelta di organizzazione dei dati (della matrice), ed infine analisi dei dati testuali. NORMALIZZAZIONE Attraverso la fase di normalizzazione si agisce sui caratteri non separatori per entrare alcune delle possibili fonti di sdoppiamento del dato. In pratica con la normalizzazione si eliminano ad es le date, le date scritte in modi diverso, o nomi: matteo e salvini può diventare tutto matteo salvini. In questa fase bisogna stare attenti. Una normalizzazione è l’abbassamente delle maiuscole, che però ci farebbe perdere i nomi propri. Uno dei problemi più comuni e di non facile trattazione quello della composizione, ho sia la costruzione di forme derivate composte a partire dalle forme semplici, utilizzando il segno “-” hyphen. Nell'italiano Infatti questi sono spesso grafie diverse di una stessa forma, ad es la parola tradeoff può essere scritta trade off o trede-off ma vogliono dire tutte la stessa cosa. E’ necessario normalizzare in un unica parola altrimenti occuperebbe tre colonne diverse. Le normalizzazioni basate sul liste consentono ad esempio di ridurre il tasso delle unità lessicali ambigue, ricorrendo ad un etichettatura di forme e/o sequenza di forme la cui specificità andrebbe perduta nelle fasi successive di trattamenti. NB possono esserci tantissimi modi di scrivere una stessa parola ad es IPhoneX, iphonex ecc. bisogna indicarlo in maniera univoca in modo da facilitare l’analisi. Le unità minimali di senso, daremo un misto di forme grafiche semplici e di frammenti più lunghi di testo, che hanno senso da soli. i segmenti ripetuti sono gruppi di parole che possono essere sia vuote come: nulladiche, oppure caratteristiche: presidente del consiglie. Sono definite forme testuali quelle più complesse. I lemmi sono le parole così come si presentano nel vocabolario: canto diventerà cantare. Cioè si prende la forma flessa e la traformiamo nel lemma di riferimento. COME VENGONO IDENTIFICATI I SEGMENTI Si considerano tutte le combinazioni di parole tra i separatori forti (cioè non lo spazio), si prende il testo e R con la funzione collocation individua tutte le possibili combinazioni presentando la frequenza con la quale si ripetono nel testo; Per avere segmenti senza ridonzanza andiamo a sottrarre al segmento più lungo il numero di volte che si presentano i segmenti più corti inclusi nello stesso (13-7=6). Poiché piccola proprietà si presenta 13 volte complessivamente ma 7 volte sta insieme a piccola proprietà contadina. L’individuazione dei segmenti ci consente di ridurre la variabilità, ma soprattutto di identificare aspetti fondamentali del testo. Dopodiché andiamo a fare l’operazione di lessicalizzazione, cioè prendiamo i segmenti che abbiamo individuato e tra loro inseriamo l’underscore “_” es giorgia_meloni, piccola_proprietà_contadina. In questo modo i segmenti diventernno un unica forma grafica. Lessicalizzaziione=inserire un carattere che fa si che quella forma coposta o complessa venga ridotta ad una singola entrata nel vocavbolario. Il vocabolario non è altro che la lista di termini della nostra collezione. Possiamo guardare il vocabolario in due modi diversi: o ordinato in ordine alfabetico, cd Ordinamento lessicografico, oppure in ordine di occorrenza (frequenza), cd ordinamento lessicometrico. L’ordinamento alfabetico serve er individuare più facilmente tutti i refusi, ad es ci sn tanti termini che hanno errori di battitura ma vanno accorpati, dipende anche dalla freq di questi termini. LEMMATIZZAZIONE E’ una fase eventuale, ogni forma flessa contenuta nella collezione viene riportata al lemma di riferimento, per lemma si intende la forma canonica contenuta nel dizionario. La lemmatizazione è una fase eventuale poiché dipende dal nostro scopo e se ci interessano o meno le forme flesse. Anche perché ci sono molti termini ambigui ch potrebbero essere ricondotti al lemma sbagliato, es pesce -> frutto e verbo pescare. TAGGING GRAMMATICALE Taggare ogni parola con la parte del discorso a cui appartiene, quindi ogni termine sapremo se è un verbo un articolo un avverbio un sostantivo ecc, spesso questo passaggio è legato alla lemmatizzazione, la lemmatizzazione è un procedimento automatico che tiene conto della parola prescedente e di quella successiva. Il tagging semantico significa etichettare delle forme del nostro vocabolario con delle metainformazioni di tipo semantico, es stiamo analizzando dei documenti economici, usiamo un vocabolario contenente i termini tecnici in modo da poter taggare i termini della collection, tali termini possono anche essere messi nella stop list. LA DISAMBIGUAZIONE Forme omografe: per omonimia si intendono tutte quelle forme che possono essere identiche come rappresentazione lessicale, ma si distinguono nei loro contesti pragmatici, forme flesse di lemmi differenti. es Fine (obiettivo sostantivo maschile, la fine sostantivo femminile, fine ->elegante aggettivo) Forme polisemiche: a forme già esistenti vengono attribuiti nuovi significati per non inventare una nuova parola es farfalla( è un insetto ma anche un elemento del motore). Individuabili attraverso l’analisi delle concordanze, ossia guardando la parola prima di quella e dopo quella per capire il contesto. ANALISI DESCRITTIVA Dopo aver fatto il preprocessing avremo l’ampiezza del nostro vocabolario, ossia l’insieme di tutte le forme uniche (type) presenti nel corpus, per descrivere il corpus a livello quantitativo in una prima fase, avremo il vocabolario con le forme distinte e il num di doc che abbiamo. Vi sono tutti i miei type, v1 le forme che si presentano 1 volta cd hapax, v2 le forme che si presentano due volte e così via. Numero di type. Spesso gli hapax vengono eliminati, in quanto spesso sono gli errori di battitura. N è il numero di token, ossia il num totale di forme che ci sono nel mio corpus di partenza, N è dato dal numero di hapax + 2 per le parole che si presentano quelle parole e così via. A partire da questi 2 numeri è possibile calcolare delle misure di ricchezza lessicale: L’estensione lessicale= quanto più alto è tale valore tanto più è ricco il mio vocabolario, poiché non mi ripeto. La ricercatezza del linguaggio= rapporto tra il num di parole che si presentano una volta e il numero di type, se ci sono tante parole che si ripetono una volta tanto maggiormente ricercato è il mio linguaggio. Per valori troppo alti significa che il linguaggio è costituito da troppe forme originali, quindi nn ho possibilità di aggregazione. Matrice NxV Sono le parole strumentali il 25 % che non sono parole discriminanti, le forme rare sono quasi la metà 45% che si presentano in una sola canzone. Come scegliamo le parole da considerare e quali da eliminare? Dovremmi scegliere un opportuno taglio cioè non consideriamo parole con una frequenza maggiore di e minore di. La frequenza è importante perché la frequenza di una parola e un indizio per capirne il contenuto (indicativo del contenuto) ->intensità di un tema all’interno di un testo. TEXT MINING 2 La codifica dell’informazione testuale Dopo la fase di pretrattamento del text mining vi è la fase di codifica dell’informazione testuale, ossia trasformiamo la nostra base di dati testuali in una forma che sia trattabile con strumenti statistici classici o strumenti ad hoc per i dati testuali; andremo quindi sostanzialmente a trasformare la base dati in una matrice. Lo schema maggiormente utilizzato e il cd bag of words, ogni documento viene visto come un vettore nello spazio delle parole del vocabolario della nostra collezione, tali termini sono tirati fuori dal proprio contesto, non si tiene più conto del ruolo grammaticale delle parole nel testo, il vocabolario viene inserito come colonne di una matrice ed ogni riga sarà un documento. Ogni doc sara un vettore Di con elementi wi1, wi2 … wip dove i e l’i-esimo doc della nostra collezione, e ciascun termine w rappresenta il peso di quella parola all’interno del documento. I documenti essendo vettori possono essere giustapposti per riga per avere una matrice che sia documenti per parole in cui all’incrocio vi è il peso associato al termine (esistono moltissimi schemi di ponderazione diversi), lo schema di ponderazione più semplice è lo schema booleano, che vuol dire semplicemente presenza /assenza del termine all’interno del documento, 1 se c’è 0 se non c’è, lo svantaggio di questo schema è l’impossibilità di ordinare i documenti per rilevanza, e quindi di fare un ranking basato sull’intensità di presenza di un termine. Il secondo tipo di schema è quello basato sulla frequenza e si suppone che quanto più un termine sia presente all’interni di un documento tanto più sia espressione del contenuto del documento, in pratica andiamo a contare quante volte ciascuno dei termini del vocabolario della collezione si presenta per ciascuno dei documenti. Dallo schema di peso basato sulla frequenza ne sono stati sviluppati altri più complessi ad esempio frequenze normalizzate che tiene conto della presenza di ciascun termine rispetto al termine che si presenta con maggior frequenza all’interno di quel documento, cioè nel nostro vettore documenti individueremo il termine più frequente a cui rapporteremo le frequenze degli altri termini. Uno degli schemi di ponderazione più famoso è il TF-IDF. E’ uno schema di ponderazione complesso formato dal prodotto tra due parti diverse: peso locale e peso globale; il peso locale è una frequenza normalizzata che tiene conto del num max di volte in cui il termine si presenta nel documento, mentre il peso globale è il rapporto tra il num di doc nel corpus e il num di doc che presentano quel termine, in questo modo cerchiamo di identificare il potere discriminante di una parola, cioè discriminazione del contenuto. Nel momento in cui teniamo conto dell’inverso della frequenza di quel termine dell’intera collezione teniamo conto del peso globale di quel termine, ad es se un termine è presente in tutti i documenti quel termine non funge da discriminante dei doc, infatti quando più Nj si avvicina a N tanto minore è log(N /N j) . Il peso che assoceremo al termine sarà un numero,non più una frequenza, che rappresenta l’intensità di presenza e di quanto è discriminante. N.B esistono varianti di questo schema di ponderazione. ESEMPIO: L’idea del TF-IDF nasce nell’ambito dell’informatione retrival, andando a selezionare solo alcuni documenti che ci interessano. Tra i 4 doc estratti uno non c’entra nulla con quello che vogliamo cercare, l’ultimo. L’idea è quello di andare a considerare le parole che si presentano di più insieme a golf, ad es car, topgear e petrol, se vogliamo calcolare l’indice TF-IDF associato a queste 3 parole: es Car si presenta nella collezione circa 3 volte-> tf-idf=13 topgear=13 e petrol=4 Le parole con un TF-IDF più alto saranno associate a golf più della parola petrol che ha un TF-IDF =6 e che si presenta più volte nei doc; Qindi facciamo una nuova ricerca considerando oltre alla parola golf anche la parola car e topgear: Viene fuori un nuovo documento che non contiene la parola golf ma le altre due, tale doc riguarda comunque le auto, è importante tenere conto sia di quanto una parola è presente ma anche di quanto essa è discriminante all’interno della collaezione, ciò rende questo schema di ponderazione abbastanza utile per questo tipo di applicazione. Usando la co-occorrenza dei termini possiamo assegnare un miglior ranking ai doc, cioè un doc che non è rilevante perché non contiene la parola che ci interessa diviene rilevante dal momento che contiene le parole che compaiono con il termine golf (le parole che concorrono con essa), è importante individuare i termini che concorrono insieme in una collezione perché i termini che si presentano insieme definiscono i topic dei doc, cioè sono espressione di un concetto. LE MATRICI DI DATI NEL TEXT MINING A partire dai doc in codifica BOW e da eventuali metadati disponibili riguardanti il corpus d’interesse è possibile ottenere diverse matrici di dati, utili per obiettvi di analisi differenti. note: trasposta= docxparole o parolexdoc, dipende dall’obiettivo o categorizzzare i doc o individuare i topic di una collezione. es metadati: nei tweet possono essere la localizzazione del tweet, il nome utente, la data ecc, per gli articoli di giornale possono essere la testata giornalistica, l’autore dell’articolo ecc, La prima matrice che abbiamo è la tabella lessicale cd matrice formexsub-testi, sub-testi sono testi particolari come ad es. i paragrafi. La seconda matrice è la matrice formexvariabili categoriali, definita tabella lessicale aggregata. La terza è una matrice di prossimità, è una matrice di distanza parolexparole (formexforme) TABELLA LESSICALE Ogni documento è un vettore, all’interno delle celle vi sono i pesi, nell’es è una matrice dcotomica di presenza assenza, che può essere riga o colonna della matrice in base al fatto che consideriamo la matrice formexdoc o docxforme. A destra abbiamo una tabella di contingenza dove incrociamo le modalità di due variabili qualitative e abbiamo all’incrocio la frequenza doppia nij che sarà il numero di volte che l’i-esimo termine si presenta nel j-esimo documento (o viceversa), ni. è il marginale di riga e rappresenta quante volte quel termine comprare nei documenti della collezione mentre n.j è il marginale di colonna e ci dice la lunghezza di ogni documento.La somma dei marginali di colonna (o di riga) ci da il nostro vocabolario pesato, cioè ogni parola del vocabolario è pesata per il numero di volte con cui si presenta in tutta la collezione. Essendo la tabella lessicale una matrice che tipicamente ha grandi dimensioni, che talvolta presentano celle vuote, perché piccoli testi non contengono tante parole per cui presentano tanti 0, sfruttiamo la conoscrenza di metadati per aggregare la tabella, rendendola meno sparsa: l’idea della tabella aggregata è quella di fare una moltiplicazione, moltiplicare la tabella lessicale per la tabella Q che è una tabella in cui abbiamo per ciascun documento un informazione, ad es se abbiamo una serie di tweet possiamo decidere di aggregarli per data (data=informazione), le righe nn saranno più documenti ma date. Oppure possiamo aggregare per utente (es partto politico). La logica dell’aggregazion è quello di ridurre la sparsità delle tabella e la sua dimensionalità; altre operazioni saranno l’analisi per corrispondenze lessicali, tecniche di feature extraction e feature section, cioè tecniche per la riduzione della dimensione della tabella. La matrice formexforme viene definita matrice delle co-occorrenze /di prossimità, nella cella abbiamo il numero di volte che due parole si presentano insieme all’interno del doc, se le due parole sono uguali vi è il num di volte in cui quella parola compare. Invece della co-occorrenza potrebbe esserci un altro schema di ponderazione, ad es il coefficiente di jaccard che mi dice il livello di similarità tra le parole. Questa matrice è simile ad una matrice di correlazione, cioè è una matrice triangolare, sulla diagonale principale posso avere o tutti 0, poichè non ci interessa come informazione, oppure possiamo avere il num di volte che la parola si presenta all’interno della collezione. Per passare da una tabella lessicale a una tabella formexforme: Partiamo dalla tabella docxforme la dicotomizzo cioé dove c’è 0 resta 0 e dove c’è un valore diverso diventa 1, tale matrice rinominata matrice A ne faccio la trasposta e la moltiplico per A stessa: AT × A otterremo una matrice pxp, formexforme. Tale matrice è molto importante, perché ci da a forza del legame tra le parole, può essere la matrice di partenza della network text analysis: Otteniamo una rete di parole, è un esempio di clustering gerarchico aglomerativo, specifico per i testi; partendo dall’ipotesi che i doc sono espressione di determinati topic, che si basa su un approccio probabilistico dell’individuazione dei topic, cd topic modelling. Ciò ci permette sia di identificare i topic di una collezione e di attribuire a ciascun documento la pertinenza con i diversi topic, è un metodo di classificazione non supervisionata. La network text analysis è un metodo per codificare le relazioni tra le parole in un testo e costruire una rete di parole legate, ciò che accade che la nostra matrice formex forme nel linguaggio di rete è una matrice di adiacenza e dal punto di vista della visualizzazione si tratta di un grafo non orientato pesato. ESEMPIO: Ogni canzone ha come dato iniziale l’anno e la decade. Il database di partenza sn 1189 brani, il numero di token sn 225112, il num di type=forme sono 8403, il numero di hapax sono 3649, quasi la metà infatti la richhezza lessicale è alta, infatti quasi la metà delle forme si presentano una sola volta, gli hapax sono 1.62% delle occorrenze totali, la media di occorrenze per testo 189.33 il num medio di parole per ogni canzone. Il vocabolario di partenza è stato lemmatizzato, abbiamo il POS lessicale di contenuto, aggettivi, sostantivi e verbi (volere, amore, solo, ecc) e il POS strumentale cioè tutta la parte di parole vuote, congiunzioni preposizioni e articoli, il vocabolario totale è dato dall’unione del POS lessicale e POS strumentale, in cui però sorge il problema che le parole più frequenti sono rappresentate dai POS strumentali che non sono utili per la nostra analisi; poi abbiamo il vocabolario degli hapax. La cosa più semplice che si può gare avendo le occorrenze a disposizione è la word cloud: Le word cloud sono una rappresentazione grafica di un test dove la grandezza delle parole è dettata dal peso che abbiamo dato a quella parola, se il peso è la frequenza, tanto maggiore è la frequenza tanto maggiore sarà la grandezza del font di quella parola. del 1970 In questo modo ho un primo impatto delle parole usate nelle canzoni del 1970. Estratto della tabellalessicale classico, le parole e la loro occorrenza, osserviamo che vi sono molti 0 per cui la matrice è sparsa. A partire da quest matrice è possibile fare un analisi delle corrispondenze. Oppure a partire dalla tabella lessicale grezza possiamo ricavare la tabella lessicale aggregata: anche se la situazione nn migliora tantissimo, stiamo aggregando per anno, per cui le mie unità non sono più i doc ma sono gli anni, nelle celle abbioamo il num di volte che quella parola si presenta all’interno dei doc. Un altro tipo di aggregazione è tramite decade: Abbiamo compattato in 6 colonne tutto il vocabolario. Un altro es di tabella formexforme Questa tabella ci dice a coppie di parole se appaiono o meno all’interno di tutti i doc della collection. Un esempio di community detection, cioè di network text analysis: Che non è altro che una cluster analysis sui dati di rete, sulla matrice di cooccorrenza, visualizzandola come un grafo. I vertici sono molto connessi tra di loro e scarsamente connessi alle altre parti delle reti, cerchiamo gruppi di individui che siano molto omogenei al loro interno ed eterogenei all’esterno simile alla cluster analysis. In questo grafico visualizziamo che: ci sono tutta una serie di canzone legata al tema della solitudine e poi tutte la parte delle canzoni dedicate all’amore che si declina con il cuore; NB sono stati posti dei limiti quantitativi alle occorrenze altrimenti nn si sarebbe capito nulla e non si sarebbe vista la struttura. Un altro esempio Analisi sulle ultime parole dei condannati a morte in Texas. DESCRIZIONE DELLE CLASSI TEXT MINING 3 Si parte da un analisi dei dati univariata e poi si estende allo studio di più relazioni tra variabili, l’AMD ci permette in generale di individuare dei fattori latenti, in num inferiore alle variabili originarie, e ne siano una loro sintesi, spesso una loro combinazione lineare, e ciò ci consentae di poter visualizzare sulle mappe (fattoriali) a coppie di fattori, quali sono le relazioni tra unità e variabili in un sottospazio di dimensioni ridotte; le rapprsentazioni grafiche comprendono anche le cluster analysis, quindi i tipi di rappresentazioni sono da un lato le mappe fattoriali e dall’altro possono essere i dendrogrammi, solitamente facciamo una cluster analysis sulle componenti principali, potendo visualizzare i cluster sulla mappa fattoriale. ANALISI DELLE CORRISPONDENZE LESSICALI L’Analisi delle Corrispondenze Lessicali (ACL) applica ai dati testuali l’Analisi delle Corrispondenze (AC), una tecnica di analisi dei dati per variabili categoriali elaborata nell’ambito dell’approccio Analyse des données dalla scuola francese di J.P. Benzécri all’inizio degli anni Sessanta. (Benzécri J.P.,L’analyse des données. Dunod, Paris 1973.) E’ una classica applicazione dell’analisi delle corrispondenze binarie. L’idea è quello di usare questa tecnica per individuare le dimensioni sottostanti ai dati. Trattandosi di un procedimento di tipo fattoriale, attraverso l’ACL è possibile individuare dimensioni sottese ai dati che sintetizzano le molteplici relazioni tra le variabili originarie costituite dalle parole (o dalle categorie di parole) presenti nel corpus in esame. Ciò per poter visualizzare le similarità tra i documenti e per poter individuare topic nella collezione e attraverso la similarità di parole e quindi di concetti andare a visualizzare le strutture linguistiche latenti; Partendo dalla tabella lessicale documentix forme l’obiettvo è trovare il miglior sottospazio di rappresentazione: vogliamo cioè rappresentare in un numero di dimensioni ridotte la nube dei punti conservando però quanta più informazione possibile (per visualizzare le relazioni tra i dati). Nelle celle della nostra tabella lessicale spesso è presente la frequeza congiunta, cioè il num di volte che la i-esima parola si presenta nel j-esimo doc; in questo caso non partiamo dalle fequenze congiunte assolute ma partiamo dalle frequenze relative: 1)La nostra matrice di partenza è F, di elemento generico fij, dove fij rappresenta una freq relativa, cioè in che proporzione quella parola è presente in quel documento. Il totale delle frequenze non sarà più N (che identificava tutti i doc della collezione) ma 1. 2)Il passaggio successivo è quello di andare ad estrarre il cd sistema di pesi; il sistema di pesi nell’analisi delle corrispondenze è definito da 2 matrici diagonali: Dp e Dq , che hanno elementi diversi da 0 solo sulla diagonale principale. La matrice Dq è il vettore marginale di colonna della nostra tabella F, cioé il vettore che ha come elementi le somme per riga della matrice F. (f.j), questa rappresentazione viene fuori andando a moltiplicare il vettore marginale di colonna per la matrice identità. La matrice Dp è il vettore marginale di riga della nostra tabella F, cioé il vettore che ha come elementi le somme per colonna della matrice F. (fi.), questa rappresentazione viene fuori andando a moltiplicare il vettore marginale di riga per la matrice identità. Il marginale di riga della tabella docxparole rappresenta il numero di parole totali presenti nel documento i, quindi il marginale relativo rappresenta la massa di quel documento, che porzione ha nella collezione; lo stesso vale per il marginale di colonna che rappresenta quante volte una parola si presenta nella collezione, quindi il marginale relativo rappresenterà il peso di ogni parola all’interno della collezione; 3)A partire quindi dalla tabella F e dalle tabelle dei pesi è possibile andare a costruire le cd tabelle dei profili, sulla quale verrà effettuata l’analisi delle corrispondenze. La tabella dei profili viene ottenuta come rapporto tra ciascuna frequenza e il marginale −1 rispettivo: F * D q , Dq−1 l’inversa della matrice diagonale di colonna significa fare il reciproco degli elementi lungo la diagonale della matrice diagonale. Ogni quantità (ciascuna frequenza relativa) di F la sstiamo rapportando al marginale di colonna (tabella dei profili di colonna). −1 D−1 p * F , Dp l’inversa della matrice diagonale di riga significa fare il reciproco degli elementi lungo la diagonale della matrice diagonale. Ogni quantità (ciascuna frequenza relativa) di F la sstiamo rapportando al marginale di riga (tabella dei profili di riga). I profili colonna saranno rappresentati nello spazio di righe e i profili riga saranno rappresentati nello spazio delle colonne, la logica è la stessa dell’acp quando andiamo a fare l’analisi in Rp e in Rn, la differenza con l’acp è che è un analisi (simmetrica) pesata i cui pesi sono i marginali. Nel momento in cui nella tabella dei profili colonna andrò a calcolare ciascuna frequanza relativa rapportata al relativo marginale la somma per colonna sarà pari a 1, ciò vale anche per la tabeòòa dei profili riga la somma per riga deve fare 1, poiché stiamo rapportando le frequenze relative al marginale che rappresenta un ” totale” per riga o per colonna. 4)Il vincolare la somma per riga o per colonna data tale trasformazione comporta la perdidita di una dimensione, infatti i profili colonna (q) sono rappresentati nello spazio Rp−1 (e i profili riga sono rappresentati nello spazio Rq−1 ), ciò perché la trasformazione che stiamo facendo sui dati comporta la perdita a monte di una dimensione, e questo influirà sulla determinazione degli autovalori, cioè vi è un autovalore con inerzia nulla. Il triangolo è una rappresentazione definita simplesso, se abbiamo una matrice tridimensionale nel momento in cui trasformo tale matrice in una matrice dei profili e rappresento questi punti nello spazio tridimensionale tutti i punti si troveranno sul piano del triangolo, questa è la diretta conseguenza della perdita di una dimensione. AUTOVALORE BANALE Partiamo da una classica tabella di contingenza a 5 elementi e 2 variabili, e poi calcoliamo la matrice dei profili di riga facendo 7/10*100, 3/10*100….. e così via ( possiamo anche non molt per 100), se andiamo a rappresentare le due var rappresentiamo questi 5 oggetti che si presenteranno tutti lungo una retta. Nel caso a 3 dimensioni i punti giacciono sul piano (cd simplesso); tutto ciò e quindi diretta conseguenza ad aver vincolato attraverso la trasformazione la somma a 100. MISURARE LA DISTANZA TRA DICUMENTI E FORME Nell’ambito dell’analisi ACP noi vediamo la distanza euclidea che rispetto alla distanza del chi-quadro, la distanza euclidea è uguale a: Con la distanza chi-quadro abbiamo: Il peso di j, è il peso che noi attribuiamo a ciascuna distanza, andiamo a pesare la distanza tra due profili riga con il rispettivo marginale di colonna, in questo modo stiamo dando importanza alle modalità/parole che hanno frequenza più bassa, ciò perché andiamo a pesare con la quantità 1/f.j più è alto f.j, cioè la frequenza della parola minore sarà il peso attribuito, bisogna stare molto attenti quando f.j è piccolo poichè il peso potrebbe esplodere. La metrica del chi-quadro è costruita in modo da avere un effetto normalizzante sull’importanza delle diverse parole, ciò è importante dato che nell’analisi dei dati testuali le parole che si presentano di meno sono quelle maggiormente discriminanti; ciò vale sia per i profili riga che per i profili colonna: PRINCIPIO DELL’EQUIVALENZA DISTRIBUTIVA La metrica del chi quadro gode della proprietà dell’equivalenza distributiva, cioè: Vuol dire che se abbiamo due punti che sono molto vicini vuol dire che questi hanno un comportamento simile, vuol dire che le parole sono simili tra loro, sono legate d qualche associazione che magari non vediamo, nell’altro spazio se due documenti sono molto vicini si suppone che abbiano un vocabolario condiviso. La proprietà dell’equivalenza distributiva vuol dire quindi che se un documento ha una massa tot e un altro documento ha una massa tot e questi documenti nello spazio di rappresentazione sono molto vicini la possibilità è quella di aggregarli in un unico punto più grande che abbia come massa/peso pari la somma delle masse dei due doc. Ciò è importante sotto l’aspetto della riduzione dimensionale, che in parte abbiamo fatto con il pretrattamento. AC E TEST DI INDIPENDENZA L’associazione tra due variabili in una tabella di contingenza viene misurata con il test del chi quadro. Per vedere se c’è associazione tra due variabili, verifico quanto mi discosto dalla situazione in cui queste due variabili sono indipendenti, le due variabili sono indipendenti quando i profili sono uguali al profilo medio, quindi alla somma dei profili, se sono uguali significa che non c’è indipendenza da quello che succede alla colonna, cioè all’altra variabile, e viceversa. L’idea del chi-quadro è quella di andare a calcolare la differenza tra frequaneza osservata assoluta per n, mentre n * f i. * f .j n* f ij che rappresenta rappresentano quelle che vengono definite frequenze teoriche idi indipendenza, cioè sono quelle frequenze che si presentano in caso di indipendenza ad es se abbiamo due variabili v1 e v2: V1 V2 ni. N1 n11 n12 n1. N2 n21 n22 n2. n.j n.1 n.2 N la frequenza teorica in caso di indipendenza viene calcolata per ogni cella della tabella: ñ 11 = n 1. ×n .1 N In questo modo calcoliamo la tabella delle frequenze teorice n cappello, e calcoliamo la differenza tra la situazione che abbiamo osservato e la situazione di indipendenza (teorica), quanto più mi discosto tanto più forte è l’associazione tra le variabili. Quindi il chi-quadro e differenza al quadrato tra le frequenze osservate e frequenze teoriche rapporteto alle frequenze teoriche. Il chi-q è un indice >0 ( =0 implica indipendenza) che risente della dimensione della tabella, quindi non ho un limite superiore, l’indice normalizzato viene definito phi-quadro (ф^2) ottenuta portando n al di fuori della sommatoria: ф^2 non varia tra 0 e 1, infatti esistono altre misure normalizzate che variano tra 0 e 1 come ad es la V di cramer, che tengono conto del num di righe e colonne della tabella. ф^2 misura l’intensità del legame tra le variabili indipendentemente dal numero di osservazioni, ma ф^2 ha anche un importante significato geometrico: L’inerzia è una misura di variabilità (stessa logica della varianza), ottenuta come somma ponderata secondo il peso di ciascun profilo riga per la distanza al quadrato di ciascun punto dal baricentro G, è un indicatore della dispersione della nube dei profili attorno al baricentro, ed esaminare tale dispersione significa esaminare lo scarto tra i dati e il modello di indipendenza. (cìè una dim che non facciamo che ci spiega come si passa dal chi.-q a questa def). DETERMINAZIONE DEL SOTTOSPAZIO DI MIGLIORE APPROSSIMAZIONE Ogni studio multidimensionale è definito da una tripletta di valori: La nostra matrice di partenza è la matrice dei profili riga o colonna, a secondo se l’analisi è in Rp o in Rq, la metrica del chi-q che è la stessa cosa di un metrica euclidea ponderata, e il sistema dei pesi definito dalle masse dei punti, che sono i marginali. Nello spazio delle colonne ad es avremo che la metrica sarà definita dall’inverso del marginale di riga e il peso sarà il marginale di colonna, viceversa nello spazio dele righe. Spazio colonne-> l’idea è quella di individuare di volta in volta una direzione/un asse di massima variabilità dei punti, e quindi di massima inerzia, e andiamo a considerare un vettore di norma unitaria u che tenga conto del sistema dei pesi. Ciò vuol dire che il vettore delle proiezioni di quei punti sull’asse viene dato dal prodotto tra la matrice dei profili riga e l’asse ponderato con i pesi che stiamo considerando, ciò vale in generale la proiezione viene effettuata moltiplicando la matrice di partenza con il vettore = all’acp; l’idea è che per individuare il sottospazio di migliore approssimazione significa proiettare i punti in un sottospazio, in particolare quello che andiamo a massimizzare è la somma dei quadrati delle proiezioni tenendo conto dei diversi pesi delle unità. Andare a fare il quadrato significa moltiplicare ĉ’ con ĉ in questo modo abbiamo gli elementi al quadrato di ciascuno dei vettori proiezione, e questa quantità va massimizzata con il vincolo che il nostro vettore sia di norma unitaria. Mettere u’ e F’ fa si che abbiamo la somma del quadrato delle proiezioni. Diagonalizzare vuol dire individuare lo specchio di quella matrice, cioè individuare gli autovalori e gli autovettori di quella matrice, la matrice da diagonalizzare S rappresenta il prodotto tra la matrice dei profili riga e la matrice dei profili colonna. Il primo asse che andiamo ad individuare sarà l’autovettore u1 rispondente al più grande autovalore λ della matrice S, questo rappresenterà il primo asse principale della matrice. Dopodiché verrano individuati gli assi successivi al primo con l’ulteriore vincolo di ortogonalità all’asse precedente. RIASSUMENDO: La differenza con l’acp in cui non possiamo rappresentare le variabili nello stesso spaio degli individui, in questo caso a meno di un fattore di proporzionalità : 1/ √λ è possibile avere proiettati nello stesso spazio sia i profili riga che i profili colonna. Avremo un num di assi pari al min tra il numero di righe o il num di colonne -1 perché perdiamo una dimensione. In generale come si interpreta un grafico fattoriale del genere? allora abbiamo le due direzioni principali definite dagli autovettori u1 e u2 ai quali saranno associati gli autovalori λ1 e λ2 che rappresenteranno la quota di variabilità spiegata dal primo asse e dal secondo asse, più i punti sono distanti dall’origine più la nube dei punti è dispersa, più si discostano dal profilo medio, tutto ciò che si discosta dagli assi è cd peculiare. Osservando il grafico potrò dire quanto due profili riga sono simili, quanto due doc sono simili, e quanto i profili colonna (le parole) sono simili, però non potremmo misurare l’associazione tra i documenti e le parole, poiché sono due rappresentazioni l’una sull’altra. Data la proprietà baricentrica in realtà l’unica relazione che posso mettere in atta tra parole e doc è tra la parola rispetto alla nube dei documenti ma non rispetto tutti i doc, perché quella parola rappresenterà il baricentro della nube dei doc, e viceversa. La rappresentazione dei punti supplementari in linea di massima nell’anlisi dei dati si possono utilizzare e sono ad es variabili categoriali come l’anno ecc. AUSILI ALL’INTERPRETAZIONE I contributi relativi ci dicono quanto un punto è ben rappresentato dall’asse. Il nostro obiettivo è quello di avere la migliore approssimazione di sottospazio, e quindi quello di avere la migliore proiezione dei punti sull’asse, per capire se è ben rappresentato usiamo il coseno che ci dice il valore della proiezione, quanto più è grande il coseno tanto più è ben rappresentato il punto, il coseno varia tra -1 e 1 è elevato al quadrato perché sia -1 che 1 indiano che il punto è ben rappresentato. I contributi assoluti, ci dicono l’importanza di una data modalità per la formazione dell’asse, (quanto una modalità contribuisce alla formazione dell’asse), in particolare nel caso dell’AC i contributi sono calcolati come il rapporto tra la coordinata del punto al quadrato e la distanza dal baricentro. Le tre situazioni tipo che variano ripetto all’acp poiché qui abbiamo la massa; 1) Nel primo caso i due punti si trovano sulla stessa coordinata, poiché nel calcolo del contributo si tiene conto sia della massa che la coordinata, in questo caso i’ ha una massa più grande, per cui il suo contributo è più grande. 2) due punti hanno la stessa massa ma coordinate diverse, il contibuto maggiore lo da i’ che è più lontano dall’origine (valore medio) cioé ha coordinata maggiore. 3) questi due punti hanno contributo uguale perché i ha coordinata piccola ma massa grande mentre il contrario per i’. NB. Nell’AC suglia assi principali vedremo anche la quota di variabilità spiegata, definita dagli autovalori, avremo una quota di variabilità spiegata maggiore nei primi assi e poi man mano a scndere gli autovalori saranno sempre più piccoli, nello specifico nell’AC dato il vincolo sulla somma di riga/o colonna avremo un primo autovalore definito autovalore banale (=1) e tutti gli altri autovalori sono tutti molto bassi , infatti nell’AC si utilizzano delle forme di correzione per il calcolo della variabilità spiegata perché i valori sono tutti molto bassi, ad es 8%, L’inerzia totale rappresenta la dispersione dei punti intorno alla media,ed è quindi una misura di variabilità dei punti; un altro indicatore importante sono i tassi di inerzia che identificano la forma dellla nube, e sono il rapporto tra i singoli autovalori e la loro somma (che è l’inerza totale), e i singoli autovalori avranno una quota di variabilità spiegata Abbiamo 4 situazioni principali: 1. un chi- quadro basso, non c’è associazione tra i dati, poiché un chi quadro basso indica che i punti sono molto vicini alla media, e non ho direzione della nube. 2. in questo caso ho una nube che ha una bella direzione però ha un chi quadro comunque basso, e quindi anche i tassi di inerzia saranno bassi, dato che gli autovalori saranno bassi. 3. abbiamo un valorer grande di inerzia totale, però non abbiamo direzione di associazione. 4. questo è il caso ideale, chi-q significativo e una direzione definita Dato che l’AC può essere un analisi diretta alla riduzione della dimensionalità quindi: Possiamo raggruppare i documenti per similarità individuare i topic andando a raggruppare. Nel primo caso possiamo anche partire dalla tabela lessicle grezza e ossiamo applicare n k means ed abbiamo una partizione dei datiche produce un vettore che mi dice ogni unità a che gruppo appartiene senza dirmi come è avvenuta tale associazione, mentre cosa diversa è il dendrogramma invece mi da un idea di come i punti sono associati ad ogni passo. ESEMPIO Studio esplorativo sul tema dei vaccini, analisi in componenti principali e clustering gerarchico e network analysis su: I 12 hashtags sono stati individuati tramite tendenze su google e tramite tendenze su tweeter stesso.I dati sono stati aggregati per mese per poter fare un analisi mensile per poter vedere di cosa si stava parlando. sul corpus è stato effettuato il parsing e pretrattato, e aggregato per mese, qui vediamo la distribuzione del numero di tweet per mesi, il numero di token, il numero di type, il numero di hapax, il type token ratio = estenzione lessicale e la richhezza lessicale =num di hapax /num di type che è quesi al limite, dato che caratteristica dei tweet sono testi molto brevi con una grande variabilità e vocabolario di grandi dimensioni e una grande scarsità Qui abbiamo una rappresentazione fattoriale, n cui sugli assi abbiamo la perc di variabilità spiegata, è la rappresentazione dei mesi dato che l’acp è stata effettuata su una tabella aggregata,considerando i tweet dei mesi di gennaio/giugno, abbiamo una tab di 6 righe A marzo e aprile si è parlato delle stesse cose, mentra si sono discostati i mesi di gennaio e maggio, perché? osserviamo la l’AC lessicale: A gennaio e maggio abbiamo due trasmissioni televisive che hanno parlato dei vaccini: presadiretta e virusrai2, qui si evidenziano una serie di tematiche di cui si è parlato. NB questa è una selezione delle parole usate.A febbraio ha fatto scalpore il caso della meningite in toscana ecc Quindi abbiamo preso una base di 6000 tweet e siamo andati a individuare quali possono essere le tematiche nell’ambito di quel periodo temporale. Nella network text analysis abbiamo fatto una community detection su quelle che erano le tematiche, è una rete tagliata su cui si evidenziano tutti i topic che si sono evidenziati e si è diviso per mese, in modo da individuare la tematice di quel mese ed si è proceduto ad una classificazione gerarchica: GENNAIO a sx c’è la rete co-occorenza tra termini vincolata solo al mese di gennaio a dx invece si sono individuati i gruppi di tweet con la specifica di quali parole rappresenta ciascun gruppo. Qui la rete individua l’associazione delle parole che comprare anche nel dendrogramma, l’associazione emerge a prescindere dalla tecnica