Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012 Docente: Sergio Bolasco Dispensa n° 1 GLOSSARIO su Analisi dei Dati Testuali e Text mining Legenda: grassetto = voce del glossario corsivo sottolineato = rimando ad altra voce del glossario corsivo = parole straniere o parole chiave AAT: analisi automatica dei testi AC: analisi del contenuto, content analysis AD: analisi del discorso ADT: analisi dei dati testuali, ambito della statistica testuale AFC: analisi fattoriale delle corrispondenze alfabeto: insieme dei caratteri costituenti le forme grafiche; elementi (bytes) costituenti i tokens scanditi nel parsing del corpus 7. analisi lessicale: livello di studio del linguaggio di un corpus di testi; il dominio dell’a.l. è il vocabolario del corpus; il prodotto di una attività di a.l. è l’annotazione delle unità lessicali 8. analisi testuale: livello di studio delle occorrenze (singole apparizioni delle unità lessicali) di un corpus di testi; il dominio dell’a.t. è l’insieme dei frammenti del corpus; il prodotto di una attività di a.t. è l’annotazione delle unità di contesto (categorizzazione dei frammenti o documenti) 9. carattere: singolo byte di un testo elettronico; in AAT si distinguono in due classi: alfabeto e separatore 10. chunk: spezzone temporaneo di discorso per esplorare il testo; finestra di testo compresa fra due separatori (forti) di punteggiatura; talvolta questa entità è chiamata contesto elementare 11. collocazione: co-occorrenza regolare di due o più parole, di solito una vicina all’altra, che si incontrano in modo fisso e sistematico o caratterizzate da un forte legame di associazione reciproca (Lenci, 196), creando un concetto unitario; associazione abituale di un morfema lessicale con altri all’interno di un enunciato. Esempi di c. sono: termini tecnici (decreto legge, materie prime), costrutti a verbi supporto (fare attenzione, prendere posto), nomi propri (Stati Uniti d’America), costruzioni idiomatiche (tagliare la corda, andare a letto con le galline, mercato nero), complementi tipici di un verbo (infrangere le regole). 12. concordanza: collezione di tutti i co-testi di una stessa parola (pivot) nel corpus 13. corpus: collezione di testi, costituita da uno o più elementi (frammenti), coerenti fra loro a fini di studio; quando la collezione dei testi che costituisce il corpus è ampia (diverse decine, centinaia o migliaia di frammenti) è possibile associare ad ogni elemento della collezione informazioni strutturate (dati codificati costituenti variabili quantitative o qualitative) 14. co-testo: intorno destro o sinistro della parola pivot in una concordanza 15. dati codificati: informazioni intese come modalità di variabili quantitative o qualitative, queste ultime espresse in maniera standardizzata 16. dati non strutturati: dati testuali; informazioni sparse ovunque in un testo ed espresse liberamente in linguaggio naturale contenute in un corpus di testi di qualunque tipo 1. 2. 3. 4. 5. 6. 1 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012 Docente: Sergio Bolasco 17. dati strutturati: informazioni inserite in campi di una tabella di un database, sotto forma di dati codificati 18. dati testuali: vedi dati non strutturati 19. disambiguazione: eliminazione dell’ambiguità di un’unità lessicale; azione per attribuire ad una parola la giusta categoria grammaticale o l’autentica accezione in un dato contesto 20. discorso: termine convenzionale per indicare lo sviluppo del testo in frasi 21. dizionario: inventario “(in)completo” di una lingua; insieme di unità lessicali iscritto in una semplice lista, eventualmente arricchita di categorizzazioni grammaticali o semantiche 22. DM: data mining; processo di elaborazione statistica di masse di dati strutturati per estrarre nuova conoscenza 23. entrata: voce di una lista o dizionario o altro index lessicale 24. ETL: (Extraction Transformation Loading) processo di estrazione, trasformazione e archiviazione di informazioni; processo di trasformazione di dati non strutturati in dati strutturati 25. forma grafica (type): catena di caratteri (bytes) di un dato alfabeto pre-definito; elemento base del riconoscimento automatico (parsing) di un testo 26. frammento: termine convenzionale identificante l’unità di contesto; è l’elemento base della collezione di testi costituenti il corpus; in quanto tale costituisce l’elemento di frammentazione del corpus in frasi o proposizioni o periodi o documenti; ogni frammento, nel caso si tratti di un documento, può a sua volta essere articolato in sezioni 27. frequenza normalizzata: quantità di occorrenze di un type ogni “x” occorrenze di parole; in pratica, quando ad esempio calcoliamo una frequenza normalizzata ogni 1000 parole, se la frequenza della forma grafica io = 5,2 vuol dire che mediamente nel corpus il type “io” si trova 5 volte (e poco più) ogni 1000 occorrenze 28. hapax: parola che appare una sola volta nel corpus; unità di testo con un sola occorrenza nel vocabolario 29. KM: (Knowledge Management) gestione della conoscenza 30. KWIC (KeyWord In Context): è la modalità corrente per visualizzare una concordanza 31. lemma: coppia di informazioni [forma canonica, categoria grammaticale] presente in un dizionario di lingua 32. lessia: unità di analisi del testo; può essere costituita da una forma semplice, da una parola composta, da una locuzione o una multiword; in ogni caso la l. costituisce un atomo di significato, quindi una unità di senso 33. lessicale: attributo inerente il linguaggio o lessico, ovvero l’insieme delle entrate del vocabolario di un corpus 34. lessicalizzazione: processo che porta a introdurre termini nuovi in una lingua; ricostruzione di una lessia complessa sotto forma di una sola occorrenza, come nuova entrata nel vocabolario del corpus; le nuove occorrenze prodotte da una lessicalizzazione sono “parole di più parole” (o multiwords): ad esempio <capo dello stato>, <politica economica>, <a carico di>, <andare al creatore> 35. lessico di frequenza (dizionario di frequenza): vocabolario di un corpus di ampie dimensioni (milioni di occorrenze), derivante da una raccolta di testi rappresentativi di un dato dominio di linguaggio (parlato, scritto, di settore, ...); le occorrenze (o l’uso) di un lessico di frequenza costituiscono un riferimento statistico da utilizzare nei confronti lessicali finalizzati ad estrarre il linguaggio peculiare (LIPE); tali confronti possono essere fatti a livello di lemmi o di forme 2 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012 Docente: Sergio Bolasco 36. meta-lista: insieme di query lessicali di vario tipo e origine, per annotare in un solo step di analisi le entrate del vocabolario con tags semantici 37. meta-query: insieme di query testuali da eseguire in un solo step di analisi; piano di lavoro per annotazioni sui frammenti attraverso l’alimentazione di nuove informazioni (variabili testuali o codificate) 38. mining: estrarre informazione da un vastissimo giacimento di dati; data mining e text mining: procedure per estrarre rispettivamente dati strutturati (dati codificati) e non strutturati (dati testuali); attività elementare di text mining mediante applicazione di una query su un campo di una tabella in un database relazionale 39. morfema grammaticale: desinenza grammaticale di una forma flessa (scriv-ere, parl-are, buon-o, civil-e, donn-a, ragazz-i) 40. morfema lessicale: radice lessicale di una forma flessa: (parl-ato/are/avo/a/i/o); in ambito non linguistico, talvolta la radice è chiamato lessema e il processo di riduzione di una flessione al suo radicale viene denominato lessematizzazione 41. multiword expression: lessia complessa costituita da più forme grafiche, presente come entrata nel vocabolario; poliforme lessicalizzato 42. NLP (Natural Language Processing): trattamento del linguaggio naturale; insieme di procedure automatiche per riconoscimenti di tipo linguistico e/o semantico sulle parole di un testo 43. occorrenza: (token, replica), ogni apparizione di una parola nel testo; la frequenza di una parola in un testo è data dal numero delle sue occorrenze (più propriamente si parla di frequenza normalizzata) 44. parola: termine convenzionale e generico per identificare l’unità di analisi del testo 45. parsing: procedura di individuazione dei token nel corpus (tokenizzazione) attraverso segmentazione e numerizzazione del testo in parole sulla base di un alfabeto; in linguistica, è il processo di determinazione della struttura morfo-sintattica di una frase 46. poliforme: segmento di senso compiuto; se il segmento viene lessicalizzato, ossia considerato come un’unica occorrenza a cui corrisponde un nuovo type del vocabolario, è assunto come multiword 47. polirematica: espressione/locuzione composta da più parole che ha un significato diverso dalla somma dei significati elementari dei suoi componenti, neanche potenziali (<mercato nero> non è un mercato scuro; <capo dello stato> non è un “promontorio della nazione”) 48. POS: part of speech, ovvero categoria grammaticale cui appartiene una parola; ad esempio; V=verbo, N=sostantivo, A=aggettivo, AVV=avverbio ecc. 49. query lessicale: elemento base di una richiesta per effettuare il mining sulle entrate di una lista; una singola richiesta può essere formata da una parola, da un morfema (lessicale o grammaticale) o da un infisso (la query politic trova sia iper|politic|izzati, sia politic|s, sia geo|politic|o) 50. query testuale: elemento base di una richiesta per effettuare il mining sulle occorrenze di un testo; una singola richiesta può essere formalizzata sia con una unità di testo o una loro classe o categoria, sia con una espressione regolare che ponga in relazione almeno due dei precedenti operandi 51. rango: posto occupato da un elemento in una lista/graduatoria; posizione di una unità di testo nel vocabolario ordinato per occorrenze decrescenti 52. segmento: sequenza di parole adiacenti; tutte le disposizioni a 2, 3, ..., q parole che si ripetono più volte nel corpus 3 Appunti sull’analisi statistica dei dati testuali e cenni sull’analisi automatica dei testi Corso: Metodi esplorativi per l’analisi dei dati e data mining - a.a. 2011-2012 Docente: Sergio Bolasco 53. separatore: carattere delimitatore di una forma grafica o di un chunk di testo; i separatori “deboli” delimitano le forme grafiche (token), quelli “forti” delimitano gli spezzoni di testo per individuare un segmento 54. sezione: articolazione possibile di un frammento; parte di un documento strutturato; ad esempio, se il documento è un articolo di giornale, le sue sezioni possono essere: il titolo, il sottotitolo, l’occhiello, il corpo dell’articolo 55. sintagma: disposizione di elementi fra loro concatenati; ad esempio costituiscono un s. le lettere costituenti una parola o le parole di una frase; struttura ad albero di parti del discorso 56. spezzone (di testo): vedi chunk 57. tag: etichetta per marcare un elemento di una lista; segno o label usati per una annotazione 58. testi, sub-testi: parti o elementi di una partizione costitutiva del corpus; raggruppamento di frammenti secondo le modalità di una variabile codificata 59. testuale: attributo inerente il testo, ossia riguardante lo sviluppo del discorso nel corpus 60. text mining: attività di esplorazione e “scavo” in un giacimento di materiali testuali (corpus) per recupero ed estrazione di informazioni; procedure complesse per estrarre conoscenza, finalizzata a creare valore, da vastissime basi documentali di aziende o istituzioni 61. TM: acronimo di text mining 62. token: singola occorrenza o replica di un type; l’insieme dei token di un corpus esprime la sua estensione o ampiezza in occorrenze (N) 63. tokenizzazione: processo di segmentazione del testo in occorrenze o token, sulla base di una sequenza di caratteri - definiti come appartenenti ad un alfabeto - delimitata da separatori; al processo di tokenizzazione è associato quello di numerizzazione 64. type: tipo di occorrenza scandita dal parsing del testo; un t. può essere espresso da una forma grafica qualsiasi, da una parola singola o da una parola di più parole, detta multiword ; l’insieme dei types di un corpus esprime la sua ricchezza lessicale (V) 65. unità di contesto: unità di analisi testuale per la contestualizzazione delle occorrenze del corpus; record individuale della collezione di testi costituenti il corpus; frammento 66. unità di testo: unità di analisi lessicale per l’analisi automatica di un testo; occorrenza; type; lessia 67. vocabolario: lista dei diversi types (unità lessicali) del corpus con le corrispondenti occorrenze; conteggio sul discorso attualizzato 4