Laboratorio di analisi di risorse linguistiche Laurea Specialistica in

Laboratorio di analisi di risorse linguistiche
Laurea Specialistica in Linguistica
Digressione: il linguaggio di query CQP
CQP
Operatori booleani:
& (and)
| (or)
! (not)
Variabili numeriche:
? (0 or 1)
* (0 or more)
+ (1 or more)
{n} (exactly n)
{n,m} (n…m interval)
CQP
Ricerca semplice: "parola";
Ricerca di una stringa: "parola1" "parola2" …
"parolan";
Due stringhe con due ordini di parole diversi: "parola1"
"parola2" … "parolan" | "parolan" …
"parola2" "parola1";
Ricerche case-insensitive: "baffo" %c;
Per ignorare accenti e diacritici: "elite" %d;
CQP
Ricerca combinata parola + categoria: "parola"
[pos="label"];
Ricerca di un lemma: [lem="parola"];
Wildcards: "parol.*"; ".*arola"; ".*arol.*";
Per specificare un insieme chiuso di alternative:
"parol(a|e|aio|iere)";
Per ignorare una lettera o un segno: "pic-?nic";
Per ampliare il contesto: "baffo"; set Context 30
oppure "baffo"; set Context 5 words
oppure "baffo"; set Context 2 s
CQP
Per cercare segmenti di qualsiasi lunghezza contenuti tra una
parola e un’altra: "parola1" []* "parola2";
Per cercare segmenti di lunghezza pari a una parola contenuti
fra una parola e un'altra: "parola1" [] "parola2";
Per cercare tutte le occorrenze di un lemma in una data forma
all'interno della stessa frase: [lemma = "volere"][]+
[pos = ".*inf.*"] within s;
Attenzione alle etichette diverse in ciascun corpus (es. il
Corpus Taurinense usa lemma mentre il corpus della
Repubblica utilizza lem)!
CQP
Per cercare segmenti di lunghezza prestabilita contenuti
tra una parola e un’altra: "parola1" []*
"parola2" within 10;
Per cercare segmenti di lunghezza variabile contenuti fra
una parola e un’altra all'interno della stessa frase:
"parola1" [] "parola2" within s;
Per cercare tutte le occorrenze di una parola seguita da
una preposizione o da un pronome personale: "parola"
[pos="IN" | pos="PP"];
CQP
Per cercare una sequenza aggettivo + nome + congiunzione +
nome: [pos="JJ.*"] [pos="N.*"] "and|or"
[pos="N.*"];
Per cercare una sequenza nome + is/was + verbo che termina in ed: [pos="N.*"] "is|was" [pos="V.*" &
word=".*ed"];
Per cercare una sequenza catch/caught + un determinatore + un
numero qualsiasi di aggettivi + un nome oppure una sequenza
nome + was/were + caught: "catch|caught"
[pos="DT"] [pos="JJ"]* [pos="N.*"] |
[pos="N.*"] "was|were" "caught";
CQP
Per cercare una sequenza look/bring + una sequenza di
max 10 parole che non siano verbi + up/down:
"look|bring" [pos != "VB.*"]{0,10}
"up|down";
Per cercare le parole che cominciano con sott- e non
siano né verbi né aggettivi: [word="sott.*" &
!(pos="V.*" | pos="ADJ")];
CQP: un esempio concreto
Corpus La Repubblica:
Attributi strutturali – permettono di restringere il campo della ricerca per
generi:
- article_id: a single id assigned to each article
(not very interesting).
- article_author: the author of the article.
- article_gen: the genre of the article (two values:
news and commento).
- article_top: the topic of an article (chiesa,
cronaca, cultura, economia, meteo, politica, scienze,
scuola, società, sport, NOCAT).
- article_year: the year of an article (1985-2000).
Esempio: a:"opportunista" :: a.article_top="politica"