CAPITOLO 4 Il Corpus di Apprendenti di Italiano

Univerzita Karlova v Praze
Filozofická fakulta
Ústav románských studií
Filologie – Románské jazyky
Leontýna Bratánková
Le collocazioni Verbo + Nome
in apprendenti di italiano L2
vedoucí práce
doc. Pavel Štichauer, Ph.D.
doc. Stefania Spina
2015
Vorrei ringraziare i miei due tutor la prof.ssa Stefania Spina e il prof. Pavel Štichauer per i preziosi consigli che mi hanno fornito durante il mio lavoro e le tre università presso le quali ho potuto raccogliere i dati: l’Università per Stranieri di Perugia, l’Università Carolina di Praga e l’Università della Boemia meridionale di České Budějovice.
Un pensiero particolare va al sostegno incondizionato che ho avuto da parte di tutta la mia famiglia e dalla mia amica S. Abstrakt Tato práce se zabývá lexikální kompetencí nerodilých mluvčích italštiny a je zaměřená na výzkum specifického aspektu lexika: na verbonominální kolokace, tj. souvýskyty dvou slov která jsou omezena lexikální restrikcí na základě sémantické souvislosti. Z důvodu takového lexiko-‐sémantického statutu, jsou kolokace všeobecně nesnadno osvojované nerodilými mluvčími, a to nejen v rámci italského jazyka. Pro tento účel jsme vybudovali žákovský korpus italštiny (CAIL2 – Corpus di Apprendenti di Italiano L2) který obsahuje 237 000 slov a 400 psaných projevů studentů na různých úrovní ovládání italštiny a pocházejících z 33 rozlišných mateřských jazyků. Kolokace nerodilých mluvčí byly studovány z hlediska frekvenčního a lingvistického a srovnávány s kolokacemi obsaženými v projevech rodilých mluvčích italštiny pomocí korpusu SCUOLA, sekce rozsáhlého a reprezentativního korpusu současné italštiny PEC (Perugia Corpus). Kolokační kandidáty, tzv. empirické kolokace, jsme získali z korpusu CAIL2 a z
korpusu SCUOLA pomocí lexikálních asociačních měr (Mutual Information ≥ 3, t-‐score ≥ 2) a parametru frekvence výskytů (fr. ≥ 10). Nejdříve jsme empirické kolokace analyzovali z kvantitativního hlediska. Srovnali jsme jejich množství u rodilých a nerodilých mluvčí a také u různých skupin studentů italštiny na základě dvou parametrů: délky výuky italského jazyka a délky pobytu v
Itálii. Záměr kvantitativní analýzy byl určit podstatné rozdíly mezi skupinami. Provedeny byly i testy statistické významnosti výsledků. Dále jsme empirické kolokace studovali z pohledu lingvistického, což znamená, že jsme vyhodnotili které kombinace odpovídaly verbonominálním kolokacím v italském jazyce a popsali jejich nejvýznamnější rysy. Takový postup umožnil určit do jaké míry byly stanovené frekvenční parametry vhodné pro extrakci kolokací z korpusů rodilých a nerodilých mluvčí italštiny. Lexikální kompetence studentů italštiny jako druhého jazyka byla zkoumána na závěr z dodatečného hlediska, tj. byly analyzované konkordance vybrané skupiny verbonominalních kombinací což umožnilo zhodnotit váhu výuky a pobytu v zemi cílového jazyka v psaných projevech nerodilých mluvčí italštiny.
Klíčová slova: italský jazyk, verbonominální kolokace, žákovský korpus, lexikální asociační míry, osvojování druhého jazyka
Abstract The present work deals with learners’ Italian lexical competence and it is focused on a specific linguistic phenomenon: Verb + Noun collocations, i.e. restricted word combinations whose semantic and lexical properties cannot be fully predicted from those of its components. In reason of their lexico-‐semantic status collocations are generally hardly acquired by non natives. For the purposes of the present work we built the Corpus of Learner Italian CAIL2 (Corpus di Apprendenti di Italiano L2) which contains 400 essays for 237 000 tokens written by intermediate and advanced learners of Italian from 33 mother tongue backgrounds. Collocations produced by learners were studied from quantitative and qualitative perspective and were compared to those of natives contained in the written corpus SCUOLA, a section of the PEC corpus (Perugia Corpus), a representative corpus of contemporary Italian. Empirical collocations, i.e. collocational candidates, were extracted from corpus CAIL2 and corpus SCUOLA by means of lexical association measures (Mutual Information ≥ 3, t-‐score ≥ 2) and frequency threshold (fr. ≥ 10). First of all, we analysed empirical collocations by a quantitative point of view. We compared their amount in native and non native texts and in those of different groups of learners identified by two variables: time of study Italian and time spent in Italy. The goal of quantitative analysis was to find out if any substantial differences among groups of learners and/ or between the two varieties of natives and non natives exist. For this reason tests of statistical significance were performed. Secondly, we studied empirical collocations from linguistic perspective: we evaluated which V+N combinations extracted from corpora were Italian collocations and we described their prominent features. Inter alia, this allow us to evaluate to what extent frequency and lexical association thresholds adopted were suitable in extracting collocations from corpora of natives and learners Italian. Thirdly, learners Italian as second language productions were investigated from an additional outlook: concordance analysis relating to a group of selected Verb + Noun combinations was conducted in order to estimate, among other, the influence that time of teaching and exposure to Italian have on collocational competence. Keywords: Italian language, Verb + Noun collocations, Learner Corpus, lexical association measures, Second Language Acquisition Indice Introduzione ………………………………………………………………………………………………………….1 Capitolo 1 – Le collocazioni nella teoria linguistica Introduzione………………………….………………………………………………………………………………………………………..5 1.1. La fraseologia…………………………………………………………………………………………..……….………………5 1.2. I due approcci alle collocazioni…………………………………………………………………….………………7 1.2.1. L’approccio fraseologico………………………………………………………………………………….8 1.2.2. L’approccio frequentista……………………………………………….……………………………….13 1.3. Le collocazioni: un aspetto della formulaicità del linguaggio………………………….…18 Conclusioni……………………………………………………………………………………………………………………………….…..20 Capitolo 2 – Le collocazioni e il linguaggio formulaico Introduzione…………………………………………………………………………………………………………………………………21 2.1. Il linguaggio formulaico nelle teorie linguistiche………………………………………………….21 2.2. L’importanza del linguaggio formulaico………………………………………………………………….24 2.3. Definire ed individuare le sequenze formulaiche…………………………………………………25 2.4. Teorie sull’acquisizione del linguaggio formulaico………………………………….……………26 2.5. Il linguaggio formulaico nell’output degli apprendenti…………………….…………………29 2.5.1. Gli studi corpus-‐based sulle collocazioni degli apprendenti…………………31 Conclusioni……………………………………………………………………………………………………………………………………38 Capitolo 3 – I corpora di apprendenti L2 Introduzione……………………………………………………………………………………………………………39 3.1. La ricerca sui corpora di apprendenti e la Corpus Linguistics………………………39 3.2. I corpora di apprendenti L2………………………………………………………………………..41 3.2.1. I dati linguistici……………………………………………….……….…………………….41 3.2.2. L’annotazione dei corpora.……………………………….……………………………44 3.2.3. I criteri di progettazione dei corpora di apprendenti……………………..46 3.3. Analisi conducibili sui corpora di apprendenti……………………………………………47 i 3.4. Tipologie di corpora di apprendenti…………………………………………………………….49 3.5. Corpora di apprendenti della lingua italiana……..…………………………………………51 Conclusioni…………..…………………………………………………………………………………………………53 Capitolo 4 – Il Corpus di Apprendenti di Italiano L2 (CAIL2) Introduzione…………………………………………………………………………………………………………………………………54 4.1. La raccolta dei dati per il corpus CAIL2………………………………………………………….…………54 4.2. La codifica in XML e la normalizzazione dei dati……………………………………………………59 4.3. L’annotazione e l’indicizzazione del corpus CAIL2…………………………………………………65 4.4. Descrizione del corpus CAIL2………………………………………………………………………………………67 Conclusioni……………………………………………………………………………………………………………………………………79 Capitolo 5 – Estrazione dal corpus e analisi quantitativa delle collocazioni Verbo + Nome Introduzione…………………………………………………………………………………………………………………………………80 5.1. L’estrazione dal corpus delle combinazioni V+N e il calcolo delle misure di associazione……….…………………………………………………………………………………………80 5.2. Analisi quantitativa dei dati: apprendenti vs. nativi……………………………………………..85 5.2.1. Analisi della variabile “tempo di studio dell’italiano” nel corpus CAIL2……….………………………………………………………………………………………97 5.2.2. Analisi della variabile “tempo di permanenza in Italia” nel corpus CAIL2…………….………………………………………………………………………………102 Conclusioni…………………………………………………………………………………………………………………………………106 Capitolo 6 – Analisi linguistica delle collocazioni Verbo + Nome Introduzione………………………………………………….……………………………………………………………………………109 6.1. Criteri linguistici per la definizione delle collocazioni V+N………………….……………109 6.2. Le collocazioni Verbo + Nome prodotte dai nativi……………………………………..………115 6.2.1. Analisi delle collocazioni Vsup + N prodotte dai nativi………………..………119 6.2.2. Analisi delle collocazioni Vsupext + N prodotte dai nativi……….…………123 6.2.3. Analisi delle collocazioni Vord + N prodotte dai nativi…………………..……126 6.2.4. Le collocazioni empiriche prodotte dai nativi……………………..…………………132 ii 6.3. Le collocazioni Verbo + Nome prodotte dagli apprendenti………………..……………135 6.4. Le combinatorie verbo-‐nominali prodotte dagli apprendenti: analisi per Nomi…………………………………………………………………………………………………………..139 6.4.1. V + problema…………………………………………………………………………………………………..141 6.4.2. V + lavoro……..……………………….…………………………………………………………………………146 6.4.3. V + vita…………..…………………………………………………………………………………………………150 6.4.4. V + tempo…...……..……………………………………………………………………………………………156 6.4.5. V + musica…………………………………………………………………………….…………………………163 Conclusioni..………………………………………………………………………………………….……………………………………168 Conclusioni………………………………………………………………………………………………………………………………170 Appendice 1……………………………………………………………………………………………………………………………….184 Appendice 2……………………………………………………………………………………………………………………………….186 Appendice 3……………………………………………………………………………………………………………………………….191 Appendice 4……………………………………………………………………………………………………………………………….192 Appendice 5……………………………………………………………………………………………………………………………….195 Bibliografia………………………………………………………………………………………………………………………………….197 Sitografia….....………………………………………………………………………………………………………………………………208 iii Introduzione Il presente lavoro si inserisce nell’ambito della ricerca sui corpora di italiano come lingua seconda. Con l’obiettivo di indagare la competenza lessicale degli apprendenti e di valutare quali fattori incidano sulle loro produzioni, la ricerca prende in esame uno specifico fenomeno linguistico: le collocazioni Verbo + Nome. I fenomeni combinatori, al centro della lessicologia e della lessicografia, sono oggetto di interesse anche di altri settori della linguistica teorica ed applicata quali la psicolinguistica, il trattamento automatico del linguaggio e la ricerca sull’acquisizione di lingue prime e seconde. Ciascuno degli ambiti adotta una nomenclatura propria per riferirsi a sequenze lessicali di varia natura e ricorre a definizioni che risultano essere talvolta parzialmente sovrapponibili. Lo stesso termine collocazione, benché largamente diffuso nella ricerca linguistica, non ha ricevuto una definizione univoca: la denominazione acquisisce connotazioni diverse in base alla prospettiva metodologica che si adotta nello studio e nella descrizione dei fenomeni combinatori del lessico. All’interno dell’apparato teorico delle collocazioni è possibile individuare un approccio fraseologico che pone l’accento sugli aspetti semantico-‐sintattici di tali combinatorie lessicali (Cowie 1988; Mel’čuk 1998; Ježek 2005) ed una prospettiva distribuzionale (Firth 1957; Sinclair 1991; Evert 2005) la quale definisce le co-‐
occorrenze frequenti e significative di due o più parole in un testo “collocazioni empiriche” (Evert 2009). Le collocazioni definite in senso fraseologico sono combinazioni semi-‐
composizionali nelle quali il verbo viene selezionato dal nome e il cui significato si specifica proprio nella combinatoria dei due elementi (ad es. “stendere documento”). Proprio in ragione di un tale riadattamento del verbo, le caratteristiche sintattiche e/ o semantiche delle collocazioni non sono predicibili a partire da quelle dei loro componenti e sono difficilmente acquisite ed utilizzate da parte degli apprendenti di una lingua seconda (Howarth 1998; Lorenz 1999; Kaszubski 2000; Nesselhauf 2005; Laufer, Waldman 2011). D’altro canto, una piena padronanza delle collocazioni della lingua target è importante per gli apprendenti in quanto rappresenta uno strumento che li agevola sia nella fase della produzione che durante la comprensione (Pawley, Syder 1983; Dechert 1983, Götz 2013) ed è al centro dell’interesse della glottodidattica. Intorno alle co-‐occorrenze frequenti di una lingua, non soltanto alle collocazioni ma anche a diverse altre sequenze lessicali che variano in complessità (il cosiddetto “linguaggio formulaico”, Wray 2002), sono stati costruiti i modelli usage-‐
based (Bybee 1998; Ellis 2001, 2002; Tomasello 2003; Goldberg 2006) ed exemplar-‐
1 based (Pierrehumbert 2001; Abbot-‐Smith, Tomasello 2006; Bod 2006) di acquisizione linguistica i quali sostengono che la rappresentazione mentale e l’elaborazione di una qualsiasi forma linguistica siano soggette alla frequenza con cui questa appare nell’input. Nell’ambito dell’acquisizione delle lingue seconde le collocazioni frequenti sono state oggetto degli studi psicolinguistici (Durrant 2008; Syianova, Schmitt 2008) volti ad indagare il ruolo dell’input al quale gli apprendenti sono esposti nella ricostruzione della lingua target. Come detto in apertura, l’attenzione multidisciplinare verso le collocazioni ne denota non soltanto la complessità definitoria e descrittiva ma anche le numerose implicazioni che queste comportano per i vari settori della linguistica applicata. Alla luce della natura sfaccettata del fenomeno linguistico studiato, nel presente lavoro è stata adottata un’ottica integrata, quantitativa e linguistica, per l’analisi delle collocazioni degli apprendenti di lingua italiana L2. Lo scopo della tesi è valutare le produzioni delle combinatorie verbo-‐nominali degli informanti da due punti di vista: a partire dai dati dei nativi della lingua italiana e in relazione ai fattori extralinguistici che potrebbero aver inciso sulla competenza collocazionale degli informanti. Per tale scopo è stato realizzato il Corpus di Apprendenti di Italiano L2 (CAIL2) dell’ampiezza di 237 000 tokens costituito da 400 testi scritti redatti da altrettanti studenti della lingua italiana ad un livello intermedio-‐avanzato di competenza linguistica e provenienti da 33 lingue madri differenti. I dati sono stati raccolti presso tre università: l’Università per Stranieri di Perugia, l’Università Carolina di Praga e l’Università della Boemia meridionale di České Budějovice. Il corpus di controllo dei parlanti nativi utilizzato nel presente lavoro è una sezione del vasto Perugia Corpus (PEC), un corpus di riferimento dell’italiano contemporaneo realizzato presso il Dipartimento di Scienze del Linguaggio dell’Università per Stranieri di Perugia. La sezione utilizzata in questa ricerca (il corpus SCUOLA) ha un’ampiezza di oltre 1,2 milioni di parole ed è composta dai temi redatti dagli studenti delle scuole secondarie di primo e secondo grado. Dal punto di vista metodologico, l’analisi condotta nella presente tesi si articola lungo due linee: in primo luogo le collocazioni verbo-‐nominali prodotte dagli apprendenti vengono messe a confronto con quelle dei nativi; in seconda istanza vengono comparati tra di loro vari gruppi di apprendenti individuati in base a due variabili sociolinguistiche: 1) il tempo di studio della lingua italiana; 2) il tempo di permanenza in Italia (l’esposizione all’input). Entrambe le linee di analisi prendono avvio da uno studio di tipo quantitativo il quale individua le collocazioni empiriche per mezzo dei valori soglia di frequenza (fr. ≥ 10) e di associazione lessicale (Mutual Information ≥ 3, t-‐score ≥ 2) adottati nel 2 presente lavoro e ne confronta la portata nei due corpora (CAIL2 e SCUOLA) e nei vari gruppi di apprendenti individuati in base alle due variabili prese in esame. Le collocazioni empiriche, in ragione del fatto che sono le combinazioni più frequenti e più strettamente associate, rappresentano le collocazioni tipiche di una data varietà linguistica o di un dato campione di linguaggio: individuarne la presenza e metterne a confronto la quantità in due corpora o in diverse sezioni dello stesso corpus permette di tracciare le caratteristiche quantitative dei testi e di formulare delle ipotesi sulla natura delle produzioni. All’analisi quantitativa segue uno studio di tipo linguistico-‐qualitativo. In primo luogo, viene valutata la composizione e la natura del gruppo delle collocazioni empiriche estratte dalle produzioni dei nativi e degli apprendenti alla luce dei criteri linguistici individuati da Elisabetta Ježek (2005) e Francesca Masini (2009) per le collocazioni italiane. Questa analisi permette di descrivere le caratteristiche sintattico-‐semantiche delle collocazioni emerse dai due corpora e di valutare l’efficacia dei parametri di frequenza e di associazione lessicale utilizzati nell’estrazione automatica delle collocazioni dai corpora di nativi e non nativi. La seconda parte dell’analisi linguistica prende in esame le combinazioni verbo-‐nominali prodotte dagli apprendenti di lingua italiana suddivisi in gruppi sulla base delle due variabili sociolinguistiche studiate nel presente lavoro (il tempo di studio e il tempo di permanenza in Italia). Con l’obiettivo di tracciare le principali tendenze che emergono dalle produzioni e di verificare le ipotesi sulla natura dei testi formulate a partire dall’analisi quantitativa, viene studiato l’uso nel contesto di un campione di combinatorie verbo-‐nominali per mezzo dell’analisi delle concordanze. L’utilizzo di una prospettiva integrata, quantitativa e linguistica, nel presente lavoro ha permesso di studiare e descrivere le collocazioni da due angolazioni diverse ma complementari ed ha rappresentato per chi scrive il tentativo di approcciarsi alla complessità del fenomeno linguistico analizzato. Dal punto di vista della struttura, il lavoro si articola in sei capitoli. I primi tre capitoli hanno la funzione di inquadrare i temi cardine correlati al fenomeno linguistico studiato (capp. 1, 2) e di descrivere le potenzialità dei corpora di apprendenti L2, strumenti empirici realizzati a livello internazionale (cap. 3) per lo studio dell’acquisizione delle lingue seconde. Nel primo capitolo viene illustrato l’apparato teorico delle collocazioni e vengono descritte le principali linee teoriche e l’apparato metodologico propri delle due prospettive dalle quali il fenomeno linguistico è stato studiato: l’approccio fraseologico e l’approccio frequentista. Il capitolo secondo inserisce le collocazioni nell’ambito sovraordinato del linguaggio formulaico il quale si occupa di sequenze lessicali e sintattiche di varia 3 natura ed è centrale nei modelli di acquisizione ed elaborazione linguistica che enfatizzano il ruolo della sua frequenza nell’input. Il terzo capitolo si sofferma sulla compilazione e l’analisi dei corpora di apprendenti L2, strumenti che forniscono una solida base di dati sia per gli studi sull’acquisizione delle lingue seconde che per le applicazioni glottodidattiche: vengono descritti i criteri e le procedure da seguire nella fase della loro realizzazione e viene fornita una panoramica dei principali learner corpora realizzati in ambito internazionale ed italiano. La seconda parte del lavoro (capp. 4, 5, 6) costituisce il nucleo della tesi: Il quarto capitolo descrive le singole fasi della realizzazione della risorsa empirica che ha costituito la base per lo studio condotto nel presente lavoro: il Corpus di Apprendenti di Italiano L2 (CAIL2); vi vengono illustrate la raccolta dei dati, le singole fasi della compilazione, la composizione del corpus ed il suo bilanciamento rispetto alla variabile del tempo di studio della lingua italiana. Il capitolo quinto presenta l’analisi quantitativa delle collocazioni empiriche (combinazioni verbo-‐nominali con fr. ≥ 10, Mutual Information ≥ 3, t-‐score ≥ 2) condotta sia per le due varietà studiate (la lingua dei nativi e l’interlingua) che per i gruppi di apprendenti individuati in base a due variabili sociolinguistiche. Il sesto capitolo presenta l’analisi linguistico-‐quantitativa dei dati: vengono presentate le caratteristiche sintattico-‐semantiche delle collocazioni prodotte dai nativi e dagli apprendenti di lingua italiana e vengono analizzate nel contesto le combinatorie verbo-‐nominali prodotte dai vari gruppi di apprendenti. La sezione finale delle conclusioni presenta le valutazioni complessive alle quali è giunto il presente lavoro desunte dai risultati delle analisi quantitativa (cap. 5) e linguistica (cap. 6) le quali, benché complementari, sono state trattate separatamente nel corpo della tesi. 4 CAPITOLO 1 Le collocazioni nella teoria linguistica Introduzione Il primo capitolo intende delineare il fenomeno linguistico oggetto della presente ricerca: le collocazioni. A tale scopo, il presente lavoro prende avvio dalla trattazione del più ampio campo della fraseologia, l’ambito di studi al quale le collocazioni sono ascrivibili, e dal ruolo che questa ha rivestito nelle diverse teorie linguistiche (par. 1.1.). Il secondo paragrafo (1.2.) presenta le due diverse prospettive dalle quali le collocazioni vengono definite e studiate: l’approccio fraseologico e l’approccio frequentista. Nel terzo paragrafo (1.3.) le collocazioni vengono inserite nella cornice più ampia del linguaggio formulaico (formulaic language, Wray 2002) e ne viene illustrata la centralità negli studi psicolinguistici di elaborazione ed acquisizione delle lingue prime e seconde. 1.1. La fraseologia La fraseologia, definita da A.P. Cowie come lo studio della struttura, del significato e dell’uso delle combinazioni di parole1, è per sua natura un settore di studi multidisciplinare, i cui confini non sono nettamente delimitabili ed invadono gli ambiti ad esso contigui quali, tra gli altri, la morfologia, la sintassi, la semantica e l’analisi del discorso (Granger, Paquot 2008: 29-‐35). L’affermazione della fraseologia come disciplina accademica è una conquista relativamente recente. Infatti, ancora nei primi anni Ottanta, l’attenzione teorico-‐
descrittiva alle unità fraseologiche non era diffusa, fatta eccezione per i linguisti dell’est europeo, specialmente russi; altrove, ad esempio in Inghilterra, la ricerca fraseologica era una prerogativa del settore lessicografico e praticata ai fini della compilazione dei dizionari (Cowie 1998: 18-‐19). A partire dagli anni Novanta, soprattutto negli ambienti anglosassone ed americano, la fraseologia è diventata uno dei campi di ricerca della linguistica applicata, grazie anche alla graduale diffusione della convinzione che le combinazioni 1
“The study of the structure, meaning and use of word combinations” (Cowie 1994: 3168). 5 lessicali prefabbricate e memorizzate dagli utenti del linguaggio siano predominanti nella lingua scritta e parlata (Pawley, Syder 1983) e che abbiano un ruolo centrale sia nell’acquisizione delle lingue prime e seconde che nella produzione linguistica degli individui (Cowie 1998: 1-‐4). Una simile concezione si è scontrata con la visione atomistica del linguaggio propria della Grammatica Generativa, teoria linguistica presso la quale le unità fraseologiche hanno avuto un’importanza marginale, relegate allo status di irregolarità. Soltanto negli sviluppi più recenti dell’apparato generativista l’importanza dei fraseologismi ha iniziato ad essere riconosciuta più diffusamente; ad esempio, dagli studi di Culicover (1999) e Jackendoff (1997) è emerso che i fraseologismi costituiscono una seria sfida per l’organizzazione modulare del linguaggio prevista dal quadro generativo-‐trasformazionale in quanto non sono spiegabili nei termini di una grammatica algoritmica e di un lessico ed oltrepassano tale schematizzazione. Come messo bene in evidenza da Gries (2008: 10-‐14), è interessante notare quanto sia cruciale la nozione stessa di fraseologismo2 dal momento che questa ha messo in discussione il paradigma linguistico dominante nel ventesimo secolo, quello del generativismo, spostando il focus dalla competence alla performance. Presso altre teorie del linguaggio, come la linguistica cognitiva e la grammatica costruzionista (cfr. par. 2.1.), invece, la fraseologia riveste un ruolo centrale nella formulazione delle nozioni chiave da queste elaborate: le unità simboliche e le costruzioni3. Il paradigma metodologico sicuramente più utilizzato ad oggi nella ricerca fraseologica è la linguistica dei corpora la quale mette a disposizione degli studiosi sofisticate procedure per l’identificazione dei fraseologismi (tra le quali, ad esempio, la generazione di concordanze, le liste di collocazioni, le frequenze di occorrenza e co-‐occorrenza, ecc.). In Italia, dal punto di vista teorico-‐descrittivo, la fraseologia con l’accezione di cui gode oggi presso i linguisti di altri paesi, ovvero di un settore di studi in grado di apportare un contributo fondamentale alla descrizione linguistica, non si è ancora 2
Da intendersi come “la co-‐occorrenza di un elemento lessicale (di una determinata forma o di un lemma) con un altro elemento linguistico dotata di unità semantica e di una frequenza di occorrenza più alta rispetto a quella che ci si aspetterebbe dal caso” cfr. Gries (2008: 6). 3
Langacker (1987: 57) ha definito le unità simboliche come l’unica tipologia di elementi dalla quale il sistema linguistico risulta essere costituito; si tratta di coppie forma/ significato (funzione), ovvero di una associazione del polo fonologico con il polo semantico/ concettuale. Più spesso un parlante/ ascoltatore incontra una determinata unità simbolica nel proprio input più questa diventerà radicata nel suo sistema linguistico e l’utente potrà accedervi automaticamente, senza dover analizzare la struttura dell’unità. Si tratta di un concetto sovraordinato rispetto a quello di fraseologismo poiché la nozione di unità simbolica non è ristretta ai morfemi o alle parole, ma comprende anche strutture più complesse come le costruzioni verbali. Il concetto di costruzione è stato attribuito da Goldberg (1995: 4) ad una coppia di forma-‐significato in cui alcuni aspetti non sono predicibili a partire dai componenti costitutivi e la cui frequenza d’uso comporta il radicamento della costruzione nel sistema linguistico dei parlanti. Rispetto alle unità simboliche, la nozione di costruzione è più specifica poiché richiede la non composizionalità ed è compatibile con la ricerca fraseologica. 6 imposta del tutto; nonostante diversi studiosi si siano occupati delle unità fraseologiche italiane da varie prospettive, il concetto rimane dominante soprattutto nella pratica lessicografica4. Per concludere, gli approcci degli studiosi alla fraseologia sono stati e continuano ad essere eterogenei costituendo, da una parte, una fonte di ricchezza per l’ambito stesso e conferendogli un’impressione di confusione interna dall’altra. Tale caratteristica risulta essere ulteriormente accentuata dalla abbondante e spesso non univoca terminologia utilizzata in questo settore di studi, il quale adotta, al contempo, denominazioni diverse per definire le stesse entità linguistiche e viceversa (Granger, Paquot 2008: 28). Un esempio emblematico di questa diversità di approcci e della confusione terminologica che ne è conseguita è rappresentato proprio dalle collocazioni: un fenomeno linguistico che si inserisce appieno nell’ambito della fraseologia e la cui definizione varia in base alla prospettiva dalla quale lo si studia. 1.2. I due approcci alle collocazioni Il termine collocazione è usato ampiamente nella linguistica teorica ed applicata con connotazioni diverse: l’unico denominatore comune rintracciabile è che questo venga adottato laddove esista una qualche relazione sintagmatica tra le parole. Alcuni studiosi (Granger, Paquot 2008; Nesselhauf 2005) concordano nell’individuare due prospettive dominanti nello studio e nella descrizione teorica delle collocazioni. La prima è stata definita frequentista e risale alle formulazioni di J. R. Firth (1957) sviluppate successivamente dagli studiosi della scuola neofirthiana quali M. A. K. Halliday e J. Sinclair; questo approccio considera la collocazione come la co-‐
occorrenza di due o più parole ad una certa distanza testuale e distingue le co-‐
occorrenze frequenti (o, più precisamente, più frequenti di quanto ci si dovrebbe aspettare se le parole venissero combinate a caso nella lingua) da quelle che non lo sono. Il secondo approccio, denominato fraseologico in letteratura, intende le collocazioni come una particolare combinatoria di parole la quale è fissata nell’uso, 4
In Italia, dal punto di vista teorico, si è parlato di “espressioni polirematiche” (De Mauro et alii 1993) e di “collocazioni” (Lo Cascio 1997, Ježek 2005) in campo lessicologico; di “unità lessicali superiori” (Dardano 1978) e di “lessemi complessi” (Voghera 1994, 2004) in morfologia. Tra gli altri studiosi italiani che si sono occupati delle combinazioni di parole in un’ottica costruzionista va senz’altro menzionato il lavoro di Raffaele Simone (2007) e Francesca Masini (2007, 2009). Per quanto riguarda la compilazione dei dizionari combinatori vanno citati il Grande Dizionario elettronico italiano-‐olandese di Lo Cascio (Italned 2006), il Dizionario delle Combinazioni Lessicali di Urzì (Convivium 2009), il Dizionario delle collocazioni di Paola Tiberii (Zanichelli 2011), il Dizionario Combinatorio Compatto di Lo Cascio (Benjamins 2012) e la versione estesa di quest’ultimo, ovvero il Dizionario Combinatorio Italiano di Lo Cascio (Benjamins 2013). 7 ma non completamente. Proprio alla descrizione del secondo approccio è dedicato il prossimo paragrafo, mentre la prospettiva frequentista verrà trattata nel paragrafo 1.2.2. 1.2.1. L’approccio fraseologico L’esponente principale dell’approccio fraseologico alle collocazioni è lo studioso inglese A.P. Cowie. Questi ha classificato le combinatorie di parole disponendole lungo un continuum (1981) che si dispiega dalle combinazioni libere alle espressioni idiomatiche passando per le collocazioni, intese da Cowie come delle combinazioni ristrette. La sua posizione è stata fortemente influenzata dalla teoria fraseologica russa risalente agli anni ‘40 – ’60 e legata ai nomi di studiosi come V. Vinogradov (1947) e N. N. Amosova (1963)5. Proprio tale tradizione ha per prima definito la dimensione sintagmatica della lingua come una linea ininterrotta lungo la quale sono situate le combinazioni di parole, con le più opache e fisse ad una estremità e le più trasparenti e variabili all’altra, ed ha focalizzato il proprio interesse su uno specifico sottoinsieme di unità multiparola linguisticamente connotate: le unità fraseologiche6. Da quel momento in avanti, dunque, la fraseologia è stata intesa come una disciplina a sé stante, con una propria terminologia, ed ha fornito ai linguisti i criteri necessari per la categorizzazione e l’analisi delle unità lessicali (Granger, Paquot 2008: 28-‐29). Cowie ha operato la classificazione più importante della lessicologia inglese (1988, 1994): ha distinto i composti (composites) dalle formule (formulae)7 ed ha suddiviso il gruppo dei composti in base a due criteri interferenti tra di loro: la trasparenza del significato (criterion of transparency) e la sostituibilità dei membri (criterion of commutability). La trasparenza si riferisce al fatto se la combinazione ha un significato letterale o meno, ovvero se il significato è calcolabile a partire da quello dei suoi componenti (la cosiddetta composizionalità semantica), mentre la possibilità di sostituire o meno un membro della combinazione indica la misura in cui questa è ristretta. A partire da questi criteri Cowie distingue quattro categorie di combinazioni di parole, non nettamente contrapposte tra di loro, ma, come detto sopra, appartenenti ad un continuum fraseologico. Le elenchiamo di seguito: -‐ le combinazioni libere 5
Per una trattazione più approfondita degli schemi elaborati dalla teoria fraseologica russa rimandiamo a Cowie (1998a: 4-‐6). 6
La nozione di unità fraseologica era stata già proposta nel 1909 da C. Bally il quale ha definito locutions phraséologiques le combinazioni non libere di parole in lingua francese (Bally 1951). 7
Le formulae sono autonome ed hanno la funzione pragmatica di formule conversazionali (del tipo, How are you? e Good morning) mentre i composites entrano nelle relazioni sintattiche ed includono le collocazioni (Cowie 1994). 8 (i membri sono sostituibili liberamente e sono usati nel loro senso letterale come, ad es., in to drink a tea); -‐ le collocazioni (qualche sostituzione è ammessa ma ci sono delle limitazioni; questa categoria di combinazioni è formata da elementi con una collocatività ristretta poiché il significato di uno dei due termini si è specializzato come, ad es., in to perform a task oppure in heavy rain. Le collocazioni così intese includono anche le combinazioni Verbo + Nome con verbo delessicalizzato come, ad es., to make a comment); -‐ le espressioni idiomatiche figurate (la sostituzione è raramente possibile; la combinazione ha un significato figurato ma la possibilità dell’interpretazione letterale è preservata come, ad es., in to do a U-‐turn che letteralmente vuol dire “fare inversione di marcia” ma che viene utilizzato anche con il significato di “cambiare completamente la politica o il comportamento di qualcuno”); -‐ le espressioni idiomatiche vere e proprie (non è ammessa la sostituzione dei membri; la combinazione ha un significato figurato e non vi è la possibilità di una interpretazione letterale in quanto il suo significato non è composizionale come, ad es., in to blow the gaff > “svelare un segreto”). I due criteri adottati da Cowie per distinguere i tipi di combinazioni di parole sono stati utilizzati anche da altri studiosi. Ad esempio, sia Aisenstadt (1981) che Hausmann (1989) hanno usato il criterio della sostituibilità per distinguere le collocazioni dalle combinazioni libere; inoltre, il primo ha usato entrambi i criteri per distinguere le collocazioni dalle espressioni idiomatiche, mentre il secondo, per lo stesso scopo, ha fatto ricorso soltanto a quello della trasparenza del significato. Hausmann, inoltre, apporta un’altra questione fondamentale all’apparato teorico delle collocazioni: la relazione tra i componenti. Nella definizione di Cowie non esiste alcuna differenza tra gli elementi che costituiscono una collocazione; in base al criterio della sostituibilità, infatti, uno dei membri ha una collocatività ridotta ma Cowie non specifica quale. Hausmann e, in seguito, anche Mel’čuk (1998) hanno sottolineato che gli elementi coinvolti in una collocazione non hanno la stessa natura. Secondo Hausmann uno dei due elementi sarebbe semanticamente autonomo (Basis) e da questi dipenderebbe la selezione del secondo (Kollokator); Mel’čuk, invece, definisce keyword la parola scelta liberamente in ragione della sua semantica e value l’insieme degli elementi da questa selezionati per esprimere un determinato significato. Come messo bene in evidenza da Nesselhauf (2005: 15-‐18), la differenza tra il value di Mel’čuk e il Kollokator di Hausmann sta nel fatto che il primo si riferisce a tutti gli elementi che possono combinarsi con una parola-‐chiave 9 per esprimere un determinato significato, mentre il secondo si riferisce ad un solo elemento. Ad esempio, nelle collocazioni inglesi to carry out/ to do/ to make/ to conduct a study i quattro verbi sono quattro elementi Kollokator della base study e insieme costituiscono il valore (value) della funzione lessicale “to do/ to perform” applicata alla parola-‐chiave study. Il concetto di funzione lessicale (LF) è stato formulato da Mel’čuk per spiegare le collocazioni all’interno della sua teoria del Senso -‐ Testo (Meaning Text Theory, 1998). Il termine funzione vi viene usato nel senso matematico, f(x) = y, mentre l’aggettivo lessicale indica che il dominio di f, l’insieme di tutti i suoi valori, è costituito da espressioni lessicali. Una funzione lessicale f associa ad una specifica unità lessicale L, ovvero alla parola-‐chiave (o argomento) di f, una serie {Li} di espressioni lessicali sinonime; queste costituiscono il valore di f e sono state selezionate a partire da L per esprimere il significato della funzione: f(L) = {Li} Per cui, una funzione lessicale f è un significato generale ed astratto il quale può essere espresso in un’ampia varietà di modi, attraverso diverse realizzazioni lessicali, le quali dipendono dall’unità L alla quale tale significato si riferisce (Mel’čuk 1998: 31-‐32). Per fare un esempio8, data la funzione Magn(x) = y, dove (Magn) indica il senso di intensificazione, possiamo dire che questa è espressa in maniera diversa attraverso uno o più lessemi y, ma sempre in funzione di x: Magn(dormire) = profondamente, come un ghiro, come un sasso, ecc. Magn(ferito) = gravemente, ecc. Magn(pioggia) = forte, torrenziale, battente, ecc. Magn(negare) = categoricamente, ecc. Ne consegue che, con Mel’čuk, il concetto di collocazione assume una dimensione relazionale che intercorre tra gli elementi che la compongono: la scelta del collocato risulta subordinata alla base in funzione del significato che la combinazione dei due elementi esprime. Per citare qualche esempio dello stesso Mel’čuk, possiamo dire che in to do a favour il sostantivo favour è stato scelto per il suo significato, mentre il verbo to do, e non altri verbi come, ad esempio, potrebbero essere to make o to give, è stato selezionato dal nome; ancora, un parlante nativo di lingua inglese si riferisce ad una persona che fuma molto con la collocazione heavy smoker, piuttosto che big smoker e, al contrario, utilizza big eater, piuttosto che heavy eater, per riferirsi ad una persona che mangia molto. Ciò vuol dire che gli aggettivi inglesi heavy 8
Gli esempi sono stati tratti da Zilio, M. (2005-‐2006), Le collocazioni: indagine riassuntiva sullo stato dell’arte della ricerca, Tesi di Laurea, Università degli Studi di Trieste. 10 e big, per esprimere il senso dell’intensificazione, vengono selezionati da sostantivi diversi. Sulla dimensione relazionale esistente tra gli elementi di una collocazione ha posto l’accento anche Elisabetta Ježek (2005) la quale, occupandosi dei fenomeni combinatori della lingua italiana, ha usato la seguente definizione: Una collocazione è una combinazione di parole soggetta ad una restrizione lessicale, per cui la scelta di una specifica parola (il collocato) per esprimere un determinato significato, è condizionata da una seconda parola (la base) alla quale questo significato è riferito. (ibidem, p. 178) Nel caso di “stendere un documento”, citando un esempio di collocazione, per esprimere l’atto della redazione, il sostantivo “documento” (la base) si abbina ad un verbo specifico, “stendere” (il collocato), piuttosto che ad altri verbi che sarebbero ugualmente compatibili dal punto di vista semantico (ad es., “scrivere”). Ježek, accanto ai due criteri della trasparenza del significato e della sostituibilità dei membri proposti da Cowie per classificare le combinatorie di parole, ne adotta un terzo: il tipo di restrizione lessicale che caratterizza una combinazione. Questo criterio permette di isolare le collocazioni nel più ampio gruppo delle combinazioni ristrette. Infatti, le collocazioni sono delle restrizioni lessicali consolidate dall’uso: i collocati vengono selezionati dalle basi per esprimere un significato che non hanno quando sono combinati con altre parole, ma che acquisiscono nella combinazione specifica9. Le combinazioni ristrette si differenziano dalle collocazioni in quanto sono basate, invece, su una solidarietà semantica, detta anche implicazione sintagmatica di contenuto, poiché uno dei due termini è incluso dal punto di vista del contenuto nell’altro (come, ad es., nella combinazione “parcheggiare la macchina”, in cui il verbo implica semanticamente la categoria dei veicoli, oppure in “allattare il figlio”, in cui il verbo “allattare” contiene l’informazione che si tratta di un’azione diretta ad un essere appena nato)10 . Infatti, a differenza combinazioni ristrette, in cui l’evidente implicazione di contenuto tra i due termini è preservata anche quando il collocato è preso singolarmente (ad es., “indossare” implica “indumento”), nelle collocazioni 9
Negli studi sulla lingua inglese questo concetto è stato definito con la formula meaning by collocation (Firth 1957). 10
All’interno della tradizione strutturalista, già E. Coseriu (1971) aveva analizzato e classificato le relazioni di significato esistenti tra le parole. Definì “solidarietà lessicali” le coppie tra i membri delle quali esistono delle implicazioni sintagmatiche di contenuto, codificate linguisticamente, per cui uno dei due termini (ad esempio, “naso”) funziona da tratto distintivo del secondo (“aquilino”). Anche Chomsky (1965) ha affrontato la questione ed ha chiamato questo tipo di restrizioni semantiche “restrizioni sulla selezione” (selectional restrictions). Cfr. Ježek (2005: 169-‐170).
11 l’implicazione di contenuto è presente soltanto nella combinazione: non emerge se i collocati sono presi singolarmente (se preso da solo, il verbo “stendere” non implica il sostantivo “documento”). Ježek mette in evidenza anche una ulteriore differenza che intercorre tra le due tipologie di combinazioni: nel caso delle solidarietà semantiche, la restrizione è imposta dal verbo (o dall’aggettivo) al nome, mentre nel caso specifico delle collocazioni la direzione è inversa, è imposta in genere dal nome al verbo o all’aggettivo. Le collocazioni sembrano trovare ragione nella tendenza delle lingue ad esprimere determinati concetti con abbinamenti preferenziali di parole, nonostante anche altre combinazioni siano possibili (come, ad es., “avere paura” > *avere tristezza; “essere in ansia” > *essere in angoscia). Dal punto di vista sintattico, i membri di una collocazione non sono liberamente sostituibili per via della presenza di una restrizione, ma sono sintatticamente autonomi (in alcuni casi lo sono solo parzialmente: si tratta di usi lessicalizzati come, ad esempio, “sporgere denuncia”, senza l’articolo)11. Sempre nell’ambito della lingua italiana, Francesca Masini (2009), nella classificazione delle combinazioni di parole da lei proposta, distingue le collocazioni dalle espressioni multiparola da una parte e dalle combinazioni preferenziali dall’altra. Le espressioni multiparola sono connotate dalla fissità sintagmatica e paradigmatica degli elementi che le compongono; infatti, presentano una forte coesione interna e la scelta dei membri è obbligatoria poiché la loro sostituzione cambia il significato della combinazione (“anno accademico” vs. “anno universitario”) o genera una sequenza priva di senso (“guerra fredda” vs. *guerra gelida). La semantica delle espressioni multiparola non è trasparente, benché per Masini questo ultimo criterio non sia un tratto definitorio. Le collocazioni, come le espressioni multiparola, sono caratterizzate da una fissità di tipo paradigmatico poiché l’uso di un termine x implica necessariamente un termine y per esprimere un determinato significato (ad es., “aprire un conto”), ma si distinguono da queste ultime poiché non sono fisse dal punto di vista sintagmatico, ma sono sintatticamente libere (ad es., “il conto è stato aperto”; “ho aperto un/ il/ molti conti”; “il conto che ho aperto”; “ho aperto un conto nuovo”, ecc.). Anche le combinazioni preferenziali, come le collocazioni, si distinguono dalle espressioni multiparola per il fatto di non essere fisse ma, a differenza delle collocazioni, l’uso di un determinato termine x può richiedere preferibilmente un termine y (come, ed es., “pioggia torrenziale” vs. “pioggia fortissima”, “pioggia intensa”, ecc.); la combinazione che ne deriva risulta più familiare rispetto alle altre combinazioni possibili (la sostituzione dell’aggettivo “torrenziale” con l’aggettivo 11
Cfr. Ježek (2005: 176-‐180). 12 “fortissima” non produce un cambiamento semantico, ma piuttosto determina il grado di familiarità che l’espressione assume). Masini, analogamente a Ježek, adotta per la classificazione delle combinazioni di parole il criterio della sostituibilità e dell’autonomia sintattica dei membri e vi aggiunge un terzo criterio: la frequenza d’uso che sancisce il grado di familiarità di una combinazione. Concludendo, lo stesso approccio fraseologico alle collocazioni risulta molto complesso al suo interno. Molti studiosi condividono alcune linee teoriche ma, al contempo, si fanno portatori di tassonomie proprie che aumentano il livello di granularità delle definizioni. Nel presente lavoro abbiamo adottato per il concetto di collocazione una definizione (cfr. par. 6.1.) che integra le formulazioni elaborate per la lingua italiana dalle due studiose Ježek e Masini: vi rientrano sia le combinazioni in cui la base (il nome) seleziona il collocato (il verbo) perché lo richiede necessariamente per esprimere un determinato significato (ad es., “seguire un consiglio”), sia i casi in cui la selezione è preferenziale, ha un elemento di convenzionalità e rappresenta il modo tipico di dire una cosa (ad es., “suscitare interesse” vs. “accendere interesse”)12. Nel paragrafo seguente viene illustrato l’approccio frequentista alle collocazioni insieme alle sue principali linee teoriche e metodologiche. 1.2.2. L’approccio frequentista L’approccio frequentista, o distribuzionale, più recente rispetto a quello fraseologico, invece di ricorrere ad un metodo deduttivo (top-‐down) per identificare le unità fraseologiche sulla base dei criteri linguistici, utilizza un metodo induttivo (bottom-‐up o corpus driven) per identificare le co-‐occorrenze lessicali. Tale approccio genera un ampio spettro di combinazioni lessicali le quali non sempre rientrano nelle categorie linguistiche precedentemente definite e “spinge il confine che demarcava approssimativamente la fraseologia sempre più nell’area considerata appartenente alle combinazioni libere”13. Molte unità che tradizionalmente erano considerate come periferiche, o non di pertinenza della fraseologia, sono diventate centrali nell’ottica dell’approccio frequentista perché hanno dimostrato di essere diffuse nel linguaggio.14 Le origini dell’approccio frequentista risalgono alla formulazione di J. R. Firth (1957) il quale ha definito le collocazioni come l’associazione abituale di due o più 12
Intendiamo con il concetto di combinazione preferenziale la combinazione che è risultata essere più frequente rispetto ad altre semanticamente affini attestate nello stesso corpus. “Studies of collocations have pushed the boundary that roughly demarcates the ‘phraseological’ more and more into the zone formerly thought of as free […]” (Cowie 1998a: 20). 14
Cfr. Granger, Paquot (2008: 27-‐29). 13
13 parole; secondo Firth, le associazioni che una determinata parola tende a stabilire con altre sono parte del significato della parola stessa. La frase che sintetizza la sua posizione è divenuta celebre nella letteratura sulle collocazioni: “you shall know a word by the company it keeps”.15 Lo sviluppo successivo di questa posizione e la definizione puntuale dell’approccio frequentista si deve tuttavia ai discepoli di Firth (i cosiddetti neo-‐
firthiani) ed, in particolare, a John M. Sinclair, il quale, adottando una concezione empirica che intende la collocazione come una combinazione di parole ricorrente in un testo, ha gettato le basi per i recenti sviluppi della lessicografia britannica basata sui corpora. Più precisamente, Sinclair (1991) ha definito le collocazioni come “l’occorrenza di due o più parole in un testo entro un breve spazio l’una dall’altra”16. Tale spazio, denominato span, corrisponde a quattro parole a destra e a sinistra dalla parola in analisi, chiamata a sua volta node (nodo). Per cui, se prendiamo, ad esempio, la parola house nello spazio testuale “He went back to the house. When he opened the door, the dog barked” le parole went, back, to, the, when, he, opened e the formano delle collocazioni con il nodo house e vengono chiamate collocati. Tuttavia, Sinclair ha distinto le occorrenze significative da quelle casuali: riserva il termine collocazione ad una combinazione le cui parole “co-‐occorrono più spesso di quanto le loro frequenze individuali e la lunghezza del testo in cui appaiono avrebbero predetto” (Jones, Sinclair 1974: 19). Negli sviluppi più recenti dell’approccio frequentista, il tedesco Stefan Evert (2005: 17), per riferirsi al fenomeno linguistico come inteso dai neo-‐firthiani, ovvero ad una combinazione frequente di parole in un testo, adotta il termine co-‐
occorrenza (cooccurence) e usa la parola collocazione (collocation) per le combinatorie “le cui proprietà semantiche e/ o sintattiche non possono essere pienamente previste da quelle dei suoi componenti e che, per questo motivo, devono essere elencate in un dizionario”17. Evert afferma che si tratta di una definizione ampia la quale può essere ulteriormente ristretta in base ai requisiti di una specifica ricerca o applicazione. Nel suo contributo più recente per il volume “Corpus Linguistics. An International Handbook” Evert (2009: 1212-‐1248) adotta una terminologia diversa rispetto a quella enucleata nel 2005. Questi assegna alle combinazioni lessicali definite in senso firthiano il termine di collocazioni empiriche (empirical collocations) e le distingue dalle collocazioni lessicali (lexical collocations)18, ovvero dalle 15
Firth ha formulato anche il concetto della mutual expectancy in base al quale una collocazione abituale crea una aspettativa nelle parole coinvolte: se prese singolarmente, queste si prevedrebbero reciprocamente, nel senso che laddove se ne incontra una, ci si aspetta di trovare anche l’altra. 16
“The occurrence of two or more words within a short space of each other in a text” (Sinclair 1991: 170). 17
“A collocation is a word combination whose semantic and/ or syntactic properties cannot be fully predicted from those of its components, and which therefore has to be listed in a lexicon” (Evert 2005: 17). 18
Definizione ripresa a sua volta da Krenn (2000). 14 combinazioni semi-‐composizionali, nelle quali uno dei due termini assume un significato traslato e si specifica nella combinatoria con il secondo membro della collocazione (come, ad es., per la lingua inglese heavy smoker o give a talk). Il gruppo delle collocazioni lessicali fa parte di quelle che in linguistica computazionale sono state definite espressioni multiparola (Multiword Expressions, MWE): un gruppo composito di fenomeni combinatori che comprende diverse tipologie di espressioni, partendo da quelle idiomatiche completamente opache (come, ad es., kick the bucket), passando per le combinazioni sintagmatiche semanticamente composizionali, ma soggette ad un certo grado di restrizione arbitraria (ad es., brush teeth vs. scrub teeth), fino alle combinazioni dotate di una specifica connotazione pragmatica (ad es., red rose). Il lavoro di Evert, nello specifico, si occupa soltanto delle collocazioni empiriche le quali possono essere studiate da diversi punti di vista: si può distinguere tra (i) le co-‐occorrenze superficiali (surface co-‐occurrences) nelle quali le parole, anche se intervallate da un certo numero di forme grafiche, appaiono vicine in un testo, (ii) le co-‐occorrenze sintattiche (syntactic co-‐occurrences) nelle quali le parole sono legate da una relazione sintattica diretta o indiretta e (iii) testuali (textual co-‐
occurrences), ovvero le co-‐occorrenze di parole all’interno di una stessa frase, paragrafo o documento (ibidem: 1215). La prospettiva posizionale, propria delle co-‐occorrenze superficiali e testuali, è stata ampiamente adottata dalla scuola neo-‐firhtiana e dai primi lavori nel settore della linguistica computazionale. Come già illustrato sopra, le parole sono considerate co-‐occorrere quando appaiono ad una certa distanza l’una dall’altra; tale distanza è misurata con il numero delle parole intervallanti, solitamente nel senso di parole grafematiche, e viene definita, seguendo la terminologia sinclairiana, span collocazionale. In alternativa allo span, si possono considerare delle finestre testuali come frasi, periodi o paragrafi. Un vantaggio delle co-‐occorrenze posizionali è che sono direttamente osservabili in un corpus e che le loro frequenze di co-‐occorrenza possono essere stabilite automaticamente. Le co-‐occorrenze relazionali, dall’altro lato, sono basate su una interpretazione linguistica dei dati in quanto rispondono ad una specifica relazione sintattica tra le parole. Le relazioni sintattiche maggiormente studiate nei lavori sulla lingua inglese e tedesca sono: (i) Verbo + Nome (oggetto diretto); (ii) Aggettivo + Nome; (iii) Avverbio + Verbo; (iv) Verbo + Aggettivo (con funzione di complemento predicativo, ad es., keep sth handy); (v) costruzioni verbali di vario genere19. Evert ritiene che l’approccio relazionale allo studio delle collocazioni sia più vantaggioso rispetto a quello posizionale sia sul piano teorico che pratico; infatti, 19
Cfr. Evert (2005: 18-‐20). 15 rifacendosi a Greenbaum20, sostiene che i risultati di un’analisi quantitativa siano molto più precisi e significativi se basati su un’interpretazione linguistica piuttosto che su un mero calcolo. Inoltre, prosegue Evert (2005), si registrano dei vantaggi anche sul piano pratico: le co-‐occorrenze posizionali estratte dai corpora inquadrano diversi tipi di relazioni strutturali e ciascuna di queste segue una propria distribuzione di frequenza. Analizzare quantitativamente una distribuzione omogenea, piuttosto che un misto di relazioni strutturali, restituisce risultati migliori.21 L’approccio frequentista, oltre che disporre della possibilità di estrarre automaticamente una quantità cospicua di dati da un corpus, ricorre ai vantaggi messi a disposizione dai metodi di analisi statistica per la loro interpretazione. Innanzitutto, per mezzo della statistica inferenziale è possibile allargare le osservazioni di co-‐occorrenza estratte da un corpus, inteso come un campione casuale del linguaggio o di una sua varietà, all’intera popolazione da esso rappresentata. Inoltre, abbiamo più volte rimarcato come l’approccio distribuzionale alle collocazioni si fondi sulla frequenza di co-‐occorrenza di due o più parole; tuttavia, questo dato grezzo non è sufficiente poiché non fornisce alcuna informazione sulla forza di associazione che intercorre tra i componenti della combinazione. Infatti, date due parole sufficientemente frequenti, la loro co-‐occorrenza potrebbe essere anche casuale: è necessario quindi interpretare statisticamente i dati di frequenza e valutarne la significatività. Il metodo più diffuso per distinguere tra le co-‐occorrenze casuali e le reali associazioni statistiche è il ricorso alle misure di associazione lessicale. Queste assegnano un punteggio a ciascuna coppia di parole22 il quale viene utilizzato dai ricercatori sia per individuare le collocazioni fissando una soglia minima di questo valore (nei cosiddetti threshold approaches), che per classificarle in base alla forza associativa dei loro componenti (ranking approaches). Le misure di associazione statistica si suddividono in due grandi gruppi: le misure della dimensione dell’effetto (effect-‐size measures), nelle quali rientra la Mutual Information, e le misure di significatività (significance measures) che comprendono lo z-‐score, il t-‐score, il log-‐likelihood, il simple-‐ll e il chi-‐squared (X2); quest’ultimo è il metodo meno diffuso ma rappresenta uno standard per distinguere 20
Greenbaum (1970) fu il primo a contestare all’approccio frequentista proposto da Sinclair il fatto di escludere dallo studio delle collocazioni la dimensione sintattica e semantica ed ha proposto di considerarle accanto al criterio della frequenza. 21
Accanto alle due motivazioni teorica e pratica, Evert (2005: 20) ne aggiunge anche una terza, di ordine matematico, in base alla quale il modello statistico applicato alle co-‐occorrenze relazionali sarebbe meno complesso rispetto ai modelli richiesti per l’analisi delle co-‐occorrenze posizionali. Per una trattazione più approfondita, cfr. Evert (2005: 42-‐75). 22 Punteggi alti indicano una forte associazione tra le parole componenti di una combinazione mentre punteggi bassi indicano una associazione debole, se non una repulsione (Evert 2009: 1216). 16 tra l’occorrenza casuale e le associazioni reali nella statistica matematica (Evert 2005: 20-‐21). La scelta della misura che faccia parte di uno o dell’altro gruppo non è sempre univoca ed è relativa al tipo di studio che si intende svolgere e alla natura dei dati a disposizione: i due gruppi, infatti, mettono in evidenza aspetti diversi della collocatività delle parole (sulla scelta delle misure utilizzate nel presente lavoro, cfr. par. 5.1.). Le misure del primo tipo rientrano nella categoria dei test statistici asintotici di verifica delle ipotesi, mentre la MI è una misura dai presupposti teorici diversi (cfr. di seguito, cap. 5) e genera altri tipi di risultati (a tal proposito, cfr. Evert 2005, 2009; Durrant 2008; Gries 2008, 2009; Pecina 2009). I test asintotici verificano l’ipotesi nulla in base alla quale le parole appaiono insieme non più frequentemente di quanto potremmo aspettarci dal caso23: calcolano quante volte troveremmo una coppia di parole co-‐occorrere in un corpus di una determinata ampiezza, considerando soltanto il caso, e a partire dalle singole frequenze degli elementi che compongono la combinazione. L’obiettivo di questi test è determinare, quindi, se la frequenza di una collocazione in un corpus è maggiore rispetto alla frequenza casuale, se è statisticamente significativa24. Tuttavia, mette in evidenza Durrant (2008), è importante notare che il calcolo delle co-‐occorrenze attese è basato su un modello per il quale le parole sono estratte completamente a caso, mentre il linguaggio, come hanno già sottolineato Manning e Schütze (1999: 166), è molto più regolare rispetto ad un “generatore casuale di parole” (random word generator). Per questo motivo, è normale che le coppie di parole co-‐occorrano più frequentemente di quanto ci si aspetti dal caso, a prescindere dalle loro specifiche relazioni collocazionali: i coefficienti di significatività statistica vanno quindi interpretati come degli indicatori delle coppie di parole che hanno la probabilità di essere delle collocazioni (Durrant 2008: 82). La Mutual Information (MI) costituisce il mezzo per valutare il grado di associazione tra le parole ed indica quanto strettamente due parole siano collegate fra loro, stimando la probabilità con cui la presenza dell’una incide sull’occorrenza dell’altra (Spina 2001: 139). Per cui, mentre i metodi basati sui test di verifica delle ipotesi ci forniscono il grado di certezza con il quale possiamo affermare che ci sia una qualche associazione 23
Potrebbero essere quindi visti come la formalizzazione della definizione che Hoey (1991: 7) diede di collocazione, ovvero: “la relazione che un elemento lessicale ha con gli elementi che appaiono con una probabilità maggiore rispetto a quella casuale nel suo contesto testuale” (“the relationship a lexical item has with items that appear with greater than random probability in its textual context”). 24
Per una trattazione più approfondita sulle caratteristiche e sulle differenze principali tra i vari coefficienti statistici, cfr. Evert (2005: 75-‐110; 2009: 1224-‐1242). 17 tra le parole, il valore di MI ci restituisce la misura della forza dell’associazione tra due elementi co-‐occorrenti estratti da un testo. Se ne deduce che i due gruppi di misure restituiscono combinazioni di parole diverse: i coefficienti statistici come il t-‐score tendono a mettere in evidenza le combinatorie costituite da elementi ad alta frequenza come, ad esempio, le parole grammaticali quali le preposizioni, gli articoli, i pronomi, ecc., mentre il coefficiente di MI è sbilanciato verso le basse frequenze e fa emergere le combinazioni i cui elementi sono strettamente associati tra di loro (Spina 2001: 140). Considerato ciò, nello studio delle collocazioni basato sulle misure di associazione si tende a ricorrere congiuntamente a due o più indici di associazione per poter avere un punto di vista il più ampio possibile sulla natura della co-‐
occorrenza che lega due parole in un corpus. Nonostante in questa sede le metodologie e l’apparato formale propri ai due approcci alle collocazioni, quello fraseologico e quello frequentista, siano stati delineati separatamente, è bene sottolineare che nelle applicazioni pratiche le due posizioni non sempre sono tenute rigidamente distinte. Infatti, alcuni studiosi usano il criterio della frequenza di co-‐occorrenza in aggiunta ai criteri fraseologici di trasparenza del significato e della sostituibilità dei membri per individuare le collocazioni. Al contrario, altri ricercatori che lavorano all’interno del quadro frequentista hanno usato anche delle definizioni proprie alla fraseologia (ad es., Sinclair ha usato il termine idiom per riferirsi alle espressioni idiomatiche). Sicuramente, affermano Granger e Paquot (2008: 41), se integrati, i due approcci potrebbero guadagnare molto l’uno dall’altro; da una parte, i linguisti che lavorano seguendo l’approccio fraseologico potrebbero trarre molti benefici dai metodi automatici e statistici di estrazione ed analisi delle combinazioni lessicali dai corpora e, dall’altra, per i linguisti che analizzano le collocazioni dal punto di vista frequentista, potrebbe risultare vantaggioso ricorrere agli elaborati schemi di interpretazione linguistica delle sequenze sintagmatiche. Per queste ragioni, nel presente lavoro abbiamo scelto di adottare congiuntamente gli approcci fin qui presentati. Riteniamo, infatti, che soltanto un punto di vista integrato possa rendere conto della complessità del fenomeno lessicale che andremo ad analizzare nei prossimi capitoli. 1.3. Le collocazioni: un aspetto della formulaicità del linguaggio Data la loro natura combinatoria, le collocazioni rientrano nel vasto ambito del cosiddetto linguaggio formulaico (formulaic language, Wray 2002), un termine sovraordinato che si riferisce a sequenze lessicali e sintattiche di varia natura e oggetto di interesse di diversi settori di studio (costruzioni, composti, lessemi 18 complessi, formule, chunks, frasemi, espressioni multiparola, collostructions, ecc.) le quali condividono il fatto di agire come se fossero degli elementi unitari a vari livelli linguistici. Le collocazioni, intese come combinazioni frequenti di parole le cui proprietà sintattiche e/ o semantiche non possono essere pienamente predette a partire da quelle dei costituenti, sono interessanti per diversi settori della ricerca linguistica sia teorica che applicata. Dal punto di vista teorico-‐descrittivo, i collocati tipici di una parola possono fornire informazioni sulla sua semantica: lo schema collocazionale di una parola polisemica permette di scegliere tra i suoi diversi significati possibili e, analogamente, i collocati tipici di una parola possono differenziarla da altre parole semanticamente simili. Questa potenzialità è stata individuata da M.A.K. Halliday (1966) il quale ha notato che determinate parole, seppur sinonime come, ad esempio, gli aggettivi inglesi strong e powerful, possono essere caratterizzati da schemi collocazionali diversi (ad es., strong/ *powerful tea; *strong/ powerful engine). In seconda istanza, l’idea che per spiegare il fenomeno delle collocazioni ci sia bisogno di postulare l’esistenza di un meccanismo che entra in gioco nella fase della comprensione e della produzione linguistica è molto diffusa nella ricerca psicolinguistica della quale, infatti, le collocazioni frequenti sono diventate il fulcro (cfr. Durrant 2008). Questo riconoscimento va ricondotto a John Sinclair (1991) il quale ha puntato l’attenzione sul fatto che le parole non vengano selezionate indipendentemente dai parlanti nell’atto linguistico ma che, piuttosto, avvenga la co-‐
selezione di due o più elementi sulla base di una loro precedente e regolare co-‐
occorrenza (sul principio idiomatico del linguaggio formulato da Sinclair, il cosiddetto idiom principle, crf. di seguito par. 2.1.). A partire da queste formulazioni sono stati elaborati i modelli usage-‐based ed exemplar-‐based di elaborazione e produzione linguistica (trattati nel prossimo capitolo, par. 2.4.) in base ai quali la frequenza delle sequenze lessicali nell’input determina quali vengano trattenute e rappresentate nella memoria dei parlanti. Nel settore dell’acquisizione delle lingue seconde, primariamente della lingua inglese, diversi studi (cfr. il prossimo capitolo, par. 2.5.) si sono occupati dell’analisi delle collocazioni prodotte dagli apprendenti, non soltanto in un’ottica glottodidattica e descrittiva, ma anche con l’obiettivo di valutare quanto e dove i meccanismi di produzione e di comprensione di una L2 differiscano da quelli che vengono attivati nella elaborazione della lingua madre. 19 Conclusioni Il fenomeno linguistico delle collocazioni è stato studiato ampiamente, in particolare dai teorici della lingua inglese. Tuttavia, l’estensione degli studi sull’argomento non è andata di pari passo con la formulazione di una definizione univoca del fenomeno, il quale è stato affrontato da diversi punti di vista sintetizzabili in due approcci principali. Il primo, l’approccio fraseologico, definisce le collocazioni come combinazioni ristrette di parole connotate da una serie di caratteristiche semantico-‐sintattiche e le dispone lungo un continuum che si dispiega dalle combinazioni libere di parole alle espressioni idiomatiche. Il secondo approccio, definito frequentista, si occupa delle combinazioni lessicali che co-‐occorrono in un corpus più frequentemente di quanto ci si dovrebbe aspettare dal caso e ricorre ai metodi di analisi statistica per la loro interpretazione. Benché i due approcci siano stati qui presentati separatamente, è stato riconosciuto che adottare una prospettiva integrata nell’analisi delle collocazioni porti con sé numerosi vantaggi e renda conto della complessità del fenomeno. Inoltre, le collocazioni frequenti sono centrali in psicolinguistica e rientrano nel più vasto dibattito sul linguaggio formulaico (Wray 2002), un concetto sovraordinato e relativo ad un ampio spettro di sequenze lessicali che sono oggetto di diversi ambiti di studio e condividono il fatto di agire a livello linguistico come se fossero delle unità. Le collocazioni rappresentano un fenomeno linguistico interessante non soltanto al livello teorico-‐descrittivo e glottodidattico in ragione del loro status sintattico-‐semantico ma, trattandosi di sequenze ricorrenti, queste hanno un ruolo di rilievo nei modelli di elaborazione linguistica e di acquisizione delle lingue prime e seconde. 20 CAPITOLO 2 Le collocazioni e il linguaggio formulaico Introduzione In chiusura del precedente capitolo è stato accennato all’importanza che le collocazioni frequenti rivestono in alcuni degli ambiti di ricerca che si occupano delle sequenze formulaiche. Nel secondo capitolo viene trattato diffusamente il concetto sovraordinato di linguaggio formulaico a partire dalla centralità che questo riveste nei recenti modelli teorici (par. 2.1., par. 2.2). I criteri principali usati nella definizione delle sequenze formulaiche e per la loro individuazione nel testo vengono elencati nel paragrafo terzo (par. 2.3.), mentre il paragrafo quarto (par. 2.4.) si sofferma sulla descrizione dei modelli di elaborazione linguistica imperniati sul linguaggio formulaico (i cosiddetti modelli usage-‐based) ed evidenzia le principali differenze che intercorrono nell’acquisizione di una L1 e di una L2. Il paragrafo 2.5., dopo aver preso in esame le linee metodologiche della ricerca empirica sul linguaggio formulaico, si sofferma sugli studi corpus-‐based relativi all’ambito specifico delle collocazioni prodotte dagli apprendenti L2 della lingua inglese. 2.1. Il linguaggio formulaico nelle teorie linguistiche L’attenzione dell’approccio chomskiano alla competence ha lasciato per diversi decenni in ombra la performance e le sue implicazioni come la formulaicità del linguaggio. Soltanto una nuova generazione di teorie grammaticali, incentrate proprio sulla produzione linguistica piuttosto che sulla competenza, ha reintegrato nella riflessione teorica l’idea dell’esistenza di spezzoni di lingua gestiti in maniera olistica dai parlanti.25 Il motivo per il quale la formulaicità del linguaggio è stata a lungo trascurata dalle teorie linguistiche è che questa non apporta, dal punto di vista della prospettiva dominante fino ad alcuni decenni fa, alcuna conoscenza sulla capacità umana di creare espressioni nuove. 25
Per la trattazione seguente, cfr. Wray (2002: 3-‐18). 21 La creatività del linguaggio, appunto, è stata al centro della teoria linguistica moderna per diversi decenni e, fino ai tempi più recenti, soltanto due questioni hanno messo alla prova l’affermazione chomskiana per la quale il linguaggio di un nativo adulto verrebbe generato completamente al momento della produzione ed analizzato durante la comprensione: le espressioni idiomatiche da una parte e, in secondo luogo, il fatto che non tutte le possibili frasi grammaticali in una lingua occorrano con la stessa frequenza o siano giudicate dai nativi avere lo stesso grado di familiarità26. Nonostante l’affermazione di Pinker (1994: 90) in base alla quale l’uso di spezzoni linguistici prefabbricati della lingua sarebbe un’attività periferica e che nulla rivelerebbe a proposito della elaborazione linguistica, sono state trovate numerose evidenze empiriche che dimostrano il contrario. Nell’ambito delle collocazioni, ad esempio, alcune parole sembrano appartenere le une alle altre, mentre altre combinazioni lessicali, che potrebbero comunque esistere per ragioni sintattico-‐semantiche, risultano poco naturali. Con l’avvento della Corpus Linguistics è stato dimostrato che la formulaicità pervade completamente il linguaggio. Laddove prima si sosteneva che le restrizioni sulla combinabilità delle parole fossero correlate al contesto ed alla pragmatica, una volta osservate le distribuzioni delle parole in un testo è stato riconosciuto che nessuna spiegazione circostanziale del genere poteva essere più ammessa. Già negli anni novanta, Biber, Conrad e Reppen (1998) hanno trovato che in un corpus scritto di lingua inglese dell’ampiezza di 2,7 milioni di parole la combinazione large number era cinque volte più frequente rispetto alla combinazione sinonima great number (48,3 occorrenze per milione contro 8,9 occorrenze per milione): un dato che non poteva essere giustificato con la casualità. Alla domanda se le stringhe lessicali siano immagazzinate e recuperate dal lessico mentale nella loro interezza o se, semplicemente, vengano costruite ex novo, è stato risposto da Ellis (1996: 111) il quale sostiene che queste vengano trattate dagli utenti del linguaggio come se fossero degli elementi singoli (big words). Tali sequenze costituiscono delle scelte unitarie per i parlanti e sono la manifestazione del cosiddetto principio idiomatico del linguaggio (idiom principle) formulato da Sinclair (1991). John Sinclair, figura chiave dell’applicazione alla lessicologia ed alla lessicografia britannica delle metodologie della linguistica dei corpora, è stato il 26
L’unico modo che un parlante nativo ha per decodificare le espressioni idiomatiche è quello di essere in possesso del diretto collegamento che unisce il livello grafematico (o fonologico) a quello semantico; tuttavia, poiché le espressioni idiomatiche sono quantitativamente limitate, sono state sempre classificate come eccezioni da includere nel lessico. ll secondo concetto, formulato da Pawley e Syder (1983), in base al quale non tutte le possibili frasi grammaticali in una lingua vengono giudicate dai nativi avere lo stesso grado di familiarità, ha avuto un debole impatto sul quadro teorico dominante poiché appariva strettamente legato alle pratiche circostanziali dei parlanti in situazioni reali (Wray 2002: 13). 22 primo ad individuare la reale misura dell’organizzazione delle parole in un testo e a sostenere fermamente che ogni plausibile descrizione del linguaggio debba tenere in considerazione la non casualità (unrandomness) della distribuzione delle unità lessicali. La spiegazione sinclairiana di questa non casualità si basa sul fatto che l’utente del linguaggio gestirebbe il materiale linguistico in due modi differenti: in base al principio della scelta aperta (open-‐choice principle), selezionando le parole singolarmente con la libertà creativa prevista dall’approccio chomskiano, ed in base al principio idiomatico (idiom principle) operando la co-‐selezione di due o più parole per via della loro precedente e regolare co-‐occorrenza. Il principio idiomatico non costituisce solamente una teoria di interpretazione e descrizione del linguaggio, ma è anche un modello psicolinguistico di produzione e di comprensione in base al quale il parlante avrebbe a propria disposizione un’ampia quantità di unità precostruite le quali, benché possano essere analizzabili per segmenti, rappresenterebbero delle scelte unitarie27. Sinclair sostiene che il principio idiomatico è il primo ad essere attivato dal parlante. Quando questi incontra delle combinazioni lessicali inaspettate in un determinato contesto può volgersi al principio della scelta aperta per poi tornare nuovamente al primo. Cfr. Sinclair (1991: 110-‐114). Anche Alison Wray (1992) sostiene che la capacità analitica di elaborazione grammaticale (grammatical processing) di cui gli individui sono dotati non costituisce l’unico mezzo, e nemmeno la modalità preferita, con la quale questi affrontano l’input e l’output linguistici: la produzione e la comprensione vengono gestite dai parlanti per spezzoni linguistici. Wray ha formalizzato un sistema di elaborazione duale del linguaggio: analitico ed olistico. La prima modalità sarebbe necessaria al parlante per creare e decodificare materiale linguistico nuovo e per mettere in relazione le parole e i morfemi con le regole grammaticali, mentre la seconda farebbe ricorso a stringhe prefabbricate ed immagazzinate come tali nella memoria. La strategia che viene selezionata dal parlante dipende dal materiale linguistico che questi si trova dinnanzi e dalla situazione comunicativa. Nella formulazione di Wray l’elaborazione olistica non è riservata soltanto alle stringhe che non possono essere create o comprese tramite regole, come le espressioni idiomatiche, ma può riguardare anche il materiale linguistico per il quale l’elaborazione grammaticale avrebbe restituito gli stessi risultati. Il vantaggio del sistema analitico di elaborazione linguistica consiste nella sua flessibilità la quale consente al parlante di creare espressioni nuove e di interpretare input inattesi. Il sistema olistico, in linea con il principio di economia comunicativa, 27
“A language user has aviable to him or her a large number of semi-‐preconstructed phrases that constitute single choises, even though they might appear to be analysable into segments” (Sinclair 1991: 110). 23 riduce lo sforzo dell’elaborazione linguistica e risulta più efficiente nel recuperare stringhe prefabbricate piuttosto che nel crearne di nuove. Dalle formulazioni di Sinclair e Wray si deduce che la formulaicità va ben oltre la definizione e l’identificazione delle sequenze lessicali nel testo poiché entra in gioco nella elaborazione stessa del linguaggio: le unità prefabbricate, essendo immagazzinate come tali nel lessico, costituiscono il materiale preferenziale al quale i parlanti nativi ricorrono nell’immediatezza del contesto comunicativo. Diversi altri modelli teorici tengono in alta considerazione la formulaicità: se ne potrebbero citare alcuni in questa sede, come la grammatica cognitiva (Langacker 1987, 1991), costruzionista (Fillmore, Kay, O’Connor 1988), del lessico emergente (Bybee 1998), la grammatica lessico-‐funzionale (Bresnan 1982) e la Pattern Grammar (Hunston, Francis 2000). Al contrario, le posizioni teoriche che propongono l’esistenza di un unico sistema analitico di elaborazione grammaticale sono meno predisposte a considerare la formulaicità come una delle caratteristiche fondamentali del linguaggio perché non tengono conto dalla performance e dalla pragmatica, i due assi fondamentali del modello proposto e sviluppato da Wray. Dal momento stesso in cui l’aspetto formulaico del linguaggio è diventato centrale nella riflessione linguistica, studiosi appartenenti a diversi ambiti di ricerca, come lessicografi, lessicologi, analisti del discorso, linguisti computazionali, grammatici cognitivisti, psicolinguisti ed insegnanti di lingue seconde, ne hanno analizzato i vari aspetti adottando prospettive diverse: ciò ha condotto a nuovi quadri teorico-‐descrittivi, alla formulazione di modelli di acquisizione ed elaborazione del linguaggio ed allo sviluppo di metodologie innovative nell’ambito glottodidattico. 2.2. L’importanza del linguaggio formulaico Le tecniche della linguistica dei corpora forniscono ai ricercatori una gamma di metodi per l’individuazione e l’estrazione delle sequenze lessicali dai testi dei nativi e dei non nativi (clusters, n-‐grams, collocazioni, ecc.) e per la quantificazione della forza di associazione esistente tra i loro elementi costitutivi (come, ad esempio, le misure di associazione lessicale trattate nel par. 1.2.2.). Da diversi studi condotti sull’inglese è stato dimostrato che la lingua, sia scritta che parlata, contiene un’ampia percentuale di linguaggio formulaico e che questo sia un fattore fondamentale che determina sia l’acquisizione che l’uso linguistico. Ad esempio, Oppenheim (2000) ha quantificato le unità multiparola che occorrevano identiche in un breve discorso ed ha scoperto che queste costituivano il 66% del testo. Più tardi, Conklin e Schmitt (2012) hanno dimostrato che il linguaggio 24 formulaico ricopre una porzione di testo corrispondente ad un valore che oscilla tra un terzo e un mezzo della totalità del discorso. Indubbiamente, l’ampia diffusione del linguaggio formulaico nel testo si deve alle diverse funzioni comunicative che questo espleta, individuate da Schmitt e Carter (2004), quali il veicolare un messaggio o un’idea specifici in modo chiaro e comprensibile oppure il segnalare l’organizzazione dell’atto comunicativo. Nell’ambito dell’acquisizione di lingue seconde, uno dei vantaggi più rilevanti del linguaggio formulaico è il fatto di agevolare gli utenti della lingua ad essere più naturali nella produzione linguistica (Götz 2013). L’idea è stata delineata per la prima volta da Pawley e Syder (1983) e convalidata dall’evidenza empirica di Dechert (1983). Questi ha trovato che l’output parlato di un’apprendente tedesca di inglese fosse più accurato laddove questa faceva ricorso alle sequenze formulaiche: Dechert le chiamò “isole di affidabilità” (islands of reliability) suggerendo con tale definizione quanto queste fossero importanti nell’agevolare i processi necessari per pianificare ed eseguire il parlato in tempo reale. L’acquisizione delle sequenze formulaiche della lingua target è fondamentale per gli apprendenti di una seconda lingua in quanto la loro padronanza favorisce sia la comprensione che la produzione linguistica. 2.3. Definire ed individuare le sequenze formulaiche Alison Wray (2000, 2002), definisce formulaica una sequenza continua o discontinua di parole o di altri elementi la quale è, o sembra essere, prefabbricata: A sequence, continuous or discontinuous, of words or other meaning elements, which is, or appears to be, prefabricated: that is stored and retrieved whole from the memory at the time of use, rather than being subject to generation or analysis by the language grammar (Wray 2000: 465). In base a questa definizione una sequenza si dice prefabbricata quando è immagazzinata nella memoria dei parlanti ed è recuperata in maniera olistica nel momento stesso in cui viene usata, piuttosto che essere generata ex novo durante la produzione. Secondo Ellis (2012) sono tre i parametri per la definizione delle sequenze formulaiche: la frequenza, l’associazione e le norme native. Dal primo si deduce che le formule sono sequenze ricorrenti. Seguendo soltanto questo criterio le sequenze formulaiche vengono identificate con le stringhe che occorrono spesso in un testo. Questo è l’approccio che, ad esempio, Biber e Barbieri (2007) hanno adottato per la definizione dei cosiddetti lexical bundles. 25 Tuttavia, i cosiddetti n-‐grammi non sempre hanno delle funzioni distintive o un significato chiaramente identificabile: la loro rilevanza è legata all’alta frequenza degli elementi che li compongono e possono anche avere una funzione puramente grammaticale. Il fatto che una sequenza occorra sopra una certa soglia di frequenza non implica necessariamente né una sua coerenza, né la sua salienza psicolinguistica per i parlanti. Questo ultimo tratto è proprio delle sequenze che, oltre ad essere frequenti, occorrono in un testo più spesso di quanto ci si potrebbe aspettare dal caso e che sono individuabili per mezzo delle misure di associazione statistica (delle quali abbiamo parlato nel par. 1.2.2. e che tratteremo più diffusamente nel cap. 5). A tal proposito, lo studio psicolinguistico condotto da Ellis, Simpson-‐Vlach e Maynard (2008) ha dimostrato per la lingua inglese la salienza delle combinazioni lessicali fortemente associate (con alti punteggi di Mutual Information) per i parlanti nativi. Se adottata dal settore della ricerca sulle lingue seconde, la definizione delle sequenze formulaiche basata sui due criteri fin qui trattati (la frequenza e l’associazione tra i componenti) può far emergere le combinazioni che risultano prefabbricate per il parlante o lo scrivente L2 ma che non necessariamente sono conformi all’uso nativo. Questa prospettiva può risultare interessante per descrivere l’interlingua come un sistema linguistico a sé stante e non per scarto rispetto alla lingua target. Tuttavia, il parametro delle norme native, il quale porta con sé la valutazione dell’accettabilità delle sequenze prodotte dagli informanti, viene spesso utilizzato nello studio delle sequenze formulaiche prodotte dagli apprendenti di una lingua seconda. Con questa ottica sono stati condotti diversi degli studi sulle collocazioni prodotte dagli apprendenti di lingua inglese (cfr. par. 2.5.1.). 2.4. Teorie sull’acquisizione del linguaggio formulaico Gli studi che si sono occupati del linguaggio formulaico dal punto di vista psicolinguistico sostengono che i nativi adulti e, probabilmente, anche i bambini e i non nativi che hanno avuto una esposizione sufficiente alla lingua, abbiano nel proprio lessico mentale le rappresentazioni delle sequenze formulaiche, e non solo degli elementi che le costituiscono (Wray 2012). La frequenza gioca un ruolo fondamentale (Ellis 2002) poiché se una combinazione non è stata incontrata frequentemente nell’input, come potrebbe essere per gli apprendenti L2 ad un livello basso di competenza linguistica o per i bambini molto piccoli, sembra che questa non venga fissata nella memoria. Tale concetto è centrale nei modelli di acquisizione ed elaborazione linguistica chiamati usage-‐based (Bybee 1998; Ellis 2001, 2002; Tomasello 2003; Goldberg 2006) e negli approcci cosiddetti exemplar-‐based (Pierrehumbert 2001; 26 Abbot-‐Smith, Tomasello 2006; Bod 2006) i quali sostengono che l’unità alla base del linguaggio sia la “costruzione” e che il parlante faccia proprio un set di costruzioni che varia in dimensione, complessità e livello di astrazione (Tomasello 2003; Goldberg 2006). Diverse sono le teorie del linguaggio afferenti al modello usage-‐based e possono essere raggruppate sotto il nome di “grammatica costruzionista”28: la Construction Grammar (Fillmore 1979; Kay, Fillmore 1999), la Radical Construction Grammar (Croft 2001), la Grammatica Cognitiva (Cognitive Grammar, Langacker 1987, 1991) e la Grammativa Cognitivo-‐Costruzionista (Cognitive Constrution Grammar, Goldberg 1995, 2006). Tutti questi approcci teorici sostengono che la rappresentazione mentale e l’elaborazione di qualsiasi forma linguistica siano soggette alla frequenza dei types e dei tokens con i quali questa appare nell’input.29 Le teorie usage-‐based sostengono che la naturale esposizione dei bambini all’input e, di conseguenza, alla frequenza di determinati schemi linguistici li predisponga naturalmente ad acquisire la formulaicità di una determinata lingua (Wray 2012). Ogniqualvolta il parlante incontra un’unità linguistica nuova, questa non viene decodificata e poi scartata ma, la maggior parte della volte, viene rappresentata nella memoria. Come è stato messo in evidenza da Bod (2006), ciò che viene rappresentato dipende dalla frequenza: il linguaggio non dovrebbe essere visto come un insieme di regole grammaticali, ma come un insieme di esperienze che cambia ogniqualvolta una nuova espressione entra nell’input. I modelli usage-‐based sostengono che avvenga una elaborazione più veloce delle sequenze lessicali frequenti rispetto a quelle meno frequenti ed è compatibile con gli approcci connessionisti i quali enfatizzano il ruolo delle proprietà statistiche dell’input nell’apprendimento linguistico (Rumelhart, McClelland 1986; Elman 1990; Christiansen, Chater 1999). Neanche negli approcci connessionisti le unità linguistiche esistono come entità separate: instaurano delle relazioni (networks) le une con le altre. La frequenza con la quale vari elementi linguistici occorrono insieme è un fattore che dipende della forza delle connessioni presenti nel lessico e determina cosa e quanto i parlanti apprendono ed, eventualmente, rappresentano nella memoria (Conklin, Schmitt 2012). Senza dubbio, negli ultimi anni, molta parte della ricerca empirica sulle sequenze formulaiche è stata condotta nel settore dell’acquisizione delle lingue 28
Per il termine sovraordinato di “grammatica costruzionista” ci rifacciamo a Durrant (2008: 19) il quale, a sua volta, lo ha ripreso da Croft e Cruse (2004: 257). 29 “Usage-‐based theories hold that the acquisition of language is exemplar based. It is the piecemeal learning of many thousands of constructions and the frequency-‐biased abstraction of regularities within them” (Ellis 2002: 143). 27 seconde. Ellis (2012: 30-‐34) sostiene che esista una differenza fondamentale tra l’acquisizione di una prima lingua e il processo che porta gli adulti alla ricostruzione di una lingua seconda. Il linguaggio dei bambini è costituito da un repertorio di sequenze formulaiche, molte delle quali sono basate su delle unità lessicali specifiche (come, ad es., jump, put, give, ecc.), piuttosto che su delle categorie sintattiche astratte, (come potrebbe essere, ad esempio, la categoria del Verbo): il processo dello sviluppo lessicale di una L1 consiste nell’acquisizione di un vasto repertorio di formule e di costruzioni e nell’inferenza statistica delle categorie astratte a partire dall’esperienza. Mentre i bambini acquisiscono la lingua a partire dalle sequenze formulaiche e inferiscono da stralci linguistici categorie più astratte quali il Verbo, il Nome, il Pronome, la Preposizione, le Costruzioni Transitive, ecc., gli adulti che apprendono una lingua seconda, invece, già conoscono l’esistenza di tali categorie e si aspettano di incontrare nella lingua target parole e costruzioni a queste ascrivibili. Solo una volta che le hanno identificate, o una volta che le hanno cercate ed apprese a partire da un vocabolario, è più probabile che provino a formulare delle costruzioni nuove, inserendo creativamente degli elementi negli schemi linguistici appresi. Inoltre, l’apprendente adulto di una L2 è cognitivamente più maturo rispetto al bambino che acquisisce la prima lingua. Questo ultimo, infatti, sviluppa il linguaggio simultaneamente a tutti gli altri meccanismi cognitivi. Per questo motivo l’apprendimento di una L1 e di una L2 si distinguono notevolmente: l’adulto è dotato di una maggiore competenza analitica rispetto al bambino e ciò gli permette di approcciarsi esplicitamente all’acquisizione del linguaggio le cui strutture vengono costruite a partire dalle categorie esistenti nella lingua di partenza.30 La ricerca sull’acquisizione delle lingue seconde si basa sempre più spesso sui dati di produzione scritta o parlata e trova la propria base empirica nei corpora di apprendenti L2 (i cosiddetti learner corpora trattati nel prossimo capitolo). Gli studi incentrati sul linguaggio formulaico prodotto dagli apprendenti di lingua inglese L2 hanno dimostrato che gli informanti possiedono un piccolo inventario di sequenze formulaiche di cui fanno un uso maggiore (overuse) rispetto ai nativi e che, anche a livelli avanzati di competenza, non individuano le differenze che sussistono tra i vari tipi di sequenze della lingua target ed hanno difficoltà nella loro produzione e comprensione (Nesselhauf 2005; Ellis, Simpson-‐Vlach, Maynard 2008; Durrant 2008; Tremblay, Baayen 2010; Siyanova-‐Chanturia, Conklin, Schmitt 2011; Tremblay et al. 2011; Wray 2012). 30 “Adult learners have sophisticated formal operational means of thinking and can treat language as an object of explicit learning, that is, of conscious problem-‐solving and deduction, to a much greater extent than can children” (Ellis 2003: 72). 28 Gli studi empirici relativi alla produzione degli apprendenti L2, con particolare riferimento alle sequenze formulaiche, sostengono (Schmitt, Underwood 2004) o smentiscono (Nesselhauf 2005; Durrant 2008) l’ipotesi in base alla quale questi non accoglierebbero l’input della lingua target sotto forma di spezzoni linguistici più ampi e lo elaborerebbero analiticamente (Wray 2002) ricorrendo al principio sinclairiano della scelta aperta nella fase di output. 2.5. Il linguaggio formulaico nell’output degli apprendenti Il linguaggio formulaico gioca un ruolo importante nell’acquisizione e nella didattica delle lingue seconde in quanto imprime il tratto della naturalezza alle produzioni degli apprendenti (Nattinger, DeCarrico 1992; Lewis 1993; Howarth 1998a; Ellis 2003). L’impiego di unità fraseologiche di vario genere come, ad esempio, le collocazioni, i verbi frasali (o sintagmatici), i composti, le espressioni idiomatiche, ecc. può avere un impatto positivo o negativo sulla competenza linguistica degli apprendenti e sul loro output (Ellis 2008: 5). Nell’analisi del linguaggio formulaico degli apprendenti L2 si possono adottare diverse prospettive, sia per quanto riguarda la tipologia di sequenze lessicali che si sceglie di analizzare che per quanto concerne la natura dei dati di cui si dispone. Negli ultimi due decenni si è assistito ad un crescente interesse verso la fraseologia estratta dai corpora di apprendenti L2 (cfr. cap. 3). I vari studi condotti sul phrasicon31 degli apprendenti sono stati basati su diversi tipi di dati e differiscono ampiamente gli uni dagli altri, sia nei termini delle variabili prese in esame che relativamente ai risultati eterogenei ai quali sono giunti, spesso non comparabili tra di loro. Tuttavia, come messo bene in evidenza da Paquot e Granger (2012), alla luce di queste diversità è possibile identificare alcune tendenze generali. Innanzitutto, la maggior parte degli studi ha indagato l’uso del linguaggio formulaico da parte degli studenti di inglese come lingua straniera (EFL, English Foreign Language) ad un livello intermedio e avanzato di competenza. La ricerca si è focalizzata sulle produzioni scritte degli apprendenti e, nello specifico, sulla scrittura di saggi argomentativi e descrittivi (come, ad es., Nesselhauf 2005; Waibel 2008). Tuttavia, negli ultimi anni si è assistito anche ad un aumento progressivo degli studi sul parlato (ad es., Aijmer 2009; Crossley, Salsbury 2011; De Cock 2011; Götz, Schilk 2011). La gran parte delle ricerche esistenti sul linguaggio formulaico è costituita da 31
Per phrasicon si intende la complessa gamma di combinazioni multiparola e frasemi di cui una lingua si compone. Il termine è stato usato da Paquot e Granger (2012: 131) nella trattazione relativa agli studi sul linguaggio formulaico nell’ambito dell’acquisizione di una seconda lingua alla quale il presente paragrafo si ispira. 29 studi sincronici, ovvero basati su dati raccolti in un unico lasso di tempo (tra i quali Gilquin 2007; Durrant, Schmitt 2009; Chen, Baker 2010), benché recentemente ci sia stato un aumento nella pubblicazione di ricerche longitudinali (come, ad es., Li, Schmitt 2010; Crossley, Salsbury 2011). Il corpus maggiormente utilizzato in questo settore di ricerca è senza dubbio l’International Corpus of Learner English (ICLE, cfr. par. 3.2.2.), uno dei primi corpora di apprendenti ad essere stati resi disponibili per le ricerche sull’interlingua (Granger, Dagneaux, Meunier 2002). Tra gli altri corpora usati per la lingua inglese ci sono anche l’Uppsala Student English Corpus (circa 1,2 milioni di parole), l’Active Learning of English for Science Students Corpus (circa 700 000 parole) e il Cologne-‐Hanover Advanced Learner Corpus (circa 200 000 parole). I corpora di grandi dimensioni, come ad esempio il sopra citato ICLE, hanno un alto livello di rappresentatività, un fattore che aumenta la possibilità di generalizzazione dei risultati, e costituiscono una conditio sine qua non per gli studi fraseologici, in particolar modo per quelli pertinenti alle sequenze lessicali in cui sono coinvolte le parole a bassa frequenza. Tuttavia, anche i corpora di dimensioni più piccole hanno un valore considerevole e possono essere impiegati negli studi sul linguaggio formulaico. Ad esempio, Wang e Shaw (2008), i quali hanno esaminato le collocazioni Verbo + Nome prodotte dagli apprendenti di lingua inglese e formate dai verbi to have, to do, to take e to make, hanno utilizzato due learner corpora di informanti cinesi e svedesi, compilati ad hoc, dell’ampiezza di circa 20 000 parole ciascuno. Per quanto riguarda le sequenze lessicali studiate, la tipologia maggiormente indagata nella ricerca sui corpora di apprendenti è costituita dalle collocazioni Verbo + Nome e, nello specifico, da quelle formate con verbi delessicalizzati ad alta frequenza come, per l’appunto, to take e to make, seguita dalla categoria dei phrasal verbs (cfr. par. 2.5.1). Invece, il legame tra il linguaggio formulaico e la competenza pragmatica degli informanti è stato studiato attraverso l’analisi delle cosiddette speech formulae, frasemi usati per organizzare il discorso dei parlanti ed il turn taking conversazionale. Ad esempio, Aijmer (2009) ha comparato l’uso della formula inglese I don’t know nel parlato dei nativi e degli apprendenti servendosi della componente svedese dello LINDSEI corpus (Louvain International Database of Spoken English Interlanguage) ed ha rilevato che la formula analizzata non vi riveste la stessa funzione pragmatica. Come messo in evidenza precedentemente, il ruolo delle sequenze formulaiche nella lingua scritta è stato riconosciuto grazie agli strumenti ed ai metodi della linguistica dei corpora i quali hanno messo in evidenza quanto queste siano funzionali alla strutturazione del testo. Gli studi condotti sulla lingua inglese (Conrad, Biber 2004; Biber, Barbieri 30 2007; Simpson-‐Vlach, Ellis 2010) hanno identificato l’esistenza di un’ampia gamma di regolari coppie forma-‐funzione le quali vengono comunemente adoperate dai parlanti per organizzare il contenuto di un testo e per adempiere ad alcune funzioni retoriche quali l’introduzione di un argomento, la sintesi e la conclusione di un testo: indagare l’uso di tali sequenze testuali nei corpora scritti di apprendenti di una seconda lingua significa identificare quali sono le difficoltà legate alla loro produzione ed analizzare quali altre strategie testuali vengono impiegate per gli stessi scopi comunicativi. Una simile prospettiva ha il vantaggio di apportare nuove osservazioni sulle strategie di produzione degli apprendenti e di fornire nuove considerazioni funzionali alla compilazione dei materiali glottodidattici. Nel prossimo paragrafo vengono illustrati i principali studi basati sui learner corpora di lingua inglese e relativi all’analisi delle sequenze lessicali oggetto del presente lavoro: le collocazioni. 2.5.1. Gli studi corpus-‐based sulle collocazioni degli apprendenti Gli studi basati su corpora finora condotti sulle collocazioni prodotte dagli apprendenti L2 hanno preso in esame principalmente i dati scritti di lingua inglese ed hanno riguardato vari schemi sintattici quali, ad esempio, Avverbio + Verbo, Avverbio + Aggettivo, Verbo + Nome, Aggettivo + Nome. Uno dei primi studi effettuati seguendo l’impostazione metodologica della linguistica dei corpora è stato condotto da Sylviane Granger (1998a). L’obiettivo della studiosa era verificare l’ipotesi in base alla quale gli apprendenti di una seconda lingua farebbero un uso minore rispetto ai nativi delle unità linguistiche prefabbricate nelle loro produzioni scritte. In termini sinclairiani, nello studio è stato ipotizzato che gli apprendenti ricorrerebbero al principio della scelta aperta (open choice principle) più di quanto facciano i nativi, i quali opererebbero le loro selezioni lessicali in base al principio idiomatico (idiom principle): la chiave della naturalezza delle loro produzioni. Per verificare questa ipotesi Granger ha confrontato l’uso di due costruzioni verbali in un corpus di apprendenti francesi di lingua inglese, ad un livello avanzato di competenza, dell’ampiezza di 250 000 parole e in un corpus di nativi dalla dimensione simile. Le costruzioni inglesi esaminate in questo studio sono state: -‐ la costruzione passiva del tipo: it + verbo modale + forma passiva dei verbi saying o thinking + pronome relativo (ad es., it is said that); -‐ la costruzione attiva del tipo: 31 pronome personale + verbo modale + forma attiva dei verbi saying o thinking + pronome relativo (ad es., we can say that). Dall’analisi è emerso che la costruzione passiva veniva utilizzata pressoché con la stessa frequenza sia dai nativi che dagli apprendenti, mentre questi ultimi hanno fatto maggiormente ricorso alla costruzione attiva. Granger sostiene che il ristretto repertorio lessicale degli apprendenti li conduce ad usare più frequentemente determinate espressioni rispetto ad altre: nella maggior parte dei casi si tratta di forme analoghe a quelle presenti nella loro L1, le quali fanno sentire gli apprendenti più sicuri in fase di produzione scritta e che vengono usate come delle “isole di affidabilità” (islands of reliability)32. Nell’ambito dello stesso studio Granger (ibidem: 148) ha condotto una seconda analisi relativa alle collocazioni inglesi Avverbio + Aggettivo e, in particolare, alle collocazioni formate dagli avverbi con il suffisso –ly come, ad es., la combinazione perfectly natural. Anche in questo caso, come era già emerso per le costruzioni verbali nella prima parte del suo studio, Granger ha notato una forte influenza della L1: gli apprendenti hanno fatto un uso maggiore delle combinazioni di parole che presentavano un equivalente diretto in lingua francese (completely > completèment; totally > totalement), mentre l’uso delle combinazioni con gli avverbi inglesi i cui corrispettivi sono poco frequenti in lingua francese è stato molto ridotto (come, ad esempio, nel caso dell’avverbio inglese highly il cui equivalente francese, hautement, viene impiegato nei contesti dal registro formale). Lo studio basato su corpora di Granger ha messo a confronto nativi e apprendenti di lingua inglese sull’uso di due costruzioni verbali e delle collocazioni Avverbio + Aggettivo ed ha evidenziato che: i) gli apprendenti usano più frequentemente rispetto ai nativi il gruppo delle combinazioni lessicali che ha un equivalente diretto nella loro lingua madre; ii) gli apprendenti ricorrono più di quanto facciano i nativi al principio della scelta aperta in quanto fanno un uso minore delle unità prefabbricate della lingua target. Un altro studioso che ha esaminato l’uso delle collocazioni Avverbio + Aggettivo da parte degli apprendenti di inglese L2 è stato G. Lorenz nel 1999. Questi ha confrontato le produzioni scritte di apprendenti tedescofoni e di nativi ricorrendo a due learner corpora, dall’ampiezza complessiva di 300 000 parole, e a due corpora di nativi. Lo studio di Lorenz (1999: 168-‐170) ha portato ulteriori prove a sostegno dell’esistenza delle cosiddette isole di affidabilità nelle produzioni degli apprendenti: 32
Come è già stato fatto presente precedentemente in questo lavoro, l’espressione è stata coniata da Dechert (1983: 184) per riferirsi alle espressioni usate frequentemente dagli apprendenti. Più tardi, anche Hasselgren (1994: 237) è tornata sull’argomento ed ha etichettato gli elementi lessicali usati spesso dagli apprendenti con l’espressione lexical teddy bears. 32 ha dimostrato che questi fanno un uso frequente e stereotipato di un numero limitato di elementi lessicali e che hanno un repertorio di collocazioni molto più limitato rispetto ai nativi. Diversamente dallo studio condotto da Granger, Lorenz ha utilizzato una misura di associazione lessicale, la Mutual Information (MI), per valutare la natura delle combinazioni Avverbio + Aggettivo estratte dai corpora. Le collocazioni con punteggi di MI più alti generalmente tendono ad essere le coppie di parole meno frequenti ma fortemente associate. Dallo studio è emerso che il punteggio medio di associazione lessicale delle 920 combinazioni estratte dai corpora degli apprendenti era più basso del 20% rispetto a quello delle 626 combinazioni estratte dai corpora dei nativi.33 Lorenz ha dedotto dalla propria analisi che i nativi fanno un uso maggiore delle collocazioni meno frequenti ma strettamente associate, mentre gli apprendenti preferiscono le combinazioni più ricorrenti: lo studioso è stato il primo ad aver rilevato l’esistenza di una differenza nella forza di associazione propria delle combinazioni di parole prodotte dai nativi e dagli apprendenti di lingua inglese. Lo studio empirico di P. Howarth (1998) ha preso in esame le collocazioni e le espressioni idiomatiche prodotte dai nativi e dagli apprendenti definite in base ai criteri sintattico-‐semantici propri dell’approccio fraseologico alle collocazioni (vedi par. 1.2.1). Con lo scopo di descrivere la competenza fraseologica degli apprendenti di lingua inglese in una prosettiva contrastiva, Howarth ha estratto le combinazioni Verbo + Nome34 da due corpora di nativi, dall’ampiezza totale di 238 000 parole, e da un corpus di apprendenti di 25 000 parole costituito dalle produzioni scritte di studenti universitari di diverse L1. Per classificare le combinazioni estratte dai corpora in base alle categorie fissate da Cowie (cfr. par. 1.2.1), ovvero per distinguere tra le combinazioni libere di parole, le collocazioni e le espressioni idiomatiche, Howarth ha utilizzato i criteri della sostituibilità dei membri e della trasparenza del significato.35 Dalla sua analisi è emerso che i nativi utilizzano circa il 50% di collocazioni e di espressioni idiomatiche in più rispetto agli apprendenti36 e che non vi è una correlazione tra la competenza linguistica degli scriventi e l’uso delle collocazioni, 33
Per un’analisi più dettagliata dello studio di Lorenz, cfr. Durrant (2008: 147-‐148). Howarth (1998: 163) spiega di aver scelto le combinazioni Verbo + Nome perché, da un punto di vista teorico, queste costituiscono per lo scrivente il nucleo della frase; inoltre, tale scelta rappresentava un punto di contatto con altri studi pubblicati in quegli stessi anni sulla lingua dei nativi. 35
Howarth (ibidem: 168-‐171) ha definito collocazioni le combinazioni nelle quali c’era una qualche restrizione sulla selezione dei membri e nelle quali il verbo aveva un significato specifico; ha definito espressioni idiomatiche le combinazioni dal significato figurato. 36
Il 71% delle combinazioni Verbo + Nome estratte dai corpora dei nativi sono risultate essere collocazioni o espressioni idiomatiche a fronte del 25% delle combinazioni estratte dal corpus degli apprendenti (ibidem: 177). 34
33 inteso questo ultimo sia nei termini della quantità che dell’accettabilità delle combinatorie prodotte. Tuttavia, come evidenzia Durrant (2008: 148) nella sua analisi allo studio di Howarth, è importante sottolineare che la differenza emersa nelle produzioni è relativa soprattutto alle espressioni idiomatiche di cui i nativi fanno ampio uso: i due gruppi differiscono in maniera poco significativa per quanto concerne l’uso delle collocazioni. Anche Kaszubski (2000) ha confrontato l’uso fatto dagli apprendenti di livello intermedio ed avanzato di lingua inglese e dai nativi delle combinazioni libere, delle combinazioni ristrette e delle sequenze fisse formate da sei verbi inglesi ad alta frequenza (nello specifico to be, to do, to have, to make, to take e to give). Per tale scopo ha estratto le combinazioni lessicali dai saggi argomentativi presenti in alcuni corpora di nativi e non nativi con diverse L1 (polacco, spagnolo e francese). Quanto emerso dagli studi precedenti (Granger 1998a; Lorenz 1999), ovvero che gli apprendenti facciano largo uso di un gruppo ristretto di collocazioni, è evidente anche nell’analisi condotta da Kaszubski: si tratta perlopiù di combinazioni di parole frequenti nella lingua inglese, oppure di combinatorie dal registro neutro o, ancora, di sequenze affini alle combinazioni esistenti nelle lingue madri degli informanti. Nadja Nesselhauf (2005) ha analizzato le collocazioni Verbo + Nome prodotte dagli apprendenti tedescofoni di lingua inglese sulla scia della metodologia basata sui criteri fraseologici seguita da Howarth (1998), ma attenendosi soltanto al criterio della sostituibilità dei membri (criterion of commutability)37. Il corpus utilizzato per questo studio (GeCLE, dell’ampiezza di 150 000 tokens) fa parte del più vasto ICLE, International Corpus of Learner English, ed è composto dai testi argomentativi redatti da 207 apprendenti tedeschi ed austriaci ad un livello avanzato di competenza linguistica. Per la sua analisi, Nesselhauf ha estratto dal corpus le combinazioni verbo-‐nominali ed ha individuato 2 082 collocazioni Verbo + Nome. Lo scopo del suo studio era individuare le collocazioni che risultassero particolarmente problematiche per gli apprendenti: il focus era quindi sugli usi 37
Nesselhauf (2005: 25-‐26) afferma che, specialmente nel caso delle combinazioni Verbo + Nome, i due criteri utilizzati dall’approccio fraseologico, la trasparenza del significato e la sostituibilità dei membri, non coincidono regolarmente. Nesselhauf sostiene ciò sulla scorta di tre esempi. In primo luogo, sottolinea che esistono delle combinazioni di parole in cui uno dei due elementi non viene usato con il suo significato letterale e, al contempo, il secondo membro è sostituibile. Ad esempio, il verbo inglese to take, nel senso di “necessitare di una determinata quantità tempo”, occorre con vari sostantivi che denotano un periodo temporale (time, a year, a day, ecc.). In secondo luogo, esistono delle combinazioni in cui entrambi gli elementi conservano il proprio significato letterale ma che, al contempo, presentano una restrizione sulla loro sostituibilità: ne sono esempi le combinazioni to commit a crime/ a sin/ an error (*to commit a lie/ a deceit/ a delinquency). Infine, esistono delle combinazioni in cui ambedue gli elementi hanno un significato figurato e, nonostante ciò, ammettono delle sostituzioni; una combinazione come to take steps in un contesto quale, ad esempio, steps were taken to prevent this, potrebbe essere classificata come un’espressione idiomatica fissa se non fosse per il fatto che, con lo stesso significato, esistono anche le combinatorie inglesi to take measures/ action. 34 devianti delle combinazioni lessicali in toto o anche soltanto su quelli dei loro elementi costitutivi. A tal proposito, le collocazioni prodotte dagli apprendenti di inglese L2 sono state suddivise in accettabili e devianti38; sono rientrate nella prima categoria i due terzi delle collocazioni totali, mentre un terzo è risultato essere deviante dato che ne è stato fatto un uso sbagliato o classificato come dubbio dai nativi. Lo studio ha valutato i fattori intralinguistici ed extralinguistici che potrebbero essere correlati con le difficoltà che gli apprendenti di lingua inglese hanno avuto con le collocazioni Verbo + Nome. Per quanto concerne i fattori intralinguistici, l’esistenza di una collocazione inglese nella lingua madre degli apprendenti è stata il fattore principale che ne ha influenzato gli usi corretti. Infatti, tra le collocazioni inglesi che non hanno corrispettivi in tedesco ne sono risultate devianti il 50%, mentre gli usi irregolari si sono ridotti al 27% nel gruppo delle combinazioni che hanno una corrispondenza letterale nella lingua di partenza. Un altro fattore considerato da Nesselhauf è stato il grado di restrizione di una collocazione: sono risultate essere più inclini alle deviazioni le combinazioni in cui verbo ammette più classi di oggetti. Le collocazioni più ristrette, al contrario, sono state utilizzate regolarmente e, secondo Nesselhauf, questo sarebbe in parte dovuto al fatto che, in genere, questo tipo di combinatorie riceve più attenzione nella glottodidattica. Per quanto riguarda i fattori extralinguistici, il tempo di studio della lingua inglese da parte degli apprendenti si è mostrato ininfluente sulla competenza collocazionale e la quantità di esposizione all’input che questi hanno avuto, misurata con il tempo che gli informanti hanno trascorso in paesi anglofoni, ha avuto soltanto un effetto lieve. Commentando i risultati della propria analisi, Nesselhauf ha sottolineato che gli apprendenti hanno prodotto una quantità tale di collocazioni accettabili in lingua inglese che sarebbe poco probabile supporre che la maggior parte di queste fosse stata prodotta dagli scriventi ex novo, a partire dai singoli membri ma che, piuttosto, queste fossero state memorizzate e prodotte come unità precostruite (i cosiddetti chunks in psicolinguistica). Inoltre, la disamina delle collocazioni classificate come non accettabili ha rivelato che queste fossero il risultato di una mescolanza di materiali linguistici di varia natura tra i quali Nesselhauf ha riconosciuto degli elementi appartenenti alla L1 38
Nesselhauf (ibidem: 49-‐54) ha utilizzato tre metodi per classificare le collocazioni prodotte dagli apprendenti in base al loro grado di accettabilità. Le collocazioni sono state giudicate accettabili se erano attestate in almeno uno dei quattro dizionari inglesi di combinazioni lessicali in inglese (l’Oxford Advanced Learner’s Dictionary 2000, OALD, il Collins COBUILD English Dictionary 1995, CCED, The BBI Dictionary of English Word Combinations 1997, l’Oxford Dictionary of English Idioms 1993, ODEI) e in almeno 5 testi del British National Corpus (BNC). In terza istanza, l’accettabilità delle collocazioni è stata giudicata dai parlanti nativi di lingua inglese. 35 degli informanti e delle sequenze lessicali di lingua inglese utilizzate dagli apprendenti come se fossero delle unità lessicali prefabbricate. Lo studio più recente di Laufer e Waldman (2011) sulle collocazioni Verbo + Nome prodotte dagli apprendenti di inglese di madre lingua ebraica è giunto a risultati analoghi rispetto a quelli fin qui descritti. L’indagine ha fatto riferimento al corpus ILCoWE (Israeli Learner Corpus of Written English) dell’ampiezza di 300 000 tokens costituito dalle produzioni scritte di apprendenti appartenenti a tre diversi livelli di competenza linguistica (livello base, intermedio ed avanzato39) e al corpus LOCNESS dei nativi. Laufer e Waldman hanno confrontato l’uso delle combinazioni verbo-‐
nominali più frequenti estratte dai due corpora che fossero risultate attestate in due dizionari combinatori della lingua inglese: il Dictionary of English Word Combinations (BBI) e il Dictionary of Selected Collocations (LTP). Ne è emerso che gli apprendenti a tutti i livelli di competenza linguistica, persino al livello avanzato, hanno prodotto circa il 50% di collocazioni in meno rispetto ai parlanti nativi. È seguito il confronto tra gli apprendenti in base al livello di competenza dal quale Laufer e Waldman hanno potuto dedurre che l’acquisizione delle collocazioni proprie della lingua target sia piuttosto lenta: una differenza significativa è stata riscontrata soltanto tra il livello iniziale ed il livello avanzato. Lo studio ha preso in analisi anche le combinatorie irregolari le quali sono risultate essere un terzo del totale e presenti trasversalmente in tutti i gruppi di informanti: non è stata trovata alcuna correlazione tra il numero delle collocazioni ben formate e il livello di competenza linguistica. Al contrario, è emersa una tendenza inversa che Laufer e Waldmann hanno ricondotto ad una maggiore sicurezza nell’uso linguistico che gli apprendenti avanzati sentirebbero di avere e la quale li condurrebbe a commettere più errori nella fase di output. In ultima istanza, analogamente a quanto era stato già rilevato da Nesselhauf, è stato dimostrato anche da questo studio che l’influenza della lingua madre degli informanti è il fattore principale all’origine degli usi regolari delle collocazioni verbo-‐
nominali analizzate. Gli studi fin qui sinteticamente esposti concordano nell’affermare che gli apprendenti fanno uso del linguaggio formulaico, ma in misura minore rispetto ai nativi. Nello specifico delle collocazioni, alcune tipologie di queste come, ad esempio, le combinatorie frequenti nella lingua d’arrivo o quelle che hanno dei corrispettivi nella lingua madre degli informanti, vengono usate maggiormente dagli apprendenti rispetto a quanto facciano i nativi. Le variabili del tempo di esposizione 39
Gli informanti sono stati suddivisi nei tre livelli di competenza linguistica in base alle ore di insegnamento frontale della lingua inglese che avevano ricevuto (livello base: 1 000 ore, livello avanzato: 1 500 ore, livello intermedio: 2 100 ore). 36 all’input e del livello di competenza linguistica non hanno inciso né sull’accuratezza né sulla portata quantitativa delle collocazioni prodotte. Durrant (2008) sposta l’analisi delle collocazioni su un piano più prettamente psicolinguistico con l’obiettivo di verificare empiricamente l’ipotesi di Wray (2002) secondo la quale gli apprendenti non acquisiscono le collocazioni come delle unità lessicali precostruite dall’input che ricevono, ma le costruiscono ex novo al momento dell’atto comunicativo a partire dai singoli componenti. L’analisi di Durrant si basa su due metodologie complementari: uno studio condotto in laboratorio ed uno studio basato su corpora. Benché sia lontano da un contesto naturale di apprendimento, il primo approccio permette di valutare l’acquisizione a breve termine in quanto tiene conto dell’input effettivo che gli apprendenti ricevono in un dato momento; lo studio corpus-‐based, invece, valuta l’acquisizione a lungo termine ma permette di fare soltanto delle supposizioni sull’input che gli studenti potrebbero aver ricevuto. I risultati dello studio integrato di Durrant suggeriscono che gli apprendenti acquisiscono almeno alcune delle collocazioni alle quali sono esposti. Lo studio basato su corpora ha dimostrato che gli apprendenti avanzati di inglese fanno lo stesso uso delle collocazioni ad alta frequenza dei nativi (dai punteggi alti di t-‐score), ma falliscono nell’usare coppie di parole a bassa frequenza e fortemente associate (dai punteggi alti di Mutual Information), il che potrebbe dare l’impressione che il loro linguaggio sia meno naturale. Durrant sostiene che i risultati della sua analisi non siano compatibili con l’ipotesi formulata da Wray e che dimostrino quanto sostenuto dai modelli usage-‐
based di elaborazione linguistica: ovvero che gli apprendenti estraggano ed acquisiscano le collocazioni più frequenti dall’input al quale sono esposti. Ne consegue che il motivo principale della difficoltà relativa alla competenza collocazionale degli apprendenti di una L2 sia proprio la mancanza di input sufficiente. Un altro studio sulle collocazioni che combina l’approccio corpus-‐based con le tecniche di indagine psicolinguistica è il lavoro di Syianova e Schmitt del 2008. Il confronto tra gli apprendenti e i nativi di lingua inglese è stato condotto rispettivamente sulla sezione russa dell’ICLE (31 saggi per 24 500 tokens) e sul corpus LOCNESS (la cui ampiezza è stata ridotta a 25 000 tokens per renderlo comparabile con il learner corpus utilizzato). Trattasi di uno studio multiprospettiva i cui risultati provengono da tre analisi diverse: 1) dall’estrazione dal corpus degli apprendenti delle collocazioni Aggettivo + Nome e dalla loro valutazione40; 2) dalla somministrazione di un test relativo ai giudizi sulla frequenza con cui le collocazioni occorrono nella lingua d’arrivo; 3) da 40
Sono state definite appropriate, ovvero conformi all’uso nativo, le collocazioni che rientravano nei valori soglia di frequenza (fr. ≥ 6) e di associazione lessicale (MI ≥ 3) del British National Corpus (BNC), il corpus di riferimento della lingua inglese. 37 una indagine on line condotta in laboratorio e relativa ai tempi di reazione ed elaborazione delle collocazioni da parte degli apprendenti. Lo studio corpus-‐based ha messo in evidenza che il 45% delle collocazioni prodotte dagli studenti russofoni erano appropriate, ovvero che si trattava di combinazioni di parole frequenti e strettamente associate nella lingua inglese. Tuttavia, nonostante gli apprendenti abbiano prodotto una percentuale relativamente alta di collocazioni inglesi, gli altri due studi hanno dimostrato che gli informanti non hanno sviluppato una piena competenza collocazionale: non sono equiparabili ai nativi né nella percezione della frequenza delle collocazioni della lingua target né nei tempi di reazione. Dai risultati degli ultimi due studi presentati in questo paragrafo (Durrant 2008; Syianova, Schmitt 2008) è evidente il significativo apporto della ricerca psicolinguistica allo studio delle collocazioni; accanto all’approccio descrittivo, questa valuta la competenza collocazionale degli apprendenti di una seconda lingua anche dalla prospettiva della loro elaborazione ed apporta ulteriori elementi a sostegno delle vigenti teorie sull’acquisizione o, al contrario, apre nuove questioni relative allo sviluppo del lessico. Conclusioni Con l’avvento della linguistica dei corpora è emerso quanto profondamente il linguaggio sia permeato di sequenze lessicali ricorrenti: estrarle dai testi ed analizzarle è stato reso possibile proprio grazie agli strumenti ed alle metodologie empiriche legate a questo settore di ricerca. Le sequenze formulaiche sono diventate il centro delle teorie usage-‐based di acquisizione delle lingue prime e seconde sulla base delle quali la frequenza di occorrenza di determinate strutture nell’input sarebbe fondamentale per la definizione dei meccanismi di elaborazione linguistica. Attualmente, la ricerca nell’ambito dell’acquisizione delle seconde lingue è molto viva e numerosi sono gli studi corpus-‐based condotti negli ultimi anni sulla lingua inglese incentrati sul linguaggio formulaico prodotto dagli apprendenti L2. Molti di questi hanno preso in analisi le collocazioni verbo-‐nominali e concordano nell’affermare che gli apprendenti usano il linguaggio formulaico, seppur in maniera diversa rispetto ai nativi, e che alcune variabili quali l’apprendimento formale della lingua e l’esposizione all’input hanno un impatto modesto sulla competenza collocazionale degli informanti. Ciononostante, molte sono ancora le questioni aperte nel vasto dominio del linguaggio formulaico alle quali la ricerca sta cercando di dare una risposta, sia dal punto di vista teorico che applicato: dalla formulazione di tassonomie che riescano a dare conto della complessità del fenomeno alla progettazione dei materiali di supporto alla didattica delle lingue seconde. 38 CAPITOLO 3 I corpora di apprendenti L2 Introduzione Il terzo capitolo propone una panoramica descrittiva sul vasto ambito relativo alla realizzazione, alla compilazione e all’analisi dei corpora di apprendenti (learner corpora). Il primo paragrafo (3.1.) presenta le potenzialità di un settore di studi relativamente nuovo, la ricerca sui corpora di apprendenti (Learner Corpus Research), nato dalla compenetrazione di due aree precedentemente separate quali la ricerca sull’acquisizione delle lingue seconde e la linguistica dei corpora. Il paragrafo successivo e i suoi relativi sottoparagrafi descrivono i principali aspetti pertinenti alla realizzazione di tali strumenti: la natura dei dati, la procedura dell’annotazione e i criteri da seguire in fase di progettazione. Il capitolo prosegue (par. 3.3.) con la trattazione delle analisi conducibili su questa tipologia di corpora, nello specifico l’analisi interlinguistica contrastiva (Contrastive Interlanguage Analysis – CIA) e l’analisi degli errori (Computer-‐aided Error Analysis -‐ CEA), mettendone in luce le specificità, i limiti e le possibili applicazioni. Gli ultimi due paragrafi (3.4., 3.5.) si soffermano sulla rassegna dei principali corpora di apprendenti realizzati in ambito internazionale con un focus sulla lingua italiana. 3.1. La ricerca sui corpora di apprendenti e la Corpus Linguistics La ricerca condotta sui corpora di apprendenti (Learner Corpus Research), nata alla fine degli anni Ottanta ed affermatasi nel corso dei due decenni successivi grazie ad una fervente attività scientifica, è un’area di studi che collega due settori precedentemente separati quali la Corpus Linguistics (linguistica dei corpora) e la ricerca sull’acquisizione delle seconde lingue. Servendosi dei principi, degli strumenti e delle metodologie della linguistica dei corpora, questo ambito di studi indaga e descrive gli aspetti specifici dell’interlingua e fornisce un’ampia base empirica alla glottodidattica. In termini generali, la Corpus Linguistics può essere definita come una metodologia linguistica basata sulla realizzazione e l’analisi di raccolte di testi in formato elettronico: i corpora. Il concetto di corpus non è nuovo nel campo degli studi linguistici ma la sua accezione è stata decisamente ridefinita con l’avvento delle 39 tecnologie informatiche (Spina 2001: 53-‐54). Un corpus deve essere rappresentativo ovvero costituire il campione di un dato sistema linguistico, o di una sua varietà, per mezzo di testi reali, autentici, senza sezioni ridotte o alterate. Il campione deve, per l’aspetto che si intende studiare, essere atto ad esibire lo stesso tipo di informazione (qualitativa) con la stessa probabilità di occorrenza (quantitativa) della popolazione. (Chiari 2007: 43) La linguistica dei corpora non è una nuova teoria del linguaggio ma la natura dei dati linguistici ai quali ricorre la rende una metodologia particolarmente attraente con il potenziale di cambiare prospettiva agli studi teorici. I software sviluppati per l’interrogazione dei corpora, insieme alla quantità ed alla diversità dei dati di cui questi sono costituiti, hanno fatto emergere fenomeni linguistici la cui esistenza non veniva sospettata prima dell’avvento della disciplina: primo fra tutti, il ruolo della frequenza la quale ha dimostrato di svolgere una funzione importante nell’ambito della co-‐selezione lessicale (Granger 2002: 4). Mentre gli studi corpus-‐based condotti negli ultimi trent’anni hanno portato a descrizioni più esaustive dei diversi registri e sottocodici propri a varie lingue, la ricerca sulle varietà non-‐native è relativamente recente: soltanto a partire dagli anni Novanta studiosi e ricercatori hanno iniziato a realizzare corpora di apprendenti di inglese L2. Per riferirci ai corpora di apprendenti ci rifacciamo alla definizione datane da Sylviane Granger (2002: 7), mutuata a sua volta da Sinclair (1996): Computer learner corpora are electronic collections of authentic FL/ SL textual data assembled according to explicit design criteria for a particular SLA /FLT purpose. They are encoded in a standardised and homogeneous way and documented as to their origin and provenance. Nella linguistica dei corpora la nozione di autenticità ha una rilevanza fondamentale, tanto da essere considerata un principio costitutivo della disciplina stessa. Nella definizione di Sinclair (1996) il termine autentico si riferisce ai dati provenienti dalla comunicazione spontanea tra gli individui e contrapposti a quelli raccolti in condizioni sperimentali o artificiali di vario tipo. Tuttavia, per quanto riguarda i dati degli apprendenti bisogna fare una precisazione: questi sono difficilmente composti da dati spontanei poiché viene applicato sempre un certo grado di controllo in fase di elicitazione dei dati, specialmente nel caso degli informanti per i quali l’apprendimento avviene in contesto guidato. Le produzioni scritte che confluiscono in un corpus, ad esempio, sono naturali nel 40 senso che sono il risultato di un lavoro autonomo dell’apprendente ma questi, allo stesso tempo, ha dovuto attenersi ad alcune indicazioni per la redazione del testo quali l’argomento e il tempo che aveva a disposizione. Se ne deduce che, relativamente ai learner corpora, si può parlare di diversi livelli di autenticità dei dati: da quelli provenienti dalla comunicazione spontanea tra gli informanti a quelli elicitati in un contesto guidato come potrebbe essere, ad esempio, l’attività svolta in classe. 3.2. I corpora di apprendenti L2 Questa tipologia di corpora è nata e si è diffusa in Europa, principalmente in Gran Bretagna, Belgio, Francia, Svezia, Olanda e Polonia, a partire dall’inizio degli anni Novanta, con lo scopo di paragonare le interlingue di coloro che apprendevano l’inglese in diversi paesi europei ed asiatici. L’ampia diffusione dei corpora di apprendenti negli ultimi anni è da ricercare nel fatto che questi costituiscono sia uno strumento per la ricerca acquisizionale che una risorsa applicativa per la glottodidattica (Andorno, Rastelli 2009: 7-‐10)41. Ovviamente, la pratica di raccogliere i dati degli apprendenti non è una novità, bensì è una metodologia ampiamente adottata sia dalla ricerca sull’acquisizione di seconde lingue che dalla glottoditattica per scopi descrittivi e pratici. Tuttavia, esistono delle specificità proprie dei corpora di apprendenti che riguardano la natura dei dati che li costituiscono, le analisi su di essi conducibili e gli strumenti necessari a tale scopo. Nei paragrafi successivi verranno analizzati i principali aspetti dei corpora di apprendenti con l’obiettivo di metterne in luce le numerose potenzialità. 3.2.1. I dati linguistici La ricerca sull’acquisizione delle lingue seconde ha tradizionalmente fatto ricorso a una varietà di dati linguistici, tra i quali Rod Ellis (1994: 670) distingue tre categorie principali: 1) i dati dell’uso linguistico (language use data); 2. i giudizi metalinguistici (metalingual judgements); 3. i dati di autovalutazione (self-‐report data). La prima tipologia di dati, relativa all’uso linguistico della lingua target da parte degli apprendenti, riguarda sia la comprensione che la produzione. Questa categoria può essere ulteriormente suddivisa in: a) dati naturali, derivati dalla comunicazione linguistica degli apprendenti in condizioni spontanee; b) dati elicitati 41
Andorno e Rastelli (2009) hanno utilizzato la locuzione “corpora di apprendimento” come corrispettivo dell’inglese learner corpora. Nella presente dissertazione abbiamo preferito ricorrere all’espressione corpora di apprendenti, pur riconoscendo piena validità ed appropriatezza alla prima. 41 che possono essere pertinenti o meno all’area di interesse del ricercatore che li raccoglie. I giudizi metalinguistici vengono elicitati per mezzo della somministrazione di diverse tipologie di test agli apprendenti, tra i più diffusi ci sono i giudizi di grammaticalità e le valutazioni sulla frequenza con cui ricorrono nell’input i fenomeni linguistici studiati, mentre per i dati di autovalutazione gli informanti vengono sottoposti dai ricercatori a questionari o interviste. La scelta della tipologia di dati a cui ricorrere dipende strettamente dagli obiettivi della ricerca. Ad esempio, i lavori descrittivi delle sequenze acquisizionali in ambito anglosassone mostrano una netta preferenza per i dati dell’uso linguistico, sia naturali che elicitati; gli studi imperniati sulla teoria della Grammatica Universale fanno affidamento sui giudizi metalinguistici degli apprendenti, mentre le analisi delle interlingue individuali ricorrono a diverse tipologie di dati di autovalutazione. Cfr. Ellis (1994: 671-‐676). Secondo Granger (2004) tre sono gli aspetti peculiari dei dati che confluiscono in un corpus di apprendenti e che li privilegiano rispetto ai dati usati precedentemente l’avvento della ricerca sui corpora: 1. La dimensione: i dati sono in formato elettronico e ciò permette di raccoglierne ed archiviarne grandi quantità. Molti ricercatori di acquisizione delle seconde lingue hanno sottolineato i limiti delle analisi condotte su una base empirica ristretta. Per quanto riguarda gli studi longitudinali, che coinvolgono solitamente un numero circoscritto di infomanti, Gass e Selinker (2001: 31) affermano : “it is difficult to know with any degree of certainty whether the results obtained are applicable only to the one or two learners studied, or whether they are indeed characteristic of a wide range of subjects”; sempre a tal proposito, MacWhinney (2000: 3) sostiene: “conducting an analysis on a samll and unrepresentative sample may lead to incorrect conclusions”. I corpora di apprendenti fanno dell’ampiezza la più grande risorsa in termini di rappresentatività dei dati e generalizzabilità dei risultati, benché un campione di grandi dimensioni non sia necessario per tutti i tipi di ricerche sull’acquisizione di seconde lingue. Ad esempio, uno studio longitudinale relativo ad un singolo apprendente è di grande valore se il focus della ricerca è lo sviluppo individuale dell’interlingua. Infine, sottolinea Granger (2004: 125), la dimensione del corpus diventa utile solo se questo è stato realizzato seguendo dei rigidi criteri in fase di progettazione (vedi par. 3.2.3.). 2. La variabilità: la lingua degli apprendenti è soggetta all’influenza di un’ampia varietà di fattori linguistici, psicolinguistici e situazionali e il fatto di non riuscire a controllarli limita enormemente l’affidabilità dei risultati nella ricerca sull’acquisizione delle lingue seconde. 42 La Corpus Linguistics, disciplina alla quale i corpora di apprendenti afferiscono, ha fissato diverse norme che devono essere tenute in considerazione dai realizzatori di tali strumenti. Ad esempio, per ogni testo incluso in un corpus devono essere riportate le informazioni relative alla sua provenienza, quali l’autore, il genere, il mezzo di trasmissione, l’argomento, e tutte le altre eventuali informazioni bibliografiche disponibili (a tal proposito cfr. par. 4.2.) La specificità dell’interlingua richiede che durante la realizzazione dei learner corpora vengano esplicitate variabili ulteriori (L2 -‐ specific variables) relative all’apprendente o al tipo di compito che questi è stato chiamato a svolgere in sede di raccolta dei dati (cfr. par. 3.2.3.). Proprio questo grado di controllo distingue i dati di un learner corpus dai campioni linguistici che vengono comunemente utilizzati nella ricerca sull’acquisizione di lingue seconde. A tal proposito, Gass e Selinker (2001: 33) osservano che nei vari studi trasversali “there is often no detailed information about the learners themselves and the linguistic environment in which production was elicited”. 3. L’automazione: fino all’avvento dei corpora di apprendenti, le ricerche sull’interlingua venivano condotte perlopiù manualmente. Il successivo ricorso ad ampie raccolte di testi in formato elettronico ha introdotto nella ricerca i metodi automatici e semi-‐automatici di analisi i quali hanno reso i dati estremamente maneggevoli. I software per l’analisi testuale ed il trattamento automatico del linguaggio, come ad esempio WordSmith Tools (Scott 1996), mettono a disposizione del ricercatore funzioni specifiche quali il conteggio delle parole, utile se si vuole comparare la frequenza con cui ricorre un elemento linguistico in testi diversi, la creazione di liste di parole o sequenze lessicali ordinate alfabeticamente o per frequenza, la generazione degli indici di varietà lessicale (come, ad esempio, la Type/ Token Ratio) o di altri valori come la media di parole per frase. Inoltre, sempre per mezzo di WordSmith Tools, le liste di parole o di sequenze lessicali possono essere comparate, per mezzo della funzione compare lists, permettendo ai ricercatori di effettuare confronti tra corpora diversi e di calcolare se le differenze emerse siano statisticamente significative o meno. Nel caso in cui il confronto da effettuare sia tra due corpora, uno di apprendenti e uno di nativi, la funzione si dimostra particolarmente utile nel rilevare le differenze quantitative nell’uso di determinati elementi linguistici. Un’altra funzione fondamentale a disposizione dei ricercatori che lavorano sui corpora è l’estrazione delle concordanze la quale permette di ottenere una visione completa degli schemi lessico-‐grammaticali delle unità lessicali, delle collocazioni o di altre combinazioni precostruite ed è 43 particolarmente interessante per la ricerca sull’acquisizione delle seconde lingue e la glottodidattica. L’altro grande vantaggio proprio dei dati in formato elettronico è che questi possono essere arricchiti per mezzo dell’annotazione. Questa pratica permette di aggiungere informazioni linguistiche o interpretative ai dati di un corpus ed è senz’altro il punto centrale della specificità della ricerca sui corpora, motivo per il quale abbiamo scelto di trattarla nel prossimo paragrafo. 3.2.2. L’annotazione dei corpora Un corpus non annotato costituisce di per sé una risorsa molto utile. Tuttavia, la sua specificità di risorsa empirica aumenta se contiene delle informazioni aggiuntive che possono essere computate, ordinate e comparate. Diversi sono i tipi di annotazione che possono essere applicati ad un corpus e si distinguono in automatici, semi-‐automatici o manuali. L’annotazione grammaticale o POS tagging (Part-‐of-‐speech tagging) è la tipologia di annotazione trasversalmente più diffusa; questa assegna a ciascuna forma grafematica di un corpus un’etichetta (tag) indicante la parte del discorso alla quale la forma appartiene. La ricerca ed il recupero dei dati dipendono dalla granularità del tagset utilizzato, la quale può essere anche molto variabile (da 50 a 250 tags). I ricercatori hanno a loro disposizione degli strumenti informatici, quali i lemmatizzatori, i POS taggers o i parsers, per annotare automaticamente o semi-‐
automaticamente i corpora. Tuttavia, questi programmi sono stati addestrati sui corpora di nativi e non garantiscono una performace accurata se applicati ai dati degli apprendenti (cfr. par. 4.3.) Per questo motivo, quando si rende necessario l’intervento manuale del ricercatore in un secondo momento, si parla di annotazione semi-‐automatica. Per la lingua inglese, l’indice di successo dei software di annotazione automatica è stato dimostrato essere piuttosto alto in presenza dei dati prodotti da apprendenti ad un livello avanzato di competenza; allo stesso tempo, data l’elevata incidenza degli errori morfosintattici ed ortografici sull’interlingua, tale indice tende a decrescere laddove il numero di questo tipo di errori aumenta (de Haan 2000; Díaz-‐Negrillo et al. 2010). Un altro tipo di annotazione diffusa in ambiente anglofono, seppur in maniera minore rispetto alla precedente, è l’annotazione per errori (error tagging) la quale è stata impiegata anche negli studi sull’interlingua. Per questo tipo di annotazione non esistono programmi automatici e deve essere condotta manualmente dal ricercatore. Il sistema di annotazione per errori sviluppato per la lingua inglese dalla Cambridge University Press ricorre ad una codifica a due lettere: la prima indica la 44 categoria generica di errore (forma deviante, omissione, ecc.) e la seconda identifica la categoria linguistica che l’apprendente avrebbe dovuto usare in quel contesto (Nicholls 2003: 573). Un sistema simile è stato concepito anche per la lingua francese L2 (cfr. Granger 2003) in cui figura un’etichetta a tre componenti: il primo indica l’ambito dell’errore (ortografia, morfologia, grammatica, lessico, ecc.), il secondo la categoria dell’errore (numero, aspetto, ecc.) e il terzo la categoria della forma corretta (verbo, sostantivo, ecc.). L’annotazione per errori è indubbiamente molto utile ma porta con sé anche numerose difficoltà derivanti dal fatto che la procedura di codifica dell’errore implica un elevato grado di soggettività. Per minimizzarla è essenziale poter disporre di un coerente sistema di codifica degli errori e di una tassonomia in cui tutte le categorie di errore e tutti i princìpi di codifica siano stati definiti ed illustrati (Granger 2008: 266). Tuttavia, secondo Andorno e Rastelli (2009) l’annotazione per errori non rappresenta la metodologia più proficua per una riflessione condotta in prospettiva acquisizionale: la sua validità va ricercata nell’ambito pratico e didattico42. Vista sotto questa ottica, la procedura dell’error tagging è un sistema di annotazione determinato dai vincoli grammaticali di una frase ben formata nella lingua target. Nella prospettiva glottodidattica si sono posti, ad esempio, i realizzatori del corpus CzeSL di apprendenti L2 di ceco con l’obiettivo di sviluppare una metodologia didattica specifica per la lingua ceca come lingua seconda (Štindlová 2011; Štindlová, Rosen, Hana, Škodová 2012, Šebesta 2012). Andorno e Rastelli (2009: 56), invece, si sono occupati dell’annotazione dei corpora di apprendenti dalla prospettiva acquisizionale ed hanno valutato l’applicabilità di un sistema che eviti il ricorso al concetto di scarto rispetto alla lingua target e che limiti l’arbitrarietà dell’annotatore. Ne è emersa una interessante soluzione di annotazione multiprospettiva, nata nell’ambito del progetto PIL2 condotto presso il Dipartimento di Linguistica dell’Università di Pavia, la quale assegna a ciascun elemento deviante o anomalo del testo due etichette: una contiene il riferimento alla forma originale prodotta dall’informante (source), l’altra indica le proprietà linguistiche che l’elemento possiede nella lingua target (tendenziale)43.
La questione dell’annotazione dei corpora, molto utile in sede di analisi dei dati, risulta molto complessa se applicata al concetto di interlingua. Infatti, le peculiarità che contraddistinguono tale varietà linguistica dovrebbero poter 42
La nozione di varietà di apprendimento o interlingua sposta la prospettiva dal piano della riflessione glottodidattica a quello della riflessione linguistica; per questo motivo, un corpus annotato in conformità ai princìpi acquisizionali dovrebbe offrire degli strumenti che consentano al ricercatore di ricostruire il sistema di forme e funzioni soggiacente all’interlingua. Cfr. Andorno, Rastelli (2009: 49-‐50). 43
Per una trattazione più approfondita sull’annotazione multiprospettiva, cfr. Andorno, Rastelli (2009: 49-‐70) e Astaneh, Frontini (2009: 199-‐216). 45 emergere dai corpora di apprendenti e, per tale scopo, l’elaborazione di specifici sistemi di annotazione è attualmente uno dei settori più attivi della ricerca relativa all’annotazione linguistica. 3.2.3. I Criteri di progettazione dei corpora di apprendenti Nadja Nesselhauf (2005: 40) ha definito i corpora di apprendenti “systematic computerized collections of texts produced by learners”: l’aggettivo sistematico si riferisce ai rigidi criteri di progettazione che devono essere seguiti dai ricercatori nella loro compilazione. Come già fatto presente sopra, il mancato controllo dei fattori linguistici, psicolinguistici e situazionali che influenzano la lingua degli apprendenti limita fortemente l’affidabilità dei risultati nella ricerca sull’apprendimento delle seconde lingue. Una raccolta casuale, seppur computerizzata, di dati eterogenei non può essere definita learner corpus, uno strumento la cui funzionalità è direttamente proporzionale alla cura con la quale sono state controllate e decodificate le diverse variabili a cui l’interlingua è soggetta (Granger 2002). Come già detto sopra, la stessa Corpus Linguistics, disciplina dalla quale la ricerca sui corpora di apprendenti ha mutuato gran parte dell’apparato analitico e metodologico, pone dinnanzi ai realizzatori di corpora una serie considerevole di variabili da tenere in considerazione al momento della loro compilazione, mentre la natura specifica dei dati linguistici coinvolti nei learner corpora ha reso necessaria l’introduzione di variabili ulteriori (L2-‐specific). A tal proposito, Granger (2008: 264) sostiene, seguendo Ellis (1994), che una distinzione dovrebbe essere fatta innanzitutto tra le variabili relative agli informanti (learner variables) e le variabili relative al compito che questi sono stati chiamati a svolgere in fase di elicitazione dei dati (task variables). Ciascuna di queste due categorie contiene a sua volta sia delle variabili generali, le quali entrano in gioco sempre durante la compilazione dei corpora, che delle variabili relative soltanto ai learner corpora. Ad esempio, tra le variabili relative agli informanti che Granger sostiene sia necessario esplicitare alcune sono di ordine generale (quali, ad esempio, l’età, il sesso, la provenienza e la lingua madre), mentre altre sono specifiche del contesto di apprendimento di una L2 (quali, ad esempio, il livello di competenza, l’esposizione all’input, le altre lingue conosciute, ecc.). Allo stesso modo, anche le variabili relative al compito che gli informanti sono stati chiamati a svolgere in fase di elicitazione dei dati possono essere generali (ad es., il mezzo di trasmissione, l’argomento, il genere testuale, ecc.) e specifiche dell’apprendimento di una L2 in quanto strettamente correlate al contesto in cui è avvenuta la raccolta dei dati (come, ad esempio, il tempo a disposizione 46 dell’apprendente, la possibilità di consultare o meno vocabolari o altri materiali di riferimento, ecc.). Nello specifico delle variabili, il livello di competenza dell’informante è molto importante da esplicitare ma, allo stesso tempo, è difficile da stabilire in maniera univoca. Ad esempio, suddividere gli informanti in base agli anni di studio della lingua target (il cosiddetto institutional status) comporta che nei vari gruppi siano presenti apprendenti appartenenti a livelli di competenza linguistica diversi. Ciò è emerso anche a proposito del corpus ICLE da uno studio di Granger e Thewissen (2005): la competenza linguistica degli informanti coinvolti nel corpus, nonostante si tratti di studenti universitari della lingua inglese, oscilla tra il livello B2 e C2 del Quadro comune europeo di riferimento per la conoscenza delle lingue (QCER). Le variabili relative alla produzione dei dati da parte degli informanti particolarmente importanti da segnalare sono il tipo di attività che questi sono stati chiamati a svolgere (può trattarsi di simulazioni situazionali, di interviste informali, di conversazioni spontanee o della redazione di testi di varia natura) e le condizioni nelle quali è avvenuta produzione quali il limite di tempo, l’argomento, la possibilità o meno di usare strumenti quali vocabolari o dizionari bilingui, la L1 dell’interlocutore o dell’intervistatore ed altri. Va specificato che la rassegna delle variabili trattate nel presente paragrafo è lungi dall’essere completa: i fattori che determinano la variabilità dell’output degli apprendenti sono numerosi, se non infiniti44. Ciononostante, nella fase di costruzione di un corpus è necessario dotare ciascun testo di tutte le variabili sociolinguistiche e contestuali di cui si dispone affinché queste siano accessibili dai ricercatori nel momento dell’analisi dei dati. 3.3. Analisi conducibili sui corpora di apprendenti L’interlingua è una varietà linguistica a sé stante la quale deve essere studiata autonomamente, senza essere comparata a nessun altra varietà: Il termine interlingua o varietà di apprendimento rimanda all’idea che alla base delle produzioni linguistiche degli apprendenti stia un sistema linguistico. (Andorno, Rastelli 2009: 13) Tuttavia, sostiene Granger (2004), per ragioni sia teoriche che pratiche, può rivelarsi utile adottare un approccio contrastivo, la cosiddetta Contrastive Interlanguage Analysis (CIA) al fine di mettere in luce le specificità dell’interlingua. Il confronto può essere condotto tra la lingua dei nativi e l’interlingua (L1 vs. L2) oppure tra varie interlingue (L2 vs. L2). 44
“The factors that can bring about variation in learner output are numerous, perhaps infinite” (Ellis 1994: 49). 47 Il primo tipo di confronto ha permesso di osservare alcune caratteristiche della lingua degli apprendenti, quali ad esempio, l’uso eccessivo (overuse) o ridotto (underuse) di determinati elementi linguistici, e di rivelare degli schemi distribuzionali ricorrenti considerati la chiave della non naturalezza dei testi privi di errori lessico-‐grammaticali prodotti dagli apprendenti con livelli avanzati di competenza linguistica (De Cock 2003). La comparazione tra interlingue diverse rende possibile individuare sia le strategie condivise dagli apprendenti di varie L1 che le specificità legate ad un determinato gruppo (Aijmer 2002). Gli studi interlinguistici contrastivi (CIA) sono al centro della ricerca sui learner corpora della lingua inglese. Da questa prospettiva sono stati analizzati diversi aspetti quali, ad esempio, il lessico ad alta frequenza, i verbi modali, i connettivi, le collocazioni e le sequenze lessicali semi-‐prefabbricate (Howarth 1996; Granger 1998b; Nesselhauf 2003, 2005). Come fatto notare da Andorno e Raselli (2009a), l’ottica contrastiva non è considerata valida da alcuni teorici dell’acquisizione di seconde lingue in quanto non descrive l’interlingua come un sistema linguistico autonomo ma sempre per scarto rispetto alla lingua target (LT). Questa posizione è stata assunta per la prima volta da Bley-‐Vroman (1983) il quale si riferisce all’argomento con il termine comparative fallacy: Sistematicity is not appropriately studied by comparing one language with another. A system is, as Saussure put it, something “où tout se tient”. The reflexive in this phrase is not accidental. Language systems are to be considered on their own right, on the basis of their “internal logic” […] If researchers are to make serious progress in the investigation of interlanguage, then the comparative fallacy must be avoided and attention must be concentrated on the construction of linguistic descriptions of learners’ languages which can illuminate their specific properties and their own logic. (Bley Vroman 1983: 15-‐16) Lo stesso concetto è stato ribadito successivamente anche da Larsen-‐
Freeman e Long (1991): Researchers should not adopt a normative TL perspective, but rather seek to discover how an IL structure which appears to be non-‐standard is being used meaningfully by a learner. (Larsen-‐Freeman, Long 1991: 66) Anche Hunston (2002: 211-‐212) adotta lo stesso punto di vista affermando 48 che uno degli svantaggi dell’approccio interlinguistico è che “it assumes that learners have native speaker norms as a target”. Andorno e Rastelli (2009: 13-‐16) sostengono che la prospettiva descrittiva, e ancor più quella esplicativa, la quale ricorre al concetto di errore studiando le produzioni di seconda lingua per scarto rispetto alla varietà target, debba essere abbandonata. La categoria dell’errore, dal punto di vista del sistema linguistico in divenire, non ha alcuno statuto ontologico e l’analista della varietà di apprendimento dovrebbe riscostruire su base contestuale il sistema di combinazioni di forma-‐
funzione che regola tale varietà. Senza questa cautela, la ricostruzione dell’interlingua attraverso le categorie della lingua target ricade inevitabilmente nella comparative fallacy contro la quale ha messo in guardia, tra gli altri, Bley Vroman. La seconda tipologia di analisi conducibile sui dati dei corpora di apprendenti, benché meno diffusa della prima, è l’analisi degli errori, la Computer-‐aided Error Analysis (CEA). Questa risulta molto ultile ai fini pratici della glottodidattica poiché ricorre agli strumenti informatici per etichettare, recuperare ed analizzare gli errori dell’interlingua (Granger 1999). La CEA analizza gli errori per mezzo delle etichette e delle eventuali correzioni che sono state inserite manualmente dal ricercatore. Questo tipo di analisi differisce per scopi e metodologia dagli studi tradizionali sugli errori condotti precedentemente all’avvento della Corpus Linguistics (l’Error Analysis -‐ EA) e valuta gli errori insieme al contesto nei quali sono stati prodotti. L’annotazione di un corpus per errori è una pratica molto dispendiosa in termini di tempo e di costi poiché avviene in maniera completamente manuale. Per questo motivo, oltre al sopra menzionato concetto di errore, la Computer-‐aided Error Analysis è meno diffusa rispetto agli studi contrastivi nel campo dell’acquisizione delle lingue seconde. 3.4. Tipologie di corpora di apprendenti Negli ultimi tre decenni si è assistito ad una rapida proliferazione a livello internazionale dei corpora di apprendenti L2. Allo scopo di fornire una panoramica sommaria di questi strumenti, seguiamo Granger (2008: 261-‐163) e li classifichiamo in base ad alcune dimensioni principali Innanzitutto, i learner corpora esistenti si possono distinguere in base all’ambiente in cui sono stati realizzati: si parla di corpora accademici e corpora commerciali. In termini quantitativi, alla data odierna, si conta un numero maggiore di corpora accademici ma, dal canto loro, quelli realizzati per fini commerciali hanno la caratteristica di essere molto più estesi e di comprendere una vasta gamma di testi prodotti da apprendenti con diverse L1. 49 Solitamente, i corpora commerciali vengono realizzati dalle case editrici che si occupano anche della pubblicazione di materiali glottodidattici. Per la lingua inglese, esistono due grandi corpora commerciali: il Longman Learner’s Corpus e il Cambridge Learner Corpus, entrambi dell’estensione di oltre 10 milioni di parole e costituiti da testi prodotti da apprendenti con diverse L1. Cfr. (Pravec 2002, Xiao 2008). Un altro criterio distintivo nella classificazione delle diverse tipologie di corpora esistenti è la loro ampiezza. È importante rimarcare che l’estensione è una caratteristica fondamentale poiché accresce la rappresentatività dei dati ma è comunque subordinata ad una buona strutturazione della risorsa empirica. Tra i learner corpora accademici più ampi va sicuramente menzionato l’ICLE – International Corpus of Learners English (Granger, Dagneaux, Meunier 2002; Granger 2003, Paquot, Granger 2012), un corpus che ad oggi conta di 3,7 milioni di parole ed è costituito dalle produzioni scritte di apprendenti di lingua inglese provenienti da 16 lingue madri differenti. Anche l’Hong Kong University of Science and Technology Learner Corpus è una risorsa di grandi dimensioni, dell’ampiezza di 25 milioni di parole, ma è costituito esclusivamente dai dati di apprendenti sinofoni di lingua inglese (Milton 1998). Un’ulteriore dimensione lungo la quale si possono classificare i corpora è la lingua target degli informanti. La scena è dominata dall’inglese, lingua per la quale è stato realizzato il numero maggiore di corpora di apprendenti ad oggi. Oltre al più ampio ICLE, esistono una serie di collezioni minori come, ad esempio, l’EVA corpus di apprendenti norvegesi (Hasselgren 1997) o l’APU, il corpus di apprendenti ispanofoni (Ife 2004). Nonostante la predominanza della lingua inglese, sono stati realizzati corpora di apprendenti L2 per varie altre lingue europee quali il francese, l’italiano, lo svedese, il norvegese, lo spagnolo, il tedesco e il ceco. In questo contesto va menzionato anche un corpus multilingue (Multilingual Learner Corpus, Tagnin 2003) contenente i dati di informanti con la stessa lingua madre, il portoghese brasiliano, i quali apprendono tre diverse lingue seconde (l’inglese, il tedesco e lo spagnolo). I learner corpora si possono inoltre suddividere in base alla forma dei dati di cui sono costituiti: la varietà più diffusa è quella dei corpora scritti, data anche la difficoltà di raccolta e di trascrizione del parlato (un fattore valido anche per i corpora dei parlanti nativi). Tuttavia, il recente interesse per il parlato è andato di pari passo con lo sviluppo della controparte orale dell’ICLE, il Louvain International Database of Spoken English Interlanguage (LINDSEI), un corpus di circa 800 000 parole realizzato dal parlato di apprendenti con 11 lingue madri diverse (Gilquin, De Cock, Granger 2010). Una prospettiva ulteriore dalla quale possono essere descritti i corpora di apprendenti è quella temporale: in base a questo criterio si possono distinguere i 50 corpora trasversali (cross-‐sectional) dai corpora longitudinali (longitudinal). La prima tipologia è costituita dai dati prodotti da vari apprendenti in uno stesso momento; la seconda categoria, dei corpora longitudinali, è costituita dai dati di un gruppo ristretto di apprendenti prodotti in un ampio lasso di tempo al fine di monitorare per fasi il processo acquisizionale degli informanti. Mentre i corpora sincronici sono molto diffusi, quelli longitudinali sono decisamente pochi: il progetto più importante ad oggi è stato avviato nel 2008 con il nome di LONGDALE, Longitudinal Database of Learner English, presso l’Università di Louvain in Belgio. Per ovviare alle difficoltà ed ai tempi correlati con la costruzione degli strumenti longitudinali, i ricercatori nell’ambito dell’acquisizione di lingue seconde tendono molto spesso a realizzare i cosiddetti corpora quasi-‐longitudinali, con dati raccolti in uno stesso momento ma da apprendenti con diversi livelli di competenza linguistica. Infine, come è già emerso dal paragrafo relativo all’annotazione, i learner corpora differiscono per il loro livello di elaborazione e complessità. A tal proposito si possono distinguere i corpora piani da quelli annotati. Molti dei corpora attualmente disponibili consistono di dati annotati, contengono le produzioni degli apprendenti lemmatizzate ed etichettate per parti del discorso, attraverso il cosiddetto Part-‐Of-‐
Speech tagging. Nel prossimo paragrafo verranno presentati i corpora di apprendenti della lingua italiana come lingua seconda 3.5. Corpora di apprendenti della lingua italiana Nonostante la predominanza di corpora di apprendenti della lingua inglese, diversi progetti sono nati anche in ambito italiano. La loro natura spazia dai corpora realizzati ad hoc per specifiche ricerche fino ad arrivare ad estese banche dati raccolte nell’arco di diversi anni. Di seguito verranno presentati gli strumenti realizzati in questo settore per la lingua italiana come L245. La Banca dati di Italiano L2 è un corpus costituito da una selezione di dati raccolti fra il 1985 e il 2000 nell’ambito dell’importante Progetto Pavia, coordinato dall’Università omonima con il coinvolgimento delle Università di Bergamo, Roma, Siena, Torino, Trento, Udine, Vercelli e Verona. Il corpus ha un taglio sia trasversale che longitudinale ed è costituito dalle trascrizioni delle interviste fatte a venti informanti di otto diverse lingue madri, i quali hanno acquisito l’italiano in un contesto spontaneo, per un totale di circa 120 ore di parlato. Cfr. Giacalone Ramat (2003: 27-‐28). 45
Il termine lingua seconda (L2) viene usato come concetto sovraordinato ai termini lingua seconda (L2) e lingua straniera (LS) poiché non riteniamo la distinzione pertinente ai fini della presente trattazione. 51 Il corpus VALICO (Varietà di Apprendimento della Lingua Italiana Corpus Online) è stato elaborato presso l’Università di Torino e raccoglie il materiale scritto di apprendenti di varie L1. Si tratta di un corpus bilanciato dell’ampiezza di 10 000 tokens ed elaborato a partire dal più ampio archivio testuale chiamato GRANVALICO. Per la redazione dei testi gli informanti si sono serviti di immagini: vignette create appositamente dai ricercatori il cui scopo era elicitare alcuni aspetti della scrittura degli apprendenti tra i quali, ad esempio, le modalità testuali alla base della descrizione, l’uso dei verbi e delle subordinate causali, consecutive e ipotetiche. Cfr. Barbera, Marello (2004). Il corpus ISA (Italiano Scritto di Americani) contiene circa mille file di testo prodotti da studenti universitari americani appartenenti a tutti i livelli di competenza linguistica (da A1 a C2 del QCER). Le produzioni sono state redatte durante un semestre di studi a Milano, nell’arco del triennio 2000 -‐ 2003. Ciascun file, di circa cento parole ciascuno, contiene la descrizione di una scena del film “Pane e tulipani” di Silvio Soldini. Cfr. Rastelli (2006). Il LIPS (Lessico dell’Italiano Parlato da Stranieri) è stato elaborato presso l’Università per Stranieri di Siena ed è stato costruito a partire dalle prove di esame CILS (Certificazione di Italiano come Lingua Straniera). Nel corpus sono state incluse circa 2 000 prove di diversi candidati, accomunati dal fatto di avere svolto almeno due prove CILS su sei tra il 1993 e il 2006. Il corpus LIPS ha un’ampiezza di 700 000 tokens e comprende le trascrizioni di circa 100 ore di parlato: si tratta del più ampio corpus di apprendimento di italiano L2 esistente. Cfr. Barni, Gallina (2008). All’Università per Stranieri di Siena è stato realizzato anche l’Archivio Digitale di Italiano L2 (ADIL2), nato nell’ambito del progetto “Le interlingue di apprendimento a base non italiana dell’Osservatorio Linguistico Permanente dell'Italiano diffuso fra stranieri e delle lingue immigrate in Italia”. L’archivo consiste di 1 168 unità testuali prodotte da 1 126 informanti di diverse L1 tra il 2002 e il 2004. In termini di estensione, la risorsa contiene 432 606 tokens e si distingue tre sezioni: i testi scritti trasversali, i testi orali trasversali e i testi orali longitudinali. Cfr. Palermo (2009). Presso l’Università per Stranieri di Perugia è stato sviluppato, nell’ambito del progetto di ricerca “Osservatorio sull’italiano di Stranieri e sull’italiano all’estero”, il Corpus parlato di italiano L2. I dati che costituiscono il corpus sono relativi a 28 informanti di tre diverse lingue madri (tedesco, inglese e giapponese) e sono stati elicitati per mezzo di interviste, dialoghi tra coppie di apprendenti, di conversazioni guidate e di descrizioni di immagini e video. Il corpus è stato annotato per categorie grammaticali ed è liberamente interrogabile in rete (http://elearning.unistrapg.it/osservatorio/corpus/frames-‐cqp.html). Cfr. Atzori, Chiapedi, Spina (2009). 52 Conclusioni Tra la fine degli anni Ottanta e l’inizio degli anni Novanta si è assistito ad una rapida proliferazione dei corpora di apprendenti L2 la cui realizzazione è tutt’ora al centro della ricerca sull’acquisizione delle lingue seconde. Tali strumenti forniscono ai ricercatori una solida base empirica sia per fini teorici che per le applicazioni glottodidattiche. Le specificità dei corpora di apprendenti quali, ad esempio, il formato elettronico dei dati il quale permette di ampliarne considerevolmente la portata e il fatto di poter tenere sotto controllo le numerose variabili alle quali l’interlingua è soggetta, comportano numerosi vantaggi per la ricerca. L’annotazione, ovvero l’aggiunta di informazioni grammaticali o interpretative ai dati per mezzo di etichette, rappresenta il fulcro delle potenzialità di un corpus: poter estrarre e confrontare la distribuzione della frequenza di parole, di sequenze lessicali o di costruzioni sintattiche nei testi dei nativi e degli apprendenti getta nuova luce sulle caratteristiche dell’interlingua e sui meccanismi che soggiacciono alla sua elaborazione. 53 CAPITOLO 4 Il Corpus di Apprendenti di Italiano L2 (CAIL2) Introduzione Il quarto capitolo descrive le singole fasi della costruzione del corpus CAIL2 di apprendenti di italiano L2. Queste si articolano a partire dalla raccolta dei dati, i quali sono stati elicitati sotto forma di produzioni scritte, passando per la loro annotazione ed arrivando all’indicizzazione del corpus, la fase finale che predispone la risorsa linguistica realizzata all’interrogazione da parte del ricercatore. Il primo paragrafo (4.1.) è strettamente relativo alla fase della raccolta dei dati, ovvero alla sua durata, alle sue modalità ed ai partecipanti coinvolti. Nel paragrafo successivo (par. 4.2.) viene descritta la procedura di codifica dei dati con il linguaggio di marcatura XML ed il duplice livello di normalizzazione manuale al quale sono stati sottoposti: una fase necessaria per le successive lavorazioni quali l’annotazione dei dati (POS-‐tagging) e la seguente indicizzazione del corpus (par. 4.3.). L’ultimo paragrafo (par. 4.4.) si sofferma sulle caratteristiche del corpus realizzato intese nei termini della sua ampiezza totale e del suo bilanciamento rispetto alla variabile del tempo di studio della lingua italiana da parte degli apprendenti.
4.1. La raccolta dei dati per il corpus CAIL2 I dati degli apprendenti di lingua italiana confluiti nel corpus CAIL2 sono stati raccolti presso l’Università per Stranieri di Perugia, l’Università Carolina di Praga (Karlova Univerzita v Praze) e l’Università della Boemia meridionale di České Budějovice (Jihočeská Univerzita v Českých Budějovicích), nella Repubblica Ceca46. I dati sono stati prodotti dagli studenti frequentanti i corsi di lingua italiana tenutisi all’Università per Stranieri di Perugia (corsi mensili, bimestrali, trimestrali e corsi afferenti al progetto Marco Polo 2009-‐201347) e i corsi relativi ai primi tre anni 46
Il termine lingua seconda (L2) viene usato in questa sede come sovraordinato rispetto ai concetti di lingua seconda (L2) e lingua straniera (LS). La questione verrà trattata più approfonditamente nella parte conclusiva del paragrafo 4.4. 47 Il progetto Marco Polo è rivolto agli studenti cinesi che intendono frequentare corsi di laurea e di laurea 54 accademici delle università di Praga e di České Budějovice nel periodo aprile 2011 – maggio 2012. Durante questo arco temporale sono stati raccolti i dati di 493 informanti per un totale di 36 L1. I corsi di lingua coinvolti nella raccolta dati erano stati inquadrati dalle rispettive istituzioni come relativi ai livelli B1, B2, C1 e C2 del QCER (Quadro comune europeo di riferimento per la conoscenza delle lingue); tale requisito è stato seguito esclusivamente al fine di individuare e, conseguentemente, includere nella raccolta dati le produzioni degli informanti che si trovassero ad un livello intermedio/ avanzato di conoscenza della lingua italiana e non è stato considerato come un criterio di valutazione della competenza linguistica in sede di analisi dei dati. Nello specifico, per quel che riguarda le modalità di raccolta dei dati, all’Università per Stranieri di Perugia sono stati coinvolti 38 corsi di lingua italiana. Con la collaborazione degli insegnanti, gli studenti hanno trascorso due delle ore solitamente dedicate all’insegnamento frontale in aula presso il laboratorio di informatica dell’Università per lo svolgimento dell’attività di produzione scritta. Ciascun informante aveva a propria disposizione una postazione con un personal computer dal quale ha potuto accedere al file Word contenente le indicazioni sul testo da redigere (figg. 1 e 2). magistrale presso le università italiane. Sulla base di un accordo governativo italo-‐cinese del 2006, gli studenti cinesi possono ottenere il visto d’ingresso per studiare in Italia, anche se non conoscono ancora la lingua italiana, purché risultino preiscritti a un corso di Laurea o di Laurea magistrale presso un’università italiana e a un corso propedeutico di lingua italiana, della durata di almeno sei mesi, che porti al conseguimento del livello di competenza linguistica B1/B2. 55 Fig.1 File Word utilizzato per l’elicitazione delle produzioni scritte 56 Fig. 2 File Word utilizzato per l’elicitazione delle produzioni scritte Il file, studiato appositamente ai fini della presente raccolta dati, è composto da una prima parte relativa alle informazioni personali degli studenti (fig. 1) quali la loro provenienza nazionale e linguistica, l’età, il sesso, le altre lingue da loro conosciute, il livello del corso di lingua che stavano frequentando al momento della raccolta dati, il tempo che hanno trascorso in Italia e il tempo di studio della lingua italiana. Queste informazioni sono state compilate individualmente da ciascun apprendente ed allegate alla produzione scritta da questi redatta. I file che non sono 57 stati compilati nella parte relativa alle informazioni personali o sono stati lasciati incompleti di questa parte non sono stati inclusi nel corpus (vedi di seguito par. 4.4.). La seconda parte del file contiene le quattro tracce tra le quali gli apprendenti dovevano scegliere per comporre un testo della lunghezza minima di 700 parole. La scelta di indicare un numero minimo di parole è stata valutata indispensabile ai fini di un’elicitazione dei dati sufficiente sul piano quantitativo: l’obiettivo era ottenere un testo della lunghezza media di 500 parole per informante. Gli argomenti proposti per la produzione scritta sono elencati di seguito: a. Come trascorri il tuo tempo libero? Parlami dei tuoi interessi, hobbies e passioni(Libri, musica, sport, cinema, viaggi…); b. La tua città o nazione preferita. Parlami di un posto che già conosci o ti piacerebbe visitare; c. Parlami di un qualsiasi tema di attualità mondiale che ti ha colpito (Episodi di cronaca, geopolitica, economia, clima, società, cultura, …); d. Scrivi una storia reale o inventata sul tema dell’amicizia. Sono state proposte quattro tracce diverse per due ordini di motivi. Innanzitutto, dal punto di vista pratico, si è cercato di proporre una gamma di argomenti ampia affinché tutti gli informanti fossero in grado di trovare una tematica di loro interesse; inoltre, la rosa degli argomenti rispecchia una scala crescente di difficoltà che ha permesso a studenti appartenenti a diversi livelli di competenza linguistica di prendere parte alla medesima raccolta dati. Dal punto di vista metodologico, proporre vari argomenti è servito al fine di elicitare testi che contenessero diversi campi lessicali e quindi anche una gamma più vasta di collocazioni Verbo + Nome. La produzione scritta è stata redatta dagli studenti direttamente in formato elettronico con il programma di videoscrittura Word, senza l’ausilio dei vocabolari bilingui e monolingui e con un limite temporale di due ore (la durata di una lezione frontale in aula alla quale l’attività si era sostituita). La stessa modalità di raccolta dei dati è stata seguita presso l’Università della Boemia meridionale di České Budějovice nella Repubblica Ceca la cui struttura è dotata di un laboratorio di informatica. Al contrario, presso la storica sede dell’Università Carolina di Praga ciò non è stato possibile a causa della mancanza degli spazi attrezzati a tale scopo. Gli studenti hanno quindi redatto il testo in aula per mezzo dei propri computer portatili. Ovviamente, il file utilizzato per la raccolta dei dati come descritto sopra è stato il medesimo in tutte e tre le sedi. Tutte le produzioni, affinché il lavoro di raccolta dei dati risultasse utile anche per gli informanti coinvolti nel progetto, sono state corrette a restituite agli studenti per i quali l’attività è così risultata essere un’esercitazione della loro competenza scritta. 58 4.2. La codifica in XML e la normalizzazione dei dati Una volta raccolti i dati necessari per la realizzazione del corpus è stato necessario dotarli di una serie di informazioni aggiuntive, ovvero annotarli per mezzo di etichette associate a una porzione specifica e limitata di testo (cfr. paragrafo 3.2.2.), per poterne sfruttare la ricchezza come fonte di dati linguistici. Leech (1997: 2) definisce l’annotazione come la pratica di aggiungere informazioni linguistiche e interpretative ad un corpus elettronico di dati scritti e/o parlati48. Il termine “annotazione” può essere anche riferito al prodotto finale di questo procedimento, ovvero alle etichette che sono collegate al materiale linguistico in formato elettronico. Leech sostiene la cruciale importanza che l’annotazione riveste in quanto contribuisce ad arricchire un corpus aumentandone le potenzialità come strumento di ricerca e sottolinea che la stessa pratica di annotazione dei corpora si è affermata come un’affascinante area di ricerca. Annotare un corpus è importante non soltanto poiché è un procedimento necessario al fine di estrarre le informazioni linguistiche in esso contenute, ma un corpus annotato può essere sfruttato anche da altri ricercatori e diventare così uno strumento di ricerca condivisibile. A tal proposito, è buona norma che da un corpus annotato sia sempre possibile recuperare i dati senza annotazioni e che queste ultime, di conseguenza, siano facilmente estratte ed archiviate separatamente. Inoltre, è importante che gli utenti di un dato corpus annotato possano avere semplice accesso alla documentazione ad esso relativa, la quale dovrebbe contenere le informazioni sullo schema di annotazione (un documento che descrive le etichette e i simboli che sono stati utilizzati dall’annotatore), che possano conoscere come, dove e da chi il corpus è stato annotato e quale sia il livello di accuratezza dell’annotazione. Infine, è preferibile che gli schemi di annotazione siano basati su un’analisi linguistica dei dati neutrale dal punto di vista teorico (Leech 1997: 6-‐7). Nonostante i requisiti sopraelencati, i quali dovrebbero essere rispettati da tutti gli schemi di annotazione, questi ultimi variano molto per motivi pratici come, ad esempio, l’ampiezza del corpus, l’obiettivo per il quale questo è stato annotato, la lingua e il tipo di dati di cui è costituito. Dal momento che l’omogeneità dei sistemi di annotazione è una questione imprescindibile per la comunità scientifica che lavora sulla realizzazione e la fruizione dei corpora elettronici, nel 1987 è nata la Text Encoding Initiative (TEI, http://www.tei-‐c.org/), un consorzio internazionale fondato a partire da alcune delle associazioni più importanti di studi umanistici e linguistici a carattere 48 “
Corpus annotation can be defined as the practice of adding interpretative, linguistic information to an electronic corpus of spoken and/ or written language data”. 59 computazionale49, il quale ha stabilito lo standard di annotazione ampiamente accettato e maggiormente diffuso al giorno d’oggi (Chiari 2007: 60). La prima bozza delle Guidelines for the electronic text encoding and interchange, ovvero le raccomandazioni per la codifica standard e l’interscambio dei testi elettronici (chiamata TEI P1) è stata completata nel 1990, la prima versione ufficiale (TEI P3) è stata pubblicata nel 1994, mentre l’ultima in ordine cronologico è la versione TEI P5, lanciata nel 2007 50. I corpora che aderiscono allo standard di annotazione TEI utilizzano il linguaggio di marcatura51 XML (Extensible Markup Language, http://www.w3.org/XML), una versione ridotta di SGML (Standard Generalized Markup Language, http://www.w3.org/MarkUp/SGML), il quale codifica i testi per mezzo di una struttura di etichette (tags) che identificano e classificano le informazioni testuali. Questo insieme di etichette arrecante i nomi dei vari elementi e dei loro valori non è predefinito: la marcatura XML ha il vantaggio di permettere all’annotatore di creare etichette proprie tramite la cosiddetta Document Type Definition (DTD), un file contenente le regole sintattiche che vengono applicate al corpus (Lehmberg, Wörner 2009: 485). La codifica testuale effettuata sulla base di un linguaggio di marcatura come XML fa sì che il testo sia elaborabile da una ricca varietà di strumenti software, salvaguardando al contempo l’indipendenza dei dati codificati rispetto ad un’applicazione specifica e ad un sistema operativo. Per cui, l’uso di XML per la codifica digitale del testo rende più facile ed immediata la condivisione dei testi digitali (Lenci et al., 2005: 91-‐92). In base alle linee guida TEI, ogni documento deve essere suddiviso in unità testuali. Per mezzo della marcatura XML vengono indicate l’inizio e la fine di ciascun elemento da codificare. La marca di inizio (start-‐tag) consiste nella denominazione dell’elemento tra parentesi uncinate <name>, mentre la marca di fine (end-‐tag) reca lo stesso nome preceduto da una barra </name>. Dal momento in cui un paragrafo è costituito da frasi e da parole, la porzione di testo etichettata come <p> contiene, ad esempio, altre etichette che codificano l’inizio e la fine di frasi e parole prima della comparsa di </p>. La TEI predispone diversi livelli di codifica in base ad una gerarchia che va dalle codifiche obbligatorie a quelle raccomandate, fino alle codifiche opzionali. Una componente fondamentale dello standard di annotazione TEI è la Header, un’intestazione preposta a ciascun documento in cui vengono riportate, sempre seguendo la sintassi XML, informazioni relative al testo e necessarie per la sua successiva fruizione da parte dei ricercatori. 49
L’Association for Computers and the Humanities (ACH), l’Association for Literary and Linguistic Computing (ALLC) e l’Association for Computational Linguistics (ACL). 50
Le Guidelines sono consultabili sul sito Internet del consorzio TEI, sia nella versione integrale che nella versione ridotta TEI Lite. 51 Il linguaggio di marcatura (markup language) è il sistema usato per costruire ed attribuire le etichette. 60 Dal momento che la conformità alle specifiche TEI rappresenta un requisito importante per garantire l’effettiva condivisibilità dei testi codificati (Lenci et al., 2005: 93), il presente lavoro ha aderito a questo standard di annotazione. La codifica in XML dei file redatti dagli informanti in formato solo testo (.txt) è avvenuta per mezzo dell’editor Oxygen (http://www.oxygenxml.com/) mediante il quale è stato possibile effettuare una corretta attribuzione delle etichette a livelli diversi. Tutti i file condividono la medesima <Header>, l’elemento indispensabile per rappresentare le informazioni editoriali relative ai testi codificati e che vi sono espresse in termini di metadati: questi raccolgono le voci relative al dove, al quando, al come e da chi sono stati ottenuti i dati e rappresentano un corredo indispensabile per renderli fruibili correttamente da chiunque, anche a distanza di tempo e di spazio. Di seguito, la <teiHeader> utilizzata nel presente studio: <?xml version="1.0" encoding="isolatin-‐1"?> <?oxygen RNGSchema="learner_scritto.rng" type="xml"?> <TEI xmlns="http://www.tei-‐c.org/ns/1.0"> <teiHeader type="corpus"> <fileDesc> <titleStmt> <title>CAIL2 -‐ Corpus di apprendenti L2 di lingua italiana </title> <author>Leontyna Bratankova</author> <funder>Università per Stranieri di Perugia, Scuola di dottorato in Scienze umane e sociali INDIRIZZO IN SCIENZE DEL LINGUAGGIO XXVI ciclo</funder> </titleStmt> <publicationStmt> <p/> </publicationStmt> <sourceDesc> <p> Produzioni scritte degli apprendenti L2 di lingua italiana. Formato elettronico.</p> </sourceDesc> </fileDesc> <encodingDesc> <projectDesc> <p> Il corpus CAIL2 è stato realizzato nell'ambito del dottorato di ricerca svoltosi presso l'Università per Stranieri di Perugia e la Karlova Univerzita di Praga; il corpus costituisce la risorsa dati sulla quale è stato condotto lo studio quantitativo e qualitativo sulle collocazioni Verbo + Nome prodotte degli apprendenti di italiano con diversi livelli di conoscenza della lingua italiana e appartenenti a varie L1.</p> </projectDesc> <samplingDecl> <p> Sedi raccolta dati: Università per Stranieri di Perugia (Italia), Karlova Univerzita di Praga (Rep.Ceca), Jihoceská Univerzita di Ceské Budejovice (Rep.Ceca). Periodo raccolta dati: aprile 2011 -‐ maggio 2012. 61 Ampiezza corpus: 237 320 tokens, 400 produzioni scritte redatte da altrettanti informanti; 33 L1 rappresentate; Bilanciamento per numero di tokens in base alla variabile sociolinguistica del tempo di studio della lingua italiana.</p> <p> Informanti: studenti frequentanti i corsi di lingua italiana tenutisi nelle sedi e nel periodo in cui è avvenuta la raccolta dei dati; livello di competenza della lingua italiana degli informanti: intermedio-‐avanzato (i corsi di lingua italiana coinvolti nella raccolta dei dati erano inquadrati dalle rispettive istituzioni nei livelli B1, B2, C1 e C2 del QCER).</p> <p> Elicitazione dati: le produzioni sono state redatte dagli informanti in formato elettronico presso i laboratori di informatica delle rispettive sedi o per mezzo dei propri notebook direttamente in aula; la produzione è avvenuta seguendo le indicazioni contenute in un file dedicato alla raccolta dei dati per il corpus CAIL2; tale file è costituito da una prima parte relativa alle informazioni personali degli studenti le quali sono confluite nelle variabili sociolinguistiche attribuite a ciascuna produzione scritta inserita nel corpus (età, sesso, nazionalità, lingua/e madre/i, altre lingue conosciute, livello del corso di lingua frequentato, tempo di studio della lingua italiana; tempo trascorso in Italia); la seconda parte del file contiene le quattro tracce tra le quali gli apprendenti dovevano scegliere per comporre un testo della lunghezza minima di 700 parole [1. Come trascorri il tuo tempo libero? Parlami dei tuoi interessi, hobbies e passioni (Libri, musica, sport, cinema, viaggi...); 2. La tua città o nazione preferita. Parlami di un posto che già conosci o ti piacerebbe visitare; 3. Parlami di un qualsiasi tema di attualità mondiale che ti ha colpito (Episodi di cronaca, geopolitica, economia, clima, società, cultura ...); 4. Scrivi una storia reale o inventata sul tema dell'amicizia]; la produzione è avvenuta senza l'ausilio del vocabolario, in un arco temporale di 2-‐3 ore.</p> </samplingDecl> <editorialDecl> <normalization> <p> Duplice livello di normalizzazione del testo: 1. tipografica (inserimento spazi mancanti, correzione lettere minuscole dopo il punto e dopo altra punteggiatura, conversione apostrofi in accenti); 2. trattamento delle forme inesistenti in lingua italiana (annotazione per mezzo dell'etichetta <corr></corr> e riconduzione a forme esistenti nella lingua target).</p> </normalization> </editorialDecl> </encodingDesc> <profileDesc> <langUsage> <language ident="it"/> </langUsage> </profileDesc> </teiHeader> 62 Proseguendo nella descrizione dell’annotazione dei file confluiti nel corpus, sono stati utilizzati diversi attributi strutturali, disposti gerarchicamente, i quali vengono elencati di seguito. L’elemento <text> è stato utilizzato per codificare l’articolazione interna del testo in XML, costituita dall’insieme delle produzioni scritte degli apprendenti. <body> è l’elemento che contiene il corpo del testo, mentre <div> è l’elemento che racchiude ciascuna produzione scritta inclusa nel corpus; in <div> viene esplicitato il numero identificativo di ciascun file mediante l’attributo <n> e la sigla della traccia (a, b, c o d) scelta per la produzione del testo da parte dell’apprendente con l’attributo <type>. Inoltre, come già specificato nel par. 4.1., ciascuna produzione è accompagnata da un elenco delle caratteristiche sociolinguistiche relative all’informante che l’ha redatta; tali informazioni sono contenute nell’elemento <div> per mezzo degli attributi: <age> (età), <sex> (genere), <xml:lang> (lingua/e madre/i), <liv> (livello del corso di lingua italiana frequentato), <monthstudy> (tempo di studio della lingua italiana espresso in mesi), <monthsinitaly> (tempo trascorso in Italia espresso in mesi), <natio> (nazionalità) e <otherlang> (altre lingue conosciute)52. Di seguito viene riportata la prima frase di un testo contenuto in CAIL2 codificata in XML: il testo è racchiuso nell’elemento <div></div> il quale contiene, oltre alle specifiche identificative (n e type) ed alle variabili sociolinguistiche (age, liv, natio, sex, xml:lang, monthstudy, monthsinitaly e otherlang), il corpo del testo tra <p></p> : <div n="402_UK" type="b" liv="B1" age="19" monthstudy="84" monthsinitaly="36" natio="rep.ceca" otherlang="en-‐fr" sex="f" xml:lang="cs"> <p> Ognuno di noi ha un posto in cui ci piace tornare sempre, un posto che ci ha colpito ed il quale amiamo più di altri. </p></div> Prima di passare alla fase dell’annotazione per categorie morfosintattiche (POS-‐tagging), eseguita in maniera semi automatica grazie all’ausilio del software Treetagger (Schmid 1994), tutti i dati sono stati ricontrollati e normalizzati manualmente. La cosiddetta procedura di normalizzazione ha riguardato un doppio livello: la normalizzazione tipografica e il trattamento delle forme inesistenti nella lingua italiana. La normalizzazione tipografica ha riguardato: -‐ l’inserimento degli spazi mancanti tra le parole e dopo tutti i tipi di punteggiatura; -‐ la correzione della lettera iniziale minuscola dopo il punto e la conversione degli apostrofi in accenti (ad es., nel caso della terza persona singolare del verbo essere: e’ – è). 52
Per la codifica delle lingue sono stati utilizzati i codici internazionali per la rappresentazione delle lingue a due lettere dello standard ISO 639.2. (http://www.loc.gov/standards/iso639-‐2/). 63 Le forme inesistenti prodotte dagli apprendenti sono state ricondotte a forme della lingua target e annotate secondo le categorie linguistiche di questa con la segnalazione della presenza di una devianza per mezzo dell’etichetta <corr></corr>. Ogni forma inesistente è stata ricondotta manualmente alla forma più plausibile, ove la plausibilità è stata misurata nei termini della somiglianza formale (ad es., politicha > politica). La normalizzazione non è intervenuta sull’uso deviante di forme esistenti (ad es., se sarei sicuro te lo direi), ma sulla semplice riconduzione di forme inesistenti a forme esistenti, con lo scopo di consentire un’annotazione per categorie grammaticali di tali forme (cfr. Andorno, Rastelli 2009: 56-‐58). Dunque, l’intera procedura di normalizzazione è avvenuta in maniera completamente manuale e, nello specifico, l’etichetta <corr></corr> è stata assegnata ai casi seguenti: -‐ alle forme devianti, non corrispondenti alle forme standard della lingua italiana (ad es., deviazioni morfologiche dalla norma, refusi, ecc.), alle quali il programma per l’annotazione automatica non avrebbe potuto attribuire alcuna categoria grammaticale, con la conseguente impossibilità di recuperare tali dati al momento della loro estrazione per l’analisi (ad es., realizatore > realizzatore, prottegerla > proteggerla, piacio > piaccio, guppo > gruppo). La normalizzazione ha riguardato soltanto l’aspetto formale ed ha lasciato invariate le scelte lessicali dell’apprendente anche laddove apparivano inappropriate nel contesto (ad es., realizatore del film preferito) e gli usi impropri della sintassi verbale (ad es., questo mi piacio molto); -‐ alle forme esistenti in italiano a livello grafematico, ma non corrispondenti alla categoria grammaticale che l’apprendente avrebbe voluto produrre. L’identificazione di questi casi è stata resa possibile attraverso l’analisi del contesto: il mantenimento delle forme originali avrebbe generato confusione al momento dell’annotazione automatica e dato vita a risultati fuorvianti in sede di analisi. Ad esempio, alle forme “una dona” il software per l’annotazione e la lemmatizzazione automatica avrebbe assegnato rispettivamente le categorie grammaticali di articolo (ART) e verbo (VER), anche laddove è risultato chiaro dal contesto che l’apprendente avesse voluto produrre “una donna”, ovvero articolo (ART) seguito da sostantivo (NOUN). Altri esempi del genere sono: ci sonno > ci sono, sia prefetto > sia perfetto, una uova città > una nuova città, leggere il libero > leggere il libro, ascendo il computer > accendo il computer. Concludendo, in tutti i casi in cui è stata assegnata l’etichetta <corr></corr>, la forma originale prodotta dall’apprendente è stata conservata nel testo ed è reperibile dal ricercatore al momento dell’analisi dei dati. 64 Di seguito viene riportato un esempio tratto dal corpus CAIL2 in cui è possibile visualizzare come è stata applicata l’etichetta. <div n="448" type="c" age="29" liv="B2" monthstudy="2" monthsinitaly="4" natio="belgio" otherlang="en" sex="m" xml:lang="fr"> <p> Ho <corr rend="schelto"> scelto </corr> il numero 3 ma vado anche a parlare del numero 2, cioè di Liegi, la mia città in Belgio. Il tema di attualità è l’<corr rend="attenta"> attentato </corr> che s’è passato ieri nel pomeriggio a Liegi. </p></div> 4.3. L’annotazione e l’indicizzazione del corpus CAIL2 Come già detto nel paragrafo 3.2.2., il livello di annotazione linguistica maggiormente applicato ai corpora è il POS-‐tagging. A questo livello di etichettatura, l’annotatore attribuisce ad ogni elemento del corpus (token) un’informazione, sotto forma di etichetta (tag), riguardante la categoria grammaticale alla quale il token appartiene. Il corpus CAIL2 di apprendenti di italiano L2 è stato lemmatizzato ed annotato automaticamente per categorie grammaticali attraverso il software TreeTagger (Schmid 1994), un Part-‐of-‐Speech tagger probabilistico che restituisce il testo annotato e lemmatizzato disposto su tre colonne: il testo originale nella prima colonna, le parti del discorso che il tagger ha automaticamente attribuito a ciascuna forma nella seconda e i lemmi nella terza (Atzori, Chiapedi, Spina 2009: 95-‐99). Attraverso questa operazione si passa quindi da un testo con allineamento orizzontale codificato in XML (vedi Appendice 2) ad una composizione verticale che, tuttavia, non impedisce di visualizzare il testo nella sua interezza e di valutare la valenza di ciascun token nel proprio contesto (vedi Appendice 3). In seguito alla annotazione automatica del testo da parte del software, si è proceduto alla revisione manuale dell’intero corpus. Si è provveduto alla correzione degli errori commessi da TreeTagger53, uno strumento addestrato sulla lingua dei nativi le cui prestazioni sono comprensibilmente inferiori se applicate all’interlingua. Infatti, la complessità e l’imprevedibilità dei fenomeni di interlingua rendono questi ultimi difficilmente riconducibili a tendenze generali sulle quali addestrare un tagger: gli studi relativi alla valutazione degli errori connessi all’annotazione automatica dei corpora di apprendenti hanno messo in evidenza che gli errori relativi all’interlingua sono il 23% degli errori totali (cfr. a questo proposito Atzori, Chiapedi, Spina 2009: 98-‐99). Ad oggi non esistono tagger che riconoscano le varianti dell’interlingua; tuttavia, sono in atto alcuni tentativi che ricorrono ai software sviluppati nel settore dei corpora diacronici per il trattamento delle varianti grafiche allo scopo di 53
Treetagger è stato utilizzato con il tagset e l’addestramento previsti dal Perugia Corpus (http://perugiacorpus.unistrapg.it/) elaborato all’Università per gli Stranieri di Perugia. 65 identificare gli errori formali degli apprendenti della lingua inglese (Rayson, Baron 2011). Gli studi basati su corpora condotti sulla lingua degli apprendenti di italiano fanno ricorso ad una annotazione semi automatica: la fase di lemmatizzazione operata da un tagger è seguita dalla fase di revisione manuale (cfr. Barni, Gallina 2009; Gallina 2010) e da un successivo riaddestramento del tagger con i dati corretti (cfr. Atzori, Chiapedi, Spina 2009). Tornando al caso specifico del corpus CAIL2, il trattamento degli errori principali emersi in seguito alla annotazione automatica e che hanno richiesto un intervento manuale sono stati: -‐ la disambiguazione degli omografi (es. studio NOUN studio/ VER:fin studiare; italiano ADJ italiano/ NOUN italiano; la ART il/ la CLI la); -‐ l’assegnazione manuale della categoria NOCAT (nessuna categoria) a tutte le forme appartenenti a lingue diverse dall’italiano ed ai neologismi prodotti dagli apprendenti. A questo punto una precisazione deve essere fatta. Lo scopo della ricerca sull’acquisizione delle seconde lingue è ricostruire le categorie dell’interlingua: l’annotazione categoriale dovrebbe esserne la conclusione, non la premessa. Ovviamente, il ricorso alle categorie grammaticali della lingua target (LT) per la descrizione dei dati di apprendimento deve avvenire con la consapevolezza che esse costituiscono uno strumento descrittivo, un mezzo per la selezione ed il confronto dei contesti, e non categorie assunte come già presenti nella competenza degli apprendenti. Di conseguenza, soltanto considerando che le categorie grammaticali della LT assegnate a ciascun elemento prodotto dagli apprendenti facciano da guida nel reperimento di determinati elementi linguistici, o meglio di determinati gruppi di proprietà, può essere salvaguardata l’integrità dei dati di interlingua ed evitata la cosiddetta “closeness fallacy”, ovvero la descrizione dell’interlingua per scarto rispetto alle categorie della lingua target (Andorno, Rastelli 2009: 13-‐16). Tale considerazione metodologica deve essere tenuta a mente durante il lavoro sui dati degli apprendenti e nella fase del loro trattamento per mezzo delle categorie dei nativi. Tornando alle fasi di realizzazione del corpus CAIL2, questo è stato infine indicizzato per mezzo di IMS Corpus Workbench (http://cwb.sourceforge.net/), un software che comprende una serie di strumenti necessari per il trattamento e l’esplorazione di ampi corpora dotati di annotazioni linguistiche; il corpus è stato così reso disponibile per l’esplorazione mediante il programma IMS Corpus Query Processor (CQP) che permette di effettuare operazioni di ricerca estremamente sofisticate sui dati ed alla cui sintassi di interrogazione si farà riferimento nel capitolo successivo (par. 5.1.) dedicato all’estrazione e all’analisi quantitativa delle collocazioni Verbo + Nome. 66 4.4. Descrizione del corpus CAIL2
La raccolta dati per la realizzazione del corpus CAIL2 ha coinvolto un totale di 493 apprendenti di italiano come lingua seconda (268 studenti cinesi, 172 di varie L1 e 53 cechi). Tuttavia, non è stata inclusa nel corpus la totalità dei file raccolti. Il numero iniziale è stato ridotto per due ordini di motivi: in primo luogo, sono state escluse tutte le produzioni in cui non figurava il valore sociolinguistico del tempo di studio della lingua italiana (monthstudy)54, un parametro considerato importante per le successive analisi che sono state condotte sui dati del corpus. Questa prima fase di ripulitura dei dati ha visto l’eliminazione di un totale di 54 file (22 di studenti cinesi, 31 di apprendenti di varie L1 e 1 file di uno studente ceco). In secondo luogo, i file rimasti (tot. 439) sono stati suddivisi in 4 gruppi in base ai mesi di studio della lingua italiana (tab. 1): Tempo di studio della lingua italiana gruppo A 1 – 6 mesi gruppo B 7 – 11 mesi gruppo C 12 – 32 mesi gruppo D ≥ 36 mesi Tab. 1 Suddivisione in gruppi in base alla variabile sociolinguistica del tempo di studio della lingua italiana In seguito a questa ripartizione, il gruppo B è risultato essere sbilanciato per numero di parole55 a causa di una prevalenza netta dei dati prodotti dagli studenti sinofoni, come può essere facilmente osservato nella tabella seguente (tab. 2): 54
Il campo dedicato alla voce “tempo di studio dell’italiano (in mesi)”, presente nella prima parte del file per l’elicitazione delle produzioni scritte relativa alle caratteristiche sociolinguistiche degli informanti, è stato lasciato in bianco dagli studenti in fase di compilazione oppure è stato indicato in maniera vaga (ad es., “molti anni”, “molto tempo”, “diversi mesi”). 55
A questo livello di trattamento dei dati è stato calcolato il numero di parole (words) di ciascun testo con la funzione Word Count dell’editor Microsoft Word al fine di ottenere dei valori preliminari di riferimento per la comparazione dei testi e la scelta di quelli da includere nel corpus. Il concetto di token, tuttavia, inteso come singola forma occorrente all’interno di un testo, non corrisponde esattamente a quello di parola dell’editor Word, il quale applica tale definizione a ciascuna entità preceduta e seguita da uno spazio bianco (come anche, ad es., “un’idea”). Il calcolo effettivo del numero di tokens di ciascun gruppo appartenente al corpus CAIL2 e è stato effettuato soltanto in seguito alla sua indicizzazione mediante il software IMS Corpus Workbench. 67 tempo di studio (m_study) words gruppo A (1-‐6 mesi) 52 329 110 sinofoni 21 509 61 2 398 3 vari 28 422 46 gruppo B (7-‐11 mesi) 59 202 154 sinofoni 45 205 130 cechi cechi apprendenti 384 1 vari 13 613 23 gruppo C (12-‐32 mesi) 50 030 99 sinofoni 22 000 47 7 810 14 vari 20 221 38 gruppo C (≥ 36 mesi) 51 529 76 5 352 8 cechi 24 095 34 vari 22 082 34 214 000 439 cechi sinofoni TOTALE Tab. 2 Tabella relativa alla suddivisione in gruppi in base al tempo di studio della lingua italiana (in words e numero di apprendenti) prima del bilanciamento del corpus Per questo motivo, al fine di rendere il corpus bilanciato in base al valore sociolinguistico del tempo di studio della lingua italiana, non vi sono stati inclusi 39 file selezionati tra quelli prodotti dagli studenti sinofoni che hanno studiato la lingua italiana dai 7 agli 11 mesi (il criterio utilizzato per la selezione dei testi da non includere nel corpus è stata la lunghezza: sono stati esclusi i testi più brevi). Le due operazioni di selezione dei testi sopra descritte hanno portato alla esclusione di un totale di 93 file prodotti da altrettanti apprendenti. Dopo il bilanciamento il corpus CAIL2 (tab. 3) risulta essere composto da 400 testi scritti da altrettanti apprendenti di italiano L2, per un totale di 33 L1 rappresentate (elencate in Appendice 3): 68 tempo di studio (m_study) words gruppo A (1-‐6 mesi) 52 329 110 sinofoni 21 509 61 2 398 3 vari 28 422 46 gruppo B (7-‐11 mesi) 50 415 115 sinofoni 36 418 91 384 1 vari 13 613 23 gruppo C (12-‐32 mesi) 50 030 99 sinofoni 22 000 47 7 810 14 vari 20 221 38 gruppo D (≥ 36 mesi) 51 529 76 5 352 8 cechi 24 095 34 vari 22 082 34 204 303 400 cechi cechi cechi sinofoni TOTALE apprendenti Tab. 3 Ampiezza del corpus bilanciato per tempo di studio della lingua italiana (in words e numero apprendenti) Gli apprendenti le cui produzioni sono state incluse nel corpus possono essere suddivisi, ai fini descrittivi del presente paragrafo, in tre gruppi in base alla loro L1 di appartenenza: L1 cinese (207), varie L1 (141) e L1 ceco (52). Se si osservano le percentuali relative al numero degli apprendenti coinvolti per ciascuno di questi tre gruppi, si può facilmente notare uno sbilanciamento verso gli apprendenti sinofoni (fig. 3): 69 35% 52% L1 cinese L1 ceco 13% varie L1 Fig. 3 Composizione del corpus CAIL2 per L1 (per numero di apprendenti) Tuttavia, se si considerano i medesimi tre gruppi e si valutano in base al numero di parole prodotte da ciascuno di essi piuttosto che al numero di informanti che li compone, si può notare che lo sbilanciamento verso gli apprendenti sinofoni si riduce, raggiungendo una parità in punti percentuali con gli apprendenti di varie L1 (fig. 4): 41% 42% L1 cinese L1 ceco 17% varie L1 Fig. 4 Composizione corpus CAIL2 per L1 (per numero di parole) Come fatto presente sopra, il corpus CAIL2 è stato bilanciato per numero di tokens in base alla variabile sociolinguistica del tempo di studio della lingua italiana, espresso in mesi (monthstudy): ciascuno dei quattro gruppi individuati, A) 1-‐6 mesi, B) 7-‐11 mesi, C) 12-‐32 mesi, D) ≥ 36 mesi, conta all’incirca lo stesso numero di parole (fig. 5 e tab. 4): 70 25% 25% 1-‐6 mesi 7-‐11 mesi 25% 25% 12-‐32 mesi ≥ 36 mesi Fig. 5 Bilanciamento del corpus CAIL2: composizione per tempo di studio dell’italiano (in numero di tokens) Corpus CAIL2 tempo di studio gruppo A 1-‐6 mesi 59 648 110 gruppo B 7-‐11 mesi 60 194 115 gruppo C 12-‐32 mesi 58 839 99 gruppo D ≥ 36 mesi 58 639 76 237 320 400 TOTALE tokens apprendenti Tab. 4 Ampiezza in tokens del corpus CAIL2 La composizione linguistica di ciascuno dei quattro gruppi individuati in base al tempo di studio della lingua italiana viene riportato nelle tabelle seguenti (tabb. 5-‐
8): 71 gruppo A L1 gruppo B apprendenti cinese 61 cinese 91 spagnolo 11 russo 3 russo 6 giapponese 3 coreano 5 inglese 3 portoghese 4 svedese 2 ceco 3 arabo 2 tedesco 3 portoghese 2 arabo 3 ceco 1 francese 3 coreano 1 inglese 3 spagnolo 1 ucraino 2 persiano 1 rumeno 1 turco 1 sloveno 1 tedesco 1 punjabi 1 norvegese 1 norvegese 1 bielorusso 1 giapponese 1 ingl./spagn. 1 greco 1 totale totale 110 Tab. 5 L1 apprendenti 115 Tab. 6 72 gruppo C L1 gruppo D apprendenti cinese 47 ceco 34 ceco 14 cinese 8 giapponese 7 slovacco 4 inglese 5 russo 3 spagnolo 3 spagnolo 2 russo 3 tedesco 2 coreano 3 giapponese 2 arabo 3 rumeno 2 tedesco 2 inglese 2 slovacco 2 ungherese 2 rumeno 2 polacco 1 neerlandese 2 sloveno 1 georgiano 2 coreano 1 polacco 1 galiziano 1 mongolo 1 bengali 1 ingl./spagn. 1 portoghese 1 armeno 1 neerlandese 1 totale 99 norvegese 1 bulgaro 1 hindi 1 greco 1 montenegrino 1 francese 1 arabo 1 ucraino 1 totale 76 Tab. 7 L1 Tab. 8 apprendenti 73 La descrizione della composizione dei quattro gruppi A, B, C e D in base alle variabili sociolinguistiche del tempo di studio dell’italiano, del tempo di permanenza in Italia, dell’ampiezza dei testi prodotti (espressa in numero di parole) e dell’età degli informanti viene affidata alle tabelle 9-‐12 contenenti gli indicatori statistici della media, mediana, del valore minimo (Min), del valore massimo (Max) e della deviazione standard: Gruppo A Media Studio Permanenza dell’italiano in Italia (in mesi) (in mesi) N° parole (in words) Età 4,44 7,81 475,71 23,58 Mediana 5 4 413 22 Min 1 0 89 16 Max 6 120 1035 57 1,69 15,4 218,33 6,38 Deviazione Standard Tab. 9 Composizione del gruppo A Come si può osservare dalla tabella 9, la metà degli apprendenti che formano il gruppo A (1-‐6 mesi di studio) ha studiato l’italiano per un periodo inferiore a 5 mesi. Si registra una grande variabilità rispetto al periodo di permanenza in Italia la quale è attestata, oltre che dalla distanza considerevole dei due valori outliers del minimo (0 mesi) e del massimo (120 mesi), dalla deviazione standard (15,4) la quale è circa il doppio della media (7,81). Dal valore mediano possiamo ricavare che la metà degli informanti ha trascorso in Italia meno di 4 mesi. Anche l’entità dei testi prodotti da questo gruppo varia considerevolmente: la lunghezza media è di circa 476 parole, ma la metà dei testi non supera le 413 parole e si trova quindi sotto la media del gruppo. Per quanto concerne l’età, la media è di 24 anni circa (la metà degli studenti ha meno di 22 anni). 74 Gruppo B Media N° parole (in words) Età 8,95 5,2 438,39 22,29 Mediana 9 5 382 20,5 Min 7 1 201 18 Max 11 61 1173 44 1,42 5,5 164,16 4,6 Deviazione Standard Studio Permanenza dell’italiano in Italia (in mesi) (in mesi) Tab. 10 Composizione del gruppo B Il gruppo B (7-‐11 mesi) è piuttosto omogeneo rispetto alle variabili del tempo di studio dell’italiano e del tempo di permanenza in Italia. Infatti, gli studenti appartenenti a questo gruppo, al momento della raccolta dei dati, avevano studiato l’italiano per un periodo medio di 9 mesi e avevano trascorso in Italia una media di 5 mesi. La lunghezza dei testi varia, anche se non considerevolmente, da un minimo di 200 parole ad un massimo di 1173 parole. La metà degli studenti ha redatto un testo della lunghezza inferiore alle 382 parole. In generale, gli studenti che formano il gruppo B sono più giovani di quelli che formano il gruppo A in quanto la metà di loro non supera i 20-‐21 anni. Gruppo C Media N° parole (in words) Età 19,52 6,83 505,35 23,72 Mediana 20 4 501 21 Min 12 0 166 18 Max 32 60 923 64 6,31 9,21 187,94 7,43 Deviazione Standard Studio Permanenza dell’italiano in Italia (in mesi) (in mesi) Tab. 11 Composizione del gruppo C 75 Il gruppo C (12-‐32 mesi) è costituito da apprendenti che hanno studiato l’italiano per un tempo medio di 20 mesi. Per quel che riguarda la permanenza in Italia, nel gruppo ci sono degli informanti che non sono stati mai in Italia (oppure ci sono stati per periodi inferiori ad un mese) ed informanti che vi hanno trascorso fino a 5 anni. La variabilità non è molto alta, come attestato dalla deviazione standard la quale non supera di molto la media: la metà degli informanti ha trascorso in Italia un periodo massimo di 4 mesi. La lunghezza media delle produzioni scritte dal gruppo C è di 505 parole, ma la metà degli informanti ha prodotto testi di una ampiezza inferiore alla media. Per quanto riguarda l’età, in questo gruppo si ha un range più ampio rispetto agli altri gruppi con un valore minino di 18 anni e un valore massimo di 64; tuttavia, analogamente ai primi due gruppi, la metà degli studenti ha meno di 21 anni. Gruppo D Media N° parole (in words) Età 57,15 6,61 678,01 24,67 Mediana 48 3 702 22 Min 36 0 304 17 Max 240 168 1349 53 32,92 19,53 163,52 7,04 Deviazione Standard Studio Permanenza dell’italiano in Italia (in mesi) (in mesi) Tab. 12 Composizione del gruppo D Gli apprendenti del gruppo D (≥ 36 mesi) hanno studiato l’italiano in media circa 5 anni (la metà di loro per 4 anni). Analogamente a quanto rilevato per il gruppo A, si osserva una grande variabilità per il tempo di permanenza in Italia: la deviazione standard è quasi tre volte il valore medio e il range compreso tra il valore minimo e il valore massimo è molto ampio. Ciononostante, dal valore mediano possiamo ricavare che la metà degli informanti ha trascorso in Italia un periodo inferiore a 3 mesi. Per quanto riguarda l’ampiezza dei testi, il gruppo D ha prodotto testi più lunghi rispetto ai gruppi A, B e C; la lunghezza media è di 678 parole ed è propria alla metà delle produzioni scritte appartenenti a questo gruppo. Anche nel gruppo D, come nel gruppo A ed analogamente ai gruppi B e C, la metà degli studenti ha meno di 22 anni. 76 corpus CAIL2 Media Studio Permanenza dell’italiano in Italia (in mesi) (in mesi) N° parole (in words) Età 19,49 6,59 510,75 23,45 Mediana 10 4 477 22 Min 1 0 89 16 Max 240 168 1349 64 24,07 12,92 203,97 6,37 Deviazione Standard Tab. 13 Composizione del corpus CAIL2 In conclusione, per tracciare un profilo generale degli apprendenti le cui produzioni sono confluite nel corpus CAIL2 (tab. 13) possiamo affermare che questi hanno trascorso in Italia una media di 6,6 mesi, ma la metà di loro un vi ha soggiornato per un periodo inferiore a 4 mesi; l’indice di dispersione relativo a questa variabile è alto in quanto è quasi il doppio del valore atteso (media: 6,59; standard deviation: 12,92); ciò significa che la variabilità all’interno del gruppo relativamente all’esposizione all’input che gli apprendenti hanno avuto è considerevole. Per quanto concerne la variabile del tempo di studio della lingua italiana possiamo concludere che, al momento della raccolta dei dati, gli informanti avevano studiato l’italiano per un periodo della lunghezza media di 19 mesi (la metà di loro aveva studiato per 10 mesi). La variabilità, stimata in base alla distanza tra il valore medio (19,49) e l’indice della deviazione standard (24,07), non è alta quanto quella registrata per la variabile del tempo trascorso in Italia, il che significa che la maggior parte degli informanti non si discosta considerevolmente dal valore medio. La lunghezza dei testi prodotti dagli apprendenti è variabile, da un minimo di 89 parole a un massimo di 1349 parole, ma non si registrano discostamenti considerevoli dalla media di 510 parole circa; tuttavia, la metà degli studenti ha redatto un testo più breve, sotto la media (entro le 477 parole). L’età media dei partecipanti al progetto è di 23 anni, metà di loro ha un’età compresa tra i 16 e 22 anni. La variabilità non è molto alta (deviazione standard: 6,23), pur essendo il valore massimo (64 anni) molto distante dal valore minimo. Il campione di studenti di italiano L2 oggetto del presente studio è piuttosto omogeneo riguardo all’età degli informanti, alla lunghezza dei testi da questi redatti e al tempo di studio della lingua italiana. Le lingue madri (L1) degli studenti, elencate nelle tabelle 5-‐8 in Appendice 3, non sono state tenute in considerazione nelle analisi condotte in questo lavoro. 77 Una variabilità considerevole all’interno del campione è relativa al tempo che gli apprendenti hanno trascorso in Italia: questa variabile, accanto a quella del tempo di studio, sarà indagata sia nell’analisi quantitativa (cap. 5) che nell’analisi qualitativa (cap. 6) delle collocazioni Verbo + Nome prodotte dagli apprendenti di italiano L2. In chiusura del presente capitolo forniamo una annotazione metodologica. Seguendo una pratica diffusa nella ricerca sull’acquisizione delle lingue (Ellis, R. 1994; Mitchell, Myles 1998; Housen 2002; Chini 2005; Gries 2008; Gallina 2010; Štindlová 2013), il termine lingua seconda (L2) viene usato nel presente lavoro come concetto sovraordinato alla distinzione tra lingua straniera (LS) e lingua seconda (L2) e viene fatto riferire ad una qualsiasi lingua appresa dopo la lingua madre (L1) dal punto di vista cronologico (il termine è sovraordinato anche ai concetti di L3, L4, ecc.). Come è stato esposto sopra, i dati del presente studio sono stati raccolti sia in Italia che all’estero (in Repubblica Ceca). Ciononostante, il campione dei dati risulta omogeneo rispetto alle variabili del tempo di studio dell’italiano e del tempo trascorso in Italia in quanto i profili degli informanti che hanno partecipato alla raccolta dati sono affini e comparabili56. Infatti, gli apprendenti le cui produzioni scritte sono state raccolte presso la sede dell’Università per Stranieri di Perugia sono studenti della lingua italiana nei loro rispettivi paesi di origine i quali, al tempo della raccolta dei dati, si trovavano temporaneamente in Italia per frequentare un corso di lingua intensivo (della durata variabile da un mese ai tre mesi, fino ad un massimo di sei mesi nel caso di un gruppo di studenti sinofoni). A loro volta, gli studenti le cui produzioni sono state raccolte nella Repubblica Ceca, a Praga o a České Budějovice, hanno trascorso dei periodi più o meno lunghi in Italia per frequentare dei corsi intensivi di lingua (alcuni di loro persino presso la stessa Università per Stranieri di Perugia) o per motivi lavorativi. La definizione di lingua seconda (L2) in senso stretto, invece, andrebbe applicata ad una lingua che viene appresa ed utilizzata nel contesto di una determinata comunità linguistica alla quale il soggetto partecipa socialmente, politicamente ed economicamente. Tra gli esempi di apprendenti di lingua seconda possono essere annoverati parlanti spagnoli negli USA che studiano l’inglese, oppure parlanti turchi che imparano il tedesco o, ancora, i coreani che apprendono il cinese.57 56
Per citare qualche esempio, nel secondo gruppo (studio della lingua italiana 7-‐11 mesi) uno studente ceco i cui dati sono stati raccolti a Praga, studiava, al momento della raccolta dati, l’italiano da 10 mesi ed aveva trascorso in Italia un periodo di un mese, allo stesso modo di uno studente portoghese e di uno studente tedesco i cui dati sono stati raccolti in Italia. 57
“What we are here distinguishing as an SL is generally learned and used within the context of a language community which dominantly includes members who speak it natively; it is needed to participate in that community socially, academically, politically and economically. Examples of SL learners would include Spanish speakers in the USA learning English, Turkish speakers in Germany learning German, or Koreans in China learning Chinese.” Saville-‐Troike (2006: 101). 78 Inoltre, l’acquisizione di una lingua diversa dalla lingua madre avviene solo raramente in un contesto puramente guidato o spontaneo, ed è difficilmente un’acquisizione di lingua seconda o lingua straniera intesa in senso stretto: solitamente si tratta di una modalità di acquisizione combinata, mista.58 Fatte queste considerazioni, distinguere gli apprendenti i cui dati sono stati raccolti in Italia da coloro i cui dati sono stati raccolti all’estero non è sembrata a chi scrive una scelta metodologicamente adeguata. In aggiunta a queste osservazioni e per fini descrittivi si potrebbe usare un ulteriore criterio nella distinzione tra L2 e LS. Tale criterio considera il rapporto che intercorre tra le variabili del tempo di studio dell’italiano (monthstudy) e del tempo trascorso in Italia (monthinitaly) e considera apprendenti di italiano L2 in senso stretto soltanto gli informanti che presentano la seguente caratteristica: monthinitaly ≥ monthstudy. Osservando i dati del presente studio, risulta che 83 studenti su 400 presentano tale caratteristica, costituendo il 21% del totale degli informanti. Tuttavia, tra questi, soltanto 25 studenti presentano uno scarto netto tra le due variabili (≥ 4 mesi) ed hanno trascorso un tempo considerevole in Italia o, perlomeno, uguale o maggiore alla durata del corso di lingua italiana più lungo (6 mesi). Ciò vuol dire che gli altri 58 studenti presentano uno scarto temporale pressoché inesistente tra le due variabili (al massimo 2 mesi) e, per la maggior parte, hanno trascorso in Italia poco tempo (massimo 7 mesi). Per cui, il gruppo degli studenti classificabili come apprendenti di una L2 in senso stretto si riduce ulteriormente a 25 informanti, ovvero al 6,25% degli studenti i cui dati sono confluiti nel corpus CAIL2 e la loro distribuzione si concentra per il 70% nel primo gruppo (da 1 a 6 mesi di studio della lingua italiana). Conclusioni Il capitolo ha analizzato e descritto le singole fasi della costruzione del corpus CAIL2 realizzato ai fini del presente studio e concepito come una risorsa empirica necessaria per l’analisi delle collocazioni Verbo + Nome prodotte dagli apprendenti di italiano come lingua seconda. La prima fase del lavoro ha riguardato la raccolta dei dati: questa si è svolta all’Università per Stranieri di Perugia, all’Università Carolina di Praga e all’Università della Boemia meridionale di České Budějovice (Repubblica Ceca) nel periodo aprile 2011 – maggio 2012. Gli studenti di lingua italiana hanno redatto un testo della lunghezza media di 500 parole, in formato elettronico, presso i laboratori informatici delle rispettive sedi, senza l’ausilio del vocabolario bilingue e monolingue e 58
“In reality, non-‐primary language acquisition is rarely purely guided or unguided, second or foreign; usually it is a combination of both, that is, mixed.” Housen (2002: 113). 79 scegliendo tra quattro argomenti proposti; ciascun file di testo è stato dotato delle informazioni relative agli informanti e rispondenti ad otto variabili sociolinguistiche. Successivamente i file sono stati codificati per mezzo dell’Extensible Markup Language (XML) ed annotati per categorie grammaticali attraverso il POS-‐tagging (Part-‐of-‐Speech Tagging). Il corpus è stato infine indicizzato con gli strumenti dell’IMS Corpus Workbench e reso quindi disponibile per l’esplorazione per mezzo del programma CQP (Corpus Query Processor) il quale permette sofisticate opzioni di ricerca sui dati. Nella sua forma definitiva il corpus CAIL2 di apprendenti di italiano L2 ha un’ampiezza di 237 320 tokens ed è costituito dalle produzioni scritte di 400 informanti per un totale di 33 L1 di provenienza. 80 CAPITOLO 5 Estrazione dal corpus e analisi quantitativa delle collocazioni Verbo + Nome Introduzione Il quinto capitolo descrive l’analisi quantitativa dei dati del presente studio. Il primo paragrafo (5.1.) illustra la modalità di estrazione delle combinazioni lessicali Verbo + Nome dal corpus di apprendenti di italiano (CAIL2) e ne definisce l’ambito sintattico. Inoltre, il paragrafo esamina le due misure di associazione lessicale utilizzate per analizzare le combinazioni V+N estratte, la Mutual Information (MI) e il t-‐score. Il capitolo prosegue con il paragrafo 5.2. suddiviso in tre sottoparagrafi (5.2.1., 5.2.2., 5.2.3.) ciascuno dei quali descrive l’analisi quantitativa dei dati da una diversa prospettiva. Il sottoparagrafo 5.2.1. si focalizza sul confronto delle collocazioni empiriche V+N (le combinazioni con frequenza ≥ 10, MI ≥ 3 e di t-‐score ≥ 2) prodotte dagli apprendenti e dai nativi di lingua italiana; i due sottoparagrafi seguenti, invece, illustrano l’analisi quantitativa delle collocazioni prodotte dagli apprendenti suddivisi in base a due variabili sociolinguistiche: il tempo di studio dell’italiano (par. 5.2.2.) e il tempo di permanenza in Italia (par. 5.2.3.). 5.1. L’estrazione dal corpus delle combinazioni Verbo + Nome e il calcolo delle misure di associazione Dal corpus CAIL2 sono state estratte tutte le combinazioni di verbi seguiti da sostantivi (non soltanto quelle adiacenti, del tipo fare festa) tramite il programma IMS Corpus Query Processor (CQP). Si tratta di uno strumento di ricerca appartenente al software IMS Corpus Workbench (http://cwb.sourceforge.net/, vedi par. 4.3.) dotato di un proprio linguaggio di interrogazione: CQP permette di estrarre dai corpora specifiche informazioni linguistiche mediante la formulazione delle interrogazioni corrispondenti (queries). La ricerca CQP annovera diverse opzioni, dalla più semplice ricerca per singole parole e per combinazioni lessicali fino alla ricerca per lemmi e per annotazioni della parte del discorso (POS-‐Tagging). 80 Nel caso della presente ricerca, l’estrazione delle combinazioni lessicali Verbo + Nome è avvenuta mediante la formulazione della query: [pos="VER.*"][pos="ADV.*"]?[pos="ART"]?[pos="ADJ|DET.*|NUM|PREDET"]?[pos="NOUN"] la quale ha permesso di estrarre tutte le combinazioni verbo-‐nominali, incluse quelle intervallate da: articolo determinativo o indeterminativo (V+ART+N, es., prendere il sole), avverbio (V+ADV+N, es., ascoltare volentieri la musica), aggettivo qualificativo (V+ADJ+N, es., guardare il nuovo film), aggettivo dimostrativo, indefinito, numerale o possessivo (V+DET+N, es., fare tanto sport, leggere il suo libro, ecc.), un numero espresso in cifre o in lettere (V+NUM+N, es., avere due fratelli) e, infine, da un aggettivo che precede a sua volta un articolo del tipo, avere letto entrambi i libri (V+PREDET+ART+N)59. A partire dalle combinazioni estratte è stata generata una lista di frequenza la quale ha disposto le co-‐occorrenze lessicali in ordine decrescente in base al numero delle volte che queste compaiono nel corpus. Tuttavia, disporre della sola frequenza di occorrenza di una combinazione di parole non è sufficiente in quanto questa non permette di valutarne la significatività statistica: la frequenza di una coppia di parole va calibrata con la frequenza dei membri che la compongono. Per cui, benché la lista di frequenza sia uno strumento valido per una prima analisi dei dati di co-‐occorrenza, è necessario valutarli alla luce delle misure di associazione lessicale (il cui inquadramento teorico è stato trattato nel par. 1.2.2.), le quali stimano la forza del legame tra i membri di una combinazione. Molte misure sono state proposte (Manning, Schütze 1999) al fine di identificare le coppie di parole da intendere come collocazioni nel senso dell’approccio frequentista dell’occorrere insieme con una probabilità maggiore rispetto a quella casuale. Queste misure si basano sul principio del comparare il numero di volte che una combinazione appare in un corpus con il numero di volte che questa potrebbe apparire per caso sulla base delle frequenze dei suoi membri. Nel presente lavoro sono state selezionate le combinazioni Verbo + Nome più frequenti (fr. ≥ 10) e ne sono stati calcolati i punteggi delle due misure di associazione più diffuse nello studio sulle collocazioni (Spina 2001; Hunston 2002; Evert 2005, 2009; Durrant 2008; Schmitt, Siyanova 2008; Biber, Jones 2009; Durrant, Schmitt 2009; Gries 2010): la Mutual Information (MI) e il t-‐score60. Queste due misure tendono ad enfatizzare gruppi di collocazioni piuttosto diversi. Infatti, i punteggi di t-‐score più alti evidenziano le collocazioni davvero frequenti (le liste di 59
Di questa ultima combinazione non sono state trovate occorrenze nel corpus CAIL2. 60 La scelta di fissare a 10 occorrenze la soglia minima di frequenza delle combinazioni è arbitraria ed è dovuta al fatto che l’uso della Mutual Information deve essere sempre combinato con un limite di frequenza per controbilanciare la sua tendenza a mettere in evidenza le coppie di parole a bassa frequenza (Evert 2009: 1229). Per attenuare questa debolezza intrinseca della MI è sensato stabilire una soglia di frequenza k, in modo da escludere dal computo della forza di associazione tutti i bigrammi con frequenza inferiore a k, dove k può variare in funzione della lunghezza del testo e del tipo di analisi (Lenci et al. 2005: 204). 81 collocazioni ordinate in base ai punteggi di t-‐score coincidono spesso con quelle di frequenza), mentre la MI tende a dare rilievo alle coppie di parole meno comuni ma i cui membri sono fortemente associati e si trovano raramente separati (Durrant, Schmitt 2009). Proprio per questo motivo si utilizzano entrambe le misure per analizzare le combinazioni di parole estratte da un corpus, ovvero per accedere ai due tipi di informazione che le misure forniscono. Per la lingua inglese, è stato proposto da Stubbs (1995) e Hunston (2002) e che un t-‐score ≥ 2 e una MI ≥ 3 possono essere considerati valori indicativi per una collocazione. La Mutual Information (MI), introdotta come misura di associazione lessicale da Church e Hanks (1990: 23) è diventata uno strumento standard per l’analisi delle collocazioni nei corpora (Lenci et al. 2005). Date due parole u e v, la MI confronta la probabilità di osservare il bigramma tipo u,v con la probabilità di osservare u e v l’una indipendentemente dall’altra: (i) MI(u, v) = log 2
p(u, v)
p(u)p(v)
dove p(u,v) è la probabilità associata al bigramma u,v e p(u) è la probabilità della parola u; MI(u,v) è una misura di quanto sia indicativa la presenza di u nel testo per prevedere che v appaia subito dopo e viceversa. Se due parole sono statisticamente mutuamente indipendenti, allora: (ii) p(u, v) =
p(u)p(v) I due termini di questa uguaglianza61 appaiono rispettivamente al numeratore e al denominatore della frazione che definisce la MI. Maggiore è il valore della frazione, più alto è il valore di dipendenza tra u e v e dunque più forte la loro associazione lessicale. Tuttavia, l’uguaglianza vale solo nel caso in cui u e v siano eventi statisticamente indipendenti, ovvero l’occorrenza del primo non influenza l’occorrenza dell’altro (alla base del concetto di indipendenza statistica c’è l’intuizione per cui ogni evento si può combinare con ogni altro evento). Per quantificare la probabilità di un evento nel caso non si possa assumere a priori che la distribuzione di probabilità sia uniforme (come nel caso degli eventi linguistici) ci si deve servire della definizione frequentista di probabilità in base alla quale si può approssimare la probabilità di un evento con la frequenza relativa del suo verificarsi in un certo numero di esperimenti. La frequenza relativa di un evento è calcolata dividendo il numero di volte che un evento si verifica per il numero degli 61
Si ricorre a questa uguaglianza per calcolare la probabilità di un evento congiunto, dove la probabilità associata all’occorrenza di una coppia specifica di eventi (come ad es., una coppia di parole u,v) è uguale al prodotto delle probabilità p(u), p(v) dei due eventi (Lenci et al. 2005, p. 157). 82 esperimenti effettuati; nel caso delle occorrenze lessicali in un corpus, si ottiene dividendo il numero delle occorrenze di una parola f(u) per l’ampiezza stessa del corpus (N): f (u)
Frel (u) =
(iii) N La definizione frequentista di probabilità ha un ruolo centrale in tutti i tipi di indagini scientifiche, proprio perché permette di collegare la nozione di probabilità di un evento all’osservazione della frequenza con cui questo si verifica. Stimiamo dunque la probabilità delle parole con la loro frequenza relativa nel corpus ed otteniamo: (iv) f (u, v)
p(u, v)
N
= log 2
log 2
f
(u)
f (v)
p(u)p(v)
⋅
N
N
f (u, v)
f (u, v)
N2
f (u, v)⋅ N
N
log 2
= log 2
⋅
= log 2
f (u) f (v)
N
f
(u)
f
(v)
f
(u)
f
(v)
⋅
N
N
(v) In altre parole, la MI è il rapporto tra la probabilità di occorrenza di un bigramma in un corpus stimata empiricamente (contando quante volte il bigramma ricorre nel corpus) e la probabilità teorica che ci aspetteremmo se le due parole che lo compongono fossero indipendenti (data dal prodotto delle probabilità empiriche delle due parole). Anche Evert (2009: 1224-‐1230) si riferisce alla MI e al t-‐score come a misure di associazione che mettono in relazione la frequenza di co-‐occorrenza osservata (observed, O) con la frequenza attesa (expected, E), sulla base della ipotesi nulla di indipendenza (H0 = l’assenza completa di associazione tra le parole). La frequenza attesa (E) funge da punto di riferimento per l’interpretazione della frequenza osservata (O), dal momento che due parole frequenti possono occorrere alquanto spesso anche per puro caso. La coppia di parole è considerata essere una collocazione soltanto se la frequenza osservata è notevolmente maggiore rispetto alla frequenza attesa, O > E. 83 Il calcolo della frequenza attesa è dato dall’equazione (Evert, 2009: 1225): (vi) E=
f (u) f (v)
N
Da cui, la formula per il calcolo della Mutual Information (MI) risulta essere: (vii) MI = log 2
O
E
e la formula per il calcolo del t-‐score è la seguente: (viii) t − score =
O−E
O
Il modo più immediato ed intuitivo per mettere in relazione O ed E è quello di usare il rapporto O/E come misura associativa stessa (ad es., O/E = 10 significa che la coppia di parole occorre 10 volte più spesso di quanto farebbe rispetto al caso, indicando quindi un certo grado di collocatività). Dal momento che il valore del rapporto di O/E può diventare estremamente alto per corpora di dimensioni elevate, si rende utile misurare l’associazione su una scala logaritmica di base 2. Il t-‐score fa parte del gruppo delle misure basate su prove (evidence-‐based) le quali sono predisposte verso le coppie di parole ad alta frequenza (cfr. par. 1.2.2.). Il t-‐score è una misura di associazione la quale è stata ampiamente usata nella lessicografia computazionale in seguito alla sua introduzione da parte di Church et al. (1991); ha delle mancanze dal punto di vista teorico-‐matematico, per la sua derivazione dal t test statistico il quale, come dimostrato da Evert (2004: 82-‐83) è inadatto per dati di frequenza estratti da corpora. Tuttavia, dal punto di vista empirico, è stato dimostrato da Krenn (2000) che il t-‐score, tra le cinque misure di associazione messe a confronto (t-‐score, log-‐
likelihood, chi-‐squared, MI e MI3) è l’indice più affidabile nell’estrazione delle collocazioni. L’estrazione di tutte le combinazioni lessicali V+N dal corpus CAIL2 e il calcolo delle misure di associazione sopra descritte, la Mutual Information e il t-‐score, per ciascuna di esse hanno costituito le fasi preliminari per l’analisi quantitativa dei dati che verrà esposta nel paragrafo successivo. 84 5.2. Analisi quantitativa dei dati: apprendenti vs. nativi Per l’analisi quantitativa dei dati degli apprendenti di italiano L2 è stato fatto riferimento ad un corpus di nativi della lingua italiana il quale è stato utilizzato come corpus di controllo. Il confronto tra le produzioni degli apprendenti e dei nativi è importante in quanto l’uso nativo fornisce un parametro indispensabile per la valutazione e l’interpretazione dei dati degli apprendenti, in particolar modo dei risultati dell’analisi quantitativa trattata nel presente paragrafo. Tale prassi viene seguita dagli studi basati su corpora delle lingue seconde: basti pensare che per la lingua inglese l’Université Catholique de Louvain ha realizzato il corpus LOCNESS (Granger, S., Sanders, C., Connor, U.), costituito dalle produzioni scritte degli studenti nativi, da affiancare all’importante learner corpus ICLE (International Corpus of Learners English, vedi par. 3.4.) e che viene usato come termine di paragone negli studi sull’interlingua (tra gli altri, Nesselhauf 2005; Durrant 2008; Durrant, Schmitt 2009; Syianova Schmitt, 2009; Laufer, Waldman 2011). Nel presente lavoro, per la lingua dei nativi è stato fatto ricorso ad una sezione del Perugia Corpus (PEC, http://perugiacorpus.unistrapg.it/), un corpus di riferimento dell’italiano contemporaneo realizzato presso il Dipartimento di Scienze del Linguaggio dell’Università per Stranieri di Perugia. Nella sua totalità il corpus, scritto e parlato, ha un’ampiezza di 25 milioni di parole e consiste in dieci sezioni, corrispondenti ad altrettanti generi testuali: parlato, televisione, amministrazione, web, accademico, stampa, scuola, film, saggi, letteratura. In particolare, per il ruolo di corpus di controllo è stata usata la sezione Scuola (di seguito, corpus SCUOLA) la quale ha un’ampiezza di oltre 1,2 milioni di parole ed è composta da 3 573 temi su argomenti diversi redatti da studenti delle scuole secondarie di primo e secondo grado, tra il 2010 e il 2011 (nella tab. 1 le estensioni in numero di tokens dei due corpora utilizzati). Il corpus SCUOLA è stato scelto per il confronto tra i nativi e gli apprendenti del corpus CAIL2 in quanto questi due campioni di dati sono assimilabili relativamente alle tipologie testuali che vi sono contemplate; in entrambi i casi, infatti, trattasi di testi argomentativi su diverse tematiche, benché la gamma degli argomenti a disposizione degli apprendenti fosse comunque più ridotta. Inoltre, le produzioni degli studenti di italiano L2 sono state messe a confronto con le produzioni dei nativi di lingua italiana il cui lessico è in via di espansione (trattasi, infatti, di studenti delle scuole medie inferiori e superiori); ciò vuol dire che gli informanti che costituiscono i due campioni linguistici messi a confronto non rappresentano delle categorie nettamente contrapposte ma hanno in comune il fatto che, seppur con modalità di diverse, entrambi si trovano in una fase di acquisizione ed ampliamento del proprio vocabolario. A tal proposito, quindi, e ribadendo quanto già affermato in apertura di questo paragrafo, il confronto con i nativi serve per fornire dei parametri intrepretativi per mezzo dei quali descrivere i 85 dati degli apprendenti e non costituisce la norma sulla base della quale formulare dei giudizi di valore. CAIL2 Ampiezza corpora (tokens) SCUOLA 237 320 1 257 337 Tab. 1 Ampiezza corpora CAIL2 (apprendenti italiano) e SCUOLA (nativi) Nella tabella 2 sono riportati i risultati dell’estrazione di tutte le combinazioni lessicali Verbo + Nome dai due corpora. Vi sono specificati i types, ovvero la quantità di combinazioni diverse, e i tokens, ovvero il numero di occorrenze di tutte le combinazioni: CAIL2 SCUOLA Combinazioni V+N (types) 5 433 23 281 Combinazioni V+N (tokens) 12 646 50 567 Tab. 2 Le combinazioni lessicali Verbo+Nome nei corpora di apprendenti e nativi Le combinazioni lessicali V+N estratte dai due corpora sono state suddivise per classi di frequenza in 4 gruppi. La tabella 3 riporta il numero delle combinazioni tipo mentre nella tabella successiva (tab. 4) figura il numero delle occorrenze per ciascuna classe di frequenza: CAIL2 V+N types SCUOLA % V+N types % fr. ≥ 10 159 2,92 655 2,81 10 > fr. ≥ 5 209 3,84 933 4 5 > fr. ≥ 3 417 7,67 1 574 6,76 3 > fr. ≥ 1 4 648 85,55 20 119 86,41 Totale 5 433 100,0 23 281 100,00 Tab. 3 Le combinazioni lessicali V+N nei due corpora raggruppate per classi di frequenza 86 Si può osservare che si assiste ad una distribuzione dei tipi di combinazioni V+N per classi di frequenza analoga nei due corpora. Infatti, le combinazioni con frequenza ≥ 10 rappresentano circa il 3% del totale delle combinazioni e la loro quantità aumenta al diminuire del valore della classe di frequenza, con un andamento inversamente proporzionale. Questa tendenza segue la legge di Zipf (1949) in base alla quale, ordinando le parole di un testo per valori decrescenti di frequenza, esiste una relazione matematica costante tra la posizione che una parola occupa all’interno della lista (o rango della parola) e la sua frequenza; si osserva quindi un decremento progressivo della frequenza di una parola all’aumentare del suo rango (Lenci et al. 2005: pp. 137-‐141). CAIL2 V+N tokens SCUOLA % V+N tokens % fr. ≥ 10 4 630 36,61 16 359 32,35 10 > fr. ≥ 5 1 337 10,57 5 948 11,76 5 > fr. ≥ 3 1 381 10,92 5 291 10,46 3 > fr. ≥ 1 5 298 41,84 22 969 45,42 Totale 12 646 100,00 50 567 100,00 Tab. 4 Le combinazioni lessicali V+N nei due corpora raggruppate per classi di frequenza Anche per i tokens si osserva una distribuzione analoga nei due corpora: gli apprendenti e i nativi hanno prodotto il numero maggiore di occorrenze di combinazioni V+N nelle classi con le frequenze più alte (fr. ≥ 10) e più basse (3 > fr. ≥ 1), mentre hanno prodotto un numero più basso di occorrenze nelle classi intermedie, con valori percentuali molto simili. Tuttavia, come è stato fatto presente sopra, sono state studiate soltanto le combinazioni con frequenza ≥ 10: per questo gruppo sono state calcolate le misure di associazione lessicale Mutual Information (MI) e t-‐score. Gli indici delle due misure di associazione sono stati calcolati per ciascuna combinazione Verbo + Nome per mezzo del programma Microsoft Excel e i risultati ottenuti sono stati raggruppati, per fini descrittivi, in base ai valori decrescenti degli indici (tabb. 5-‐8): 87 CAIL2 SCUOLA V+N types % V+N types % MI ≥ 3 90 56,60 359 54,80 3 > MI ≥ 1 46 28,93 156 23,81 MI < 162 23 14,46 140 21,37 Totale 159 100,00 655 100,00 Tab. 5 Le combinazioni lessicali V+N nei due corpora raggruppate per valori di MI (in types) CAIL2 V+N types
SCUOLA %
V+N types
%
t-‐score ≥ 5 32 20,12 98 14,96 5 > t-‐score ≥ 2 106 66,66 423 64,58 t-‐score < 2 21 13,20 134 20,45 Totale 159 100,00 655 100,00 Tab. 6 Le combinazioni lessicali V+N nei due corpora raggruppate per valori di t-‐score (in types) Tutte le combinazioni lessicali con MI ≥ 3 hanno anche un punteggio di t-‐
score ≥ 2, mentre, tra le combinazioni con t-‐score ≥ 2, non tutte hanno punteggi di MI superiori a 3. Infatti, nella classe delle combinazioni con il t-‐score compreso tra i 5 e i 2 punti, ci sono 48 combinazioni (45%) con un MI inferiore a 3 punti nel corpus degli apprendenti, e 162 in quello dei nativi (38%). 62
Un valore di MI pari allo zero corrisponde ad una coppia di parole che co-‐occorre esattamente lo stesso numero di volte di quanto ci potremmo aspettare se le parole fossero combinate tra loro per puro caso (infatti, per O = E, il valore MI è log2 1 = 0). Un indice negativo di MI indica che una coppia di parole co-‐occorre meno spesso di quanto ci potremmo aspettare dal caso ed indica una repulsione tra i membri della combinazione lessicale, ovvero un’anti-‐collocazione. Cfr. (Evert, 2009: 1226). 88 CAIL2 V+N tokens SCUOLA % V+N tokens % MI ≥ 3 2766 59,74 8 608 52,61 3 > MI ≥ 1 1384 29,89 4 336 26,5 MI < 1 480 10,36 3 415 20,87 Totale 4 630 100,0 16 359 100,00 Tab. 7 Le combinazioni lessicali V+N nei due corpora raggruppate per valori di MI (in tokens) CAIL2 V+N tokens
SCUOLA %
V+N tokens
%
t-‐score ≥ 5 2 422 52,31 6 535 40 5 > t-‐score ≥ 2 1 885 40,71 7 210 44 323 6,97 2 614 16 4 630 100,00 t-‐score < 2 Totale 16 359 100,00 Tab. 8 Le combinazioni lessicali V+N nei due corpora raggruppate per valori di t-‐score (in tokens) Come spiegato sopra, i punteggi di MI ≥ 3 e di t-‐score ≥ 2 sono stati assunti come significativi per una collocazione: il presente studio ha preso in analisi soltanto il gruppo delle combinazioni lessicali che sono rientrate nei criteri soglia di frequenza e di associazione lessicale. Nelle tabelle 9 e 10 vengono riportate le frequenze assolute (frass) e le frequenze relative (frrel) delle collocazioni empiriche normalizzate per cento occorrenze rispetto al numero totale delle combinazioni V+N nei due corpora: 89 CAIL2 Collocazioni empiriche (fr. ≥ 10, MI ≥ 3, t-‐score ≥ 2)
Types SCUOLA frass frrel % frass frrel % 90 1,6 359 1,5 Tab. 9 Le collocazioni empiriche V+N nel corpus degli apprendenti (in types) CAIL2 Collocazioni empiriche (fr. ≥ 10, MI ≥ 3, t-‐score ≥ 2) Tokens SCUOLA frass fr rel % frass frrel % 2 766 21,87 8 608 17,02 Tab. 10 Le collocazioni empiriche V+N nel corpus dei nativi (in tokens) Osservando i dati riportati nelle tabelle 9 e 10 si può notare che, in termini assoluti, gli apprendenti hanno prodotto 90 collocazioni tipo per un totale di 2 766 occorrenze, mentre i nativi ne hanno prodotte 359 per un totale di 8 608 occorrenze. In termini relativi, rapportando il numero delle collocazioni al totale delle combinazioni V+N nei due corpora, si potrebbe affermare che esista una differenza tra apprendenti e nativi nell’uso delle collocazioni: questa non riguarda il numero delle collocazioni empiriche diverse (1,6% types per gli apprendenti e 1,5% types per i nativi), ma la quantità di occorrenze (22% tokens per gli apprendenti e 17% tokens per i nativi). Tuttavia, è necessario valutare se queste differenze tra apprendenti e nativi riscontrate nei dati siano statisticamente significative o se siano dovute alla variazione casuale dei due campioni linguistici: si deve verificare l’ipotesi nulla (H0) per cui non ci sarebbe differenza nelle percentuali di collocazioni prodotte dai due campioni (Baroni, Evert 2009: 790). Tale verifica è stata condotta sia per i valori dei types che per i valori dei tokens attraverso il Pearson’s chi-‐squared test eseguito con il software R63 (Baayen 2008: 122, Baroni, Evert 2009: 791-‐792; Jenset 2008: 6-‐7, Rasinger 2008: 206-‐209) per mezzo della funzione chisq.test() disponibile nel pacchetto stats. L’ipotesi nulla (H0) della verifica è che la differenza nelle proporzioni delle collocazioni prodotte dagli apprendenti (π1) e dai nativi (π2) sia dovuta al caso, 63
R è un ambiente per l’analisi statistica dei dati opensource (http://www.R-‐project.org/). Per l’analisi dei dati del presente lavoro è stata utilizzata la versione 3.0.3 (“Warm Puppy”), rilasciata il 6 marzo 2014. 90 ovvero che ci sia l’uguaglianza delle probabilità (H0 : π1 = π2 ). L’ipotesi alternativa (H1), al contrario, afferma che la differenza nelle percentuali delle collocazioni prodotte dagli apprendenti e dai nativi non sia dovuta al caso (H1: π1 ≠ π2). Il test effettuato sui tokens (X-‐squared = 161.2365, df = 1, p-‐value < 2.2e-‐16), con un valore di p < .001, ha indicato un risultato statisticamente significativo e ci ha portato a rifutare l’H0 e ad accettare l’H1: la differenza tra apprendenti e nativi nella produzione delle collocazioni empiriche (le combinazioni V+N con frequenza ≥ 10, MI ≥ 3 e t-‐score ≥ 2) non è dovuta al caso, ma è statisticamente significativa. Al contrario, se confrontiamo il numero di collocazioni tipo (types) prodotte dai nativi e dagli apprendenti, i risultati del Pearson’s chi-‐squared test (X-‐squared = 0.3753, df = 1, p-‐value = 0.5401) ci restituiscono un valore di p maggiore di 0,05 e ci portano a concludere che tale differenza non sia significativa. Nel caso del numero dei types, accettiamo quindi l’ipotesi nulla per cui non esiste differenza nel numero delle collocazioni prodotte. Si può quindi affermare che gli apprendenti facciano maggiormente ricorso (in termini di tokens) alle combinazioni V+N più frequenti e più strettamente associate nella loro interlingua rispetto a quanto facciano i nativi. Tuttavia, se valutiamo il numero delle collocazioni tipo ogni cento occorrenze e consideriamo l’indice di varietà lessicale, la Type/ Token Ratio (TTR), vediamo che, nonostante gli apprendenti producano più collocazioni dal punto di vista quantitativo, la produzione dei nativi risulta più varia in termini di combinazioni diverse (TTR: 4,17 vs. 3,25). Tale varietà viene confermata anche da un secondo indice di varietà lessicale, il coefficiente G di Guiraud (G = types/ √tokens: 1,7 vs. 3,86) il quale, rispetto alla TTR, limita la dipendenza dei risultati dalle dimensioni del corpus. Combinando i risultati quantitativi con gli indici di varietà lessicale possiamo dedurre che le produzioni degli apprendenti risultano meno varie dal punto di vista della produzione delle collocazioni V+N: gli apprendenti ripetono più frequentemente rispetto a quanto facciano i nativi un gruppo più ristretto di collocazioni empiriche e le loro produzioni sono più conservative. Con l’obiettivo di valutare queste differenze in maniera più dettagliata e rifacendoci allo studio di Durrant e Schmitt (2009) relativo al confronto tra le collocazioni prodotte dagli apprendenti e dai nativi di lingua inglese, abbiamo classificato le collocazioni empiriche in base ad una scala di forza collocazionale per non nascondere le evidenti differenze tra le combinazioni che rientrano per poco entro la soglia (t-‐score ≥ 2, MI ≥ 3) e le combinazioni più forti. Questa posizione riflette anche quella di Manning, Schütze (1999: 166) e Evert, Krenn (2001) i quali sostengono che le misure associative sono usate al meglio quando generano liste di collocazioni ordinate per forza di associazione. 91 Seguendo questo approccio, le collocazioni empiriche estratte dai due corpora sono state suddivise in base ai punteggi delle due misure di associazione lessicale utilizzate nel presente studio: a) b) c) 14 > MI ≥ 7 7 > MI ≥ 5 5 > MI ≥ 3 (associazione forte); (associazione moderata); (associazione debole); d) e) f) 17 > t-‐score ≥ 5 5 > t-‐score ≥ 3,3 3,5 > t-‐score ≥ 2 (punteggio alto); (punteggio medio); (punteggio basso). È stata osservata la distribuzione dei types e dei tokens delle collocazioni nel corpus degli apprendenti e in quello dei nativi: i dati sono stati riportati nelle tabelle 11 e 12 e sono stati rappresentati nei grafici 3-‐6. Collocazioni empiriche (fr. ≥ 10, MI ≥ 3, t-‐score ≥ 2) types Apprendenti % tokens Nativi % types % tokens % 14 > MI ≥ 7 22 24,44 810 29,28 129 35,93 2901 33,7 7 > MI ≥ 5 33 36,66 1071 38,72 128 35,65 3343 38,83 5 > MI ≥ 3 35 38,88 885 31,99 102 28,41 2364 27,46 Totale 90 100,0 2766 100,0 359 100,0 8608 100,0 Tab. 11 Le collocazioni V+N suddivise per forza collocazionale in base ai punteggi di MI Collocazioni empiriche (fr. ≥ 10, MI ≥ 3, t-‐score ≥ 2) types Apprendenti % 17 > t-‐score ≥ 5 26 28,88 5 > t-‐score ≥ 3,5 tokens 1812 Nativi % types % tokens 4443 % 65,5 77 21,44 51,6 35 38,88 638 23,06 160 44,56 2792 32,43 3,5 > t-‐score ≥ 2 29 32,22 316 11,42 122 33,98 1373 15,95 Totale 90 100,0 2766 100,0 359 100,0 8608 100,0 Tab. 12 Le collocazioni V+N suddivise per forza collocazionale in base ai punteggi di t-‐score 92 28,41 5 > MI ≥ 3 38,88 35,65 36,66 7 > MI ≥ 5 14 > MI ≥ 7 24,44 0 10 20 30 types nativi (%) types apprendenti (%) 35,93 40 50 Fig. 1 Le collocazioni V+N suddivise per forza collocazionale in base ai punteggi di MI (types) 27,46 31,99 5 > MI ≥ 3 tokens nativi (%) 38,83 38,72 7 > MI ≥ 5 tokens apprendenti (%) 33,7 29,28 14 > MI ≥ 7 0 10 20 30 40 50 Fig. 2 Le collocazioni V+N suddivise per forza collocazionale in base ai punteggi di MI (tokens) Le figure 1 e 2, relative alla distribuzione delle collocazioni prodotte dalle due categorie di informanti in base ai punteggi di MI, mostrano che le differenze più marcate tra apprendenti e nativi, sia in termini di types che in termini di tokens, si hanno nelle classi prima e terza, ovvero nelle classi con le collocazioni più strettamente associate (14 > MI ≥ 7) e le collocazioni più deboli (5 > MI ≥ 3); nella classe intermedia, costituita dalle collocazioni con moderata forza di associazione (7 > MI ≥ 5), il numero delle combinazioni lessicali prodotte da apprendenti e nativi è pressoché analogo. Nella classe con MI più alto (14 > MI ≥ 7) il numero maggiore sia delle collocazioni tipo (types) che delle occorrenze (tokens) è stato prodotto dai nativi; in classe di collocazioni anche l’indice di varietà lessicale risulta essere molto più alto per i nativi (TTR: 4,44 vs. 2,71). 93 Gli apprendenti hanno prodotto rispetto ai nativi un numero superiore di collocazioni con punteggi bassi di MI (5 > MI ≥ 3), ovvero di combinazioni di parole la cui associazione reciproca è debole. Abbiamo verificato con il Pearson’s chi-‐squared test se le differenze riscontrate nei dati osservati risultassero statisticamente significative. È emerso che, in termini di tokens, le differenze nelle collocazioni appartenenti alla prima ed alla terza classe di MI prodotte da apprendenti a nativi siano molto significative con un p < .001 (vedi tab. 13). In termini di types, è stata riscontrata una significatività, con un p-‐value di 0.03, soltanto per la prima classe. Nella tabella 13 vengono riportati i valori del chi-‐quadrato e i valori della probabilità risultanti dal confronto tra le proporzioni eseguito attraverso il Pearson’s chi-‐squared test: Tokens NATIVI vs. APPRENDENTI X-‐squared df p-‐value 14 > MI ≥ 7 18.5798 1 1.629e-‐05 7 > MI ≥ 5 0.0118 1 0.9134 5 > MI ≥ 3 21.0783 1 4.409e-‐06 Types NATIVI vs. APPRENDENTI X-‐squared df p-‐value 14 > MI ≥ 7 4.2553 1 0.03913 7 > MI ≥ 5 0.032 1 0.8579 5 > MI ≥ 3 3.7252 1 0.0536 Tab. 13 I risultati del Pearson’s chi-‐squared test. Da questi risultati abbiamo potuto concludere che le produzioni dei nativi della lingua italiana si sono distinte, rispetto a quelle dei non nativi, per quantità e per varietà di collocazioni empiriche appartenenti alla classe con i più alti punteggi di MI (14 > MI ≥ 7). Nelle seguenti figure 3 e 4 vengono illustrati i dati relativi alla distribuzione delle collocazioni empiriche in base ai valori di t-‐score nel corpus CAIL2 e SCUOLA: 94 33,98 32,22 3,5 > t-‐score ≥ 2 44,5 38,8 5 > t-‐score ≥ 3,5 types nativi % types apprendenti % 21,44 28,88 17 > t-‐score ≥ 5 0 20 40 60 Fig. 3 Le collocazioni V+N suddivise per forza di associazione in base ai punteggi di t-‐score (types) 15,95 11,42 3,5 > t-‐score ≥ 2 32,43 23,06 5 > t-‐score ≥ 3,5 51,6 65,5 17 > t-‐score ≥ 5 0 tokens nativi % tokens apprendenti % 20 40 60 80 Fig. 4 Le collocazioni V+N suddivise per forza di associazione in base ai punteggi di t-‐score (tokens) I grafici relativi mostrano che per quanto riguarda i tipi diversi di combinazioni lessicali (fig. 3), il numero maggiore è stato prodotto da entrambi i campioni nella classe con punteggi medi di t-‐score (5 > t-‐score ≥ 3,5); per quanto riguarda la distribuzione dei tokens (fig. 4), questa risulta analoga nei due campioni: ha un andamento direttamente proporzionale sia per gli apprendenti che per i nativi con più della metà delle combinazioni V+N nella classe dei punteggi più alti di t-‐score (17> t-‐score ≥ 5). Questa ultima è anche la classe in cui è più evidente la differenza tra i due gruppi: gli apprendenti hanno prodotto quasi il 14% in più delle collocazioni lessicali molto frequenti (cioè con valori alti di t-‐score) rispetto ai nativi in termini di tokens. In seguito al confronto tra le proporzioni delle collocazioni prodotte condotto con il Pearson’s test è emerso che sono statisticamente significative, con un p-‐value < .001, le differenze nel numero di collocazioni prodotte dai due gruppi di informanti 95 in termini di tokens; invece, le differenze nel numero di collocazioni tipo non si sono dimostrate statisticamente significative, come riportato nella tab. 14: Tokens X-‐squared df p-‐value 17 > t-‐score ≥ 5 163.2944 1 < 2.2e-‐16 5 > t-‐score ≥ 3,5 87.2437 1 < 2.2e-‐16 3,5 > t-‐score ≥ 2 33.9107 1 5.77e-‐09 Types NATIVI vs. APPRENDENTI NATIVI vs. APPRENDENTI X-‐squared df p-‐value 17 > t-‐score ≥ 5 2.2535 1 0.1333 5 > t-‐score ≥ 3,5 0.9447 1 0.3311 3,5 > t-‐score ≥ 2 0.1 1 0.7518 Tab. 14 I risultati del Pearson’s chi-‐squared test. Questi dati confermano per la lingua italiana quanto è stato trovato per la lingua inglese da Durrant (2008) e Durrant, Schmitt (2009) ovvero che i nativi fanno ampio uso delle combinazioni lessicali fortemente associate (con punteggi alti di MI) rispetto agli apprendenti, mentre gli apprendenti fanno ricorso alle combinazioni molto frequenti, con valori alti di t-‐score (Durrant 2008, Lorenz 1999). Anche lo studio psicolinguistico di Ellis et al. (2008) aveva sottolineato l’importanza delle combinazioni molto frequenti, con punteggi alti di t-‐score, per gli apprendenti e la salienza delle combinazioni con punteggi alti di MI per i nativi. Secondo questo studio, infatti, sarebbe proprio la presenza elevata delle combinazioni con quest’ultima caratteristica a conferire alle produzioni dei nativi quel tratto idiomatico tipico dei madrelingua e, al contrario, la loro presenza moderata nelle produzioni degli apprendenti sarebbe il motivo per cui queste darebbero l’impressione di ricorrere ad un linguaggio meno formulaico, perdendo in naturalezza. Durrant (2008: 185) sostiene che queste evidenze siano compatibili con i modelli usage-‐based di acquisizione linguistica (vedi par. 2.4.) secondo i quali gli apprendenti estrarrebbero le collocazioni più frequenti dall’input al quale sono esposti ed apprenderebbero molto più tardi le combinazioni lessicali a bassa frequenza e con un forte indice di associazione. 96 Inoltre, i risultati dei confronti tra nativi e apprendenti condotti sulla lingua inglese hanno fatto emergere l’esistenza delle cosiddette “isole di affidabilità” (islands of reliability), ovvero di usi ripetuti di un piccolo repertorio di collocazioni (oversuse) nelle produzioni dei non nativi, le quali li farebbero sentire più sicuri nella fase di output (Granger 1998; Lorenz 1999; Kaszubski 2000; Laufer, Waldman 2011). Dai nostri dati possiamo vedere, valutando il numero dei types ogni 100 tokens e per mezzo della stima della varietà del vocabolario (la type/token Ratio, TTR) che, pur essendoci una differenza quantitativa (14%) nella produzione delle collocazioni con valori alti di t-‐score (17 > t-‐score ≥ 5) a vantaggio degli apprendenti, l’indice di varietà delle collocazioni prodotte in questa classe risulta più basso rispetto ai nativi (TTR: 1,43 vs. 1,73): gli apprendenti fanno largo uso di ripetizioni relative a poche combinazioni diverse con valori alti di t-‐score. Nel prossimo capitolo (cap. 6) dedicato all’analisi linguistica andremo a studiare la composizione delle collocazioni empiriche estratte dai corpora e vedremo quali sono le combinatorie con i punteggi più alti di t-‐score prodotte dagli apprendenti: andremo ad individuare quali sono le “isole di affidabilità” per gli apprendenti di lingua italiana come lingua seconda. Nei paragrafi successivi (parr. 5.2.2, 5.2.3) verrà valutata la portata delle collocazioni empiriche nelle produzioni degli apprendenti suddivisi in gruppi in base a due variabili sociolinguistiche: il tempo di studio dell’italiano e il tempo trascorso in Italia. 5.2.1. Analisi della variabile “tempo di studio dell’italiano” nel corpus CAIL2 Nel presente paragrafo viene messo a confronto l’uso delle 90 collocazioni empiriche (combinazioni Verbo + Nome con fr. ≥ 10, MI ≥ 3 e t-‐score ≥ 2) estratte dal corpus CAIL2 da parte degli apprendenti di italiano L2 suddivisi in base alla variabile del tempo di studio dell’italiano. Per tale scopo, il corpus di apprendenti CAIL2 è stato suddiviso in quattro sottocorpora corrispondenti ai quattro gruppi A, B, C e D la cui composizione è stata già descritta nel par. 4.4. (gruppo A = 1-‐6 mesi di studio dell’italiano; gruppo B = 7-‐11 mesi; gruppo C = 12-‐32 mesi; gruppo D = ≥ 36 mesi). Nella tabella 15 vengono riportate nuovamente le ampiezze dei quattro sottocorpora, espresse in numero di tokens: 97 gruppo A gruppo B gruppo C gruppo D Ampiezza sottocorpora 59 648 60 194 58 839 58 639 Totale 237 320 Tab. 15 Ampiezza sottocorpora del corpus di apprendenti CAIL2 (mesi di studio dell’italiano) È stata osservata la distribuzione delle frequenze delle collocazioni prodotte dai quattro gruppi di apprendenti di italiano L2 in base alla variabile in analisi (tab. 16) ed è stata rappresentata graficamente (fig. 7): gruppo A gruppo B gruppo C gruppo D Totale Collocazioni (tokens) 722 780 718 546 2 766 % 26,1 28,19 25,95 19,73 100,0 Tab. 16 Distribuzione delle collocazioni V+N nei gruppi relativi al tempo di studio dell’italiano 30 26,1 28,1 26 25 19,7 20 15 collocazioni V+N % 10 5 0 A B C D Fig. 5 Le collocazioni V+N (in tokens) prodotte dai 4 gruppi di apprendenti in base alla variabile “tempo di studio dell’italiano” Valutando soltanto le percentuali si può notare che il gruppo D (≥ 36 mesi di studio dell’italiano) ha prodotto il numero minore di collocazioni empiriche rispetto agli altri tre gruppi (< 36 mesi di studio); i gruppi A e C si sono comportati in maniera analoga, mentre il gruppo B ha prodotto il numero maggiore (28%) delle collocazioni più frequenti e più strettamente associate. È stato verificato se queste differenze risultassero statisticamente significative attraverso il Kruskal-‐Wallis Rank Sum Test per il confronto di più 98 campioni indipendenti (Sheskin 2000: 757-‐769; Bayeen 2008: 116; Gries 2008a: 283; Jenset 2008: 9; Corder, Foreman 2009: 99-‐118) eseguito in R. Questo test è il corrispettivo non parametrico dell’ANOVA (Analisi della Varianza) monofattoriale (a una via). La scelta di tale test è stata dettata dalle caratteristiche dei dati i quali violano una delle due principali assunzioni dell’ANOVA (Sheskin 2000: 728; Gries 2008a: 275): (i) la distribuzione normale; (ii) l’omoschedasticità (l’omogeneità delle varianze). La caratteristica (i), ovvero se i dati seguissero una distribuzione normale64 o meno è stata verificata con il test di Shapiro-‐Wilk disponibile in R per mezzo della funzione shapiro.test e presente nel pacchetto base stats. Dopo aver eseguito il test per ciascun gruppo è risultato che i gruppi non fossero distribuiti normalmente: tutte le verifiche hanno restituito un valore di p < .001 (gruppo A: W = 0.5628, p-‐value = 5.998e-‐15; gruppo B: W = 0.6649, p-‐value = 5.038e-‐13; gruppo C: W = 0.5728, p-‐value = 8.94e-‐15; gruppo D: W = 0.679, p-‐value = 9.972e-‐13) il che denota un risultato molto significativo e non ci permette di verificare la H0 (i valori sono distribuiti normalmente) e ci fa accettare la H1 (i valori non sono distribuiti normalmente). L’asimmetria delle singole distribuzioni dei quattro data set è messa in evidenza anche dal boxplot65 (fig. 6) nel quale si può osservare la diversa lunghezza dei baffi e delle altezze delle scatole, ovvero dei i rettangoli intagliati che rappresentano ciascun gruppo. La caratteristica (ii), ovvero se i quattro gruppi fossero omoschedastici o meno è stata verificata con un test non parametrico per l’omogeneità delle varianze66: il Levene test (Tavakoli 2012: 321) eseguito in R per mezzo della funzione levene.test contenuta nel pacchetto lawstat. Il test verifica l’ipotesi nulla (H0) in base alla quale le varianze dei gruppi esaminati sarebbero uguali. Se la probabilità, ovvero il valore risultante di p, è inferiore al valore critico .05, allora le differenze tra le varianze dei campioni non possono essere spiegate con la variazione casuale (random variation) alla quale è soggetto ogni campione linguistico (Baroni, Evert 2009: 778) ma rappresentano una reale differenza tra i gruppi. 64
In una distribuzione normale, chiamata anche distribuzione gaussiana, i valori di un data set con le frequenze più alte si dispongono vicini alla media, e le frequenze diventano più basse più ci si allontana dalla media in entrambe le direzioni; il grafico della distribuzione normale è simmetrico e ha una forma a campana. Può accadere che, in una distribuzione normale, le frequenze siano distribuite in modo tale che la media, la mediana e la moda risultino identiche. Cfr. Rasinger (2008: 139-‐143). 65
Chiamato anche diagramma a scatola e baffi, il boxplot è un grafico molto utile in quanto fornisce una rappresentazione sintetica della distribuzione di un data set (Gries 2009a: 118-‐119). 66
In termini generali, la varianza è una misura di dispersione che indica quanto i dati dèviino dalla media. In altre parole, la varianza è la sommatoria che si ottiene addizionando la differenza (al quadrato) tra ciascun valore di un data set e la media. Cfr. Rasinger (2008: 134-‐135). 99 Nel caso dei dati del presente studio, l’ipotesi nulla dell’omogeneità delle varianze è stata accettata (Test Statistic = 1.6638, p-‐value = 0.645) ed è stato concluso che i gruppi A-‐D fossero omoschedastici. Considerate queste caratteristiche, ovvero la distribuzione non normale e l’omoschedasticità, è stato quindi utilizzato per il confronto tra i gruppi A-‐D il Kruskal-‐Wallis Rank Sum Test, un’ANOVA non parametrica, eseguito in R per mezzo della funzione kruskal.test, contenuta nel pacchetto stats. Questo test effettua una comparazione tra le medie di un numero k di gruppi. L’H0 è che le medie siano statisticamente uguali, l’ipotesi alternativa (H1), invece, afferma che ci sia una differenza tra le medie. Se il p-‐value risultante è maggiore di 0.05, il risultato non è significativo e si accetta l'ipotesi H0 di uguaglianza delle medie. Il boxplot rappresentato nella fig. 6 anticipa graficamente che le medie dei gruppi si differenziano, in particolare quella del gruppo D e che, poiché gli intagli laterali nelle scatole del grafico (notches) non si sovrappongono, le differenze potrebbero essere significative (Gries 2009a: 119). Tuttavia, questo dato deve essere confermato attraverso il test di significatività statistica Kruskal-‐Wallis. Fig. 6 Il boxplot delle collocazioni V+N prodotte dai quattro gruppi individuati in base alla variabile sociolinguistica del tempo di studio dell’italiano 100 Il test ha confermato un risultato significativo (Kruskal-‐Wallis chi-‐squared = 9.2372, df = 3, p-‐value = 0.0263): almeno uno dei quattro gruppi analizzati si differenzia dagli altri. Tuttavia, questo test non indica dove esiste una possibile differenza, o più differenze, tra i gruppi. Per indagare quale coppia o quali coppie di gruppi si differenziano tra di loro occorre eseguire un post hoc test per i confronti multipli (Corder, Foreman: 100; Sheskin: 761). Per il confronto post hoc tra i gruppi è stato utilizzato il test Nemenyi-‐Damico-‐
Wolfe-‐Dunn (Hollander, Wolfe: 1999), eseguito in R, il quale richiede i pacchetti coin e multcomp. Il test, dopo aver confrontato tutti i gruppi tra di loro a coppie, ha mostrato che risultano significativamente diversi tra di loro i gruppi B e D (p-‐value = 0.01643333), mentre tutte le altre comparazioni hanno avuto come risultato un valore di probabilità maggiore di .05 e non sono quindi significative statisticamente. Alla luce dei risultati ottenuti si può affermare che il gruppo D degli apprendenti di lingua italiana da più di 36 mesi ha prodotto il numero minore (in termini di tokens) delle collocazioni più frequenti e più strettamente associate, ovvero delle collocazioni trasversalmente più diffuse nelle produzioni degli apprendenti a tutti i livelli di competenza linguistica. Statisticamente il gruppo si differenzia dal gruppo B costituito da informanti che, al tempo della raccolta dei dati per il presente studio, avevano studiato la lingua italiana dai 7 agli 11 mesi in totale. A partire da queste evidenze possiamo ipotizzare che il gruppo D, avendo prodotto una quantità minore in termini di tokens delle collocazioni trasversalmente più diffuse nelle produzioni degli apprendenti, potrebbe aver redatto delle combinazioni Verbo + Nome diverse, ovvero non altrettanto comuni nell’interlingua degli apprendenti. Ciò potrebbe significare che, relativamente all’uso delle combinatorie verbo-‐nominali, si assiste ad una differenza qualitativa nelle produzioni degli apprendenti di lingua italiana a partire dal terzo anno di apprendimento linguistico. Quanto finora ipotizzato a partire dai risultati dell’analisi quantitativa verrà verificato nel prossimo capitolo (par. 6.4.): il comportamento lessicale dei quattro gruppi individuati in base alla variabile del tempo di studio dell’italiano verrà analizzato a partire dall’analisi delle concordanze di un campione di combinatorie verbo-‐nominali. Nel prossimo paragrafo viene presentata l’analisi quantitativa delle collocazioni empiriche presenti nelle produzioni scritte degli apprendenti suddivisi in base ad una seconda variabile sociolinguistica: il tempo di permanenza in Italia. 101 5.2.2. Analisi della variabile “tempo di permanenza in Italia” nel corpus CAIL2 Con l’obiettivo di comparare le collocazioni empiriche prodotte dagli apprendenti relativamente alla variabile del tempo di permanenza in Italia, sono stati individuati 5 gruppi di informanti (tab. 17) e i rispettivi sottocorpora (tab. 19): Tempo di permanenza in Italia gruppo E 0-‐1 mese gruppo F 2-‐3 mesi gruppo G 4 mesi gruppo H 5 mesi gruppo I ≥ 6 mesi Tab. 17 Suddivisione in gruppi in base alla variabile sociolinguistica del tempo di studio della lingua italiana Nella tabella 18 proposta di seguito forniamo un quadro della composizione dei cinque gruppi relativamente al tempo che gli apprendenti hanno dedicato allo studio della lingua italiana: Tempo di studio dell’italiano Media gruppo E gruppo F gruppo G gruppo H gruppo I 27,02 27,15 10,27 10,27 27,20 Mediana 24 24 8 9 16 Min 1 1 2 5 1 Max 84 96 72 52 240 20,37 26,66 10,85 7,38 36,19 Dev. Standard Tab. 18 Composizone dei gruppi E-‐I relativamente al tempo di studio della lingua italiana Possiamo osservare che i primi due gruppi, i quali hanno avuto la minore esposizione all’input (un massimo di 3 mesi trascorsi in Italia), sono composti da apprendenti che, al momento della raccolta dei dati, avevano studiato la lingua italiana più a lungo: per entrambi i gruppi la media è di 27 mesi circa, con più della metà degli informanti che ha studiato per 24 mesi. Anche nell’ultimo gruppo I, analogamente ai primi due, si registra una media di 27 mesi ma, al contempo, si assiste ad una maggiore variabilità interna che va da un minimo di un mese ad un 102 massimo di 240 mesi. Infine, i due gruppi centrali (4-‐5 mesi di permanenza in Italia) sono composti da apprendenti che avevano studiato la lingua italiana, in media, soltanto per 10 mesi. Nella tabella 19 vengono riportate le ampiezze dei cinque sottocorpora, espresse in numero di tokens: gruppo E Ampiezza subcorpora (tokens) gruppo F gruppo G gruppo H 52 130 39 551 48 490 40 323 gruppo I Totale 56 826 237 320 Tab. 19 Ampiezza sottocorpora del corpus di apprendenti CAIL2 (mesi di permanenza in Italia) È stata osservata la distribuzione delle frequenze delle collocazioni empiriche prodotte dai cinque gruppi di apprendenti italiano L2 in base alla variabile in analisi (tab. 20) ed è stata rappresentata graficamente (fig. 7): gruppo E Collocazioni (tokens) % gruppo F gruppo G gruppo H gruppo I Totale 555 441 573 653 544 2 766 20,06 15,94 20,71 23,60 19,66 100,0 Tab. 20 Distribuzione delle collocazioni V+N nei gruppi relativi al tempo di permanenza in Italia 23,6 25 20,7 20 20 19,6 16 15 collocazioni V+N % 10 5 0 E F G H I Fig. 7 Le collocazioni V+N prodotte dai 5 gruppi di apprendenti in base alla variabile “tempo di studio dell’italiano” 103 Osservando soltanto la distribuzione delle frequenze si può notare che il gruppo F (2-‐3 mesi di permanenza in Italia) ha prodotto il minor numero di collocazioni empiriche e che il gruppo H (5 mesi in Italia) ne ha prodotto il numero maggiore. Inoltre, i gruppi E (0-‐1 mese di permanenza in Italia) ed I (permanenza in Italia ≥ 6 mesi) si sono comportati in maniera pressoché analoga relativamente alla quantità delle combinatorie verbo-‐nominali più frequenti e più strettamente associate dell’interlingua. Si può affermare che ci sia un andamento non lineare e che non si assista ad un aumento o ad una diminuzione nella produzione delle collocazioni tipiche all’aumentare dei mesi di esposizione all’input. Inoltre, si osserva una lieve diminuzione nella produzione delle collocazioni da parte del gruppo I, la quale è del tutto assimilabile in termini quantitativi, alla produzione del gruppo E. Se questo andamento fosse statisticamente significativo o soltanto casuale, ovvero se almeno due dei campioni rappresentassero popolazioni con medie differenti (Sheskin 2000: 757) è stato verificato con il test di Kruskal Wallis (vedi par. 5.2.1.). La scelta di utilizzare questo test per lo studio della seconda variabile è stata dettata anche questa volta dalle caratteristiche dai dati. Infatti, in seguito alla verifica con il test di Shapiro-‐Wilk eseguito in R, neanche i dati relativi ai valori della seconda variabile risultavano distribuiti normalmente (fig. 8): nemmeno per lo studio della seconda variabile è stato possibile utilizzare il test per l’analisi della varianza (ANOVA) ad una via, il quale è, appunto, un test parametrico. I dati relativi ai gruppi E-‐I non soddisfano neanche il secondo requisito dell’ANOVA: l’omoschedasticità. Ciò è stato verificato per mezzo del Levene test (vedi par. 5.2.1.), il quale ha restituito un valore di p < .001 (Test Statistic = 26.3256, p-‐value = 2.72e-‐05) e ci ha fatto concludere che i gruppi non avessero varianze omogenee e che fossero quindi eteroschedastici. L’ipotesi nulla (H0) del Kruskal test suppone che non ci sia differenza tra i gruppi nella produzione delle collocazioni empiriche; l’ipotesi alternativa (H1) afferma che esista una differenza tra i gruppi. 104 Fig. 8 Il boxplot delle collocazioni V+N prodotte dai cinque gruppi individuati in base alla variabile sociolinguistica del tempo di permanenza in Italia I risultati del Kruskal-‐Wallis Rank Sum Test (Kruskal-‐Wallis chi-‐squared = 7.0655, df = 4, p-‐value = 0.1325) hanno restituito un valore di p > di 0.05 il che non ci ha permesso di rifiutare l’H0: tra i gruppi della variabile “tempo di permanenza in Italia” non esiste una differenza statisticamente significativa nella produzione delle collocazioni. Ciò vuol dire che le osservazioni che possiamo trarre dall’analisi quantitativa dei dati relativa alla seconda variabile sono legate alla variazione casuale del campione linguistico rappresentato dal corpus CAIL2 e non possono essere considerate generalmente valide, ovvero estendibili alle popolazioni rappresentate dai cinque gruppi. Relativamente al nostro campione di dati possiamo affermare che non si assiste ad una diminuzione dal punto di vista quantitativo delle collocazioni empiriche all’aumentare dei mesi trascorsi in Italia. Tuttavia, nonostante l’andamento quantitativamente altalenante nella produzione delle collocazioni tipiche dell’interlingua è risultato possibile individuare una costante. Il gruppo F (2-‐3 mesi di permanenza) ha prodotto la quantità minore delle collocazioni tipiche dell’interlingua e il gruppo H (5 mesi di permanenza) ne ha prodotto la quantità maggiore: tra questi due gruppi sussiste una differenza 105 considerevole relativamente al tempo che gli informanti dei due gruppi hanno studiato l’italiano (una media di 27 mesi il gruppo F e di 10 mesi il gruppo H, cfr. tab. 18). Il gruppo E (0-‐1 mese in Italia) ed il gruppo I (≥ 6 mesi in Italia), benché abbiano avuto esposizioni all’input della lingua target molto diverse, sono assimilabili per il tempo che gli informanti hanno studiato la lingua italiana (per entrambi una media di 27 mesi, anche se nel gruppo I si assiste ad una maggiore varietà). I comportamenti quantitativamente analoghi dei due gruppi ai poli della seconda variabile e la maggiore presenza delle collocazioni empiriche in uno dei due gruppi composto da apprendenti che avevano studiato meno a lungo la lingua target potrebbero denotare la maggiore incidenza della variabile del tempo di studio rispetto alla variabile dell’esposizione all’input sulle produzioni degli apprendenti. Una simile ipotesi potrà essere verificata soltanto a partire dall’analisi linguistico-‐
qualitativa delle combinatorie verbo-‐nominali prodotte dagli apprendenti dei vari gruppi condotta nel prossimo capitolo: lo studio delle concordanze permetterà di valutare gli usi delle combinazioni V + N e di tracciare le principali tendenze che emergono dai testi. Nel paragrafo precedente (par. 5.2.2.), lo ricordiamo, era emerso che la variabile del tempo di studio dell’italiano influisce sulla quantità delle collocazioni empiriche prodotte: si assiste ad una loro diminuzione nei testi degli apprendenti all’aumentare del tempo di studio e, in particolare, dopo i tre anni di apprendimento. A partire da questa evidenza era stata formulata l’ipotesi in base alla quale si potrebbe assistere ad un salto qualitativo nelle produzioni degli apprendenti di italiano L2 dopo il terzo anno di studio della lingua. Le due ipotesi formulate in questo paragrafo e nel paragrafo precedente saranno verificate per mezzo dello studio delle concordanze (par. 6.4.) di un campione di sostantivi coinvolti nella formazione delle collocazioni empiriche: verrà valutato quali altre combinatorie V+N sono state prodotte da ciascun gruppo e come queste siano state utilizzate nel contesto. Conclusioni Il capitolo ha esposto l’analisi quantitativa delle collocazioni empiriche Verbo + Nome estratte dal corpus CAIL2 di apprendenti di italiano L2. Innanzitutto, la produzione delle collocazioni degli apprendenti è stata messa a confronto con la produzione dei nativi per mezzo di un corpus di controllo, la sottosezione SCUOLA del corpus di riferimento dell’italiano contemporaneo Perugia Corpus (PEC). Il corpus SCUOLA è stato scelto per il confronto con i nativi in quanto si tratta di una risorsa i cui dati, per la loro natura, sono assimilabili al corpus CAIL2 relativamente alla tipologia testuale che vi è contemplata (testi argomentativi su diverse tematiche) e alla categoria di informanti che hanno prodotto i testi (studenti 106 delle scuole secondarie di primo e secondo grado i quali, seppur con modalità diverse rispetto agli apprendenti di una L2, si trovano in una fase di acquisizione ed ampliamento del proprio vocabolario). Dall’analisi è emerso che gli apprendenti fanno un uso maggiore delle collocazioni empiriche, in termini di tokens, rispetto ai nativi; tuttavia, considerando il numero delle collocazioni tipo (types) prodotte dai due gruppi, si può affermare che le produzioni dei nativi siano caratterizzate da una maggiore varietà di collocazioni. Le differenze tra i nativi e gli apprendenti sono state valutate anche da una prospettiva più dettagliata e, per tale scopo, le collocazioni prodotte sono state studiate in base alla forza di associazione dei loro membri (stimata per mezzo degli indici delle due misure di associazione utilizzate nel presente studio, ovvero la Mutual Information e il t-‐score). Ne è emerso che i nativi fanno uso di un numero maggiore di collocazioni caratterizzate dai punteggi alti di MI, ovvero delle combinazioni più strettamente associate, mentre gli apprendenti tendono ad utilizzare più spesso le collocazioni dai punteggi alti di t-‐score, ovvero le combinazioni molto frequenti nella loro interlingua. Questi dati confermano una tendenza già evidenziata dagli studi condotti sulla lingua inglese sull’uso delle collocazioni da parte dei nativi e dei non nativi. In secondo luogo, sono state confrontate le collocazioni empiriche prodotte da vari gruppi di apprendenti individuati sulla base di due variabili sociolinguistiche: a) il tempo di studio dell’italiano; b) il tempo di permanenza in Italia. Per quanto riguarda l’analisi della prima variabile abbiamo constatato che si verifica una diminuzione considerevole nella produzione delle collocazioni V+N più diffuse nel linguaggio degli apprendenti dopo il terzo anno di studio dell’italiano: abbiamo ipotizzato che dopo questo periodo di apprendimento si potrebbe assistere ad un salto qualitativo nelle produzioni degli informanti relativamente alle combinatorie verbo-‐nominali. In merito ai risultati dello studio della seconda variabile non si possono fare affermazioni di carattere generale in quanto le differenze individuate nelle produzioni dei diversi gruppi di apprendenti non sono risultate statisticamente significative. Tuttavia, per quanto riguarda il campione di dati costituito dal corpus CAIL2, possiamo affermare che non si assiste ad una diminuzione delle collocazioni tipiche dell’interlingua all’aumentare dei mesi di esposizione all’input, quanto piuttosto ad un andamento altalenante. Ad una analisi della composizione dei singoli gruppi individuati in base alla seconda variabile abbiamo potuto constatare che tale andamento nella produzione delle collocazioni empiriche potrebbe essere riconducibile al fattore del tempo di studio. Dall’analisi abbiamo potuto concludere che, per quanto concerne la produzione quantitativa delle collocazioni più frequenti e più strettamente associate prodotte trasversalmente dagli apprendenti del corpus 107 CAIL2, la variabile del tempo di studio della lingua italiana potrebbe essere più incisiva rispetto alla variabile del tempo di permanenza in Italia. I risultati dello studio quantitativo condotti nel presente capitolo hanno permesso di formulare delle ipotesi sulla natura dei testi in relazione alle due variabili sociolinguistiche prese in esame le quali verranno verificate nel prossimo capitolo dedicato all’analisi linguistico-‐qualitativa dei dati. 108 CAPITOLO 6 Analisi linguistica delle collocazioni Verbo + Nome Introduzione Nel presente lavoro viene utilizzato un metodo integrato, quantitativo e linguistico, per l’analisi delle collocazioni V+N. Nel capitolo precedente (cap. 5) abbiamo fatto ricorso agli strumenti dell’analisi statistica per una prima valutazione dei dati: abbiamo individuato le collocazioni empiriche, ovvero tutte le combinazioni verbo-‐
nominali rientrate nei valori soglia di frequenza (≥ 10) e di associazione lessicale (MI ≥ 3, t-‐score ≥ 2) prodotte dai nativi e dagli apprendenti. Nel capitolo che segue le collocazioni empiriche vengono studiate alla luce dei criteri linguistici (esposti nel par. 6.1.) individuati da Ježek (2005) e Masini (2009) per le collocazioni della lingua italiana. Nel paragrafo 6.2. vengono descritte le collocazioni prodotte dai nativi: tra queste si registrano le tipologie particolari delle costruzioni a verbo supporto (Vsup, par. 6.2.1.) e a verbo supporto esteso (Vsupext, 6.2.2.) e le collocazioni con verbo ordinario (Vord, 6.2.3.). Le collocazioni empiriche non rispondenti ai criteri linguistici sono state elencate in Appendice 4 e trattate nel par. 6.2.4. La descrizione delle collocazioni prodotte dagli apprendenti di italiano L2 viene presentata nel par. 6.3. Nel paragrafo successivo (6.4.) e nei relativi sottoparagrafi (6.4.1. – 6.4.5.) le produzioni degli apprendenti vengono analizzate da una prospettiva ulteriore: per mezzo dello studio delle concordanze relative a un gruppo di combinatorie verbo-‐
nominali. 6.1. Criteri linguistici per la definizione delle collocazioni V+N Le combinazioni Verbo + Nome estratte dai corpora SCUOLA (dei nativi della lingua italiana) e CAIL2 (degli apprendenti di italiano L2) sulla base dei criteri di frequenza e di associazione lessicale (per la descrizione dei due corpora, cfr. par. 5.2.1., per la descrizione delle misure di associazione utilizzate, cfr. par. 5.1.) vengono analizzate nel presente capitolo alla luce delle formulazioni di Ježek (2005) e Masini (2009) relative alle collocazioni della lingua italiana. I punti chiave, già presentati nel paragrafo 1.2.1., vengono riproposti di seguito: 1. le collocazioni V+N sono caratterizzate dalla presenza di una restrizione lessicale attivata dal nome (la base) ed imposta al verbo (il collocato); si 109 2. confronti infatti il significato del verbo fare in fare un sospiro > emettere e in fare una pressione > esercitare, oppure del verbo porre in porre una domanda > chiedere e in porre fine > mettere (gli esempi sono tratti da Ježek 2005: 181). Si tratta di una restrizione consolidata dall’uso in quanto i collocati esprimono con le basi una solidarietà nell’uso specifico (meaning by collocation); proprio questo criterio permette di isolare le collocazioni all’interno delle cosiddette combinazioni ristrette (Ježek 2005: 176-‐181);67 dal punto precedente si può desumere che il significato di una collocazione non è composizionale, ovvero che non è calcolabile a partire dai significati dei suoi membri; nel caso delle collocazioni V+N, come esposto appena sopra, è il nome ad imporre il significato al verbo68; Le restrizioni consolidate dall’uso (le collocazioni, appunto) sembrano trovare ragione nella tendenza delle lingue ad esprimere determinati concetti con abbinamenti preferenziali di parole; le collocazioni sono infatti interessanti da un punto di vista interlinguistico in quanto le lingue presentano numerose differenze nella scelta dei termini collocati (ad es., it. fare una fotografia / ingl. take a picture > prendere, it. lavarsi i denti / ingl. (to) brush one’s teeth > spazzolarsi) nonostante anche altre combinazioni siano possibili (Ježek 2005: 173-‐180). Masini (2009: 81) fa una ulteriore distinzione tra le collocazioni e le combinazioni preferenziali di parole specificando che, nel caso delle combinazioni preferenziali, l’uso di un determinato termine x (ad es., pioggia) può richiedere preferibilmente l’uso di un termine y (ad es., torrenziale/ 67
Queste ultime sono delle restrizioni lessicali basate su una implicazione sintagmatica di contenuto (detta anche solidarietà semantica); infatti, uno dei due termini è incluso dal punto di vista del contenuto nell’altro (ad es., nella combinazione “parcheggiare la macchina” il verbo implica semanticamente la categoria dei veicoli, e in “allattare il figlio”, il verbo “allattare” contiene l’informazione che si tratta di un’azione diretta ad un essere appena nato), stabilendo appunto una solidarietà semantica all’interno della combinazione; la restrizione può essere più o meno circoscritta in base al verbo (se questo ammette più classi di oggetti come, ad es., il verbo comprare, darà vita ad una combinazione dalla restrizione meno circoscritta rispetto ai verbi come parcheggiare, allattare o indossare); inoltre, nel caso delle combinazioni ristrette, la restrizione ha una direzione inversa rispetto a quella delle collocazioni in quanto è imposta dal verbo al nome (cfr. Ježek, 2005: 179). 68
Tale interazione tra gli elementi della collocazione è coerente con quanto è stato formulato da De Mauro mediante il concetto di “co-‐variabilità” (De Mauro 1996: 100) in base al quale la semantica di un elemento varia al variare dell’elemento che segue o precede: “Tra significato della frase e significato delle parole che la costituiscono ci pare di scorgere un rapporto di co-‐variabilità: ci pare indubbio il concorso dei significati delle singole parole al costituirsi del significato della frase; ma nelle parole, tra le loro molte accezioni, concorre al significato della frase quella accezione che la frase (anzitutto, ma non solo) seleziona. Appare chiaro che il significato di una frase è raramente descrivibile come mera sommatoria dei significati delle parole che la compongono. Descrivere il significato in modo composizionale sembra insoddisfacente, se non impossibile, anche per frasi apparentemente elementari: la non composizionalità del significato si configura quindi non come una proprietà specifica dei Lessemi Complessi, ma piuttosto come una caratteristica generale del linguaggio verbale […] Ciò che appare tipico dei Lessemi Complessi è casomai il fatto che questa proprietà generale viene, per così dire, esaltata. (ibid. 106) 110 battente) per esprimere un concetto (in questo caso l’intensità del fenomeno atmosferico), affinché la combinazione che ne deriva risulti molto più familiare rispetto alle altre combinazioni possibili (ad es., pioggia intensa/ forte); mentre, nel caso delle collocazioni, un termine x implica necessariamente la presenza di un termine y (ad es., aprire un conto) per esprimere un determinato significato. Nel presente studio annoveriamo nel concetto di collocazione sia le combinazioni in cui la base (il nome) seleziona il collocato (il verbo) perché lo richiede necessariamente per esprimere un determinato significato (ad es., seguire un consiglio), sia i casi in cui la selezione è preferenziale, ha un elemento di convenzionalità e rappresenta il modo tipico di dire una cosa, (ad es., ripetere l’anno)69. 3. ne consegue che le collocazioni hanno una ridotta sostituibilità paradigmatica, ovvero i membri di una collocazione non sono liberamente sostituibili (in alcuni casi è possibile sostituire un membro della collocazione con uno semanticamente analogo, ad es. approfondire un argomento / una questione / una materia).70 4. nella maggior parte dei casi le collocazioni sono sintatticamente autonome71; esistono dei casi in cui i membri sono autonomi solo parzialmente come, ad es., in collocazioni quali sporgere denuncia e fare festa che si presentano senza l’articolo in quanto il referente non è più disponibile nel discorso (denuncia e festa sono generici): si tratta di casi parzialmente lessicalizzati, vicini allo statuto di parola complessa o, seguendo la terminologia di Simone (1997), parola sintagmatica, i cui elementi non sono né sostituibili né modificabili dal punto di vista sintattico e si collocano quindi in una zona grigia tra morfologia e sintassi72 (cfr. Ježek 2005: 43). 69
La violazione di questo tipo di restrizioni preferenziali provoca un errore sanabile, che può essere rapidamente eliminato, attraverso la sostituzione del termine che vìola la restrizione con quello consolidato dall’uso (Ježek 2005: 173). 70 Il secondo ed il quarto punto rispecchiano i criteri della trasparenza del significato e della sostituibilità dei membri adottati da Cowie e dagli altri studiosi dell’approccio fraseologico (rispettivamente, criterion of transparency e criterion of commutability, cfr. par. 1.2.1). 71
L’autonomia sintattica dei membri, ovvero la possibilità di modificare sintatticamente la combinazione si deve valutare stimando la fissità o coesione sintattica attraverso le seguenti prove (tratte da Ježek 2005: 174) valide per le combinazioni verbo-‐nominali: i) la modifica della determinazione del nome (ad es., “approfondire un/ l’/ molti/ degli argomenti”); ii) la relativizzazione del nome (ad es., “l’argomento che ho approfondito”); iii) la dislocazione del nome (ad es., “l’argomento, l’ho approfondito ieri”); iv) la passivizzazione della combinazione (ad es., “l’argomento che ho approfondito ieri”); v) l’inserzione di parole tra i membri della combinazione (ad es., “ho approfondito un nuovo argomento). 72
Lo schema sintattico Verbo + Nome analizzato nel presente studio è stato riconosciuto da Voghera (1994) come uno dei profili sintagmatici particolarmente produttivi in italiano per la formazione di nuove parole, entrando quindi in parziale competizione con le regole morfologiche; inoltre, le formazioni Verbo + Nome nelle quali il nome non identifica un preciso referente nel discorso, ma specifica l’attività generica del verbo (ad es., 111 I criteri sopraelencati quali la presenza di una restrizione, la calcolabilità del significato, la sostituibilità e l’autonomia sintattica dei membri sono correlati ma non in modo unidimensionale. Infatti, afferma Ježek (2005: 190), la presenza di una restrizione sulla combinazione della parole non è di per sé indice di una minore calcolabilità di significato (es. infliggere una punizione è una sequenza ristretta ma è del tutto composizionale). Inoltre, la riduzione di autonomia sintattica dei membri di una combinazione di parole si accompagna spesso ad una riduzione della calcolabilità del significato. Tuttavia, questa correlazione non è necessaria, infatti combinazioni quali prendere sonno e chiedere scusa sono sequenze i cui membri non sono totalmente autonomi dal punto di vista sintattico (a vario grado) ma il cui significato è composizionale. Nello studio condotto nel presente capitolo consideriamo come tipi particolari di collocazione, sempre seguendo Ježek (2005: 181-‐183), le costruzioni a verbo supporto (di seguito Vsup), in cui il verbo ha un significato generico (fare, dare, prendere, mettere, ecc.) e il suo contributo semantico alla costruzione è spesso limitato all’Aktionsart (es., dare fuoco, avere fame). Tali costruzioni possono essere definite come delle collocazioni che dal punto di vista semantico sono sbilanciate verso il nome: il significato è espresso quasi interamente dal nome. Con le collocazioni, le costruzioni a verbo supporto condividono il fatto di essere dei costrutti ristretti nella scelta dei loro costituenti. Secondo Gross (1996) in tali costruzioni il predicato è costituito dal nome e il verbo funge da supporto per costruire la frase, in quanto il nome, pur nella funzione di predicato, non è in grado, da solo, di esprimere alcune delle categorie che sono necessarie per denotare compiutamente un evento, come ad esempio il tempo e il modo. Cicalese (1999: 450), inoltre, distingue tra i verbi supporto “neutri” o “di grado zero” (tra i più frequenti per l'italiano essere, stare, avere, fare, dare, prendere e mettere) e le estensioni di verbo supporto (Vsupext), una funzione che viene assunta da numerosi “verbi ordinari” o “verbi operatori”73 quando vengono a costruirsi in particolari combinatorie con alcuni nomi predicativi ed entrano, pertanto, in equivalenza distribuzionale con un supporto di grado zero. L’estensione di supporto (ad es., assegnare un premio estensione di dare un premio) ha spesso anche un equivalente verbo operatore (premiare). Dal punto di vista semantico, l’estensione può: i) sostituirsi al supporto neutro non comportando evidenti variazioni di senso (operare una rimonta -‐ fare una rimonta); mettere mano (a qlcs.), possono essere definite come composti giustapposti costituiti da più elementi lessicali accostati in sequenza lungo la catena sintagmatica allo scopo di esprimere un concetto saliente (Bisetto 2004). 73 Riprendiamo qui la terminologia usata da Cicalese (1999) propria della teoria Lessico Grammatica e, più specificamente dei princìpi della sintassi trasformazionale elaborati da Harris (1976), per definire la classe dei verbi che hanno un potere predicativo, ovvero hanno la potenzialità di selezionare i propri operatori. 112 ii) apportare alcune informazioni supplementari, delle sfumature di senso aggiuntive rispetto al supporto neutro (tra le varianti fondamentali: aspettuale, pragmatica ovvero di registro/ stile, di determinazione e/o quantificazione): (1) (1a) Max ha preso un’infezione (Vsup) Max ha contratto un’infezione (Vsupext) (2) (2a) Max si prende la responsabilità di rispondere (Vsup) Max si assume la responsabilità di rispondere (Vsupext)74 (3) (3a) Luigi fa un discorso (Vsup) Luigi introduce un discorso (Vsupext) (4) (4a) Anna fa un affare (Vsup) Anna conclude un affare (Vsupext) dove gli esempi (1a) e (2a) sono varianti pragmatiche di (1) e (2) in quanto hanno un diverso grado di formalità e sono realizzabili in contesti discorsivi dal registro diverso; invece, l’esempio (3a) è una variante dalla valenza incoativa di (3) mentre (4a) è una variante dalla valenza telica di (4). Cicalese (1999: 463-‐468) individua delle combinazioni Vsupext + N le quali sono parafrasabili con un verbo operatore ma non hanno un verbo a supporto neutro equivalente (come ad es., aggiudicarsi una vittoria > vincere > *fare/ avere/ prendere una vittoria) e delle combinazioni non parafrasabili né con un verbo operatore né con un Vsup neutro (come ad es., commettere un delitto > *delittare > *fare un delitto). Nel nostro studio (cfr. di seguito par. 6.2.) abbiamo classificato questi ultimi due casi come collocazioni con verbo ordinario (Vord) in quanto si tratta di combinazioni verbo-‐nominali che, a differenza delle Vsup, non sono semanticamente sbilanciate verso il nome ma acquisiscono il significato specifico nella co-‐occorrenza dei loro componenti (meaning by collocation, Firth 1957). Gli usi verbali estesi, afferma Cicalese, sono di difficile repertoriamento in quanto sono individuabili solo in contesti frastici concreti, dal momento che alcuni verbi risultano vincolati esclusivamente ad alcuni nomi piuttosto che ad altri; ad es., nonostante i verbi contrarre e assumere siano sinonimi di prendere, risulteranno inaccettabili frasi del tipo (Cicalese 1999: 455): (1b) (2b) *Max contrae la responsabilità di rispondere *Max si assume un’infezione Se ne deduce quindi che l’estrazione dai corpora, ovvero dai contesti d’uso reali ed autentici, delle sequenze sintagmatiche sia il modo più efficace per reperire ed analizzare le estensioni dei verbi a supporto e le loro preferenze combinatorie in quanto, per mezzo di tale metodologia, ogni combinatoria verbo-‐nominale può essere visualizzata in tutte le sue occorrenze. 74
Esempi tratti da Cicalese (1999: 454). 113 Per i motivi teorici sopraelencati l’analisi linguistica presentata in questo capitolo annovera nel concetto di collocazione, oltre alle Vsup, anche le estensioni di verbo a supporto (di seguito Vsupext) e tutte le combinazioni V+NOgg in cui il nome ha la funzione di operatore e seleziona un determinato verbo ordinario (di seguito Vord) con il quale forma un unico gruppo predicativo (includendo sia le combinazioni preferenziali che le combinazioni semanticamente necessarie, ovvero quelle combinazioni che rappresentano l’unico modo di esprimere un dato concetto in una determinata lingua)75. In conclusione va fatta una precisazione terminologica. Il concetto di collocazione come utilizzato nella presente analisi linguistica non è del tutto sovrapponibile al termine polirematica (es., anno accademico, guerra fredda, vedere rosso, essere al verde, ecc.), molto usato in ambito lessicografico (LIP – Lessico di frequenza dell’italiano parlato, De Mauro, Mancini, Vedovelli, Voghera 1993; DISC – Dizionario italiano Sabatini Coletti, Sabatini, Coletti 2008; GRADIT – Grande dizionario italiano dell’uso, De Mauro 1999-‐2000), il quale denota una sequenza di parole dal significato unitario e si riferisce a formazioni molto varie tra di loro sia per composizione interna che per comportamento morfosintattico e che vanno da un massimo ad un minimo di agglutinazione76. De Mauro (2005: 89) definisce le polirematiche (es., essere al verde, buttare a mare) come delle unità lessicali dotate di uno specifico sovrappiù semantico (dal significato non composizionale quindi) e di una cristallizzazione lessicale e sintattica (*essere a un verde/ *essere ai verdi, ecc.) più o meno forte; inoltre, vengono definite polirematiche anche quelle unità lessicali presenti in maniera significativa nei linguaggi tecnico-‐specialistici le quali, pur non essendo dotate di sovrappiù semantico, sono formate da componenti che si specificano in accezioni non comuni (es., particella elementare, animale da cortile)77. Nel prossimo paragrafo analizziamo alla luce dei criteri linguistici sopra descritti il gruppo delle collocazioni empiriche individuate nel capitolo quinto, ovvero le combinazioni verbo-‐nominali prodotte dai nativi che sono risultate essere le più frequenti e le più strettamente associate. 75
Alla base di entrambi i casi, infatti, riteniamo esserci come fattore determinante la frequenza d’uso che sancisce il grado di familiarità di una combinazione la quale tende a diventare l’unico modo che una lingua possiede per esprimere un dato concetto. 76
Si trovano inoltre i termini lessema complesso (Voghera 1994; De Mauro, Voghera 1996) o unità lessicale superiore (Dardano 1978) con i quali viene messa in rilievo l’unitarietà lessico-‐semantica di tali combinazioni. Cfr. Voghera (2004: 56). 77
Masini (2009) definisce “espressioni multiparola” le combinazioni caratterizzate da una forte coesione strutturale interna e da una semantica poco trasparente, benché questo ultimo non sia un criterio necessario per la loro definizione; le espressioni multiparola sono dotate di una forte fissità paradigmatica dato che la scelta dei costituenti risulta obbligatoria: la loro sostituzione produce un cambiamento di significato (come ad es., anno accademico vs. anno universitario). 114 Trattiamo separatamente le collocazioni con verbo ordinario (Vord), le costruzioni a verbo supporto (Vsup) e le costruzioni a verbo supporto esteso (Vsupext). Le collocazioni empiriche che non sono sembrate a chi scrive rispondenti ai criteri linguistici descritti in questo paragrafo sono state elencate in Appendice 4: vi figurano sia le combinazioni definite da Ježek “ristrette” in quanto basate su una implicazione sintagmatica di contenuto (ad es., educare un figlio) che le combinazioni libere di parole (come ad es., aprire la finestra)78. 6.2. Le collocazioni Verbo + Nome prodotte dai nativi Dall’analisi quantitativa condotta nel precedente capitolo è emerso che i criteri soglia adottati in maniera congiunta nel presente studio come significativi per una collocazione, ovvero una frequenza pari o superiore a 10, un punteggio di MI (Mutual Information) uguale o superiore a 3 e di t-‐score uguale o superiore a 2, sono risultati essere posseduti da 359 combinazioni V+N diverse estratte dal corpus dei nativi SCUOLA (per la descrizione del corpus, cfr. par. 5.2.1., per la descrizione delle misure di associazione utilizzate, cfr. par. 5.1.); nel presente paragrafo queste combinazioni vengono analizzate alla luce dei criteri linguistici sopra descritti (par. 6.1.). Delle 359 combinazioni V+N sono state escluse dall’analisi linguistica 14 combinazioni poiché non rispondenti al paradigma sintattico analizzato nel presente studio (V+NOgg) in quanto il Nome non aveva la funzione di Oggetto (ad es., suonare sveglia, alzare mattina, capitare volta)79. Tra le 345 combinazioni rimanenti sono state individuate 212 collocazioni (61%, tab. 1) e 133 combinazioni rispondenti soltanto ai criteri quantitativi (39%, Appendice 4). Tra le collocazioni sono state annoverate in base ai motivi sopra elencati (par. 6.1.) anche le costruzioni a verbo supporto (Vsup) e le costruzioni a verbo supporto esteso (Vsupext); in entrambe le tabelle (tab. 1 e Appendice 4) sono state evidenziate le combinazioni con un punteggio alto di MI (ovvero 14 > MI ≥ 7, tot. 125, in verde) e di t-‐score (ovvero 17 > t-‐score ≥ 5, tot. 77, in giallo); in arancio sono state marcate le combinazioni che hanno registrato valori alti per entrambe le misure di associazione: 78
Di fatto, non esistono combinazione di parole totalmente libere alla luce del fatto che qualsiasi combinazione presenta almeno qualche restrizione di tipo concettuale legata alle proprietà inerenti ai referenti delle parole i quali, in base alla loro natura, possiedono attributi e impieghi tipici e meno tipici (Ježek 2005: 175). 79 Le altre 11 combinazioni escluse dall’analisi per lo stesso motivo sono: arrivare momento, arrivare notizia, crollare scuola, dormire ora, durare anno, esistere persona, passare parte, succedere cosa, svegliare mattina, trascorrere parte, venire ora. 115 Collocazioni Verbo + Nome (corpus SCUOLA) Vord affrontare giornata problema vita approfondire argomento arricchire lessico linguaggio attirare attenzione cambiare aria idea mondo vita catturare attenzione causare morte chiedere aiuto commettere reato conoscere mondo conquistare lavoro costruire futuro evitare contagio contatto finire serata impiegare tempo lasciare posto segno spazio lavare dente mantenere famiglia migliorare situazione passare anno giornata giorno mese ora tempo peggiorare situazione perdere interesse lavoro senso significato speranza tempo avere dare Vsup bisogno capacità certezza coraggio diritto effetto fame febbre fiducia fortuna fretta impressione intenzione necessità origine paura possibilità ragione rapporto rendimento ruolo scopo sensazione talento timore vocabolario voglia colpa consiglio contributo esempio fastidio forza fuoco importanza informazione mano peso possibilità ragione risposta Vsupext appiccare fuoco assumere responsabilità attribuire colpa causare danno commettere errore compiere atto azione gesto condurre vita contrarre malattia virus correre pericolo rischio creare problema diventare abitudine mezzo moda presidente problema realtà garantire sicurezza porre domanda fine prendere abitudine influenza sonno presentare sintomo provocare danno ricevere regalo sentire bisogno necessità svolgere compito lavoro vivere esperienza 116 porre prestare provocare realizzare rendere ripetere rischiare risparmiare rovinare rubare scambiare seguire superare suscitare sviluppare tenere togliere trascorrere trasmettere usare utilizzare valore vita voglia rimedio attenzione morte sogno conto anno vita tempo vita lavoro regalo consiglio lezione moda regola difficoltà interesse frasario conto vita giornata ora tempo emozione abbreviazion
e cellulare computer Internet linguaggio parola parolaccia termine web abbreviazion
e Internet linguaggio parola termine essere fare risultato sfogo spazio via voce dimostrazione fonte frutto sinonimo amicizia appello attenzione battuta colazione compito conoscenza conto differenza discorso doccia domanda fatica figura finta fronte gesto giro legge parte passeggiata passo pubblicità regalo ricerca riferimento rumore scelta schifo spesa uso vaccino 117 valere vedere verificare Tab. 1 pena ora caso mettere prendere sveglia fine mano piede autobus decisione esempio posto provvedimento sopravvento voto Le collocazioni V+NOgg prodotte dai nativi (corpus SCUOLA) Delle 212 collocazioni V+N in tabella 1, il 60% (tot. 127 collocazioni) è costituito da costruzioni a verbo supporto (Vsup, tot. 93 collocazioni) e a verbo supporto esteso (Vsupext, tot. 34 collocazioni), mentre il restante 40% (tot. 85) è costituito da combinazioni formate da un verbo ordinario (Vord) selezionato dal nome con il quale concorre alla realizzazione di un significato espresso dalla loro combinazione (meaning by collocation, Firth 1957). Inoltre, sempre in riferimento alla tab. 1, si può osservare che il 31% delle collocazioni (evidenziate in verde e in arancio, tot. 66) possiede valori alti di MI e il 22% (evidenziato in giallo e arancio, tot. 47) valori alti di t-‐score; tra queste, alla classe delle collocazioni con valori alti di entrambe le misure associative (in arancio) appartengono soltanto 8 collocazioni (affrontare la giornata, attirare l’attenzione, rendere conto, tenere conto, dare la colpa, dare fastidio, dare fuoco e dare importanza). Questi dati confermano il fatto che le due misure di associazione tendono ad evidenziare gruppi di collocazioni dalle caratteristiche diverse: osservando la tab. 1 si può notare che ai valori più alti di t-‐score (giallo e arancio) appartengono principalmente (59%) le costruzioni a verbo supporto (Vsup) formate da verbi ricorrenti quali avere, dare e fare80. Al contrario, i valori alti di MI81 fanno emergere soprattutto (80%) le collocazioni con i Vord e con i Vsupext (i quali, essendo appunto estensioni dei Vsup, sono verbi meno frequenti rispetto a quelli coinvolti nelle costruzioni a verbo supporto base): le collocazioni con Vsup dai punteggi alti di MI rappresentano soltanto il 19%. Da queste osservazioni si può concludere che: 1) i valori soglia adottati negli studi sull’estrazione delle collocazioni dai corpora di lingua inglese, ovvero il valore della Mutual Information uguale o superiore a 3 e il valore del t-‐score uguale o 80
La peculiarità del t-‐score è di attribuire punteggi alti alle coppie di parole frequenti all’interno di un corpus. La Mutual Information dà rilievo alle coppie di parole meno frequenti ma più strettamente associate all’interno di un corpus. 81
118 superiore a 2 combinati con valori alti di frequenza (nel presente studio la soglia di frequenza è stata fissata a 10), possono essere applicati con risultati sufficienti anche all’italiano; infatti, in seguito all’analisi linguistica condotta su tutte le combinazioni verbo-‐nominali estratte in base a tali criteri quantitativi, è emerso che il 61% di queste è costituito da collocazioni82; 2) le collocazioni individuate a partire dai criteri quantitativi esposti nel punto precedente sono costituite perlopiù (60%) da costruzioni a verbo supporto (Vsup) e a verbo supporto esteso (Vsupext); 3) le Vsup sono messe in evidenza dai valori alti di t-‐score (il 59%) mentre le Vsupext e le collocazioni con verbo ordinario (Vord) sono caratterizzate in prevalenza dai valori alti di MI (80%). 6.2.1. Analisi delle collocazioni Vsup + N prodotte dai nativi Le collocazioni a verbo supporto neutro (Vsup) prodotte dai nativi (tot. 93, tab. 1) sono state realizzate con i verbi fare (32), avere (27), dare (19), prendere (7), essere (4) e mettere (4); tra questi verbi il paradigma più frequente è fare + Nome Predicativo (tot. 21) in cui il verbo conferisce alla costruzione l’Aktionsart. In questo gruppo rientrano le costruzioni: fare amicizia, fare attenzione, fare la/ una battuta, fare la/ [] colazione, fare il/ un compito, fare il/ [] conto, fare la/[] differenza, fare il/ un discorso, fare la/ una doccia, fare la/ [] figura, fare fronte, fare il/ un gesto, fare il/ un giro, fare la/ una legge, fare la/ [] parte, fare il/ un passo, fare la/ [] pubblicità, fare il/ un regalo, fare schifo, fare la/ [] spesa e fare il/ un vaccino. Questa categoria è formata da costruzioni dalla coesione morfosintattica più o meno forte: si passa dalle combinazioni più coese e parzialmente lessicalizzate quali fare amicizia, fare attenzione, fare fronte e fare schifo in cui la non referenzialità dell’Oggetto, la quale comporta la perdita dell’articolo, blocca alcune delle operazioni sintattiche come la passivizzazione (*l’attenzione è stata fatta da Paolo) o la dislocazione dello stesso (*il/ la fronte, l’ha fatto/ a Luca), alle combinazioni sintatticamente libere che si presentano tutte con l’articolo quali fare una/ la battuta, fare un/ il compito, fare un/ il discorso, fare una/ la doccia, fare un/ il gesto, fare un/ il giro, fare una/ la legge, fare un/ il passo, fare un/ il regalo e fare un/ il vaccino; tra questi due poli si trova il gruppo delle combinazioni che può presentarsi con o senza l’articolo, un fattore che determina l’oscillazione di questo tipo di collocazioni da un estremo all’altro della coesione morfosintattica e, in alcuni casi, ne influenza anche la semantica. Si tratta delle combinazioni: fare colazione (fare colazione > mangiare ≠ fare la colazione > preparare), fare conto (fare conto > considerare ≠ fare il conto > conteggiare), fare differenza (fare differenza > essere indifferente83 ≠ fare la differenza > sottrarre [lett.], avere un valore aggiunto [fig.]), fare figura (fare una figura > fare una impressione [val. positivo/ negativo] ≠ fare 82
La percentuale si riferisce al totale delle combinazioni V+NOgg. Soltanto nella costruzione negativa “[qlcs.] non fa differenza”. 83 119 figura > fare una buona riuscita [val. solo positivo]84), fare parte (fare parte > essere parte di qlcs. ≠ fare la parte [di] > recitare); le combinazioni fare pubblicità e fare spesa fanno parte del gruppo appena descritto ma la presenza o meno dell’articolo non influisce sulla semantica dell’intera costruzione (fare pubblicità [a qlcs.]/ fare la/ una pubblicità [di qlcs.] = pubblicizzare; fare spesa/ fare la spesa = acquistare dei prodotti). Nel paradigma fare + Nome predicativo rientra anche la combinazione dal valore causativo fare rumore in cui il Vsup rende esplicito il legame di causatività tra il Soggetto sintattico/ Agente (x) e l’evento espresso dal complemento (z) del Verbo (es. Luigi (x) fa (CAUSA) rumore (z)85) e partecipa quindi alla configurazione aspettuale del costrutto. Tra le costruzioni a Vsup realizzate con il verbo fare rientrano anche quelle relative al paradigma fare + Nome Deverbale (tot. 10), quali fare l’appello, fare la conoscenza, fare la/ una domanda, fare fatica, fare la/[] finta, fare la/ una passeggiata, fare la/ [] ricerca, fare un/ [] riferimento, fare la/ una scelta e fare un/ [] uso; questa categoria è stata definita da Mastrofini (2004: 379) come la classe che meglio concretizza le proprietà che la letteratura attribuisce alle costruzioni a Vsup, ovvero operatività grammaticale del Verbo e pienezza lessicale del complemento. Anche per questa categoria la coesione morfosintattica dipende dal grado di referenzialità dell’Oggetto (ad es., Luca fa una/ tante domanda/ e, La domanda è stata fatta da Luca; Anna fa riferimento al bando, * Riferimento al bando è stato fatto da Anna). La seconda tipologia più frequente di costruzioni a Vsup prodotta dai nativi è stata realizzata con il verbo avere + Nome Predicativo (tot. 25): avere bisogno, avere la/ una capacità, avere la/ una certezza, avere il/ [] coraggio, avere il/ [] diritto, avere un/ [] effetto, avere fame, avere la febbre, avere fiducia, avere fortuna, avere fretta, avere l’/ un’impressione, avere l’/ [] intenzione, avere la/ [] necessità, avere origine, avere paura, avere la/ [] possibilità, avere ragione, avere il/ un ruolo, avere lo/ uno scopo, avere la/ una sensazione, avere il/ [] talento, avere timore, avere il/ [] vocabolario e avere voglia. I nomi che rientrano nella costruzione avere + Nome Predicativo esprimono tutti degli stati emozionali, intellettivi o fisici, più o meno transitori e mostrano un grado più basso di coesione morfosintattica a causa di una minore libertà sintattica che ne blocca la passivizzazione (*la fame è avuta da Luca) e l’estrazione dell’Oggetto (*è fame che ha Luca)86. A proposito di questa categoria di combinazioni sono state formulate due diverse 84
ad es., “quel vestito fa figura”. Mastrofini inserisce questa tipologia di costruzioni con valore causativo nella IV classe della suddivisione basata su criteri semantici e sintattici da lei operata in Mastrofini (2004); si tratta di un tipo di costruzione a Vsup con valore causativo parafrasabile con la formula “x cause z to happen”, es. fare vendetta, fare casino (cfr. ibidem, p. 388). 86
Cfr. Mastrofini (2004: 383-‐384). 85
120 ipotesi sulla sede della predicazione: secondo Mastrofini (2004) la predicazione sarebbe conferita alla costruzione dalla combinazione V+N dal momento che proprio grazie alla presenza del Vsup il nome sarebbe in grado di predicare; secondo altri linguisti come Gross (1996: 55-‐56) e Cicalese (1999: 449) la funzione predicativa sarebbe espletata solo dal Nome ed attualizzata attraverso il Verbo il quale ne risulterebbe privo. Soltanto due sono le realizzazioni del paradigma avere + Nome Deverbale (avere rendimento e avere rapporto), più libere sintatticamente rispetto alla combinazione avere + Nome Predicativo di cui sopra; questo paradigma è quindi assimilabile al precedente fare + Nome Deverbale: entrambi i casi rientrano nella prima classe dello studio di Mastrofini (2004) in cui la parte nominale controlla la configurazione semantico-‐aspettuale e sintattico-‐argomentale del costrutto (ibidem: 390). Tra le costruzioni con il verbo dare (tot. 19), figurano 5 costruzioni con Nome Deverbale portatore della predicatività del costrutto: dare il/ un consiglio, dare l’/ un’informazione, dare la/ una risposta, dare sfogo e dare il/ un risultato. Sono costruzioni sintatticamente libere, fatta eccezione per il sintagma dare sfogo [a qlcs.] in cui la referenzialità del Nome è andata persa: si presenta senza l’articolo e risulta parzialmente lessicalizzato (le operazioni sintattiche quali passivizzazione, relativizzazione, ecc. sono inficiate salvo la possibilità dell’inserzione dell’aggettivo libero tra i due componenti della collocazione nell’espressione fissa dare libero sfogo [a]). Nelle altre costruzioni con il verbo dare prodotte dai nativi questo è seguito dal Nome Predicativo (9): dare il/ un contributo, dare l’/ un esempio, dare la/ una mano, dare peso, dare la/ una possibilità, dare la/ [] ragione, dare lo/ [] spazio, dare via e dare la/ [] voce. Anche questo gruppo di costruzioni è coeso sintatticamente a vario grado: c’è una combinazione che presenta una certa rigidità come dare voce [a qlcn./qlcs.] (ad es., Maria ha dato voce ai propri pensieri / *Maria ha dato la/ una voce ai propri pensieri / *Voce è stata data da Maria ai propri pensieri), ci sono combinazioni più libere a seconda della presenza o dell’assenza dell’articolo come dare peso, dare ragione e dare spazio (ad es., Paolo ha dato [un] peso a quello che ho detto/ Un peso a quello che ho detto è stato dato da Paolo / *Peso a quello che ho detto è stato dato da Paolo) e combinazioni libere sintatticamente in cui il Nome è totalmente referenziale quali dare il/ un contributo dare il/ un esempio. Costituisce un’eccezione la locuzione dare il via, libera sintatticamente ma realizzabile nel suo significato di “avviare la partenza” soltanto per mezzo della variante con l’articolo determinativo singolare; al contrario, la forma dare via senza l’articolo dal significato di “cedere” costituisce un verbo sintagmatico, essendo realizzata dal paradigma dare + Avverbio, ed esce dal profilo sintattico studiato nel presente lavoro. 121 Il verbo dare con valore causativo figura nelle seguenti costruzioni (5): dare la/ una colpa, dare fastidio, dare la forza, dare fuoco e dare l’/[] importanza nelle quali il Vsup trasferisce il legame di causatività tra (x) e (z) su di un terzo argomento (y) parafrasabile secondo la formula “x cause y to become z (Adj)” dove x rappresenta il Soggetto Sintattico e Agente; z il Complemento del Vsup e y l’Esperiente del cambiamento di stato espresso nel contenuto predicativo della costruzione (Mastrofini 2004: 388-‐389), per cui si può avere, ad es., Il cane dà fastidio a Lucia, ovvero Lucia diventa infastidita a causa del cane; Maria dà forza a Marco, ovvero Marco diventa forte a causa di Maria. Le costruzioni realizzate con il verbo prendere (7) come prendere l’/ un autobus, prendere la/ una decisione, prendere l’/[] esempio, prendere il/ un posto, prendere il/ [] provvedimento, prendere il sopravvento e prendere il/ [] voto sono sintatticamente libere fatta eccezione per le costruzioni prendere esempio, in cui il nome non è referenziale e conferisce fissità sintagmatica all’intera combinazione (*è l’esempio che ha preso Sara/ * l’esempio è stato preso da Sara), e prendere il sopravvento la quale si presenta soltanto con l’articolo determinativo (*è il sopravvento che ha preso la situazione/ *il sopravvento è stato preso dalla situazione). In tutti gli altri casi è l’elemento nominale a contestualizzare l’interpretazione semantica del verbo (si confronti, ad es., il significato del verbo in: prendere l’autobus = utilizzare, prendere un voto = ottenere, prendere il posto = impossessarsi, ecc.). Tra le costruzioni a Vsup prodotte dai nativi ce ne sono quattro realizzate con il verbo essere: essere la/ [] dimostrazione, essere la/[] fonte, essere il/ [] frutto e essere il/ [] sinonimo. Ciò che distingue le costruzioni a Vsup dalle costruzioni copulative è il fatto di essere realizzate con Nomi “insaturi”, ovvero con nomi che reggono due o più argomenti (es., la pace è il frutto delle negoziazioni) mentre le seconde vengono realizzate con un nome classificatore come ingegnere (cfr. Ježek 2011; Prandi 2006: 309). In lingua italiana, un altro paradigma possibile delle costruzioni a Vsup con il verbo essere (Ježek 2011), seppur meno frequente, è costituito da essere in + Nome (ad es., essere in asia, essere in dubbio) il quale, tuttavia, non rientra tra le combinazioni più frequenti prodotte dai nativi del presente studio. Infine, l’ultimo gruppo di costruzioni a Vsup è stato realizzato con il verbo mettere (4): mettere fine, mettere mano, mettere piede e mettere sveglia. Tra queste, la combinazione mettere fine non è sintatticamente libera ed ha valore causativo (ad es., Marco mette fine allo spettacolo): il Vsup trasferisce il legame di causatività che intercorre tra il Soggetto sintattico/ Agente (Marco) e l’evento espresso dal complemento del Verbo (fine) su di un terzo argomento (spettacolo, l’Esperiente del cambiamento di stato). Le costruzioni mettere mano e mettere piede sono morfosintatticamente coese e hanno un significato non 122 composizionale nella loro variante senza l’articolo (ad es., Paolo ha finalmente messo mano all’articolo > Paolo ha finalmente iniziato a lavorare all’articolo/ Luca non ha messo piede nel negozio > Luca non è entrato nel negozio) mentre sono libere ed interpretabili letteralmente nella variante con l’articolo (ad es., Non mettere le mani nelle fessure!/ Non mettere i piedi nell’acqua!). Infine, la combinatoria mettere la sveglia è una collocazione sintatticamente libera in cui il verbo mettere è portatore del significato di impostare. L’analisi delle collocazioni a verbo supporto (Vsup) prodotte dai nativi ha rivelato che queste costruzioni costituiscono delle entità morfosintatticamente eterogenee: oscillano tra le combinazioni più coese e parzialmente lessicalizzate (come, ad es., fare amicizia e dare voce) e le combinazioni sintatticamente libere (quali, ad es., fare una/ la doccia e dare un/ il consiglio) passando per le collocazioni che possono avere una doppia natura in quanto ammettono sia la presenza che l’assenza dell’articolo, un fattore che può influenzarne anche la semantica (come ad es., fare parte e fare la parte). L’analisi del prossimo paragrafo sarà dedicata alle collocazioni con verbo a supporto esteso (Vsupext), ovvero a quelle costruzioni V+N formate dai verbi ordinari che entrano in equivalenza distribuzionale con un supporto di grado zero, mantenendone o arricchendone la semantica. 6.2.2. Analisi delle collocazioni Vsupext + N prodotte dai nativi Le collocazioni con Verbo a supporto esteso (Vsupext, cfr. par. 6.1.) prodotte dai nativi (tot. 34) sono state elencate nuovamente di seguito (tab. 2). Nella tabella viene riportato, accanto a ciascuna combinazione Vsupext + Nome: il corrispettivo supporto neutro (Vsup); se si tratta di una variante pragmatica (di registro) o di una variante aspettuale (in tal caso viene specificato di quale valenza si tratta); il verbo operatore corrispondente (laddove esiste): Vsupext NOME Vsup appiccare assumere attribuire causare commettere compiere condurre conquistare fuoco responsabilità colpa danno errore atto azione gesto vita lavoro dare prendere dare fare fare fare fare fare avere/fare avere VARIANTE VARIANTE PRAGMATICA ASPETTUALE + + + + + + + + + continuativo telico VERBO OPERATORE incendiare -‐ incolpare danneggiare errare agire -‐ -‐ vivere -‐ 123 contrarre correre creare diventare garantire prendere porre presentare ricevere sentire svolgere venire Tab. 2 malattia virus pericolo rischio problema abitudine problema realtà moda presidente mezzo sicurezza abitudine influenza sonno domanda fine sintomo regalo bisogno necessità compito lavoro voglia prendere / avere prendere essere (in) essere (a) fare essere essere essere essere essere essere dare avere avere avere fare mettere avere prendere avere avere fare fare avere + + + + + + + + + + + continuativo continuativo incoativo incoativo incoativo incoativo incoativo incoativo incoativo incoativo incoativo incoativo incoativo ammalarsi -‐ -‐ rischiare -‐ -‐ -‐ realizzarsi -‐ -‐ -‐ -‐ abituarsi (a) -‐ addormentarsi domandare -‐ -‐ -‐ -‐ necessitare -‐ lavorare Le collocazioni a Verbo supporto esteso (Vsupext) prodotte dai nativi (corpus SCUOLA) Si può osservare che la gran parte (56%) delle estensioni prodotte dai nativi sono varianti pragmatiche o di registro; si tratta di combinazioni quali assumersi la/ una responsabilità, attribuire la/ una colpa, svolgere il/ un compito, ecc. che entrano in rapporti parafrastici con i rispettivi verbi a supporto neutri (prendersi la/ una responsabilità, dare la/ una colpa, fare il/ un compito) e non apportano alcuna sfumatura di senso aggiuntiva. La restante parte dei Vsupext realizzati, al contrario, risulta essere portatrice di diverse valenze aspettuali che conferiscono alla collocazione un significato più specifico rispetto alle corrispondenti combinazioni con verbo a supporto base; le varianti aspettuali realizzate sono, in ordine di frequenza, l’incoativa, la continuativa e la telica. Il valore incoativo identifica l’inizio di un processo ed è espresso dai verbi creare, diventare e venire nelle combinazioni creare il/ un problema, diventare un/ [] abitudine, diventare il/ un problema, diventare realtà, diventare moda, diventare il/ [] presidente, diventare il/ un mezzo e venire la/ [] voglia. Nella nostra analisi abbiamo inserito tra le estensioni con valore incoativo anche tre combinazioni con il verbo prendere (prendere l’abitudine, prendere 124 l’influenza e prendere sonno)87 interpretate da chi scrive come estensioni del verbo base avere e quindi, rispettivamente, delle combinazioni avere l’abitudine, avere l’influenza e avere sonno, seppur tipicamente questo verbo in co-‐occorrenza ai nomi dia luogo alle Vsup (vedi par. 6.2.1., ad es. prendere la/ una decisione, prendere l’/ un autobus, ecc.). Il valore continuativo è definito dai verbi che indicano azioni le quali si sviluppano in un arco di tempo più o meno lungo; nel presente studio abbiamo etichettato come estensioni con valore continuativo i verbi condurre e correre nelle combinatorie condurre la/ una vita, correre il/ un pericolo e correre il/ un rischio rispetto alle costruzioni neutre con i verbi avere e essere: (1) Mario conduce [Vsupext] una vita sregolata da molto tempo > (1a) Mario ha [Vsup] una vita sregolata88; (2) Luca corre [VSupext] il pericolo/ il rischio di licenziamento da anni > (2a) Luca è in pericolo/ a rischio di licenziamento. Il valore telico, proprio dei verbi che hanno la caratteristica di essere finalizzati ad una méta ed indicano la fine di un processo al termine del quale si ottiene un risultato, è proprio soltanto della combinazione conquistare il/ un lavoro la quale si presenta come variante della costruzione base con il verbo avere (ad es., Anna ha [Vsup] un buon lavoro > Anna ha conquistato [Vsupext] un buon lavoro). Come messo bene in evidenza da Cicalese (1999: 462-‐467), le combinazioni Vsupext + Nome, pur generando variazioni di senso, possono entrare in rapporti parafrastici con un verbo predicativo (o Verbo operatore) corrispondente: ne sono esempi (tab. 2) contrarre una malattia > ammalarsi, porre una domanda > domandare, svolgere un lavoro > lavorare. Questa corrispondenza, tuttavia, non è propria di tutte le combinazioni e non segue una regola: sono numerose le costruzioni che non hanno un corrispettivo verbo sintetico (svolgere un compito > *compitare). Per quel che concerne la coesione morfosintattica delle costruzioni a Verbo supporto esteso possiamo notare che anche queste possiedono diversi gradi di libertà. Si passa dalle costruzioni con il nome non referenziale e con un grado più elevato di lessicalizzazione tale da rendere impossibili alcune delle operazioni sintattiche (ad es., prendere sonno, diventare abitudine/ moda/ realtà, porre fine e venire voglia) ai sintagmi liberi come svolgere il/ un compito, contrarre la/ una malattia e commettere il/ un errore. L’analisi condotta nel prossimo paragrafo riguarda le collocazioni con verbo ordinario (Vord) prodotte dai nativi della lingua italiana. L’attribuzione di una 87
Nell’analisi di Mastrofini (2004: 386-‐388) la combinazione prendere sonno è stata fatta rientrare nella classe delle costruzioni a Vsup con valore incoativo seguito da Nome Eventivo Non Referenziale (analogamente a prendere fuoco) dalla ridotta libertà sintattica. 88
La costruzione in (1) risulta invece variante pragmatica se la si considera estensione del Vsup neutro fare > (1b) Mario fa una vita sregolata. 125 combinazione V+N a questa tipologia di collocazioni risulta senza dubbio difficile e controversa in ragione della natura predicativa del verbo il quale, pur essendo dotato di un significato proprio, acquisisce un significato specifico nella co-‐
occorrenza con il Nome che lo seleziona in un determinato contesto d’uso. 6.2.3. Analisi delle collocazioni Vord + N prodotte dai nativi Il terzo gruppo di collocazioni analizzato nel presente studio è costituito dalle collocazioni con verbo ordinario (Vord) il quale, a differenza del verbo coinvolto nelle costruzioni a Vsup (par. 6.2.1.), non è semanticamente vuoto e non rappresenta nemmeno l’estensione di un verbo a supporto base come nel caso delle costruzioni a Vsupext (par 6.2.2.), ma è portatore di un significato che emerge nella specifica combinatoria con l’Oggetto (si confronti a questo proposito la differenza tra la collocazione con verbo ordinario porre rimedio e l’estensione porre una domanda, variante pragmatica di fare una domanda)89. Le collocazioni così definite si distinguono anche dalle combinazioni ristrette (cfr. il seguente par. 6.2.4.) le quali presentano una implicazione sintagmatica di contenuto e possono essere più o meno circoscritte in base alla semantica del verbo (ad es., ascoltare una canzone, educare un figlio) e dalle combinazioni libere (ad es. prendere un libro)90. Come già affermato nel par. 6.1. sulla descrizione dei criteri linguistici adottati in questo studio per la definizione delle collocazioni queste comprendono: 1) le combinazioni in cui la base (il Nome) seleziona il collocato (il Verbo) perché lo richiede necessariamente per esprimere un determinato significato in quanto i due termini hanno instaurato tra di loro una solidarietà basata sull’uso (evidenziate in azzurro in tab. 3) come, ad es., seguire un consiglio, cambiare l’/[] aria; 2) le combinazioni definite da Masini (2009) come “preferenziali” in quanto costituiscono il modo più familiare nonché il più frequente per esprimere un dato concetto tra le altre combinazioni semanticamente possibili (come ad es., suscitare interesse vs. accendere interesse).91 Entrambe queste tipologie di collocazione hanno alla base il concetto di uso e 89
Si confronti, a tal proposito, anche la differenza tra la costruzione a verbo supporto esteso causare danno, variante pragmatica di fare danno, e la collocazione causare morte (*fare morte). 90
Le collocazioni empiriche non rispondenti ai criteri linguistici adottati in questo studio, elencate in Appendice 4 (per i nativi) e in Appendice 5 (per gli apprendenti), sono costituite dalle combinazioni ristrette e dalle combinazioni libere di parole. 91
La familiarità nonché la frequenza delle combinazioni preferenziali è, in genere, soggetta al registro, all’idioletto nonché ai giudizi dei singoli parlanti nativi; in questo studio, qualsiasi affermazione sulla frequenza e sulla familiarità delle combinazioni V+N in lingua italiana si riferisce soltanto al campione linguistico a nostra disposizione (il corpus SCUOLA); intendiamo con il concetto di combinazione più familiare la combinazione che è risultata essere più frequente rispetto ad altre semanticamente affini attestate nel corpus. Quanto esposto nel presente lavoro, quindi, non deve essere necessariamente valido per l’italiano contemporaneo, i giudizi di frequenza sul quale devono essere condotti a partire da un corpus di riferimento. 126 di frequenza: nel primo caso, questo fattore potrebbe aver agito eliminando tutte le altre combinatorie concorrenti (soltanto uno studio sulle restrizioni di selezione orientato diacronicamente potrebbe confermare o smentire questa ipotesi); nel secondo caso la frequenza d’uso potrebbe aver impresso alle combinatorie preferenziali uno status di familiarità, riconoscibile ai parlanti nativi, senza arrivare a sancirne il predominio semantico su altre combinatorie potenzialmente possibili e, in alcuni casi, anche attestate negli stessi contesti. La differenza che può intercorrere tra queste due tipologie di collocazione è lo statuto semantico del Verbo. Nel primo caso la semantica del Verbo si adatta e si specializza nella combinatoria con l’Oggetto che lo seleziona: può accadere che in questo riadattamento semantico-‐lessicale il Nome selezioni uno dei possibili usi figurati del Verbo oppure una delle sue accezioni secondarie, anche se ciò non sempre è necessario in quanto la selezione dei collocati da parte delle basi per esprimere un dato concetto non segue una regola. Nel secondo caso il verbo può mantenere il suo significato primario: la sua combinazione con un determinato Oggetto costituisce la variante più frequente per esprimere un dato concetto. Quando parliamo combinatoria di più frequente intendiamo rispetto a: 1) altre combinatorie che potrebbero essere, in linea teorica, semanticamente ammissibili ma che non risultano familiari per un parlante nativo (come, ad es., perdere l’interesse vs. smarrire l’interesse); 2) altre combinatorie semanticamente ammissibili la cui frequenza d’uso potrebbe oscillare in base alla variazione diafasica, diastratica o diatopica dell’atto comunicativo in cui vengono prodotte (come, ad es., lasciare il posto vs. cedere il posto)92. Benché la distinzione tra le due tipologie di combinatorie non sia univoca e lasci ampi spazi alla discussione, abbiamo comunque tentato di individuare nel gruppo delle collocazioni con Vord prodotte dai nativi, elencate nella seguente tabella 3, le collocazioni del primo tipo in cui il Verbo si è specializzato nella combinatoria con l’Oggetto (evidenziate in azzurro) dalle collocazioni preferenziali per il campione linguistico in analisi: VERBO affrontare approfondire arricchire attirare NOME giornata problema vita argomento lessico linguaggio attenzione VERBO realizzare rendere ripetere rischiare risparmiare rovinare rubare NOME sogno conto anno vita tempo vita lavoro 92
Ricordiamo che il campione linguistico utilizzato per l’analisi dei dati dei parlanti nativi è costituito dalle produzioni scritte di ragazzi frequentanti le scuole medie inferiori e superiori per cui la maggiore frequenza di determinate combinatorie potrebbe essere ricondotta a questa specifica dimensione diastratica e diafasica della lingua e potrebbe non essere altrettanto valida in un corpus di riferimento dell’italiano. 127 cambiare catturare causare chiedere commettere conoscere costruire evitare finire impiegare lasciare lavare mantenere migliorare passare peggiorare perdere porre prestare provocare Tab. 3 aria idea mondo vita attenzione morte aiuto reato mondo futuro contagio contatto serata tempo posto segno spazio dente famiglia situazione anno giornata giorno mese ora tempo situazione interesse lavoro senso significato speranza tempo valore vita voglia rimedio attenzione morte scambiare seguire superare suscitare sviluppare tenere togliere trascorrere trasmettere usare utilizzare valere vedere verificare regalo lezione moda regola difficoltà interesse frasario conto vita giornata ora tempo emozione abbreviazione cellulare computer Internet linguaggio parola parolaccia termine web abbreviazione Internet linguaggio parola termine pena ora caso Le collocazioni Vord + Nome prodotte dai nativi Abbiamo tentato di individuare la prima tipologia di collocazioni (elencate nuovamente di seguito nel corpo del testo) andando a sostituire il verbo con delle varianti sinonimiche93 o con una sua corrispettiva forma analitica (prestare > dare in 93
Sono dei quasi-‐sinonimi e divergono in alcune dimensioni semantiche quali: connotazione (i termini hanno denotazione identica, ma diversa connotazione, es. fare/ commettere), registro (i termini hanno denotazione 128 prestito). Pur essendo consapevoli delle diverse sfumature di senso che tali trasformazioni comportano, tale test ci è sembrato un indicatore utile allo scopo di verificare se il verbo ha mantenuto il suo significato primario o se, al contrario, la sua semantica si fosse adattata e specializzata nella combinatoria con l’Oggetto per esprimere un significato altro che emerge soltanto dalla co-‐occorrenza dei due componenti (meaning by collocation). Abbiamo interpretato, quindi, come appartenenti alla prima tipologia le collocazioni in cui la sostituzione del verbo con un quasi-‐sinonimo o con la corrispettiva forma analitica ha dato luogo a combinatorie che non sono sembrate a chi scrive semanticamente assimilabili alla combinatoria analizzata. Per i motivi sopraesposti annoveriamo tra le collocazioni del primo tipo le seguenti: -‐ affrontare la giornata/ il problema/ la vita (*fronteggiare/ assalire la giornata/ il problema/ la vita); -‐ cambiare l’/ [] aria/ idea (*sostituire/ ?modificare l’/[] aria/ idea; -‐ costruire il futuro (*edificare il futuro); -‐ evitare il contagio/ contatto (*aggirare/ schivare il contatto/ contagio); -‐ lasciare il segno (*cedere il segno); -‐ mantenere la famiglia (*conservare la famiglia); -‐ porre rimedio (*mettere rimedio); -‐ prestare attenzione (*dare in prestito l’attenzione); -‐ risparmiare tempo (*mettere da parte il tempo); -‐ seguire la lezione/ regola (*inseguire la/ andare dietro alla lezione/ regola); -‐ superare la difficoltà (*oltrepassare la difficoltà); -‐ [non] vedere l’ora (*[non] guardare (l’) ora). Abbiamo classificato come collocazioni preferenziali, invece, tutte le collocazioni Vord + Nome per le quali è risultata esistere una combinazione V+N semanticamente affine e attestata nel corpus SCUOLA con una frequenza più bassa (fr. < 10) rispetto a quella che abbiamo adottato nel presente studio per individuare le collocazioni (queste ultime sono riportate tra parentesi nell’elenco che segue precedute dall’abbreviazione vs.)94: identica ma diverso registro, es. abbattersi/ fam. abbacchiarsi), campo (i termini hanno denotazione identica ma si usano in campi diversi, es. ricetta/ med. prescrizione), area geografica (i termini hanno denotazione identica ma sono utilizzati in aree geografiche differenti, es. spegnere/ smorzare), cfr. Ježek (2005: 158). 94
Lo scopo del presente lavoro non è quello di fornire una tassonomia completa delle possibili combinazioni sintagmatiche di parole nella lingua italiana ma di descrivere, alla luce degli studi teorici già condotti sull’argomento (Ježek 2005; Masini 2007, 2009), le collocazioni emerse da due campioni linguistici costituiti da 129 Le collocazioni preferenziali con Vord prodotte dai nativi sono state costruite con: -‐ i nomi indicanti valori temporali quali giornata, ora e tempo associati ai verbi passare e trascorrere (per cui passare, trascorrere una giornata/ un’ora/ il tempo vs. spendere una giornata/ un’ora/ il tempo); -‐ i nomi anno, giorno, mese, invece, hanno selezionano di preferenza il verbo passare (passare un anno/ un giorno/ un mese vs. trascorrere un anno/ un giorno/ un mese); -‐ il nome tempo seleziona anche il verbo impiegare (vs. occupare il tempo); -‐ il nome senso che seleziona il verbo perdere (vs. smarrire il senso); -‐ i nomi lessico e linguaggio che selezionano il verbo arricchire (vs. ampliare il lessico e vs. sviluppare il linguaggio); -‐ il nome interesse seleziona il verbo suscitare (vs. accendere l’interesse); -‐ il nome attenzione in funzione di oggetto dei verbi quali attirare e catturare (attirare l’attenzione vs. attrarre l’attenzione; catturare l’attenzione vs. conquistare l’attenzione); -‐ il nome situazione seleziona i verbi peggiorare e migliorare (peggiorare la situazione vs. aggravare la situazione; migliorare la situazione vs. risollevare la situazione; -‐ il nome lavoro seleziona il verbo rubare (rubare il lavoro vs. levare/ togliere il lavoro); -‐ la parola vita segue i verbi rischiare (rischiare la vita vs. compromettere la vita), cambiare (cambiare la vita vs. modificare/ mutare la vita) e rovinare (rovinare la vita vs. distruggere la vita); -‐ la parola morte seleziona i verbi causare e provocare (causare, provocare la morte vs. determinare la morte); -‐ il nome mondo seleziona i verbi cambiare (cambiare il mondo vs. stravolgere il mondo) e conoscere (conoscere il mondo vs. scoprire il mondo) -‐ altre coppie V+N sono: chiedere aiuto (vs. domandare aiuto), finire la serata (vs. concludere la serata), lasciare il posto (vs. cedere il posto), realizzare un sogno (vs. avverare un sogno), scambiare un regalo (vs. dare un regalo), trasmettere l’emozione (vs. dare l’emozione), lasciare spazio (vs. concedere spazio), commettere un reato (vs. compiere un reato); Abbiamo individuato un gruppo di sei collocazioni con Vord per le quali la combinazione semanticamente affine esiste in lingua italiana ma non è attestata nel corpus SCUOLA (si tratta di lavare i denti vs. spazzolare i denti; ripetere l’anno vs. rifare l’anno; sviluppare il frasario vs. ampliare il frasario; seguire la moda vs. inseguire la moda; togliere la vita vs. levare la vita; verificare il caso vs. controllare il caso). informanti il cui lessico è in via di espansione (apprendenti di lingua italiana L2 e studenti nativi delle scuole medie inferiori e superiori). 130 Per questo motivo le collocazioni lavare i denti, ripetere l’anno, sviluppare il frasario, seguire la moda, togliere la vita e verificare il caso costituiscono, analogamente alle collocazioni del primo tipo, l’unico modo (limitatamente al corpus SCUOLA) per esprimere il concetto veicolato dalla co-‐occorrenza del Verbo con l’Oggetto. Riteniamo che una trattazione a parte vada fatta per le collocazioni formate con i verbi usare e utilizzare. Infatti, tra le collocazioni con verbo ordinario prodotte dai nativi (tab. 3) abbiamo annoverato anche le combinatorie seguenti: usare + il cellulare/ il computer/ la parolaccia/ il termine/ il web e usare/ utilizzare + l’abbreviazione/ Internet/ il linguaggio/ la parola/ il termine. Queste combinazioni sono parse a chi scrive, alla pari delle costruzioni a Vsup, sbilanciate semanticamente verso il Nome il quale sembra conferire il significato all’intero costrutto: si confronti il significato dei verbi usare/ utilizzare nelle combinatorie con i dispositivi elettronici quali cellulare e computer in cui hanno il valore di adoperare con il significato che i medesimi verbi acquisiscono nelle combinatorie con i termini Internet, web (= navigare, esplorare) e con i termini linguaggio, parola e parolaccia (= dire, pronunciare). In queste combinazioni sintagmatiche la funzione dei verbi usare e utilizzare potrebbe essere quindi assimilata a quella dei verbi a supporto di cui sopra (Vsup, cfr. 6.2.1.) in quanto vi svolgono una funzione grammaticale, stabilendo un nesso sintattico tra gli elementi della frase in cui vengono a trovarsi ed apportando informazioni su aspetto, tempo e modo.95 Quanto appena affermato per i verbi usare e utilizzare potrebbe essere in parte valido anche per le collocazioni con il verbo perdere la cui funzione, non del tutto vuota in quanto il predicato imprime alla combinatoria il valore di “essere privato”, sembra tuttavia essere semanticamente sbilanciata a favore dei nomi con i quali co-‐occorre (si confrontino tra di loro i significati delle combinazioni: perdere il lavoro, perdere l’interesse, perdere il significato, perdere la speranza, perdere tempo, perdere il valore, perdere la vita e perdere la voglia). Abbiamo fatto rientrare nella tabella 3 relativa alle collocazioni con Vord prodotte dai nativi anche tre combinazioni (evidenziate in grassetto) del tutto agglutinate, seppur non ascrivibili alla categoria delle collocazioni in quanto prive di libertà sintagmatica e paradigmatica (rendere conto, tenere conto e valere la pena). Queste combinazioni hanno assunto lo statuto di espressioni fisse e il loro uso si è cristallizzato in lingua italiana. Si tratta di combinazioni molto frequenti e strettamente associate nelle produzioni dei nativi (con alti punteggi di MI e t-‐score) e, in particolare, valere la pena e rendere conto, sono le uniche due combinazioni 95
Tale statuto dei verbi usare e utilizzare dipende in primis dalla loro natura ampiamente polisemica, dal fatto cioè che possono ammettere più classi di oggetti (astratti e fisici); per questo motivo la classificazione del gruppo di collocazioni formate con questi verbi è controversa: potrebbero essere fatte rientrare anche nel gruppo delle combinazioni ristrette meno circoscritte (vedi par. 6.2.4.) elencate in Appendice 4. 131 presenti anche nel gruppo delle collocazioni più frequenti e con i più alti valori di associazione prodotte dagli apprendenti di lingua italiana del corpus CAIL2 (cfr. di seguito par. 6.3.). Tale dato è sembrato a chi scrive degno di nota in quanto confermerebbe empiricamente quanto già più volte affermato teoricamente: le espressioni fisse di una lingua, essendo un rigido blocco semantico, costituiscono degli strumenti comunicativi a cui gli apprendenti di una lingua ricorrono spesso. In conclusione del presente paragrafo possiamo affermare che anche per le collocazioni con Vord è valido quanto riscontrato per le collocazioni con Vsup e Vsupext a proposito della coesione morfosintattica. Possiamo infatti affermare che anche le collocazioni con Vord prodotte dai nativi sono perlopiù sintatticamente libere, eccezione fatta per le combinazioni parzialmente lessicalizzate quali cambiare vita, chiedere aiuto, lasciare il segno, lasciare spazio, perdere interesse, perdere valore, perdere la voglia, porre rimedio e prestare attenzione in cui il Nome ha perso il proprio carattere referenziale. Prima di passare all’analisi delle collocazioni V+N prodotte dagli apprendenti del corpus CAIL2, vediamo brevemente nel prossimo paragrafo il gruppo delle collocazioni empiriche, ovvero delle combinazioni che sono rientrate nei valori soglia di frequenza e di associazione lessicale ma che non sono risultate essere rispondenti ai criteri linguistici adottati nel presente lavoro.
6.2.4. Le collocazioni empiriche prodotte dai nativi Come già visto in apertura del presente capitolo (par. 6.1.), in base alla definizione di Ježek (2005: 176-‐177), le combinazioni ristrette di parole possono essere di due tipi: 1) le combinazioni in cui la restrizione è legata alla presenza di una consuetudine d’uso (è il caso delle collocazioni analizzate finora); 2) le combinazioni in cui la restrizione è legata ad una implicazione sintagmatica di contenuto (chiamate solo combinazioni ristrette). Queste ultime possono essere più o meno circoscritte in base al fatto se il verbo ammette più o meno classi di oggetti; laddove il verbo ammette una sola classe di oggetti (ad es., il verbo parcheggiare) o, addirittura, un solo oggetto (ad es., il verbo pastorizzare) la restrizione risulta più percepibile di quella imposta dai verbi che ammettono più classi di oggetti (ad es., comprare).96 A differenza dalle collocazioni, nelle combinazioni verbo-‐nominali ristrette la restrizione ha una direzione inversa: è imposta dal Verbo al Nome; infatti, l’implicazione di contenuto è preservata per il collocato anche quando questi è preso da solo (ad es., il verbo parcheggiare implica necessariamente un veicolo) e non solo nella loro combinazione. 96
La classe delle combinazioni ristrette include quindi anche le cosiddette solidarietà lessicali analizzate e classificate da Coseriu (1971) ovvero coppie semantiche come, ad esempio cane/ abbaiare, in cui uno dei due termini (cane) è incluso dal punto di vista del contenuto nel secondo (abbaiare).
132 L’analisi linguistica condotta su tutte le combinazioni V+N prodotte dai nativi e rientranti nelle soglie di frequenza e di associazione lessicale sopra esposte (par. 6.1.) ha mostrato che per il 39% delle combinazioni non si può parlare di collocazioni: si tratta di combinazioni ristrette, più o meno circoscritte, tra le quali abbiamo annoverato anche le combinazioni libere (come ad es., accendere la luce, aiutare il ragazzo, conoscere la persona, scegliere il libro, ecc.) alla luce del fatto che qualsiasi combinazione di parole presenta almeno qualche restrizione di tipo concettuale (Ježek 2005: 175). Tra le combinazioni ristrette prodotte dai nativi (il cui elenco completo si trova in Appendice 4) troviamo anche otto combinazioni (aprire l’occhio, aprire la mente, chiudere l’occhio, colpire la persona, puntare il dito, staccare la spina, superare il limite e voltare la pagina) le quali, se usate dal parlante in senso figurato, diventano delle espressioni idiomatiche il cui significato viene tipicamente costruito sul meccanismo della metafora (puntare il dito > accusare, voltare la pagina > cambiare la situazione in atto; cfr. Ježek 2005). Più precisamente, le combinazioni idiomatiche sono molto probabilmente il residuo di operazioni metaforico-‐metonimiche ormai cristallizzate (D’Agostino, Elia 1998: 290): il loro significato non è propriamente costruito sintagmaticamente attraverso un calcolo composizionale ma si costituisce in blocco a partire da procedimenti diversi come, ad esempio, quello della metafora o della similitudine (vuotare il sacco > “rendere evidente ciò che contiene” > “svelare”97 oppure staccare la spina > “scollegare un dispositivo elettronico” > “cessare un’attività fisica o mentale”). Il risultato dell’applicazione di una similitudine è un significato traslato da un contesto originario e fissato su un’espressione linguistica la quale, di conseguenza, risulta bloccata, sia per quanto riguarda la sostituibilità dei membri (*ho staccato il cavo) che relativamente alla loro autonomia poiché alcune operazioni sintattiche risultano inficiate (ad es., *ho staccato una/ molte/ delle spine, *la spina che ho staccato, ?la spina, l’ho staccata io, ? è stata staccata la spina, *ho staccato una seconda spina). L’espressione idiomatica, insomma, anche se composta da più parole, finisce per comportarsi, da un punto di vista semantico e sintattico, come una parola sola. In alcuni casi, cambia anche il paradigma sintattico dei verbi98: staccare nell’uso idiomatico di “staccare la spina” (es., Luigi ha staccato la spina) è un verbo monovalente (richiede solo il soggetto) mentre se usato letteralmente (Luigi ha staccato la spina del telefono) è bivalente: richiede il soggetto (Luigi), l’oggetto (la spina) ed eventuali elementi accessori (del telefono)99. 97
Esempio tratto da Ježek (2005: 183-‐184).
Cfr. a questo proposito Ježek 2005: 184.
99 Questa interpretazione verte sul modello della valenza formulato da Tesnière (1959) che è basato su una concezione della struttura della frase diversa da quella della grammatica tradizionale la quale, accanto al predicato, distingue tra il soggetto da un lato e i complementi dall’altro; il modello della valenza definisce 98 133 Nel caso di altri usi figurati dello stesso verbo come, ad esempio, nella frase “Il Parlamento ha staccato la spina al governo”, questo assume addirittura una valenza triargomentale, necessitando di tre attanti per esprimere il significato specifico veicolato dalla frase. Ciò dipende dal fatto che la distinzione tra argomenti ed elementi accessori è complicata dal fatto che uno stesso complemento può essere, a seconda del verbo e del contesto, argomento in un caso e elemento accessorio in un altro (Ježek 2005: 112). Secondo D’Agostino, Elia (1998: 291) l’uso delle espressioni idiomatiche è legato più a esigenze di rapidità che non di ricchezza comunicativa: essendo apprese in blocco rappresentano delle scorciatoie semantiche per le quali non è nemmeno necessario conoscere il valore dei singoli elementi componenti la stringa. Tornando ai dati analizzati nel presente studio e concludendo la sezione dedicata ai nativi della lingua italiana, possiamo dire che il 39% delle collocazioni empiriche non rispondenti ai criteri linguistici e per questo non classificabili tra le tipologie di collocazioni finora esaminate è costituito dalle combinazioni libere di parole, dalle combinazioni ristrette basate su una implicazione sintagmatica di contenuto e dalle espressioni idiomatiche. Le collocazioni, affermando il loro stesso statuto nella lingua in ragione della loro frequenza che ne sancisce la familiarità, costituiscono uno dei fenomeni lessicali più difficilmente acquisibili da parte di un apprendente di una seconda lingua in quanto è strettamente collegato all’esposizione all’input. In linea teorica, ad una maggiore esposizione all’input dovrebbe corrispondere una produzione delle combinazioni V+N più articolata e più distante da quelle che sono le collocazioni più frequenti e più comunemente diffuse nell’interlingua (le collocazioni empiriche). In realtà, anche sulla base degli studi condotti sulla lingua inglese come L2, possiamo affermare che il fenomeno sia decisamente sfuggente e di difficile controllo. Ad esempio, dagli studi di Nesselhauf (2005) e Laufer, Waldman (2011) non è risultata esserci nemmeno una correlazione evidente tra la competenza linguistica stimata in base agli anni di studio della lingua e l’uso delle collocazioni verbo-‐
nominali. Descriveremo le collocazioni prodotte dagli apprendenti del corpus CAIL2 nel prossimo paragrafo (par. 6.3.); nel successivo par. 6.4. e nei relativi sottoparagrafi andremo invece a valutare: 1) quali altre combinazioni V+N emergono dalle produzioni scritte degli apprendenti e come queste siano state utilizzate nel contesto argomenti (o attanti) gli elementi che sono essenziali per completare il significato del verbo e che devono essere obbligatoriamente espressi; gli elementi accessori sono invece quelli che possono essere omessi senza che la frase perda il suo significato. In base al numero di argomenti che richiedono, si distinguono quattro classi principali di verbi: zeroargomentali (es., piovere), monoargomentali (es., nascere, tossire), biargomentali (es., abitare, noleggiare), triargomentali (es., dedicare). Cfr. Ježek 2005: 107-‐119. 134 (ricordiamo che l’analisi quantitativa del capitolo quinto ha mostrato una minore produzione delle collocazioni maggiormente diffuse nell’interlingua dopo il terzo anno di studio); 2) come hanno inciso le variabili del tempo di studio dell’italiano L2 e del tempo di permanenza in Italia sulla produzione delle combinazioni V+N; 3) quali tendenze principali emergono dall’analisi delle concordanze relative ad un campione di combinatorie verbo-‐nominali del corpus CAIL2. 6.3. Le collocazioni Verbo + Nome prodotte dagli apprendenti Dall’analisi quantitativa condotta nel capitolo quinto è emerso che le caratteristiche quantitative di frequenza (fr. ≥ 10) e di associazione lessicale (MI ≥ 3, t-‐score ≥ 2) adottate nel presente studio sono possedute da 90 combinazioni V+NOgg estratte dal corpus CAIL2 degli apprendenti di lingua italiana. In seguito all’analisi linguistica è emerso che si tratta perlopiù (59%) di combinazioni lessicali ristrette (tot. 53, elencate in Appendice 5) e per il 41% (tot. 37) di collocazioni costituite prevalentemente dalle costruzioni a Vsup (tab. 4). Il primo dato da osservare è relativo all’efficacia dei criteri quantitativi adottati in questo studio nell’estrazione di quelle combinatorie lessicali che, oltre ad essere frequenti e strettamente associate, siano anche delle collocazioni nel senso definito in 6.1. Come dimostrato in 6.2., questi criteri si sono mostrati sufficientemente accettabili nell’evidenziare le collocazioni nelle produzioni scritte dei nativi (ricordiamo che tra le combinazioni V+N estratte dal corpus SCUOLA, rientranti nei valori soglia, il 61% era costituito da collocazioni). Altrettanto non si può affermare per i dati degli apprendenti (X-‐squared = 12.0632, df = 1, p-‐value = 0.0005143): soltanto il 41% delle combinazioni (tot. 37), infatti, può essere classificato nella categoria delle collocazioni, elencate nella tabella 4 riportata di seguito. Il restante 59% delle combinazioni è stato classificato come appartenente alle combinazioni ristrette (elencate in Appendice 5), tra le quali abbiamo annoverato, come affermato sopra, sia le combinazioni ristrette più o meno circoscritte che le combinazioni libere. 135 Collocazioni Verbo + Nome (corpus CAIL2) Vord passare giorno tempo rendere conto trascorrere tempo valere pena vedere ora Tab. 4 avere essere fare prendere Vsup bisogno idea interesse opportunità paura possibilità problema soldo tempo voglia simbolo amicizia compito corso doccia esercizio festa foto fotografia giro gita parte passeggiata shopping spesa sport vacanza viaggio yoga sole Vsupext diventare amico Le collocazioni linguistiche Verbo + Nome prodotte dagli apprendenti Tra le collocazioni prodotte dagli apprendenti elencate in tabella 4 soltanto un gruppo esiguo di queste (16%, tot. 6) è stato realizzato con il verbo ordinario (Vord); tra queste troviamo i verbi passare e trascorrere100 selezionati dai nomi indicanti valori temporali quali tempo e giorno, presenti anche tra le collocazioni prodotte dai nativi insieme alla collocazione [non] vedere l’ora (cfr. 6.2.3.). 100
Ricordiamo che la collocazione trascorrere tempo era presente nella formulazione di una delle quattro tracce relative alle indicazioni per la redazione della produzione scritta in fase di raccolta dei dati per il corpus CAIL2 (nello specifico, la numero 1: “Come trascorri il tuo tempo libero? Parlami dei tuoi interessi, hobbies e passioni”); per questo motivo la collocazione sarà esclusa dall’analisi. 136 Inoltre, sono presenti anche le due espressioni fisse (in grassetto nella tabella 4): valere la pena e rendere conto il cui uso, come già fatto presente in 6.2.3., si è cristallizzato in lingua italiana e che vengono perciò adoperate come dei blocchi lessicali unitari (entrambe le combinazioni sono infatti caratterizzate dai valori alti di Mutual Information, sia nelle produzioni dei nativi che in quelle degli apprendenti). Il gruppo più numeroso delle collocazioni (81%, tot. 30) è costituito dalle costruzioni a verbo supporto (Vsup). Tra queste predomina il paradigma fare seguito dai nomi Predicativi (tot. 18) del tipo fare amicizia, fare il compito, fare la/ [] festa, fare il/ un giro, fare la/ una gita, fare la/ [] spesa, fare sport, ecc. La costruzione fare + Nome Deverbale figura soltanto in un caso (fare la/ una passeggiata). Anche nelle produzioni degli apprendenti troviamo delle costruzioni dalla forte coesione morfosintattica quali fare amicizia, fare shopping, fare sport, fare yoga per le quali alcune operazioni sintattiche sono inficiate (*sport è stato fatto da Clara ieri), delle costruzioni che possono essere più o meno coese a seconda della presenza o meno dell’articolo (fare la/ [] festa, fare la/ [] parte, fare la/ [] vacanza, fare la/ [] spesa) e costruzioni sintatticamente libere quali fare il compito, fare la doccia, fare la foto, fare il viaggio. Il secondo paradigma dalle costruzioni con verbo a supporto più frequentemente prodotto è costituito dal verbo avere seguito dai Nomi Predicativi (tot. 10): avere bisogno, avere l’/ un’idea, avere un interesse, avere l’/ un’opportunità, avere paura, avere la/ una possibilità, avere il/ un problema, avere i soldi, avere il tempo e avere la/ [] voglia. Anche le combinatorie con il verbo avere variano per coesione morfosintattica: si va dalle combinazioni con un grado basso di agglutinazione il quale blocca la passivizzazione e riduce la libertà sintattica fino alle più coese come avere paura, avere tempo e avere voglia. Con il verbo prendere è stata realizzata soltanto la collocazione prendere il sole dalla scarsa libertà sintattica e caratterizzata da uno stato di avviata lessicalizzazione. Con il verbo essere è stato utilizzato il sostantivo simbolo, combinazione che rientra tra le costruzioni a Vsup in quanto, in base a quanto affermato già in 6.2.1., si tratta di un nome insaturo che richiede due argomenti (ad es., il volo è simbolo di libertà) e non di un nome classificatore che avrebbe fatto rientrare la combinazione tra le costruzioni copulative (come è stato, ad es., per le combinazioni essere bambino/ a, essere capitale, ecc.) e quindi tra le combinazioni libere di parole. Infine, vi è la presenza di una costruzione a verbo supporto esteso (Vsupext): diventare amico, estensione incoativa di essere amico, in cui il Nome ha perso il suo carattere referenziale. Le combinazioni V+N finora descritte ed elencate nella tabella 4 costituiscono il gruppo delle collocazioni più frequenti e più strettamente associate prodotte dagli apprendenti di lingua italiana: possiamo affermare che si tratti delle collocazioni trasversalmente più diffuse nel corpus CAIL2. 137 Tuttavia, per avere un’idea generale sulle produzioni scritte dagli apprendenti dobbiamo tornare ad un dato emerso dall’analisi quantitativa condotta nel precedente capitolo (par. 5.2.): gli apprendenti hanno prodotto, in numero di tokens, il 14% in più delle combinazioni con alti valori di t-‐score rispetto ai nativi (X-‐squared = 163.2944, df = 1, p-‐value < 2.2e-‐16); allo stesso tempo, l’indice di varietà per questa classe è risultato essere più basso, il che vuol dire che gli apprendenti hanno fatto largo uso di ripetizioni delle combinatorie appartenenti proprio a questa categoria: hanno prodotto poche combinazioni diverse e le hanno ripetute più spesso rispetto a quanto abbiano fatto i nativi con le combinazioni V+N caratterizzate dagli stessi indici quantitativi. Per questo motivo identifichiamo nelle collocazioni empiriche appartenenti a questa classe (17 > t-‐score ≥ 5) le cosiddette “isole di affidabilità” (islands of reliability) individuate negli studi sulla lingua inglese (Granger 1998; Lorenz 1999; Kaszubski 2000; Laufer, Waldman 2011): gli usi ripetuti e quantitativamente superiori rispetto ai nativi di determinati elementi linguistici. Il gruppo delle collocazioni con i valori più alti di t-‐score prodotto dagli apprendenti (evidenziate in giallo e arancio in tab. 4 e in Appendice 5) è costituito da 26 combinazioni V+N formate da: 2 collocazioni con Vord (passare il tempo e trascorrere il tempo), 12 collocazioni con Vsup (avere bisogno, avere paura, avere la/ una possibilità, avere i soldi, avere il tempo, avere la/ [] voglia, fare la/ una foto, fare il/ un giro, fare la/ una passeggiata, fare la/ [] spesa, fare sport e fare il/ un viaggio) e da 12 combinazioni ristrette/ libere (ascoltare la musica, essere una bambina, fare una cosa, guardare in/ un film, guardare la tv, imparare la/ una lingua, leggere il/ un libro, piacere la musica, studiare l’italiano, studiare la lingua, vedere il/ un film e visitare la/ una città). Tra queste, eccezione fatta per la combinazione trascorrere il tempo, la quale era presente nelle tracce indicanti le modalità di composizione delle produzioni scritte ed è quindi esclusa dal nostro studio, e per due combinazioni (essere una bambina e fare una cosa) che si trovano nella classe dei valori alti di t-‐
score in ragione della altissima frequenza dei due termini co-‐occorrenti, la maggior parte delle combinazioni ristrette risulta essere palesemente riconducibile ai temi proposti in fase di elicitazione dei dati (ascoltare/ piacere la musica, guardare/ vedere un film, guardare la tv, imparare/ studiare la lingua, studiare l’italiano, leggere un libro, visitare una città). Le costruzioni a verbo supporto (Vsup), invece, insieme alla collocazione con Vord passare il tempo, sono la categoria di combinazioni che costituisce lo strumento privilegiato per gli apprendenti di lingua italiana, a prescindere dal contesto d’impiego, al quale ricorrono molto spesso probabilmente in ragione del particolare statuto linguistico che contraddistingue tali costruzioni, ovvero in ragione del fatto che la componente semantica risiede nel Nome. 138 6.4. Le combinatorie verbo-‐nominali prodotte dagli apprendenti: analisi per Nomi Nel capitolo quinto abbiamo analizzato le produzioni degli apprendenti dal punto di vista quantitativo: abbiamo valutato le combinazioni V+N più frequenti e più strettamente associate in termini di tokens, ovvero quante ne siano state prodotte da ciascuno dei gruppi relativi alle due variabili sociolinguistiche prese in considerazione nel presente studio: 1) il tempo di studio dell’italiano; 2) il tempo di permanenza in Italia (esposizione all’input). Dai risultati è emerso che il gruppo D (con più di tre anni di studio) abbia prodotto il numero minore delle collocazioni più diffuse nell’interlingua e che, in particolare, la differenza quantitativa tra il gruppo B (7-‐11 mesi di studio) e il gruppo D (più di 36 mesi di studio) fosse statisticamente significativa. Da questi dati abbiamo ipotizzato che il gruppo D sia ricorso meno alle ripetizioni e abbia reso le proprie produzioni meno conservative rispetto agli altri gruppi. Relativamente alla seconda variabile non è stata registrata una diminuzione delle collocazioni più comunemente utilizzate dagli apprendenti all’aumentare dei mesi trascorsi in Italia: questo andamento è risultato essere legato alla variazione casuale del campione linguistico e riconducibile al fattore del tempo di studio. Tuttavia, in base a quanto affermato precedentemente sull’importanza di adottare un approccio integrato quantitativo-‐linguistico per l’analisi dei fenomeni sintagmatici del lessico, l’analisi quantitativa delle produzioni degli apprendenti descritta nel capitolo precedente è stata affiancata da una indagine di tipo qualitativo alla quale è stato dedicato il presente capitolo. Pertanto, dopo aver descritto nei paragrafi precedenti di quale natura fossero le collocazioni empiriche estratte dal corpus dei nativi (cfr. par. 6.2.) e da quello degli apprendenti (cfr. par. 6.3.), nei sottoparagrafi che seguono (6.4.1., 6.4.2., 6.4.3., 6.4.4., 6.4.5.) andremo a studiare le produzioni del corpus CAIL2 da un punto di vista qualitativo-‐linguistico ulteriore: con l’obiettivo di individuare le tendenze negli usi delle combinatorie verbo-‐nominali le valuteremo nel contesto in cui sono state prodotte per mezzo dell’analisi delle concordanze. A tal fine andremo oltre le collocazioni tipiche definite quantitativamente e linguisticamente ed analizzeremo le concordanze proprie a tutte le combinazioni verbo-‐nominali relative ad un campione di sostantivi (problema, lavoro, vita, tempo e musica) scelti tra i nomi che hanno dato origine alle 90 collocazioni più frequenti e più strettamente associate prodotte dagli apprendenti101. Dall’analisi saranno esclusi tutti i verbi i quali hanno formato con i sostantivi sopraelencati le collocazioni empiriche (avere il/ un problema, trovare il/ un lavoro, godere/ la vivere vita, avere/ trascorrere/ passare il tempo, ascoltare/ piacere la 101
Il campione dei sostantivi è stato scelto arbitrariamente e selezionato a partire dal ventaglio dei nomi con il numero più alto dei potenziali collocati verbali; tale stima è stata effettuata sulla base dei dati dei nativi. 139 musica) in virtù del fatto che si tratta di combinatorie molto frequenti e perciò diffuse trasversalmente in tutti i gruppi di apprendenti e il verbo essere per via dell’alta frequenza della funzione copulativa espressa da questo verbo. Dall’analisi non saranno esclusi i verbi intransitivi i quali, benché non rientranti nel paradigma V+NOgg analizzato nel presente lavoro, saranno valutati singolarmente nel contesto poiché si ritiene che escluderli a priori potrebbe comportare il rischio di sorvolare su alcune tendenze significative che potrebbero emergere dalle produzioni degli apprendenti. Ad un primo livello di analisi, andremo a valutare quali types verbali sono stati prodotti dagli apprendenti in co-‐occorrenza con i sostantivi sopraelencati e, in seconda istanza, lo studio delle combinazioni lessicali V+N nel contesto in cui sono state prodotte ci permetterà di identificare e valutare gli eventuali usi irregolari che emergeranno per ciascuno dei gruppi individuati in base alle due variabili sociolinguistiche prese in esame. Dal punto di vista metodologico, l’analisi è stata condotta intorno alla variabile del tempo di studio dell’italiano in quanto la descrizione di tutte combinatorie prodotte dagli apprendenti ruota intorno ai gruppi A-‐D individuati da questa variabile. La stima di come abbia agito la seconda variabile sulle produzioni degli apprendenti del corpus CAIL2 è stata effettuata valutando la distribuzione delle irregolarità all’interno dei gruppi E-‐I individuati dalla variabile del tempo di permanenza in Italia. Per quanto concerne la valutazione delle irregolarità va precisato che saranno oggetto di attenzione ed analisi soltanto le anomalie di tipo sintattico e semantico riscontrate nella produzione delle combinazioni V+N. Non verrà tenuto conto quindi nell’analisi che segue delle irregolarità morfologiche (come ad es., i tempi verbali, l’accordo con la persona e/ o il numero) e della presenza o dell’assenza non conforme della determinazione (per mezzo degli articoli). Analizzeremo solamente le caratteristiche sintattico-‐semantiche delle costruzioni V+N, valutando, laddove sarà necessario ai fini dell’interpretazione, soltanto le porzioni testuali precedenti e successive alla combinatoria. In base a quanto detto saranno considerate regolari, ad esempio, le produzioni del tipo “Ho avuto la possibilità di mangiare la cucina italiana, di avere il guida italiano, conoscere una vera vita italiana”. Per completezza descrittiva anche tutti gli usi classificati da chi scrive come regolari saranno comunque riportati nel corpo del testo. Infine, riteniamo utile riportare nuovamente i valori temporali relativi a ciascun gruppo di informanti individuato dalle due variabili prese in considerazione in questo studio. I gruppi individuati dalla variabile “tempo di studio dell’italiano” sono : -‐ -‐ -‐ A: 1-‐6 mesi; B: 7-‐11 mesi; C: 12-‐35 mesi; 140 -‐ D: ≥ 36 mesi. I gruppi individuati dalla variabile “tempo di permanenza in Italia” sono: -‐ -‐ -‐ -‐ -‐ E: 0-‐1 mese F: 2-‐3 mesi; G: 4 mesi; H: 5 mesi; I: ≥ 6 mesi. L’obiettivo dei prossimi paragrafi, accanto ad una disamina di tipo descrittivo dei fenomeni combinatori emersi, consiste nel valutare come hanno inciso i fattori del tempo di studio dell’italiano e del tempo di esposizione all’input sulle scelte combinatorie degli apprendenti e sugli usi che questi ne hanno fatto in sede di produzione scritta. Nei sottoparagrafi seguenti verranno presentate le analisi delle combinatorie verbo-‐nominali relative al campione di cinque sostantivi, nell’ordine: V+problema (par. 6.4.1.), V+lavoro (par. 6.4.2.), V+vita (par. 6.4.3.), V+tempo (par. 6.4.4.) e V+musica (par. 6.4.5.). 6.4.1. V + problema In base a quanto affermato nel precedente paragrafo, escludiamo dall’analisi dei verbi collocati con il sostantivo problema il verbo avere in quanto la combinazione avere + problema fa parte delle collocazioni tipiche, definite quantitativamente, emerse delle produzioni degli apprendenti ed analizzate nel par. 6.3., e il verbo essere sulla base di quanto appena esposto nel paragrafo precedente, ovvero in ragione della alta frequenza d’uso del verbo con funzione copulativa. Ciò detto, i types verbali selezionati dal sostantivo problema nelle produzioni scritte degli apprendenti di italiano del corpus CAIL2 sono in totale 19. Questi si distribuiscono nei quattro gruppi individuati dalla prima variabile del tempo di studio dell’italiano in base alla seguente tabella 5: gruppo A causare conoscere fare frequentare risolvere frass 1 1 1 1 1 Tab. 5 gruppo B affrontare dire guarire passare sconfiggere succedere frass 1 1 1 1 1 1 gruppo C conoscere dimenticare preoccupare ricevere risolvere sistemare succedere venire frass 1 1 1 1 2 1 1 1 gruppo D affrontare diventare fare raccontare vivere frass 1 1 2 1 1 Collocati verbali del sostantivo problema (V+problema) 141 Da una prima analisi dei dati riportati in tabella possiamo facilmente ricavare che il gruppo C ha prodotto il numero maggiore di types verbali. I verbi evidenziati in giallo risultano presenti in almeno due gruppi di informanti: risolvere (gruppi A e C), fare (gruppi A e D) e affrontare (gruppi B e D)102. Questo secondo dato è importante da valutare in quanto ci dice quali altri verbi, accanto ai collocati più frequenti e più strettamente associati al sostantivo analizzato (in questo caso avere, nella combinazione avere + problema), sono i più diffusi nei quattro gruppi in analisi. Nel caso specifico delle combinazioni con il nome problema possiamo vedere che sono presenti le seguenti: i) affrontare problema che avevamo classificato nell’analisi delle collocazioni prodotte dai nativi sia come collocazione empirica che come collocazione definita in base ai criteri linguistici; ii) risolvere problema la quale, sempre nell’analisi delle produzioni dei nativi, è risultata essere una collocazione empirica in quanto rientrante nei criteri soglia di frequenza e di associazione lessicale; iii) fare problema, non presente tra le collocazioni prodotte dai nativi ma comunque linguisticamente marcata in virtù del suo statuto di costruzione a Verbo supporto (Vsup). Queste combinazioni sono state prodotte dagli apprendenti di tutti e quattro i gruppi in regolari costruzioni V+NOgg sia dal punto di vista sintattico che semantico (“Ricordi mi aiutano ad affrontare i problemi quotidiani”, “Per risolvere questo problema secondo me -‐ i governi africani dovrebbero lasciare il popolo sceglie il suo governo”); tuttavia, una menzione a parte va fatta per la costruzione a Vsup realizzata con il verbo fare la quale, nella forma plurale fare problemi, senza l’articolo determinativo, usata quindi come un blocco semantico-‐lessicale coeso in cui il verbo ha il significato di creare, compare già nel gruppo A, ovvero ad una altezza di apprendimento piuttosto precoce [1]: [1] Non voleva si sposava la ragazza qualcuno, e faceva tanti problemi; La costruzione appare nuovamente nel gruppo D in due occorrenze: nel primo caso [2], l’uso della combinazione è assimilabile per caratteristiche semantico-‐sintattiche a quello fattone dal gruppo A, nel secondo caso, invece, si assiste alla più coesa forma riflessiva farsi problemi [3] la quale, tuttavia, è stata realizzata dall’apprendente con l’articolo determinativo: [2] […] latino era molto difficile, perché è la lingua che non è ancora in uso. Questa lingua mi ha fatto molti problemi; 102
Benché riportata al lato di ciascun collocato verbale per completezza descrittiva, l’analisi che segue non terrà in considerazione la frequenza assoluta delle combinazioni prodotte da ciascun gruppo; tale parametro, ad eccezione di modeste diseguaglianze tra i gruppi, non è oggetto di studio nella presente sezione. L’obiettivo invece è valutare, a partire da un campione di sostantivi coinvolti nelle collocazioni tipiche prodotte dagli apprendenti, quali altre combinazioni siano state prodotte e analizzare queste ultime nel contesto testuale in cui figurano per mezzo delle concordanze. 142 [3] […] ho gli amici di tutto il mondo, e non mi faccio i problemi se sono più grandi o più piccoli di me; Se ne deduce quindi che, oltre alla collocazione avere problema, presente tra le 90 combinazioni più frequenti e più strettamente associate prodotte dagli apprendenti, le combinazioni presenti in almeno due gruppi di studio (affrontare/ risolvere/ fare problema) sono tutte combinazioni V+N marcate linguisticamente o quantitativamente (in base ai parametri frequentisti adottati per la definizione delle collocazioni in questo studio) il cui uso da parte degli apprendenti non ha generato anomalie significative dal punto di vista sintattico-‐semantico. Vediamo di seguito come sono state utilizzate nel contesto tutte le altre combinazioni V+problema prodotte dagli apprendenti e quali tendenze emergono dall’analisi delle loro produzioni. Nel gruppo A anche le combinazioni conoscere/ causare + problema sono state usate in regolari costruzioni transitive del tipo V+NOgg (“[…] prima di conoscere i problemi della società, della politica, del nostro mondo […]”; “Ma troppi grattacieli causano i problemi alla città”); nel primo gruppo si assiste, in definitiva, soltanto ad una irregolarità semantica, costituita dal verbo frequentare in combinazione con il sostantivo problema, la quale potrebbe essere motivata con una carenza nel vocabolario dell’informante [4]: [4] Diwan-‐e-‐aam una sala dove si sede l'imperatore e frequentava i problemi dei popoli; Nel gruppo B si registrano usi regolari delle costruzioni transitive affrontare/ sconfiggere problema e guarire problema, quest'ultima con la specificazione della qualifica dell’oggetto (“Mi sembra che il viaggio non sia solo un modo di divertimento ma anche una maniera per guarire la problema psicologica e pulire l’anima”). I verbi dire e passare sono stati usati impropriamente dal punto di vista semantico; il primo [5], pur essendo stato prodotto dell’apprendente in una regolare costruzione transitiva e ammettendo in lingua italiana l’oggetto diretto, dà vita ad una irregolarità proprio nella combinatoria con problema il cui esito risulta poco familiare ad un parlante nativo; il motivo va senz’altro ricercato nei fenomeni combinatori e nelle restrizioni sulla selezione tra le parole in quanto nella frase in questione, seppur sintatticamente corretta, figura un verbo che non fa parte del gruppo di collocati che l’oggetto in questione è solito selezionare (come ad es., il verbo intransitivo parlare). Per il verbo passare [6], utilizzato nella forma infinita in luogo del participio passato e portatore del significato di cessare, avere fine, l’anomalia può essere motivata in base a quanto affermato appena sopra per il verbo dire: [5] Perché io ho detto questo problema? [6] Dopo tante fatica e passare problemi ho iniziato a scoprire tante esperienze nuove […]; 143 L’impiego del verbo succedere, invece, ha dato luogo ad una irregolarità di ordine sintattico; il verbo, intransitivo in italiano, è stato inquadrato nel paradigma V+NOgg ed è stato usato in un contesto frasale sintatticamente scomposto: [7] In primo luogo, il mercato immobiliare è successo problemi; Il gruppo C ha prodotto il numero maggiore di predicati diversi relativi all’Oggetto problema ed è anche il gruppo in cui si assiste a delle sperimentazioni sintattico-‐lessicali. Andando per ordine, segnaliamo che i verbi conoscere e dimenticare sono stati usati in regolari costruzioni V+NOgg (“[…] queste attività mi aiutano tanto, sia per che dimentico i problemi che mi sono intorno, sia per che mi aiutano a capire quello che mi disturba.”); in particolare, il verbo il verbo conoscere è stato impiegato nel contesto frasale “è un cavallo che ha conosciuto molti problemi”; tale scelta stilistica potrebbe essere stata dettata da diversi fattori tra i quali potrebbe esserci l’intenzione di utilizzare un verbo meno diffuso rispetto, ad esempio, al più calzante avere, oppure per un’influenza interlinguistica (della L1 o di altre L2). Infine, benché non rientrante nel paradigma studiato, segnaliamo che la combinazione succedere problema, a differenza di quanto visto per il gruppo A, è stata utilizzata in una regolare costruzione intransitiva [8]: [8] […] soprattutto nel mio paese succede questo problema ogni sera perché non c'è posto che passano bene il tempo libero; Per quel che concerne le irregolarità, queste riguardano soprattutto il livello sintattico e i verbi preoccupare, ricevere e sistemare; troviamo il verbo preoccupare [9] usato transitivamente con il complemento oggetto diretto, ma retto dalla costruzione impersonale non [c’è] bisogno di la quale richiedeva, invece, che il verbo fosse usato intransitivamente con l’aggiunta della particella impersonale -‐ si e che fosse seguito dall’oggetto indiretto: [9] Il traffico anche un grande problema, ma se andare a scuola a piedi, non bisogno di preoccupare questo problema; Il predicato sistemare [10], in combinazione con il nome problema, è stato utilizzato con l'aggiunta della particella pronominale mi, potrebbe darsi sul modello del riflessivo sistemarsi con il significato di “risolvere i propri problemi fisici”: [10] Ogni notte non riuscivo di dormire cioè ero insonne, lo sapevo, devo sistemarmi questo problema; Infine, il verbo ricevere [11] è stato usato transitivamente in un contesto frasale costruito per ospitare una costruzione intransitiva, come, ad esempio, potrebbe essere quella costruita intorno al verbo arrivare: [11] Per esempio, in Grecia, c'è un problema del economia ma anche qui in Italia ha ricevuto questo problema; 144 La semantica irregolare riguarda invece il verbo venire [12] il quale è stato usato nel senso di presentarsi, sorgere per una evidente mancanza nel vocabolario dell’informante: [12] Leggo i libri che ha rapporti con le lezioni che frequento, particolare nel mio secondo anno. Allora mi viene il problema di leggere con troppa intenzione. Voglio solo finire i libri il più presto, voglio anche comprendere il contenuto; Nel gruppo D, al contrario, si assiste ad un numero minore di collocati verbali ma tutti realizzati in costruzioni usate propriamente e in contesti pertinenti. Accanto ai sopraelencati affrontare e fare, si hanno i verbi diventare, raccontare e vivere, anch’essi utilizzati in regolari combinazioni V+NOgg (“[…] con il tempo questo discorso è diventato un problema molto serio”; “Ho scelto l'argomento numero tre, perché vorrei raccontare il problema mondiale della economia”; “Mi piace quando posso immedesimarmi in un personaggio e vivere i suoi problemi”). La valutazione della seconda variabile, ovvero del tempo trascorso in Italia, è avvenuta stimando, in base a quanto spiegato nel par. 6.4., se all’aumentare dei mesi di esposizione all’input diminuisse il numero delle irregolarità semantico-‐sintattiche individuate nell’analisi appena esposta. Nel caso dei collocati con il sostantivo studiato nel paragrafo presente, possiamo affermare che la percentuale più bassa di combinazioni usate irregolarmente (1 su 5) si ha nel gruppo centrale (il gruppo G, 4 mesi) e che non si assiste ad una diminuzione nella quantità degli usi irregolari all’aumentare del tempo dichiarato di esposizione all’input (il gruppo E ed il gruppo H hanno evidenziato lo stesso comportamento, ovvero il 50% dei collocati prodotti è stato utilizzato irregolarmente). In conclusione a questo paragrafo possiamo osservare che le combinazioni presenti in almeno due gruppi di informanti individuate sopra sono risultate essere state usate tutte in regolari costrutti V+NOgg, il che vuol dire che le combinazioni lessicali marcate vengono non soltanto apprese in blocco già nelle prime fasi dell’apprendimento (gruppi A e B) ma vengono anche usate regolarmente. Degno di nota è il comportamento del gruppo C il quale ha prodotto il numero maggiore di collocati verbali ma ne ha utilizzati la metà in contesti semantico-‐
sintattici irregolari; ciò potrebbe voler dire che gli informanti con oltre un anno di studio della lingua italiana abbiano acquisito una maggiore sicurezza nella produzione scritta la quale li spingerebbe a sperimentare l’uso di combinatorie nuove; tuttavia, questa sicurezza non sembra andare di pari passo con la piena padronanza delle strutture sintattico-‐lessicali; questa ipotesi viene confermata anche dal comportamento controtendente del gruppo D (più di tre anni di studio) il quale ha ridotto la varietà dei collocati prodotti ma ne ha affinato l’uso nel contesto scritto. La seconda variabile presa in considerazione in questo lavoro non ha inciso sulla regolarità degli usi delle combinazioni V+problema in quanto l’aumentare del tempo trascorso in Italia non è risultato coincidere con una diminuzione delle 145 costruzioni usate irregolarmente. Infatti, l’indice delle irregolarità, stimato sulla base del rapporto tra le combinazioni irregolari e la totalità delle combinazioni prodotte da ciascun gruppo (in termini di types), è il più alto nei gruppi E (0-‐1 mese in Italia) ed H (5 mesi), mentre nel gruppo I, formato da apprendenti che hanno dichiarato di aver trascorso il tempo più lungo di permanenza in Italia (più di 6 mesi), non si registra una diminuzione consistente nella produzione delle irregolarità che, al contrario, coincide con quella del gruppo F (2-‐3 mesi); il numero più basso di irregolarità, invece, è stato prodotto dal centrale gruppo G (4 mesi) a conferma di un andamento tutt’altro che lineare e piuttosto altalenante nella produzione delle combinazioni V+N regolari. Nei prossimi paragrafi che prendono in analisi altri quattro sostantivi e i loro rispettivi collocati vedremo se le tendenze emerse finora vengono confermate o meno. 6.4.2. V + lavoro Dall’analisi dei collocati verbali del sostantivo lavoro escludiamo, oltre alla copula, il verbo trovare in quanto la combinatoria trovare + lavoro costituisce una collocazione tipica, molto diffusa nella scrittura degli apprendenti; detto ciò, evidenziamo che gli apprendenti hanno prodotto un totale di 21 types verbali i quali si distribuiscono nei quattro gruppi individuati dalla prima variabile in base a quanto esposto nella tab. 6: gruppo A frass gruppo C gruppo D frass frass amare 2 cercare 1 ammirare 1 avere 4 avere 4 finire 1 anticipare 1 cercare 1 continuare 1 ottenere 1 avere 5 fare 2 dire 1 piacere 3 fare 1 finire 2 diventare 1 faticare 1 piacere 1 fare 2 finire 1 scegliere 1 iniziare 1 interessare 1 vedere 1 offrire 1 perdere 2 volere 1 1 svolgere 1 piacere gruppo B frass Tab. 6 Collocati verbali del sostantivo lavoro (V+lavoro) Il primo dato che emerge dalla tabella è che il gruppo A (1-‐6 mesi di studio) ha prodotto un numero di collocati verbali diversi pari al gruppo C e molto vicino al gruppo D, questi ultimi costituiti da informanti che hanno studiato l’italiano per più di un anno. In almeno due gruppi di apprendenti sono presenti i verbi avere (A, C e D), cercare (B e D), fare (A, C e D), finire (B, C e D) e piacere (A, B e D). 146 Risultano marcate le combinazioni cercare lavoro in quanto si tratta di una collocazione strettamente associata prodotta dai nativi (con alti punteggi di frequenza e associazione lessicale) e la combinatoria fare lavoro, poiché è una costruzione a Vsup il cui statuto particolare, come abbiamo visto, predispone questo tipo di combinazioni all’uso da parte degli apprendenti: si tratta della tipologia di costrutti che nel presente studio abbiamo definito come delle vere e proprie “isole di affidabilità” (par. 6.3.) per gli apprendenti di lingua italiana L2. Le combinazioni appena elencate sono state prodotte in regolari costruzioni dal punto di vista sintattico-‐semantico da parte di tutti e quattro i gruppi (ad es., “In questo tempo la gente è molto nervosa, forse ha il lavoro difficile o qualche problemi”; “L'anno scorso ho cercato il lavoro come un animatore […]”; “Prima di venire in Italia, pensavo che io volessi fare un lavoro della guida turistica, ma ora non penso così”; “ Mi piace il lavoro che faccio”; “Allora ogni giorno dopo che ho finito le lezioni a scuola oppure quando ho finito il lavoro andavo a casa mia […]”). Vediamo di seguito nell’analisi delle concordanze come sono state utilizzate nel contesto tutte le altre combinazioni V + lavoro prodotte dagli apprendenti. Il gruppo A ha realizzato tutte combinazioni V+NOgg regolari (ad es., “Se ami il tuo lavoro no è più un lavoro ma cambia da un hobby”; “sono delle persone che pensano che tutto hobby, alla fine diventa come un lavoro”). Degno di nota è l’uso a questo livello di apprendimento (6 mesi di studio) della costruzione “voler dire qlcs.” con il senso di significare nella concordanza seguente: [13] […] in questo tempo io lavoro ma non mi sembra che lavoro, perché la unita di questo posto avere la possibilità di cambiare tutte le negative cose che vuol dire lavoro per noi. Anche il gruppo B ha prodotto la totalità delle costruzioni regolari, oltre ai casi sopraelencati dei verbi cercare, finire e piacere, figura tra i collocati anche il verbo ottenere (“Quando sono arrivato qui a Perugia, ho deciso che volevo ottenere un lavoro”). Il gruppo C si distingue rispetto ai precedenti A e B sia per la quantità, seppur esigua, di usi semantico-‐sintattici irregolari che per il ricorso a collocati verbali diversi rispetto agli altri gruppi. Le irregolarità sono due: una di ordine sintattico e l’altra di natura sintattico-‐
semantica. Nel primo caso [14] assistiamo all’uso transitivo del verbo interessare in un contesto frasale costruito intransitivamente per ospitare la forma riflessiva del verbo in questione: [14] Per questo interesso lavoro nella casa di tè a Praga, perché ci posso provare nuovi e nuovi tè. Nel secondo caso [15] ci troviamo di fronte al verbo faticare, semanticamente inadatto, e usato transitivamente poiché seguito dall’Oggetto diretto lavoro; questo uso potrebbe essere motivabile con l’influenza della L1 o di altre L2: 147 [15] Lei vive li da 4 anni, ci sono tanti amici, e ha una buono lavoro. Ma secondo non è comodo che vive lì. La persona dovere faticare il lavoro quando vive a Firenze, paga molti soldi per affittare la casa, la macchina e spende molti soldi per comprare i modi vestiti! Per quanto riguarda gli usi regolari prodotti da questo gruppo, segnaliamo l’uso del verbo ammirare [16] nella combinatoria con il sostantivo lavoro dotato della specificazione artistico: [16] Mi piace il Museo di Vaticano. Ci sono i molti capolavori delle artiste famosi nel questo museo. Abbiamo speso tre ore per ammirare i lavori artistici. e gli usi delle combinazioni anticipare + lavoro, perdere + lavoro e svolgere + lavoro i quali risultano regolari [17] -‐ [19]: [17]
Insomma si anticipa il lavoro che dovrebbe fare nell’anno libero; [18] Nello stesso giorno ho perso il lavoro, e pure la macchina della compagnia che potevo anche usare per gli affari personali; [19] Siccome faccio la libera professionista e l'unica cosa di cui ho bisogno per lavorare è un computer collegato a Internet, posso svolgere il mio lavoro ovunque; Similmente a quanto emerso nel paragrafo precedente, il gruppo D non ha apportato un numero significativo di collocati verbali nuovi rispetto agli altri gruppi; viene confermato un consolidamento sia nelle scelte combinatorie che negli usi a questo livello di apprendimento (più di tre anni di studio della lingua italiana) in quanto non emergono irregolarità consistenti; aldilà dei verbi scegliere e vedere (“Molte volte i ragazzi scelgono un lavoro perché guadagna tanti soldi ma non è felice”; “Ho letto la traduzione della nostra professoressa per poter vedere suo lavoro”) si segnalano alcune osservazioni nelle produzioni del gruppo D: -‐ nella concordanza [20] la combinazione fare i lavori è retta dal verbo andare ed è stata usata con il valore del sintagma andare al lavoro, in un ampliamento sintattico-‐
lessicale; si potrebbe ipotizzare una scelta stilistica ai fini di un arricchimento lessicale della produzione dato che nel medesimo contesto frasale compare l’analoga e regolare costruzione andare a scuola: [20] Bambini accompagnati dai propri genitori vanno a scuola con uno zaino sulle spalle, i giovani con un bicchiere di sugo in mano prendendo l'autobus o metro vanno a fare i lavori; -‐ nella concordanza che segue [21] si assiste a una combinazione V+NOgg costruita regolarmente ma con l’impiego del verbo finire in luogo del verbo concludere, il cui uso sarebbe più appropriato per la lingua scritta: [21] Vorrei finire questo lavoro con la mia memoria della città che mi sembra tanto simile alla mia l'amata Praga – Firenze; 148 -‐ il verbo volere nell’esempio seguente [22] è stato utilizzato con la particella ci nel senso di necessitare: [22] Il nuoto sincronizzato è molto difficile e ci vuole il lavoro duro nella piscina ma anche nella palestra dove facciamo la ginnastica e un po' di balletto; Nonostante si sia in presenza di usi prevalentemente regolari dei collocati verbali del sostantivo lavoro, segnaliamo tuttavia che le due irregolarità riscontrate si trovano nelle produzioni dei due gruppi ai poli della seconda variabile; l’irregolarità semantica, infatti, è stata prodotta da un apprendente del gruppo E (0-‐1 mese di permanenza in Italia), mentre l’uso del verbo faticare, anomalo sia dal punto di vista sintattico che semantico, figura nel gruppo I composto da informanti che hanno trascorso il periodo di tempo più lungo in Italia (più di sei mesi). 149 6.4.3. V + vita Esclusi i verbi godere, vivere e la copula gli apprendenti hanno prodotto un totale di 74 types verbali che si distribuiscono nei quattro gruppi individuati dalla prima variabile (tempo di studio dell’italiano) in base alla seguente tabella 7: gruppo A frass gruppo B gruppo C frass gruppo D frass frass affrontare 1 abituare 1 arricchire 1 abbandonare 1 amare 1 adattare 1 cambiare 1 avere 2 cambiare 4 amare 3 cominciare 2 capovolgere 1 capire 1 ambientare 1 concepire 1 cominciare 1 colorare 1 avere 3 condividere 1 condurre 1 cominciare 3 cambiare 1 conoscere 1 conoscere 1 confidare 1 chiacchierare 1 decidere 1 immaginare 1 dire 1 conoscere 1 divertire 1 mancare 1 fare 1 dimenticare 1 esprimere 1 prendere 1 finire 3 divertire 2 fare 2 raccontare 1 osservare 1 fare 1 funzionare 1 rendere 1 parlare 1 iniziare 1 migliorare 1 riconoscere 1 perdere 1 passare 1 piacere 1 riempire 1 piacere 7 piacere 6 preferire 1 rischiare 1 presentare 1 raccontare 1 ricordare 1 salvare 1 proteggere 1 rendere 1 sentire 1 vedere 4 pulsare 1 ricominciare 1 sopportare 1 ricordare 1 rinunciare 1 volere 1 salvare 1 sostenere 1 Tab. 7 Collocati verbali del sostantivo vita (V+vita) Il gruppo che ha prodotto il numero maggiore di collocati è il gruppo B. I verbi che figurano in almeno due gruppi di informati sono i seguenti: amare (gruppi A e B), avere (gruppi B e D), cambiare (gruppi A, B e C), cominciare (gruppi A, C e D), conoscere (gruppi B, C e D), divertire (gruppi B e C), fare (gruppi A, B e C), piacere (gruppi A, B e C), raccontare (gruppi B e D), rendere (gruppi B e D), ricordare (gruppi A e C) e salvare (gruppi B e D). Le combinazioni cambiare vita e salvare vita sono marcate in quanto si tratta di due collocazioni V+N prodotte dai nativi del corpus SCUOLA, rientrate sia nei valori soglia 150 di frequenza ed associazione lessicale che rispondenti ai criteri linguistici; è marcata anche la combinazione fare vita poiché si tratta di una costruzione a verbo supporto. Dall’analisi dei contesti è risultato che le combinazioni marcate siano state utilizzate regolarmente (“L'estate scorse ho fatto il viaggio che ha cambiato la mia vita per sempre”; “la nostra mente nelle difficile situazioni può salvarti la vita”) con l’unica eccezione relativa all’uso del verbo cambiare da parte dell’apprendente appartenente al gruppo C [23] in cui figura una irregolarità sintattica, consistente nell’impiego dell’ausiliare essere in una costruzione volutamente transitiva: [23] Qualche volta mi sempre che il Formula 1 sia cambiato la mia vita perché primo di guardarlo non mi penso di studiare un' altra lingua o andare a un'altra città o paese da sola; Interessante risulta l’uso regolare ma diversificato in base ai gruppi di apprendimento della costruzione a verbo supporto fare + vita, realizzata dai gruppi A, B e C. Per mezzo dell’analisi dei contesti abbiamo riscontrato che nei primi due gruppi il valore del verbo fare è pari a condurre, [24] e [25], mentre nel terzo gruppo troviamo due occorrenze della costruzione a Vsup in cui fare ha il valore causativo e il significato di rendere, in [26] e [27]: [24] […] fa una vita dei fiori e rose; [25] Benché abbiano fatto questa vita insieme, oggi è la prima volta in cui si hanno parlato in privato tra di loro; [26] […] e non vediamo le cose principale che fanno la nostra vita bella; [27] Lei era una fiaba matrigna per me, faceva la mia vita meravigliosa e adesso non c'era; Anche tutti gli altri verbi sopraelencati, non marcati ma presenti in almeno due gruppi di studio, sono stati prodotti dagli apprendenti in regolari costruzioni V+NOgg (ad es., “Da quando sono arrivato in Italia, ossia, da 3 mesi, io ho cominciato una nuova vita”; “Leggere vuol dire vivere in un altro mondo, convivere con i personaggi, conoscere una nuova vita”; “Gli racconto la mia vita all'università e qualcosa interessante”; “Tutti noi ricordiamo la vita nel teatro. Che bel tempo!”; “[…] mi piace la vita libera!”; “[…] il tempo libero serve per rendere la nostra vita piacevole”) ad eccezione del verbo divertire prodotto sia dal gruppo B [28] che dal gruppo C [29]. In entrambi i casi questo verbo, nonostante sia seguito dal complemento oggetto vita, è stato usato riflessivamente e quindi con il valore intransitivo; inoltre, anche la semantica del verbo risulta anomala e, osservando i contesti in cui è stato prodotto, si potrebbe ipotizzare che tale costrutto sia stato prodotto sul calco del verbo inglese to enjoy con il significato italiano di godere: [28] Ti divertirai la vita in Italia; [29] Io ascolto le musiche e mi diverto la mia vita interessa! 151 Descriviamo di seguito le tendenze che emergono dall’analisi dei contesti dei collocati verbali prodotti dai singoli gruppi di apprendimento. Il gruppo A ha prodotto perlopiù costruzioni regolari (ad es., “[…] perché se puoi capire te stesso allora significo che puoi meglio capire vita”; “Ci piace bere la bevanda locale osservando la vita della sera”; “Mi piace molto come lei racconta la storia presentando la vita di Carlos V”; “Penso che la papà è tantissimo geniale, il gioco non solo protegge la vita di suo figlio, ma anche protegge la anima di suo figlio”; “I bar […] sono aperti verso le strade, nelle quali pulsa la vita”). Si segnalano alcune irregolarità sintattico-‐semantiche. Annoveriamo tra le irregolarità sintattiche l’utilizzo del verbo confidare, costruito intransitivamente ma seguito dall’oggetto diretto vita [30]: [30] Sono fortunato di avere gli migliori amici, quelli compagni in cui io confido mia vita e viceversa; e del verbo parlare, di fatto intransitivo in italiano ma usato transitivamente dell’apprendente [31]: [31] Sediamo li le scale e parliamo la vita; Consideriamo, invece, come irregolarità semantiche gli usi dei verbi dire, il quale regge una proposizione oggettiva in cui è stata omessa la copula, con il valore di raccontare, descrivere [32] e finire con il valore di porre fine/ concludere [33] – [35]: [32] Abbiamo detto come la vita nella scuola superiore, c'erano molti interessanti; [33] A volte, voglio tornare a casa mia in Cina per finire questa vita noiosa, ma voglio realizzare il mio sogno artistico, quindi io solo insisto di studiare l’italiano; [34] Adesso ho già finito la vita di teatro; [35] Se devo finire la mia vita solo su un isola prenderò quel libro; Segnaliamo in questa sede, laddove emergono, gli usi originali e creativi dal punto di vista semantico-‐stilistico di costruzioni regolari; nel caso del gruppo A mettiamo in evidenza l’uso del verbo colorare in abbinamento al sostantivo vita che, a differenza dei verbi elencati appena sopra, i quali costituiscono degli slittamenti all’interno dello stesso ambito semantico, denota una particolare capacità comunicativa dell’informante [36] poiché rende metaforicamente l’idea dell’utilità di riempire il proprio tempo libero con attività di vario genere e si rivela una scelta stilisticamente appropriata, nonostante la mancanza di mezzi espressivi più adeguati, come potrebbe essere ad esempio il verbo arricchire: [36] Penso che colora vita nel tempo libero sia utile per la persone; Infine, il gruppo A ha utilizzato regolarmente due collocazioni, intese sia in senso quantitativo che linguistico, prodotte dai nativi: affrontare vita e perdere vita (“[…] non voglio affrontare la vita, spero che c'è un dio aiutarmi per fare tutto”; “[…] molte volte lui aiutò a suoi compagni del ordine, rischiato di perdere la sua vita”). 152 I gruppi B e C presentano il numero maggiore di irregolarità nell’uso dei collocati verbali dell’Oggetto vita. Nello specifico, nel caso del gruppo B si tratta perlopiù di irregolarità sintattiche consistenti nella attribuzione dell’oggetto diretto ai verbi che in italiano richiedono un oggetto indiretto poiché sono intransitivi [37] – [41]; si tratta dei verbi abituarsi (benché non realizzato nella forma riflessiva), adattarsi, ambientarsi, chiacchierare e rinunciare: [37] In Cina io non cucinavo mai, pian piano abituo la vita da solo; [38] Non ho scelto di stretto amicizia con altri cinese, siccome è molto pericoloso entrare un gruppo di cinese, se si entra, probabile significa che non si mai adatterà la vita di Italia; [39] Adesso mi sono ambientato la vita italiana; [40] Se vuoi, chiami i tuoi amici, fate il giro in centro e chiacchierate le vostre vita; [41] Possiamo vivere senza i soldi, ma non possiamo rinunciare la vita e suicidarsi; Nell’ambito delle combinatorie semanticamente irregolari menzioniamo: -‐ l’uso transitivo del verbo passare, seguito dal sostantivo vita preceduto dall’aggettivo determinativo bella [42]: proprio questa inserzione qualificativa dell’oggetto rende la combinazione anomala ed evidenzia una carenza nel vocabolario dell’informante: [42] Vorrei passare la bella vita in Italia; -‐ l’uso del verbo sostenere in combinatoria con il sostantivo vita, probabilmente sul modello dell’espressione sostenere le spese [43]: [43] Prima, vorrei ottenere la borsa di studio, quindi posso sostenere la mia vita in Italia da solo; Tra gli usi regolari, oltre ai verbi prodotti anche da altri gruppi di apprendenti ed elencati in apertura del presente paragrafo, il gruppo B ha prodotto combinazioni con i verbi dimenticare e iniziare (“Io non dimentico la vita di xxx, qui è il luogo che inizia la mia vita indipendente”) e il verbo ricominciare (“[…] quando io sono arrivata a xxx, vorrei ricominciare una vita nuova”). Nel caso del gruppo C, benché la maggior parte degli usi rientri in regolari costruzioni V+NOgg, tra le irregolarità si assiste principalmente ad anomalie di tipo semantico confermando la tendenza tratteggiata nei paragrafi precedenti, ovvero che gli informanti del gruppo C tendono a realizzare delle sperimentazioni nelle combinatorie lessicali. Accanto agli usi regolari (ad es., “Per questo i viaggi sono speciali e di solito sono la prima cosa che parliamo quando pensiamo in tempo libero. È quello che arricchisce la nostra vita […]; “[…] per migliorare la nostra vita, soprattutto per la uguaglianza tra le donne e gli uomini, lavoriamo insieme […]”; “Vogliamo una vita buona solo”) ed alla irregolarità sintattica relativa al verbo cambiare descritta sopra, gli slittamenti semantici da segnalare (anche l’uso del verbo divertire è stato già menzionato 153 all’inizio del presente paragrafo) riguardano i verbi sentire e sopportare103 con il valore rispettivamente di percepire [44] e sostenere [45]: [44] […] se hai il tempo andarci e mangiare qualcosa famosa, puoi sentire la vita è anche bella; [45] […] sicuramente che questa fabbrica sopporti la vita della mia famiglia, ma anche della tutta la città; Tra gli usi del gruppo C da menzionare annoveriamo le produzioni regolari delle combinazioni con i verbi concepire, condividere, creare e decidere (“[…] e cinque anni dopo quasi potrei dire che non concepisco la mia vita senza nuotare”; “Maria, la sua compagna, la donna che lui aveva scelto per condividere la sua vita, lo aveva abbandonato al improvviso”; “Comunque tutti cercano di creare la propria vita e goderla e per fortuna tutti riescono”; “Ti piace il libro? -‐ sentivo che questa domanda deciderebbe mia vita”). Il gruppo D ha prodotto, nel caso dei verbi co-‐occorrenti con il sostantivo vita, due usi semantici impropri: il verbo rischiare in luogo della costruzione “mettere a rischio” [46] e il verbo abbandonare in luogo del verbo togliere [47]; questi usi impropri emergono soltanto dall’analisi delle concordanze e quindi dei relativi contesti; di contro segnaliamo, accanto a tutti gli altri usi regolari (come ad es., “I nanchinesi sono abituati ad accettarlo con coraggio e con fiducia, raramente perdono la curva sulle labbra, conducono la vita amara o dolce, se la godono”; “Perché sognando, troviamo la voglia ed il bisogno di riempire la nostra vita...”; “Con il tempo diventavo allegra e contenta di riconoscere la propria vita […]; “Mia papà deve vedere una differente vita perché lui ha mai visitare un altro paesi”; “Volevo essere forte come lei, prendere la vita come è, essere soddisfatta con il suo ruolo nel mondo e non pentirsi”; “Uno giorno la donna ha cominciato a mancare la sua vita”) due costruzioni [48], [49] il cui uso non soltanto è regolare, ma degno di nota: [46] […] hanno rischiato la vita di poliziotti, buttando pietre molti grandi; [47] Secondo loro studiare è tutta la vita, per questo motivo ci danno tanta pressione, anche la società ce la dà. Alcuni studenti si abbandonano i loro vita perché i loro genitori non sono soddisfatti. Avevano paura di questo; [48] Ma quella sera è successo qualcosa che ha capovolto la mia vita; [49] La musica è molto importante per me e non posso immaginare la mia vita senza lei; Possiamo facilmente osservare in [48] una variazione stilistica consistente nell’uso del verbo capovolgere in luogo del più comune e diffuso cambiare (presente, lo ricordiamo, in tutti e tre i gruppi antecedenti) con una evidente intenzione 103
Non possiamo ovviamente non tenere in considerazione che questo ultimo verbo potrebbe essere un refuso tipografico e che l’apprendente abbia voluto invece produrre il verbo supportare il quale, al contrario, avrebbe dato vita a una costruzione regolare. 154 rafforzativa. In [49] assistiamo alla costruzione realizzata con il verbo potereneg + verbo immaginare [qlcs. senza qlcn./qlcs.], anche questa con funzione enfatizzante. Tirando le somme si osserva che il numero maggiore di anomalie sintattiche si verifica nelle produzioni dei gruppi A e B; anche per i verbi selezionati dall’Oggetto vita le anomalie sintattiche più diffuse riguardano la dimensione della transitività, intesa nel senso grammaticale, ovvero come la difficoltà di individuare se un verbo richiede la presenza o meno di un complemento oggetto diretto. Passando per il gruppo C e arrivando all’ultimo gruppo D si osserva: 1) una diminuzione delle irregolarità sintattiche che lascia spazio a degli slittamenti semantici; 2) un cospicuo aumento nelle combinazioni V + vita regolari e nuove, già presenti in quantità anche superiori nel gruppo C. Possiamo quindi confermare la tendenza del gruppo D ad un consolidamento delle costruzioni, per via di una diminuzione delle irregolarità sintattico-‐semantiche e la evidente predisposizione da parte del gruppo C a ricorrere a verbi nuovi. Per quanto riguarda la valutazione della seconda variabile possiamo vedere che non si assiste nemmeno nel caso studiato nel presente paragrafo ad un andamento decrescente nel numero delle irregolarità sintattico-‐semantiche passando dal gruppo E al gruppo I; al contrario, si ha una concentrazione delle anomalie nei gruppi centrali (F, G e H) e la presenza minima se non nulla delle irregolarità nei due gruppi con minore (gruppo I) e maggiore (gruppo E) esposizione all’input. 155 6.4.4. V + tempo Il sostantivo tempo ha selezionato più frequentemente i verbi trascorrere, passare e avere i quali vanno a costituire, infatti, le collocazioni tipiche emerse dalle produzioni del corpus CAIL2 degli apprendenti di italiano L2. Per questo motivo tali verbi, insieme al verbo essere, sono stati esclusi dall’analisi che segue. Per quanto concerne le restanti co-‐occorrenze verbo-‐nominali, gli apprendenti hanno prodotto un totale di 54 types verbali che si distribuiscono nei quattro gruppi individuati dalla prima variabile in base a quanto esposto in tab. 8: gruppo A arrivare chiamare cominciare crescere dedicare diventare fare includere lasciare organizzare partire pensare perdere piacere ricordare sapere studiare tenere frass 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 gruppo B arrivare costare fare godere piacere ricordare spegnere spendere spengere trovare usare venire Tab. 8 frass 1 1 2 3 1 1 2 4 1 2 1 1 gruppo C accorgere ammazzare cambiare cercare costare desiderare finire lasciare occorrere passeggiare perdere piacere preferire pulire riguardare rubare spendere sprecare trovare usare volere frass 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 2 1 2 1 1 gruppo D approfittare arrivare bisognare dedicare dividere durare fare godere leggere mancare perdere piacere preferire ricordare riempire rimanere salvare sciupare servire spegnere stare volere frass 1 1 2 2 1 1 5 1 1 2 4 1 1 1 1 1 1 1 1 1 1 1 Collocati verbali del sostantivo tempo (V+tempo) Il gruppo che ha prodotto il numero maggiore di collocati diversi è il gruppo D. I verbi che co-‐occorrono con il sostantivo tempo in almeno due gruppi sono: arrivare (gruppi A, B e D), costare (gruppi B e C), dedicare (gruppi A e D), fare (gruppi A, B e D), godere (gruppi B e D), lasciare (gruppi A e C), perdere (gruppi A, C e D), piacere (gruppi A, B, C e D), preferire (gruppi C e D), ricordare (gruppi A, B e D), spegnere (gruppi B e D), spendere (gruppi B e C), trovare (gruppi B e C), usare (gruppi B e C) e volere (gruppi C e D). 156 Tra le combinazioni prodotte con i verbi sopraelencati risulta marcata soltanto la collocazione perdere tempo, individuata tra le produzioni dei nativi e rispondente ai criteri linguistici adottati nel presente studio. Tutti i gruppi di apprendenti che hanno prodotto questa collocazione l’hanno utilizzata in regolari costruzioni V+NOgg (ad es., “Purtroppo passo troppo tempo nei mezzi di trasporto. Siccome non vorrei perdere questo tempo, leggo molto”; “Secondo me, quando già conosci l'obiettivo è meglio trascorrere il cammino corretto e non perdere il tempo inutilmente” ). Vediamo di seguito come sono stati utilizzati i verbi sopraelencati dai rispettivi gruppi, nello specifico se esistono delle tendenze comuni nei loro usi e se si registrano delle irregolarità e a quale altezza di apprendimento si trovano. Il verbo arrivare è stato utilizzato in regolari costruzioni intransitive da parte di tutti e tre i gruppi che lo hanno prodotto, ovvero il gruppo A [50], il gruppo B [51] e il gruppo D [52]: [50] Già è arrivato il tempo di svegliarvi; [51] Sono abituata che, dopo l'estate arriva il tempo più freddo; [52] Forse è arrivato il tempo per un altro cambiamento; Il verbo costare è stato impiegato irregolarmente soltanto da parte del gruppo B il quale lo ha prodotto intransitivamente, nel suo senso letterale di avere un costo [53], laddove la co-‐occorrenza con il sostantivo tempo richiede necessariamente l’uso figurato del verbo nel suo valore di esigere, richiedere realizzato regolarmente per mezzo del pronome personale dall’apprendente del gruppo D [54]: [53] Cucino piatti cinese raramente perché loro costano tanto tempo; [54] Avevo cinque anni, e leggevo già piccole favole, ma mi costava tanto tempo, perché leggevo lentamente. Il predicato fare è stato utilizzato regolarmente dai gruppi A e D esclusivamente in riferimento al tempo metereologico e in combinazione agli aggettivi qualificativi bello/ brutto (ad es., “Mi piace correre, tutti i giorni, non importa se fa bel tempo o no”); il gruppo B, invece, ha commesso una irregolarità semantica, poiché lo ha utilizzato con il valore di passare [55]: [55] Parlare, fare le passeggiate in città, ridere, rilassarci -‐ fare un bel tempo insieme; Il verbo godere è stato utilizzato regolarmente dal gruppo D, ovvero nella forma riflessiva con valore transitivo (“Perché sono piuttosto occupata, non mi posso godere il tempo libero molto spesso, allora voglio sfruttarlo al meglio”); l’uso del verbo risulta ancora incerto per il gruppo B il quale in due occorrenze su tre ha prodotto il verbo intransitivamente facendolo seguire dell’Oggetto diretto [56], [57]: [56] Preferisco godere il tempo libero con i miei amici!; 157 [57] Posso godere il tempo libero da solo nella piscina; Il verbo ricordare compare nei gruppi A, B e D; tra questi, l’uso regolare del predicato si registra nei gruppi A e D (“Forse quando sono 16 anni, non mi ricordo il tempo certo...”; “Ho sempre tantissime fotografie nella mia stanza perché mi ricordano i bei tempi della mia gioventù”), mentre il gruppo B ha commesso una irregolarità sintattica facendo precedere il predicato dalla particella si e dal verbo fare [58]: [58] Gli piace molto ... Perché si fa ricordare il tempo che aveva passato con Bianco; Una tendenza interessante e trasversale da segnalare che si verifica sia nel gruppo B [59], [60] che nel gruppo D [61] è l’uso del participio passato del verbo spegnere > spento in luogo del participio passato del verbo spendere > speso; a questo proposito potrebbe essere ipotizzabile l’influenza del participio passato inglese (spent) del verbo to spend nella frequente collocazione inglese to spend time: [59] Ma penso che è veramente ho spento troppo tempo sul computer, invece non ho visto molti libri questi tempi; [60] I libro mi piace tantissimo il libro di storia, anche qualche volta ho spento tanti tempi sul wikipedia a trovare il informazione sulla storia di qualche periodo al qualche paese; [61]
Ho spento molto tempo da sola alla biblioteca cercare per un lavoro oppure un'idea; L’uso figurato del verbo spendere, invece, è stato prodotto sia dal gruppo B [62]-‐[65] che dal gruppo C [66]-‐[67] (quest’ultimo, quindi, sembra non presentare l’incertezza morfologica con il predicato spegnere appena descritta e presente ancora tra gli apprendenti del gruppo B); la palese confusione tra il participio passato inglese (spent) e il participio passato italiano (spento) ipotizzata sopra trova conferma nelle concordanze seguenti in cui il ricorso all’infinito [62], [63] e ai tempi verbali semplici [64]-‐[67] evidenzia un uso consapevole del verbo in questione. Tuttavia, questo verbo è stato impiegato da tutti gli apprendenti che lo hanno prodotto con l’accezione neutra che in italiano è propria dei verbi passare e trascorrere in riferimento al tempo. Al contrario, in italiano, l’uso figurato del verbo spendere in riferimento a risorse quali il tempo viene utilizzato con l’accezione di consumare, sprecare; per questo motivo abbiamo annoverato gli usi seguenti tra le anomalie semantiche: [62] Credo che le persone che piacciono leggere le novella abbiano tante pazienza, ma per diventare così paziente, devono spendere tanto tempo e devono stare in un spazio silenzioso; [63] Mi piacciono soprattutto il film e il telefilm comodi, che posso spendere tanti tempi a guardare sempre; [64] Quando ero piccolo io sempre spendevo tempo a guardare la mappa a provare a ricordare i nomi dei paesi e i nomi dei suoi capitali; 158 [65] Adesso, spendo molto tempo a casa, perché ho pochi amici in Perugia; [66] Non mi piace guardare la TV. Però spendo molto tempo sul internet con il mio ragazzo; [67] Perciò spendo il tempo per scrivere il ricordi di viaggio; Possiamo quindi affermare che il calco della collocazione inglese to spend time ha agito nelle produzioni degli apprendenti di italiano L2 sia dal punto di vista morfologico (il participio passato italiano è stato formulato analogicamente sul modello di quello inglese) che dal punto di vista semantico (il verbo italiano è stato utilizzato con l’accezione neutra propria del predicato inglese to spend). Il verbo volere è stato utilizzato dal gruppo C in una regolare costruzione N+VOgg (“Quando non ho molto da fare, o quando voglio un tempo da sola per rilassare e non pensare a niente […]”) mentre il gruppo D [68] lo ha impiegato intransitivamente, in forma impersonale con l’ausilio della particella pronominale –
ci, per cui il sostantivo tempo preceduto dall’aggettivo indefinito tanto ha assunto la valenza avverbiale: [68] È strano quanto possono cambiare i nostri sentimenti per una città, e non ci vuole neanche tanto tempo. Anche i verbi piacere e usare in co-‐occorrenza all’Oggetto tempo sono stati utilizzati perlopiù regolarmente (“Mi piace il mio tempo libero, perché faccio tutto che voglio provare”; “È così che uso il mio tempo”) ad eccezione dell’impiego fattone dal gruppo C che verrà menzionato di seguito nell’analisi delle tendenze interne ai singoli gruppi. Gli altri verbi sopraelencati e utilizzati regolarmente da tutti i gruppi che li hanno prodotti sono: dedicare (“Ero contenta, mi piaceva inventare nella mia testa una cosa e poi realizzarla con le mie mani, dedicare il mio tempo e la mia pazienza alla creazione di un oggetto concreto”); lasciare in co-‐occorrenza del quale il sostantivo tempo è stato utilizzato nell’espressione con valore avverbiale tanto tempo nel caso del gruppo A (“[…] perché mi ha lasciato tanto tempo da sola”) e nella più complessa costruzione causativa lasciar passare da parte del gruppo C (“Nel mio tempo libero, ho molto cosa da fare, quindi non lascio il tempo passare avendo niente da fare in ogni caso”), preferire utilizzato esclusivamente in riferimento al tempo meteorologico (“Io preferisco il tempo caldo”) e trovare utilizzato in una regolare costruzione V+NOgg (“Solo adesso trovo il tempo libero per scriverti questa lettera”). Nel gruppo A si assiste prevalentemente a usi regolari, fatta eccezione per una irregolarità semantica relativa all’uso del verbo diventare dovuta ad una palese carenza nel vocabolario dell’apprendente [69]: [69] Nella libreria, diversi di libri mi diventando frenetico, leggevo i libri e diventavo il tempo, non torno a casa in tempo, facendo criticato per miei genitori; 159 Gli usi regolari dei costrutti V+NOgg realizzati esclusivamente dal gruppo A [70]-‐[72] riguardano i verbi includere, organizzare e tenere, quest’ultimo utilizzato come sinonimo del verbo avere, probabilmente per influenza della L1 o di altre L2: [70] Secondo me, essendo molto filosofico, direi che sono io che ho fatto appello al universo per portarmi tutto ciò che ho oggi, incluso il tempo libero! [71] La persone può avere un bel tempo libero, anche è una persone che può organizzare il tempo bene, può fare cosa efficienza; [72] Poi, io non teneva tempo, e io non potevo andare più; Inoltre, segnaliamo anche le costruzioni regolari realizzate in combinazione coi verbi sapere e chiamare; nel primo caso [73] il sostantivo tempo figura come testa di una proposizione oggettiva, nel secondo caso [74], invece, ci troviamo dinnanzi all’uso regolare di un verbo appellativo:
[73] No so quanto tempo potrei passare guardandogli agli occhi senza dire una parola; [74] Credo di essere nel punto dove non posso differenziare più fra quello che potessi chiamare tempo libero; Infine, possiamo affermare che nel gruppo A domini la tendenza per cui il sostantivo tempo, in co-‐occorrenza con un buon numero di verbi, per l’esattezza con i verbi cominciare, crescere, partire, pensare e studiare (oltre al verbo lasciare menzionato sopra), e preceduto dagli aggettivi indefiniti tanto, poco, ecc., ha assunto il valore avverbiale (come ad es., in “studiavo poco tempo”, “Idea può crescere tanto tempo e aspettare più e più persone”, “ho cominciato solo poco tempo fa”); tale costrutto, ovviamente esula dalla presente analisi. Il gruppo B ha prodotto degli usi prevalentemente irregolari dal punto di vista sintattico-‐semantico; abbiamo annoverato tra le irregolarità a carattere semantico i verbi sopra citati costare, fare e, soprattutto, spegnere e spendere. Alla stessa categoria di irregolarità possiamo attribuire anche il verbo spengere (“Mi piace spengere il mio tempo libero per guardare la natura”), il cui caso va ricondotto con molta probabilità ad un refuso: l’apprendente avrebbe potuto voler produrre il verbo spendere analogamente a quanto accaduto negli altri esempi riportati sopra [62], [63]. Anche le irregolarità di ordine sintattico sono state descritte in apertura del paragrafo in quanto erano relative, lo ricordiamo, ai verbi godere e ricordare i quali sono stati prodotti da più di un gruppo di apprendenti. Per quanto concerne gli usi regolari, invece, sempre in analogia a quanto emerso sopra in merito al verbo arrivare, si attesta l’uso regolare di un altro verbo intransitivo: venire (“Quando verrà il tempo per andare a Roma mi mancherà molto a scuola che faccio adesso”). Per il gruppo C si registra una varietà di irregolarità semantiche. Relativamente alla sintassi, invece, figurano i casi del verbo accorgersi, usato 160 transitivamente e quindi con l’oggetto diretto [75], del verbo occorrere preceduto dal si impersonale [76] e dell’uso irregolare del verbo piacere [77] accompagnato dall’ausiliare avere: [75] Alcuni autori letteralmente mi danno tale gioia, prendendomi nel loro mondo artificiale con le loro storie, misteri, ed avventure, che io a volte non mi accorgo il tempo intorno a me; [76] Anzi c'è possibile di produrre un altro tipo di iscrizione che si chiama: acquatinta. A farne si occorre molto tempo e anche naturalmente talento e abilità; [77] Mi piace tipico tempo, perché non ho molto piace caldo tempo; Gli usi semantici irregolari, anche nel caso dei predicati verbali co-‐occorrenti con il sostantivo tempo in funzione di Oggetto, sono testimonianza di una certa libertà combinatoria presente nel gruppo C, già tratteggiata nei paragrafi precedenti; questa oscilla tra gli usi semanticamente immotivati come in [78] e [80], gli usi sperimentali [80] e i ricorsi a verbi con un ampio spettro combinatorio [81], come dimostrato dal caso del verbo usare (cfr. par. 6.2.3.): [78] Poi erano i miei amici, i miei squadre che ogni volta li cercavo tempo per lavorare; [79] Certo, io anche altri passioni per passeggiare mio tempo libero; [80] Per pulire il tempo noioso, io prendo il mio Apple nano; [81] I ragazzi usano troppo tempo sul internet come io ...; La varietà lessicale degli apprendenti del gruppo C si riflette anche in scelte semanticamente pertinenti come il ricorso a combinatorie stilisticamente marcate realizzate con i verbi ammazzare [82], rubare [83] e sprecare [84]: [82] […] però solo per ammazzare il tempo; [83] Adesso purtroppo non posso leggere tanto quanto voglio perché il studio mi ruba molto tempo; [84] Non ce la facevo di affrontare i miei genitori, invece i miei genitori sapevano bene che amavo giocare a basket e sprecavo i tempi a scuola; Accanto agli usi regolari della costruzione V+NOgg (quali ad es., “Davvero amavo la musica, ma ero ancora una bambina che desiderava il tempo di giocare invece di sedermi avanti il pianoforte tutto il tempo”, “A causa del mio nuovo lavoro ho perso molto tempo libero”, “Che cos'è il tempo libero? Inizia in quel momento quando finisce il tempo occupato?”) segnaliamo anche la presenza di una costruzione parzialmente lessicalizzata in italiano, ovvero cambiare + artdet + tempopl [85] in cui l’Oggetto espresso al plurale ha il significato di “circostanze storico-‐sociali”: [85] ll mio tipo di musica preferito è la musica classica. Anche mi piace la musica leggera, la pop, ma la classica è molto diversa. Nonostante cambino i tempi, lei rimane sempre così tranquilla e elegante; 161 Nel gruppo D abbiamo potuto osservare una prevalenza di usi regolari; vi figurano, analogamente a quanto era stato affermato per il gruppo A, quattro casi di usi avverbiali del sostantivo tempo e, in particolare, in co-‐occorrenza con verbi durare, leggere, stare e volere che non riporteremo nuovamente nel corpo di questa analisi. Segnaliamo soltanto una irregolarità sintattica nuovamente legata all’uso transitivo di un verbo intransitivo [86]: [86] Mi piace molto questa città pero è un po' faticosa per vivere. Voglio approfittare il tempo non solo per studiare la lingua e la cultura italiana ma anche per conoscere soprattutto questa regione dell'Umbria; Le irregolarità semantiche, accanto a quella descritta in apertura del paragrafo relativa al verbo spegnere riguardano soltanto il verbo bisognare usato con il valore di occorrere/ necessitare (“Bisogna tanto tempo libero per questo sport”). Al contrario, sono presenti degli usi figurati di alcuni verbi con valore rafforzativo e quindi marcati stilisticamente come nel caso dei verbi salvare [87], modulato sulla collocazione inglese to save time e che potrebbe essere classificato anche come uno slittamento semantico rispetto al più pertinente risparmiare, e sciupare [88]: [87] […] pranzano a casa con i loro genitori, passano i tempi con i loro amici. Che fortuna. Così loro possono trovare il vero 'loro', possono salvare tanto tempo; [88] L'importante è guardare al futuro, è inutile sciupare il tempo emergere nel ricordo doloroso degli anni pesanti; Infine, anche nel gruppo D, come già affiorato nel gruppo C, si segnala l’uso plurale del sostantivo tempo con il valore di “circostanze storico-‐sociali” [89]: [89] Ho sempre tantissime fotografie nella mia stanza perché mi ricordano i bei tempi della mia gioventù; I verbi che costituiscono regolari espressioni V+NOgg e che sono state realizzate soltanto dal gruppo degli apprendenti del gruppo D sono: dividere, mancare, riempiere, rimanere, servire [90]-‐[94]: [90] E perché parlo del lavoro nel passato? E perché volevo dividere il tempo al prima e adesso? Perché adesso tutto è cambiato, e non è possibile fare tutto come facevo prima; [91] Mi manca il tempo libero soprattutto perché in questo tempo frequento due facoltà alla università;
[92] Una di miei passioni che riempiono il mio tempo libero è il ballo; [93] Non mi rimane tanto tempo per leggere altro che i libri consigliati a scuola; [94] Non è possibile solo lavorare oppure studiare, dobbiamo rilassarci e per questo ci serve tempo libero; In conclusione, anche per il sostantivo tempo si registra un andamento bipartito che vede da una parte i primi due gruppi (A e B) e dall’altra i secondi due (C e D). 162 I primi due registrano diverse irregolarità sintattico-‐semantiche; gli altri due hanno un comportamento diverso tra di loro: il gruppo C registra anche in questo caso una tendenza più spiccata rispetto agli altri per gli usi originali, classificabili perlopiù tra le anomalie semantiche, mentre il gruppo D si caratterizza per un consolidamento delle forme. Lo studio della seconda variabile, il cui obiettivo è valutare se gli usi classificati come irregolari nella presente analisi siano legati o meno ad una minore esposizione all’input, ha rivelato, anche nel caso delle combinatorie con il sostantivo tempo, un andamento non lineare: gli indici di irregolarità più alti si registrano nei primi due gruppi E ed F e nell’ultimo gruppo I, questo ultimo persino con un indice più alto rispetto ai primi due. Nemmeno in questo caso si può quindi affermare che una esposizione più prolungata all’input abbia favorito una produzione lessicale con un numero minore di irregolarità. 6.4.5 V + musica I verbi coinvolti nelle collocazioni più frequenti e più strettamente associate prodotte dagli apprendenti del corpus CAIL2 con l’Oggetto musica sono ascoltare e piacere. Tutti gli altri predicati coinvolti nelle combinatorie con il sostantivo in analisi vengono elencati nella tabella 9: gruppo A frass gruppo C gruppo D frass frass amare 1 adorare 1 amare 2 amare 4 avere 2 amare 1 avere 1 cantare 1 costruire 1 preferire 1 cantare 1 dovere 1 dimenticare 1 scegliere 2 capire 1 interessare 1 preferire 1 seguire 1 comporre 1 preferire 1 sapere 1 sentire 2 credere 1 studiare 4 sentire 4 studiare 3 diventare 1 studiare 1 godere 1 usare 1 registrare 1 volere 1 sapere 3 scoprire 1 sembrare 1 sentire 2 suonare 3 trovare 1 gruppo B frass Tab. 9 Collocati verbali del sostantivo musica (V+musica) 163 Il gruppo che ha prodotto il numero maggiore di collocati è il gruppo C. I verbi che sono stati prodotti da almeno due gruppi sono: amare (gruppi A, B, C, D), avere (gruppi A, C), cantare (gruppi C, D), preferire (gruppi A, B, D), sapere (gruppi A, C), sentire (gruppi A, B, C), studiare (gruppi A, B, D). Tutti i verbi appena elencati sono stati utilizzati in costruzioni V+NOgg regolari sia dal punto di vista semantico che sintattico da tutti i gruppi (“Della Italia sempre ho amato la musica”; “[…] abbiamo un musica che piace ascoltare molto”; “Preferisco la musica leggera”; “Sentire la musica e muoversi con ritmo è una cosa fantastica e mi sento libera”; “In un certo senso si può dire che io studi la musica ascoltandola”), eccezione fatta per i verbi sapere e cantare. Il verbo sapere è stato utilizzato con il valore semantico di conoscere dal gruppo A [95] e dal gruppo C, formato dagli apprendenti che hanno studiato la lingua italiana per più di un anno, in tutte e tre le occorrenze [96]-‐[98]: [95] Siccome non so bene la musica italiana leggera, non l'ascolto; [96] Quindi ha chiesto: "Hai detto che tu sai la mia musica, allora, potresti dirmi, quale musica io sto suonando?” [97] Ebbene, c'erano tante persone lo lodavano, ma secondo lui, non c'era una persona che sapeva completamente le sue musiche; [98] Se ho tempo libero anche mi piace ascoltare la musica, ma non mi piace ascoltare la musica classica perché non posso capire che cosa vuole dire. Lo sai una musica vecchia che viene da Pechino; Risulta chiara la irregolare attribuzione semantica del verbo sapere nelle concordanze sopra esposte esclusa l’ultima [98], la quale rimane di difficile interpretazione anche nel contesto. Il verbo cantare in abbinamento al sostantivo musica è stato prodotto in entrambe le occorrenze presenti nel corpus da apprendenti che studiavano la lingua italiana al momento dell’elicitazione dei dati da più di un anno e, nello specifico, dai gruppi C [99] e D [100]: [99] Ho imparato a cantare questa musica; [100] Lei è molto differente e canta la musica di "blues" e "jazz"; Queste costruzioni sono parse a chi scrive come delle anomalie semantiche le quali, pur avendo un significato composizionale, risultano inusuali per un parlante nativo. L’analisi delle concordanze per gruppi ha mostrato che il gruppo A ha prodotto tutte combinazioni regolari, eccezion fatta per il sopracitato sapere + musica con il valore di conoscere e del verbo costruire [101] con l’accezione di comporre, fare musica: [101] […] si chiama "Acoustic Spirit Duo", che viene da Roma. Ha due persone da Firenze e abitano a Roma, e usano gli strumenti strani, loro sono molto felici di suonare e di costruire la musica; 164 Anche il gruppo B ha realizzato tutte combinazioni regolari dal punto di vista sintattico-‐semantico (“Ormai scelgo la musica italiana per studiare italiana”, “Anche mi piace che canto seguendo la musica quando faccio la doccia”, “Preferisco la musica leggera”), mentre il gruppo C, il quale ha realizzato il numero maggiore di collocati diversi, si è distinto anche per il numero più alto di anomalie semantiche, tutte relative ai verbi sapere [96]-‐[98] e cantare [99]; per quel che concerne gli usi regolari del gruppo C si segnala a questa altezza di apprendimento della lingua italiana l’uso dei tecnicismi comporre + musica (“Il ragazzo che suona la batteria compone la musica, io scrivo i testi”) e registrare + musica (“Scriviamo ancora qualche canzone insieme in maniera che io registrare la musica che scrivo e mandargliela sull'internet”); della combinazione lessicale godersi + musica, ovvero della forma riflessiva del verbo godere dal valore transitivo (“[…] mi godrò la musica”) e della combinazione suonare + musica (“E ha suonato una musica antica”); del verbo diventare utilizzato in una costruzione causativa con il verbo fare (“Una volta ho pensato di fare diventare la musica una carriera per tutta la mia vita”). Il verbo credere, invece, regge una proposizione subordinata oggettiva (“Credo la musica può rilassare dopo studiare”) e la co-‐occorrenza dei due termini risulta quindi solamente una questione di vicinanza sintagmatica e non rispondente alla costruzione V+NOgg studiata. Il gruppo D registra una prevalenza di usi regolari e un numero decisamente più esiguo di collocati del sostantivo musica rispetto al gruppo C, ma anche rispetto ai primi due gruppi. L’uso semanticamente anomalo si registra nel sopra citato verbo cantare [100] e nel verbo dovere, la cui formulazione, dall’analisi del contesto, risulta incompleta e di difficile classificazione [102]: [102] Oggi voglio comprare una chitarra per suonare perché devo più musica in mia vita; Tra le combinatorie degne di nota segnaliamo un caso di co-‐occorrenza del verbo studiare con il sostantivo musica senza l’articolo determinativo, in una costruzione sintatticamente coesa in cui il nome ha perso la propria referenzialità [103]: [103]
Dopo 6 mesi ho smesso di studiare musica ed io ho trovato un lavoro; In altri due casi, [104] e [105], invece, la costruzione studiare + musica è stata realizzata con l’articolo determinativo anche laddove, nel discorso dell’informante, il nome non era referenziale e designava la disciplina nella sua totalità: [104] In Giappone studio la musica e la mia famiglia ha dei amici italiani; [105] Avevo anche voglia di studiare la musica al conservatorio; Osservando le tendenze emerse dall’analisi per gruppi si può concludere che anche nel caso del sostantivo musica si registra un andamento analogo nella produzione delle costruzioni V+NOgg rispetto all’analisi condotta per gli altri sostantivi e descritta sopra. Infatti, si registra una produzione degli apprendenti del gruppo C molto diversa dagli altri, sia nei termini della sperimentazione che delle irregolarità. 165 Con il gruppo D si ha nuovamente la tendenza del ritorno all’ordine, con una produzione meno varia ma decisamente più stabilizzata. Analizzando le forme anomale in relazione alla variabile del tempo di permanenza in Italia, ovvero se questo fattore abbia inciso sulle co-‐occorrenze lessicali o meno, possiamo osservare che queste si concentrano nell’ultimo gruppo I (costituiscono la metà di tutte le forme verbali prodotte in co-‐occorrenza con il sostantivo musica) e sono del tutto assenti nel primo gruppo (gruppo E); tra questi due poli abbiamo i gruppi centrali che registrano la presenza di anomalie, seppur in quantità molto ridotte rispetto al numero totale dei collocati verbali prodotti (ovvero, tra il 22% e il 25% per i gruppi F e G e l’8% per il gruppo H). L’analisi per concordanze di tutte le combinatorie verbo-‐nominali individuate a partire da un campione di sostantivi (problema, lavoro, vita, tempo e musica), scelti nel gruppo dei nomi coinvolti nella formazione delle collocazioni V+N più diffuse nelle produzioni degli apprendenti del corpus CAIL2, ha valutato come queste siano state utilizzate nel contesto; nello specifico, da una parte sono state descritte per ciascun gruppo le irregolarità sintattico-‐semantiche emerse e, dall’altra, sono stati segnalati non soltanto gli usi regolari ma anche le combinatorie marcate stilisticamente. Lo studio ha evidenziato le seguenti tendenze generali: 1) innanzitutto, spicca il comportamento del gruppo C formato dagli apprendenti con oltre un anno di studio della lingua italiana (12-‐35 mesi); si delinea, rispetto a tutti gli altri gruppi, un uso sperimentale di combinatorie nuove che talvolta non trova una piena corrispondenza con la padronanza delle strutture sintattico-‐semantiche, come nel caso dei sostantivi tempo e problema (per quest’ultimo il gruppo C ha prodotto il numero più alto di collocati verbali diversi ma ne ha utilizzati la metà in contesti semantico-‐sintattici irregolari); tale tendenza viene confermata anche dal comportamento controtendente del gruppo D (con più di tre anni di studio) il quale riduce o mantiene la quantità dei types verbali prodotti dal gruppo C ma ne affina l’uso nel contesto scritto. La tendenza del gruppo C appena descritta trova riscontro anche laddove si assiste ad una diminuzione delle irregolarità sintattiche rispetto ai gruppi A e B (come nel caso del sostantivo vita), la quale lascia spazio a degli slittamenti semantici, che danno origine sia ad usi regolari che impropri, ma confermano la predisposizione da parte del gruppo C a ricorrere a verbi nuovi; si conferma nuovamente anche la tendenza del gruppo D ad un consolidamento delle costruzioni per via di una ulteriore diminuzione delle irregolarità sintattico-‐semantiche e dell’uso di varianti stilistiche. Infine, anche nei casi in cui i gruppi A e B, formati da apprendenti che hanno studiato l’italiano per meno di un anno, hanno prodotto combinatorie prevalentemente regolari (come nel caso di V + lavoro e V + musica), il gruppo C si è distinto, al 166 contrario, per la presenza di usi semantico-‐sintattici irregolari ascrivibili alla tendenza alla sperimentazione lessicale che il gruppo ha dimostrato di avere ricorrendo a collocati verbali nuovi ed originali. Con il gruppo D si assiste in tutti i casi ad una tendenza di ritorno all’ordine, con una produzione a volte meno varia ma decisamente più stabilizzata. 2) tra le irregolarità di carattere sintattico e semantico più diffuse prodotte dagli apprendenti in riferimento alle combinatorie V+N ci sono le seguenti: a) dal punto di vista semantico abbiamo riscontrato degli usi impropri motivabili con una mancanza nel vocabolario dell’informante (ad es., frequentare problema [4]) oppure con la scarsa conoscenza delle restrizioni di selezione del sostantivo in questione (come ad es., venire problema [12]); b) gli slittamenti semantici, ovvero degli usi verbali regolari ma non pertinenti nel contesto (per es., finire lavoro, [21]; c) le irregolarità sintattiche riguardano la dimensione della transitività: usi transitivi di verbi intransitivi (ad es., parlare vita [31], abituarsi vita [37]); d) i due piani sintattico e semantico si sono incrociati nelle irregolarità motivabili con le influenze interlinguistiche (della L1 o di altre L2) certe (ad es., divertirsi vita [28], [29]) o presunte (es., faticare lavoro, [15]); 3) gli usi delle combinatorie stilisticamente marcate quali, ad esempio, ammazzare il tempo, sciupare il tempo, capovolgere la vita e delle più estese costruzioni con funzione rafforzativa o enfatizzante (potereneg + verbo immaginare [qlcs. senza qlcn./qlcs.]) si concentrano in particolar modo nei gruppi C e D con oltre un anno di studio della lingua italiana; 4) dall’analisi dei predicati verbali prodotti in co-‐occorrenza al campione di sostantivi scelti è emerso che le combinatorie V+N marcate linguisticamente (come nel caso delle costruzioni a Vsup verso la produzione delle quali, abbiamo visto, gli apprendenti si sono dimostrati particolarmente predisposti) o quantitativamente (fattore desumibile dalle caratteristiche di frequenza e di associazione lessicale che una determinata combinatoria ha nell’output dei nativi, nel nostro caso nel corpus SCUOLA) sono state utilizzate regolarmente da parte di tutti gli apprendenti che le hanno prodotte. Ciò potrebbe significare che laddove una combinazione lessicale è dotata di particolari caratteristiche riguardanti lo statuto linguistico o quantitativo viene estratta più facilmente dall’input proprio in ragione della sua marcatezza. Ciò trova qualche punto di contatto con la teoria di Ellis (2002, cfr. par. 2.4.) in base alla quale avviene una elaborazione più veloce di tutte le sequenze frequenti rispetto a quelle meno frequenti ed è compatibile con i modelli di acquisizione linguistica chiamati usage-‐based (Bybee 1998; Goldberg 2006; Tomasello 2003) e gli approcci connessionisti dell’acquisizione e dell’elaborazione linguistica i quali enfatizzano le proprietà statistiche dell’input nell’apprendimento linguistico (Christiansen, Chater 1999; Elman 1990; Rumelhart, McClelland 1986) e per i quali la frequenza determina cosa e quanto i parlanti apprendono ed eventualmente rappresentano nel loro lessico mentale (Conklin, Schmitt 2012). 167 5) lo studio della seconda variabile del tempo di permanenza in Italia ha rivelato che il tempo massimo di esposizione all’input preso in considerazione nel presente lavoro, ovvero più di 6 mesi (con una media di 18 mesi), non ha inciso sulla quantità delle irregolarità prodotte le quali, infatti, non diminuiscono all’aumentare del tempo trascorso in Italia ma, al contrario, si distribuiscono con un andamento non lineare; ad esempio, nel caso di tre sostantivi analizzati (lavoro, tempo e vita) su cinque, il primo gruppo E si è comportato analogamente all’ultimo gruppo I in relazione alla quantità delle irregolarità prodotte; inoltre, in tutti i cinque i casi non si è assistito ad una diminuzione delle irregolarità all’aumentare dei mesi di esposizione all’input (nel caso del sostantivo vita si ha addirittura l’assenza di irregolarità nel gruppo E e la concentrazione più alta di queste nell’ultimo gruppo I). Si potrebbe ipotizzare che il tempo massimo di esposizione all’input preso in considerazione nel presente studio e rappresentato dal gruppo I, non sia sufficiente per incidere sulla regolarità delle produzioni verbo-‐nominali e che dei risultati diversi possano emergere con altri dati relativi agli informanti che abbiano trascorso più tempo in Italia. Inoltre, avendo qui considerato soltanto il tempo di esposizione all’input, va aggiunto che per una valutazione esaustiva della seconda variabile si dovrebbero tenere in considerazione anche altri fattori quali, ad esempio, il tipo di esposizione alla lingua a cui gli apprendenti sono stati soggetti durante la loro permanenza in Italia. Tuttavia, a chiusa della presente analisi possiamo soltanto affermare che dai dati a nostra disposizione un tempo di esposizione alla lingua italiana della media di 18 mesi non incide sulla regolarità delle produzioni verbo-‐nominali. Conclusioni Nel capitolo appena concluso abbiamo studiato le collocazioni verbo-‐
nominali prodotte dai nativi del corpus SCUOLA e dagli apprendenti del corpus CAIL2 dal punto di vista qualitativo-‐linguistico. Tale dimensione di analisi è andata ad affiancarsi a quella quantitativa condotta nel precedente capitolo 5 in virtù dell’approccio integrato che abbiamo scelto di seguire nel presente lavoro e che riteniamo metodologicamente appropriato per lo studio dei fenomeni combinatori analizzati. Nel capitolo precedente avevamo individuato la portata del gruppo delle cosiddette collocazioni empiriche, ovvero le combinazioni V+N rientranti nei valori soglia di frequenza e di associazione lessicale, prodotte dai nativi e dagli apprendenti di lingua italiana. In questo capitolo, dopo aver presentato i criteri linguistici adottati, abbiamo analizzato la natura delle collocazioni empiriche prodotte dai nativi e dagli apprendenti: tra queste sono risultate esserci le collocazioni con verbo ordinario (Vord), con verbo a supporto (Vsup) e con verbo a supporto esteso (Vsupext) e le 168 combinazioni ristrette di parole (gruppo nel quale abbiamo fatto confluire anche le combinazioni libere). Nella seconda parte del capitolo, invece, abbiamo guardato nel dettaglio alle produzioni degli apprendenti del corpus CAIL2 tramite l’analisi delle concordanze. Siamo andati oltre le collocazioni empiriche, alla luce del fatto che si trattasse del gruppo delle combinatorie più diffuse nelle produzioni degli apprendenti, ed abbiamo analizzato tutte le altre co-‐occorrenze verbo-‐nominali relative ad un campione di cinque sostantivi. Tale analisi è stata condotta confrontando tra di loro il comportamento dei gruppi individuati dalle due variabili sociolinguistiche del tempo di studio dell’italiano e del tempo trascorso in Italia. Lo studio ha messo in evidenza, oltre alle tendenze principali relative alla proprietà semantiche e sintattiche delle combinazioni V+N prodotte, che il periodo che va dai 12 ai 35 mesi di studio della lingua italiana (gruppo C) costituisce un momento di sperimentazione nella produzione delle combinazioni verbo-‐nominali (sia nei termini di varietà che di regolarità), con un successivo ritorno all’ordine fatto di usi più stabilizzati dopo il terzo anno di studio. La variabile relativa al tempo di permanenza in Italia non ha fatto emergere una tendenza univoca, per cui, in base ai dati a nostra disposizione, si può affermare che il tempo massimo di esposizione all’input preso considerazione nel presente studio (una media di 18 mesi) potrebbe non essere sufficiente per imprimere alle produzioni delle combinatorie verbo-‐nominali delle caratteristiche stabili. 169 Conclusioni Il lavoro ha preso in analisi da un punto di vista integrato, quantitativo e linguistico, le collocazioni V+NOgg prodotte dagli apprendenti di italiano L2 a livello intermedio-‐avanzato con lo scopo di descrivere la competenza collocazionale degli informanti, valutandola in termini quantitativi rispetto all’uso dei nativi ed individuando le eventuali variabili alle quali questa potrebbe essere soggetta. Lo studio è stato condotto a partire da un corpus di apprendenti di italiano L2 (CAIL2) realizzato ad hoc, il quale ne costituisce quindi la base empirica. Il corpus CAIL2 di apprendenti di italiano L2, descritto dettagliatamente nel capitolo quarto, ha un’ampiezza di 237 000 tokens ed è costituito dalle produzioni scritte di 400 informanti per un totale di 33 L1 di provenienza. Le combinazioni verbo-‐nominali sono state estratte in maniera automatica dal corpus e filtrate in base ai criteri di frequenza e di associazione lessicale; ciò ha permesso di individuare le collocazioni empiriche, ovvero tutte quelle combinazioni di parole i cui componenti si sono dimostrati co-‐occorrere molto spesso (per il presente studio la soglia di frequenza è stata fissata a 10) e che sono risultati essere strettamente associati tra di loro (Mutual Information ≥ 3 e t-‐score ≥ 2). Le collocazioni empiriche (Evert 2009) sono quindi le collocazioni intese in base alla definizione frequentista datane da J.R. Firth (1957) e ampliata successivamente dalla scuola neo-‐firthiana, ovvero le combinazioni di parole che ricorrono insieme più spesso di quanto ci si potrebbe aspettare valutando le frequenze individuali dei loro componenti in un dato corpus (Jones, Sinclair 1974). A partire dalla formulazione del principio idiomatico di elaborazione e comprensione del linguaggio (idiom principle, Sinclair 1991), in base al quale il parlante opera preferibilmente e primariamente la co-‐selezione di due o più parole, considerando la loro precedente e regolare co-‐occorrenza, piuttosto che selezionarle singolarmente, sulla base di una scelta aperta (open choice principle), le collocazioni frequenti sono entrate nel raggio di interesse dalla psicolinguistica (Ellis 2002; Wray 2002; Hoey 2005). Ne è conseguito che le sequenze formulaiche in generale (costruzioni, clusters, n-‐grams, collocazioni, ecc.) sono diventate il centro delle teorie usage-‐based di acquisizione di L1 e L2 (Bybee 1998; Wray 2002; Ellis 2003; Tomasello 2003; Goldberg 2006), secondo le quali la frequenza di occorrenza di determinate strutture nell’input sarebbe fondamentale per la definizione dei meccanismi di elaborazione linguistica, e degli approcci connessionisti dell’acquisizione e dell’elaborazione linguistica (Rumelhart, McClelland 1986; Elman 1990; Christiansen, Chater 1999) per i quali la frequenza determina cosa e quanto i parlanti apprendono 170 ed eventualmente rappresentano nel loro lessico mentale (Conklin, Schmitt 2012). Uno dei vantaggi più rilevanti di cui è portatore il linguaggio formulaico nell’ambito dell’acquisizione di lingue seconde, è il fatto di agevolare i parlanti nell’essere più fluenti e naturali nella produzione linguistica (Götz 2013). Un’idea questa che è stata delineata per la prima volta da Pawley e Syder (1983) e convalidata dall’evidenza empirica di Dechert (1983), il quale ha trovato che l’output parlato di un’apprendente tedesca di inglese fosse più fluente e naturale quando questa faceva ricorso al linguaggio formulaico; Dechert per primo usò la definizione “isole di affidabilità” riferendosi alle sequenze formulaiche e suggerì con tale termine quanto queste fossero necessarie per una elaborazione efficace del linguaggio in tempo reale. Individuare induttivamente le sequenze formulaiche a partire da un corpus sulla base della frequenza e dell’associazione reciproca tra gli elementi nell’ambito della ricerca sulle lingue seconde ha il vantaggio di far emergere le combinazioni che risultano prefabbricate per il parlante o lo scrivente ma che potrebbero anche non essere conformi all’uso nativo. Nell’analisi quantitativa sulla lingua degli apprendenti condotta nel capitolo quinto del presente lavoro abbiamo stimato la formulaicità valutando la portata delle collocazioni empiriche nel corpus CAIL2; i risultati sono stati interpretati alla luce dell’uso nativo per mezzo di un corpus di controllo il quale ha fornito i parametri indispensabili per la valutazione dei dati degli apprendenti di italiano a nostra disposizione; si tratta del corpus SCUOLA costituito dalle produzioni scritte dei ragazzi delle scuole medie inferiori e superiori. Il corpus SCUOLA è una sezione del Perugia corpus (PEC), un corpus di riferimento dell’italiano contemporaneo dell’ampiezza di oltre 26 milioni di parole elaborato all’Università per Stranieri di Perugia. Da una prima valutazione quantitativa dei due corpora relativa all’incidenza nei testi delle collocazioni empiriche (le combinazioni verbo-‐nominali con frequenza ≥ 10, Mutual Information ≥ 3 e t-‐score ≥ 2), e quindi alla formulaicità che li caratterizza, è emerso che le produzioni scritte degli apprendenti presentano una quantità maggiore in termini di tokens di combinazioni lessicali frequenti e strettamente associate rispetto a quelle dei nativi; tuttavia, valutando gli indici di varietà lessicale, abbiamo osservato che le collocazioni empiriche prodotte dagli apprendenti risultano meno varie rispetto a quelle prodotte dai nativi. Ne consegue che le produzioni del corpus CAIL2 sono più formulaiche, ovvero più ricche di collocazioni empiriche, ma anche più conservative rispetto a quelle native in quanto vi è stato usato più spesso un gruppo più ristretto, meno vario, di collocazioni empiriche. Con l’obiettivo di valutare le differenze riscontrate nelle produzioni dei nativi e degli apprendenti in maniera più dettagliata ed individuare quale fosse il gruppo di collocazioni più saliente per gli apprendenti, abbiamo classificato le collocazioni 171 empiriche estratte dai due corpora in base alla loro forza collocazionale; per questo motivo le abbiamo disposte su una scala decrescente relativa ai punteggi delle due misure di associazione lessicale utilizzate (associazione forte, moderata e debole). Le produzioni dei nativi del corpus SCUOLA si sono distinte, rispetto a quelle degli apprendenti, sia per la ricchezza delle collocazioni caratterizzate da alti punteggi di Mutual Information, compresi tra i 14 e i 7 punti, (+ 11,5% di types; + 4,4% di tokens) che per varietà, quest’ultima stimata sulla base del confronto tra gli indici di varietà lessicale; la presenza maggiore di collocazioni caratterizzate dai valori alti di MI si è dimostrata essere un tratto peculiare che caratterizza lo scritto dei nativi rispetto a quello degli apprendenti. Gli apprendenti hanno prodotto una quantità superiore di collocazioni con alti valori di t-‐score (+ 7,4% di types; + 14% di tokens) rispetto ai nativi, ma l’indice di varietà è risultato essere più basso. Ciò vuol dire che gli apprendenti ricorrono più spesso rispetto a quanto facciano i nativi alle collocazioni caratterizzate dagli stessi indici quantitativi di t-‐score ma, essendo questo gruppo meno vario, ne consegue che usano ripetutamente un gruppo di collocazioni più esiguo. Proprio nel gruppo di collocazioni con i punteggi più alti di t-‐score (17 > t-‐score ≥ 5) abbiamo identificato quelle che negli studi sulla lingua degli apprendenti di inglese (Granger 1998; Lorenz 1999; Kaszubski 2000; Laufer, Waldman 2011) sono state definite “isole di affidabilità” (islands of reliability), ovvero gli usi ripetuti e quantitativamente superiori (oversuse) rispetto ai nativi di un piccolo repertorio di collocazioni, le quali farebbero sentire gli apprendenti più sicuri nella fase di output. I nostri risultati hanno confermato per la lingua italiana quanto era già emerso per la lingua inglese (Lorenz 1999; Durrant 2008; Durrant, Schmitt 2009), ovvero che i nativi fanno ampio uso delle combinazioni lessicali fortemente associate (con punteggi alti di Mutual Information) rispetto agli apprendenti, mentre questi ultimi fanno ricorso alle combinazioni molto frequenti, con valori alti di t-‐score. Anche lo studio psicolinguistico di Ellis et al. (2008) ha sottolineato l’importanza delle combinazioni molto frequenti, con punteggi alti di t-‐score, per gli apprendenti e la salienza delle combinazioni con punteggi alti di Mutual Information per i nativi: proprio la presenza elevata delle combinazioni con quest’ultima caratteristica conferirebbe alle produzioni dei nativi quel tratto di idiomaticità tipica dei madrelingua e, al contrario, la loro presenza moderata nelle produzioni degli apprendenti sarebbe il motivo per cui queste sembrano perdere in naturalezza. Dopo aver messo a confronto le produzioni dei nativi e degli apprendenti sul terreno della formulaicità ed aver individuato i tratti quantitativi caratterizzanti ciascuna varietà, abbiamo focalizzato l’attenzione sul corpus CAIL2 anche da un altro punto di vista. Abbiamo studiato le produzioni scritte degli apprendenti in base a due variabili sociolinguistiche: 1) il tempo di studio dell’italiano; 2) il tempo di permanenza in Italia (l’esposizione all’input). A tal proposito sono stati individuati quattro gruppi di 172 apprendenti per la prima variabile (gruppo A = 1-‐6 mesi di studio dell’italiano; gruppo B = 7-‐11 mesi; gruppo C = 12-‐32 mesi; gruppo D = ≥ 36 mesi) e cinque gruppi per la seconda (gruppo E = 0-‐1 mese di permanenza in Italia; gruppo F = 2-‐3 mesi; gruppo G = 4 mesi; gruppo H = 5 mesi; gruppo I = ≥ 6 mesi). Siamo quindi andati a valutare la portata delle collocazioni empiriche nelle produzioni scritte dei singoli gruppi e le abbiamo messe a confronto per valutare eventuali differenze. Le collocazioni empiriche, infatti, proprio in ragione del fatto che sono le combinazioni più frequenti e più strettamente associate, rappresentano le collocazioni tipiche di una data varietà linguistica o di un dato campione di linguaggio: individuarne la presenza e metterne a confronto la quantità in due corpora o in diverse sezioni dello stesso corpus (come nel caso dei gruppi individuati in base alle due variabili del presente studio) permette di valutarne l’incidenza sul testo e di formulare delle ipotesi sulle sue caratteristiche. I risultati dell’analisi quantitativa relativi alla prima variabile hanno messo in evidenza che il gruppo D ha prodotto il numero minore (in termini di tokens) di collocazioni empiriche rispetto agli altri gruppi. Ciò vuol dire che gli apprendenti di lingua italiana da più di 36 mesi hanno fatto ricorso nei loro testi ad una quantità minore di collocazioni tipiche, cioè diffuse trasversalmente nelle produzioni degli apprendenti a tutti i livelli di competenza. A partire da questa evidenza abbiamo formulato l’ipotesi che il gruppo D potrebbe aver redatto delle combinazioni Verbo + Nome diverse dalle collocazioni tipiche e che si potrebbe assistere ad un salto qualitativo nei testi degli apprendenti, relativamente alle combinatorie verbo-‐nominali, soltanto dopo il terzo anno di studio della lingua. Abbiamo verificato questa ipotesi con l’analisi linguistica presentata nel capitolo sesto. Per quanto riguarda la seconda variabile, invece, non si è assistito ad una diminuzione delle collocazioni più comunemente utilizzate dagli apprendenti all’aumentare dei mesi trascorsi in Italia. Al contrario, l’andamento nella produzione delle collocazioni tipiche dell’interlingua si è dimostrato altalenante con un comportamento analogo dei due gruppi agli estremi della variabile (gruppo E: 0-‐1 mese di permanenza in Italia; gruppo I: più di 6 mesi). È importante sottolineare che, a differenza di quanto emerso per la prima variabile, le osservazioni relative allo studio sulla seconda variabile sono valide soltanto per il campione di dati costituito dal corpus CAIL2 e non possono essere estese alla popolazione da esso rappresentata, in quanto le differenze individuate nelle produzioni delle collocazioni da parte dei diversi gruppi di apprendenti non sono risultate essere statisticamente significative. Nonostante l’andamento quantitativamente altalenante nella produzione delle collocazioni tipiche dell’interlingua è risultato possibile individuare una costante. 173 Infatti, i due gruppi E ed I, pur avendo avuto esposizioni all’input della lingua target molto diverse, sono assimilabili per il tempo di studio della lingua italiana; inoltre, il gruppo F (2-‐3 mesi di permanenza), il quale ha prodotto la quantità minore di collocazioni tipiche dell’interlingua, e il gruppo H (5 mesi di permanenza), il quale è ricorso al numero maggiore di queste, differiscono considerevolmente in relazione al tempo che gli informanti dei due gruppi hanno studiato l’italiano. Se ne deduce che l’incidenza della variabile del tempo di studio dell’italiano sulla quantità delle collocazioni più diffuse prodotte dagli apprendenti del corpus CAIL2 è maggiore rispetto a quella del tempo di esposizione all’input; si assiste ad una loro diminuzione nei testi degli apprendenti all’aumentare del tempo di studio e, in particolare, ad una diminuzione considerevole dopo i tre anni di apprendimento. Abbiamo ipotizzato che ciò potrebbe denotare un’apertura verso delle combinazioni verbo-‐nominali diverse, meno diffuse a tutti i livelli di apprendimento, la cui presenza potrebbe agire dal punto di vista qualitativo sulle produzioni scritte degli apprendenti di lingua italiana. Una ipotesi simile può essere verificata soltanto con l’analisi linguistica che, oltre alla natura delle combinatorie prodotte, prenda in esame la loro regolarità e la loro pertinenza nel contesto. L’analisi linguistica delle collocazioni verbo-‐nominali individuate in base ai criteri di frequenza e di associazione lessicale sopra esposti è stata condotta nel capitolo sesto. Nella prima parte del capitolo (parr. 6.1, 6.2, 6.3 e relativi sottoparagrafi), le collocazioni V+NOgg estratte dai due corpora di apprendenti (CAIL2) e di nativi (SCUOLA) sono state analizzate alla luce dei criteri linguistici relativi alle collocazioni di lingua italiana individuati da Elisabetta Ježek e Francesca Masini; nella seconda parte (par. 6.4 e relativi sottoparagrafi), invece, le produzioni degli apprendenti sono state studiate da una prospettiva diversa, per mezzo dell’analisi delle concordanze, al fine di verificare le ipotesi formulate a partire dall’analisi quantitativa condotta nel capitolo quinto. Conformemente all’approccio integrato, quantitativo e linguistico, assunto nel presente lavoro sulle collocazioni abbiamo adottato una definizione che integra le formulazioni elaborate da Ježek (2005) e Masini (2009) nell’ambito della classificazione delle combinazioni di parole della lingua italiana con i criteri di frequenza (fr. ≥ 10) e di associazione lessicale (Mutual Information ≥ 3 e t-‐score ≥ 2) tra i componenti delle combinazioni. Alla luce di questa considerazione e seguendo Ježek (2005) abbiamo definito collocazioni tutte le combinazioni verbo-‐nominali che, rientrate nei valori soglia di frequenza e di associazione lessicale adottati nel presente lavoro, fossero caratterizzate dalla presenza di una restrizione attivata dal nome ed imposta al verbo, la cui semantica, dunque, si fosse specificata proprio nella sua co-‐occorrenza con l’Oggetto (per questo si confronti, ad esempio, il significato del verbo porre in porre una domanda > chiedere e in porre fine > mettere). 174 Nelle collocazioni V+NOgg, i verbi sono selezionati dai nomi per esprimere un significato che non hanno quando sono combinati con altre parole, ma che acquisiscono nella combinazione specifica (il meaning by collocation formulato da Firth, 1957). Per questo motivo, Ježek si riferisce alle collocazioni come a delle solidarietà consolidate dall’uso, distinte dalle solidarietà semantiche, o basate su una implicazione sintagmatica di contenuto, nelle quali uno dei due termini è incluso dal punto di vista del contenuto nell’altro e che possono essere più o meno circoscritte in base alla semantica del verbo (se questo ammette più classi di oggetti, come, ad es., il verbo comprare, darà vita ad una combinazione dalla restrizione meno circoscritta rispetto ai verbi come parcheggiare, allattare o indossare i quali ammettono una sola classe di oggetti). Masini (2009) ha ristretto ulteriormente il concetto definendo le collocazioni come co-‐selezioni tra due lessemi in cui l’uso di un determinato termine x implica necessariamente la presenza di un termine y per esprimere un determinato concetto (ad es., aprire un conto) e distinguendole dalle “combinazioni preferenziali” in cui un termine x (ad es., pioggia) può richiedere preferibilmente l’uso di un termine y (torrenziale/ battente) perché la combinazione risulti molto più familiare rispetto ad altre combinazioni possibili (pioggia forte/ intensa). Il tratto della familiarità che contraddistingue le combinazioni preferenziali implica il concetto di uso e di frequenza, centrale anche nella formulazione di Ježek; per questo motivo e relativamente all’importanza che la frequenza riveste negli studi basati su corpora, abbiamo fatto rientrare nel concetto di collocazione sia le combinazioni in cui il Nome seleziona il Verbo perché lo richiede necessariamente per esprimere un determinato significato (ad es., seguire un consiglio), sia i casi in cui la selezione è preferenziale, ha un elemento di convenzionalità e rappresenta il modo tipico di dire una cosa per il campione linguistico studiato (come, ad es., ripetere l’anno vs. rifare l’anno per il corpus SCUOLA). Inoltre, sempre seguendo Ježek (2005), vi abbiamo fatto rientrare anche le costruzioni a verbo supporto (Vsup), intendendole come delle collocazioni sbilanciate verso il nome dal punto di vista semantico in quanto il verbo vi ha un significato generico (ad es., fare un discorso), e le costruzioni a verbo supporto esteso (Vsupext, Cicalese 1999) le quali possono sostituirsi al supporto neutro costituendone delle varianti di registro (prendere un’infezione > contrarre un’infezione) oppure apportando alcune informazioni supplementari, delle sfumature di senso aggiuntive rispetto al supporto di grado zero (fare un affare > concludere un affare). L’analisi linguistica di tutte le combinazioni verbo-‐nominali rientrate nei valori soglia di frequenza e di associazione lessicale, esposta nelle prima parte del capitolo sesto, ha riguardato sia la varietà nativa rappresentata dal corpus SCUOLA che 175 l’interlingua del corpus CAIL2. Nello specifico, dallo studio delle produzioni scritte dei nativi di lingua italiana è emerso che: 1) il 61% delle combinazioni verbo-‐nominali è risultato essere costituito dalle collocazioni definite in base ai criteri linguistici sopra esposti; il restante 39%, invece, è composto dalle combinazioni ristrette in cui sussiste una implicazione sintagmatica di contenuto tra il verbo e il nome, più o meno circoscritte in base alla semantica del verbo (ad es., ascoltare una canzone, educare un figlio), e dalle combinazioni libere (ad es., prendere un libro). Da tali risultati abbiamo dedotto che i valori soglia di associazione lessicale utilizzati nel presente lavoro, già adottati negli studi sulle collocazioni basati sui corpora di lingua inglese, combinati con valori alti di frequenza, costituiscono dei parametri quantitativi accettabili per l’estrazione delle collocazioni dai corpora di lingua italiana; 2) il gruppo delle collocazioni è costituito per il 60% dalle costruzioni a verbo supporto (Vsup) e a verbo supporto esteso (Vsupext) e per il restante 40% dalle collocazioni formate con un verbo ordinario (Vord) il quale, a differenza del verbo coinvolto nelle costruzioni a Vsup, non è semanticamente vuoto (ad es., fare danno) e non rappresenta nemmeno l’estensione di un verbo a supporto base, come nel caso delle costruzioni a Vsupext (ad es., porre un domanda), ma è portatore di un significato che emerge nella specifica combinatoria con l’Oggetto (ad es., prestare attenzione). Nel dettaglio delle due misure di associazione utilizzate, abbiamo potuto osservare che, conformemente al fatto che queste tendono ad enfatizzare gruppi diversi di combinazioni lessicali relativamente alla frequenza di occorrenza dei membri nel corpus, i valori alti di t-‐score hanno messo in evidenza soprattutto (per il 59%) le costruzioni a verbo supporto, mentre i valori alti di MI hanno fatto emergere prevalentemente (per l’80%) le costruzioni a verbo supporto esteso e le collocazioni con verbo ordinario. Il gruppo delle collocazioni prodotte dai parlanti nativi è stato analizzato nel dettaglio nel corpo del capitolo sesto. Abbiamo potuto constatare che le costruzioni a verbo supporto (Vsup) realizzate sono risultate essere morfosintatticamente eterogenee: oscillano, infatti, tra le combinazioni più coese e parzialmente lessicalizzate (come ad es., fare amicizia e dare voce) e le combinazioni sintatticamente libere (quali, ad es., fare una/ la doccia e dare un/ il consiglio) passando per le collocazioni che possono avere una doppia natura in quanto ammettono sia la presenza che l’assenza dell’articolo, un fattore che può influenzarne la semantica (come ad es., fare parte e fare la parte). Il paradigma che è stato realizzato più frequentemente dai nativi è fare + Nome Predicativo (ad es., fare la/ una/ [] differenza, fare fronte, ecc.), seguito da fare + Nome Deverbale (ad es., fare l’/ un/ [] appello, fare una/ la/ [] finta, ecc.); gli altri 176 verbi utilizzati sono avere e dare seguiti dai nomi predicativi (ad es., avere il/ un/ [] bisogno, dare il/ un contributo, ecc.) e deverbali (ad es., avere il/ un/ [] rendimento, dare l’/ un’informazione, ecc.); il verbo dare è stato utilizzato anche nelle costruzioni causative quali dare la forza, dare fastidio, ecc. I restanti verbi utilizzati per la costruzione delle Vsup sono prendere, essere e mettere (ad es., prendere la/ una decisione, essere sinonimo, mettere fine, ecc.). Nel gruppo delle costruzioni a Vsupext prodotte dai nativi abbiamo potuto osservare che la maggior parte (56%) delle estensioni prodotte dai nativi sono varianti di registro: si tratta di combinazioni come, assumere la responsabilità, attribuire la colpa, svolgere il compito che entrano in rapporti parafrastici con le rispettive costruzioni a verbo supporto neutro prendere la responsabilità, dare la colpa e fare il compito. La restante parte dei Vsupext realizzati, al contrario, risulta essere portatrice di diverse valenze aspettuali che conferiscono alla collocazione un significato più specifico rispetto alle corrispondenti combinazioni con il verbo a supporto base. Le varianti aspettuali realizzate dai nativi per mezzo delle costruzioni a Vsup sono, in ordine di frequenza, l’incoativa (ad es., creare il/ un problema, diventare abitudine, ecc.), la continuativa (ad es., condurre la/ una vita, correre il/ un pericolo) e la telica (conquistare il/ un lavoro). Anche le costruzioni a Verbo supporto esteso, come le costruzioni a verbo supporto neutro, possiedono diversi gradi di libertà; si passa dalle costruzioni con il nome non referenziale e con un grado più elevato di lessicalizzazione quali prendere sonno, porre fine, ecc., ai sintagmi liberi come svolgere il/ un compito, contrarre la/ una malattia, ecc. Il gruppo delle collocazioni con verbo ordinario (Vord) prodotte dai nativi comprende: a) le combinazioni in cui la base (il nome) seleziona il collocato (il verbo) perché lo richiede necessariamente per esprimere un determinato significato in quanto i due termini hanno instaurato tra di loro una solidarietà basata sull’uso (come ad es., seguire il/ un consiglio, mantenere la/ una famiglia, prestare l’/ [] attenzione, ecc.); b) le combinazioni preferenziali le quali costituiscono il modo più familiare, nonché il più frequente, per esprimere un dato concetto tra le altre combinazioni semanticamente possibili (come ad es., suscitare interesse vs. accendere interesse). Abbiamo inteso una collocazione come preferenziale quando questa è risultata essere più frequente rispetto ad altre semanticamente affini attestate nel corpus. Nel presente lavoro qualsiasi affermazione sulla frequenza e sulla familiarità delle combinazioni V+NOgg in lingua italiana si riferisce soltanto al campione linguistico a nostra disposizione (il corpus SCUOLA) e può non essere valida per l’italiano contemporaneo, i giudizi di frequenza sul quale devono essere condotti a partire da un corpus di riferimento. a) Abbiamo interpretato come semanticamente necessarie le collocazioni in cui la sostituzione del verbo con un quasi-‐sinonimo o con la corrispettiva forma 177 analitica ha restituito combinatorie che non sono sembrate a chi scrive semanticamente assimilabili alla combinatoria analizzata (come ad es., cambiare aria/ idea > *sostituire/ modificare (l’) aria/ idea, prestare attenzione > *dare in prestito l’attenzione). Nonostante le diverse sfumature di senso che tali trasformazioni comportano, abbiamo utilizzato tale test poiché ci è sembrato un indicatore utile allo scopo di verificare se il verbo avesse mantenuto il suo significato primario o se, al contrario, la sua semantica si fosse adattata e specializzata nella combinatoria con l’Oggetto, selezionando uno dei possibili usi figurati del verbo oppure una delle sue accezioni secondarie, per esprimere un significato altro, emergente soltanto dalla co-‐occorrenza dei due componenti. Altri esempi di collocazioni di questo tipo prodotte dai nativi sono: affrontare (la/ una) giornata/ (il/ un) problema/ (la) vita (*fronteggiare/ assalire (la/ una) giornata/ (il/ un) problema/ (la) vita), costruire il futuro (*edificare (il) futuro), evitare (il) contagio/ (il) contatto (*aggirare/ schivare (il) contatto/ (il) contagio), lasciare (il/ un) segno (*cedere (il/ un) segno), mantenere (la/ una) famiglia (*conservare (la/ una) famiglia), porre rimedio (*mettere rimedio), ecc. b) Abbiamo classificato come preferenziali tutte le collocazioni per le quali è risultata esistere una combinazione V+N semanticamente affine e attestata nel corpus dei nativi con una frequenza più bassa (fr. < 10) rispetto a quella adottata nel presente studio per la definizione delle collocazioni (come ad es., suscitare interesse vs. accendere interesse). In questa seconda tipologia rientrano quindi le collocazioni con un grado di familiarità maggiore per i parlanti nativi rispetto ad altre combinatorie semanticamente affini ma meno frequenti; queste ultime sono costituite da combinatorie che possono essere marcate stilisticamente (come ad es., perdere il/ [] senso vs. smarrire il/ [] senso) oppure legate alla specifica dimensione diastratica e diafasica della lingua rappresentata dal corpus dei nativi sul quale è stato condotto il presente studio (come ad es., lasciare il posto vs. cedere il posto) o, infine, da combinatorie sinonimiche il cui uso potrebbe essere legato al cotesto (come ad es., passare un anno/ un giorno/ un mese vs. trascorrere un anno/ un giorno/ un mese). Nel caso delle collocazioni preferenziali il verbo mantiene il significato primario e la sua combinazione con l’Oggetto costituisce la variante più frequente ma non l’unica, come nel caso delle collocazioni al punto 1, per esprimere un dato concetto. Come avevamo osservato per le collocazioni con Vsup e Vsupext, anche le collocazioni con Vord sono perlopiù sintatticamente libere, eccezion fatta per le combinazioni parzialmente lessicalizzate come cambiare vita, lasciare il segno, perdere la voglia, ecc. Altri esempi di collocazioni preferenziali prodotte dai nativi sono: arricchire il lessico/ il linguaggio vs. ampliare il lessico, sviluppare il linguaggio; chiedere aiuto vs. domandare aiuto; trasmettere emozione vs. dare emozione; commettere reato vs. compiere reato, ecc. 178 L’analisi linguistica ha poi riguardato le combinazioni verbo-‐nominali estratte in base ai criteri quantitativi di frequenza e di associazione lessicale dal corpus di apprendenti CAIL2; ne sintetizziamo le principali osservazioni nei punti seguenti: 1) le collocazioni definite in base ai criteri linguistici costituiscono il 41%, mentre il restante 59% è composto dalle combinazioni lessicali ristrette e dalle combinazioni libere di parole; 2) soltanto un gruppo esiguo di collocazioni (16%) è stato realizzato con il verbo ordinario (Vord); tra queste troviamo i verbi passare e trascorrere selezionati dai nomi indicanti valori temporali quali tempo e giorno, presenti anche tra le collocazioni prodotte dai nativi insieme alla collocazione [non] vedere (l’) ora; sono presenti anche le due espressioni fisse (valere la pena e rendere conto) il cui uso si è cristallizzato in lingua italiana e che vengono perciò adoperate come dei blocchi semantico-‐lessicali unitari; il gruppo più numeroso (81%) è costituito dalle costruzioni a verbo supporto (ad es., avere bisogno, fare amicizia, fare festa, prendere il sole, ecc.), mentre troviamo soltanto una costruzione a verbo supporto esteso (diventare amico); 3) i parametri quantitativi per l’estrazione delle collocazioni adottati nel presente studio si sono mostrati sufficientemente accettabili per la lingua dei nativi (ricordiamo che tra le combinazioni V+NOgg rientranti nei valori quantitativi soglia il 61% era costituito da collocazioni); altrettanto non si può affermare per i dati degli apprendenti in quanto soltanto il 41% delle collocazioni estratte è risultato essere rispondente ai criteri linguistici. Dall’analisi quantitativa condotta nel capitolo V è emerso che gli apprendenti hanno usato maggiormente, rispetto ai nativi, le collocazioni con i punteggi più alti di t-‐score; per questo motivo, abbiamo identificato con questo gruppo le cosiddette “isole di affidabilità” degli apprendenti, ovvero le combinazioni alle quali questi ricorrono molto spesso nelle proprie produzioni scritte. In seguito all’analisi linguistica abbiamo potuto constatare che questo gruppo è costituito prevalentemente dalle costruzioni a verbo supporto; le collocazioni V+N di questo tipo, probabilmente per il particolare statuto linguistico che le contraddistingue, ovvero in ragione del fatto che il verbo è vuoto e la componente semantica risiede interamente nel nome, rappresentano uno strumento privilegiato per l’output degli apprendenti. Le collocazioni estratte dal corpus CAIL2 in base ai criteri quantitativi di frequenza e di associazione lessicale rappresentano le collocazioni più diffuse nelle produzioni scritte degli apprendenti; come già detto sopra, si tratta delle collocazioni tipiche dell’interlingua in quanto presenti trasversalmente nei gruppi individuati in base alle due variabili del tempo di studio della lingua italiana e del tempo di permanenza in Italia. 179 Nella seconda parte del capitolo sesto abbiamo verificato l’ipotesi, formulata in seguito all’analisi quantitativa, in base alla quale si potrebbe assistere ad una differenza qualitativa nella produzione delle combinazioni verbo-‐nominali da parte degli apprendenti di lingua italiana soltanto dopo il terzo anno di studio della lingua. Con questo scopo abbiamo analizzato come sono state utilizzate nel contesto, per mezzo dello strumento delle concordanze, tutte le combinatorie verbo-‐nominali individuate a partire da un campione di sostantivi (problema, lavoro, vita, tempo e musica), scelti nel gruppo dei nomi coinvolti nella formazione delle collocazioni V+NOgg tipiche. Nell’analisi abbiamo descritto per ciascun gruppo le irregolarità sintattico-‐
semantiche emerse e segnalato sia gli usi regolari che le combinatorie marcate stilisticamente. Lo studio ha evidenziato le seguenti tendenze generali: 1) le irregolarità di carattere sintattico e semantico più diffuse in riferimento alle combinatorie V+NOgg sono le seguenti: dal punto di vista semantico abbiamo riscontrato a) degli usi impropri motivabili con una mancanza nel vocabolario dell’informante (ad es., frequentare problema) oppure con la scarsa conoscenza delle restrizioni di selezione del sostantivo in questione (come ad es., dire problema); b) degli slittamenti semantici, ovvero degli usi verbali regolari ma non pertinenti nel contesto scritto (per es., finire lavoro); le irregolarità sintattiche più frequenti riguardano c) la dimensione della transitività ovvero gli usi intransitivi di verbi transitivi (ad es., abituare vita) e usi transitivi di verbi intransitivi (ad es., parlare vita); d) i due piani sintattico e semantico si sono incrociati nelle irregolarità motivabili con le influenze interlinguistiche (della L1 o di altre L2) certe (ad es., divertirsi vita) o presunte (es., faticare lavoro); 2) dall’analisi dei predicati verbali prodotti in co-‐occorrenza al campione di sostantivi scelti è emerso che le combinatorie V+NOgg marcate linguisticamente (come nel caso delle costruzioni a Vsup, verso la produzione delle quali, abbiamo visto, gli apprendenti si sono dimostrati particolarmente predisposti e che abbiamo perciò definito “isole di affidabilità”) o quantitativamente (fattore desumibile dalle caratteristiche di frequenza e di associazione lessicale che una determinata combinatoria ha nell’output dei nativi, nel nostro caso nel corpus SCUOLA) sono state utilizzate regolarmente da parte di tutti gli apprendenti che le hanno prodotte. Ciò potrebbe significare che laddove una combinazione lessicale è dotata di particolari caratteristiche riguardanti lo statuto linguistico o quantitativo viene estratta più facilmente dall’input proprio in ragione della sua marcatezza. Ciò trova qualche punto di contatto con la teoria di Ellis (2002) in base alla quale avviene una elaborazione più veloce di tutte le sequenze frequenti rispetto a quelle meno frequenti ed è compatibile con i modelli di acquisizione linguistica chiamati usage-‐
based (Bybee 1998; Goldberg 2006; Tomasello 2003) e gli approcci connessionisti dell’acquisizione e dell’elaborazione linguistica i quali enfatizzano le proprietà 180 statistiche dell’input nell’apprendimento linguistico (Rumelhart, McClelland 1986; Elman 1990; Christiansen, Chater 1999) e per i quali la frequenza determina cosa e quanto i parlanti apprendono ed eventualmente rappresentano nel loro lessico mentale (Conklin, Schmitt 2012); 3) per quanto riguarda la valutazione delle produzioni degli apprendenti in base alla variabile del tempo di studio dell’italiano abbiamo potuto constatare che il periodo che va da 1 anno a 3 anni di studio costituisce il momento di massima sperimentazione lessicale (sia in termini di varietà che di regolarità delle combinazioni prodotte); si assiste, infatti, ad una tendenza verso la produzione di combinatorie diverse, non presenti negli altri gruppi, che talvolta non trova corrispondenza con la piena padronanza delle strutture sintattico-‐semantiche. Dopo il terzo anno di studio si rilevano, invece, usi più stabilizzati con un consolidamento delle costruzioni verbo-‐nominali messo in evidenza da una diminuzione delle irregolarità sintattico-‐semantiche e dall’uso improprio di varianti stilistiche. Ne consegue che l’ipotesi che avevamo formulato a partire dai risultati dell’analisi quantitativa è stata confermata: dopo il terzo anno di studio della lingua italiana si assiste ad una svolta qualitativa nelle produzioni degli apprendenti in quanto viene affinato l’uso delle combinatorie verbo-‐nominali nel contesto; 4) lo studio della variabile del tempo di permanenza in Italia ha rivelato che il periodo massimo di esposizione all’input preso in considerazione nel presente lavoro, ovvero più di 6 mesi (con una media di 18 mesi), non ha inciso sulla quantità delle irregolarità prodotte le quali, infatti, non diminuiscono all’aumentare del tempo trascorso in Italia ma, al contrario, si distribuiscono con un andamento non lineare; si potrebbe ipotizzare che il tempo massimo di esposizione all’input preso in considerazione nel presente studio non sia sufficiente per incidere sulla regolarità delle produzioni verbo-‐nominali e che dei risultati diversi possano emergere con altri dati relativi agli informanti che abbiano trascorso più tempo in Italia. Inoltre, avendo qui considerato soltanto il tempo di esposizione all’input, va aggiunto che per una valutazione esaustiva della seconda variabile si dovrebbero tenere in considerazione anche altri fattori quali, ad esempio, il tipo e la qualità di esposizione alla lingua a cui gli apprendenti sono stati soggetti durante la loro permanenza in Italia. Tuttavia, i risultati dell’analisi linguistica confermano quanto era già emerso per la variabile legata al tempo di permanenza in Italia in seguito all’analisi quantitativa dei dati; infatti, relativamente alla produzione delle collocazioni V+NOgg del corpus CAIL2, la variabile del tempo di studio della lingua italiana si era dimostrata essere più incisiva rispetto alla variabile dell’esposizione all’input. I risultati fin qui esposti portano con sé alcune valutazioni e tratteggiano degli sviluppi futuri. 181 Innanzitutto, la salienza delle combinazioni lessicali con alti valori di Mutual Information (14 > MI ≥ 7) per i nativi emersa dai dati a nostra disposizione è indice al contempo dell’utilità che l’acquisizione delle combinatorie con tale caratteristica potrebbe avere per gli apprendenti di italiano come lingua seconda. Ciò significa che l’identificazione delle combinatorie lessicali con alti valori di MI in un corpus di riferimento, con una comprensibile rivalutazione dei parametri in relazione alla ampiezza della risorsa linguistica dalla quale le combinazioni vengono estratte, potrebbe rivelarsi importante per la creazione di liste di collocazioni da inserire nei materiali didattici per l’insegnamento di italiano L2. Conoscere le collocazioni italiane con alti valori di Mutual Information potrebbe significare per gli studenti di lingua italiana disporre degli strumenti linguistici che, se usati correttamente e in contesti pertinenti, potrebbero conferire al loro output una impronta qualitativa importante, guadagnando in naturalezza. Relativamente alle produzioni degli apprendenti, abbiamo potuto constatare un affinamento nella produzione delle combinatorie verbo-‐nominali dopo il terzo anno di apprendimento formale della lingua mentre una esposizione alla lingua target della durata media di 18 mesi non ha inciso sulla quantità delle irregolarità prodotte. Sia i risultati dell’analisi quantitativa che linguistica hanno dimostrato che la variabile del tempo di studio si è rivelata essere più incisiva della variabile del tempo di esposizione all’input. Tuttavia, mentre i risultati legati alla prima variabile sono statisticamente significativi, quelli relativi alla seconda variabile possono essere considerati validi soltanto per il campione linguistico a nostra disposizione. Non possiamo non sottolineare che il nostro studio ha preso in considerazione soltanto il tempo di permanenza in Italia al momento della raccolta dei dati dichiarata dagli stessi informanti e non ha tenuto conto del tipo e della qualità di esposizione alla lingua che questi hanno avuto. Per questi motivi, in questa sede non possiamo affermare tout court che l’esposizione all’input della lingua target giochi un ruolo meno importante rispetto all’apprendimento formale nell’acquisizione delle combinatorie verbo-‐nominali, ma riteniamo che per una valutazione più profonda altri studi dovrebbero essere condotti sulle produzioni scritte di informanti che hanno trascorso in Italia un periodo superiore ad una media di 18 mesi. Infine, una valutazione potrebbe essere fatta sui parametri utilizzati nel presente lavoro per l’estrazione delle collocazioni dai corpora (frequenza ≥ 10, Mutual Information ≥ 3 e t-‐score ≥ 2). Per quanto riguarda la lingua dei nativi, questi parametri quantitativi hanno restituito dei risultati più che accettabili in quanto la maggior parte delle combinazioni con tali caratteristiche è risultata essere rispondente ai criteri linguistici formulati per la definizione delle collocazioni di lingua italiana. Pur essendo consapevoli del fatto che i parametri quantitativi debbano essere impostati ad hoc in base al tipo di risorsa empirica che si ha a disposizione e al 182 tipo di studio che si intende condurre, potrebbe risultare utile abbassare ulteriormente tali valori soglia per cercare di individuare quali sono, orientativamente, i parametri di frequenza e di associazione lessicale in grado di restituire il bacino più ampio di collocazioni da un corpus. 183 Appendice 1 Un campione testuale del corpus CAIL2 codificato in XML <div n="302" subtype="b" age="18" liv="B2" monthsinitaly="4" monthstudy="6" natio="bielorussia" otherlang="en-‐ru" sex="f" xml:lang="be"> <p> La mia città e nazione preferita. Mi chiamo Katsiaryna. Sono di Bielorussia, uno bello paese con una ricca storia. Ci sono tante vecchie chiese, tanti <corr rend="begli">bei</corr> posti per vedere. Ci sono <corr rend="cerco">circa</corr> 11 mille laghi, tanti <corr rend="foresti">foreste</corr>. Noi abbiamo una meravigliosa natura. Ogni tempo in anno è bello qui (voglio dire: l’estate, l’inverno, etc. ). Prenda qualche giorni per visitare posti di Bielorussia e tu sentirai spirito di nostra nazione! Io vivo a Minsk, questo è capitale di Bielorussia è anche più bella città. Minsk è moderna città con sua unica cultura. Ci sono tanti musei, tante chiese. Molti turisti quando arrivano dicano che Minsk è città molto pulita. E questo veramente così, perché <corr rend="governa">governo</corr> spende tanto soldi per fare nostra città e anche nostro paese pulito e bello. In nostro paese noi abbiamo tranquillità. C’è solo una cosa che non mi piace tanto – è nostra economia. Ci sono tante fabbriche che <corr rend="producano">producono</corr> tante cose, per esempio, cioccolato, diversi tipi di alcolici. Ci sono anche tante fattorie dove ci sono tante animale domestici e anche tante <corr rend="poste">posti</corr> dove crescono diversi tipi di verdura e frutta. Quindi, ogni persona che vive in campagna e non ha tante soldi, chi è povero, sempre ha da mangiare, perché ogni persona che vive ci sempre ha una mucca, uno gallo e anche qualche pollo, cioè ha sempre latte, burro, uova, diversi tipi di carne. Questo, credo che è unica cosa che salva nostra economia, perché noi stiamo qui nello stesso livello di crescita di economia e non e andiamo su... Per una persona che <corr rend="voglie">voglia</corr> trovare una <corr rend="lavora">lavoro</corr> non è cosi semplice... Quindi tutti vogliano andare lavorare in Europa. Ma come Bielorussia non è una <corr rend="parta" >parte</corr> di Europa (in senso di politica), per noi molto difficile andare dove noi vogliamo perché <corr rend="deviamo">dobbiamo</corr> fare il visto e altri documenti. Adesso, per esempio, quando c’è tanti grande crisi, nostro presidente ha tagliato possibilità per andare in tante paese di Europa per lavorare, cioè ha chiuso porta per fare il visto per lavorare. Secondo me lui ha ragione, ma se lui ha fatto così, dai una possibilità lavorare bene qui e prendere buoni soldi? No, lui non fa così, nostra migliore <corr rend="stipendia">stipendio</corr> non è più di 150 euro al mese. Ma adesso quando noi abbiamo grande crisi e un euro costa tanto, quindi tutti le <corr rend="cosi">cose</corr> hanno almeno 3 <corr rend="volti">volte</corr> più di <corr rend="costa">costo</corr>, e questi migliori soldi che noi abbiamo è proprio niente... che tristezza... Adesso sto qui in Italia, paese che mi piace molto. Mi piace gente che vivono qui, perché ci sono tante donne e uomini che hanno, per esempio 50 anni, ma tu non mai credere perché loro molto precisi, molto eleganti, mi sembra che loro più giovane. Ci sono tante anziane che vengono tutte le sere in <corr rend="center">centro</corr> per vedere la città, per bere qualcosa insieme, per divertire. Questo che mi piace molto, che gente anziane sono "vivono". Non è come nel mio paese dove quando tu hai 60 anni non esci più, stai a casa. Anche mi piace gente qui perché loro sempre <corr rend="sorridano">sorridono</corr> anche quando hanno qualche problemi nella sua vita, almeno ottimistico. Perché quando vedi gente nel mio paese, ci sono tante che così triste che tu <corr rend="poi">puoi</corr> sentire e vedere questo grigiore. 184 Mi piace tanto clima di Italia, perché è caldo. Mi diverto stare in Italia, adesso sto qui per 5 mese. Io studio, lavoro un po’ e ogni giorno per me stare qui come una grande a bella vacanza. E infatti è così, questo è mia vacanze ma io non sento stanco stare qui, sento felicità, <corr rend="force">forse</corr> perché sto qui non è tanto tempo... Mi piace tanto cucina di Italia. Mi piace tanto pasta, ma uno primo che mi piace più e Carbonara. Secondo me Italia è un migliore paese che io <corr rend="force" >forse</corr> scelgo in future per vivere e lavorare. Sono arrivata in Italia primo volta 1 anno fa per 10 giorni. Poi secondo volta in marzo per un mese, e terzo <corr rend="volto">volta</corr> è adesso. Ho visto tante begli posti, ho visto tante città. Ma mia preferita per vivere è Perugia. Secondo me è molto tranquilla città ed anche piccola, quindi anche è <corr rend="maglio" >meglio</corr> perché tutti più o meno conoscono tutti. Questo è la mia storia, sperò che <corr rend="piacelelo">sia piaciuta</corr>!</p></div> 185 Appendice 2 Un campione testuale del corpus CAIL2 annotato per categorie grammaticali <div n="302" subtype="b" age="18" liv="B2" monthsinitaly="4" monthstudy="6" natio="bielorussia" otherlang="en-‐ru" sex="f" xml:lang="be"> <p> La ART il mia DET:poss mio città NOUN città e CON e nazione NOUN nazione preferita VER:ppast preferire . SENT . Mi CLI mi chiamo VER:fin chiamare Katsiaryna NPR Katsiaryna . SENT . Sono VER:fin essere di PRE di Bielorussia NPR Bielorussia , PUN , uno ART un bello ADJ bello paese NOUN paese con PRE con una ART un ricca ADJ ricco storia NOUN storia . SENT . Ci CLI ci sono VER:fin essere tante DET:indef tanto vecchie ADJ vecchio chiese NOUN chiesa , PUN , tanti PRO:indef tanto <corr rend="begli"> bei ADJ bello </corr> posti NOUN posto per PRE per vedere VER:infi vedere . SENT . Ci CLI ci sono VER:fin essere 186 <corr rend="cerco"> circa ADV circa </corr> 11 NUM @card@ mille NUM mille laghi NOUN lago , PUN , tanti DET:indef tanto <corr rend="foresti"> foreste NOUN foresta </corr> . SENT . Noi PRO:pers noi abbiamo VER:fin avere una ART un meravigliosa ADJ meraviglioso natura NOUN natura . SENT . Ogni DET:indef ogni tempo NOUN tempo in PRE in anno NOUN anno è VER:fin essere bello ADJ bello qui ADV qui ( PUN ( voglio VER2:fin volere dire VER:infi dire : PUN : l' ART il estate NOUN estate , PUN , l' ART il inverno NOUN inverno , PUN , etc. ADV eccetera ) PUN ) . SENT . Prenda VER:fin prendere qualche DET:indef qualche giorni NOUN giorno per PRE per visitare VER:infi visitare posti NOUN posto di PRE di 187 Bielorussia NPR Bielorussia e CON e tu PRO:pers tu sentirai VER:fin sentire spirito NOUN spirito di PRE di nostra DET:poss nostro nazione NOUN nazione ! SENT ! Io PRO:pers io vivo VER:fin vivere a PRE a Minsk NPR Minsk , PUN , questo PRO:demo questo è VER:fin essere capitale NOUN capitale di PRE di Bielorussia NPR Bielorussia è VER:fin essere anche CON anche più ADV più bella ADJ bello città NOUN città . SENT . Minsk NPR Minsk è VER:fin essere moderna ADJ moderno città NOUN città con PRE con sua DET:poss suo unica ADJ unico cultura NOUN cultura . SENT . Ci CLI ci sono VER:fin essere tanti DET:indef tanto musei NOUN museo , PUN , tante DET:indef tanto chiese NOUN chiesa . SENT . Molti DET:indef molto turisti NOUN turista quando SUB quando 188 arrivano VER:fin arrivare dicano VER:fin dire che CHE che Minsk NPR Minsk è VER:fin essere città NOUN città molto ADV molto pulita ADJ pulito . SENT . E CON e questo PRO:demo questo veramente ADV:mente veramente così ADV così , PUN , perché SUB perché <corr rend="governa"> governo NOUN governo </corr> spende VER:fin spendere tanto DET:indef tanto soldi NOUN soldo per PRE per fare VER:infi fare nostra DET:poss nostro città NOUN città e CON e anche CON anche nostro DET:poss nostro paese NOUN paese pulito ADJ pulito e CON e bello ADJ bello . SENT . In PRE in nostro DET:poss nostro paese NOUN paese noi PRO:pers noi abbiamo VER:fin avere tranquillità NOUN tranquillità . SENT . C' CLI ci è VER:fin essere solo ADV solo una ART un cosa NOUN cosa 189 che CHE che non NEG non mi CLI mi piace VER:fin piacere tanto ADV tanto -‐ PUN -‐ è VER:fin essere nostra DET:poss nostro economia NOUN economia . SENT . 190 Appendice 3 Composizione del corpus CAIL2 per lingua madre degli apprendenti di italiano L2 L1 apprendenti arabo 9 armeno 1 bengali 1 bielorusso 1 bulgaro 1 ceco 52 cinese 207 coreano 10 francese 4 galiziano 1 georgiano 2 giapponese 13 greco 2 hindi 1 inglese 13 mongolo 1 montenegrino 1 neerlandese 3 norvegese 3 persiano 1 polacco 2 portoghese 7 punjabi 1 rumeno 5 russo 15 slovacco 6 sloveno 2 spagnolo 17 svedese 2 tedesco 8 turco 1 ucraino 3 ungherese 2 inglese/spagnolo 2 TOTALE 400 191 Appendice 4 Le collocazioni empiriche prodotte dai nativi (corpus SCUOLA) abbreviare accendere aiutare aprire ascoltare avere cambiare cantare capire cercare chiudere coinvolgere colpire comprare comprendere conoscere consigliare costruire dipingere dire educare eleggere essere parola computer luce televisione tv persona ragazzo finestra libro mente occhio porta canzone lezione musica telegiornale oro cosa modo significato canzone significato senso lavoro occhio porta alunno studente persona cosa prodotto regalo significato persona lingua significato libro casa volto parolaccia verità figlio presidente ottimista 192 esprimere finire frequentare giudicare guardare imparare incontrare iniziare insegnare interpretare interrompere inviare lavare leggere mandare ottenere parlare prendere preparare prevenire pronunciare provare pubblicizzare puntare raccontare rendere respirare ricordare riguardare risolvere rispettare peccato concetto emozione opinione sentimento compito luogo scuola persona film orologio televisione tv video cosa persona giornata materia sogno alimentazione sogno messaggio sms mano articolo giornale libro messaggio risultato voto lingua libro colazione influenza parola emozione sensazione prodotto dito sogno storia lezione aria sogno scuola problema situazione regola 193 salvare scartare scegliere scrivere sentire sfogliare sognare sospendere spegnere spendere spiegare staccare suonare superare toccare trasmettere trovare uccidere vedere vendere vincere vivere volere voltare volontà vita regalo libro scuola articolo lettera messaggio parola sms notizia parolaccia rumore voce pagina cosa alimentazione fiamma soldo lezione spina batteria strumento limite occhio messaggio forza lavoro modo risposta soluzione persona figlia film gente programma prodotto elezione vita miliardo pagina 194 Appendice 5 Le collocazioni empiriche prodotte dagli apprendenti (corpus CAIL2) ascoltare comprare conoscere cucinare dire essere fare finire frequentare giocare godere guadagnare guardare imparare incontrare leggere mangiare parlare piacere raccontare sapere spendere studiare canzone musica libro vestito amico cultura gente lingua persona cibo piatto verità bambina capitale studentessa cosa corso lezione corso scuola basket calcio computer sport vita soldo film partita tv cosa lingua persona giornale libro romanzo cibo pizza italiano musica sport storia cosa soldo italiano 195 suonare trovare vedere visitare vivere lingua pianoforte lavoro film città museo paese posto vita 196 Bibliografia Abbot-‐Smith, K., Tomasello, M. (2006), “Exemplar-‐learning and schematization in a usage-‐
based account of syntactic acquisition”, in Linguistic Review, 23, pp. 275–290. Aijmer, K. (2002), “Modality in advanced Swedish learners’ written interlanguage”, in Granger, S., Hung, J., Petch-‐Tyson, S. (Eds.) (2002), Computer learner corpora, second language acquisition and foreign language teaching, Amsterdam, John Benjamins, pp. 55-‐76. Aijmer, K. (2009), “So er I just sort of I dunno I think it’s just because. . .”: A corpus study of “I don’t know” and “dunno” in learner spoken English, in Jucker, A. H., Schreier, D., Hundt, M. (Eds.), Corpora: Pragmatics and discourse, Amsterdam, the Netherlands, Rodopi, pp. 151–166. Aisenstadt, E. (1981), “Restricted collocations in English lexicology and lexicography”, in ITL Review of Applied Linguistics, 53, pp. 53-‐61. Amosova, N.N. (1963), Osnovi angliyskoy frazeologii, Leningrad. Andorno, C. (a cura di) (2001), Banca Dati di Italiano L2. Progetto Pavia, CD ROM, Università di Pavia, Dipartimento di Linguistica. Andorno, C., Rastelli, S. (a cura di) (2009), Corpora di italiano L2: tecnologie, metodi, spunti teorici, Perugia, Guerra Edizioni. Andorno, C., Rastelli, S. (a cura di) (2009a), “Introduzione”, in Andorno, C., Rastelli, S. (ed.) Corpora di italiano L2: tecnologie, metodi, spunti teorici, Perugia, Guerra Edizioni, pp. 7-‐21. Astaneh, S., Frontini, F. (2009), “L’adattamento di un parser di italiano L1: problemi e prospettive”, in Andorno, C., Rastelli, S. (ed.) Corpora di italiano L2: tecnologie, metodi, spunti teorici, Perugia, Guerra Edizioni, pp. 199-‐216. Atzori L., Chiapedi N., Spina S. (2009) “Corpora di italiano L2: difficoltà di annotazione e trascrizione ‘allargata’”, in Andorno, C., Rastelli, S. (a cura di), Corpora di italiano L2: tecnologie, metodi, spunti teorici, Perugia, Guerra Edizioni, pp. 93-‐110. Bally, C. (1951), Traité de stylistique française, Vol. I , Ginevra, Librairie Georg & Cie S.A. & Parigi, Librairie C. Klincksieck. Barbera, M., Marello, C. (2004), “VALICO (Varietà di apprendimento della lingua italiana Corpus Online): una presentazione”, in Itals, anno II, numero 4, pp. 7-‐18. Barni M., Gallina F. (2008), “Le parole degli stranieri: il LIPS, il primo lessico di frequenza dell’italiano parlato dagli stranieri”, in Barni, M., Troncarelli, D., Bagna, C. (a cura di), Lessico e apprendimenti. Il ruolo del lessico nella linguistica educativa, Milano, Franco Angeli, 143-‐156. Barni, M., Gallina, F. (2009) “Il Corpus LIPS (Lessico dell’italiano parlato da stranieri): problemi di trattamento delle forme e di lemmatizzazione”, in Andorno, C., Rastelli, S. (a cura di), Corpora di italiano L2: tecnologie, metodi, spunti teorici, Perugia, Guerra Edizioni, pp. 139-‐151. Baroni, M., Evert, S. (2009) “Statistical methods for corpus exploitation”, in Lüdeling, A., 197 Kytö, M. (eds.), Corpus Linguistics: An International Handbook, Vol. 2, Berlin, New York, pp. 777-‐803. Biber, D., Barbieri, F. (2007), “Lexical bundles in university spoken and written registers”, in English for Specific Purposes, 26, pp. 263–286. Biber, D., Conrad, S., Reppen, R. (1998), Corpus Linguistics: Investigating Language Structure and Use, Cambridge, Cambridge University Press. Bisetto, A. (2004), “Composizione”, in Grossmann, M. e Rainer, F. (a cura di) La formazione delle parole in italiano, Tübingen, Niemeyer, pp. 31-‐50. Bley-‐Vroman, R. (1983), “The comparative fallacy in interlanguage studies: the case of systematicity”, in Language Learning 33, pp. 1-‐17. Bod, R. (2006), “Exemplar-‐based syntax: How to get productivity from exemplars”, in Linguistic Review, 23, pp. 291–320. Bresnan, J. (1982) (ed.), The Mental Representation of Grammatical Relations, MIT Press, Cambridge, Massachusetts. Bybee, J. (1998), The emergent lexicon, in Chicago Linguistic Society, 34, pp. 421–435. Chen, Y.-‐H., Baker, P. (2010), “Lexical bundles in L1 and L2 academic writing”, in Language Learning & Technology, 14, pp. 30–49. Chiari, I. (2007), Introduzione alla linguistica computazionale, Roma – Bari, Laterza. Chini, M. (2005), Che cos’è la linguistica acquisizionale, Roma, Carocci. Chomsky, N. (1965), Aspects of the Theory of Syntax, Cambridge, MA, The MIT Press. Christiansen, M., Chater, N. (1999), “Toward a connectionist model of recursion in human linguistic performance”, in Cognitive Science, 23, pp. 157–205. Church, K. W., Hanks, P. (1990), “Word Association Norms, Mutual Information, and Lexicography”, in Computational Linguistics 16(1), 22-‐29. Church, K., Gale, W. A., Hanks, P., Hindle, D. (1991), “Using Statistics in Lexical Analysis”, in Zernick, U. (ed.) Lexical Acquisition: Using On-‐line Resources to Build a Lexicon, Hillsdale, NY, Lawrence Erlbaum, 115-‐164. Cicalese, A. (1999) “Le estensioni di verbo supporto: uno studio introduttivo”, in Studi Italiani di Linguistica Teorica e Applicata (SILTA), 3, 447-‐485. Conklin, K., Schmitt, N. (2012), “The Processing of Formulaic Language”, in Annual Review of Applied Linguistics (2012), 32, pp. 45–61. Conrad, S., Biber, D. (2004), “The frequency and use of lexical bundles in conversation and academic prose”, in Lexicographica, 20, pp. 56–71. Corder G.W., Foreman D.I. (2009), Nonparametric Statistics for Non-‐Statisticians. A step-‐by-‐
step approach, New Jersey, John Wiley & Sons. Coseriu, E. (1971), “Solidarietà lessicali”, in Teoria del linguaggio e linguistica generale. Sette studi, Roma-‐ Bari, Laterza, pp. 303-‐316. Cowie, A.P. (1981), “The treatment of collocations and idioms in learners’ dictionaries”, in Applied Linguistics, 2, pp. 223-‐235. Cowie, A.P. (1988), “Stable and creative aspects of vocabulary use”, in Carter, R., McCarthy, M.J. (eds.), Vocabulary and Language Teaching, London, Longman, pp. 126-‐137. 198 Cowie, A.P. (1994), “Phraseology”, in Asher, R.E. (ed.), The Encyclopedia of Language and Linguistics, Oxford, Oxford University Press, pp. 3168-‐3171. Cowie, A.P. (ed.) (1998), Phraseology: Theory, Analysis and Applications. Oxford, Oxford University Press. Cowie, A.P. (1998a), “Introduction”, in Cowie A.P. (ed.) Phraseology: Theory, Analysis and Applications, Oxford, Oxford University Press, pp. 1-‐20. Cowie, A.P. (1998b), “Phraseological dictionaries: Some East-‐West comparisons”, in Cowie, A.P. (ed.), Phraseology: Theory, Analysis and Applications. Oxford, Oxford University Press, pp. 209-‐228. Croft, W. (2001), Radical construction grammar: syntactic theory in typological perspective, Oxford, Oxford University Press. Croft, W., & Cruse, D. A. (2004), Cognitive Linguistics, Cambridge, Cambridge University
Press. Crossley, S. A., Salsbury, T. (2011), “The development of lexical bundle accuracy and production in English second language speakers”, in International Review of Applied Linguistics in Teaching, 49, pp. 1–26. Culicover, P. W. (1999), Syntactic Nuts: Hard Cases, Syntactic Theory, and Language Acquisition, Oxford, Oxford University Press. D’Agostino, E., Elia, A., (1998), “Il significato delle frasi: un continuum dalle frasi semplici alle forme polirematiche”, in Leoni et al., Ai limiti del linguaggio, Roma-‐Bari, Laterza, pp. 287-‐310 . Dardano, M. (1978) La formazione delle parole nell’italiano di oggi, Roma, Bulzoni. De Cock, S. (2003), Recurrent sequences of words in native speaker and advanced learner spoken and written English, Final Thesis Ph.D Université catholique de Louvain, Louvain-‐la-‐Neuve. De Cock, S. (2011), “Preferred patterns of use of positive and negative evaluative adjectives in native and learner speech: an ELT perspective”, in Frankenberg-‐Garcia, A., Flowerdew, L., Aston, G. (Eds.), New trends in corpora and language learning, London, UK, Continuum, pp. 198–212. Dechert, H. W. (1983), “How a story is done in a second language”, in Faerch, C., Kasper, G. (eds.) Strategies in Interlanguage Communication, London, Longman, pp. 175 – 196. De Mauro, T. (1999-‐2000), GRADIT: Grande Dizionario Italiano dell'uso, Torino, UTET. De Mauro, T. (1999-‐2000), Introduzione, Grande Dizionario Italiano dell'uso, T. De Mauro, Torino, UTET, VII-‐XLII. De Mauro, T. (1999-‐2000), Postfazione, Grande Dizionario Italiano dell'uso, T. De Mauro, Torino, UTET, pp. 1163-‐83. De Mauro, T. (2005), La fabbrica delle parole: il lessico e problemi di lessicologia, Torino, UTET libreria, pp. 88-‐91. De Mauro, T., Mancini, F., Vedovelli, M., Voghera, M. (1993), LIP: Lessico di frequenza dell’italiano parlato, Milano, Etas libri. De Mauro, T., Voghera, M. (1996), “Scala mobile. Un punto di vista sui lessemi complessi”, in P. Benincà, G. Cinque, T. De Mauro, N. Vincent (a cura di), Italiano e dialetti nel tempo. Saggi di grammatica per G.C. Lepschy, Bulzoni, Roma, pp. 99-‐131. 199 Díaz-‐Negrillo, A., Meurers, D., Valera, S., Wunsch, H. (2010), “Towards interlanguage POS annotation for effective learner corpora in SLA and FLT”, in Language Forum, 36 (1–
2), Special Issue on New Trends in Language Teaching, edito da Carmen Pérez Basanta. Durrant, P. (2008), High frequency collocations and second language learning, Final Thesis Ph.D., University of Nottingham. Durrant, P., Schmitt, N. (2009), “To what extent do native and non-‐native writers make use of collocations?”, in International Review of Applied Linguistics, 47 (2), pp. 157–
177. Ellis, N. C. (1996), “Sequencing in SLA: phonological memory, chunking, and points of order”, in Studies in Second Language Acquisition, 18, pp. 91–126. Ellis, N. C. (2001), “Memory for language”, in Robinson, P. (ed.), Cognition and second language instruction, Cambridge, Cambridge University Press, pp. 33-‐68. Ellis, N. C. (2002), “Frequency effects in language processing: A review with implications for theories of implicit and explicit language acquisition”, in Studies in Second Language Acquisition, 24, pp. 143–188. Ellis, N. C. (2003), “Constructions, chunking, and connectionism: The emergence of second language structure”, in Doughty C. J., Long M. H. (Eds.), The handbook of second language acquisition, Oxford, UK, Blackwell, pp. 63–103. Ellis, N. C. (2008), “Phraseology: The periphery and the heart of language”, in Meunier, F., Granger, S. (Eds.), Phraseology in foreign language learning and teaching, Amsterdam, John Benjamins, pp. 1-‐13. Ellis, N. C. (2012), “Formulaic Language and Second Language Acquisition: Zipf and the Phrasal Teddy Bear”, in Annual Review of Applied Linguistics, 32, pp. 17–44. Ellis, N. C., Simpson-‐Vlach, R., Maynard, C. (2008), “Formulaic language in native and second language speakers: Psycholinguistics, corpus linguistics, and TESOL”, in TESOL Quarterly, 42, pp. 375–396. Ellis, R. (1994), The study of Second Language Acquisition, Oxford, Oxford University Press. Elman, J. (1990), “Finding structure in time”, in Cognitive Science, 14, pp. 179–211. Evert, S. (2005), The Statistics of Word Cooccurences. Word pairs and Collocations, Final Thesis Ph.D., University of Struttgart. Evert, S. (2009), “Corpora and collocations”, in Lüdeling, A., Kytö, M. (eds.) Corpus Linguistics: An International Handbook, Volume 2, Berlin, New York, de Gruyter, pp. 1212-‐1248. Fillmore, C., J. (1979), “On fluency”, in Fillmore, C. J., Kempler, D., Wang, S.-‐Y.W. (Eds.), Individual differences in language ability and language behaviour, New York, Academic Press, pp. 85-‐101. Fillmore, C., J., Kay, P., O'Connor, M., C. (1988), “Regularity and idiomaticity in grammatical constructions: the case of ‘let alone’”, in Language, 64(3), pp. 500-‐538. Firth, J. R. (1957), “A synopsis of linguistic theory, 1930-‐55”, in Studies in Linguistic Analysis, Philological Society, Oxford, pp. 1-‐32, ristampato in F. R. Palmer (ed.) (1968), Selected papers of J.R. Firth 1952-‐1959, Harlow, Longman, pp. 168-‐205. Gallina, F. (2010) “The LIPS Corpus (Lexicon of Spoken Italian by Foreigners) and the acquisition of vocabulary by learners of Italian as L2” in Bota G., Hargreaves H., 200 Rong Rong C.L. (eds.) Papers from the Lancaster University Postgraduate Conference in Linguistics & Language Teaching, vol.4, Lancaster, Department of Linguistics and English Language Lancaster University, pp. 30-‐50. Gass, S. M., Selinker, L. (2001), Second Language Acquisition. An Introductory Course, Mahwah, NJ, Lawrence Erlbaum. Giacalone Ramat, A. (a cura di) (2003), Verso l’italiano. Percorsi e strategie di acquisizione, Roma, Carocci. Gilquin, G. (2007), “To err is not all. What corpus and elicitation can reveal about the use of collocations by learners”, Zeitschrift für Anglistik und Amerikanistik, 55, pp. 273-‐291. Gilquin, G., De Cock, S., Granger, S. (2010), The Louvain international database of spoken English interlanguage. Handbook and CD-‐ROM, Louvain-‐La-‐Neuve, Belgium, Presses universitaires de Louvain. Goldberg, A. E. (1995), Constructions: A construction grammar approach to argument structure, London, Chicago University Press. Goldberg, A. E. (2006), Constructions at work: the nature of generalization in language,
Oxford, Oxford University Press. Götz, S., Schilk, M. (2011), “Formulaic sequences in spoken ENL, ESL, and EFL”, in Hundt, M., Mukherjee, J. (Eds.), Exploring second-‐language varieties of English and learner Englishes: Bridging a paradigm gap, Amsterdam, John Benjamins, pp. 79–100. Götz, S. (2013), Fluency in Native and Nonnative English Speech, Amsterdam, John Benjamins. Granger, S. (1998), Learner English on computer, London, New York, Addison Wesley Longman. Granger, S. (1998a), “Prefabricated patterns in advanced EFL writing: collocations and formulae”, in Cowie A. P. (ed.), Phraseology: Theory, Analysis and Applications, Oxford, Oxford University Press, pp. 145-‐160. Granger, S. (1999), “Use of tenses by advanced EFL learners: Evidence from an error-‐tagged computer corpus”, in Hasselgård, H., Oksefjell, S. (eds.), Out of corpora, Rodopi, Amsterdam, pp. 191-‐202. Granger, S. (2002), “A Bird’s-‐eye view of learner corpus research”, in Granger, S., Hung, J., Petch-‐Tyson, S. (eds.), Computer learner corpora, second language acquisition and foreign language teaching, Amsterdam, John Benjamins, pp. 3-‐33. Granger, S. (2003), “Error-‐tagged Learner Corpora and CALL: A Promising Synergy”, in CALICO 20(3), pp. 465-‐480. Granger, S. (2004) “Computer Learner Corpus Research: current status and future prospects” in Connor, Ulla/Upton, Thomas (eds.) Applied Corpus Linguistics: a multidimensional Perspective, Amsterdam -‐ Atlanta, Rodopi, 123-‐145. Granger, S. (2008), “Learner corpora”, in Lüdeling, A., Kytö M. (eds.), Corpus Linguistics. An International Handbook Vol.1, Berlin -‐ New York, Walter de Gruyter, pp. 259-‐275. Granger, S. (2009), “Learner corpora: A window onto the L2 phrasicon”, in Barfield, A., Gyllstad, H. (Eds.), Researching collocations in another language, Basingstoke, UK, Palgrave Macmillan, pp. 60–65. Granger, S., Dagneaux, E., Meunier, F. (eds.) (2002), The International Corpus of Learner 201 English. Handbook and CD-‐ROM. Version 1.1. Louvain-‐la-‐Neuve: Presses Universitaires de Louvain. Granger, S., Paquot, M. (2008), “Disentangling the phraseological web”, in Granger, S., Meunier, F. (eds.), Phraseology. An interdisciplinary perspective, Amsterdam -‐ Philadelphia, John Benjamins Publishing Company, pp. 27-‐49. Granger, S., Sanders, C., Connor, U. (n.d.), LOCNESS: Louvain corpus of native English essays. Retrieved December 27, 2007. http://www.learnercorpusassociation.org/resources/corpora/locness-‐corpus/ Granger, S., Thewissen, J. (2005), “Towards a Reconciliation of a ‘Can do’ and ‘Can’t do’ Approach to Language Assessment”, paper presentato alla Conferenza EALTA (European Association for Language Testing and Assessment) tenutasi a Voss, Norvegia, 2-‐5 giugno 2005. Greenbaum, S. (1970), Verb-‐intensifier Collocations in English: an Experimental Approach, The Hague-‐Paris, Mouton. Gries, S.Th. (2008a), “Phraseology and linguistic theory. A brief survey”, in Granger, S., Meunier, F. (eds.), Phraseology. An interdisciplinary perspective, Amsterdam -‐ Philadelphia, John Benjamins Publishing Company, pp. 3-‐25. Gries, S. Th. (2008b), “Corpus-‐based methods in analyses of Second Language Acquisition data”, in Robinson, P., Ellis, N.C. (eds.), Handbook of Cognitive Linguistics and Second Language Acquisition, New York/London, Routledge, pp. 406-‐431. Gries, S. Th. (2009), Quantitative corpus linguistics with R: A practical introduction, London, UK, New York, Routledge/Taylor Francis. Gries, S. Th. (2010), “Useful statistics for corpus linguistics”, in Aquilino Sánchez & Moisés Almela (eds.), A mosaic of corpus linguistics: selected approaches, Frankfurt am Main, Peter Lang, pp. 269-‐291. Gries, S. Th. (2013), Statistics for Linguistics with R. A practical Introduction, Berlin, De Gruyter Mouton. Gross, G. (1996), “Prédicats nominaux et compatibilité aspectuelle”, in Languages, 121, pp. 54-‐72. Gualdo, R., Tevle, S. (2011), Linguaggi specialistici dell’italiano, Roma, Carocci. de Haan, P. (2000), “Tagging non-‐native English with the TOSCA-‐ICLE tagger”, in C. Mair, M. Hundt (Eds.), Corpus Linguistics and Linguistic Theory, Papers from ICAME 20 1999, Amsterdam, Rodopi, pp. 69-‐79. Halliday, M. A. K. (1966), “Lexis as a linguistic level”, in Bazell, C.E., Catford, J.C., Halliday M.A.K., Robins, R.H. (eds.), In Memory of J.R.Firth, London, Longmans, Green and Co. Ltd., pp. 148-‐162. Harris, Z.S. (1976), Notes du cours de syntaxe, Editions du Seuil, Paris. Hasselgren, A. (1994), “Lexical teddy bears and advanced learners: a study into the ways Norwegian students cope with English vocabulary”, in International Journal of Applied Linguistics , 4, (2), pp. 237 -‐ 260. Hasselgren, A. (1997), “The EVA Corpus of Norwegian School English”, in ICAME Journal 21, pp. 123-‐124. 202 Hausmann, F. J. (1989), “Le dictionnaire de collocations”, in Hausmann F.J., Wiegand H.E., Zgusta, L. (eds.), Wörterbücher, Dictionaries, Dictionnaires, Ein internationales Handbuch zur Lexikographie, Berlin, de Gruyter, pp. 1010-‐1019. Hoey, M. (1991), Patterns of Lexis in Text, Oxford, Oxford University Press. Hoey, M. (2005), Lexical priming: A new theory of words and language, London, Routledge. Hollander M., Wolfe D.A. (1999), Nonparametric Statistical Methods (2° ed.), New York, John Wiley & Sons. Housen, A. (2002), “A corpus-‐based study of the L2-‐acquisition of the English verb system” in Granger, S., Hung, J., Petch-‐Tyson, S. (eds.), Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching, Amsterdam/Philadelphia, John Benjamins, pp. 77-‐115. Howarth, P. (1996), Phraseology in English Academic Writing. Some Implications for Language Learning and Dictionary Making, Tübingen, Niemeyer. Howarth, P. (1998), “The Phraseology of Learners’ Academic Writing”, in Cowie, A.P. (ed.), Phraseology: Theory, Analysis and Applications, Oxford, Oxford University Press, pp. 161-‐186. Howarth, P. (1998a), “Phraseology and second language proficiency”, in Applied Linguistics, 19, pp. 24–44. Hunston, S. (2002), Corpora in Applied Linguistics, Cambridge, Cambridge University Press. Hunston, S., Francis, G. (2000), Pattern Grammar: a corpus-‐driven approach to the lexical grammar of English, Amsterdam, John Benjamins. Ife, A. (2004), “The L2 Learner Corpus: Reviewing its Potential for the Early Stages of Learning”, in Baynham, M., Deignan, A., White, G. (eds.) Applied Linguistics at the Interface. British Studies in Applied Linguistics 19, London, Equinox, pp. 91-‐103. Jackendoff, R. S. (1997), “Twistin’ the night away”, in Language 73(3), pp. 534–559. Jenset, G.B. (2008), Basic statistics for corpus linguistics, handout for methods seminar in English linguistics, Department of Foreign Languages, University of Bergen. Ježek, E. (2005), Lessico. Classi di parole, strutture, combinazioni, Bologna, Il Mulino. Ježek, E. (2011), “Costruzioni a verbo supporto”, Enciclopedia dell’italiano, Istituto dell’Enciclopedia italiana Treccani. Jones, S., Sinclair, J. (1974), “English lexical collocations”, in Cahiers de Lexicologie, 24, pp. 15-‐61. Kaszubski, P. (2000), Selected aspects of lexicon, phraseology and style in the writing of Polish advanced learners of English: a contrastive, corpus-‐based approach, Final Thesis Ph.D., Adam Mickiewicz University, Poznán. Kay, P., Fillmore, C., J. (1999), “Grammatical constructions and linguistic generalizations: The What's X doing Y? construction”, in Language, 75(1), pp. 1-‐33. Krenn, B. (2000), The Usual Suspects: Data-‐oriented Models for the Identification and Representation of Lexical Collocations, Saarbrücken Dissertations in Computational Linguistics and Language Technology 7, Saarbrücken, DFKI & Universität des Saarlandes. Langacker, R. W. (1987), Foundations of Cognitive Grammar: Theoretical Prerequisites, Stanford, CA, Stanford University Press. 203 Langacker, R. W. (1991), Foundations of cognitive grammar: Volume 2: Descriptive application, Stanford, Stanford University Press. Larsen-‐Freeman, D., Long, M.H. (1991), An introduction to second language acquisition research, London, Longman. Laufer, B., Waldman, T. (2011), “Verb-‐noun collocations in second language writing: a corpus analysis of learners’ English”, in Language Learning, pp. 648-‐672. Leech, G. (1997), “Introducing Corpus Annotation” in Garside, R., Leech, G., McEnery, T. (eds.) Corpus Annotation: Linguistic Information from Computer Text Corpora, Longman, London, pp. 1-‐18. Lehmberg, T., Wörner, K. (2009), “Annotation standards” in Lüdeling, A. -‐ Kytö, M. (eds.) Corpus Linguistics. An International Handbook, vol. I, Berlin, Mouton de Gruyter, 484-‐501. Lenci, A. -‐ Montemagni, S. -‐ Pirrelli, V. (2005) Testo e computer. Elementi di linguistica computazionale, Roma, Carocci. Lewis, M. (1993), The lexical approach: The state of ELT and a way forward, Hove, UK, Language Teaching. Li, J., Schmitt, N. (2010), “The development of collocation use in academic texts by advanced L2 learners: A multiple case study approach”, in Wood, D. (Ed.), Perspectives on formulaic language: Acquisition and communication, London, UK, Continuum, pp. 2–
46. Litoselliti, L. (2010) (ed.), Research Methods in Linguistics, Continuum, New York. Lo Cascio, V. (1997), "Semantica lessicale e i criteri di collocazione nei dizionari bilingui a stampa ed elettronici" in de Mauro, T., Lo Cascio, V. (a cura di), Lessico e grammatica: teorie linguistiche e applicazioni lessicografiche, Roma, Bulzoni, pp. 63-‐
88. Lo Cascio, V. (2006) (a cura di) Grande Dizionario Elettronico Italiano-‐Neerlandese, Neerlandese-‐Italiano, Amstelveen, Fondazione Italned. Lo Cascio, V. (2012) (a cura di), Dizionario Combinatorio Compatto Italiano, Amsterdam, John Benjamins Publishing Company. Lo Cascio, V. (2013) (a cura di), Dizionario Combinatorio Italiano, Amsterdam, John Benjamins Publishing Company. Lorenz, G. (1999), Adjective intensification -‐ learners versus native speakers: A corpus study of argumentative writing, Amsterdam, Rodopi. MacWhinney, B. (2000), The CHILDES Project, Volume 1: Tools for analysing talk: Transcription format and programs, Mahwah, NJ, Lawrence Erlbaum. Manning, C. D., Schütze, H. (1999), Foundations of statistical natural language Processing, Cambridge, MA, MIT Press. Masini, Francesca (2007), Parole sintagmatiche in italiano, Tesi di dottorato, Università Roma Tre. Masini, F. (2009), Combinazioni di parole e parole sintagmatiche, in Lombardi Vallauri, E., Mereu, L. (eds.), “Spazi linguistici. Studi in onore di Raffaele Simone”, Roma, Bulzoni, pp. 191-‐209. 204 Mastrofini, R. (2004), “Classi di costruzioni a verbo supporto in italiano: implicazioni semantico-‐sintattiche nel paradigma V+N”, in Studi italiani di linguistica teorica e applicata (SILTA), 33, 3, pp. 371-‐398. Mel’čuk, I. (1998), “Collocations and Lexical Functions”, in Cowie, A.P. (1998) (ed.), Phraseology: Theory, Analysis and Applications, Oxford, Oxford University Press, pp. 23-‐53. Milton, J. (1998), “Exploiting L1 and Interlanguage Corpora in the Design of an Electronic Language Learning and Production Environment”, in Granger, S. (ed.) Learner English on Computer, London -‐ New York, Addison Wesley Longman, pp. 186-‐198. Mitchell, R., Myles, F. (1998), Second Language Learning Theories, London, Arnold. Nattinger, J. R., DeCarrico, J. S. (1992), Lexical phrases and language teaching, Oxford, UK, Oxford University Press. Nesselhauf, N. (2003), “The use of collocations by advanced learners of English and some implications for teaching”, in Applied Linguistics, 24, pp. 223-‐242. Nesselhauf, N. (2005), Collocations in a Learner Corpus, Amsterdam -‐ Philadelphia, John Benjamins Publishing Company. Nicholls, D. (2003), “The Cambridge Learner Corpus -‐ Error Coding and Analysis for Lexicography and ELT”, in Archer, D., Rayson, P., Wilson, A., McEnery, T. (eds.), Proceedings of the Corpus Linguistics 2003 Conference, UCREL, Lancaster University, pp. 572 -‐ 581. Oakes, M. (1998), Statistics for corpus linguistics, Edinburgh, UK, Edinburgh University Press. O’Donnell, M. B., Römer, U., Ellis, N. C. (2012), “The development of formulaic language in first and second language writing: Investigating effects of frequency, association, and native norm”, in International Journal of Corpus Linguistics, Special issue on Phraseology. Oppenheim, N. (2000), “The importance of recurrent sequences for non-‐native speaker fluency and cognition”, in Riggenbach, H. (Ed.), Perspectives on fluency, Ann Arbor, University of Michigan Press, pp. 220–240. Palermo, M. (2009) (a cura di), Percorsi e strategie di apprendimento dell’italiano lingua seconda: sondaggi su ADIL2, Perugia, Guerra Edizioni. Paquot, M., Granger, S. (2012), “Formulaic Language in Learner Corpora”, in Annual Review of Applied Linguistics, 32, pp. 130–149. Pawley, A., Syder F.H. (1983), “Two puzzles for linguistic theory. Nativelike selection and nativelike fluency”, in Richard, J., Schmidt, R. (eds.), Language and Communication, London, Longman, pp. 191-‐226.
Pecina, P. (2009), Lexical Association Measures: Collocation Extraction, Praha, Institute of Formal and Applied Linguistics. Pierrehumbert, J. (2001), “Exemplar dynamics: Word frequency, lenition, and contrast”, in Bybee, J., Hopper, P. (Eds.), Frequency and the emergence of linguistic structure, Amsterdam, John Benjamins, pp. 137–157. Pinker, S. (1994), The language instinct, Harmondworth, Penguin. Prandi, M. (2006), Le regole e le scelte. Introduzione alla grammatica italiana, Torino, UTET Università. 205 Pravec, N. (2002), “Survey of learner corpora”, in ICAME Journal, 26, pp. 81-‐114. R Core Team (2014), R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-‐project.org/. Rasinger, S.M. (2008), Quantitative Research in Linguistics. An Introduction, London/New York, Continuum. Rastelli, S. (2006), “ISA 0.9. Written Italian of Americans: syntactic and semantic tagging of verbs in a learner corpus”, in Studi Italiani di Linguistica teorica e Applicata, 1, pp. 73-‐99. Rayson, P., Baron, A. (2011), “Automatic error tagging of spelling mistakes in learner corpora”, in Meunier, F., Guilquin, G., Paquot, M. (eds.), A Taste for Corpora. In honour of Sylviane Granger, John Benjamins Publishing, pp. 109-‐126. Renzi, L., Salvi G., Cardinaletti, A. (eds.) (2001), Grande Grammatica di Consultazione, vol. I-‐
III, Bologna, Il Mulino. Rumelhart, D., McClelland, J. (1986), “On learning the past tenses of English verbs”, in Rumelhart, D., McClelland, J. (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition, Cambridge, MA, MIT Press, pp. 216–271. Sabatini, F., Coletti, V. (2008), DISC: Dizinario italiano Sabatini Coletti, Firenze, Giunti. Saville-‐Troike, M. (2006), Introducing second language acquisition, Cambridge, Cambridge University Press.
Schmidt, H., (1994) Probabilistic Part-‐of-‐Speech Tagging Using Decidion Trees, Proceedings of the Conference on New Methods in Language Processing, Manchester.
Schmitt, N., Carter, R. (2004), “Formulaic sequences in action: An introduction”, in Schmitt, N. (Ed.), Formulaic sequences, Amsterdam, John Benjamins, pp. 1-‐22. Schmitt, N., Underwood, G. (2004), “Exploring the processing of formulaic sequences through a self-‐paced reading task”, in Schmitt, N. (Ed.), Formulaic sequences: Acquisition, Processing and Use, Amsterdam, John Benjamins, pp. 173–189. Sheskin D. J. (2000), Handbook of parametric and nonparametric statistical procedures, Boca Raton, London, New York, Washington, D.C., Chapman & Hall/Crc. Simone, R. (1997), “Esistono verbi sintagmatici in italiano?”, in De Mauro e Lo Cascio (a cura di) Lessico e grammatica. Teorie linguistiche e applicazioni lessicografiche, Roma, Bulzoni, pp. 155-‐169. Simone, R. (2007), “Constructions and categories in Verbal and Signed Languages”, in Pizzuto, E., Pietrandrea, P., Simone, R. (a cura di), Verbal and Signed Languages. Comparing Structures, Constructs and methodologies, Berlino/New York, Mouton De Gruyter, pp. 198-‐252. Simpson-‐Vlach, R., Ellis, N. C. (2010), “An academic formulas list: New methods in phraseology research”, in Applied Linguistics, 31, pp. 487–512. Sinclair, J. M. (1991), Corpus, Concordance, Collocation, Oxford, Oxford University Press. Sinclair, J. M. (1996), EAGLES. Preliminary Recommendations on Corpus Typology. http://www.ilc.cnr.it/EAGLES/corpustyp/corpustyp.html. Siyanova-‐Chanturia, A., Conklin, K., Schmitt, N. (2011), “Adding more fuel to the fire: An eye-‐tracking study of idiom processing by native and non-‐native speakers”, in 206 Second Language Research. Siyanova, A., Schmitt, N. (2008), “L2 Learner Production and Processing of Collocation: A Multi-‐study Perspective”, in The Canadian Modern Language Review/La Revue canadienne des langues vivantes, 64, 3, pp. 429–458. Spina, S. (2001), Fare i conti con le parole. Introduzione alla linguistica dei corpora, Perugia, Guerra Edizioni. Spina, S. (2014), “Il Perugia Corpus: una risorsa di riferimento per l’italiano. Composizione, nnotazione e valutazione”, in Basili, R., Lenci, A., Magnini, B. (a cura di) Proceedings of the First Italian Conference on Computational Linguistics CliC-‐it 2014, vol.1, Pisa, Pisa University Press, pp. 354-‐359. Stubbs, M. (1995), “Collocations and semantic profiles: On the cause of the trouble with quantitative methods”, in Functions of language 2 (1): 1–33. Ristampato in Teubert W. and R. Krishnamurthy (eds) (2007) Corpus Linguistics: Critical Concepts in Linguistics, London & New York: Routledge.
Šebesta, K. (2012), “Cesty k žákovským korpusům”, in Šebesta, K., Škodová, S. (Eds.) Čeština
– cílový jazyk a korpusy, Liberec, Technická univerzita v Liberci, pp. 5-‐12. Šebesta, K., Škodová, S. (2012) (Eds.), Čeština – cílový jazyk a korpusy, Liberec, Technická univerzita v Liberci.
Štindlová, B. (2011), Evaluace chybové anotace v žákovském korpusu češtiny (Evaluation of error mark-‐up in a learner corpus of Czech), Final Thesis Ph.D., Charles University, Prague. Štindlová, B. (2013), Žákovský korpus češtiny a evaluace jeho chybové anotace, Praha, Univerzita Karlova v Praze, Filozofická fakulta, Varia. Štindlová, B., Rosen, A., Hana, J., Škodová, S. (2012), “CzeSL – An error tagged corpus of Czech as a second language”, in Pęzik, P. (ed.) PALC 2011 – Practical Applications in Language and Computers (Łódź, 13–15 April 2011), Łódź Studies in Language, Peter Lang. Tagnin, S. (2003), “A Multilingual Learner Corpus in Brazil”, in Archer, D., Rayson, P., Wilson, A., McEnery, T. (eds.), Proceedings of the Corpus Linguistics 2003 conference. UCREL, Lancaster University, pp. 940-‐945. Tavakoli, H. (2012), A Dictionary of Research Methodology and Statistics in Applied Linguistics, Tehran, Rahnama Press. Tesnière, L. (1959), Eléments de Syntaxe Structurale, Paris, Librairie C. Klincksieck; trad. it. G. Proverbio e A. Trocini Cerrina, Elementi di sintassi strutturale, Torino, Rosenberg & Sellier 2002. Text Encoding Initiative Consortium, Guidelines for Electronic Text Encoding and Interchange, 2002. Tiberii, P. (2012), Dizionario delle collocazioni. Le combinazioni delle parole in italiano, Bologna, Zanichelli. Tomasello, M. (2003), Constructing a language: A usage-‐based theory of language acquisition. Cambridge, MA, London, UK, Harvard University Press. Tremblay, A., Baayen, H. (2010), “Holistic processing of regular four-‐word sequences: A behavioral and ERP study of the effects of structure, frequency, and probability on immediate free recall”, in Wood, D. (Ed.), Perspectives on formulaic language: 207 Acquisition and communication, London, UK, Continuum, pp. 151–173. Tremblay, A., Derwing, B., Libben, G., Westbury, C. (2011), “Processing advantages of lexical bundles: Evidence from self-‐paced reading and sentence recall tasks”, in Language Learning, 61, pp. 569–613. Urzì, F. (2009), Dizionario delle combinazioni lessicali, Luxembourg, Convivium. Vietri, S. (2004), Lessico-‐grammatica dell’italiano.Metodi, descrizioni e applicazioni, Torino, Utet. Vinogradov, V. (1946), Basic concepts of phraseology as a linguistic discipline, Leningrad University. Vinogradov, V. (1947), On the basic types of phraseological units in Russian, Collection of Articles and Materials by Acad S. P. Moscow-‐ Leningrad. Voghera, M. (1994), “Lessemi complessi: percorsi di lessicalizzazione a confronto”, in Lingua e Stile, XXIX/2, pp. 185-‐214. Voghera, M. (2004), “Le Polirematiche”, in Grossmann, M., Rainer, F. (a cura di) La formazione delle parole in italiano, Tübingen, Niemeyer, pp. 56-‐68. Waibel, B. (2008), Phrasal verbs: German and Italian learners of English compared, Saarbrücken, Germany, VDM. Wang, Y., Shaw, P. (2008), “Transfer and universality: Collocation use in advanced Chinese and Swedish learner English”, in ICAME Journal, 32, pp. 201–232. Wray, A. (1992), The focusing hypothesis: the theory of left hemisphere lateralized language re-‐examined, Amsterdam, John Benjamins. Wray, A. (2000), “Formulaic sequences in second language teaching: Principle and practice”, in Applied Linguistics, pp. 463–489. Wray, A. (2002), Formulaic language and the lexicon, Cambridge, Cambridge University Press. Wray, A. (2012), “What Do We (Think We) Know About Formulaic Language? An Evaluation of the Current State of Play”, in Annual Review of Applied Linguistics, 32, pp. 231–
254. Xiao, R. (2008), “Well-‐known and influential corpora”, in Lüdeling, A., Kytö, M. (eds.) Corpus Linguistics. An international handbook, Volume 1, Berlin, de Gruyter, pp. 383-‐457. Zilio, M. (2005-‐2006), “Le collocazioni: indagine riassuntiva sullo stato dell’arte della ricerca”, Tesi di Laurea, Università degli Studi di Trieste. Sitografia: http://collocations.de/ http://cwb.sourceforge.net/ http://elearning.unistrapg.it/osservatorio/corpus/frames-‐cqp.html http://loc.gov/standards/iso639-‐2/ http://oxygenxml.com/ http://perugiacorpus.unistrapg.it/ http://R-‐project.org/ http://tei-‐c.org/ 208