Attività formative e professionali sostitutive del tirocinio Proposta di stage interno rivolta a studenti dei Corsi di Laurea in Lettere. Titolo dell’attività: Supporto per applicazioni linguistiche su basi di conoscenza Responsabile dell'attività: Nome Cognome: Giunchiglia Fausto Dipartimento o Direzione: DISI, Trento E-mail: [email protected] N. ore di attività: 150 N. CFU: 6 (Con possibilità' di lavoro di tesi in aggiunta) Breve descrizione dell'attività: Presso l’Università di Trento sono in sviluppo tutta una serie di sistemi a supporto del ragionamento automatico. Tali sistemi richiedono la codifica della conoscenza in diverse lingue. I dati attualmente contenuti nella base di conoscenza sono stati importati da WordNet per l’inglese e MuliWordNet per l’italiano. Al momento la lingua con maggiore copertura risulta l’inglese. Al fine di potenziare tali strumenti, uno dei nostri obiettivi è quello di raggiungere una buona copertura anche per il dizionario italiano (in termini di definizioni) e, allo stesso tempo, migliorare il più possibile la qualità delle informazioni contenute nella base di conoscenza, dipendenti o meno dalla singola lingua (sia in termini di definizioni che di relazioni semantiche tra di esse). Questo obiettivo pianifichiamo di raggiungerlo attraverso una serie di interventi manuali supportati da opportune interfacce software che facilitino l’inserimento dei dati. Obiettivi formativi dell'attività: Si propongono due tipologie di lavori: 1. Ampliamento e validazione del dizionario italiano per la base di conoscenza Attraverso l’uso di opportuni strumenti software, col lavoro di stage si propone in primo luogo di validare le definizioni in italiano già presenti nella base di conoscenza – verificando la correttezza dei termini esistenti ed eventualmente aggiungendo le informazioni mancanti (ad esempio la corrispondente descrizione) - ed in secondo luogo di arricchire la base di conoscenza con nuove definizioni in italiano correlandole alle corrispondenti definizioni in inglese. Le definizioni dovranno essere in stile WordNet, ovvero esse saranno costituite da tutte le parole che hanno lo stesso significato (sinonimi) seguite dalla definizione. Ad esempio: <calcio, pallone -- “gioco tra due squadre di undici giocatori l'una che consiste nel mandare il pallone nella rete avversaria colpendolo con i piedi o con la testa”>. Tale definizione dovrà essere correlata con la corrispondente definizione inglese: <soccer, association football – “a football game in which two teams of 11 players try to kick or head a ball into the opponents' goal”>. 2. Costruzione del dizionario italiano per specifici domini In maniera simile allo stage precedente, l’obiettivo è quello di fornire le definizioni in italiano per uno specifico dominio, ad esempio storia, letteratura, scienze, medicina, sport, musica ecc. Nello specifico, il lavoro consisterà prevalentemente nell’individuazione dei termini chiave per il dominio in esame e correlare le definizioni con le opportune relazioni semantiche. Le relazioni semantiche su cui si chiederà di concentrare le attività di validazione sono le relazioni di parte, ad esempio il fatto che braccio è parte del corpo umano in medicina, e le relazioni tra termini subordinati, ad esempio che calcio è un gioco in sport. Piano di lavoro Si stima che la durata di ciascuno stage più eventuale tesi sia di 6 mesi di attività a tempo pieno. Il piano di lavoro è descritto in dettaglio nella tabella di seguito. Le date indicate sono orientative e pertanto possono subire variazioni. Al tempo stesso, lo studente è incoraggiato a seguire il piano proposto segnalando tempestivamente al relatore e/o responsabile del lavoro eventuali ritardi sullo schema proposto. 1. Ampliamento e validazione del dizionario italiano per la base di conoscenza Mese M1 M2-M5 M6 Descrizione Studio di WordNet, MultiWordNet e degli strumenti informatici per l’inserimento dei dati Inserimento delle definizioni in lingua italiana e collegamento con la corrispondente definizione inglese. Una relazione mensile sul lavoro svolto dovrà essere redatta dal tesista Scrittura della relazione finale di tesi che includa una dettagliata analisi del lavoro svolto corredata da statistiche 2. Costruzione del dizionario italiano per specifici domini Mese M1 M2 M3-M4 M5 M6 Descrizione Studio di WordNet, MultiWordNet e degli strumenti informatici per l’inserimento dei dati Studio della metedologia analitico-sintetica per la costruzione di un’ontologia a faccette per un dato dominio Analisi del dominio/i, individuazione e determinazione dei termini chiave e delle relazioni semantiche tra di esse. Una dettagliata relazione sul lavoro svolto dovrà essere prodotta dal tesista e validata dal relatore o responsabile del lavoro Inserimento nella base di conoscenza dei termini e delle relazioni individuate al passo precedente Scrittura della relazione finale di tesi che includa una dettagliata analisi del lavoro svolto corredata da statistiche Requisiti richiesti • • • • Ottima conoscenza della lingua italiana Conoscenza elementare della lingua inglese Conoscenza elementare di strumenti informatici (uso base del computer) È gradita, ma non obbligatoria, la competenza in specifici domini (si veda la proposta 2). Gli studenti interessati sono pregati di rivolgersi al Responsabile dell’attività, sopra indicato, per maggiori informazioni. Si ricorda che per il rilascio dei crediti, a termine dell’attività lo studente deve consegnare al Responsabile degli stage interni, la documentazione utile al fine del riconoscimento dei CFU entro 3 mesi dalla conclusione dell’attività e, in ogni caso, almeno 40 giorni prima della scadenza per la presentazione della domanda di laurea. Responsabile degli stage interni - Lettere Prof.ssa Carla Gubert