Word Formation Latin

Word Formation Latin (WFL) è stato finanziato dal programma di ricerca e innovazione Horizon 2020 dell’Unione Europea nell’ambito del Marie Sklodowska-Curie grant agreement n. 658332-WFL. Il progetto ha sede presso il Centro Interdisciplinare di Ricerche per la Computerizzazione dei Segni dell’Espressione (CIRCSE), dell’Università Cattolica del Sacro Cuore, Milano, Italia. Il progetto si è svolto da novembre 2015 a fine ottobre 2017 e ha portato alla pubblicazione di un lessico basato sulla formazione delle parole, accessibile digitalmente attraverso il sito web http://wfl.marginalia.it e nella versione più recente dell'analizzatore morfologico e lemmatizzatore per il latino Lemlat (http://www.lemlat3.eu).

Il progetto

Negli ultimi due decenni si è assistito a un notevole aumento nella creazione di risorse linguistiche computazionali per lo studio delle lingue classiche, che hanno aggiornato lo stato dell’arte quasi allo stesso livello di quello delle risorse attualmente disponibili per le lingue moderne. Queste risorse consistono in corpora annotati, treebank, lessici e biblioteche digitali. Oltre a queste risorse linguistiche ci sono strumenti di TAL, come analizzatori morfologici, POS tagger e parser sintattici.

Il progetto WFL consiste nella compilazione di un lessico morfologico-derivazionale della lingua latina, che collega elementi lessicali sulla base di regole di formazione di parola, dove i lemmi vengono segmentati e analizzati nelle loro componenti morfologiche derivazionali, in modo da stabilire relazioni tra loro, per esempio il sostantivo verbale amator 'colui che ama' può essere ricollegato al verbo amo 'amare' attraverso il suffisso –(a)tor.

Il progetto WFL si è proposto tre obiettivi principali:

1. l'arricchimento di un analizzatore morfologico esistente per la lingua latina, LEMLAT, [ Passarotti, M. (2004). “Sviluppo e prospettive dell'analizzatore morfologico latino LEMLAT”. In A. Bozzi, L. Cignoni & J.L. Lebrave (a cura di), Tecnologie digitali e discipline filologiche. Linguistica Computazionale, XX-XXI, pp. 397-414.] con informazioni sulla formazione delle parole e l'integrazione dei dati all'interno di un'interfaccia simile a Word Manager [Domenig, M. & ten Hacken, P. (1992). Word Manager: un sistema per dizionari morfologici. Hildesheim: Olms.], che è già stato applicato ad altre lingue moderne (inglese, tedesco, italiano);

2. l'integrazione delle informazioni estratte dal lessico morfologico derivazionale risultante nello strato morfologico di annotazione dell'Index Thomisticus Treebank (IT-TB). L'Index Thomisticus (IT) è considerato un pioniere nelle discipline umanistiche digitali; iniziato da Padre Roberto Busa nel 1949. Si tratta di un database che conserva l'opera omnia di Tommaso d'Aquino (118 testi), più opere di altri 61 autori legati a Tommaso (61 testi). La dimensione del corpus è di circa 11 milioni di token (150.000 tipi; 20.000 lemmi). Il corpus è completamente lemmatizzato e annotato morfologicamente. L'IT-TB, con sede presso CIRCSE, è la parte annotata sintatticamente dell'IT e contiene circa 300.000 token per 15.000 frasi analizzate sintatticamente. Lo strato morfologico riporta informazioni sulla lemmatizzazione e le caratteristiche morfologiche (PoS, genere, numero, tempo verbale, ecc.) per ogni parola nel testo di base;

3. offrire i risultati del lavoro del progetto tramite un sito web di progetto di facile utilizzo che visualizzi il lessico morfologico derivazionale attraverso un'interfaccia di ricerca web che onsente di accedere al lessico:

per voce lessicale, che mostra sia gli antenati che le parole derivate;
per famiglia morfologica, cioè l'insieme dei lemmi morfologicamente derivati da un lemma-antenato comune;
per regola di formazione di parola (WFR).

Il progetto si basa sulla realizzazione semi-automatica della risorsa linguistica sia a livello di creazione delle WFR che sulla loro applicazione sugli elementi lessicali inclusi nell'analizzatore morfologico LEMLAT.

La risorsa finale è un lessico autonomo accessibile attraverso il proprio sito web, sia interconnesso con l'Index Thomisticus Treebank (IT-TB).

L'integrazione con l'IT-TB è operata attraverso l'inclusione dei dati del dizionario all'interno dello strato morfologico di annotazione della banca degli alberi, utilizzando la codifica XML P5 TEI (Text Encoding Initiative) per favorire lo scambio di dati e il collegamento ad altre risorse lessicali. I dati risultanti dal dizionario, una volta codificati in XML, sono stati applicati ai dati IT-TB.

I risultati del lavoro del progetto sono accessibili tramite un sito web di facile utilizzo che consente la navigazione del lessico morfologico derivazionale attraverso un'interfaccia di ricerca basata sul web.

Il lessico di Word Formation Latin è accessibile presso: http://marginalia.wfl.it

Il Team di WFL è formato da:

Eleonora Litta Modignani Picozzi, MSCA Research Fellow;
Marco Passarotti, Project Supervisor..

Documentazione:

Tutta la documentazione riguardante WFL è mantenuta sul GitHub del progetto: https://github.com/CIRCSE/WFL.

Pubblicazioni:

La documentazione riguardante il progetto è in parte riassunta nella seguente selezione di pubblicazioni risultanti dal lavoro di ricerca portato avanti durante lo sviluppo del Word Formation Latin Lexicon:

Budassi, Marco, Eleonora Litta, and Marco Passarotti. 2017. ‘-io Nouns through the Ages. Analysing Latin Morphological Productivity with Lemlat’. In Proceedings of the Fourth Italian Conference on Computational Linguistics (CLiC-it 2017), 65-70. aAccademia University Press, Roma. http://www.aaccademia.it/component/search/?searchword=clic-it&searchphrase=all&Itemid=118
Budassi, Marco, and Eleonora Litta. 2017. ‘In Trouble with the Rules. Theoretical Issues Raised by the Instertion of -sc- verbs into Word Formation Latin’. In Proceedings of the Workshop on Resources and Tools for Derivational Morphology (DeriMo), 15–26. Milan: Educatt. http://itreebank.marginalia.it/doc/2017_Litta-Passarotti_Proceedings-DeriMo.pdf
Culy, Chris, Eleonora Litta, and Marco Passarotti. n.d. ‘Visual Exploration of Latin Derivational Morphology’. In Proceedings of the Thirtieth International Florida Artificial Intelligence Research Society Conference. Marco Island, Florida. May 22–24, 2017, 601–6. Palo Alto, California - USA: The AAAI Press. https://www.aaai.org/Library/FLAIRS/flairs17contents.php
Litta Eleonora, and Marco Passarotti. 2017. 'Preface'. In Proceedings of the Workshop on Resources and Tools for Derivational Morphology (DeriMo). Milan: Educatt. http://itreebank.marginalia.it/doc/2017_Litta-Passarotti_Proceedings-DeriMo.pdf
Litta, Eleonora, Marco Passarotti, and Paolo Ruffolo. 2017. ‘Node Formation: Using Networks to Inspect Productivity in Affixal Derivation in Classical Latin’. In Proceedings of the 2Nd International Conference on Digital Access to Textual Cultural Heritage, 103–8.DATeCH2017. New York, NY, USA: ACM. doi:10.1145/3078081.3078092.
Litta, Eleonora, Marco Passarotti, and Chris Culy. n.d. ‘Formatio Formosa Est. Building a Word Formation Lexicon for Latin’. In Third Italian Conference on Computational Linguistics (CLiC–it 2016), 185–89. Naples: aAccademia University Press. http://www.aaccademia.it/component/search/?searchword=CliC-it 2016&searchphrase=all&Itemid=118.
Micheli, Silvia, and Eleonora Litta. 2017. 'E pluribus unum. E pluribus unum. Representing compounding in a derivational lexicon of Latin.' In Proceedings of the Fourth Italian Conference on Computational Linguistics (CLiC-it 2017), 65-70. aAccademia University Press, Roma. http://www.aaccademia.it/component/search/?searchword=clic-it&searchphrase=all&Itemid=118.
Passarotti, Marco, Marco Budassi, Eleonora Litta, and Paolo Ruffolo. 2017. ‘The Lemlat 3.0 Package for Morphological Analysis of Latin’. In Proceedings of the NoDaLiDa 2017 Workshop on Processing Historical Language, 24–31. Linköping University Electronic Press. http://www.ep.liu.se/ecp/article.asp?issue=133&article=006&volume=.