×

LT4HALA-2024

Workshop | 25 maggio 2024

LT4HALA-2024

location-icon LREC-COLING 2024-Torino, Italy (and online)

Terzo Workshop sulle Tecnologie Linguistiche per Lingue Storiche e Antiche (Language Technologies for Historical and Ancient LAnguages) (#LT4HALA2024)

 

Descrizione

Questo workshop di un giorno mira a riunire studiosi che stanno sviluppando e/o utilizzando Tecnologie Linguistiche (TLs) per lingue storicamente attestate, al fine di favorire la fertilizzazione incrociata tra la comunità di Linguistica Computazionale e le aree delle Scienze Umanistiche che si occupano di dati linguistici storici, ad esempio storici, filologi, linguisti, archeologi e studiosi letterari. Nonostante la disponibilità attuale di ampie collezioni di testi digitalizzati scritti in lingue storiche, questa collaborazione interdisciplinare è ancora ostacolata dalla limitata disponibilità di risorse linguistiche annotate per la maggior parte delle lingue storiche. Creare tali risorse è una sfida e un obbligo per le TLs, sia per sostenere la ricerca linguistica storica con le tecnologie più aggiornate, sia per preservare quei preziosi dati linguistici che sono sopravvissuti dai tempi passati.

Argomenti rilevanti per il workshop includono, ma non sono limitati a:

  • gestione della variazione ortografica,
  • rilevamento e correzione degli errori OCR,
  • creazione e annotazione di risorse linguistiche,
  • decifrazione,
  • analisi morfologica/sintattica/semantica dei dati testuali,
  • adattamento degli strumenti per affrontare la variazione diacronica/diatopica/diastratica nei testi,
  • insegnamento di lingue antiche con TLs,
  • studi teorici basati su TAL in linguistica storica,
  • analisi basata su TAL di testi antichi letterari,
  • valutazione delle TLs progettate per lingue storiche e antiche,
  • Large Language Models per l'analisi automatica di testi antichi.

Il workshop sarà anche il luogo della:

  • terza edizione di EvaLatin, una campagna di valutazione interamente dedicata alla valutazione degli strumenti TAL per il Latino. La terza edizione di EvaLatin si concentrerà su due compiti (ovvero analisi sintattica a dipendenze e rilevamento della polarità emotiva). L'analisi sintattica a dipendenze si baserà sul framework di Universal Dependencies (UD). Non verranno rilasciati dati di addestramento specifici ma i partecipanti saranno liberi di utilizzare qualsiasi risorsa (di qualunque tipo) ritengano utile per il compito, compresi le treebank latine già disponibili nella collezione UD. A tal proposito, una delle sfide di questo compito sarà capire quale treebank (o combinazione di treebank) sia più adatta per gestire nuovi dati di test. I dati di test saranno sia testi in prosa che poetici di periodi temporali diversi. Anche per il compito di rilevamento della polarità emotiva, non verranno rilasciati dati di addestramento ma gli organizzatori forniranno un campione di annotazione, un lessico di polarità creato manualmente e linee guida per l'annotazione. Anche in questo compito, i partecipanti saranno liberi di perseguire l'approccio che preferiscono, inclusi quelli non supervisionati e/o interlinguistici (che promettono di essere i più efficienti, data la mancanza di dati di addestramento per il Latino per questo compito). I dati di test saranno testi poetici di periodi temporali diversi.
  • terza edizione di EvaHan, la campagna di valutazione per la valutazione degli strumenti TAL per il Cinese Antico. EvaHan 2024 si concentrerà su due compiti: segmentazione delle frasi in Cinese Antico e punteggiatura delle frasi.

 

LT4HALA Organizzatori

EvaLatin Organizzatori

  • Rachele Sprugnoli, Università Cattolica del Sacro Cuore, Milan, Italy
  • Federica Iurescia, Università Cattolica del Sacro Cuore, Milan, Italy
  • Marco Passarotti, Università Cattolica del Sacro Cuore, Milan, Italy

EvaHan Organizzatori

  • Li Bin, School of Chinese Language and Literature, Nanjing Normal University, P.R. China
  • Bolin Chang, Nanjing Normal University, P.R. China
  • Minxuan Feng, Nanjing Normal University, P.R. China
  • Chao Xu, Nanjing Normal University, P.R. China
  • Dongbo Wang, Nanjing Agricultural University, P.R. China

Comitato Scientifico

  • Adam Anderson, FactGrid Cuneiform Project, USA
  • Yannis Assael, Google DeepMind
  • Monica Berti, University of Leipzig, Germany
  • Luca Brigada Villa, Università di Bergamo, Italy
  • Flavio Massimiliano Cecchini, Università Cattolica del Sacro Cuore di Milano, Italy
  • Margherita Fantoli, University of Leuven, Belgium
  • Federica Gamba, Charles University, Czech Republic
  • Shai Gordin, Ariel University, Israel
  • Federica Iurescia, Università Cattolica del Sacro Cuore di Milano, Italy
  • Bin Li, School of Chinese Language and Literature at Nanjing Normal University, P.R. China
  • Eleonora Litta, Università Cattolica del Sacro Cuore di Milano, Italy
  • Yudong Liu, Western Washington University
  • Barbara McGillivray, Turing Institute, UK
  • Beáta Megyesi, Uppsala University, Sweden
  • Chiara Palladino, Furman University, USA
  • John Pavlopoulos, Athens University of Economics and Business, Greece
  • Eva Pettersson, Uppsala University, Sweden
  • Sophie Prévost, Laboratoire Lattice, France
  • Thea Sommerschield, Ca’ Foscari University of Venice, Italy
  • James Tauber, Eldarion, USA
  • Toon Van Hal, Katholieke Universiteit Leuven, Belgium
  • Tariq Yousef, University of Southern Denmark, Denmark

Leggi anche

scroll-top-icon