Università Cattolica del Sacro Cuore

Index Thomisticus Treebank

Sito web del progetto

Iniziato da padre Roberto Busa SJ nel 1949, l'Index Thomisticus è considerato un progetto pionieristico della linguistica computazionale. L'Index consiste in un corpus contenente l'opera omnia di Tommaso d'Aquino (118 testi) e 61 testi di autori connessi a Tommaso, per un totale di circa 11 milioni di parole, ciascuna delle quali è stata lemmatizzata manualmente a livello morfologico.

Già negli anni '70 Busa pianificò un progetto che mirava alla disambiguazione morfosintattica della lemmatizzazione dell'Index Thomisticus e all'annotazione sintattica delle frasi presenti nei testi in esso registrati. Oggi, questi sono gli obiettivi del progetto ‘Index Thomisticus Treebank', che rappresenta una parte del cosiddetto progetto ‘Lessico Tomistico Biculturale', il cui fine è creare un lessico tomistico sulla base dei dati dell'Index Thomisticus.

L'Index Thomisticus Treebank è un corpus annotato sintatticamente sulla base di una grammatica a dipendenze. Le regole di annotazione ricalcano quelle sviluppate presso l'ÚFAL di Praga per il cosidetto ‘analytical layer' della Prague Dependency Treebank della lingua ceca. Inoltre, regole specifiche per l'annotazione sintattica di testi latini sono condivise con il progetto della Latin Dependency Treebank in corso di sviluppo nell'ambito della Perseus Digital Library presso la Tufts University di Boston.

Al momento, l'Index Thomisticus Treebank consiste di circa 220.000 nodi annotati (parole e interpunzioni), corrispondenti a più di 12.000 frasi. Le frasi sono tratte dallo Scriptum super Sententiis Magistri Petri Lombardi, dalla Summa contra Gentiles e dalla Summa Theologiae. In accordo con i fini del Lessico Tomistico Biculturale, sono state selezionate le frasi che contengano almeno un'occorrenza del lemma forma.

I dati dell'Index Thomisticus Treebank e del relativo lessico di valenza possono essere consultati presso il sito web del progetto. I dati dell'Index Thomisticus (non annotati sintatticamente) sono, invece, consultabili su CD-ROM, o presso il sito Corpus Thomisticum.

Il 4 Novembre 2010, padre Busa ha donato la propria copia dei 56 volumi dell'Index Thomisticus all'IBM, consegnandoli al presidente e amministratore delegato Nicola Ciniero. Ha altresì donato alla biblioteca dell'Università Cattolica di Milano il suo archivio, le sue pubblicazioni e la sua biblioteca personale, che andranno a costituire un fondo librario a lui intitolato. In merito, si veda questo articolo di Avvenire del 4 Novembre 2010.

Padre Busa ci ha lasciati il 9 Agosto del 2011: i membri del CIRCSE, il mondo scientifico e i suoi tanti amici lo avranno sempre nel cuore.

                                                                                            Busa, Index Thomisticus