Risorse e strumenti linguistici bilingui per l'Italiano e l'Arabo
(Eugenio Picchi - ILC-CNR)

All’interno del progetto più generale “Linguistica Computazionale: ricerche monolingui e multilingui” finanziato con la legge 488/1999, l’Istituto è stato coinvolto nella partecipazione all’obiettivo “Corpus bilingue Italiano – Arabo” per lo studio e lo sviluppo di strumenti e risorse in lingua araba ed italiana. Tale partecipazione si è concretizzata nella realizzazione di un ambiente di lavoro linguistico bilingue, composto da strumenti e risorse sia per la lingua italiana che per la lingua araba, curandone in particolar modo l’aspetto contrastivo.

L’obiettivo ha visto la partecipazione, oltre all’Istituto di Linguistica Computazionale che ha realizzato i componenti software coordinandone l’integrazione con gli altri partner del progetto, dell’Istituto Universitario Orientale di Napoli e del Dipartimento di Scienze Storiche del Mondo Antico dell’Università degli Studi di Pisa.

Sono componenti integrate del sistema: gli strumenti e le risorse linguistiche:

Risorse linguistiche

  • corpora testuali di riferimento: i due componenti del corpus, italiano ed arabo, devono essere nel complesso comparabili; cioè disegnati, composti, strutturati, collegati ed analizzati con gli stessi criteri;
  • dizionari automatici: costruzione dei lessici di riferimento per i motori morfologici;
  • corpora testuali di testi bilingui paralleli: una parte sostanziale dei corpora sarà costituita da testi paralleli, cioè da testi arabi e dalla loro traduzione italiana, e/o viceversa;
  • corpora testuali con annotazione lessicale e morfosintattica: un sottoinsieme dei corpora sarà annotato, cioè analizzato, a livello morfosintattico, in modo automatico e con controllo in post-editing.

Strumenti linguistici

  • Motori morfologici automatici per la generazione e l’analisi delle due lingue, utilizzando le risorse lessicali (lessici e template flessionali) disponibili;
  • disambiguatori automatici per l’annotazione morfosintattica dei testi: procedure di disambiguazione operanti su base statistica con fase di controllo in post-editing;
  • allineatori automatici dei testi paralleli arabi e italiani: procedura di allineamento automatica su base statistica con funzione di post-editing interattiva per il controllo dei risultati;
  • acquizisione, analisi e funzioni di accesso (con relativo query system) dei testi dei corpora per le due lingue, nelle varie fasi di elaborazione: adattamento del sistema DBT alla gestione della lingua araba.

E' disponibile la presentazione in formato Microsoft PowerPoint (zip - 1.497 KB).