Risorse e strumenti linguistici bilingui per l'Italiano e l'Arabo (Eugenio Picchi - ILC-CNR)
All’interno del progetto più generale “Linguistica Computazionale: ricerche monolingui e multilingui” finanziato con la legge 488/1999, l’Istituto è stato coinvolto nella partecipazione all’obiettivo “Corpus bilingue Italiano – Arabo” per lo studio e lo sviluppo di strumenti e risorse in lingua araba ed italiana. Tale partecipazione si è concretizzata nella realizzazione di un ambiente di lavoro linguistico bilingue, composto da strumenti e risorse sia per la lingua italiana che per la lingua araba, curandone in particolar modo l’aspetto contrastivo.
L’obiettivo ha visto la partecipazione, oltre all’Istituto di Linguistica Computazionale che ha realizzato i componenti software coordinandone l’integrazione con gli altri partner del progetto, dell’Istituto Universitario Orientale di Napoli e del Dipartimento di Scienze Storiche del Mondo Antico dell’Università degli Studi di Pisa.
Sono componenti integrate del sistema: gli strumenti e le risorse linguistiche:
Risorse linguistiche
- corpora testuali di riferimento: i due componenti del corpus, italiano ed arabo, devono essere nel complesso comparabili; cioè disegnati, composti, strutturati, collegati ed analizzati con gli stessi criteri;
- dizionari automatici: costruzione dei lessici di riferimento per i motori morfologici;
- corpora testuali di testi bilingui paralleli: una parte sostanziale dei corpora sarà costituita da testi paralleli, cioè da testi arabi e dalla loro traduzione italiana, e/o viceversa;
- corpora testuali con annotazione lessicale e morfosintattica: un sottoinsieme dei corpora sarà annotato, cioè analizzato, a livello morfosintattico, in modo automatico e con controllo in post-editing.
Strumenti linguistici
- Motori morfologici automatici per la generazione e l’analisi delle due lingue, utilizzando le risorse lessicali (lessici e template flessionali) disponibili;
- disambiguatori automatici per l’annotazione morfosintattica dei testi: procedure di disambiguazione operanti su base statistica con fase di controllo in post-editing;
- allineatori automatici dei testi paralleli arabi e italiani: procedura di allineamento automatica su base statistica con funzione di post-editing interattiva per il controllo dei risultati;
- acquizisione, analisi e funzioni di accesso (con relativo query system) dei testi dei corpora per le due lingue, nelle varie fasi di elaborazione: adattamento del sistema DBT alla gestione della lingua araba.
E' disponibile la presentazione in formato Microsoft PowerPoint (zip - 1.497 KB).
|