Risorse linguistiche per la lingua italiana scritta
(Nicoletta Calzolari - ILC- CNR)

Il costo, lo sforzo, la varietà di competenze necessari per produrre risorse linguistiche (RL) adeguate al trattamento automatico della lingua (TAL), sono tali che la loro produzione richiede uno sforzo cooperativo di competenze, finanziamenti, soggetti, quali solo progetti internazionali e/o nazionali possono assicurare. Per RL intendiamo insiemi (di solito molto estesi) di dati linguistici - accompagnati o costituiti da annotazioni e rappresentazioni formalizzate, articolate a diversi livelli di descrizione linguistica, e dai relativi strumenti software - usati per costruire, ampliare, rendere operativi, valutare modelli, algoritmi, componenti e sistemi per il TAL. Il ruolo infrastrutturale delle RL nell’ambito del TAL richiede che vengano:

  • disegnate, costruite, validate in cooperazione con i potenziali utilizzatori (da cui la necessità di cooperazione con industrie),
  • costruite riutilizzando risorse parziali disponibili (da cui la conversione di risorse esistenti),
  • armonizzate con le risorse di altre lingue europee (da cui il riferimento a modelli di progetti comunitari europei e agli standard internazionali di EAGLES/ISLE),
  • messe a disposizione della intera comunità nazionale.
In Italia hanno svolto un ruolo fondamentale nel creare una parte dell’infrastruttura di base di RL, necessaria per il trattamento automatico della lingua italiana, i due progetti di interesse nazionale:
  • TAL - Infrastruttura nazionale per le risorse linguistiche nel settore del trattamento automatico della lingua naturale parlata e scritta (legge 46/82 art. 10, con 13 partner di enti privati), e
  • LCRMM - Linguistica computazionale: ricerche monolingui e multilingui (cluster "Linguistica", legge 488, con 15 partner di enti privati e pubblici).
Si sono estesi i nuclei iniziali di RL generiche prodotte - con funzione di modelli - in alcuni progetti comunitari (2), per raggiungere una copertura linguistica che ne consenta l’uso in applicazioni “reali”, e si sono costruite nuove risorse. I risultati di questi progetti saranno accessibili – attraverso ELRA - sia a gruppi di ricerca sia a imprese, che grazie ad essi potranno costruire sistemi e prodotti più efficaci e competitivi.

Le RL per lo scritto create nell’ambito dei due progetti, di cui si forniranno le caratteristiche principali, sono:

  • Un lessico fonologico, morfologico, sintattico, e semantico dell’Italiano (PAROLE/SIMPLE/CLIPS)
  • Una rete semantica dell’Italiano (ItalWordNet)
  • I relativi sistemi software di gestione
  • Una Treebank dell’Italiano, annotata a due livelli sintattici e a livello semantico
  • Il relativo sistema software di gestione
  • Sistemi robusti di annotazione e analisi morfosintattica e sintattica
  • Sistema di disambiguazione di senso
  • Sistemi di acquisizione di informazioni lessicali sintattiche e semantiche da corpora testuali, per incrementare le risorse ‘statiche’ di base con metodi ‘dinamici’ di auto-arricchimento
  • Un sistema integrato di supporto allo sviluppo di applicazioni (SiSSA) e risorse grammaticali di base
Sono state inoltre definite e applicate diverse metodologie di valutazione delle RL create, anche attraverso il loro utilizzo in sistemi applicativi, producendo un primo esempio di tipologia ragionata e di modello metodologico integrato per la validazione di RL e componenti per il TAL, riutilizzabile per future risorse analoghe.


1 Il termine RL fu introdotto da A. Zampolli per sottolineare il ruolo infrastrutturale di questi componenti, simile a quello delle risorse di base (per es. acquedotti, elettricità, strade) necessarie per lo sviluppo industriale di un paese.

2 Secondo il principio di sussidiarietà, il compito di estendere i nuclei di RL creati in ambito Comunitario, fino a conferire loro le dimensioni richieste da applicazioni reali, spetterebbe alle Autorità dei rispettivi paesi. Il fatto che i nuclei iniziali siano armonizzati secondo specifiche comuni, assicura che la loro estensione avvenga mantenendo la compatibilità e la interoperabilità tra risorse delle diverse lingue, base necessaria per futuri sviluppi multilingui.