Il corpus CLIPS e le risorse per il parlato
(Federico Albano Leoni - CIRASS, Napoli)

Il corpus CLIPS (Corpora Linguistici per l'Italiano Parlato e Scritto), sezione di un cluster "Linguistica" finanziato dal MIUR, iniziato formalmente il 5 febbraio 2000 e che si concluderà il 5 febbraio 2003, rappresenta, per quanto riguarda la sezione sul parlato, l'iniziativa a tutt'oggi di maggior respiro per l'italiano. Si tratta infatti di un corpus di circa 100 ore di parlato, articolato, dal punto di vista diafasico in parlato dialogico spontaneo, radiofonico e televisivo (notiziari, cultura e intrattenimento, pubblicità), telefonico e letto. Il progetto è stato ideato ed è coordinato dall'Università di Napoli Federico II e alla sua realizzazione hanno concorso altre strutture (Scuola Normale Superiore di Pisa, FUB, ISCTI, Università di Lecce). Il materiale è stato raccolto in 15 località diverse, scelte secondo criteri linguistici, demografici e socioeconomici in modo da essere rappresentativo delle maggiori varietà diatopiche.

Il corpus, destinato tanto alle applicazioni tecnologiche (essenzialmente per l'addestramento di sistemi di riconoscimento e per la messa a punto di strumenti automatici di segmentazione ed etichettatura), quanto alle analisi linguistiche (analisi sistematica della variabilità linguistica, punto cruciale per la descrizione dell'italiano), è in parte trascritto (nella misura del 30% del totale) e in parte etichettato (nella misura del 10%) dal punto di vista segmentale. Le trascrizioni e le etichettature sono state effettuate secondo standard internazionali desunti dalle raccomandazioni del gruppo EAGLES.

Il prodotto finito, che sarà pubblico, consisterà, oltre che nel materiale in sé (annotato e non), organizzato in un data base interrogabile, anche in una serie di strumenti di analisi, messi a punto nell'ambito del progetto.