Generazione automatica di hyper-link tra notizie di agenzia con metodologie di Information Extraction (Maria Teresa Pazienza - Università di Roma Tor Vergata )
E’ attualmente possibile accedere su web a servizi on-line commerciali che forniscono versioni semplificate di ipertesti su notizie di agenzia. In genere l’utente può navigare all’interno di testi on-line usando un numero limitato di collegamenti ipertestuali predefiniti dal produttore del servizio e quindi secondo criteri non accessibili né pubblicizzati. I testi sono considerati nodi finali e non un punto di partenza per una esplorazione autonoma, da parte del lettore delle notizie, basata sul contenuto. Ciò è dovuto anche agli alti costi della produzione e manutenzione di ipertesti legata all’attività umana sottostante. Oltre al problema del costo, esiste un ulteriore problema legato alla soggettività nella identificazione di correlazioni tra più testi: persone diverse possono non condividere i criteri usati nell’inserimento di un documento in una catena ipertestuale. Di conseguenze il lettore di giornali on-line può sentirsi “costretto” all’interno di un ipertesto del quale può non condividere i criteri ispiratori.
Viene qui proposta una metodologia, sviluppata ed implementatata dall’Università di Roma Tor Vergata nell’ambito di un progetto europeo, che affronta la problematica della generazione automatica di link ipertestuali tra notizie di agenzia basata su tecniche di Information Extraction (IE); i testi vengono rappresentati in una forma canonica (objective representation) che descrive le informazioni riconosciute come rilevanti nel documento stesso (entità nominali ed eventi). Tale rappresentazione permette di definire collegamenti tra documenti una volta siano soddisfatti vincoli definiti in regole. L’identificazione di eventi di dominio e di entità nominali si basa su un sistema di IE basato su conoscenza e composto da un parser robusto e da un interprete del discorso. La generalità del metodo e la contestualità delle basi di conoscenza utilizzabili permette di avere nel contempo un sistema riproducibile, senza grandi modifiche, in ambiti cognitivi diversificati.
|