Text Mining
Analisi tematica di documenti in linguaggio naturale
(Remo Raffaelli - Synthema)

Negli ultimi anni il numero di documenti disponibili in formato elettronico è cresciuto in modo quasi esponenziale mentre la nostra capacità di lettura e di analisi è rimasta praticamente immutata.

La maggior parte dei documenti è reperibile in Internet o nelle reti aziendali e si presenta come testo libero, normalmente non strutturato né classificato.

In termini di informazione, questi documenti costituiscono una fonte inesauribile, continuamente aggiornata, su cui poter costruire scenari attendibili in generale in tutti i settori che riguardano l’attività umana.

Tuttavia i normali strumenti di ricerca, invece che semplificare il recupero di informazione, lo hanno reso, se possibile, più complesso restituendo lunghe liste di documenti di cui non è chiara né la pertinenza né la rilevanza.

Il Text Mining è una tecnologia linguistico-matematica per l’analisi automatica di grandi quantità di testi liberi che permette di avere una visione d’insieme degli argomenti trattati e garantisce una griglia di lettura sufficientemente limitata ed intuitiva. Permette di accedere all’informazione su base tematica e di cogliere correlazioni anche inaspettate tra i diversi argomenti e quindi di classificare i documenti in base agli argomenti in essi trattati.

Essa prevede due fasi che si succedono in modo automatico: Nella prima, l’analisi linguistica permette di identificare per ogni testo, i “concetti” chiave. Mediante la lemmatizzazione si riducono le ambiguità lessicali e si rende statisticamente rilevante il numero di occorrenze di ciascuna parola nel testo. Grammatiche ad ampia copertura linguistica analizzano quindi le frasi del testo e, utilizzando una base di conoscenza lessicale, permettono di ricondurre ciascun lemma ad un concetto di riferimento.

Nella seconda fase, i risultati dell’analisi linguistica sono trattati statisticamente per classificare i documenti in base ai “concetti” chiave in essi contenuti permettendo il raggruppamento di documenti e l’individuazione delle correlazioni tra i vari raggruppamenti.

I risultati vengono presentati in diversi formati: dalla classica lista gerarchica in cui si può navigare per approfondimento fino alla visualizzazione del contenuto del singolo documento, alla rappresentazione tematica dell’insieme di documenti in cui oltre ai raggruppamenti concettuali, vengono messe in evidenza le correlazioni “pesate” tra i raggruppamenti stessi; formato quest’ultimo che mostra una visione d’insieme molto utile come strumento di ricerca tematica.