La committente, la divisione informatica della società romana Italian Moving Network Inc. S.r.l., aveva la necessità di catalogare elementi bibliografici provenienti del patrimonio bibliotecario di una primaria associazione nazionale, composto da più di 100.000 unità tra opere seriali (periodici, quotidiani, lanci di agenzia stampa, atti di convegno, cicolari, etc ) ed opere monografiche. Dopo la digitalizzazione del materiale bibliografico, questo doveva essere catalogato mediante la generazione di un file XML conforme allo standard MAG, per la descrizione bibliografica dei documenti digitali e delle loro fonti originali. L'archivio digitale così costruito doveva essere reso fruibile on-line.
Da subito si è evidenziata come la criticità del progetto, oltre gli standard di qualità certificati per i documenti archiviati, strategie di preservazione delle risorse digitali, modalità di disseminazione e strumenti di accesso per gli utenti, era costituta dai tempi di data entry dei dati identificativi le unità bibliografiche e dall'errore umano in questa fase. L'intervento effettuato dalla Futuretech S.r.l. è stato finalizzato a diminuire tali criticità automatizzando l'estrazione dei metadati direttamente dal documento digitale, diminuendo i tempi di lavorazione fino all'80%.
L'obiettivo è stato raggiunto mediante lo sviluppo di una soluzione, Tekmerion Document Tag, che attraverso l'utilizzo di algoritmi di text mining per l'estrazione delle informazioni e di logica fuzzy per la correzione degli errori di OCR, estrae automaticamente tutta le informazioni necessarie alla catalogazione secondo dei profili di MetaTag e dei "CaptureTag" definiti in maniera visuale.
Per la definizione della struttura di navigazione all'interno dell'opera ( ad esempio secondo indice e sommario ) è stata creata una interfaccia visuale che permette lavorando direttamente sul documenti digitale mediate algoritmi di segmentazione e di OCR dell'immagine, la costruzione della struttura di navigazione all'interno dell'opera Il servizio on-line mette a disposizione degli utenti oltre alle funzioni di accesso ai testi e di lettura tramite strumenti di ricerca che consentono di effettuare ricerche contestuali, ricerche di prossimità e full-text e di creare concordanze dinamiche in formato kwic (keywords in context). Il sistema di fruizione oggi è in evoluzione con l'introduzione della clusterizzazione tmatica dei risultati delle ricerche, attraverso tecniche di text e data minining

Figura 1. Sistema Visuale Gestione e Generazione Automatica
Struttura Base Dati Catalogazione XSD

Figura 2. Creazione Automatica Profili di Catalogazione Tipologici

Figura 3. Configurazione Auto Capture Strumenti Capture Estrazione Dati

Figura 4- Estrazione Automatica Dati e Popolamento Base Dati