Schnittstellen / Inhaltserschliessung u.-auswertung

 

Erzeugung archivtauglicher Daten

Ce-Doc ist in der Lage, Dokumentkopien für die revisions- sichere Archivierung vorzubereiten. Dazu wird kunden- spezifisch eine Serie von Ordnungsbegriffen aus der Textschicht extrahiert und in eine Struktur abgelegt, wahlweise XML oder CSV. Die Dokumentkopie wird in das Langzeitarchivformat PDF/A konvertiert und gemeinsam mit der Struktur als Index an das Archiv übergeben. Für das in unserem Haus entwickelte CEuS Archiv werden die aus dem Text extrahierten Suchbegriffe direkt in die Metadaten der entstandenen PDF/A-Datei eingebettet. Dadurch wird eine zusätzlich entstehende, separate Indexdatei überflüssig.
 

Erschliessung und Auswertung des Inhalts

Zunächst wird der Datenstrom in seine Seitenstruktur überführt und der Inhalt der Textschicht zu gänglich gemacht. Die Textschicht wird nach Ordnungs begriffen durchsucht, um diese zu extrahieren. Extrahierte Begriffe werden in eine XML-Struktur übernommen. Hier werden sie als Suchkriterien genutzt und/oder als Barcode ins Bild übernommen, um bei eventuellem Einscannen die erneute Extraktion zu vermeiden.Im Dokument bereits vorhandene Barcodes werden entziffert und umgehend als Ordnungsbegriff ver- merkt.

Die Schnittstellen

Die Wahl der Schnittstelle zum Abfangen der Dokumente hängt von der Infrastruktur und der Plattform des Kunden ab. Zur Verfügung stehen spezielle Druckertreiber sowie überwachte Verzeichnisse.