eDocPrintPro – XML Plugin – Version 2.0.2 – XML und Text Export aus PDF

Mit der Version 2.0.2. des eDocPrintPro – XML Plugin ist es jetzt auch möglich neben einer XML Datei auch eine ASCII Text Datei mit den Texten aus dem PDF zu erzeugen.  Dabei wird in der TXT Datei der Beginn und das Ende der einzelnen Seiten mit entsprechenden Schlüsselworten gekennzeichnet.

  • $$Start 1$$ – Kennzeichnet den Beginn der ersten Seite und
  • $$End 1$$ – das Ende der ersten Seite usw.

eDocPrintPro XML & TXT export

Download – eDocPrintPro – XML Plugin für 32bit OS >>>
Download – eDocPrintPro – XML Plugin für 64bit OS >>>

AutoOCR – Alfresco Transformer Modul / JavaScript / Java Client

Alfresco ist eines der leistungsfähigsten und innovativsten DMS/ECM Systeme. Dokumente werden über  Metadaten sowie Volltext verwaltet und können sehr schnell wiedergefunden werden. AutoOCR basiert auf Abbyy der wohl Besten verfügbaren OCR Engine. Wir haben diese beiden Produkte jetzt integriert und stellen damit die AutoOCR Funktionen in Alfresco zur Verfügung.

AutoOCR als Alfresco Transformer:

Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Highlights / Funktionen:

  • Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
  • Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
  • Basierend auf ABBYY – der führenden OCR Engine
  • Einfache Konfiguration über Auswahl von OCR Profilen  – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammenfassen.
  • Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
  • Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
  • JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
  • Java-Client für den AutoOCR Service, zur Verwendung in Java Code.  Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.

Voraussetzung:

  • Alfresco 4.x – dynamische Konfiguration über Share Userinterface
  • Alfresco 3.x – manuelle Konfiguration ohne Share UI
  • AutoOCR ab Version 1.9.8 unter MS-Windows

1_AutoOCR - alfresco transformer - status 2_AutoOCR - alfresco transformer connection configuration 3_AutoOCR - alfresco transformer configuration 4_AutoOCR - alfresco transformer job status

eDocPrintPro – XML Plugin – PDF Textinformationen als XML exportieren

Mit dem neuen eDocPrintPro XML Plugin kann die in der erzeugten PDF Datei enthaltenen Textinformation als strukturierte XML Datei ausgegeben werden.

Die XML Datei enthält folgende Information:

  • Name und Ablagepfad der PDF Datei
  • Einheit der Positions- und Größeninformaiton (mm / inch / Punkt)
  • Seitennummer / Seitengröße
  • Textstring
  • Umschreibende Box für den Textstring – Startposition / Höhe / Breite in mm/inch/Punkt

Auf Basis dieser strukturierten Information können weitere Auswertungen bzw. Verarbeitungsschritte angestoßen und ausgeführt werden.

Die XML Information kann verwendet werden um z.B.:

  • E-Mail Adressen oder Fax-Nummern auszulesen,
  • an Hand der Information zu erkennen um welchen Dokumententyp es sich handelt,
  • die Info bestimmter Bereiche als Metadaten für die Archivierung zu verwenden,
  • festzustellen bei welchen Seiten ein mehrseitiges Dokument in Einzeldokumente getrennt werden soll.

Extract Text information as XML from PDF PDF Textinformation als XML XML aus PDF - liefert Informationen über Position und Größe der Textbox der Teststrings

Download – eDocPrintPro – XML Plugin für 32bit OS >>>
Download – eDocPrintPro – XML Plugin für 64bit OS >>>