Kategorie: AutoOCR

AutoOCR / AutoOCR light Version 2.0.15

Neuerungen AutoOCR Version 2.0.15:

  • Neue Funktionen / Tabs für „Bildverarbeitung“, „PDF Infofelder“, „PDF/A“ und „PDF Compressor“

  • Image Processing: Die Image Processing Funktionen wurden wesentlich erweitert und stehen außerhalb der OCR Engines zur Verfügung. Damit können die Scans vor der OCR Erkennung noch optimiert und verbessert werden, um die Erkennungsgenauigkeit zu erhöhen und die Bildqualität zu verbessern. Image Processing ist auch Bestandteil von AutoOCR light.

 

Bildverarbeitungs Funktionen:

    • Mehrere Funktionen können in einer vorgegebenen Reihenfolge hintereinander ausgeführt werden.
    • Die ausgewählten Funktionen, deren Parameter und Verarbeitungsfolge werden über Profile verwaltet.
    • Profilfunktionen: Neu, Kopieren, Löschen, Umbenennen, In Datei exportieren, Aus Datei importieren.
    • Option um PDF-Scans / Seiten nur mit Bildinformation bzw. alle PDF Seiten zu verarbeiten.
    • Laden einer Musterseite und Test der Bildverarbeitungsbefehle mit Voransicht der Ausgangs- und Ergebnisdatei.

Einzelfunktionen der Bildverarbeitung:

    • Leerseiten erkennen und entfernen.
    • Seiten automatisch drehen
    • Seiten gerade ausrichten
    • Bilder invertieren (schwarz nach weiß)
    • Schwarzen Rand entfernen
    • Rand beschneiden
    • Verunreinigungen entfernen
    • Lochungen entfernen
    • Linien entfernen
    • Farbe / Graustufen nach Schwarz/Weiß konvertieren
  • PDFCompressor integriert: Damit können die durch den OCR Vorgang erzeugten PDF Dateien optimiert und auf ein Minimum komprimiert werden. Als Input für die OCR Verarbeitung sollte immer ein möglichst guter Scan mit entsprechend hoher Qualität und Auflösung (300dpi bei Schwarz/Weiß und 200-300dpi Farbe) verwendet werden. Das ist gut für die OCR Erkennung, erzeugt aber große Ergebnisdateien. Um im Endergebnis nach der OCR Verarbeitung möglichst kleine PDF Dateien zu erzeugen kann die PDFCompressor Verarbeitung dem OCR Vorgang nachgelagert werden um z.b. die Auflösung der Bilder auf z.b. 150dpi zu verringern. Damit kann eine gute OCR Erkennung bei möglichst kleinen Ausgabedateien erreicht werden. 150dpi bietet ausreichende Lesbarkeit, wäre aber für die OCR Erkennung zu gering. Der PDFCompressor ist für AutoOCR als Option verfügbar.

  • PDF Infofelder: Die PDF Infofelder stehen jetzt auch unabhängig von der PDF/A Funktion über einen eigenen Tab in allen AutoOCR Varianten zur Verfügung.

  • Archiv-Ordner Konfiguration: Für die Archiv-Ordnerkonfiguration stehen neue Variablen für Datum und Zeit zur Verfügung.

Download – AutoOCRLight – Low Cost OCR Server (ca. 410MB) >>>
Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>

AutoOCR-CS-FM – Ordnerüberwachung für AutoOCR über Web-Service

AutoOCR-CS-FM ist eine für den AutoOCR Server kostenlos verfügbare Folder-Monitoring Zusatzanwendung. AutoOCR-CS-FM ermöglicht die Konvertierung von Image-PDF, TIF/TIFF, JPG/JPEG, PNG, BMP, GIF in durchsuchbare PDF bzw. PDF/A Dateien. Dabei werden Eingangsorder (auch mehrerer) bzw. ganze Ordnerstrukturen überwacht, neu hinzukommende Dateien werden erkannt, verarbeitet und in einem konfigurierten Ausgangsordner abgelegt. Die Kommunikation mit dem AutoOCR Server erfolgt mittels http/https über die AutoOCR Web-Service Schnittstelle. Der AutoOCR Server kann lokal, im gleichen Netzwerk oder über eine Internet Verbindung angesprochen werden.

Funktionen AutoOCR-CS-FM:

  • Kostenlose Folder-Monitoring Anwendung für AutoOCR um aus Image-PDF, TIF/TIFF, JPG/JPEG, PNG, BMP, GIF über OCR durchsuchbare PDF(/A)  zu erzeugen.
  • MS-Windows Dienst.
  • Verarbeitung erfolgt per SOAP Web-Service auf einem (Remote) AutoOCR Server über http/https.
  • Überwacht ganze Ordner/Ordnerstrukturen (auch mehrere), neu hinzukommende Dateien werden erkannt, verarbeitet und im Ausgangsfolder als durchsuchbares PDF bzw. PDF/A abgespeichert.
  • Steuerung der Verarbeitungs-Parameter über Auswahl eines am AutoOCR Server hinterlegten OCR Profils.
  • Paralleler mehrfach Up/Download zum AutoOCR Server für optimalen Durchsatz konfigurierbar.

    

Download – AutoOCR-CS-FM – Folder-Monitoring für AutoOCR über Web-Service >>>

AutoOCR-CL – OCR Kommandozeilen Anwendung, erzeugt durchsuchbare PDF bzw. PDF/A

AutoOCR gibt es jetzt auch als CL Kommandozeilen Version. Damit lassen sich PDF-Image und andere Bilddateien (TIFF, JPEG, PNG, BMP, GIF) bzw. ganze Ordner und Ordnerstrukturen über einen Kommandozeilen Aufruf in durchsuchbare PDF konvertieren. Zusätzlich gibt es die Option PDF/A Dateien über die Integration unseres PDF2PDFA Konverter Komponente sowie über die PDFCompressor Komponente möglichst kleine und hoch komprimierte PDF´s zu erzeugen. Die PDF/A und PDFCompressor Funktionen können über Lizenzoptionen zusätzlich freigeschaltet werden. Neben der Standard iOCR Engine steht auf den Client-Betriebssystemen Windows 7 /10 optional auch die OmniPage OCR Engine zur Verfügung welche im Setup bereits enthalten ist. 

Funktionen AutoOCR-CL:

  • Kommandozeilen OCR Anwendung.
  • Konvertiert PDF-Image, TIFF, JPEG, PNG, BMP, GIF Dateien in durchsuchbare PDF(/A).
  • Verarbeitet – Einzeldateien, Ordner, Ordnerstrukturen oder Datei/Ordnerlisten aus TXT Dateien.
  • Benutzeroberfläche um OCR Verarbeitungs- / Einstellungs-Profile anzulegen und zu verwalten.
  • Standard – iOCR Engine bzw. Optional auf Client-Betriebssystemen – OmniPage OCR.
  • Optional – PDF2PDFA Konverter um PDF/A-1, 2, 3 Dateien zu erzeugen.
  • Optional – PDFCompressor um kleine und hoch komprimierte PDF´s zu erzeugen.

   

Download – AutoOCR-CL –  Kommandozeilen Anwendung für AutoOCR >>>
Download – Readme / Help – AutoOCR-CL >>>

AutoOCR-CS-CL – Kommandozeilen Anwendung für AutoOCR über Web-Service

AutoOCR-CS-CL ist eine für den AutoOCR Server kostenlos verfügbare Kommandozeilen Zusatzanwendung. AutoOCR-CS-CL ermöglicht die Konvertierung von Image-PDF, TIF/TIFF, JPG/JPEG, PNG, BMP, GIF in durchsuchbare PDF bzw. PDF/A Dateien. Die Kommunikation mit dem AutoOCR Server erfolgt mittels http/https über die AutoOCR SOAP Web-Service Schnittstelle. Der AutoOCR Server kann lokal, im gleichen Netzwerk oder über eine Internet Verbindung angesprochen werden.

Funktionen AutoOCR-CS-CL:

  • Kostenlose Kommandozeilen Anwendung für AutoOCR um aus Image-PDF, TIF/TIFF, JPG/JPEG, PNG, BMP, GIF über OCR durchsuchbare PDF(/A)  zu erzeugen.
  • Verarbeitung erfolgt per SOAP Web-Service auf einem (Remote) AutoOCR Server über http/https.
  • Verarbeitet einzelne Dateien, ganze Ordner/Ordnerstrukturen sowie Listen von Dateien / Ordnern aus TXT Dateien.
  • Auswahl der Verarbeitungs-Parameter über Angabe eines am AutoOCR Server hinterlegten OCR Profils.
  • Paralleler mehrfach Up/Download zum AutoOCR Server für optimalen Durchsatz konfigurierbar.

   

Download – AutoOCR-CS-CL –  Kommandozeilen Anwendung für AutoOCR über Web-Service >>>
Download – Readme / Help – AutoOCR-CS-CL  >>>

Neue OmniPage OCR Engine für AutoOCR & AutoOCRLight ab 2.0.7

Vorteile der OmniPage OCR:

  • Erkennungsgenauigkeit auf höchstem Niveau auch bei schwierigen Dokumenten
  • Schnellste OCR Verarbeitung – wesentlich schneller und performanter als alles was wir bisher getestet und implementiert haben. 1-2 Sekunden um ein durchsuchbares PDF pro Seite zu erzeugen sind möglich.
  • Kostengünstig – 25.000 Seiten Lizenz mit geringeren Lizenzkosten als die bisherige 10.000 Seiten Abbyy Lizenz
  • Einfacheres Freischalten der (Demo)Lizenz – Die OmniPage OCR Engine kann über unseren Lizenzserver inkl. 30 Tage Demoversion zusammen mit der Basisanwendung aktiviert werden.

Zu beachten ist dass die OmniPage OCR Engine aus lizenzrechtlichen Gründen nur auf Client Betriebssystemen – Windows 7 / 10  nicht jedoch auf Microsoft Server 2008, 2012, 2016 oder 2019 installiert werden kann. Das Setup lässt sich nur unter Windows 7 / 10  ausführen. Hinsichtlich Performance und Stabilität ist das kein Nachteil. OCR Prozesse sind rechenintensiv und sollten für einen optimalen Durchsatz auf einer eigenen Hardware (z.b. Intel NUC) mit möglichst vielen CPU Cores und SSD Disk ausgeführt werden.

Die OmniPage OCR Engine kann für AutoOCR bzw. AutoOCRLight ab der Version 2.0.7 als Option zusätzlich zur iOCR (Tesseract OCR) lizenziert werden und ist im AutoOCR Setup bereits enthalten. Für AutoOCRLight kann die OmniPage OCR separat heruntergeladen und installiert werden.

Download – OmniPage OCR Engine als Option für AutoOCRLight (ca. 235MB) >>>

Download – AutoOCRLight – Low Cost OCR Server (ca. 410MB) >>>

Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>

AutoOCR / AutoOCR light 2.0 – iOCR Neuerungen

Neuerungen der AutoOCR / AutoOCR light Version 2.0:

  • Die iOCR Standard OCR Komponente von AutoOCR / AutoOCR light basiert jetzt auf der neuen Tesseract OCR Version 4.0.
  • Mehrere Sprachen können für die OCR Erkennung ausgewählt werden.
  • Zusätzliche Option zur Auswahl der OCR Genauigkeit/Geschwindigkeit.

  • Konfigurierbarer Parameter für das Teilen von Dokumenten in kleinere Einzeldokumente um Dokumente mit großer Seitenzahl mit geringen / begrenzten Speicherressourcen verarbeiten zu können.

  • Bedingte OCR Verarbeitung – über Dateiformat, Seitenzahl, Seitenformat – Breite / Höhe in mm oder Pixel, Auflösung, Dateigröße und Farbtiefe  – für Ordnerüberwachung und für die Web-Service Verarbeitung konfigurierbar. Damit kann pro Datei-Format über Kriterien gesteuert werden – ob eine OCR Verarbeitung oder eine Konvertierung in ein PDF-Image erfolgen bzw. ob die OCR Verarbeitung solcher Dateien geblockt werden soll. Damit kann verhindert werden dass die OCR Verarbeitung durch „sinnlose“ Verarbeitungen blockiert wird. z.b. falls große JPEG Fotos in den OCR Verarbeitungsprozess gelangen und die Schrifterkennung dabei keinen Sinn macht.

  

Weitere Informationen zu den AutoOCR / AutoOCR light – iOCR Erweiterungen siehe hier >>>

Download – AutoOCR – OCR Server (ca. 410MB) >>>

Download – AutoOCRLight – Low Cost OCR Server (ca. 410MB) >>>
Für das Update der AutoOCR light Version 1.x auf 2.x ist eine neue Lizenz erforderlich.

Ordnerüberwachung – „Datei-System Event“ / „Blockweise Verarbeitung“

Bei Anwendungen zu Überwachung von Ordnern – z.b. AutoOCR / AutoOCRlight usw. gibt es Optionen die festlegen wie die Dateien zur Verarbeitung aus den Ordnern erkannt werden und wann deren Verarbeitung gestartet wird.

Datei-System Event:

Dabei wird eine Betriebssystem Funktion genutzt um Änderungen an Dateien sowie neue Dateien in einem Ordner / Ordnerstruktur zu erkennen und um die Verarbeitung unmittelbar zu starten. Diese Option sollte nur für lokale Ordner/Ordnerstrukturen, nicht jedoch für die Verarbeitung von Netzwerkfreigaben verwendet werden.

Blockweise Verarbeitung:

Dabei wird der Ordner „blockweise“ eingelesen. d.h. es werden immer Blöcke in der eingestellten max. Anzahl von Dateien eingelesen und verarbeitet. Nach der Verarbeitung eines „Blocks“ startet der nächste „Block“ usw. bis alle Dateien abgearbeitet sind. Falls keine weiteren Dateien gefunden werden so wird der Ordner danach alle 10msek. nach neuen Dateien abgefragt. Die „blockweise Verarbeitung“ sollte für die Ordnerüberwachung von Netzwerklaufwerken verwendet werden.

Start der Verarbeitung / Verzögerter Start:

Der Start der Verarbeitung einer neu erkannten Datei erfolgt normalerweise sofort, jedoch kann es auch Gründe geben um die Verarbeitung verzögert zu starten. Für jeden überwachten Ordner gibt es eine Einstellung um den Start der Verarbeitung um x Sek. zu verzögern. Dabei wird zuerst die eingestellte Zeit in Sek. gewartet und erst dann wird die Verarbeitung gestartet – siehe auch >>> – Nach Ablauf der Verzögerung werden die zu verarbeitenden Dateien geprüft ob diese bereits frei und nicht Read-only  sind. Dabei wird nochmals max. 10sek. auf die Freigabe der Datei gewartet.

AutoOCR Version 1.17.2 – Neue Funktion – Leere Seiten löschen

Mit der AutoOCR Version 1.17.2 gibt es eine Option um vor der OCR Verarbeitung leere Seiten zu löschen. Die Erkennung einer Seite als „Leer“ erfolgt über einen eingestellten Schwellwert. Der voreingestellte Standardwert beträgt 1% – Eine Seite wird in dem Fall als „leer“ erkannt falls weniger als 1% der Pixel einer Seite „nicht weiß“ sind.  Dieser Wert muss gegebenenfalls an die zu verarbeitenden Scans angepasst werden da bei Scans mit Verunreinigungen es auch sein kann dass eine leere Seite „mehr Pixel“ aufweist und bestimmte Seiten dann nicht als leer erkannt werden. Wird der Schwellwert jedoch zu hoch eingestellt so kann es sein dass Seiten mit wenig Inhalt auch als leer erkannt und damit gelöscht werden.

Download – AutoOCR – OCR Server (ca. 140MB) >>>

AutoOCR Version 1.17.2 – Neue iOCR Option – PDF Schriften nicht oder nur teilweise einbetten

Bisher wurden in die erstellten PDF´s immer die verwendete Schrift komplett eingebettet. Das hat dazu geführt dass speziell Eingangsdateien mit einer Seite immer recht große PDF Ausgabedateien erzeugt haben. Da jedoch die über AutoOCR erzeugten PDF´s ein Image zur Anzeige im Vordergrund verwenden und keine Schriften zur Darstellung benötigen haben wir das geändert. Standardmäßig werden jetzt mit iOCR keine PDF Schriften eingebettet. Es gibt die Option nur den verwendeten Teil der Schriften einzubetten. Somit werden speziell bei Dokumenten die nur aus einer oder wenigen Seiten bestehen wesentlich kleinere PDF Dateien ohne eingebettete Schriften erzeugt.

Download – AutoOCR – OCR Server (ca. 140MB) >>>

AutoOCR Version 1.16.1 – Neue Option – Verzögerter Start der Verarbeitung

In die Version 1.16.1 wurde eine Option implementiert die es ermöglicht die Verarbeitung pro überwachtem Ordner verzögert zu starten.  Diese Option wird speziell für  Multifunktionsgeräte (MFP) benötigt welche die PDF oder Imagedatei direkt in einen von AutoOCR überwachten Ordner scannen bzw. dorthin kopieren.

Bestimmte MFP Geräte erzeugen gleich zu Beginn des Scanvorgangs eine Datei mit 0-Byte und „füllen“ diese dann entweder schrittweise mit Daten oder sammeln die Scans lokal auf dem Gerät um die fertige Gesamtdatei dann am Ende wieder in das Zielverzeichnis zu kopieren.  Dieser Vorgang kann je nach Datenvolumen, Anzahl der Seiten bzw. Geschwindigkeit der Datenverbindung einige Sekunden oder auch 10 Minuten und mehr dauern.

Bisher, sowie falls die Startverzögerung nicht aktiviert (Parameter = 0) wird startet AutoOCR mit der Verarbeitung sofort, sobald eine Datei angelegt wird. Ist jedoch die Datei noch nicht komplett bzw. für die Verarbeitung noch nicht bereit so kommt es in kurzen Zeitabständen, bei jedem Zugriffs- und Verarbeitungsversuch von AutoOCR zu eine Fehlermeldung im Log bzw. zu einer Fehler-EMail. Es kann auch zu internen Abstürzen der OCR Verarbeitung kommen was wieder Fehlermeldungen, Verarbeitungswiederholungen sowie Verschieben der Eingangs-Datei in den Fehler-Ordner auslöst.

Über diesen Parameter kann pro Ordner konfiguriert werden um wie viele Sekunden (0 bis 999) der Start der Verarbeitung verzögert erfolgen soll. Es muss also ein Wert gefunden der den Anforderungen entspricht.

Download – AutoOCR – OCR Server (ca. 140MB) >>>

Webshop