Kategorie: AutoOCRLight

AutoOCR & AutoOCR light Version 2.0.41

Neuerungen AutoOCR & AutoOCR light 2.0.41:

  • Ziel-Dateiname /-Ordner über Variablen: Für den Ausgabedateiname und für den Ausgabeordner können jetzt auch einige Variablen verwendet werden. Die Konfiguration erfolgt in Feld für Ausgabe Dateinamen. Durch Verwendung von „\“ kann in dem Feld auch eine Ordnerstruktur angegeben werden, die unter dem ausgewählten Ausgabe Startordner angelegt wird.

  • Ausscheiden von PDF die bereits Text enthalten:  Durch die „intelligente“ OCR Verarbeitung kann zwar erkannt werden ob ein PDF eine OCR Verarbeitung erfordert oder nicht, dabei werden aber immer alle PDF aus den überwachten Eingangsordnern verarbeitet und im Zielordner ausgegeben. Will man aber nur PDF´s ausgeben die wirklich eine OCR Verarbeitung erfordern, so war diese Unterscheidung bisher nicht möglich. Durch  diese neue Option werden nur jene PDF im Ausgabefolder ausgegeben die wirklich OCR verarbeitet wurden. Alle anderen PDF´s werden je nach Konfiguration aus dem Eingangsfolder z.B,: gleich direkt in den Archivfolder verschoben und landen daher nicht im Ausgabefolder.

  • Defekten Text im PDF erkennen und korrigieren: Es kommt vor dass PDF zwar Text enthalten, dieser jedoch „defekt“ ist. Das Problem liegt in einer fehlerhaften Erstellung des PDF. Dabei werden Texte / Schriften falsch oder unvollständig codiert. Oft tritt das Problem auch auf falls ein bestehende PDF, aus einem Anzeigeprogramm, nochmals über eine PDF Druckertreiber ausdruckt wird um daraus wieder ein PDF zu generieren.

In diesem Fall kann man zwar den Text im PDF markieren und kopieren, der extrahierte Text ist jedoch nicht brauchbar und enthält nur Sonderzeichen und Hieroglyphen. Solche PDF´s können nicht sinnvoll weiterverarbeitet werden. Es können keine Informationen aus dem PDF gewonnen werden, das PDF kann nicht durchsucht werden und über Volltextsuche oder Suchmaschinen wird das Dokument nicht gefunden. Von außen kann das nicht erkannt werden. Das PDF kann ohne Fehlermeldung geöffnet, angesehen und ausgedruckt werden.

Die einzige Möglichkeit um solche PDF wieder herzustellen und den Text richtig zu codieren besteht durch OCR. Dabei wird das PDF bzw. nur die betroffene Seite „gerendert“ und der Text über die OCR Verarbeitung neu erzeugt.

AutoOCR Version Version  2.0.41 bietet diese Möglichkeit sowohl für die iOCR als auch für die OmniPage OCR-Engine. Dabei kann für jede Seite des PDF´s herausgefunden werden ob diese „defekten“ Text enthält oder nicht. Wird eine solche Seite erkannt so wird der Text über die OCR Funktion neu erzeugt, Seiten mit korrektem Text werden keiner weiteren OCR Verarbeitung unterzogen.

 

Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>
Download – AutoOCR light – Low Cost OCR Server (ca. 410MB) >>>
Download – iOCR (vsOCR) Setup – zusätzliche Sprachen (ca. 1200MB) >>>

AutoOCR & AutoOCR light Version 2.0.36

Neuerungen AutoOCR & AutoOCR light 2.0.36:

  • iOCR – Bilder unverändert erhalten: Ist diese neue Standardoption aktiv, so wird das PDF nur intern für den OCR Vorgang gerendert. Das Ursprungs-PDF und die darin enthaltenen Bilder werden 1:1 in das zu erzeugende PDF übernommen. Durch den OCR Vorgang wird nur der erkannte Text eingefügt. Die Bilder bleiben hinsichtlich ihrer Auflösung, Farbtiefe und Komprimierung unverändert erhalten.

Das hat insofern auch Bedeutung da viele MFP-Scanner bereits in der Lage sind hoch optimierte und sehr kompakte PDF Farbscans über MRC (Mixed Raster Content) zu erzeugen. Dabei werden Farbdokumente bereits durch den Scanner in unterschiedliche Ebenen aufgeteilt. Jede Bildebene wird je nach Farbtiefe mit einer andere Auflösung und mit der bestmöglichen Komprimierung erzeugt. Werden solche MRC PDF Dateien nochmals gerendert werden so geht die MRC Datenstruktur verloren. Die Ergebnisdatei wäre größer und würde an Qualität verlieren.

  • Installiert und verwendet die iOCR / vsOCR – Version 1.1.6 mit dem Basisset der in Europa gebräuchlichsten Sprachen.

  • Über ein zusätzliches iOCR / vsOCR Setup (1,2GB groß) können alle von iOCR unterstützte Sprachen installiert werden.

 

  • Aktualisierung der AutoOCR Basiskomponente – iOCR, ImageProcessing, PDFCompressor, PDF2PDFA auf den aktuellen Stand.
  • Neue Voreinstellungen bei der JPEG2000 Komprimierung – für PDF-Rendering / ImageProcessing / PDFCompressor – um möglichst kleine PDF Dateien ohne große Einbußen hinsichtlich der Darstellungsqualität zu erzeugen.
    • Hohe / Mittlere / Geringe – Komprimierung
    • Farbe – 1:60 / 1:30 / 1:15
    • Graustufen – 1:30 / 1:15 / 1:13

Je höher der Wert – desto höher ist auch die Komprimierung, womit um so kleinere Dateien, mit jedoch auch abnehmender Bildqualität erzeugt werden. Als Standardwert ist die „Mittlere“ Komprimierung voreingestellt.

Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>
Download – AutoOCR light – Low Cost OCR Server (ca. 410MB) >>>
Download – iOCR (vsOCR) Setup – zusätzliche Sprachen (ca. 1200MB) >>>

AutoOCR & AutoOCR light Version 2.0.30 – JPEG2000 Komprimierung erzeugt kompakte PDF Dateien

Farbscans erzeugen meist recht große Dateien, Bei 300dpi, Farbe werden bei der JPEG Komprimierung ca. 300kB an Speicherplatz pro Seite benötigt. Um möglichst kleine, kompakte PDF-Ausgabedateien zu erzeugen wurde für AutoOCR / iOCR die JPEG2000 Komprimierung verbessert und um einen zusätzlichen Parameter erweitert. Durch diese JPEG2000 Komprimierung lässt sich die Größe der im PDF enthaltenen Farbbilder erheblich reduzieren womit die durchsuchbaren PDF-Dateien wesentlich kleiner werden.  Die JPEG2000 Komprimierung hat keinen Einfluss auf die OCR Erkennungsrate.

Bei JPEG2000 steht die „verlustfreie“ als auch die „verlustbehaftete“ Komprimierung zur Verfügung. Normalerweise sollte man um kleine Dateien zu erzeugen die „lossy“ (verlustbehaftete) JPEG2000 Komprimierung verwenden – Dabei gibt es einen zusätzlichen Parameter (Verh.: 1 bis 999) mit dem die Komprimierungsrate und damit die Größe und visuelle Qualität gesteuert werden kann.

In der nachfolgenden Tabelle wurde ein Test mit verschiedenen Einstellungen für die JPEG / JPEG2000 Komprimierung gemacht um zu sehen welche Auswirkungen diese Parameter auf die PDF Dateigröße haben. Als Ausgangsdatei wurde ein Scan, 300dpi, 24Bit Farbe, JPEG Komprimierung, 7 Seiten mit 2082kB, verwendet.

Daran kann man erkennen dass man mit JPEG2000 je nach Parameter eine Reduktionen der Dateigröße zwischen 30 und 80% erreichen kann.

  • JPEG2000 / lossy / 75-100 = Hohe Qualität / größere Dateien – 32-49% Reduktion
  • JPEG2000 / lossy / 125-150 = Mittlere Qualität / mittlere Dateigröße – 59-65% Reduktion
  • JPEG2000 / lossy / 200 – 250 = Niedere Qualität / kleine Dateien- 74-79% Reduktion

Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>
Download – AutoOCR light – Low Cost OCR Server (ca. 410MB) >>>

AutoOCR – Allgemeine Übersicht – Produktvideo

Neues Video für AutoOCR – Allgemeine Übersicht über die Funktionen und Verarbeitung:

Deutsch, Englisch

  • Ordner konfigurieren (Eingang, Ausgang, Archiv, Fehler)
  • Engine auswählen
  • PDF/A Option
  • Service Account (Netzwerk-Ressourcen)
  • Verarbeitungsoptionen (Aktionen, Ordner Überwachung)
  • Web-Service Option
  • Protokoll/Log

AutoOCR / AutoOCR light Version 2.0.15

Neuerungen AutoOCR Version 2.0.15:

  • Neue Funktionen / Tabs für „Bildverarbeitung“, „PDF Infofelder“, „PDF/A“ und „PDF Compressor“

  • Image Processing: Die Image Processing Funktionen wurden wesentlich erweitert und stehen außerhalb der OCR Engines zur Verfügung. Damit können die Scans vor der OCR Erkennung noch optimiert und verbessert werden, um die Erkennungsgenauigkeit zu erhöhen und die Bildqualität zu verbessern. Image Processing ist auch Bestandteil von AutoOCR light.

 

Bildverarbeitungs Funktionen:

    • Mehrere Funktionen können in einer vorgegebenen Reihenfolge hintereinander ausgeführt werden.
    • Die ausgewählten Funktionen, deren Parameter und Verarbeitungsfolge werden über Profile verwaltet.
    • Profilfunktionen: Neu, Kopieren, Löschen, Umbenennen, In Datei exportieren, Aus Datei importieren.
    • Option um PDF-Scans / Seiten nur mit Bildinformation bzw. alle PDF Seiten zu verarbeiten.
    • Laden einer Musterseite und Test der Bildverarbeitungsbefehle mit Voransicht der Ausgangs- und Ergebnisdatei.

Einzelfunktionen der Bildverarbeitung:

    • Leerseiten erkennen und entfernen.
    • Seiten automatisch drehen
    • Seiten gerade ausrichten
    • Bilder invertieren (schwarz nach weiß)
    • Schwarzen Rand entfernen
    • Rand beschneiden
    • Verunreinigungen entfernen
    • Lochungen entfernen
    • Linien entfernen
    • Farbe / Graustufen nach Schwarz/Weiß konvertieren
  • PDFCompressor integriert: Damit können die durch den OCR Vorgang erzeugten PDF Dateien optimiert und auf ein Minimum komprimiert werden. Als Input für die OCR Verarbeitung sollte immer ein möglichst guter Scan mit entsprechend hoher Qualität und Auflösung (300dpi bei Schwarz/Weiß und 200-300dpi Farbe) verwendet werden. Das ist gut für die OCR Erkennung, erzeugt aber große Ergebnisdateien. Um im Endergebnis nach der OCR Verarbeitung möglichst kleine PDF Dateien zu erzeugen kann die PDFCompressor Verarbeitung dem OCR Vorgang nachgelagert werden um z.b. die Auflösung der Bilder auf z.b. 150dpi zu verringern. Damit kann eine gute OCR Erkennung bei möglichst kleinen Ausgabedateien erreicht werden. 150dpi bietet ausreichende Lesbarkeit, wäre aber für die OCR Erkennung zu gering. Der PDFCompressor ist für AutoOCR als Option verfügbar.

  • PDF Infofelder: Die PDF Infofelder stehen jetzt auch unabhängig von der PDF/A Funktion über einen eigenen Tab in allen AutoOCR Varianten zur Verfügung.

  • Archiv-Ordner Konfiguration: Für die Archiv-Ordnerkonfiguration stehen neue Variablen für Datum und Zeit zur Verfügung.

Download – AutoOCRLight – Low Cost OCR Server (ca. 410MB) >>>
Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>

Neue OmniPage OCR Engine für AutoOCR & AutoOCRLight ab 2.0.7

Vorteile der OmniPage OCR:

  • Erkennungsgenauigkeit auf höchstem Niveau auch bei schwierigen Dokumenten
  • Schnellste OCR Verarbeitung – wesentlich schneller und performanter als alles was wir bisher getestet und implementiert haben. 1-2 Sekunden um ein durchsuchbares PDF pro Seite zu erzeugen sind möglich.
  • Kostengünstig – 25.000 Seiten Lizenz mit geringeren Lizenzkosten als die bisherige 10.000 Seiten Abbyy Lizenz
  • Einfacheres Freischalten der (Demo)Lizenz – Die OmniPage OCR Engine kann über unseren Lizenzserver inkl. 30 Tage Demoversion zusammen mit der Basisanwendung aktiviert werden.

Zu beachten ist dass die OmniPage OCR Engine aus lizenzrechtlichen Gründen nur auf Client Betriebssystemen – Windows 7 / 10  nicht jedoch auf Microsoft Server 2008, 2012, 2016 oder 2019 installiert werden kann. Das Setup lässt sich nur unter Windows 7 / 10  ausführen. Hinsichtlich Performance und Stabilität ist das kein Nachteil. OCR Prozesse sind rechenintensiv und sollten für einen optimalen Durchsatz auf einer eigenen Hardware (z.b. Intel NUC) mit möglichst vielen CPU Cores und SSD Disk ausgeführt werden.

Die OmniPage OCR Engine kann für AutoOCR bzw. AutoOCRLight ab der Version 2.0.7 als Option zusätzlich zur iOCR (Tesseract OCR) lizenziert werden und ist im AutoOCR Setup bereits enthalten. Für AutoOCRLight kann die OmniPage OCR separat heruntergeladen und installiert werden.

Download – OmniPage OCR Engine als Option für AutoOCRLight (ca. 235MB) >>>

Download – AutoOCRLight – Low Cost OCR Server (ca. 410MB) >>>

Download – AutoOCR – OCR Server inkl. OmniPage OCR (ca. 640MB) >>>

AutoOCR / AutoOCR light 2.0 – iOCR Neuerungen

Neuerungen der AutoOCR / AutoOCR light Version 2.0:

  • Die iOCR Standard OCR Komponente von AutoOCR / AutoOCR light basiert jetzt auf der neuen Tesseract OCR Version 4.0.
  • Mehrere Sprachen können für die OCR Erkennung ausgewählt werden.
  • Zusätzliche Option zur Auswahl der OCR Genauigkeit/Geschwindigkeit.

  • Konfigurierbarer Parameter für das Teilen von Dokumenten in kleinere Einzeldokumente um Dokumente mit großer Seitenzahl mit geringen / begrenzten Speicherressourcen verarbeiten zu können.

  • Bedingte OCR Verarbeitung – über Dateiformat, Seitenzahl, Seitenformat – Breite / Höhe in mm oder Pixel, Auflösung, Dateigröße und Farbtiefe  – für Ordnerüberwachung und für die Web-Service Verarbeitung konfigurierbar. Damit kann pro Datei-Format über Kriterien gesteuert werden – ob eine OCR Verarbeitung oder eine Konvertierung in ein PDF-Image erfolgen bzw. ob die OCR Verarbeitung solcher Dateien geblockt werden soll. Damit kann verhindert werden dass die OCR Verarbeitung durch „sinnlose“ Verarbeitungen blockiert wird. z.b. falls große JPEG Fotos in den OCR Verarbeitungsprozess gelangen und die Schrifterkennung dabei keinen Sinn macht.

  

Weitere Informationen zu den AutoOCR / AutoOCR light – iOCR Erweiterungen siehe hier >>>

Download – AutoOCR – OCR Server (ca. 410MB) >>>

Download – AutoOCRLight – Low Cost OCR Server (ca. 410MB) >>>
Für das Update der AutoOCR light Version 1.x auf 2.x ist eine neue Lizenz erforderlich.

Ordnerüberwachung – „Datei-System Event“ / „Blockweise Verarbeitung“

Bei Anwendungen zu Überwachung von Ordnern – z.b. AutoOCR / AutoOCRlight usw. gibt es Optionen die festlegen wie die Dateien zur Verarbeitung aus den Ordnern erkannt werden und wann deren Verarbeitung gestartet wird.

Datei-System Event:

Dabei wird eine Betriebssystem Funktion genutzt um Änderungen an Dateien sowie neue Dateien in einem Ordner / Ordnerstruktur zu erkennen und um die Verarbeitung unmittelbar zu starten. Diese Option sollte nur für lokale Ordner/Ordnerstrukturen, nicht jedoch für die Verarbeitung von Netzwerkfreigaben verwendet werden.

Blockweise Verarbeitung:

Dabei wird der Ordner „blockweise“ eingelesen. d.h. es werden immer Blöcke in der eingestellten max. Anzahl von Dateien eingelesen und verarbeitet. Nach der Verarbeitung eines „Blocks“ startet der nächste „Block“ usw. bis alle Dateien abgearbeitet sind. Falls keine weiteren Dateien gefunden werden so wird der Ordner danach alle 10msek. nach neuen Dateien abgefragt. Die „blockweise Verarbeitung“ sollte für die Ordnerüberwachung von Netzwerklaufwerken verwendet werden.

Start der Verarbeitung / Verzögerter Start:

Der Start der Verarbeitung einer neu erkannten Datei erfolgt normalerweise sofort, jedoch kann es auch Gründe geben um die Verarbeitung verzögert zu starten. Für jeden überwachten Ordner gibt es eine Einstellung um den Start der Verarbeitung um x Sek. zu verzögern. Dabei wird zuerst die eingestellte Zeit in Sek. gewartet und erst dann wird die Verarbeitung gestartet – siehe auch >>> – Nach Ablauf der Verzögerung werden die zu verarbeitenden Dateien geprüft ob diese bereits frei und nicht Read-only  sind. Dabei wird nochmals max. 10sek. auf die Freigabe der Datei gewartet.

AutoOCRLight Version 1.17.2 verfügbar

Da AutoOCR und AutoOCRLight auf der gleichen Basis aufbauen ist jetzt zusammen mit der AutoOCR Version 1.17.2 auch AutoOCRLight Version 1.17.2 verfügbar. Die „Light“ Version unterscheidet sich von der AutoOCR Vollversion durch folgende Einschränkungen:

  • Nur ein Ordner kann überwacht werden
  • Es kann nur die iOCS / vsOCR und nicht auch die Abbyy OCR verwendet werden
  • Es ist keine PDF/A Ausgabe möglich
  • Die Light Version verfügt über keine Web-Service (REST / SOAP) Schnittstelle

Alle anderen Funktionen sind gleich wie beim Standard AutoOCR Server

Download – AutoOCRLight – Low Cost OCR Server >>>

iOCR / vsOCR Setup geteilt in Standard- und zusätzliche Sprachen

Das iOCR / vsOCR Setup das die Sprach- und Wörterbuchdaten unserer Standard-OCR Engine enthält ist insgesamt über 270MB groß. Um die Downloads und die Setup´s kleiner zu machen haben wir uns entschieden das iOCR / vsOCR in ein „Basis“ und ein „zusätzliches Setup“ zu teilen. Das Basis-Setup das über unsere Anwendungen z.b. AutoOCR, FileConverterPro oder PDFmdx installiert wird enthält jetzt nur mehr eine Auswahl an wichtigen europäischen Sprachen und wurde damit auf  127MB reduziert.

Sollen alle verfügbaren Sprachen installiert werden so ist das jederzeit möglich. Die zusätzlich verfügbaren „exotischen Sprachen“ lassen sich über ein eigenes Setup nachinstallieren.

iOCR Basis-Sprachen:

Dänisch, Deutsch, Englisch, Finnisch, Französisch, Italienisch, Katalanisch, Neu Griechisch, Holländisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Schwedisch, Slowakisch, Slowenisch, Spanisch, Tschechisch, Türkisch, Ukrainisch, Ungarisch

iOCR Erweiterte Sprachen:

Afrikaanis, Albanisch, Arabisch, Aserbaidschanisch, Bahasa Indonesisch, Bengali, Bulgarisch, Cherokee, Chinesisch – traditionell, Chinesisch – vereinfacht, Estnisch, Fränkisch, Gallisch, Hebräisch, Hindi, Isländisch, Japanisch, Koreanisch, Kroatisch, Lettisch, Litauisch, Mazedonisch, Malaiisch, Serbisch, Swahili, Tagalog, Tamil, Telugu, Thailändisch, Vietnamese, Weißrussisch

Download – iOCR (vsOCR) Setup – Basis Sprachen (ca. 127MB) >>>

Download – iOCR (vsOCR) Setup – zusätzliche Sprachen (ca. 200MB) >>>

 

Webshop