Kategorie: AutoOCR

iOCR / vsOCR Setup geteilt in Standard- und zusätzliche Sprachen

Das iOCR / vsOCR Setup das die Sprach- und Wörterbuchdaten unserer Standard-OCR Engine enthält ist insgesamt über 270MB groß. Um die Downloads und die Setup´s kleiner zu machen haben wir uns entschieden das iOCR / vsOCR in ein „Basis“ und ein „zusätzliches Setup“ zu teilen. Das Basis-Setup das über unsere Anwendungen z.b. AutoOCR, FileConverterPro oder PDFmdx installiert wird enthält jetzt nur mehr eine Auswahl an wichtigen europäischen Sprachen und wurde damit auf  127MB reduziert.

Sollen alle verfügbaren Sprachen installiert werden so ist das jederzeit möglich. Die zusätzlich verfügbaren „exotischen Sprachen“ lassen sich über ein eigenes Setup nachinstallieren.

iOCR Basis-Sprachen:

Dänisch, Deutsch, Englisch, Finnisch, Französisch, Italienisch, Katalanisch, Neu Griechisch, Holländisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Schwedisch, Slowakisch, Slowenisch, Spanisch, Tschechisch, Türkisch, Ukrainisch, Ungarisch

iOCR Erweiterte Sprachen:

Afrikaanis, Albanisch, Arabisch, Aserbaidschanisch, Bahasa Indonesisch, Bengali, Bulgarisch, Cherokee, Chinesisch – traditionell, Chinesisch – vereinfacht, Estnisch, Fränkisch, Gallisch, Hebräisch, Hindi, Isländisch, Japanisch, Koreanisch, Kroatisch, Lettisch, Litauisch, Mazedonisch, Malaiisch, Serbisch, Swahili, Tagalog, Tamil, Telugu, Thailändisch, Vietnamese, Weißrussisch

Download – iOCR (vsOCR) Setup – Basis Sprachen (ca. 127MB) >>>

Download – iOCR (vsOCR) Setup – zusätzliche Sprachen (ca. 200MB) >>>

 

AutoOCR – Installationsvoraussetzungen ab Version 1.15.3

Bei der AutoOCR Installation ab der Version 1.15.3 werden geänderte Installationsvoraussetzungen geprüft – sind sie erfüllt so werden diese Installationsschritte vom Setup übersprungen und nicht ausgeführt.

Folgende Komponenten werden geprüft und gegebenenfalls nachinstalliert:

Sind diese Komponenten bereits installiert so werden sie nicht nachgeladen und nur AutoOCR wird installiert. Sind alle oder einzelne Komponenten nicht oder nicht in der passenden Version vorhanden so versucht das AutoOCR Setup diese von unserem FTP Server nachzuladen und zu installieren. D.h. falls eine Installation ohne Internet Verbindung gemacht werden soll, so sollten die Setup´s diese Komponenten vorher heruntergeladen und installiert werden.

Die AutoOCR Einstellungen und die Lizenz bleiben bei der Deinstallation / Update auf die neue Version erhalten.

AutoOCR kann mit einer oder mehren unterschiedlichen OCR Engines betrieben werden. Standardmäßig mit dabei ist die iOCR (vsOCR) – Verarbeitung.

Download – AutoOCR – OCR Server (ca. 10MB) >>>

Optional zusätzlich oder auch nur alleine kann die Abbyy OCR für AutoOCR verwendet werden. Dazu muss jedoch ein zusätzliches Abbyy Setup heruntergeladen und installiert werden.  Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – die sie bei uns anfordern können.

Falls nur die Abbyy OCR Engine verwendet werden soll so kann der Download und die Installation von iOCR beim Setup übersprungen werden.

Setup Option - iOCR herunterladen und installieren

Download – Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

 

AutoOCR Version 1.15.3 verfügbar

Neuerungen AutoOCR Version 1.15.3:

  • Neue iOCR Engine – Wir haben die bisherige Standard iOCR Engine durch ein neues Produkt – vsOCR – ersetzt. Dadurch erreichen wir sowohl eine bessere Erkennungsrate, als auch bei Multicore / Multiprozessor Rechnern eine wesentlich bessere Performance. Mit der neuen OCR Engine unterstützen wir jetzt bei  mehrseitigen TIFF und PDF Dokumenten auch eine parallele / multithread Verarbeitung. Damit wird die OCR Verarbeitungsgeschwindigkeit falls z.b. 4 oder 8 Cores zur Verfügung stehen, vervielfacht.

Setup Option - iOCR herunterladen und installieren

  • iOCR – PDF Rendering Auflösung konfigurierbar – Da nur Bild/Imagedokumente per OCR verarbeitet werden können, werden PDF Dokumente vor der OCR-Verarbeitung jedenfalls immer einer Konvertierung in ein Image (Rendering) unterzogen. Es gibt jetzt die Möglichkeit die Rendering-Auflösung für SW und Farbe zu konfigurieren, wobei der Standardwert für SW und Farbe 300dpi beträgt.

iOCR - Option - PDF Rendering resolution for b&w and color

  • Abbyy OCR – neue Standardeinstellungen – Auf Grund der bisherigen Erfahrungen haben wir die Standardeinstellungen neu festgelegt um damit eine bestmögliche Erkennungsrate als auch die höchstmöglich OCR  Performance zu erreichen. Alleine eine einzige Option kann die Verarbeitungsgeschwindigkeit speziell bei mehrseitigen Dokumenten mit viel Text um den Faktor 5 bis 10 oder mehr beeinflussen – Ein 10 seitiges Dokument kann  entweder in 10 sek. oder in 5min. verarbeitet werden je nachdem ob die Option  „Schrift Formatierung erkennen“ aktiviert ist oder nicht.

AutoOCR - Abbyy Standardeinstellungen #1  AutoOCR - Abbyy Standardeinstellungen #2  AutoOCR - Abbyy Standardeinstellungen #3  AutoOCR - Abbyy Standardeinstellungen #4  AutoOCR - Abbyy Standardeinstellungen #5  AutoOCR - Abbyy Standardeinstellungen #6

  • „Entferne schwarzen Rand“ –  wurde als neue allgemeine Bildverarbeitung Funktion für iOCR und Abbyy hinzugefügt. Damit wird bei allen Dokumenten vor der OCR Verarbeitung ein möglicher schwarzer Rand erkannt und entfernt. Die Seitengröße wird nicht verändert.

Neue Option - schwarzen Rand entfernen

  • Reaktion bei ungültiger Lizenz konfigurierbar – Dienst stoppen (Standardwert) oder Demo-Stempel auf das Dokument aufbringen.

Reaktion falls die Lizenz ungültig ist

  • Weitere Anpassungen: Autostart des AutoOCR Userinterfaces – ist jetzt standardmäßig aktiviert. Fehler beim Erzeugen der optionalen TXT Datei mit iOCR wurde behoben.Schreibgeschützte PDF Dokumente erzeugen keine Endlosschleifen bei der Verarbeitung mehr. Der temporäre Abbyy Folder wird jetzt korrekt nach der eingestellten Anzahl von Tagen gelöscht. Sprachspezifische Sonderzeichen werden jetzt bei der Abbyy PDF/A Ausgabe korrekt codiert.

Download – AutoOCR – OCR Server ohne iOCR (vsOCR) Engine (ca. 10MB) >>>

Download – iOCR Basis (vsOCR) Engine (ca. 127MB) >>>

Siehe auch: AutoOCR – Installationsvoraussetzungen ab Version 1.15.3

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download – Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

AutoOCR – Ordner Verarbeitung / Überwachung – was ist zu beachten?

Funktionen – AutoOCR Ordnerverarbeitung / Überwachung:

1.) Verarbeiten von Eingangsordnern / Strukturen: Dabei wird ein Eingangsordner bzw. eine ganze Ordner-Struktur verarbeitet. Die erzeugten PDF Dateien werden in der gleichen Ordnerstruktur mit den gleichen Namen wie die Ursprungsdatei abgelegt. Ein Spezialfall sind jedoch PDF Dateien da es PDF Dateien gibt die keine OCR Verarbeitung benötigen und Andere die eine solche erfordern. Es kann auch vorkommen dass nur bestimmte Seiten einer PDF Datei eine OCR Verarbeitung benötigen.

Um die PDF´s nicht nochmals zu verarbeiten werden die von AutoOCR bereits verarbeiteten Dateien in der Datenstruktur durch ein „Label“ gekennzeichnet.

Beim Start des AutoOCR-Dienstes wird die Ordnerstruktur komplett gescannt um noch nicht verarbeitete Dateien zu identifizieren. Dabei muss jede PDF Datei auf dieses „Label“ hin überprüft werden. Zu beachten ist dass bei umfangreichen Datenbeständen dieser Vorgang entsprechend lange dauert da jede PDF Datei geöffnet und überprüft werden muss.

Verarbeitung von Ordnderstrukturen - Ersetzen der Ursprungsdateien

2.) Datum / Zeit der Ursprungsdatei erhalten: Mit dieser Option kann das Datum und die Uhrzeit der Erstellung, der Änderung und des Letzter Zugriffs von der Ursprungsdatei auf die durch den OCR Vorgang erzeugte PDF Datei übertragen werden. Das PDF-Dokument wird somit ohne Änderung dieser Attribute ersetzt.

Option um die Datums und Uhrzeit der Urspungsdatei zu erhalten

3.) Intelligente OCR Verarbeitung von PDF Dateien: PDF´s können reine Bilddateien ohne Text, „normale“ PDF Dateien die bereits Text enthalten oder aber auch gemischte Dokumente sein. Dabei sind einzelne Seiten gescannte Bilddateien ohne Text und die restlichen Seiten normale PDF Inhalte mit Text. Ohne spezielle Funktionalität würde immer das gesamt PDF Dokument und damit alle Seiten unabhängig vom Inhalt einer OCR Verarbeitung unterzogen werden. Das kostet Zeit, Ressourcen und vergrößert die PDF Dateien unnötig. Deswegen sollte die „intelligente OCR Verarbeitung“ aktiviert werden. Dabei werden nur jene Dokumente und Seiten OCR verarbeitet bei denen es notwendig ist. „Normale“ PDF Dateien werden dabei gar nicht verarbeitet sondern nur mit einem „Label“ – siehe 1.) versehen.

iOCR - Intelligente OCR Verarbeitung  Abbyy - Option intelligente OCR Verarbeitung

4.) Ordnerüberwachung – Datei-System Events / Blockverarbeitung: Ist es gefordert dass die während der laufenden Verarbeitung neu hinzukommende Dateien sofort erkannt und verarbeitet werden so muss die Option „Datei-System Events“ ausgewählt werden. Wurde „Blockverarbeitung“ ausgewählt so werden neu hinzukommende Dateien nicht automatisch erkannt. Die „Blockverarbeitung“ ist speziell für die Erstverarbeitung großer Mengen an Dokumenten vorgesehen. Nach der  Erstverarbeitung sollte dann auf „Datei-System-Events“ umgeschaltet werden damit neu hinzukommende Dateien unmittelbar verarbeitet werden. Wird der AutoOCR-Dienst gestoppt und wieder gestartet so wird zuerst immer die komplette Ordnerstruktur nach noch nicht verarbeiteten Dateien durchsucht.

AutoOCR - Ordnerüberwachung - über Events oder Blockweise

5.) Verarbeiten von Dateien / Ordnern von Netzwerk-Shares: Nach der Installation läuft der AutoOCR-Dienst standardmäßig   als „Lokaler  System Account“. Müssen Dateien und Ordner von Netzwerk-Shares verarbeitet werden so muss ein „User-Account“ angelegt und für den AutoOCR-Dienst verwendet werden der auch über die entsprechenden Rechte verfügt um auf die verwendeten Netzwerk-Shares zugreifen zu dürfen.

AutoOCR - Service Accout Konfiguration

AutoOCR Version 1.11.1 verfügbar

Neuerungen Version 1.11.1:

  • Update auf die aktuellen Versionen unserer Basiskomponenten
  • Datum und Uhrzeit der Ursprungsdatei erhalten – Eine recht einzigartige Funktion von AutoOCR ist die Möglichkeit eine bestehende Ordnerstruktur nach z.b. PDF Dateien zu durchsuchen die noch nicht OCRed wurden und die bestehende PDF Datei durch eine durchsuchbare PDF Datei 1:1 zu ersetzen. Dabei kann es wichtig und gewünscht sein dass die 3 Datums- / Zeitinformationen – Erstellt / Geändert / Letzter Zugriff – der Originaldatei erhalten bleiben und nicht durch die Datums/Zeit-Information der AutoOCR Verarbeitung ersetzt werden. Ist diese Option aktiv so bleibt  die ursprüngliche Datums- und Zeitinformation erhalten.

Option um die Datums und Uhrzeit der Urspungsdatei zu erhalten

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download – Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

AutoOCR Version 1.10.17 verfügbar

Da PDF´s bereits auch Text enthalten können und daher nicht alle Dokumente / Seiten einer OCR Verarbeitung unterzogen werden müssen haben wir die intelligente OCR Verarbeitung implementiert. Bisher stand diese Funktion nur für die PDF Ausgabe zur Verfügung.

Bei der Alfresco Integration kann AutoOCR aber auch für die reine Text Ausgabe konfiguriert werden. Dabei erzeugt AutoOCR nur den für die Alfresco Volltextsuche erforderlichen Text – Mit der AutoOCR Version 1.10.17 steht jetzt die intelligente OCR Verarbeitung nicht nur für die PDF, sondern auch für die reine Text Ausgabe zur Verfügung. Es werden also nur PDF Image Dateien einer OCR Verarbeitung unterzogen.  Bei normalen PDF´s wird der Text direkt ohne OCR Verarbeitung extrahiert. Das spart Zeit und Ressourcen.

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download – Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

DropOCR – Version 1.3.2 verfügbar

Mit der DropOCR Version 1.3.2 wurde das parallele Upload sowie die Kommunikation mit dem AutoOCR Server komplett überarbeitet. Damit wurden Unzulänglichkeiten der vorhergegangenen Version behoben. Speziell bei umfangreichen Dokumenten mit vielen Seiten, langen Verarbeitungszeiten und bei einer großen Zahl an zu verarbeitenden Dokumenten ist es zu Problemen mit der Verarbeitung gekommen – es wurde nicht alle Dokumente verarbeitet, es wurden Fehler registriert die nicht vorhanden waren, bzw. ist es zu Abbrüchen bei der Kommunikation mit dem AutoOCR Server gekommen. Alle diese Probleme wurden jetzt mit der Version 1.3.2 behoben.

DropZone & DropOCR icon tray context menu  DropOCR - Konfiguration

Download – DropOCR >>>

OwnCloud Integration für FileConverterPro und AutoOCR verfügbar

OwnCloud ist die populärste und weit verbreitetste OpenSource Cloud Software die sowohl Privat- als auch Public-Clouds eingesetzt wird. OwnCloud ist sowohl in einer OpenSource (Community Edition) als auch in einer erweiterten Enterprise Version erhältlich. Wir setzen OwnCloud auch bei uns im Unternehmen ein um Dateien einfach und schnell extern zugänglich zu machen und mit unseren Partnern zu teilen. Dateien lassen sich automatisch synchronisieren und können auch über Mobile Apps  vom Smartphone bzw. Tablett abgerufen werden.

Die Funktionalität von OwnCloud kann über Server Apps erweitert werden, wobei mittlerweile eine große Zahl unterschiedlicher Apps für die verschiedensten Anwendungsbereiche zum kostenlosen Download zur Verfügung stehen.

Auf dieser Basis haben wir eine Integration zwischen AutoOCR bzw. unserem FileConverterPro Server / Service entwickelt. Damit lassen sich die verschiedensten Office, CAD und EMail Dokumentenformate direkt aus OwnCloud heraus entweder automatisch oder interaktiv/manuell inkl. OCR in durchsuchbare PDF bzw. PDF/A-1b oder PDF/A-3b konvertieren.

1_AutoOCR & FileConverterPro Plugin für OwnCloud  2_Über die Admin Funktionen erfolgt die Konfiguration  3.1_Über das MIME-Type Mapping kann eine automatische Konvertierung nach PDF konfiguriert werden   4_Die Convert Funktion ermöglicht es alle unterstützten Dateitypen auch interaktiv nach PDF zu konvertieren  5_Aus einem gescannten Image wird eine mit Text hinterlegte durchsuchbare PDF Datei  6_OwnCloud sowie der integrierte PDF Viewer bieten Suchfunktionen um Dokumente üpber deren Inhalt zu suchen  7_Aus Containerdateien wie ZIP oder MSG werden Gesamt PDF mit Bookamrksstrukturen erzeugt

Unterstützte FCpro Datei-Formate:

  • DOC, DOCX, DOCM, RTF, TXT, ODT
  • XLS, XLSX, XLSM
  • PPT, PPTX, PPS, PPSX,
  • FDF, XFDF (Adobe Formulare),
  • XML
  • PNG, BMP, TIF, TIFF, JPG, JPEG, GIF
  • ZIP, RAR, 7Z,
  • MSG, EML,
  • PDF,
  • HTM, HTML, MHTML,
  • PMTX (PDFMerge)
  • DWG, DXF, DWF
  • Abbyy: PDF, TIF, TIFF, PNG, JPG, JPEG, BMP, GIF, PCX, DCX, JP2, JPC, DJV, DJVU, WDP
  • iOCR:  PDF, TIFF, JPEG, PNG

Unterstützte Output-Formate:

  • PDF
  • PDF/A-1b
  • PDF/A-3b
  • ZUGFeRD

Wie die Konvertierung erfolgen soll kann über die am FileConverterPro/AutoOCR Server hinterlegte Verarbeitungsprofile ausgewählt werden. Hinter den Profilen kann ein ganzer Set an Optionen und Einstellungen liegen welche nicht nur die Konvertierung sondern beim FCpro auch zusätzliche erweiterte Funktionen bieten z.B:

  • Briefpapier hinterlegen
  • Wasserzeichen und Stempel aufbringen
  • Seiten nummerieren
  • Kopf und Fußzeilen einfügen
  • Inhaltsverzeichnis erzeugen
  • Berechtigungen und Dokumenten-Schutz steuern

Containerformate wie z.b.: ZIP, RAR, 7Zip bzw. EMail Container wie MSG / EML die mehrere Dateien bzw. verschachtelte Attachments enthalten können werden von FCpro aufgelöst, konvertiert und zu Gesamt PDF´s mit Bookmarks zusammengefügt.

Download – OwnCloud App – Integration mit AutoOCR / FileConverterPro >>>

Achtung: Die Konvertierung wird vom OwnCloud Server über einen „Crown“ Job mit einem einstellbaren Intervall angestoßen. Um die Wartezeiten zu verkürzen sollte der auf standardmäßig 15 min. voreingestellte Intervall auf 1 bis 5 min. eingestellt werden

Webshop