Kategorie: PDF/A

FileConverter – Version 1.0.27 – unterstützt MS-Office 2010 als Konverter

Mit der neuen Version 1.0.27 des FileConverter Dienstes wird jetzt auch MS-Office 2010 als Konverter für die Konvertierung von MS-Word, MS-Excel und MS-PowerPoint Dateien nach PDF, PDF/A und TIFF unterstützt. MS-Office kann parallel zu der bestehenden, direkten Konvertierung verwendet und auch gemischt, nach Folder bzw. E-Mail Box konfiguriert und genutzt werden. Die Konvertierung erfolgt wie bei der direkten Konvertierung Silent im Hintergrund über den FileConverter Windows Dienst. Voraussetzung ist die Installation der 32bit Version von MS-Office 2010 auf dem Rechner und dass die MS-Office Anwendungen unter dem für den Dienst angemeldeten User bereits einmal aufgerufen wurden.

Durch die Verwendung von MS-Office als Konverter Engine kann 100%ige Qualität und die Unterstützung aller MS-Office Features gewährleistet werden welche nur über die Verwendung der Original Anwendung erreicht werden kann.

Um die vorhandenen Rechner – Ressourcen auszunutzen bzw. um einen optimalen Durchsatz zu gewährleisten werden die Konvertierungen je nach Konfiguration ebenfalls parallel  durchgeführt. Der eingestellte Standard sind 5 parallele Prozesse.

FileConverter - MS-Office als Konverter

Download – FileConverter – Dokumente & E-Mails nach PDF, PDF/A und TIFF >>>

eDocPrintPro PDF/A Version 3.19.0 – unterstützt PDF/A-3 inkl. Einbetten von Dateien

Mit der eDocPrintPro PDF/A Version 3.19.0 wird neben dem Level 1b jetzt auch der PDF/A Level 2b und 3b unterstützt. Bezüglich der PDF/A Levels und deren Unterschiede gibt es hier im Blog einen Artikel darüber – “Die PDF/A Standards im Überblick”

Speziell der PDF/A-Level 3 bietet eine für die Archivierung bzw. für den Austausch von Dokumenten interessante Funktion – Mit dem Level 2 ist es erlaubt PDF/A konforme Dateien in das PDF einzubetten. Mit dem Level 3 gibt es diese Restriktion nicht mehr. Es ist jetzt möglich alle Arten von Dokumenten oder Dateien in das PDF einzubetten. Die  PDF/A-3 Datei dient dabei als “Container” in welche die andere Dokumente eingebettet und auch wieder extrahiert werden können.

Damit hat man eine ideale Lösung sowohl für die Archivierung also auch für den Dokumentenaustausch – Das PDF/A-3 Dokument für die universelle Lesbarkeit, Suche und Langzeit-Archivierung und die eingebetteten Dateien um z.b. die Original Datei oder bei elektronischen Rechnungen eine XML Datei mit allen Rechnungsdaten in strukturiertet Form zur Verfügung zu haben.

Eine konkrete Umsetzung und Anwendung für PDF/A-3 gibt es für elektronische Rechnungen mit ZUGFeRD bereits in Deutschland. ZUGFeRD ist die Abkürzung für »Zentraler User Guide des Forum elektronische Rechnung Deutschland«. Das Ziel von ZUGFeRD ist es, den Austausch elektronischer Rechnungen einschließlich strukturierter Daten im öffentlichen und privaten Sektor zu ermöglichen. Aufbauend auf der PDF/A-3 Version unseres Druckertreibers werden wir in Kürze eine eigene eDoc ZUGFeRD Version herausbringen um über den Druckvorgang direkt einen auf diesem Standard basierende PDF Beleg erzeugt.

Die eDocPrintPro Funktionen für PDF/A-3 können zusätzlich lizenziert und freigeschaltet werden. Mit der Installation ist automatisch eine 30 Tage Demoversion vorhanden. Danach wird ohne Lizenz ein Demo-Stempel aufgebracht.

Funktionen eDocPrintPro PDF/A-3:

  • Erzeugt PDF/A-2b bzw. 3b ISO konforme PDF Dokumente über einen Druckvorgang aus beliebigen Anwendungen heraus.
  • Einbetten von  Datei Anhängen direkt beim Druckvorgang
    • Anzeige Datei Dialog für Dateiauswahl
    • Anzeige eines vordefinierten Ordners mit Datei-Erweiterungsfilter
    • Einbetten einer vordefinierten Datei (mit / ohne anschließendem Löschen)
    • Anhänge als ZIP einfügen

1_Auswahl der mit eDoc unterstützten PDFA Levels 1 bis 3 2_eDoc PDFA Level3 verfügt über die zusätzliche Funktion - Anhänge  3_eDoc PDFA Level3 - Anhänge - Dateiauswahl Dialog anzeigen  4_eDoc PDFA Level3 - Anhänge - Dateien aus einem vordefinierter Ordner mit Filter anzeigen  5_eDoc PDFA Level3 - Dateien des Ordners werden gefiltert zur Auswahl angezeigt.  6_eDoc PDFA Level3 - Festgelegte Datei kann  ohne Dialog eingefürgt und nachher wieder gelöscht werden

Download – eDocPrintPro PDF/A-3  32 und 64bit (ca. 52MB) >>>

eDocPrintPro Version 3.19.0 verfügbar

Neuerungen – eDocPrintPro Version 3.19.0 :

  • Basiert auf der aktuellsten GhostScript Version 9.10
  • Die Verwendung von “(” und “)” im Dateinamen ist jetzt möglich – bisher wurde bei “)” keine gültige PDF Datei erzeugt.
  • Korrektur bei Verwendung – “Automatische Nummerierung” für bereits vorhandene Dateinamen & TIFF Einzelseitenausgabe – der Dateinamen wird jetzt korrekt erzeugt.
  • Das Update auf die aktuellste Version des pscript5.dll behebt das Problem bei Ausdrucken über den Microsoft IE9 und IE10. Dabei wurden bestimmte Zeichen im PDF nur als Rechtecke ausgegeben.
  • Die Version 3.19.0 ist die Basis für unseren neuen erweiterten eDocPrintPro PDF/A Druckertreiber der jetzt auch neben PDF/A-1b den Standard PDF/A-2b und PDF/A-3b unterstützt.
  • Direktes Update ohne Deinstallation von Version 3.18.4. – Ein Update auf die aktuelle Version 3.19.0 muss entweder durch Deinstallation der vorhandenen alten Version vor 3.18.4 erfolgen oder falls bereits die Version 3.18.4 installiert ist kann die neue Version auch ohne vorherige Deinstallation direkt upgedatet werden.

Download – eDocPrintPro

Download – eDocPrintPro 32 und 64bit (ca. 30MB) >>>
Download – eDocPrintPro PDF/A  32 und 64bit (ca. 52MB) >>>

GhostScript 9.10 Setup – siehe auch >>>

Download – GhostScript 9.10 MSI Setup – 32bit (ca. 16MB) >>>
Download – GhostScript 9.10 MSI Setup – 64bit (ca.16MB) >>>

Die PDF/A Standards im Überblick

Das Dokumentenformat PDF wurde Anfang der neunziger Jahre von der Firma Adobe auf Basis der Seitenbeschreibungssprache “Postscript” entwickelt. Es war zuerst ein proprietäres, aber offen gelegtes Dateiformat und wurde dann im Jahr 2008 an die ISO übergeben und bildet seither in Version 1.7 den ISO Standard 32000.

PDF/A – Das PDF für die Archivierung:

PDF/A ist die Bezeichnung für die ISO-Norm 19005 und definiert ein Standard-Dokumentenformat für die Langzeitarchivierung elektronischer Dokumente. Die Norm legt fest welche PDF-Funktionen enthalten sein müssen bzw. welche nicht verwendet werden dürfen um Dokumente langfristig zu archivieren.

Wichtig: Der PDF/A Standard ist “aufbauend” – d.h. ist ein Dokument PDF/A-1 konform so ist es automatisch auch durch den PDF/A-2 und PDF/A-3 Standard abgedeckt – die höheren Standards erlauben mehr an PDF-Funktionen. Es gibt aber keinen “besseren” und “schlechteren” PDF/A Level sondern man stimmt den geforderten Level und Standard an die erforderlichen und gewünschten Funktionen an.

PDF/A-1 (ab 2006)

Für PDF/A-1 gibt es 2 Level:

  • PDF/A-1b: basic – dieser dient der eindeutigen visuellen Reproduzierbarkeit von PDF/A Dokumenten 
  • PDF/A-1a: accesible – wie 1b – muss jedoch auch die inhaltlichen Strukturierung des Dokuments enthalten (Tagged PDF) – dieser Level kann nicht automatisiert durch direkte Konvertierung, Scan, OCR oder über Druckertreiber erzeugt werden – technisch ja, aber die inhaltliche Strukturierung muss üblicherweise bereits in der Ursprungsapplikation “manuell” erzeugt und ergänzt werden.

PDF/A-2  (ab Juni 2011)

Für PDF/A-2 gibt es 3 Level:

  • PDF/A-2b: basic – entspricht dem 1b – mit Erweiterungen des Level 2
  • PDF/A-2a: accessible – entspricht dem 1a – mit Erweiterungen des Level 2
  • PDF/A-2u: unicode – hierzu gibt es keine Entsprechung im Level 1 – entspricht dem Level 2b – jedoch muss der eingebettete Text im UniCode Standard abgebildet sein.

Erweiterungen gegenüber PDF/A-1 :

  • JPEG2000 Kompression
  • Transparenz
  • Ebenen
  • OpenType-Schriften
  • digitale Signaturen als PAdes (PDF Advanced Electronic Signatures)
  • Container: PDF/A-1 Dateien können in PDF/A-2 Dateien eingebettet werden
  • das Seitenlimit wurde erweitert auf 381 x 381 km

PDF/A-3 (ab Oktober 2012)

Die wesentliche Erweiterung des PDF/A Level 3 ist, dass es damit möglich wird beliebige Dateien und Dokumente direkt in das PDF/A einzubetten. Dadurch kann für die Archivierung eine PDF/A Datei für Suche, Anzeige und Ausdruck mit der Archivierung der originären digitalen Quell Datei kombiniert werden. Würde man für ein MS-EXCEL nur die PDF Datei archivieren, würden eventuell wichtige Zusatzinformationen wie z.b. die darauf basierenden Formeln verloren gehen. Die eingebetteten (Quell) Dateien lassen sich jederzeit wieder aus dem PDF extrahieren.

Weitere ISO normierte PDF Standards sind:

  • PDF/E – PDF for Engineering: ISO 24517PDF/E-Dokumente können insbesondere enthalten: Ebenen für Installations- und Konstruktionspläne sowie dreidimensionale Modelle inklusive vordefinierter 3D-Ansichten.
  • PDF/H (Healthcare) – PDF im Gesundheitswesen (Best Practice) für die bildgebenden Diagnostik und für die Speicherung von Patientendaten und medizinischen Befunden.
  • PDF/X (Exchange) für Druckvorlagen: ISO 15929 / 15930 – Der PDF/X-Standard wurde für den Austausch von Anzeigendaten für Zeitungen und Zeitschriften sowie für die Übermittlung von Druckvorlagen für Druckaufträge entwickelt. PDF/X gibt es in folgenden Levels: 1a, 2, 3, 4, 5, 5g, 5gp, 5n
  • PDF/UA (Universal Accessibility) – ISO 14289 – für universell zugängliche Dokumente, z. B. als Lesehilfe für sehbehinderte Menschen.
  • PDF/VT (Variable Transactional) – ISO 16612-2 – für den “Druck von variablen oder transaktionalen Dokumenteninhalten”
  • PDF Level 1,7 – ISO 32000: Die ISO hat das Portable Document Format (PDF) 1.7 als internationalen Standard verabschiedet.

Neue Web-Seite – www.OCRServer.at – online

Um gezielt und auf einem Platz zusammengefasst alle unsere Produkte rund um das Thema OCR präsentieren zu können haben wir eine neue Web-Seite www.ocrserver.at dafür erstellt.

Folgende Produkte werden dort präsentiert

  • AutoOCR
  • AutoOCR light
  • DropOCR
  • FineOCR
  • ifresco Transformer
  • FileConverter (pro)
  • ifresco Profiler + Plugins

FileConverter – Dokumente und E-Mails aus Foldern bzw. E-Mail Boxen automatisiert nach PDF, PDF/A und TIFF konvertieren

Der FileConverter ist eine als Service unter MS-Windows (32 und 64bit) installierbare Anwendung um Folder und E-Mail Boxen zu überwachen um die darin befindlichen Dokumente automatisiert in das PDF, PDF/A oder TIFF Dokumentenformat zu konvertieren.  Dabei können parallel mehrere Folder bzw. auch mehrere MS-Exchange bzw. POP3 Mailboxen konfiguriert und überwacht werden.

Folgende Eingangs-Dokumentenformate werden unterstützt:

  • DOC, DOCX, RTF, TXT,
  • XLS, XLSX,
  • PPT, PPTX,
  • XFDF, FDF,
  • PNG, BMP, TIF, TIFF, JPG, JPEG
  • ZIP, RAR, 7Z,
  • MSG, EML,
  • PDF,
  • HTM, HTML, MHTML,
  • PMT, PMTX

Dateiformat – Besonderheiten:

  • Bei ZIP/RAR/7Z Containern werden alle enthaltenen und unterstützen Dokumente automatisch extrahiert und konvertiert. Die im Container enthaltene Foldersturktur wird im Ausgabeverzeichnis aufgebaut.
  • PMT und PMTX – sind PDFMerge XML Datenformate – welche eine hierarchische Strukturinformation als auch die Links auf die Dokumente bzw. die Dokumente selbst enthalten. Der FileConverter erzeugt daraus genauso wie der PDFMerge Server eine einzige Gesamt PDF Datei die aus den nach PDF konvertierten Einzeldateien besteht welche zu einer PDF Gesamtdatei zusammengefügt wurden. Die im XML definierte Struktur wird über die PDF-Bookmarks abgebildet.

Konvertierung:

  • Die PDF/TIFF Konvertierung erfolgt direkt ohne Verwendung der Ursprungsanwendung. Für die Verarbeitung ist also keine Installation von MS-Office oder Adobe Acrobat erforderlich. Optional können die PDF´s auch im ISO normierten PDF/A-1b Format ausgegeben werden.
  • Im Standardumfang enthalten ist auch die iOCR Engine um aus PDF oder Imagedokumenten durchsuchbare PDF(/A) zu erzeugen. Optional installiert – kann auch Abbyy die momentan leistungsfähigste OCR Engine installiert werden. Bei der OCR Verarbeitung werden PDF Dokumente seitenweise analysiert und nur jene Seiten der OCR Verarbeitung unterzogen die noch keine Textinformation enthalten (intelligente OCR Verarbeitung) – das spart Ressourcen, verbessert die Qualität und erhöht die Verarbeitungsgeschwindigkeit.

Funktionen – Allgemein:

  • MS-Windows Service Anwendung zu Dokumentenkonvertierung von MS-Office, PDF, Image, HTML, ZIP, MSG und E-Mail nach PDF, PDF/A bzw. TIFF
  • Parallel können mehrere Folder sowie MS-Exchange und POP3 E-Mailboxen überwacht und verarbeitet werden.
  • Direkte Konvertierung ohne Verwendung zusätzlich erforderlicher Original Anwendungen (MS-Office, Adobe Acrobat)  bzw. Druckertreiber.
  • Verflachen von ausgefüllten PDF Formularen: PDF Formulare (XFDF,FDF) können in normale PDF Dokumente konvertiert werden. Die Formulare können entweder fix hinterlegt oder jedes Mal neu geladen werden.
  • Parallele Verarbeitung mit konfigurierbarer Anzahl an Prozessen – erlaubt die optimale Ausnutzung der Hardware und garantiert die schnelle Abarbeitung.
  • Logging aller Konvertierungsvorgänge, Weiterleiten fehlgeschlagener E-Mail Konvertierungen bzw. Versand von Fehler – E-Mails per SMTP

In / Out Folderverarbeitung:

  • Verarbeitung von Dateien und Foldern aus konfigurierten In / Out-Ordnern über Zeitablauf bzw. über “Ready” Datei, inkl. Subfolder Verarbeitung (eine Ebene)
  • Erstellen einer Index-Text-Datei über alle bei einem Verarbeitungsvorgang erzeugten Dateien.
  • Nach der Verarbeitung: Löschen, Verschieben in Archivordner, Umbenennen – der Dateien bzw. Folder (.con / .err)
  • Konfiguration der nicht zu konvertierenden Dateierweiterungen – diese werden ignoriert und nicht verarbeitet. E-Mails mit Anhängen und nicht definierten Erweiterungen (weder konvertierbar noch nicht konvertierbar) werden als Fehler gehandhabt und an eine Error E-Mail Adresse weitergeleitet.
  • Einzelseitenausgabe mit konfigurierbarer Anzahl an Stellen für den Seitenindex
  • Konfiguration der TIFF Konvertierung – Komprimierung / Farbtiefe / Auflösung / JPEG-Qualität
  • Umfangreiche Parameter für die OCR Verarbeitung – iOCR bzw. Abbyy – der FileConverter enthält über die gleichen OCR Funktionen wie AutoOCR
  • Parameter für die HTML Konvertierung – Seitengröße und Ränder – HTML Dokument und E-Mails werden automatisch skaliert.

Verarbeitung von E-Mail Boxen:

  • Abarbeiten von von POP3 / MS-Exchange E-Mail Boxen – Weiterleiten bzw. Löschen bei erfolgreicher bzw. fehlerhafter Verarbeitung bzw. Verschieben in einen Archiv / Error Folder unter MS-Exchange. Direkter Zugriff auf MS-Exchange 2007/2010/2013 über die SOAP-Web-Service Schnittstelle.
  • EML und MSG – Body und Anhänge werden konvertiert – Generierung der E-Mail Header Information im Body Dokument – Von, Datum, An, Betreff
  • Ausgabe einer XML Datei zu den verarbeiteten E-Mails mit den Metadaten und Dateilinks – konfigurierbar: von, an, cc, bcc, erhalten, Betreff, Body, Anlagen
  • Ausgabe pro E-Mail in getrennte Unterordner oder “flach” im Zielordner.

 

1_FileConverter - Allgemeine Einstellungen - Email & Folder Verarbeitung 2_FileConverter - Verarbeitungsoptionen  3_FileConverter - Service Konfiguration  4_Fileconverter - SMTP Server Konfiguration  5_FileConverter - Konfiguration Folder Verarbeitung  6_FileConverter - Konfiguration E-Mail Box Verarbeitung  7_FileConverter - MS-Exchange Konfiguration  8_FileConverter - POP3 Konfiguration  9_FileConverter - TIFF Konvertier Settings  10_FileConverter - OCR Settings  11_FileConverter - HTML Konvertier Settings  12_FileConverter - Log Anzeige

  Download – FileConverter – Dokumente & E-Mails nach PDF, PDF/A und TIFF >>>

AutoOCR – neue Version 1.10.6

Bei der Version 1.10.6 wurde die bei der Textausgabe der iOCR Engine um die Option erweitert ein Seitentrennzeichen (#12- FF) nach jeder Seite einzufügen. Damit ist es möglich den Text aus der Ausgabedatei der gescannten Seite eindeutig zuzuordnen. Der erkannte Text in der Textdatei kann sich selbst z.b. über mehrere Seiten erstrecken obwohl der Scan nur eine Seite beinhaltet  z.b. bei  Seitenformaten >A3 oder bei Text in Spalten. Bestimmte DMS und Archivprogramme benötigen die Textinformation seitenweise getrennt um im Index die darzustellenden Seite 1:1 zuordnen zu können. Die Codierung der TXT Datei ist UTF-8 ohne BOM

iOCR Option - Textausgabe - Seitentrennzeichen einfügen

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>

eDocPrintPro Version 3.18.0 verfügbar

Die Version 3.18.0 weist folgende Neuerungen und Verbesserungen auf:

  • Ein gemeinsames Setup für die 32bit und 64bit Version statt Einzelsetup´s
  • Die Setups und EXE Dateien sind signiert – Verisign Class 3 – Code Sign Zertifikat
  • Unterstützung von Windows 8 – 32 und 64bit.
  • Installation und Unterstützung der aktuellen GhostScript Version 9.0.6
  • Anpassung der max. Seitengröße auf 2774 x 2774mm für Windows 7 und 8
  • eDocPrintPro Tool wurde aktualisiert, für 64bit OS angepasst sowie eine Verknüpfung unter Start / Programme eingefügt.
  • Fehlerkorrekturen im SDK – 32/64bit Interface für PDF/A, Pageresolution enum, Page Format und Page Orientation
  • TAHOMA Font Problem behoben
  • Problem mit “nicht UniCode Schriften” – z.b. bei polnischen Schriftzeichen wurde behoben.
  • User definierte Variablen können beim Commandline Aufruf als Parameter verwendet werden.

Download – eDocPrintPro 32 und 64bit (ca. 30MB) >>>
Download – eDocPrintPro PDF/A  32 und 64bit (ca. 52MB) >>>

Falls bei der Installation keine Internetverbindung vorhanden ist kann das GhostScript Setup nicht  per FTP nachgeladen werden. Deswegen ist es möglich GhostScript auch bereits vor der Installation von eDocPrintPro heruntergeladen und getrennt zu installieren. Das eDocPrintPro Setup erkennt dies und überspringt den GS Download.

GhostScript 9.0.6  Setup:

Download – GhostScript 9.0.6 für eDocPrintPro – 32bit (ca. 18MB) >>>
Download – GhostScript 9.0.6 für eDocPrintPro – 64bit (ca.18MB) >>>

Update: Bitte beachten Sie dass für das Update bestehender Installationen eDocPrintPro sowie alle alten GhostScript Versionen vorher deinstalliert werden müssen, da bestimmte Fehlerkorrekturen erst über die neue GhostScript Version 9.0.6 erfolgen.

 

Neue Features ifresco Transformer für Alfresco – mit AutoOCR Version 1.10.3

Wegen der neuen AutoOCR Version 1.10.3 sind neue features für den ifresco AutoOCR Transformer verfügbar:

  • iOCR – neue standard OCR Engine, zusätzlich zu Abbyy
  • Intelligente Verarbeitung von PDF Dokumenten
  • Alfresco Integration – OCR Server bereit zum testen, ohne Installation – Sie können unseren, vom Internet zugänlichen AutoOCR Test Server verwenden.
  • New Step by Step installation and setup documentation.

iOCR – zusätzliche OCR Engine verfügbar

Beginnend mit der AutoOCR Version 1.10.3 installiert das Setup iOCR als standard OCR Engine, welche alleine oder zusätzlich zur Abbyy OCR Engine verwendet werden kann. iOCR hat keine Seiten Lizenz Limits und kann als Input PDF, TIFF oder JPEG verarbeiten und durchsuchbare PDF’s und TXT Dateien erstellen.

Unterschiede zwischen iOCR und Abbyy

  • iOCR unterstützt nicht so viele Sprachen wie Abbyy
  • keine gemischte Spracherkennung – es kann nur eine Hauptsprache gewählt werden
  • nicht das gleiche Level an Genauigkeit und Erkennungsqualität wie Abbyy
  • keine Bild-Vorbearbeitungs Funktionen
  • keine Seitenausrichtungserkennung (Auto-Drehen)
  • Nicht so viele konfigurierbare Funktionen und Features und In-/Output Formate.

Aber iOCR ist eine gute Lösung für kostengünstige und umfangreiche OCR Erkennung z.B. um Text-Informationen von PDF’s und Bildern zu extrahieren, um einen Volltext Index aufzubauen (z.B. Alfresco Transformer > TXT) und durchsuchbare PDF’s von Scans mit guter Qualität zu erstellen.

Am besten ist es Tests mit eigenen Dokumenten durchzuführen, um zu sehen welche OCR Engine am besten Ihren Bedürfnissen entspricht. Beide Engines Abbyy und iOCR können parallel installiert und verwendet werden – Sie müssen nur verschiedene OCR Profile für die unterschiedlichen Einstellungen und OCR Engines erstellen. Auch beide OCR Engines können auf unserem zur Verwendung fertigen AutoOCR Test Server getestet werden (autoocr.may.co.at)

Intelligente PDF Verarbeitung:

Ein PDF Dokument kann nur Bilder von einem Scanner enthalten oder erstellt werden z.B. von einem Druckertreiber oder durch direkten PDF Export. Ein Bild-PDF enthält keinen Text und muss OCR verarbeitet werden. Die anderen “normalen” PDF’s enthalten Text und müssen nicht mehr OCR verarbeitet werden. Der Alfresco Transformer erkennt das und entscheidet ob ein PDF verarbeitet werden muss oder nicht. OCR Verarbeitung kostet Zeit und Ressourcen und deshalb haben wir, beginnend mit der AutoOCR Version 1.10.3, “intellegente PDF-OCR Verarbeitung” eingebaut. Wenn diese Option ausgewählt ist wird jedes PDF, welches zum AutoOCR Server geschickt wird überprüft und wenn es bereits Text enthält, nicht verarbeitet. In diesem Fall wird das PDF oder der extrahierte Text ohne Verarbeitung zurück gesendet. Um dieses Feature zu aktivieren muss der Server für “Intelligente OCR Verarbeitung von PDF Dateien” konfiguriert sein.

PDF - intelligent OCR processing - Abbyy PDF - intelligent OCR processing - iOCR

AutoOCR Test server – fertig zur Verwendung 

Mit der Installation von 2 AMP’s kann der AutoOCR Server mit Alfresco integriert werden. Die Integration arbeitet wie der standard Alfresco Transformer oder kann auch durch Scripting oder Java verwendet werden. Die Kommunikation zwischen AutoOCR und Alfresco findet durch HTTP(S) – REST statt. Um das testen von AutoOCR und der Alfresco Integration noch einfacher zu machen, können Sie unseren AutoOCR Test Server verwenden (autoocr.may.co.at), welcher über das Internet erreichbar ist und beide OCR Engines (Abbyy und iOCR) installiert hat.

Step by Step – Installation und Setup Dokumentation

Mit diesem Dokument wird jeder Schritt für die Installation der Abbyy Engine, von AutoOCR, der Lizensierung, der Verwendung unseres Test Servers und der Integration mit Alfresco mit Screenshots genau erklärt.

Download – Installation und Setup Dokumentation – ifresco AutoOCR transformer for Alfresco >>>

Test und Demo Version ist verfügbar – bitte kontaktieren Sie uns >>>

AutoOCR 1.10.3 – iOCR – neue unlimitierte Standard OCR Engine enthalten

iOCR – unlimitierte Standard OCR Engine für AutoOCR

Eine neue unlimitierte iOCR Standard OCR Engine wurde implementiert. Diese zeichnet sich durch eine hohe Verarbeitungsgeschwindigkeit aus, kann als Input neben den üblichen Imagedateien auch PDF´s verarbeiten um daraus durchsuchbare PDF´s zu erzeugen. Diese Engine ist speziell für Anwendungen ideal bei welchen Volltextindizes für große Dokumentenmengen in kurzer Zeit aufgebaut werden müssen. z.b. bei der Integration mit Alfresco über den ifresco TXT Transformer.

Highlights iOCR für AutoOCR:

  • Hohe Performance durch 64bit und parallele Verarbeitung mehrerer Dokumente (CPU / Core / Speicherabhänging)
  • keine Limitierung hinsichtlich der zu verarbeitenden Seiten, bzw. keine CPU / Core Beschränkungen
  • 37 unterstützte Sprachen: Arabisch, Bulgarisch, Catalan, Tschechisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Kroatisch, Dänisch, Holländisch, Deutsch, Griechisch, Englisch, Finnisch, Französisch, Hebräisch, Hindi, Ungarisch, Indonesisch, Italienisch, Japanisch, Koreanisch, Lettisch, Litauisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch (Latein), Slowakisch, Slowenisch, Schwedisch, Tagalog (Pilippinisch), Thai, Türkisch, Ukrainisch, Vietnamesisch
  • PDF, TIFF, JPEG, PNG – als Input / PDF-OCR sowie TXT als Output
  • JBIG-2 erzeugt noch kleinere Schwarz & Weiss PDF Dokumente als durch die TIFF Gr. 4 Komprimierung
  • zuschaltbare intelligente PDF Verarbeitung – es werden nur PDF-Image Dokumente einer OCR Verarbeitung unterzogen, PDF´s die bereits Text enthalten werden nicht nochmals verarbeitet – das erhöht den Druchsatz und steigert die Qualität.

Bemerkung: für uns ist weiterhin die Abbyy FineReader Engine die beste verfügbare OCR Engine – mit den meisten Funktionen und Features sowie mit der besten Erkennungsrate. Es gibt jedoch Anwendungsbereiche und Gründe eine alternative OCR Engine einzusetzen. Das ist auch ein wichtiges Feature von AutoOCR – es wird nicht nur eine einzige OCR Engine unterstützt,  sondern je nach Anforderung können auch mehrere parallel aktiv sein bzw. können OCR Engines nachgerüstet werden.

Neuerungen – AutoOCR Version 1.10.3:

  • iOCR als Standard OCR Engine bereits im Lieferumfang / Setup enthalten
  • „Intelligente“ OCR Verarbeitung von PDF Dokumenten – PDF Dokumente werden vor der OCR Verarbeitung überprüft ob diese bereits Text enthält – falls ja so wird das PDF nicht per OCR verarbeitet sondern das PDF bzw. der daraus extrahierte Text wird zurückgeliefert. Speziell für die Alfresco Transformer Integration ist dies erforderlich da von Seiten Alfresco bei der PDF Transformation PDF>PDF bzw. PDF>TXT nicht zwischen „normalen“ PDF und Image PDF unterschieden werden kann und daher jedes PDF durch den Transformer geschickt wird. Durch diese Option wird unnötige OCR Verarbeitung und damit werden Verarbeitungszeit und Abbyy OCR-Seiten-Lizenzen gespart.
  • Web-Service – Job Liste – Neue Funktion – alle Jobs löschen
  • Web-Service – Job Liste – Datum und Uhrzeit der Job Erstellung wird mit angezeigt
  • Web-Service – parallele Verarbeitung  beim Upload bzw. Job Handling wurde optimiert und verbessert.
  • Web-Service .NET Beispiel Client – wurde erweitert – Mehrfach Upload von Dateien, Parallel Upload, Anzeiger der aktuell laufenden Parallel Uploads, Unterstützung der Funktionen im Client für Parallelverarbeitung (Upload, Job Handling…)

1_AutoOCR_neue_iOCR_engine 2_AutoOCR_iOCR_Sprachauswahl_1 3_AutoOCR_iOCR_Sprachauswahl_2 4_AutoOCR_iOCR_color_compression 5_AutoOCR_iOCR_b&w_compression 7_AutoOCR_Abbyy_intelligent_PDF_processing

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>
Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>

Download – Schritt für Schritt Installation AutoOCR & ifresco Transformer >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

Demolizenzkey für FineReader OCR Engine anfordern