Kategorie: Volltextsuche

AutoOCR 1.10.3 – iOCR – neue unlimitierte Standard OCR Engine enthalten

iOCR – unlimitierte Standard OCR Engine für AutoOCR

Eine neue unlimitierte iOCR Standard OCR Engine wurde implementiert. Diese zeichnet sich durch eine hohe Verarbeitungsgeschwindigkeit aus, kann als Input neben den üblichen Imagedateien auch PDF´s verarbeiten um daraus durchsuchbare PDF´s zu erzeugen. Diese Engine ist speziell für Anwendungen ideal bei welchen Volltextindizes für große Dokumentenmengen in kurzer Zeit aufgebaut werden müssen. z.b. bei der Integration mit Alfresco über den ifresco TXT Transformer.

Highlights iOCR für AutoOCR:

  • Hohe Performance durch 64bit und parallele Verarbeitung mehrerer Dokumente (CPU / Core / Speicherabhänging)
  • keine Limitierung hinsichtlich der zu verarbeitenden Seiten, bzw. keine CPU / Core Beschränkungen
  • 37 unterstützte Sprachen: Arabisch, Bulgarisch, Catalan, Tschechisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Kroatisch, Dänisch, Holländisch, Deutsch, Griechisch, Englisch, Finnisch, Französisch, Hebräisch, Hindi, Ungarisch, Indonesisch, Italienisch, Japanisch, Koreanisch, Lettisch, Litauisch, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch (Latein), Slowakisch, Slowenisch, Schwedisch, Tagalog (Pilippinisch), Thai, Türkisch, Ukrainisch, Vietnamesisch
  • PDF, TIFF, JPEG, PNG – als Input / PDF-OCR sowie TXT als Output
  • JBIG-2 erzeugt noch kleinere Schwarz & Weiss PDF Dokumente als durch die TIFF Gr. 4 Komprimierung
  • zuschaltbare intelligente PDF Verarbeitung – es werden nur PDF-Image Dokumente einer OCR Verarbeitung unterzogen, PDF´s die bereits Text enthalten werden nicht nochmals verarbeitet – das erhöht den Druchsatz und steigert die Qualität.

Bemerkung: für uns ist weiterhin die Abbyy FineReader Engine die beste verfügbare OCR Engine – mit den meisten Funktionen und Features sowie mit der besten Erkennungsrate. Es gibt jedoch Anwendungsbereiche und Gründe eine alternative OCR Engine einzusetzen. Das ist auch ein wichtiges Feature von AutoOCR – es wird nicht nur eine einzige OCR Engine unterstützt,  sondern je nach Anforderung können auch mehrere parallel aktiv sein bzw. können OCR Engines nachgerüstet werden.

Neuerungen – AutoOCR Version 1.10.3:

  • iOCR als Standard OCR Engine bereits im Lieferumfang / Setup enthalten
  • „Intelligente“ OCR Verarbeitung von PDF Dokumenten – PDF Dokumente werden vor der OCR Verarbeitung überprüft ob diese bereits Text enthält – falls ja so wird das PDF nicht per OCR verarbeitet sondern das PDF bzw. der daraus extrahierte Text wird zurückgeliefert. Speziell für die Alfresco Transformer Integration ist dies erforderlich da von Seiten Alfresco bei der PDF Transformation PDF>PDF bzw. PDF>TXT nicht zwischen „normalen“ PDF und Image PDF unterschieden werden kann und daher jedes PDF durch den Transformer geschickt wird. Durch diese Option wird unnötige OCR Verarbeitung und damit werden Verarbeitungszeit und Abbyy OCR-Seiten-Lizenzen gespart.
  • Web-Service – Job Liste – Neue Funktion – alle Jobs löschen
  • Web-Service – Job Liste – Datum und Uhrzeit der Job Erstellung wird mit angezeigt
  • Web-Service – parallele Verarbeitung  beim Upload bzw. Job Handling wurde optimiert und verbessert.
  • Web-Service .NET Beispiel Client – wurde erweitert – Mehrfach Upload von Dateien, Parallel Upload, Anzeiger der aktuell laufenden Parallel Uploads, Unterstützung der Funktionen im Client für Parallelverarbeitung (Upload, Job Handling…)

1_AutoOCR_neue_iOCR_engine 2_AutoOCR_iOCR_Sprachauswahl_1 3_AutoOCR_iOCR_Sprachauswahl_2 4_AutoOCR_iOCR_color_compression 5_AutoOCR_iOCR_b&w_compression 7_AutoOCR_Abbyy_intelligent_PDF_processing

Download – AutoOCR – OCR Server inkl. iOCR Engine (ca. 150MB) >>>
Download – AutoOCR – Web-Service Beispiel-Client  inkl. C# Source >>>

Download – Schritt für Schritt Installation AutoOCR & ifresco Transformer >>>

Für die Abbyy OCR Engine Version 10 stehen Demolizenzen für 30 Tage bzw. 500 Seiten zur Verfügung – diese können Sie gerne bei uns anfordern

Download- Abbyy FineReader 10.x Rel 4 OCR Engine Setup (ca. 460MB) >>>

Demolizenzkey für FineReader OCR Engine anfordern

Extraktion von Text bzw. E-Mail Adressen aus PDF, Lucene Volltextengine als .NET Komponente

Im Zuge verschiedener Projekte erweitern wir laufend die Funktionen unserer .NET Basis Komponenten. Nachfolgende einige Beispiel daraus.

Extrahieren der Textinformation aus PDF
verwenden wir zum Beispiel in unserem eDocPrintPro Druckertreiber um neben der PDF auch eine ASCII Datei mit der aus dem Dokument gewonnen Textinformation abzulegen. Der Text kann analyisiert, durchsucht und weiterverarbeitet werden – oder die Information wird in eine SQL/Volltext-Datenbank geschrieben um in weitere Folge die Volltextsuche zu ermöglichen.

Extrahieren der Text Information aus PDF Dokumenten

Extrahieren von E-Mail Adressen  aus PDF
Unsere Komponenten erlauben es uns auch nach bestimmten Textstrings auf PDF Seiten zu suchen und das Gesamtdokumente an diesen Seiten in Einzeldokumente teilen – z.b. im eDocPrintPro PDFSplit Plugin. Ebenso gibt es eine Funktion um z.b. E-Mail Adressen aus einem PDF zu extrahieren – das verwenden wir bei iPaper oder aber auch in unserer PDFMail Software. Die PDF Dokumente können an Hand der damit gewonnen Information gleich per E-Mail verschickt werden.

Extrahieren von E-Mail Adressen aus PDF Dokumenten

Lucene .NET – OpenSource Volltext Datenbank
Eine weitere zur Verfügung stehende Funktion erlaubt es große Datenmengen mit der Lucene .NET  OpenSource Volltextdatenbank zu indizieren. Damit können auch sehr großen Dokumentenbestände blitzschnell durchsucht und Informationen zielgenau gefunden werden.

Lucene .NET OpenSource Volltextdatenbank

Download – Demo – Extrahieren von Text, E-Mail, Volltextsuche >>>

Für weitere Informationen kontaktieren Sie uns bitte >>>

Webshop