Juli 2013 – PDF News – PDF/A, GRATIS PDF Druckertreiber, Archiving, OCR, DMS, Documentmanagment, Scan to PDF, ECM, PDF Convert, Free PDF printerdriver, SDK, API, PDF softwaredevelopment

Monat: Juli 2013

ifresco Profiler – Scannen, Bearbeiten, OCR, Barcode, Erfassen von Metadaten, Alfresco Integration

2013-07-31

Der ifresco Profiler stellt auf jedem Arbeitsplatz wichtige, einfach zu bedienende seitenorientierte Dokumentenbearbeitungsfunktionen übergreifend für PDF und Imagedokumente zur Verfügung. Es ermöglicht Dokumente mit Metadaten schnell und effizienten mit individuellen und spezifisch angepassten Profilierungsmasken als durchsuchbare PDF´s im Alfresco abzulegen. Bereichs OCR über eine integrierte OCR Engine, Erzeugung durchsuchbarer PDF´s beim Export über die integrierte OCR bzw. externen AutoOCR Server, Barcode Erkennung für Dateiname und Dokumentensplit, Export in Folder, als E-Mail Anhang bzw. über installierbare individuelle Plugin´s zusammen mit Metadaten nach Alfresco, sind einige wesentliche Merkmale der Software.

Die Anwendung besteht aus 2 Komponenten – der Profiler Basissoftware welche alle allgemeinen Funktionen beinhaltet, sowie aus einem oder mehreren installierbaren Plugins. Diese Plugins stellen die Schnittstelle zu Alfresco dar und ermöglichen es individuell an die Anforderungen und Einsatzbereich angepasste Profilierungsmasken zu verwenden. Die komplette Logik für die Metadaten, die Ablagestruktur und die Namensgebung ist in einem Plugin abgebildet.

ifresco Profiler Basis:

Verarbeitet PDF und Imagedateien – Schwarz & Weiß, Graustufen, Farbe, – ohne auf Unterschiede bei Dateiformat und Farbe achten zu müssen – alle Funktionen sind übergreifend implementiert.
Integrierte Scanfunktion um Dokumente über lokal angeschlossene Scanner einscannen zu können. Scan Einstellungen können direkt über voreinstellbare Scan-Profile ausgewählt werden.
Erfassen von Dokumenten aus Foldern – Anzeige als Dokumentenliste z.b. für Multifunktionsgeräte, Netzwerkscanner mit Scan to Folder Funktion oder per Druckertreiber erzeugte, sowie um per E-Mail empfangene Dokumente verarbeiten zu können.
Schnelländerung der Dokumentennamen – mit automatischer Selektion der nächsten Datei in der Liste nach Abschluss der Änderung.
Bereichs OCR über lokal integrierte OCR Engine um Dateinamen zu vergeben.
Bereiche löschen / zuschneiden
Seitenvoransicht – Zoom, Blättern, Seitenauswahl, Drehen – sowie Thumbnail Miniaturen des gesamten Dokuments
Seitenorientierte Dokumentenbearbeitung – Seiten drehen links, rechts, Seiten löschen, Seiten per Drag&Drop in der Thumbnail Ansicht verschieben.
Gesamtdokument teilen – an der markierten Seite, nach x Seiten, nach Barcode.
Einzeldokumente zu einem Gesamtdokument zusammenfügen – Reihenfolge festlegen, automatisches Löschen der Einzeldateien.
Exportieren – in einen Folder, als E-Mail Anhang versenden, oder über Profilierung mit Metadaten im Alfresco ablegen – im nativen Format, als PDF Image oder als PDF-OCR
Beim Export – Erzeugung durchsuchbarer PDF-OCR Dokumente über lokal integrierte iOCR Engine oder über den per Web-Service integrierten AutoOCR Server mit Abbyy OCR
Intelligente OCR Verarbeitung – nur Image Seiten werden OCR verarbeitet – normale PDF Seiten werden unverändert übernommen.

ifresco Profiler plugins:

Die Profilmaske und die Logik der Profilierung für die Ablage der Dokumente im Alfresco wird beim ifresco Profiler über Plugins realisiert. Da jedes Unternehmen ein eigenes Datenmodell und Ablagelogik verfügt werden die Plugins individuell nach Spezifikation entwickelt und implementiert. Hier kann auf eine Basis von bereits realisierten Plugins zurückgegriffen werden. Für Tests sowie zur Veranschaulichung der Möglichkeiten steht ein Standardplugin sowie zur bereits realisierte Plugins Verfügung.

Installierbare Plugins – für Profilierung und Erfassung von Metadaten zur Ablage von Dokumente in Alfresco.
Ein oder mehrere Plugins können installiert, ausgewählt und damit auch auf andere Alfresco Server umgeschaltet werden – jeder Plugin beinhaltet seine eigene individuelle Logik für die Profilierung als eigenständig installierte .NET / C# Anwendung die sich in das ifresco Profiler Basisframework einfügt und deren Funktionen nutzt.
Gleichzeitige Darstellung der Profilmaske und der Dokumentenvoransicht bei der Erfassung der Metadaten.
Frei programmierbare Logik und Funktionen auf der Profilierungsmaske mit z.b. externe XML Templateregeln mit dynamischen Feldern um den Namen / Titel immer gleich aufzubauen, Zugriff auf externe Datenquellen – MS-XLS, SQL, Web-Service (z.b. SugarCRM), verknüpfte Tabellen und Vorbelegung von Feldern mit Werten aus der Tabelle, Type ahead Teilstring Suche über einzelne oder kombinierte Felder, Verwendung von Alfresco Kategorien als Lookup´s, Zuordnung bestehender Alfresco Tags, Automatische Neuanlage von Tags, Automatisches Erzeugen der Alfresco Folderstruktur sowie der Dateinamen aus Profilfeldwerten, Suche nach Foldern im Alfresco, Counter über Web-Service, Stempelung des Dokuments vor dem Upload mit Infos aus den Metadaten, Suche nach im Alfresco vorhandenen Dokumenten und Übernahme von Profilwerten usw.
Interaktive Verarbeitung – mit OCR und Upload oder alternativ
Hintergrund / Batchverarbeitung – für PDF-OCR Konvertierung und Alfresco Upload – der User kann bereits weiterarbeiten während im Hintergrund die OCR Verarbeitung und der Alfresco Upload stattfindet.
Bestehende Profilwerte erhalten / Maske löschen
Automatisch Laden des nächsten Dokuments aus der Liste – verarbeitetes Dokument wird nach dem Upload gelöscht oder in einen Archivbereich verschoben.

Download ifresco Profiler >>>

Intelligente PDF OCR Verarbeitung über AutoOCR für Abbyy und iOCR

2013-07-11

PDF Dokumente können auf verschiedene Weise erzeugt werden. PDF´s sind in der Lage in einem Dokument verschiedene Inhalte und Quellen zusammenzufassen. Seiten können aus „normalen“ PDF Inhalten bestehend aus Texten, Bildern, und Vektorgrafiken aufgebaut sein und verfügen üblicherweise bereits über einen Textinhalt der für die Volltext-Indizierung und -Suche verwendet werden kann. Ein PDF Dokument kann jedoch auch gescannte Seiten in Schwarzweiß oder Farbe enthalten. Solche Seiten oder Dokumente müssen einer OCR Erkennung unterzogen werden um die textliche Information für die Indexierung und Suche einzufügen.

Also gibt es bestimmte PDF Dokumente die entweder gar keiner OCR Verarbeitung unterzogen werden sollen, bzw. müssen nur einzelne Seiten oder auch alle verarbeitet werden da diese durch einen Scanvorgang erzeugt wurden.

Im Normalfalls kommen alle diese Arten von PDF Dokumenten in Geschäftsprozessen vor und der Anwender kann gar nicht unterscheiden ob ein Dokument OCR´t werden muss oder nicht – von Außen über den Adobe Reader oder auf dem Drucker betrachtet kann das nicht sofort erkannt und unterschieden werden.

Würde man jetzt generell jedes PDF Dokument / Seite auf die gleiche Art und Weise verarbeiten unabhängig davon wie diese aufgebaut sind und ob eine OCR Verarbeitung Sinn macht oder nicht, gäbe es dabei einige Nachteile:

Dabei wird jede PDF Seite unabhängig vom Aufbau und Inhalt nochmals „gerastert“ also in ein Bild umgewandelt und danach OCR verarbeitet – das ist so wie wenn man das Dokument ausdruckt, nochmals einscannt und dann einer OCR Verarbeitung unterzieht. Man erhält damit aus einer „normalen“ PDF Seite ein Bild mit darunterliegendem per OCR Engine erkanntem Text

die Qualität ist nicht mehr die gleich wie vorher
die Dokumente werden dadurch größer
spezielle PDF Eigenschaften gehen damit verloren (Bookmarks, Links, usw.)
Verarbeitungszeit und Ressourcen werden verbraucht
OCR Seitenlizenzen werden unnötig verbraucht

Eine PDF OCR Verarbeitung sollte also „intelligent“ stattfinden damit im Prozess und durch den Anwender nicht mühsam unterschieden und entschieden werden muss ob ein PDF Dokument einer OCR Verarbeitung unterzogen werden muss oder nicht. Noch schwieriger ist dies wenn ein einzelnes PDF Dokument gemischt aus normalen und eingescannten Teilen bestehen.

Deswegen haben wir in AutoOCR eine intelligente OCR Verarbeitung integriert, welche in gleicher Weise sowohl mit der Abbyy als auch mit der iOCR OCR Engine funktioniert. Das kann kann pro Eingangsordner bzw. für die Web-Service Schnittstelle über das OCR Profil gesteuert werden und steht sowohl für die PDF>PDF sowie für die PDF>TXT Verarbeitung zur Verfügung.

Highlights – Intelligente PDF OCR Verarbeitung:

funktioniert sowohl für die PDF>PDF sowie für die PDF>TXT Verarbeitung
für die Abbyy OCR sowie iOCR Engine
bei der Folder sowie für die Web-Service Verarbeitung
das PDF Dokument als auch jede einzelne Seite werden analysiert und nur jene Seiten OCR verarbeitet die keinen Text beinhalten – das sind üblicherweise gescannte Seiten die noch nicht OCR verarbeitet wurden.
bestehende normale PDF Dokumente und Seiten werden unverändert übernommen und nicht verarbeitet
bereits OCR´te Dokumente und Seiten werden ebenfalls nicht nochmals verarbeitet.
bei der PDF>TXT Verarbeitung wird der Text aus den normalen PDF Seiten extrahiert und OCR nur auf Seiten ohne Text durchgeführt.
PDF Funktionen und Bookmarks bleiben erhalten und werden ins Zieldokument übernommen.
spart Verarbeitungszeit und Abbyy OCR Seitenlizenzen
die Dateien werden nicht vergrößert
die Qualität der PDF Seiten bleibt erhalten.

Die „intellligente PDF-OCR Verarbeitung“ findet sich neben AutoOCR auch in allen andern unserer Softwareprodukte die eine OCR Verarbeitung unterstützen z.b. ifresco Profiler, FileConverter, DropOCR, PDFMerge usw.

iPaper – Neue Version 2.1.36

2013-07-11

Die iPaper Version 2.1.36 verfügt über folgende Neuerungen:

Neues kombiniertes 32 und 64bit Setup
Das Setup ist mit einer Software Signatur versehen und bietet daher zusätzliche Sicherheit
Der Druckertreiber basiert auf der aktuellen eDocPrintPro Version 3.18.4 sowie auf GhostScript 9.0.6
Das Setup prüft ob bereits eine bestehende alte iPaper Installation vorhanden ist und ermöglicht die Installation nur nach einer vorherigen Deinstallation der alten Version damit nicht irrtümlicherweise zwei Versionen parallel installiert werden.
iPaper wird nach der erfolgreichen Installation gleich auch automatisch gestartet.
iPaper unterstützt jetzt die aktuellsten Betriebssysteme und wurde mit diesen getestet: Windows 8 – 32 und 64bit, Windows Server 2008 R2 – 64bit, Windows Server 2012 – 64bit, Citrix XenApp 6.5 – 64bit

Download – iPaper 32 & 64bit >>>

Als Installationsvoraussetzung prüft das Setup ob die GhostScript Version 9.0.6 bereits vorhanden ist. Falls nicht, so wird GS automatisch von unserem FTP Server heruntergeladen und installiert. Das GS Setup kann jedoch auch vorher ausgeführt werden.

GhostScript 9.0.6 Setup:

Download – GhostScript 9.0.6 MSI Setup – 32bit (ca. 18MB) >>>
Download – GhostScript 9.0.6 MSI Setup – 64bit (ca.18MB) >>>

ifresco AutoOCR – JavaDoc für den AutoOCR Client verfügbar

2013-07-11

Um die AutoOCR Client Funktionen der Alfresco AutoOCR Integration – ifresco Transformer für AutoOCR – aus Java Anwendungen heraus verwenden zu können gibt es jetzt auch eine JavaDoc Beschreibung der zur Verfügung stehenden Funktionen.

Download JavaDoc für AutoOCR Client >>>