[Eisfair] Tesseract >3.05 ?

Jürgen Bombelczyk bludworscht at gmx.de
So Mär 26 16:32:14 CEST 2017


Hallo NG,

ich spiele hier gerade etwas mit Tesseract.
Dazu scanne ich mehrseitige Dateien als pdfs.
In einem Script lasse ich dann folgendes ablaufen:
- Trennen der Seiten mit Ghostscript in Tifs.
- Tifs von Tasseract in durchsuchbare pdfs wandeln.
- pdfs mit Ghostscript pdfwrite wieder zu einem Dokument zusammenbauen.

Irgendwie baut mir Ghostscript aus den einzelnen pdfs von Tesseract 
kaputte pdfs. Sämtliche Wörter enthalten nach dem Zusammenbau ein 
Lehrzeichen zwischen den Buchstaben.

Wie ich auf dem Wiki von Tesseract gelesen habe sollte dies ab Version 
3.05 nicht mehr passieren. Gibt es eine Chance das Paket auf mindestens 
3.05 zu heben?
Ausprobiert habe ich eine 4.0 Version auf einem Ubuntu System. Hier gabs 
keine Probleme mit dem Zusammenbau.

Könnt Ihr das Paket Tesseract auf mindestens 3.05 heben?
Ich teste gerne.

Grüße
Jürgen


Mehr Informationen über die Mailingliste Eisfair