Softi FreeOCR für Frakturerkennung

Liebe Marie-Luise, liebe OCR-Fans :wink:

um das englischsprachige Programm auch auf deutsche Texte anwenden zu können, müssen zunächst Sprachpakete für Deutsch installiert werden. Die Anleitung dafür war etwas umständlich zu finden (da nicht im Programm enthalten), aber letztendlich hat es folgendermaßen funktioniert:

1) Die Seite [http://www.paperfile.net/ocr_lang.htm\] (ohne eckige Klammern) aufrufen.
2) Dort unter "Visit Google Tesseract downloads" auf den Link "Click Here for filtered list" klicken.
3) Die Sprachpakete "tesseract-2.00.deu.tar.gz" (für Deutsch) und "tesseract-2.01.deu-f.tar.gz" (für deutsche Fraktur) downloaden (Zip-Dateien).
4) Die Zip-Dateien entpacken und deren Inhalt in den Programm-Unterordner "SoftiFreeOCR/ocr/tessdata" verschieben. Dieser Ordner sollte nach Installation des Programms bereits existieren und das englische Sprachpaket enthalten. (Der Ordner ist auch aus dem Programm raus aufrufbar, über den Reiter "OCR" --> "Open Language Folder")

Danach können deutsche Texte überhaupt erst verwendet werden, ohne dass eine Fehlermeldung angezeigt wird. Zur Qualität der Erkennung kann ich momentan noch keine Angaben machen, außer dass Umlaute und ß standardmäßig wohl kodiert wiedergegeben werden.

Herzliche Grüße,
Stefan (Münnich)

Lieber Stefan,

kannst Du das in eine noch zu erstellende Seite einf�gen, die
verschiedene M�glichkeiten, OCR-Texte zu erstellen, auff�hrt und
darstellt? Die Seite k�nnte, analog zu "B�cher scannen - aber wie?" "OCR
erstellen - aber wie?" hei�en.

Eine Seite, die kurz beschreibt, was OCR �berhaupt ist, haben wir auch
noch nicht ...

Herzlichen Gru�
Marie-Luise (Carl)