zeit.punktNRW mit neuen OCR-gelesenen Zeitungen

Originally published at: https://www.compgen.de/2023/07/zeit-punktnrw-mit-neuen-ocr-gelesenen-zeitungen/

Regelmäßig berichten wir hier im Blog des Vereins für Computergenealogie (CompGen) über die Neuigkeiten aus dem nordhein-westfälischen Zeitungsportal zeit.punktNRW. Die Zeitungen sind durchsuchbar. Historiker, Familien- und Ahnenforscher können nach Namen und Orten oder anderen Stichworten suchen, die in den Artikel und Anzeigen auftauchen. Dabei sind auch Familienanzeigen zu finden.

Dr. Michael Herkenhoff von der Universitäts- und Landesbibliothek Bonn schreibt:

Wieder ist die Einspielung einer Volltexttranche in zeit.punktNRW abgeschlossen. Es handelt sich um ca. 650.000 Seiten mit Volltexten von Zeitungen mit den Anfangsbuchstaben V-Z. Nachfolgend die Liste der texterkannten Zeitungen:

  • Essener Volkszeitung
  • Verfolger der Bosheit
  • Viersener Bürgerzeitung
  • Viersener Volkszeitung
  • Viersener Zeitung
  • Volks-Blatt Wiedenbrück
  • Volksblatt
  • Volksstimme
  • Volkswille Gelsenkirchen
  • Werdener Zeitung
  • Werner Zeitung
  • Westdeutsche Zeitung
  • Westfälischer Beobachter
  • Westfälischer Kurier
  • Westfälischer Merkur
  • Westfälisches Tageblatt
  • Westfälisches Volksblatt
  • Westfälische Landeszeitung
  • Westfälische neueste Nachrichten
  • Westfälische Post
  • Westfälische Rundschau
  • Westfälische Tageszeitung
  • Westfälische Zeitung
  • Westphälischer Anzeiger
  • Westphälische Zeitung
  • Westphalia 8556131
  • Wipperfürther Kreis-Intelligenzblatt
  • Wittener Tageblatt
  • Wittener Volkswacht
  • Wittener Zeitung
  • Wochenblatt für den Kreis Tecklenburg
  • Wochenblatt für die Stadt und den Kreis Hamm
  • Wochenblatt für die Stadt und den Kreis Kleve
  • Wochenblatt und Anzeiger für den Kreis Schleiden und Umgegend
  • Wochenschrift für das Fürstenthum Minden
  • Zeno-Zeitung
  • Zülpicher Zeitung

Mit dieser Einspielung ist der zweite Durchgang der OCR-Erkennung abgeschlossen. Inzwischen ist schon die dritte Runde angelaufen, d.h. Zeitungen mit den Anfangsbuchstaben A-G sind momentan in der Erkennung und die Volltexte werden in absehbarer Zeit eingespielt.

Mit heutigem Stand enthält das Portal 16.964.591 Seiten, von denen 14.489.092 Seiten zur Nutzung freigegeben sind und 12.156.365 Zeitungsseiten, die inzwischen auch im Volltext verfügbar sind. Das sind ca. 84 Prozent aller freigegebenen Seiten!

Die Einspielung der nordrhein-westfälischen Zeitungen in das nationale Zeitungsportal geht kontinuierlich voran. Auch hier ist ein erster Durchgang inzwischen fast abgeschlossen. Es bleibt noch zu vereinbaren, wie die Neuzugänge in zeit.punktNRW künftig in das Deutsche Zeitungsportal DDB-Portal überführt werden.

Zurzeit werden ungefähr 370 Masterfilme von Zeitungen, die im Barbarastollen im Schwarzwald eingelagert sind, von einem Münchener Dienstleister digitalisiert. Eine erste Datenlieferung hat die ULB Bonn bereits erhalten. Bis die digitalisierten Zeitungen allerdings im System bearbeitet und freigegeben sind, wird es eine ganze Weile dauern.

Aufgrund einer Systemumstellung werden in Bonn voraussichtlich bis Jahresende keine Zeitungen katalogisiert und freigegeben werden können. Die vorbereitenden Arbeiten „Digitalisierung und Strukturierung der Zeitungen in unserem System“ laufen aber weiter.

Michael Herkenhoff
(mit Dank an Volker Wilmsen für die Weiterleitung)

2 „Gefällt mir“