„Big“ Data – wie groß ist das eigentlich?

Originally published at: „Big“ Data – wie groß ist das eigentlich? • Verein für Computergenealogie e.V. (CompGen)

Kaum jemand hat eine intuitive Vorstellung von der Größe digitaler Archive. Das ist beim Reden über mögliche und unmögliche Projekte – auch in der Familien- und Ahnenforschung – oft hinderlich. Wie viel Platz braucht Sci-Hub, das Internet-Archive oder ein komplettes Twitter-Archiv in Tera- oder Petabytes und in Kubikmetern? Was kostet die Aufbewahrung? Und was hat sich daran in den letzten Jahren geändert? Wie groß ist „Big“ Data eigentlich?

Zum Vortrag „Rucksack oder Rechenzentrum“

Diesen Fragen geht die Schriftstellerin und Bloggerin Kathrin Passig in ihrem Abschlussvortrag mit dem Titel „Rucksack oder Rechenzentrum“ bei der Jahrestagung des Verbands „Digital Humanities im deutschsprachigen Raum e.V.“ nach. Die Tagung fand vom 7. bis zum 11. März 2022 unter dem Thema „Kulturen des digitalen Gedächtnisses“ an der Universität Potsdam und der Fachhochschule Potsdam statt. Sie wurde digital mit Zoom organisiert.

Kathrin Passig beschreibt sehr verständlich und anschaulich, wie viele Tera- oder Petabytes nötig sind, um z.B. große Datenmengen wie das Datenarchiv der amerikanischen Library of Congress zu speichern. Im Vortrag kann man mitmachen und eigene Einschätzung testen – etwa, wie viele Festplatten für die genannten Datenbanken nötig sind, und ob die auch alle in einen Rucksack passen. Sie ruft dringend dazu auf, die deutschen Twitter-Meldungen zu archivieren, und sie appelliert an ihr Publikum, die eigenen Datensammlungen zu sichern, z.B. kostenlos im Internet Archive.

Auch Vorträge über GOV und Berufsbezeichnungen

In den Zoom-Sitzungen am letzten Tag der oben genannten TagungKulturen des digitalen Gedächtnisses“ sind auch zwei weitere, für die Familien- und Ahnenforschung interessante Vorträge zu finden:

  • Anne Purschwitz und Jesper Zedlitz: „Vom gedruckten Gazetteer zum digitalen Ortsverzeichnis – Das Geschichtliche Ortsverzeichnis (GOV)“,
  • Katrin Moeller und Jan Michael Goldberg: „Automatisierte Extraktion und Klassifikation von Variantenschreibungen historischer Berufsbezeichnungen in seriellen Quellen des 16. bis 20. Jahrhunderts“.

Der Vortrag zum GOV ist in der hier im CompGen-Blog vorgestellten Publikation abgedruckt; er kann kostenlos über den Link im Blogbeitrag heruntergeladen und gelesen werden.