Publikation zu den von CompGen erhobenen Verlustlisten des Ersten Weltkriegs

Ein Hinweis von @MichaelRosePhD:

DE JUAN, ALEXANDER, FELIX HAASS, CARLO KOOS, SASCHA RIAZ and THOMAS TICHELBAECKER. 2023. War and Nationalism: How WW1 Battle Deaths Fueled Civilians’ Support for the Nazi Party. American Political Science Review: 1–19. doi:10.1017/S000305542300014X

Ihr wusstet von der Forschung (nicht notwendigerweise von der Publikation), oder? Weil einfach so kommen die Leute ja nicht an die Daten, nicht wahr?

VG
Michael

Gibt es u. a. hier: War and Nationalism: How WW1 Battle Deaths Fueled Civilians’ Support for the Nazi Party | American Political Science Review | Cambridge Core - falls jemand lesen möchte.

Das kann @jzedlitz besser beantworten. Ich sehe bei Google Scholar 4 Publikationen, die denselben Datenbestand zitieren: Google Scholar

Mindestens für die beiden Studien von Thilo Huning und Fabian Wahl gilt, dass die Daten gescrapt wurden, ohne uns zu fragen:
https://doi.org/10.1016/j.euroecorev.2021.103776
https://doi.org/10.1016/j.jce.2021.01.004

Wichtig zu sehen ist, dass das absolut nicht illegal ist. Hier gelten die Regeln zum Text und Data Mining im Urheberrecht:
§ 44b UrhG - Einzelnorm definiert, was das ist, und dass es zulässig ist (außer die Rechteinhaber behalten es sich explizit vor, was wir nicht tun).
§ 60d UrhG - Einzelnorm privilegiert noch mal die wissenschaftlichen Institutionen besonders. Ausgenommen sind allerdings ehrenlose Privatunis nach britischem Muster („Forschungsorganisationen, die mit einem privaten Unternehmen zusammenarbeiten, das einen bestimmenden Einfluss auf die Forschungsorganisation und einen bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung hat“), da könnte man vielleicht noch mal kritisch draufgucken.

Das Problem ist nicht, dass Scrapen generell böse wäre, das Problem ist, dass die Daten unsauber zitiert werden. Wenn ich es richtig sehe, zitieren sowohl de Juan et al. als auch Huning/Wahl die Verlustlisten nicht hinreichend transparent.

Die Daten dürfen aber nicht wieder zum Download veröffentlicht werden. So steht es auch in den beiden Paragraphen des UrhG. Gerade hat nochmal das Landgericht München bestätigt, dass auch einfachste Strukturen unter § 87a/b UrhG fallen.

Das ist richtig. Und es beißt sich mit der Tendenz in der wissenschaftlichen Forschung, dass die Veröffentlichung von Open Research Data zunehmend auch auf der Mikroebene erwartet wird. Umso wichtiger ist es, dass wir Daten entweder archivieren und fallweise zugänglich machen oder auch frei veröffentlichen, beides mit transparenter Zitiermöglichkeit.

Vielleicht helfen ein paar Handreichungen für Wissenschaftler u.a. wie man richtig zitiert und transparent an die Daten kommt (auch so, dass es für Replikationsrepos bei Zeitschriften tauglich ist).

Ich denke da sowohl an einen Text-Baustein auf der Projektseite oder gar ein Portal für Wissenschaftler (auf Englisch).

Die Namensangaben aus den Verlustlisten finden sich auch unter project / namensverbreitung · GitLab

Ich habe mit Alexander De Juan Kontakt aufgenommen, u.a. um diese Forschungsdaten-Prozesse zu verbessern und damit die im Projekt erarbeiteten Korrekturen wieder in unsere Datenbestände zurückfließen. Ich sehe so ein Portal für Wissenschaftler auch als Thema für @JMGoldberg und @Katrin_Moeller.

…und damit sie auf Twitter auch anständig die Arbeit der Freiwilligen würdigen: https://twitter.com/felixhaass/status/1641357904572719105

PS: die Studie von De Juan et al. beruht auf einem Datenauszug, den @jzedlitz im Dezember 2020 der Gruppe zur Verfügung gestellt hatte. Es handelt sich um eine anonymisierte Fassung vom 7.3.2019. Das ist also so gelaufen, wie wir es uns wünschen. Aber: Noch besser wäre es, wenn

  • diese Fassung eine DOI oder eine andere permanente eindeutige Kennung hätte
  • ein Kommunikationsweg etabliert worden wäre, der die Forschergruppe über nachfolgende Verbesserungen der Erfassung (vor allem beim Verluststatus) informiert hätte.

Soweit als Überlegungen für die Zukunft.