Publikation zu den von CompGen erhobenen Verlustlisten des Ersten Weltkriegs

Georg.Fertig · 27. April 2023 um 15:05

DE JUAN, ALEXANDER, FELIX HAASS, CARLO KOOS, SASCHA RIAZ and THOMAS TICHELBAECKER. 2023. War and Nationalism: How WW1 Battle Deaths Fueled Civilians’ Support for the Nazi Party. American Political Science Review: 1–19. doi:10.1017/S000305542300014X

MichaelRosePhD · 27. April 2023 um 20:53

Ihr wusstet von der Forschung (nicht notwendigerweise von der Publikation), oder? Weil einfach so kommen die Leute ja nicht an die Daten, nicht wahr?

VG
Michael

mjohne · 28. April 2023 um 02:27

Gibt es u. a. hier: War and Nationalism: How WW1 Battle Deaths Fueled Civilians’ Support for the Nazi Party | American Political Science Review | Cambridge Core - falls jemand lesen möchte.

Georg.Fertig · 28. April 2023 um 10:59

Das kann @jzedlitz besser beantworten. Ich sehe bei Google Scholar 4 Publikationen, die denselben Datenbestand zitieren: Google Scholar

Mindestens für die beiden Studien von Thilo Huning und Fabian Wahl gilt, dass die Daten gescrapt wurden, ohne uns zu fragen:
https://doi.org/10.1016/j.euroecorev.2021.103776
https://doi.org/10.1016/j.jce.2021.01.004

Wichtig zu sehen ist, dass das absolut nicht illegal ist. Hier gelten die Regeln zum Text und Data Mining im Urheberrecht:
§ 44b UrhG - Einzelnorm definiert, was das ist, und dass es zulässig ist (außer die Rechteinhaber behalten es sich explizit vor, was wir nicht tun).
§ 60d UrhG - Einzelnorm privilegiert noch mal die wissenschaftlichen Institutionen besonders. Ausgenommen sind allerdings ehrenlose Privatunis nach britischem Muster („Forschungsorganisationen, die mit einem privaten Unternehmen zusammenarbeiten, das einen bestimmenden Einfluss auf die Forschungsorganisation und einen bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung hat“), da könnte man vielleicht noch mal kritisch draufgucken.

Das Problem ist nicht, dass Scrapen generell böse wäre, das Problem ist, dass die Daten unsauber zitiert werden. Wenn ich es richtig sehe, zitieren sowohl de Juan et al. als auch Huning/Wahl die Verlustlisten nicht hinreichend transparent.

jzedlitz · 28. April 2023 um 11:25

Die Daten dürfen aber nicht wieder zum Download veröffentlicht werden. So steht es auch in den beiden Paragraphen des UrhG. Gerade hat nochmal das Landgericht München bestätigt, dass auch einfachste Strukturen unter § 87a/b UrhG fallen.

Georg.Fertig · 28. April 2023 um 11:29

Das ist richtig. Und es beißt sich mit der Tendenz in der wissenschaftlichen Forschung, dass die Veröffentlichung von Open Research Data zunehmend auch auf der Mikroebene erwartet wird. Umso wichtiger ist es, dass wir Daten entweder archivieren und fallweise zugänglich machen oder auch frei veröffentlichen, beides mit transparenter Zitiermöglichkeit.

MichaelRosePhD · 28. April 2023 um 14:20

Vielleicht helfen ein paar Handreichungen für Wissenschaftler u.a. wie man richtig zitiert und transparent an die Daten kommt (auch so, dass es für Replikationsrepos bei Zeitschriften tauglich ist).

Ich denke da sowohl an einen Text-Baustein auf der Projektseite oder gar ein Portal für Wissenschaftler (auf Englisch).

Georg.Fertig · 4. Mai 2023 um 13:54

Die Namensangaben aus den Verlustlisten finden sich auch unter project / namensverbreitung · GitLab

Georg.Fertig · 22. Juni 2023 um 13:24

Ich habe mit Alexander De Juan Kontakt aufgenommen, u.a. um diese Forschungsdaten-Prozesse zu verbessern und damit die im Projekt erarbeiteten Korrekturen wieder in unsere Datenbestände zurückfließen. Ich sehe so ein Portal für Wissenschaftler auch als Thema für @JMGoldberg und @Katrin_Moeller.

MichaelRosePhD · 22. Juni 2023 um 14:33

…und damit sie auf Twitter auch anständig die Arbeit der Freiwilligen würdigen: https://twitter.com/felixhaass/status/1641357904572719105

Georg.Fertig · 22. Juni 2023 um 14:35

PS: die Studie von De Juan et al. beruht auf einem Datenauszug, den @jzedlitz im Dezember 2020 der Gruppe zur Verfügung gestellt hatte. Es handelt sich um eine anonymisierte Fassung vom 7.3.2019. Das ist also so gelaufen, wie wir es uns wünschen. Aber: Noch besser wäre es, wenn

diese Fassung eine DOI oder eine andere permanente eindeutige Kennung hätte
ein Kommunikationsweg etabliert worden wäre, der die Forschergruppe über nachfolgende Verbesserungen der Erfassung (vor allem beim Verluststatus) informiert hätte.

Soweit als Überlegungen für die Zukunft.