Open Access oder Protektionismus

Ich habe Tanja bereits per PN geantwortet und darum gebeten, dass das Thema erst einmal weiter zu durchdenken sei, bevor unausgegohrene Eier gelegt werden. Inzwischen habe ich von Jesper auch Zugang zur Swagger-Definition der Schnittstelle zur Metasuche erhalten. Also auch hier geht es technisch voran.

Viele Grüße,
Clemens

Und zum Vernetzen?

@Bernhard.Mosolf
Und zum Vernetzen?

Ich verstehe deine Frage nicht. Eine REST-Schnittstelle ist die Definition der Vernetzung von Kommunikationspartnern im Internet.

Warte mal, ich zitiere Dich

Offensichtlich nicht. Ich habe es nicht auf Anhieb verstanden.

Jetzt, nachdem ich mich informiert habe, bekomme ich die Spur einer Ahnung zur Dimension.

Frage: Die Teilnahme der Systeme lässt sich steuern? Über z.B. einen Schlüssel?

Anders gefragt: Würdest Du rein kommerzielle Systeme teilhaben lassen oder ausschließen?

Bedingungen setzen?

Bis denne…
Bernhard

Mal wieder zurück zum eigentlichen Thema „Open Access“ bzw. „Open Data“ (vielleicht lässt sich der Exkurs zur Metasuche noch vorsichtig abtrennen).

Bei „Open Data“ haben wir in der Genealogie eine Besonderheit, die in der Form möglicherweise einzigartig, zumindest selten ist: wir haben es mit einem Markt zu tun, auf dem es auf dem es einige sehr große, finanzstarke kommerzielle Anbieter gibt, die auch vor „unsauberen“ Datenübernahmen (Stichwort Bremer Passagierlisten) nicht zurückschrecken. Würden wir unsere hochwertigen Daten (insbesondere die großen flächendeckenden Datenbestände) nun als „Open Data“ zum Download bereitstellen, würden sie vermutlich sofort von diesen Anbietern übernommen.

Darüber wären unsere freiwilligen Mithelfer:innen bestimmt not amused. Selbst wenn wir eine Nennung von CompGen (und anderen Vereinen) verlangen könnten, so wäre es doch sehr zweifelhaft, ob die Kundengruppe das überhaupt mitbekommt. Die Daten kommen aus ihrer Sicht einfach vom großen Anbieter und es lohnt sich augenscheinlich wirklich, dafür Geld auszugeben.

Aus dem Grund sind wir übrigens bei Coding da Vinci Ost³ nur mit Auszügen der Verlustlisten des 1. Weltkriegs dabei.

2 „Gefällt mir“

Da stimme ich Dir zu!

Ich hatte zuvor gefragt

Da wäre dann also eine Lizenz zu wählen, die kommerzielle Nutzung draußen vor lässt.

Ich würde mich jetzt mal über mehr Beteiligung freuen. Zuspruch oder Ablehnung oder neue Gedanken.

Gespannt
Bernhard

Moin @jzedlitz, der Aspekt, den du hier zu bedenken gibst ist ganz richtig. Wer seine „Open-Data“ allzu leichtfertig zugänglich als Download anbietet muss damit rechnen, dass kommerzielle oder andere Datensammler dieses Angebot auch wahrnehmen. Ob hiergegen eine speziell verfasste Lizenz schützen kann vermag ich als Nicht-Jurist nicht treffsicher zu beurteilen.

Ich würde auch nie auf die Idee kommen große, wertvolle Datenbestände einfach so als Komplettbestand downloadbar zu machen, um dies dann als Open-Data zu bezeichnen. Viel spannender ist doch die Frage danach, wie man die aktuell durch einen einzelnen Familienforscher aktuell gesuchte und für seine Arbeit benötigte und begrenzte Teilmenge eines Datenbestandes zur Verfügung stellen kann und wie und wo er an die von ihm benötigten Daten gelangt.

Dein Hinweis wirft einen ganz neuen Aspekt zum „Protektionismus“ auf: Wie schütze ich als Anbieter meine umfangreichen Datenbestand gegen unlauteren Missbrauch. Hinter professionell implementierten Bezahlschranken sind die Datennutzer jederzeit identifizierbar. Beim Open-Data-Download-Angebot ganz sicher nicht. Für eine Vernetzung von nachgefragten Teildatenbeständen eines Einzelnutzers können in der Tat Schlüssel eine technische Absicherung gewähren. Ebenso können sie auch in einer vernetzten Datenschnittstelle zwischen unterschiedlichen Datenbankbetreibern einen Schutz darstellen: (API-Keys, Session-Key, Authentification für REST-Teilnehmer, Captchas,…). Wir haben im Namensindex auch mit einer Reihe unterschiedlicher Methoden Vorkehrungen gegen allzu plumpes Data-Harvesting getroffen.

Zu bendenken gilt jedoch, dass jemand der einen Datenbestand über das Internet versucht abzuernten immer auch nur einen tagesaktuellen Snapshot erhält, sofern er nicht in regelmäßigen Abständen diese „Ernte“ wiederholt, um auch Ergänzungen, Korrekturen oder Updates „mitzunehmen“. Dies mag für indexierte Daten eine Rolle spielen, deren Bestand fortlaufend aktualisiert wird.

Protektionismus sollten wir also in zwei Facetten getrent voneineander betrachten: Der legitime Schutz eines Gesamtdatenbestandes gegen „missbräuchlichen Abgriff“ versus Schutz einer angefragten kleinen Teilmenge des Datenbestandes, um damit Open-Access-behindernde Ziele zu verfolgen… z.B. die vielfach gerügte „Bezahlschranke“.

Die Compgen Metasuche beinhaltet übrigens mit seiner Empfehlung „liefere max. 20 Ergebisse“ aus der Suchanfrage bereits einen solchen Schutz gegen das übermäßige Data-Harvesting.

Viele Grüße,
Clemens

Dagegen kann man sich zur Wehr setzen. Wenn wir dergleichen entdecken machen wir es öffentlich.

Und in jede Datenbank kann man Kontroll-Einträge unterbringen. Es muss ja nicht gleich die

image

sein.

Bis denne…

Bernhard

1 „Gefällt mir“

Hallo Jesper,

[jzedlitz] jzedlitz https://discourse.genealogy.net/u/jzedlitz
23. Januar

Würden wir unsere hochwertigen Daten (insbesondere die großen
flächendeckenden Datenbestände) nun als „Open Data“ zum Download
bereitstellen, würden sie vermutlich sofort von diesen Anbietern übernommen.

Darüber wären unsere freiwilligen Mithelfer:innen bestimmt /not amused/.

Den Fall „unamüsierter“ Helfer/-innen gab/gibt es schon: FamilySearch
hat ja seit einigen Jahren Kooperationen mit MyHeritage, Ancestry etc.
(die ohne FS-Daten nicht auskommen). In der aktuellen Ausgabe der CG
zitiere ich im Artikel darüber aus Pressemitteilungen von FS, in denen
offenbar aufgebrachte ehrenamtliche Helfer beruhigt werden sollten, die
sich genau darüber aufgeregt haben; die Pressemitteilungen sind in der
Linkliste verlinkt.

FS schwurbelt dann in die Richtung, dass die Daten so eben noch mehr
Menschen glücklich machen. Ob das die Helfer glücklich gemacht hat, weiß
ich nicht.

Schöne Grüße,
Renate

1 „Gefällt mir“

Hallo liebes Zweimann-Team @Clemens_Draschba und @jzedlitz,
ich möchte Clemens’ Vorschlag unterstützen, die Meta-Suche zu überarbeiten und zu optimieren. Aus Nutzersicht bitte ich um eine kleine, mutmaßlich nicht aufwendige Änderung: die Trefferliste ist pro angeschlossener Datenbank auf 20 Treffer beschränkt. Das ist bei zur Zeit 15 abgefragten Datenbanken bereits massiv unterdimensioniert.
Selbst bei wenig verbreiteten Namen erscheinen nicht alle Ergebnisse. Man muss dann in der Metasuche die Datenbanken einzeln abfragen, nur um in vielen Fällen wieder „abgebrochene“ Trefferliste zu erhalten und dann z. B. alle Adressbücher einzeln abfragen zu müssen.

Ich schlage vor diese Begrenzung einfach herauszunehmen!
Falls das aus programmiertechnischen Gründen nicht ratsam sein sollte, macht bitte aus der 20 wenigstens eine 2000.
Viele Grüße
Nicole

Die 20 Treffer zählen pro abgefragter Datenbank. Es handelt sich auch nur einem Empfehlung, die konkrete Zahl wird vom jeweiligen Datenbankbetreiber festgelegt. Man kann 5 oder aber 500 Treffer an die Metasuche liefern.

1 „Gefällt mir“

Guten Morgen,

@jzedlitz, du als Spezialist, erkläre bitte der Nicole warum 20 besser ist als 2000.

Danke

Moin @Andreas_Sichelstiel , @Nicole_Hartmann ,

das ist bei der aktuellen Softwarergonomie der Präsentation der Fundstellen nicht nur sinnvoll sondern auch dringend geboten: 20 Fundstellen x 15 Datenbanken macht eine noch halbwegs überschaubare Ergebnisliste von 300 Einträgen auf der Webseite. Hast du schon einmal auf einem Smartphone-Display versucht 2.000 x 15 = 30.000 Einträge in einem kleinen Fenster durchzuscrollen? Das führt zu einer eher frustrierenden Benutzungserfahrung. Das macht nur Sinn, wenn die Ergebnisse weiter und umfangreicher gefiltert werden können als bisher und zugleich die Sortierung der Fundstellen anpassbar ist.

Einfach nur die Anzahl auf 2.000, was ein ebenso willkürlicher Wert ist, aufzublasen macht weder technisch noch softwareergonimisch einen Sinn.

Nur meine Meinung,
Clemens

3 „Gefällt mir“

… by the way: Solche Detailierungsfilter und Sortieroptionen, die der Nutzer auf der Grundlage der gefundenen Datensätze durchführen möchte sind eine perfekte Anwendung für sogenannte Single-Page-Applikationen im Web.

Sie werden im Kontext des Webbrowsers des Anwenders durchgeführt und belasten somit nicht weiter die Serverinfrastruktur des Metasuchmaschinen-Betreibers, die Schnittstelle zu den angeschlossenen Teilnehmern oder die, an die Metasuche angeschlossenen Backend-Datenbanken.

Clemens

Hallo Clemens,

die größte Schwierigkeit, die ich mit der Metasuche habe, ist die Suche nach Einträgen in DES.

Nachdem ich 20 DES-Ergebnisse angezeigt bekommen habe, erhalte ich die Meldung, dass sich mehr Ergebnisse für meine Anfrage im DES befinden - und dass ich meine Suche direkt in der Projektdatenbank wiederholen soll.

Wenn ich allerdings auf den DES-Link klicke, kann ich nicht wissen, in welcher der +300 einzelne DES-Datenbanken ich suchen soll. Ich kann nur jeder DES-Datenbank einzeln durchsuchen.

Ist es möglich, einen genaueren Hinweis darauf zu bekommen, welche DES-Datenbank(en) Ergebnisse für meine Anfrage enthalten?

Oder habe ich eine Information übersehen, wie ich das DES effektiver durchsuchen kann?

Für einen Tipp danke ich im Voraus
Nancy

Hallo Jesper,
das habe ich ja auch geschrieben: pro angeschlossener Datenbank auf 20 Treffer begrenzt.

Hallo @NancyMyers ,

Der Link und der „Suchkomfort“ für das weiterführende Rechercheangebot in den einzelnen „Teilnehmer“-Datenbanken, über die ersten 20 Ergebnisse hinaus, ist in der Verantwortung der Datenbankbetreiber. Er wird von diesem über die Meta-Schnittstelle zur Verfügung gestellt. Im Falle des DES also CompGen selbst :wink:.

Wenn sich die Suchproblematik im DES so darstellt, wie du es beschreibst, dann müsste in der Tat die Suchmöglichkeit im DES selbst verbessert oder detaillierter werden. Das hat dann aber keinerlei Zusammenhang mit der Funktionalität der Metasuche.

Die Metasuche stellt aktuell nur eine Funktion für die ersten X (wieviele auch immer) gefundenen Einträge dar. Alles was darüber hinausgeht ist in der Verwantwortung des Teilnehmer-Datenbank-Betreiber… und das Prinzip funktioniert ja auch grundsätzlich… es fehlt, nach meiner Meinung nur eine filigranere Feinabstimmung der Filterkriterien zur gezielteren Metasuche.

Wir Familienforscher haben bei jeder Suche zumindest einen Bezug zu einem Namen, (idealerweise bestehend aus Familienname und Vorname(n) , einer groben Zeitangabe und (hoffentlich) zu einer geografischen Region oder einem konkreten Ort.

Das war mein ursprüngliches Anliegen am Anfang dieser Diskussion: Machen wir doch aus der „Such-Funktion“ eine bessere „Finde-Funktion:grinning: und binden wir dabei weitere Teilnehmer mit ein - zum Beispiel: Weitere Vereine mit ihren TNG-Datenbeständen.

Liebe Grüße,
Clemens

Die Zahl 20 ist ebenso willkürlich wie die Zahl 2000 oder jede andere Zahl. (Die Zahl 2000 war nur gedacht, falls technische Gründe die Herausnahme erschweren).

Deshalb ist, wie bereits dargelegt, mein eigentlicher Wunsch die Begrenzung herauszunehmen!
Wie Nancy es schon geschildert hat, ist eine sinnvolle Suche oft nicht möglich. Im Falle des DES erhält man dann im Regelfall nämlich schon wieder eine unvollständige Trefferliste!

Was genau soll ich als Nutzer mit einer „Meta-Suche“, die mir die Option „alle Treffer zeigen“ in zunehmendem Maße verweigert und mich zunehmend zwingt, die zugrunde liegenden Datenbanken einzeln zu durchsuchen?
Bitte lasst den Nutzer entscheiden, ob er sich „alle Treffer“ ansehen will (und mit welchem Endgerät er das tut) oder ob er die Suche weiter einschränkt um weniger Ergebnisse zu erhalten. Das funktioniert bei den „großen Datenbanken“ (familysearch und Co.) ja auch.

Klartext: ich kenne die Meta-Suche seit langem und nutze sie gar nicht, weil ich in den meisten Fällen ja sowieso Datenbanken einzeln abfragen muss.
Das kann ich dann auch gleich ohne den Umweg über die Meta-Suche tun und erhalte vollständige Trefferlisten.
Schade um die viele Arbeit bei der Programmierung!

Clemens schrieb: „Wir Familienforscher haben bei jeder Suche zumindest einen Bezug zu einem Namen, (idealerweise bestehend aus Familienname und Vorname(n) , einer groben Zeitangabe und (hoffentlich) zu einer geografischen Region oder einem konkreten Ort.“
Nein, das ist nicht immer so. Der Anwendungsfall „Familiennamen“ ohne jegliche Eingrenzung ist durchaus gegeben!

Die beste Option ist „keine“ Begrenzung.