Ideen für neue Arten der Erschließung gesucht

In meinem Blogbeitrag Neue Wege, gedruckte serielle Quellen zu erschließen habe ich beschrieben, wie ich mit Hilfe von machine learning die strukturierte Erfassung von Quellen effizienter machen will. Vielleicht hat ja in dieser Runde jemand entsprechende Kenntnisse und Ideen, um uns bei dem Vorhaben zu unterstützen.

1 „Gefällt mir“

Ist es nur Hype oder gewinnt KI gerade mächtig an Bedeutung? Wie steht es um
ChatGPT "spricht" GEDCOM - Revolutionäre Möglichkeiten für die Genealogie ?

@Hermann_Hartenthaler beschreibt ausführlich sein Vorgehen. Vermutlich bin ich zu ungeduldig, aber ich vermisse Reaktionen, Zustimmung, Ablehnung, Unglauben…

Ist das hier der Platz um z.B. über KI zu sprechen? Chancen und Risiken zu identifizieren und zu bewerten?

1 „Gefällt mir“

Tatsächlich scheint sowohl Defragmentierung als auch Strukturerkennung erstaunlich gut zu funktionieren. Die Defragmentierung habe ich sowohl mit ChatGPT May 3 Version als auch mit dem offenen Modell OA_SFT_Llama_30B_6 ausprobiert. Man kann gut überprüfen, ob alle Zeichen der Ausgabe auch in der Eingabe vorkamen - sonst hat der Generator halluziniert.

Hier das Ergebnis einer Strukturerkennung mit *OA_SFT_Llama_30B_6 *:

{
    "Name": "Brabeck Josef",
    "Title": "Oblt.",
    "Unit": "FJB. Nr. 6",
    "Company": "1. Komp.",
    "Location": "Zichowitz",
    "Injury": "Schuß in den linken Ellbogen",
    "Hospital": "Rudolfspital in Wien",
    "RoomNumber": "III."
}

Das ist schon wirklich beeindruckend, zumal ich gar nichts vorgegeben hatte, um welche Art von Informationen es sich handelt.

Wenn man das alles geschickt in einem Arbeitsablauf kombiniert, könnte das die Art, wie wir serielle Quellen aufbereiten, total umkrempeln.

2 „Gefällt mir“

Nichts weniger hatte ich erwartet. Es ist der revolutionäre Schritt von der Schwarmintelligenz zur Künstlichen Intelligenz. Das wird die Geschwindigkeit in der man serielle Quellen auswerten kann, um mindestens eine Größenordnung beschleunigen. Es bleibt in einem neuen Arbeitsablauf sicherlich immer noch genug für viele fleissige Helfer zu tun und natürlich sollte man weiterhin automatisierte und manuelle Qualitätssicherungsschritte einbauen.

Und es hört ja nicht bei seriellen Quellen auf. Mein Beispiel einer Biografie ist ja unstrukturierter Text und da funtioniert es auch noch. Als nächstes sollten wir uns jetzt auch Gerichtsprotokolle, Ortschroniken, Familienanzeigen, etc. ansehen.

1 „Gefällt mir“