Todesursachen durch KI strukturieren lassen

Hallo,

ich habe kürzlich mit ChatGPT im Plus-Abo ein Experiment gestartet, was allerdings nicht ganz den erhofften Erfolg hatte. Vielleicht habe ich die falschen Fragen gestellt, aber vielleicht kann das die KI auch einfach nicht?

Das Experiment:
Eine OFB-Gedcom hat 60.000 Datensätze, davon ist bei 17.000 Personen eine Todesursache eingetragen. Die Gedcom habe ich in eine csv-Datei konvertiert und dann hochgeladen.
Ich habe der KI 30 Kategorien an möglichen Todesursachen vorgegeben und diverse Anweisungen erteilt (ordne alle Datensätze, die Nervenschlag enthalten der Kategorie Schlagfluss zu) usw. Das hat soweit sauber geklappt, wobei ich das mit Excel auch selbst schnell erledigt hätte.

Meine Hoffnung war, dass die KI bei uneindeutigen Todesursachen ein Muster erkennt und dann auch diese fehlenden 2000 Datensätze einer Kategorie zuordnet. Beispiel: Asthma ist eine Lungenerkrankung - das “weiß” die KI sicherlich grundsätzlich, wendet das hier aber nicht an. Oder anderes Beispiel: Durchbruch der Zähne wurde nach meiner Anweisung sauber dem Kindstod zugeordnet, nicht aber Ausbruch der Zähne. Ein Darmleiden ist eine Darmerkrankung. usw.

Was meinen die Profis hier? Sind solche Aufgaben mit ChatGPT grundsätzlich lösbar und ich habe nur die falschen Fragen gestellt oder sind meine Erwartungen zu hoch?

Ich habe jetzt mal die KI selbst befragt, warum so viele unzugeordnete Datensätze übrig blieben.

Antwort sinngemäß: die falschen Fragen, war ja klar. :grinning_face:

Das ist die von ChatGPT selbst vorgeschlagene Anweisung:

Du erhältst eine Liste von Todesursachen aus alten Kirchenbüchern oder historischen Aufzeichnungen. Die Todesursachen können historische Begriffe (z. B. „Lungensucht“, „Jammer“, „Schlagfluss“) oder moderne medizinische Begriffe (z. B. „Asthma“, „Herzinfarkt“) sein. Deine Aufgabe ist es, jede Todesursache einer von 10 vorgegebenen Kategorien zuzuordnen.

Die Kategorien sind:

  1. Lungenkrankheit
  2. Herz-Kreislauf-Erkrankung
  3. Infektionskrankheit
  4. Kindstod
  5. Krebs
  6. Unfall / Verletzung
  7. Alterskrankheit / natürliche Ursachen
  8. Magen-Darm-Erkrankung
  9. Neurologische Erkrankung
  10. Sonstige / unbekannt

Wichtige Regeln:

  • Nutze dein medizinisches Wissen, um moderne Begriffe korrekt einzuordnen, auch wenn sie nicht in den historischen Beispielen vorkommen.
  • Historische Begriffe müssen nach ihrer wahrscheinlichen Bedeutung kategorisiert werden.
  • Wenn eine Todesursache unklar oder mehrdeutig ist, ordne sie der Kategorie „Sonstige / unbekannt“ zu.
  • Liefere die Ergebnisse in Tabellenform, z. B.:
Todesursache Kategorie
Lungensucht Lungenkrankheit
Asthma Lungenkrankheit
Schlagfluss Herz-Kreislauf-Erkrankung
Jammer Kindstod

Optional: Du kannst die KI anweisen, bei unbekannten oder seltenen historischen Begriffen kurz zu erklären, warum sie eine Kategorie gewählt hat.

Liste nun alle Todesursachen aus der bereitgestellten Datei mit der zugehörigen Kategorie auf.

:light_bulb: Tipps für den Live-Test:

  1. Klein anfangen: Erst nur 50–100 der kniffligen Fälle testen. So siehst du, wie zuverlässig die Zuordnung funktioniert.

  2. Feedback-Schleife: Fehler oder Unsicherheiten direkt in den Prompt aufnehmen („Wenn unsicher, Kategorie Sonstige“) – dadurch verbessert sich die Zuordnung.

  3. Iteratives Vorgehen: Nach jedem Testlauf die besonders schwierigen Begriffe als Beispiele ergänzen, dann den nächsten Batch laufen lassen.

Werde ich demnächst mal ausprobieren.

1 „Gefällt mir“