Wiki - Wikipedia KI-Trainingsdatensatz

Neue Bereitstellungsmethode

  • Wikipedia verhindert künftig direktes Auslesen der Plattform für KI-Training
  • Stattdessen: Spezieller Datensatz in Zusammenarbeit mit Kaggle (Google)
  • Beta-Datensatz enthält strukturierte Wikipedia-Inhalte in Englisch und Französisch

Inhalt und Struktur

  • Umfasst: Forschungszusammenfassungen, Kurzbeschreibungen, Bildverweise, Infoboxdaten, Artikelabschnitte
  • Nicht enthalten: Referenzen und nicht-textliche Elemente wie Audiodateien
  • Lizenzierung hauptsächlich unter Creative Commons Attribution-Share-Alike 4.0 und GNU Free Documentation License

Technische Umsetzung

  • Bereitstellung über die Structured Contents Beta der Snapshot-API
  • Gut strukturierte JSON-Darstellungen für vereinfachte Verarbeitung
  • Reduziert Serverbelastung im Vergleich zu herkömmlichem Scrapen oder Parsen

Vorteile und Ziele

  • Erleichtert Entwicklern das Modellieren, Feinabstimmen und Leistungsvergleiche
  • Reduziert Bandbreitenverbrauch (2024: 50% Traffic-Erhöhung durch KI-Bots)
  • Verbessert Zugang für kleinere KI-Unternehmen und Datenwissenschaftler

Sources:

Zur Verfügung gestellt von news@genealogy.net - den Machern des Blog