Neue Bereitstellungsmethode
- Wikipedia verhindert künftig direktes Auslesen der Plattform für KI-Training
- Stattdessen: Spezieller Datensatz in Zusammenarbeit mit Kaggle (Google)
- Beta-Datensatz enthält strukturierte Wikipedia-Inhalte in Englisch und Französisch
Inhalt und Struktur
- Umfasst: Forschungszusammenfassungen, Kurzbeschreibungen, Bildverweise, Infoboxdaten, Artikelabschnitte
- Nicht enthalten: Referenzen und nicht-textliche Elemente wie Audiodateien
- Lizenzierung hauptsächlich unter Creative Commons Attribution-Share-Alike 4.0 und GNU Free Documentation License
Technische Umsetzung
- Bereitstellung über die Structured Contents Beta der Snapshot-API
- Gut strukturierte JSON-Darstellungen für vereinfachte Verarbeitung
- Reduziert Serverbelastung im Vergleich zu herkömmlichem Scrapen oder Parsen
Vorteile und Ziele
- Erleichtert Entwicklern das Modellieren, Feinabstimmen und Leistungsvergleiche
- Reduziert Bandbreitenverbrauch (2024: 50% Traffic-Erhöhung durch KI-Bots)
- Verbessert Zugang für kleinere KI-Unternehmen und Datenwissenschaftler
Sources:
Zur Verfügung gestellt von news@genealogy.net - den Machern des Blog