Ich sehe das erst mal nur aus Wikibase-Sicht und da scheint das Erzeugte vernünftig. Daraus Einträge zu bauen ist natürlich nicht ohne.
Es gibt verschiedene Ansätze:
Man könnte schon mal aus jeder Person in einem Eintrag einen Personeneintrag machen. Nachteil: man muss nachher manuell Duplikate verschmelzen - so ähnlich macht es familysearch, wobei das dann unterstützt gemacht wird.
Ein anderer Weg wäre, alle Einträge manuell anzulegen und dabei immer gleich zu schauen, ob die Person vermeintlich schon angelegt ist (=Vermutung), um keine Dopplungen zu erzeugen. Der Aufwand alle Personen in den Quelleinträgen in naher Zukunft manuell anzulegen, ist aber wohl nicht zu bewerkstelligen.
Jetzt gäbe es noch den Weg, die Einträge automatisiert anzulegen und dabei automatisiert nach bestimmten Regeln Dopplungen zu erkennen. Meiner Erfahrung nach funktioniert das aber nur sehr rudimentär und verursacht am Ende vielleicht mehr Arbeit als es nützt.
Ich plädiere für die erste Variante: alle Personeneinträge werden automatisiert angelegt, gegebenenfalls bereits mit Beziehungen zu anderen Personen (Eigenschaften Ehemann, Vater, usw.) und evtl. auch mit über Ereignissen verbundenen Personen (wenn das nicht zu kompliziert wird).
Dann müssen manuell, entweder direkt in Wikibase oder mittels des Clients (?) vermutete Personenidentitäten verschmolzen werden.
Prinzipielles Problem ist auch noch, dass am Anfang natürlich auch Items für z.B. Beruf, Stand, Ort, usw. aus den Rohdaten angelegt werden müssen und dabei Abkürzungen und Fehlschreibungen zu Problemen führen werden. Ich würde das aber auch erst mal in Kauf nehmen, aufgetretene Fehler und Dopplungen müssen dann nachträglich manuell behoben werden, was mit Tools wie QuickStatement oder pywikibot durchaus machbar ist.
Nur ein Beispiel:
Der „Beruf“ des Austragsbauern wird in Quellen unterschiedlichst bezeichnet, z.B. in meinem Forschungsgebiet als „Austragler“, „Austrägler“, „Ausnahmsbauer“, „Ausnehmer“, „Nahrungsmann“, „Nahrungsnießer“ mit teilweise auch haarsträubenden Abkürzungen und Schreibweisen („Außnamsb.“, „Außnahmer“, …).
Das Skript würde nun alle in den Einträgen vorhandene Schreibweisen als Item Typ Beruf anlegen. Danach ist es dann Aufgabe Einzelner Verschmelzungen dieser Items durchzuführen:
Ausnehmer/Außnähmer/Ausn. werden zu einem Eintrag mit dem Label „Ausnehmer“ verschmolzen. Alle anderen Schreibweisen werden ins Alias-Feld gesetzt.
Verschiedene Bezeichnungen z.B. Ausnehmer und Nahrungsmann sollten jedoch nicht so einfach verschmolzen werden, da es Bedeutungsunterschiede geben könnte, siehe z.B. Halbbauer/Huber und es auch möglich bleibt, Eigenschaften wie „Verbreitung der Bezeichnung“ bzw. „nachweisbar in“ oder „Start/Endzeitpunkt“ (für den zeitlichen Rahmen der Verwendung) zu verwenden. In Wikidata ist es dann üblich eine Eigenschaft „vielleicht identisch mit“ zwischen beiden Items zu setzen.
Das war jetzt viel Text. Ich hoffe, es hilft dir etwas weiter.