DATEN aus unterschiedlichen Quellen erstellen, abgleichen und bereinigen für eine Datenbank?

LeBonyt  23.01.2024, 22:14

Wie hoch ist denn das Volumen, also von welcher Größenordnung ist die Anzahl der Datensätze?

Sonja471 
Beitragsersteller
 23.01.2024, 22:16

aktuell ca. 4000 in aus ca 150 quellen.

Franz1957  24.01.2024, 23:51

Kannst Du selbst programmieren?

Sonja471 
Beitragsersteller
 14.02.2024, 17:11

leider nein.

3 Antworten

Für Adressen gibt es spezialisierte Tools, die auch aus großen und heterogenen Datenbeständen das Beste herausholen. Sowas zum Beispiel https://www.dataqualityapps.de/dublettenabgleich.html


Sonja471 
Beitragsersteller
 23.01.2024, 22:26

Vielen Dank, wenn ich die Demos sehe, geht es hier eher um Dublettenabgleich. weniger um Import unterschiedlicher quellen, aber ich schau es mir noch mal genauer an.

Kannst Du programmieren? So ein Tool würde ich mir in Perl schreiben. In Python und anderen Sprachen geht es auch. Perl-Module, die Excel, CSV u.ä. verarbeiten können, gibt es, z.B.: https://metacpan.org/pod/DBD::CSV Um einige Fleißarbeit kommt man bei 150 Quellen in ganz unterschiedlichen Formaten nicht herum. Man muß eben für jede Quelle eine zu ihr passende Input-Schnittstelle schreiben, über die man die Daten in die Datenbank einlesen kann. Zum Bereinigen der Daten verwendet man Reguläre Ausdrücke. Der Output im CSV- oder Excel-Format ist dann das Einfachste.


Sonja471 
Beitragsersteller
 14.02.2024, 17:13

leider kann ich nicht programmieren. aber vielen dank für die hilfe

Es wird Dir dann nichts anderes übrig bleiben als Deine Daten in Blöcken zu konvertieren.

Adresse in einer Zelle, da bietet sich: Daten - Text in Spalten - Getrennt ... an

bei anderer Darstellung ... die müsste man kennen.


Sonja471 
Beitragsersteller
 23.01.2024, 22:14

Danke - ich hoffe doch sehr inzwischen gibt es andere Lösungen als per Hand. CRM Tools, KI Tools oder ähnliches. Muss auch nicht umsonst sein.