Entwicklung: Datensätze kostenlos erhalten?
Guten Tag,
ich arbeite im Moment an ein Projekt, wofür ich Datensätze benötige.
Das Projekt umfasst ein größeres Spektrum, weshalb ich eine riesige Menge an Datensätze benötige. Ich rede von Wörtern. Also ganz normale Wörter die von der Englischen oder Deutschen Sprache stammen.
Bisher konnte ich nur Datensätze finden, die zwar hundert tausende Daten haben, aber auch fehlerhafte Daten, wie z.B. Buchstaben, oder Wörter die keinen Sinn machen in dieser Sprache.
Liebe Grüße
2 Antworten
Das Problem dabei ist, dass solche Wortlisten meist aus verschiedensten Wörterbüchern zusammengewürfelt sind und da immer welche dabei sind, die irgendwie speziell oder unverständlich sind.
Du könntest diese entweder manuell entfernen oder besser kuratierte Listen nehmen. Ein üblicher Ansatz ist es, statt die Vereinigungsmenge mehrerer Wörterbücher die Schnittmenge zu nehmen; also nur Wörter, welche in allen (oder vielen) vorkommen.
Solche gibt es auch schon fertig gemacht: http://wordlist.aspell.net/12dicts-readme/ (Download: http://wordlist.aspell.net/12dicts/)
Es gibt viele Bücher als PDF online zur Verfügung.
Villeicht noch die ersten und letzten paar Seiten entfernen und alle Zahlen entfernen, ansonsten sind da meistens nur "echte" Wörter drin.