Entwicklung: Datensätze kostenlos erhalten?

2 Antworten

Vom Beitragsersteller als hilfreich ausgezeichnet

Das Problem dabei ist, dass solche Wortlisten meist aus verschiedensten Wörterbüchern zusammengewürfelt sind und da immer welche dabei sind, die irgendwie speziell oder unverständlich sind.

Du könntest diese entweder manuell entfernen oder besser kuratierte Listen nehmen. Ein üblicher Ansatz ist es, statt die Vereinigungsmenge mehrerer Wörterbücher die Schnittmenge zu nehmen; also nur Wörter, welche in allen (oder vielen) vorkommen.

Solche gibt es auch schon fertig gemacht: http://wordlist.aspell.net/12dicts-readme/ (Download: http://wordlist.aspell.net/12dicts/)

Es gibt viele Bücher als PDF online zur Verfügung.
Villeicht noch die ersten und letzten paar Seiten entfernen und alle Zahlen entfernen, ansonsten sind da meistens nur "echte" Wörter drin.