Gibt es ein Programm, welches gesprochene Wörter in geschriebene Wörter umwandeln kann (Speech to Text), also ohne Fehler zu machen, wenn Nein wieso nicht?

8 Antworten

Grundsätzlich gibt es eine Menge programme, die das versuchen. Ich denke google hat das beste kostenlose.

Schau auch gerne mal hier: https://alternativeto.net/browse/search/?q=speech%20to%20text

Fehlerfrei gibt es das aber leider noch nicht, weil die technik das noch nicht gut genug kann und weil es auch prinzipiell nicht immer klar ist, was die richtige transkription eines gesprochenen wortes ist.

transkription ist wie zwischen sprachen eine form von übersetzung und übersetzung ist (von einer audio eingabe zu einer text-repräsentation) schwer zu optimieren, weil sie fundamental subjektiv ist.

Die frage heisst letztlich auch richtig für wen und in welchem kontext?

Hier kannsst du mehr zu dem thema lernen aber es ist leider noch meistens nicht auf deutsch übersetzt: http://genderedinnovations.stanford.edu/case-studies/nlp.html

Du kannst es mit deepl (die beste kostenlose software) übersetzen lassen aber dann wirst du vermutlich eine sexistische übersetzung bekommen. (wird dafür dann aber auch im text thematisiert)

Woher ich das weiß:Studium / Ausbildung – Informatik, STS ,Gender Studies, gay, lange politisch aktiv

Nein. Alle diese Programme machen Fehler. Sprache ist für heutige IT noch immer zu komplex, um fehlerfrei verarbeitet zu werden.


gfntom  16.03.2022, 12:13

Prinzipielle Zustimmung, nur glaube ich, du verwechselst das transkribieren des gesprochenen Wortes in Text mit der semantischen Analyse der (gesprochenen) Sprache. Das sind zwei völlig unterschiedliche Schuhe.

Kwalliteht  16.03.2022, 13:57
@gfntom

Nein, da verwechsle ich nichts. Transkription ist vergleichsweise einfach.

Es gibt Software, die Sprache in Text umwandeln kann, bis heute jedoch nicht fehlerfrei. Unser Gehör nimmt wesentlich mehr Parameter wahr als ein Computer es kann. Für einen Computer ist Sprache nichts anderes als eine Folge von Amplituden pro Zeiteinheit. Diese Information allein reicht nicht aus, um Worte fehlerfrei zu erkennen. Wie unser Gehör das bewerkstelligt, ist unbekannt. Wir können z.B. verstehen, was mehrere Personen gleichzeitig zu uns sprechen. Spätestens in dieser Situation versagt die digitale Spracherkennung vollends.

Für den Fall das du ein Mac hast "Pages" funktioniert sehr gut die Diktierfunktion darin.

Das günstigste für Win was halbwegs gut ist fängt bei ca. 300€ an.