Wie setzt man Spracherkennung programmiertechnisch um?
Angenommen, jemand kreiert eine APP, die die korrekte Aussprache von Wörtern beurteilen kann und je nach Antwort ein richtig oder falsch ausgibt.
Wie genau würde man vorgehen, wenn man sowas programmiert? Welche Programmiersprache? Python? Und wie würdet ihr den Schwierigkeitsgrad bemessen?
3 Antworten
Das Problem ist hier weniger die Programmiersprache, sondern eher der datenwissenschaftliche Ansatz. In der Regel wird für solche Data Science / KI Modelle Python verwendet, es hält dich aber nichts davon ab, das mit JavaScript oder C# umzusetzen...
Der Schwierigkeitsgrad hängt davon ab, ob du schonmal etwas im Bereich KI / maschinelles Lernen gemacht hast und wie deine Mathekenntnisse (Stichworte Vektoren, Tensoren, linerare Algebra...) sind. Ohne letztere kannst du die Sache mehr oder weniger abschminken, zumindest wenn das Ganze ansatzweise vernünftig werden soll und keine aus dem Netz zusammengewürfelte Suppe aus Copy & Paste sein soll, die gerade so als Party-Gag eignet.
Du gar nicht.
Klar, man kann das auch selber entwickeln, da wäre das Stichwort "Neuronales Netzwerk" oder "Machine Learning". Allerdings ist ein sehr schwieriges Thema, mathematisch sehr anspruchsvoll und das Training für das neuronale Netzwerk ist irrsinnig aufwändig und braucht enorme Datenmengen, die Du als Einzelperson gar nicht aufbringen kannst.
Stattdessen gibt es Dienste, die sowas anbieten, Google bietet bestimmt sowas an, würde mich wundern, wenn nicht. Kann aber gut sein, dass diese Dienste Geld kosten, das musst Du schauen.
Ein ehemaliger Mitbewohner hatte mal die umgekehrte Variante versucht, also Text vorlesen lassen. Dafür hatte er glaube ich einen Dienst von Google genutzt.
Relativ. Neuronale Netze am besten mittels tensorflow in sagen wir Kotlin und dann n entsprechendes dataset wo du eben genug samples hast müsste gehen.
Vorallem was den "App" Teil angeht empfehle ich Kotlin als successor von java