Ich habe genau das gleiche gemacht, ist aber schon einige Jahre her.

Hab einfach ein billiges Audio-Interface mit PC-Mikro an einen RasPi gestöpselt, und das Mikrofonsignal per ALSA-API eingelesen, was danach mit der FFTW-Bibliothek in Frequenzenzen zerlegt wurde, um nutzbar zu sein.

Das ganze Programm war so 4 bis 5 Bildschirmseiten lang, aber zum "Lernen" der Wörter hatte ich ein zweites kleines Hilfsprogramm geschrieben.

Alles in allem recht einfach, und hat super zuverlässig funktioniert, ganz ohne KI-Hype-Bullshit.

Da du offensichtlich Windows nutzt, geht ALSA nicht, aber Windows hat ja auch elegante Sound-APIs. Und FFTW gibts auch für Windows.

Alles in allem vielleicht etwas anspruchsvoll für Anfänger, aber definitiv nicht unmöglich.

Viel Erfolg!

...zur Antwort
Weitere Inhalte können nur Nutzer sehen, die bei uns eingeloggt sind.