Ich habe genau das gleiche gemacht, ist aber schon einige Jahre her.
Hab einfach ein billiges Audio-Interface mit PC-Mikro an einen RasPi gestöpselt, und das Mikrofonsignal per ALSA-API eingelesen, was danach mit der FFTW-Bibliothek in Frequenzenzen zerlegt wurde, um nutzbar zu sein.
Das ganze Programm war so 4 bis 5 Bildschirmseiten lang, aber zum "Lernen" der Wörter hatte ich ein zweites kleines Hilfsprogramm geschrieben.
Alles in allem recht einfach, und hat super zuverlässig funktioniert, ganz ohne KI-Hype-Bullshit.
Da du offensichtlich Windows nutzt, geht ALSA nicht, aber Windows hat ja auch elegante Sound-APIs. Und FFTW gibts auch für Windows.
Alles in allem vielleicht etwas anspruchsvoll für Anfänger, aber definitiv nicht unmöglich.
Viel Erfolg!