wie schafft es Chat-gpt so unglaublich realistische Stimmen zu erzeugen?

Beim vorlesen von Texten

2 Antworten

28.09.2024, 13:33

Ich habe leider nichts von OpenAI gefunden, wo Genaueres zu ihren Modellen preisgegeben wird. In letzter Zeit gab es diesbezüglich aber generell große Fortschritte in Architektur und Rechenleistung; beispielsweise VITS, welches 2021 in diesem Papier vorgestellt wurde und in Fachkreisen die Runde gemacht hat: https://proceedings.mlr.press/v139/kim21f.html

Bild zum Beitrag

Zur "wie" Frage lässt sich darüber hinaus nur sagen: einige kluge Ideen und viel Mathematik. Das Endergebnis ist aber, dass diese und neuere Methoden nun ein besseres Verständnis über Rhythmus sowie verschiedene Arten zu sprechen haben und dabei Fortschritte bei den üblichen Problemen (Qualität und fehlerhafte Ausgaben) machen.

Ich denke mir, OpenAI wird ihr tts Modell ähnlich trainiert haben, ggf. mit leicht anderen Methoden und mehr Rechenkraft.

Anonym23483o

27.09.2024, 23:37

Ich denke mal es wurde Programmiert das er die Stimme von uns Menschen analysiert, wenn wir auf dem Handy z.B. kann man die Spracheingabe benutzen und richtig Gespräche mit ihm führen. Er hört sich deine Stimme an und probiert etwas ähnliches hinzu bekommen, doch es kommt immer zu vielen Stockern

Woher ich das weiß:Recherche