Woher hat Siri, Google Assistent und co. ihre Stimme?

6 Antworten

Für Siri wurden tausende oder noch mehr Wörter eingesprochen die per Code einfach aneinander gereiht werden. Eine recht...einfache Lösung. Ist bei Alexa meines Wissens auch so.

Bei Google (müssten) sie Sprachsynthetisierung benutzt haben, wobei du da hunderte Stunden ton einsprechen musst um ein Modell zu trainieren das diese Stimme nachahmt. Das benutzt man zumindest in letzter Zeit gern, aber ob der momentane Google assistant benutzt bezweifle ich, dafür ist die Stimme zu klar...für die meisten Assistenten wird momentan wahrscheinlich einfach jedes Wort eingesprochen

Bei Text-to-Speech-Systemen - die gab es lang vor Siri - werden meist Phoneme eingesprochen, das sind grob gesagt "Laute" oder "Silbenvarianten".

Und dann wird versucht, die Aussprache mit Regeln auf die Phoneme abzubilden, wobei es oft einer gewissen Nacharbeit bei häufigen Wörtern bedarf, damit es rund klingt. Im Englischen ist das besonders schwierig, aber auch im Deutschen gibt es ja viele "unsystematische" Aussprachen. Dabei kann man sich heute mit ML helfen.

Ich habe mal ein Gerät gebastelt, was mir die Uhrzeit ansagen konnte.

Dazu habe ich Silben eingesprochen, manche auch in verschieder Art, z.B.

Vier (mit langem i) für 4

Virr (mit kurzem i) für 14 und 40

Mal läuft es so mal ist es so.

Bei Siri wurde die Stimme zum Beispiel eingesprochen. Das ist am häufigsten. Hierzu werden viele Sätze mit vielen Worten und vielen Buchstaben ein gesprochen und das Programm generiert so eine eigene Stimme und lernt „sprechen“.

Das was es sagen soll, ist aber vorprogrammiert

Woher ich das weiß:eigene Erfahrung

spongebobbel006  19.07.2022, 16:12

Man kann doch auch zu ein Thema nebeninfos geben oder etwa nicht?Lass mich doch meine Antwort schreiben wie ich will,ich beleidige doch niemanden damit.Und wenn es dir nicht passt,dann schreibe selber eine Antwort.

1

Die Entwickler haben die Stimme programmiert.

Woher ich das weiß:Studium / Ausbildung