|
Ein Forschungsteam bei Microsoft hat mit VALL-E 2 ein deutlich verbessertes KI-System für die Sprachsynthese vorgestellt. Es glaubt nicht daran, dass die Welt schon bereit für die Veröffentlichung ist.
Laut dem Team ist es das erste System, das bei der Generierung von Sprache aus Text die Leistung von Menschen erreicht - und das sogar für unbekannte Sprecher:innen, von denen nur eine kurze Sprachprobe vorliege. Selbst komplexe Sätze oder solche mit vielen Wiederholungen seien damit verlässlich zu erstellen.
Kommerziell verfügbare Software wie die von ElevenLabs war bislang schon in der Lage, Stimmen zu klonen, benötigte dafür aber eher Referenzmaterial in der Größenordnung von Stunden. VALL-E 2 schafft es hingegen mit wenigen Sekunden.