Sehr gute Sprachsynthese (außer Elevenlabs)? Als PC-Software? In einer Videoschnittsoftware (wäre sehr praktisch)?
Hallo.
Gibt es Software oder Onlinedienste wo man dauerhaft Text in natürlicher Qualität (wie Elevenlabs) kostenlos lesen lassen kann?
Software für den PC wäre ideal.
Auf Webseiten zum Download der Datei, oder aber auch nur als Demo.
Eine Demo hat evtl. den Vorteil dass es keine Beschränkung der Nutzungsmenge gibt...
Es wird eh alles was heute noch als KI-Dienst online recht teuer (20, 30, 50... Euro/Dollar pro Monat ist für Privat... und dann auch noch mehrfach) angeboten wird, lokal auf dem Rechner möglich sein. Diverse gute KI gibt es lokal, aber ohne Installation und GUI...
Es müsste nur noch massenkompatibel mit .exe und Nutzeroberfläche veröffentlicht werden.
Gerade für Audio sollte die Rechenlast noch überschaubar sein.
"Stefan (Natural Voice)" von Microsoft klingt nach heutigen Maßstäben nicht mehr so natürlich, und hat heftige Sprachfehler.
Da muss irgendein Defekt vorliegen.
Interessant wäre eine Sprachsynthese in Videoschnittsoftware.
So dass man Voice-Over über Videos und Bilder einfach per Texteingabe erzeugen kann.
Ich erinnere mich dunkel an Dokus oder Reportagen etc., wo diese Möglichkeiten für die Zukunft gezeigt wurden.
Auch umgekehrt automatisch erkannter Text in Video, so dass man in der Schnitt-Software Stellen leicht finden und schneiden kann, indem man Text entfernt.
Das wäre evtl. noch eine eigene Frage.
P.S.:
Es gibt einige verbitterte Trolle, evtl. aus dem IT-Bereich (aber meist wohl nicht im KI-Bereich aktiv), oder aus Bereichen die durch KI ersetzt werden, die glauben sie wären moralisch im Recht auf solche Fragen pöbeln zu dürfen.
Der letzte Eintrag dieser Art zu einer ähnlichen Frage wurde ca. 1min nach Eintrag gelöscht und durch GuteFrage verwarnt...
Ich versuche es hier mal in "Bild-, Video- & Audiobearbeitung".
Bei der Frage zu Video-KI hatte ich nicht daran gedacht, und ich glaube Informatik gewählt.
1 Antwort
Hi,
für Videobearbeitung habe ich sowas noch nie gebraucht ... aber wer weiß schon, was die Zukunft bringt.
Gibt es natürlich, aber kostenlos muss man immer Einschränkungen im kauf nehmen.
Zum Lesen: https://www.gradually.ai/text-to-speech-tools/
https://transkriptor.com/de/beste-text-to-speech-software/
Da jeder Converter für die Umwandlung von Sprache in Text verschiedene wichtige Funktionen und manchmal auch Nachteile aufweist, ist es ratsam, sich ein paar davon anzusehen und denjenigen auszuwählen, der am besten geeignet erscheint. Hier finden Sie eine Liste der 10 besten Converter für die Umwandlung von Sprache in Text.
- 1. Windows Dictation
- 2. Window's Speech Recognition
- 3. Dragon Professional Individual
- 4. Google Docs Voice Typing
- 5. NaturalReader
- 6. Braina Pro
- 7. Speechnotes
- 8. Sobolsoft
- 9. Bear File Converter
- 10. Voice Finger
Sprache erkennen, ist technisch noch sehr herausfordernd, und daher muss die Software auch zeit haben zum Lernen.
Spracherkennung gibt es mit IBM Viavoice schon seit 27 Jahren.
Schon seit einiger Zeit sind die ziemlich gut.
Es gibt Anhänger die 24/7 per Spracherkennung an eine KI senden was gesagt wird, und dann Zusammenfassungen aller Gespräche etc. erstellen.
Und die sind laut Test sehr gut.
Ich suche aber keine Spracherkennung.
Hier geht es nur um eine natürlich klingende Sprachausgabe zur Erzeugung von gelesenem Text als Audio-Datei.
Oder alternativ Schnittsoftware die das gleich intern kann.
Da geht es nicht um Textdateien per Mikrofon zu füllen, sondern nur die Nutzung während des Schnitt.
Gibt es nur diese kostenpflichtigen Onlinedienste für Text-zu-Sprache, oder auch Software (Free und Paid) für den PC?
Was den "Nutzen" von Textbasierten Schnitt angeht, kommt drauf an was man so schneidet.
Wenn man für YouTube etc. schneidet findet man so alle Worte die die Monetarisierung verhindern wie mit "STRG+F" (besser die Nutzung einer Blacklist).
Oder man kann Stellen nachträglich nicht nur entfernen, sondern auch umschreiben.
Das was ich sah war ein ändern einer Stelle, und die Stimme wird dafür lokal geklont, und die Mundbewegungen etc. angepasst.