Speech to text/Sprache zu Text für Linux einrichten?

Vorab, bitte nur antworten, wenn eine Schritt-für-Schritt-Anleitung möglich ist.

Ich benutze Linuxmint 19.2 mit Mate 1.22, als Browser vorzugsweise Vivaldi, aber notfalls auch Chrome.

Über verschiedene Wege habe ich versucht mir die Google-Chrome-Anwendung
‘Speech-to-text‘ einzurichten, finde aber nicht heraus, wo's hakt.

Ich bitte um Hilfe, als wenn ich gar keine Ahnung hätte, ungeachtet meiner Vorkenntnisse; denn so können auch andere verstehen, was sie machen müssen.

Also nicht einfach: Als Admin den Befehl xyz ausführen, sondern:

Konsole [Strg]+[Alt]+[T] dann: sudo ...

Meinen Mikroanschluss, also gesamte Hardware habe ich überprüft und getestet.

Ein Google-Account besteht und nach Einloggen und Aufruf von ‚Google-Docs‘ → ‚Unbenanntes Dokument‘ → ‚Tools‘ ↓ ‚Spracheingabe‘ erscheint das Mikro-Symbol [Zum Sprechen Klicken], nach Draufklicken ändert sich die Farbe des Mikros auf rot, am Cursor im Dokument ändert sich nichts; das Dokument lässt sich aber beschreiben.

Wer weiß Rat? – Schon mal ein dickes Dankeschön voraus.

Das Ergebnis basiert auf 1 Abstimmungen

Habt Ihr sie problemlos unter Linux anwenden können, ja? 100%

Kennt Ihr die Sprache-zu-Text-Software, wenn ja, dann klicken? 0%

Habt Ihr sie problemlos unter Windows anwenden können, ja? 0%

Habt Ihr sie problemlos unter Mac anwenden können, ja? 0%

Habt Ihr sie problemlos unter Android anwenden können, ja? 0%

Habt Ihr sie problemlos unter IOS (iPhone) anwenden können, ja? 0%

1 Antwort

joernius

Nutzer, der sehr aktiv auf gutefrage ist

im Thema Linux

25.07.2022, 11:40

Habt Ihr sie problemlos unter Linux anwenden können, ja?

Vorneweg, es gibt meineserachtens drei Arten dieser Text-to-Speech-Software für Linux:
Nummer 1 hat eine ausgezeichnete Wiedergabe, fällt aber hier aus, weil es kostet... (NeoSpeech, iVona, Acapela, CereProc Voices)

Nummer 2: funktioniert nur online oder spioniert dich aus, also auch weg...

Nummer 3: Es ist unabhängig, die Wiedergabe ist verständlich, aber auch langweilig, stundenlang zuhören wäre eine Zumutung für die Konzentration. Dafür ist die Installation aber auch einfach.

1.Folgende Software installieren: libttspico-utils libttspico-data libttspico0 xclip

Diese kann man sich im grafischen Installtionsprogramm Synaptic auswählen oder kürzer:
Öffne eine Konsole und gehe dies ein:
sudo apt install libttspico-utils libttspico-data libttspico0 xclip

2.Wir erstellen ein Start-Skript

In einem beliebeigen Verzeichnis, ich selbst habe mir ein bin-Verzeichnis unter meinen Home-Verzeichnis angelegt ("mkdir bin" in der Konsole) , erstellen wir und ein einzeiliges Mini-Skript namens xclip2seech.bash. Dafür nehmen wir einen x-beliebigen Editor:

#!/bin/bash
TEXT=`xclip -o` && pico2wave --lang de-DE --wave text.wav "$TEXT" && play text.wav

Achtung: die Langen sind 2 Bindestriche!

Diese Datei speichern wir nun unter $HOME/bin ab und geben nun also den Namen xclip2seech.bash.

Dieser verpassen wir auch Ausführungsrechte:
chmod +x xclip2seech.bash

3.Wir verknüpfen eine Taste mit dem Befehl zum Start des Skriptes

Am Beispiel XFCE:
In der System- oder Einstellungsverwaltung verküpfen wir diese Datei durch Auswählen [Tastatur] - [Tastaturkürzel für Anwendungen] - [+ Hinzufügen].

Datei /home/NAME/bin/xclip2speech.bash und definieren eine Tasturkürzel. Z.B Super-Y.

Markieren wir nun in einem Programm einen Text mit der linken Maustaste und drücken Super - Y, dann erscheint daraufhin der gesprochene Text als Ton.

Woher ich das weiß:eigene Erfahrung

Minxs

Beitragsersteller

25.07.2022, 12:26

Oh je, jetzt hast du dir soviel Mühe gegeben, ganz herzlichen Dank.

Aber ich habe nach der umgekehrten Richtung gefragt: Speech to text bzw. Sprache zu Text.

Ich würde sehr gerne deine Antwort als Hilfreich kennzeichnen, jedoch beantwortet sie nicht meine Frage, schade, schade.

Übrigens habe ich nur selten so gute technische Antworten gelesen.

Diese werde ich mir abspeichern; denn sie erklärt mir einige Kleinigkeiten, die ich bisher nur übernommen, aber diesmal erklärt bekommen habe.

Ganz toll auch der Hinweis mit den Bindestrichen [AltGr]+[-] unter Linux, fkt. auch hier: – im Vergleich: -. Der Shortcut fkt. nicht in einigen Text-Editoren.

Diese Anmerkung setze ich dazu, weil ich um ausführliche Beschreibung gebeten habe, um anderen Lesern weiterzuhelfen.

joernius

25.07.2022, 13:04

@Minxs

Oh je, da habe ich die Richtung verhauen. In der Richtung Speech to text sieht es etwas anstrengender aus.

Die gut funktionierenden Programme
[https://www.linuxlinks.com/best-free-linux-speech-recognition-tools-open-source-software/]
arbeiten alle mit machine learning, also tensorflow & Co, es wäre hier wohl am einfachsten das Teil von Google einbinden zu können. Für die Installation scheint mir aber auch einiges an Vorkenntnissen nötig zu sein. Tut mir leid, damit habe ich mich noch nicht beschäftigt. Nur das Demo eben mal angesehen: https://cloud.google.com/speech-to-text?hl=de
Lustig. Mikrofonfreigabe nicht vergessen.

Minxs

Beitragsersteller

26.07.2022, 11:49

@joernius

Mm, ist schon ok, Joernius.

Wie ich geschrieben habe, komme ich mit Chrome nicht weiter. Und so ein System zu trainieren, dürfte kein Problem sein, denn im Moment muss ich so oder so schreiben.

Da ich fürs Online-Marketing ein Buch schreibe, möchte ich nur Lösungen aufzeigen, die ich selbst umsetzen konnte; eine davon wäre Sprache-zu-Text.

Das Mikro habe ich, wie schon erwähnt, auf verschiedene Weise getestet.

Aber die Seite, die du genannt hast, kannte ich noch nicht; mal sehen, sieht interessant aus.

Ich habe mir einen Shortcut, um ‚synaptic‘ aufzurufen, eingerichtet; jedoch funktioniert der immer erst, nachdem ich ‚synaptic‘ einmal händisch über die Menüleiste aufgerufen habe. (Oberfläche: Mate 1.22)

Hättest du 'ne Idee, woran das liegen könnte?

Minxs

Beitragsersteller

26.07.2022, 12:06

@Minxs

So, noch ein Dankeschön, Joernius.

Ich habe mich über die von dir genannte Hilfsseite bei Google eingeloggt.

Die angeblich kostenlose Software ist in Wirklichkeit nur drei Monate im Umfang bis 300 $ nutzbar – also nicht umsonst. Dazu wird die Kreditkartennummer verlangt, also im Moment nichts für mich.

Denn um den kostenfreien Umfang ausschöpfen zu können, müsste ich mehr zu schreiben haben.

Minxs

Beitragsersteller

27.07.2022, 09:59

@Minxs

So, noch ein Dankeschön, Joernius.

Ich habe mich über die von dir genannte Hilfsseite bei Google eingeloggt.

Die angeblich kostenlose Software ist in Wirklichkeit nur drei Monate im Umfang bis 300 $ nutzbar – also nicht umsonst. Dazu wird die Kreditkartennummer verlangt, also im Moment nichts für mich.

Denn um den kostenfreien Umfang ausschöpfen zu können, müsste ich mehr zu schreiben haben.

Diesen Kommentar hatte ich versehentlich falsch eingeordnet. – Das ist mir hier alles zu umständlich und unübersichtlich, und ich habe keine Lust die Bedienung von ‚gutefrage‘ zu üben.

Minxs

Beitragsersteller

27.07.2022, 10:01

@joernius

So, noch ein Dankeschön, Joernius.

Ich habe mich über die von dir genannte Hilfsseite bei Google eingeloggt.

Die angeblich kostenlose Software ist in Wirklichkeit nur drei Monate im Umfang bis 300 $ nutzbar – also nicht umsonst. Dazu wird die Kreditkartennummer verlangt, also im Moment nichts für mich.

Denn um den kostenfreien Umfang ausschöpfen zu können, müsste ich mehr zu schreiben haben.

Diesen Kommentar hatte ich versehentlich falsch eingeordnet. – Das ist mir hier alles zu umständlich und unübersichtlich, und ich habe keine Lust die Bedienung von ‚gutefrage‘ zu üben.

joernius

19.12.2022, 20:47

So, bin es noch einmal. Hoffe mit einer hilfreichen Idee:
Hier

https://www.youtube.com/watch?v=6d3LwuTIOeQ&list=RDCMUCLGY6_j7kZfA1dmmjR1J_7w&index=2

wird dargestellt, wie eine wav-Datei, sowie eine Mikrofoneingabe in Text geschrieben wird.

Das ganze ist in Python geschrieben.

Wave zu Text:
pip3 install pydub SpeechRecognition recognize_google pyAudio
----------------------------------------
import speech_recognition as sr

file_name = "text.wav"

speech_engine = sr.Recognizer()

with sr.AudioFile(file_name) as f:

data = speech_engine.record(f)

text = speech_engine.recognize_google(data, language="de_DE")

print(text)

* * *
_________________________________________

Audio zu Text

zusätzlich: sudo apt install build-essential portaudio19-dev python3.*-dev
pip3 install pyaudio

-------

import speech_recognition as sr

file_name = "text.wav"

speech_engine = sr.Recognizer()

def from_file(file_name):

with sr.AudioFile(file_name) as f:

data = speech_engine.record(f)

text = speech_engine.recognize_google(data, language="de_DE")

return(text)

def from_microphone():

with sr.Microphone() as micro:

print("Recording ...")

audio = speech_engine.record(micro, duration=5)

print("Recogition ...")

text = speech_engine.recognize_google(audio, language="de_DE")

return(text)

# print(from_file(file_name))

print(from_microphone())

---

Viel Spaß