Aktuell teste ich folgende Speech-To-Text-Apps (STT):
Die ersten beiden kommen von der gleichen Person, die auch
für die bereits vorgestellte Spritpreise-App verantwortich ist. Die ersten drei Apps basieren grundsätzlich auf den
den Whisper-Modellen von OpenAi. Die vierte App basiert auf
den Vosk-Modellen von Alpha Cephei.
Bin nicht so sehr in der Thematik drin, aber die Modelle der vier Apps wurden wohl auf unterschiedliche Weise optimiert fürs Smartphone.
Whisper+ arbeite komplett offline, da muss das Modell vorher heruntergeladen werden. Die anderen Apps arbeiten auch weiter, wenn ihnen nach dem Modell-Download durch die App das Internet entzogen wurde.
Von der Qualität her finde ich die auf den OpenAi-Modellen basierten Apps am Besten. Kommen auch gut mit Sätzen klar, bei denen ich z. B. deutsch und englisch vermische und Groß-/Kleinschreibung bzw. Interpunktion wird auch gut umgesetzt.
Das Sayboard bzw. das dahinterliegende Vosk-Modell erkennt zwar viele Wörter, aber Groß-/Kleinschreibung bzw. Interpunktion sind nicht wirklich vorhanden. Vorteil vom Sayboard: Es wird direkt transkribiert, die anderen Apps brauchen Zeit.
Subjektiv würde ich die Apps mit OpenAi-Modellen bzgl. Geschwindigkeit so ranken: Whisper+, Whisper und mit etwas Abstand FUTO Voice Input. Dafür bietet die FUTO-App die meiste Flexibilität was die Einstellungen betrifft und die UI sagt mir am Ehesten zu. Bei Whisper kann ich im Gegensatz zu Whisper+ die Modell-Genauigkeit besser steuern.
Da ich auch gut mit der UI und der etwas überschaubaren Funktionalität leben kann, werde ich wohl Whisper weiter im Alltag nutzen, wenn ich mal auf STT angewiesen bin. Gegenüber Whisper+ gewinnt hier die Möglichkeit das Modell besser zu steuern, wenn auch mit einem leichten Geschwindigkeitsverlust.
Sayboard werde ich wieder deinstallieren, bei den anderen beiden schau ich mal, ob sie mich langfristig doch noch überzeugen können.