Glossar

Speech-to-Text (STT)

Speech-to-Text (STT), auch Automatic Speech Recognition (ASR) genannt, ist die Technologie zur automatischen Umwandlung gesprochener Sprache in maschinenlesbaren Text in Echtzeit.

Erklärung

STT-Modelle analysieren Audiosignale, erkennen Phoneme, Worte und Sätze und liefern transkribierten Text zurück. Moderne STT-Systeme wie Deepgram Nova oder OpenAI Whisper erreichen eine Word Error Rate (WER) unter 5% bei klarem Deutsch. Entscheidend für Voice AI sind niedrige Latenz (<150ms), Dialekt-Erkennung (z.B. Schweizerdeutsch) und Störgeräusch-Robustheit.

Wie funktioniert STT technisch?

STT-Pipelines bestehen aus drei Kern-Komponenten: (1) Akustisches Modell — wandelt Audio-Samples in Phonem-Wahrscheinlichkeiten um; (2) Sprachmodell — bestimmt die wahrscheinlichsten Wortfolgen basierend auf Grammatik und Kontext; (3) Decoder — kombiniert beide Ebenen zu finalem Text. Moderne End-to-End-Architekturen (Transformer, Conformer) ersetzen diese drei Stufen durch ein einzelnes neuronales Netz.

STT-Anbieter im Vergleich

Für deutschsprachige Voice AI sind relevante Anbieter: Deepgram Nova-2 (WER ~4% bei Hochdeutsch, Streaming-fähig, EU-Hosting), Whisper (OpenAI, hohe Genauigkeit, aber keine Streaming-API), Google Cloud Speech (gute Dialekt-Unterstützung, aber keine garantierte EU-Datenhaltung), und AssemblyAI (entwicklerfreundlich, etwas höhere Latenz). Für produktive Telefonie-Anwendungen im DACH-Raum ist Streaming-Fähigkeit mit < 200ms Latenz Pflicht — Batch-basierte Systeme scheiden aus.

Qualitätsfaktoren

Die WER allein ist kein ausreichendes Qualitätskriterium. Genauso wichtig sind: Punctuation & Capitalization (automatische Interpunktion und Groß-/Kleinschreibung), Dialekt-Variation (Schweizerdeutsch, Wienerisch, bayrische Dialekte), Noise Robustness (Erkennung trotz Hintergrundlärm, Störgeräuschen, überlappendem Sprechen) und Speaker Diarization (Unterscheidung zwischen mehreren Sprechern in einem Audio).

Was bedeutet das für Flowent AI?

Flowent nutzt Deepgram Nova-2 für mehrsprachige STT mit nativem Schweizerdeutsch-Support. Die STT-Latenz bleibt unter 150ms, die End-to-End-Latenz der gesamten Voice-Pipeline unter 100ms — Voraussetzung für natürliche Telefongespräche ohne spürbare Verzögerung.

Speech-to-Text (STT) in der Praxis erleben?

Testen Sie Flowent AI kostenlos und setzen Sie Ihr Wissen in die Praxis um.

Kostenlos starten