So funktioniert VoxTranslate: mehrsprachige Sprachübersetzung in Echtzeit erklärt
Ein Blick unter die Haube der Pipeline, die deine Stimme in live übersetzte Sprache für alle in der Anrufrunde verwandelt — und die vier Engine-Stufen, die sie antreiben.
Mit VoxTranslate können Menschen, die keine gemeinsame Sprache sprechen, ein ganz normales Videogespräch führen. Du sprichst; alle anderen lesen — und in den höheren Stufen hören — deine Worte in ihrer eigenen Sprache, live. Dieser Beitrag führt dich durch das, was wirklich passiert zwischen dem Moment, in dem du sprichst, und dem Moment, in dem dich jemand auf der anderen Seite versteht.
Die Echtzeit-Pipeline
Jeder Anruf durchläuft dieselbe vierstufige Schleife, fortlaufend, für jede sprechende Person:
- Erfassen. Dein Browser streamt kurze, latenzarme Audio-Blöcke mit dem Opus-Codec — keine Plugins, keine native App.
- Transkribieren. Die Streaming-Spracherkennung wandelt dieses Audio in Text um, während du sprichst, wobei die Ausgangssprache automatisch erkannt oder von dir festgelegt wird.
- Übersetzen. Das Transkript wird parallel in jede im Raum vorhandene Sprache übersetzt, sodass ein Anruf mit vier Personen in vier Sprachen auf einmal bewältigt wird.
- Ausliefern. Jeder Zuhörer sieht Live-Untertitel in der gewählten Sprache. In den höheren Stufen hört er außerdem eine natürlich gesprochene Übersetzung.
Warum Peer-to-Peer wichtig ist
Das Video und Audio, das du mit anderen Teilnehmenden teilst, läuft direkt zwischen den Browsern über WebRTC, in einem Mesh von bis zu vier Personen. Deine Medien werden nicht aufgezeichnet oder über einen zentralen Server geleitet — die Aufgabe des Servers ist das Signaling, das Ausführen der Übersetzungs-Pipeline und das Weiterleiten des Chats. Weniger Sprünge bedeuten geringere Latenz und eine kleinere Angriffsfläche für die Privatsphäre.
Die vier Engine-Stufen
Nicht jedes Gespräch braucht denselben Kompromiss zwischen Geschwindigkeit, Sprachqualität und Kosten, deshalb lässt dich VoxTranslate für jeden Anruf eine Engine wählen.
Standard
Die Voreinstellung. Schnelle, kostengünstige Streaming-Erkennung mit live übersetzten Untertiteln und einer integrierten Browser-Stimme. Perfekt für alltägliche Gespräche, bei denen du hauptsächlich mitliest.
Enhanced
Ein direkt vom Client gesteuerter Streaming-Pfad, abgestimmt auf ultraniedrige Latenz — eine Reaktionszeit von rund 250 Millisekunden — über eine breite Palette von Sprachen hinweg. Ideal für ein schnelles, natürliches Hin und Her, bei dem jede Pause zählt.
Pro
Live-KI-Übersetzung mit einer natürlichen synthetisierten Stimme. Das ist der Sweet Spot für Meetings und Demos: hohe Qualität, eine echte gesprochene Übersetzung im Ohr des Zuhörers und ausgewogene Kosten. Es ist die Stufe, zu der die meisten greifen.
Premium
Die Option mit der höchsten Wiedergabetreue, mit einer natürlichen KI-Stimme und der breitesten Abdeckung — allen 84 unterstützten Sprachen. Gemacht für besonders wichtige Gespräche, bei denen Genauigkeit und Nuancen den Aufpreis wert sind.
Ein Hinweis zur KI-Ausgabe
Transkription und Übersetzung werden von KI-Systemen erstellt und können Fehler enthalten. Die gesprochene Übersetzung, die du hörst, ist computergeneriert — sie ist keine Aufnahme der Stimme der sprechenden Person. VoxTranslate ist für die alltägliche Kommunikation gebaut, nicht für kritische rechtliche, medizinische oder sicherheitsrelevante Entscheidungen.
Probier es selbst aus
Der schnellste Weg, die Pipeline zu verstehen, ist, sie zu erleben. Öffne einen Raum, wähle deine Sprache und führe ein einminütiges Gespräch mit jemandem in einer anderen. Du siehst, wie deine Worte zu Untertiteln werden — und hörst, wie sie zu Sprache werden — in Echtzeit.