VoxTranslate permet à des personnes qui ne partagent pas de langue de tenir une conversation vidéo tout à fait normale. Vous parlez ; tous les autres lisent — et, dans les niveaux supérieurs, entendent — vos mots dans leur propre langue, en direct. Cet article vous fait découvrir ce qui se passe réellement entre le moment où vous parlez et le moment où quelqu'un de l'autre côté vous comprend.

Le pipeline en temps réel

Chaque appel exécute la même boucle en quatre étapes, en continu, pour chaque personne qui parle :

  1. Capture. Votre navigateur diffuse de courts blocs audio à faible latence à l'aide du codec Opus — sans plugins, sans application native.
  2. Transcription. La reconnaissance vocale en streaming transforme cet audio en texte pendant que vous parlez, la langue source étant détectée automatiquement ou définie par vous.
  3. Traduction. La transcription est traduite en parallèle dans toutes les langues présentes dans la salle, si bien qu'un appel à quatre personnes en quatre langues est géré d'un seul coup.
  4. Diffusion. Chaque auditeur voit des sous-titres en direct dans la langue qu'il a choisie. Dans les niveaux supérieurs, il entend également une traduction parlée naturelle.

Pourquoi le peer-to-peer compte

La vidéo et l'audio que vous partagez avec les autres participants circulent directement entre les navigateurs via WebRTC, dans un maillage pouvant aller jusqu'à quatre personnes. Vos médias ne sont ni enregistrés ni acheminés via un serveur central — le rôle du serveur est le signaling, l'exécution du pipeline de traduction et le relais du chat. Moins de sauts, c'est moins de latence et une surface de confidentialité plus réduite.

Les quatre niveaux de moteur

Toutes les conversations n'ont pas besoin du même compromis entre vitesse, qualité de la voix et coût, c'est pourquoi VoxTranslate vous laisse choisir un moteur pour chaque appel.

Standard

L'option par défaut. Une reconnaissance en streaming rapide et économique avec des sous-titres traduits en direct et une voix intégrée au navigateur. Parfait pour les discussions du quotidien où vous suivez surtout en lisant.

Enhanced

Un parcours de streaming direct depuis le client, optimisé pour une latence ultra-faible — une réactivité d'environ 250 millisecondes — sur un large éventail de langues. Idéal pour des échanges rapides et naturels où chaque pause compte.

Pro

Une traduction par IA en direct avec une voix de synthèse naturelle. C'est le point idéal pour les réunions et les démos : haute qualité, une vraie traduction parlée à l'oreille de l'auditeur et un coût équilibré. C'est le niveau vers lequel se tournent la plupart des gens.

Premium

L'option offrant la plus haute fidélité, avec une voix IA naturelle et la couverture la plus large — l'ensemble des 84 langues prises en charge. Conçue pour les conversations à enjeux élevés où la précision et les nuances valent le supplément.

Une remarque sur le résultat de l'IA

La transcription et la traduction sont produites par des systèmes d'IA et peuvent contenir des erreurs. La traduction parlée que vous entendez est générée par ordinateur — ce n'est pas un enregistrement de la voix de la personne qui parle. VoxTranslate est conçu pour la communication du quotidien, pas pour des décisions critiques d'ordre juridique, médical ou de sécurité.

Essayez par vous-même

Le moyen le plus rapide de comprendre le pipeline, c'est de le ressentir. Ouvrez une salle, choisissez votre langue et ayez une conversation d'une minute avec quelqu'un qui en parle une autre. Vous verrez vos mots devenir des sous-titres — et vous les entendrez devenir de la parole — en temps réel.