
Kyutai crée Hibiki : une solution révolutionnaire pour la traduction vocale
En février 2025, Kyutai, le laboratoire de recherche français lancé par Xavier Niel et d’autres visionnaires a dévoilé sa nouvelle technologie : Hibiki, un traducteur vocal instantané, porté par une intelligence artificielle qui redéfinit les frontières du possible. Une révolution linguistique, ni plus ni moins.
Qui n’a jamais connu cette frustration : être pris dans un dialogue avec une personne étrangère, cherchant désespérément à traduire chaque mot sur son téléphone, tentant de rattraper le fil de la conversation, pour au final perdre le fil de la discussion ? Cette épreuve pourrait bien devenir un lointain souvenir grâce à un nouveau modèle de traduction vocale en temps réel. Baptisé Hibiki, qui signifie “écho” en japonais, cet outil porte une ambition claire : celle de briser les barrières linguistiques, sans effort. Derrière cette innovation, Kyutai, un laboratoire de recherche open source né en novembre 2023. Une initiative portée par des géants du numérique : Xavier Niel, le visionnaire d’Iliad, Rodolphe Saadé, à la barre de CMA CGM, et Eric Schmidt, ex-patron de Google. L’objectif d’Hibiki ? Faire de la compréhension une évidence. Plus de barrières, plus d’hésitations, plus de mots perdus en chemin. Et plus encore…
Hibiki : Une innovation qui change la donne
Une des innovations révolutionnaires de l’outil de traduction de Kyutai réside dans la préservation de la voix du locuteur. Car oui, vous l’aurez compris, ce dernier va enregistrer l’intonation et l’intensité de votre voix pour la reproduire à l’identique, dans une langue différente. Mais ce n’est pas tout, l’IA d’Hibiki ne se contente pas de traduire mot pour mot ce qu’elle entend de manière mécanique, elle analyse le sens global du discours afin d’en ajuster le rythme, plus précisément la vitesse et le débit, en fonction de l’intention du locuteur.
“Hibiki dépasse sur cette tâche l’état de l’art actuel, en termes de qualité de traduction, de fidélité vocale du locuteur et de naturel”, précise le laboratoire Kyutai, ajoutant qu’il “s’agit d’une nouvelle étape pour les technologies de la voix ; elle ouvre des opportunités extraordinaires en matière de communication et d’accessibilité”. On pense notamment aux films et aux séries, qui pourrait ainsi être traduits faite automatiquement avec la voix des acteurs et actrices, sans passer par des doublures vocales.
Hibiki et l'open source : une révolution collaborative pour la traduction vocale
L’objectif principal de Kyutai, dont le CEO est Patrick Pérez, est de démocratiser l’accès à des technologies de pointe tout en favorisant l’innovation partagée. C’est pourquoi le laboratoire de recherche français se base entièrement sur l’open source, contrairement à l’un de ses concurrents OpenAI. Ainsi, sa nouvelle technologie Hibiki offre une véritable plateforme collaborative où les chercheurs, développeurs, et créateurs de contenu peuvent tous récupérer le code source afin de le modifier et ainsi, contribuer à son amélioration.
“Kyutai met aujourd’hui librement à disposition sa technologie révolutionnaire Hibiki, via le partage des codes d’inférence, des poids du modèle français-anglais et d’un rapport technique. Les chercheurs et la communauté de l’IA pourront ainsi reprendre Hibiki dans leurs projets, et l’étendre à d’autres langues”, explique le laboratoire dans son communiqué de presse du 6 février. Une manière de repousser les limites du traducteur vocale et de l’intelligence artificielle, comme l’explique la structure : “Il s’agit d’une nouvelle étape pour les technologies de la voix ; elle ouvre des opportunités extraordinaires en matière de communication et d’accessibilité.”
Moshi, l’autre technologie de Kyutai
Hibiki n’est pas le premier outil numérique en open source développé par Kyutai. En juillet 2024, le laboratoire avait dévoilé Moshi, une IA textuelle et vocale créée en seulement six mois par une équipe de huit personnes. “Moshi est un modèle de fondation voix-texte offrant la toute première interaction vocale en temps réel full duplex avec une machine”, explique la structure. Si Chat-GPT d’OpenAI est aujourd’hui capable de dialoguer vocalement avec un humain, Moshi a été la première intelligence artificielle au monde à ouvrir la voie dans ce domaine. Cette dernière est même capable de reconnaître jusqu’à 70 émotions, ce qui en fait un outil particulièrement innovant.
Plus récemment, Kyutai a dévoilé Helium-1, un nouveau modèle de langage dont l’objectif est de permettre aux systèmes d’intelligences artificielles d’être plus fluides, notamment sur smartphones. Inspiré par l’élément chimique hélium, connu pour sa légèreté, ce modèle permet ainsi de réduire les ralentissements tout en permettant aux utilisateurs de ne plus dépendre de serveurs externes. Si la version actuelle prend déjà en charge 6 langues, elle devrait s’étendre à d’autres langues à l’avenir.
L'IA de traduction qui redéfinit les échanges internationaux
Avec Hibiki, Kyutai continue de renforcer sa position de pionnier dans le développement d’intelligences artificielles open source, en démocratisant l’accès à des technologies de pointe et en encourageant l’innovation partagée entre ingénieurs et passionnés. Si elle n’est pour l’heure disponible que pour la traduction du français vers l’anglais et inversement, elle continue néanmoins à être entraînée sans relâche de façon collaborative, afin d’élargir sa richesse linguistique. Alors, que l’on soit professionnel, étudiant ou voyageur, cette technologie peut représenter une petite révolution. Hier encore, la barrière des langues freinait nos échanges et limitait nos opportunités. Aujourd’hui, elle s’efface. Et ce n’est qu’un début, car l’outil apprend, s’améliore, et évolue. Si la Tour de Babel a brisé la compréhension entre les peuples, Hibiki est bien décidé à la rétablir mot après mot.

Les + vues
Inscrivez-vous !
INSCRIVEZ-VOUS À
NOTRE NEWSLETTER !
Renseignez votre adresse mail
pour recevoir nos nouveautés
et rester informé de nos actualités.
Laisser un commentaire