Meta cherche à alimenter le développement de la prochaine étape des outils de traduction, avec la sortie de son nouveau Le modèle de traduction IA multilingue SeamlessM4T, qui, selon lui, représente une avancée significative dans la traduction vocale et textuelle, dans près de 100 langues différentes.
Présentation de SeamlessM4T, le premier modèle de traduction multimodale multilingue tout-en-un.
Ce modèle unique peut effectuer des tâches de parole-texte, de parole-parole, de traduction texte-texte et de reconnaissance vocale dans jusqu’à 100 langues en fonction de la tâche.
Détails ⬇️
– Méta-IA (@MetaAI) 22 août 2023
Comme le montre l’exemple ci-dessus, le modèle SeamlessM4T de Meta est capable de comprendre à la fois les entrées vocales et textuelles, et de traduire dans les deux formats, le tout dans un seul système, ce qui pourrait éventuellement permettre à des outils de communication plus avancés de faciliter les interactions multilingues.
Comme expliqué par Meta :
« Construire un traducteur de langue universel, comme le poisson Babel fictif dans Le Guide du voyageur galactique, est un défi car les systèmes de parole et de parole existants ne couvrent qu’une petite fraction des langues du monde. Mais nous pensons que les travaux que nous annonçons aujourd’hui constituent un pas en avant important dans ce cheminement. Par rapport aux approches utilisant des modèles séparés, l’approche système unique de SeamlessM4T réduit les erreurs et les retards, augmentant ainsi l’efficacité et la qualité du processus de traduction. Cela permet aux personnes parlant des langues différentes de communiquer plus efficacement entre elles.»
Comme le note Meta, l’espoir est que le nouveau processus contribuera à faciliter les outils de traduction en temps réel de type science-fiction, qui pourraient bientôt devenir une réalité, permettant une communication plus large entre les personnes du monde entier.
L’expansion de ceci consisterait donc en un texte traduit sur un affichage tête haute dans des lunettes AR, que Meta développe également. Des fonctionnalités AR plus avancées vont évidemment au-delà de cela, mais un traducteur universel en temps réel, intégré à une superposition visuelle, pourrait constituer une avancée majeure pour les communications, surtout si, comme prévu, les lunettes AR finissent par devenir une considération plus importante.
Apple et Google cherchent également à construire la même chose, l’équipe VisionPro d’Apple développant des outils de traduction en temps réel pour son prochain casque, et Google fournissant des outils similaires via ses écouteurs Pixel.
Avec des avancées telles que l’intégration du modèle SeamlessM4T dans de tels systèmes, ou du moins, en faisant progresser le développement d’outils similaires, nous pourrions en effet nous rapprocher d’une époque où la langue ne constitue plus un obstacle à l’interaction.
« SeamlessM4T obtient des résultats de pointe pour près de 100 langues et prend en charge plusieurs tâches à travers la reconnaissance vocale automatique, la parole-texte, la parole-parole, la synthèse vocale et la traduction texte-texte, le tout dans un seul modèle. Nous améliorons également considérablement les performances pour les langues à ressources faibles et moyennes prises en charge et maintenons de solides performances sur les langues à ressources élevées.»
Meta publie désormais publiquement le modèle SeamlessM4T afin de permettre aux développeurs externes de s’appuyer sur le cadre initial.
Meta publie également les métadonnées de SeamlessAlign, qui, selon elle, constituent le plus grand ensemble de données de traduction multimodale ouverte à ce jour, avec plus de 270 000 heures d’alignements de paroles et de textes extraits.
Il s’agit d’un développement important, qui pourrait avoir toute une série d’utilisations intéressantes, et marque une nouvelle étape vers la création d’assistants numériques fonctionnels et précieux, qui pourraient faire des prochains appareils portables de Meta un produit plus attrayant.
Vous pouvez en savoir plus sur le système SeamlessM4T de Meta ici.