Outil de traduction d’IA de stade précoce méta open sources qui fonctionne dans 200 langues

[ad_1]

Le conglomérat de médias sociaux Meta a créé un modèle d’IA unique capable de traduire dans 200 langues différentes, dont beaucoup ne sont pas prises en charge par les outils commerciaux actuels. La société ouvre le projet en open source dans l’espoir que d’autres s’appuieront sur son travail.

Le modèle d’IA fait partie d’un ambitieux projet de R&D de Meta visant à créer un soi-disant « traducteur de parole universel », que l’entreprise considère comme important pour la croissance sur ses nombreuses plateformes – de Facebook et Instagram, au développement de domaines comme la RV et la RA. La traduction automatique permet non seulement à Meta de mieux comprendre ses utilisateurs (et ainsi d’améliorer les systèmes publicitaires qui génèrent 97 % de ses revenus), mais pourrait également être la base d’une application phare pour de futurs projets comme ses lunettes de réalité augmentée.

Des experts en traduction automatique ont dit Le bord que les dernières recherches de Meta étaient ambitieuses et approfondies, mais ont noté que la qualité de certaines des traductions du modèle serait probablement bien inférieure à celle de langues mieux prises en charge comme l’italien ou l’allemand.

« La principale contribution ici, ce sont les données », a déclaré le professeur Alexander Fraser, expert en linguistique informatique au LMU Munich en Allemagne. Le bord. « Ce qui est important, c’est 100 nouvelles langues [that can be translated by Meta’s model].”

Les réalisations de Meta découlent, quelque peu paradoxalement, à la fois de la portée et centre de ses recherches. Alors que la plupart des modèles de traduction automatique ne gèrent qu’une poignée de langues, le modèle de Meta est encapsulant : il s’agit d’un système unique capable de traduire dans plus de 40 000 directions différentes entre 200 langues différentes. Mais Meta est également intéressé par l’inclusion de « langues à faibles ressources » dans le modèle – des langues avec moins d’un million de paires de phrases traduites accessibles au public. Il s’agit notamment de nombreuses langues africaines et indiennes qui ne sont généralement pas prises en charge par les outils de traduction automatique commerciaux.

Angela Fan, chercheuse en Meta AI, qui a travaillé sur le projet, a déclaré Le bord que l’équipe a été inspirée par le manque d’attention accordée à ces langues à faibles ressources dans ce domaine. « La traduction ne fonctionne même pas pour les langues que nous parlons, c’est pourquoi nous avons lancé ce projet », a déclaré Fan. « Nous avons cette motivation d’inclusion du genre – » que faudrait-il pour produire une technologie de traduction qui fonctionne pour tout le monde « ? »

Fan dit que le modèle, décrit dans un document de recherche ici, est déjà testé pour soutenir un projet qui aide les éditeurs de Wikipédia à traduire des articles dans d’autres langues. Les techniques développées lors de la création du modèle seront également bientôt intégrées dans les outils de traduction de Meta.

Comment jugez-vous une traduction ?

La traduction est une tâche difficile dans le meilleur des cas, et la traduction automatique peut être notoirement irrégulière. Lorsqu’il est appliqué à grande échelle sur les plates-formes de Meta, même un petit nombre d’erreurs peut produire des résultats désastreux – comme, par exemple, lorsque Facebook a mal traduit un message d’un Palestinien de « bonjour » à « leur faire du mal », conduisant à son arrestation par des Israéliens. police.

Pour évaluer la qualité de la sortie du nouveau modèle, Meta a créé un ensemble de données de test composé de 3001 paires de phrases pour chaque langue couverte par le modèle, chacune traduite de l’anglais vers une langue cible par une personne qui est à la fois un traducteur professionnel et un locuteur natif.

Les chercheurs ont parcouru ces phrases dans leur modèle et ont comparé la traduction de la machine avec les phrases de référence humaines en utilisant une référence commune en traduction automatique connue sous le nom de BLEU (qui signifie BjeLingual Eévaluation tundétude).

BLEU permet aux chercheurs d’attribuer des scores numériques mesurant le chevauchement entre des paires de phrases, et Meta indique que son modèle produit une amélioration de 44 % des scores BLEU dans les langues prises en charge (par rapport aux travaux de pointe précédents). Cependant, comme c’est souvent le cas dans la recherche sur l’IA, juger les progrès en fonction de critères de référence nécessite un contexte.

Bien que les scores BLEU permettent aux chercheurs de comparer les relatif progrès des différents modèles de traduction automatique, ils n’offrent pas une absolu mesure de la capacité du logiciel à produire des traductions de qualité humaine.

N’oubliez pas : l’ensemble de données de Meta se compose de 3 001 phrases, et chacune n’a été traduite que par une seule personne. Cela fournit une base de référence pour juger de la qualité de la traduction, mais la puissance expressive totale d’une langue entière ne peut pas être capturée par un si petit morceau de langue réelle. Ce problème n’est en aucun cas limité à Meta – c’est quelque chose qui affecte tous les travaux de traduction automatique, et est particulièrement aigu lors de l’évaluation des langues à faibles ressources – mais il montre l’ampleur des défis auxquels le domaine est confronté.

Christian Federmann, directeur de recherche principal qui travaille sur la traduction automatique chez Microsoft, a déclaré que le projet dans son ensemble était « louable » dans sa volonté d’étendre la portée des logiciels de traduction automatique à des langues moins couvertes, mais a noté que les scores BLEU à eux seuls peuvent ne fournissent qu’une mesure limitée de la qualité de sortie.

« La traduction est un processus créatif et génératif qui peut aboutir à de nombreuses traductions différentes qui sont toutes également bonnes (ou mauvaises) », a déclaré Federmann. Le bord. « Il est impossible de fournir des niveaux généraux de » qualité du score BLEU « car ils dépendent de l’ensemble de tests utilisé, de sa qualité de référence, mais également des propriétés inhérentes à la paire de langues étudiée. »

Fan a déclaré que les scores BLEU avaient également été complétés par une évaluation humaine, et que ce retour était très positif, et a également produit des réactions surprenantes.

« Un phénomène vraiment intéressant est que les personnes qui parlent des langues à faibles ressources ont souvent une barre inférieure pour la qualité de la traduction parce qu’elles n’ont aucun autre outil », a déclaré Fan, qui parle elle-même une langue à faibles ressources, le shanghaïen. « Ils sont super généreux, et nous devons donc revenir en arrière et dire » hé, non, vous devez être très précis, et si vous voyez une erreur, signalez-la. «  »

Les déséquilibres de pouvoir de l’IA d’entreprise

Travailler sur la traduction de l’IA est souvent présenté comme un bien sans ambiguïté, mais la création de ce logiciel s’accompagne de difficultés particulières pour les locuteurs de langues à faibles ressources. Pour certaines communautés, l’attention des Big Tech n’est tout simplement pas la bienvenue : elles ne veulent pas les outils nécessaires pour préserver leur langue entre les mains de qui que ce soit d’autre que les leurs. Pour d’autres, les enjeux sont moins existentiels, mais plus liés à des questions de qualité et d’influence.

Les ingénieurs de Meta ont exploré certaines de ces questions en menant des entretiens avec 44 locuteurs de langues à faibles ressources. Ces personnes interrogées ont soulevé un certain nombre d’effets positifs et négatifs de l’ouverture de leur langue à la traduction automatique.

Un point positif, par exemple, est que ces outils permettent aux orateurs d’accéder à plus de médias et d’informations. Ils peuvent être utilisés pour traduire des ressources riches, comme Wikipedia en anglais et des textes éducatifs. Dans le même temps, cependant, si les locuteurs de langues à faibles ressources consomment plus de médias générés par des locuteurs de langues mieux supportées, cela pourrait diminuer les incitations à créer de tels supports dans leur propre langue.

Équilibrer ces questions est difficile, et les problèmes rencontrés même dans ce projet récent montrent pourquoi. Les chercheurs de Meta notent, par exemple, que sur les 44 locuteurs de langues à faibles ressources qu’ils ont interrogés pour explorer ces questions, la majorité de ces personnes interrogées étaient « des immigrés vivant aux États-Unis et en Europe, et environ un tiers d’entre eux s’identifient comme des travailleurs de la technologie » – ce qui signifie que leurs perspectives sont probablement différentes de celles de leurs communautés d’origine et biaisées dès le départ.

Le professeur Fraser de LMU Munich a déclaré que malgré cela, la recherche a certainement été menée « d’une manière qui implique de plus en plus des locuteurs natifs » et que de tels efforts étaient « louables ».

« Dans l’ensemble, je suis content que Meta ait fait cela. Plus de cela de la part d’entreprises comme Google, Meta et Microsoft, qui ont toutes un travail substantiel dans la traduction automatique à faibles ressources, est formidable pour le monde », a déclaré Fraser. « Et bien sûr, une partie de la réflexion derrière pourquoi et comment faire cela vient également du milieu universitaire, ainsi que de la formation de la plupart des chercheurs répertoriés. »

Fan a déclaré que Meta avait tenté d’anticiper bon nombre de ces défis sociaux en élargissant l’expertise qu’ils avaient consultée sur le projet. « Je pense que lorsque l’IA se développe, c’est souvent très technique – comme, ‘D’accord, où sont mes doctorats en informatique ? Rassemblons-nous et construisons-le simplement parce que nous le pouvons. Mais en fait, pour cela, nous avons travaillé avec des linguistes, des sociologues et des éthiciens », a-t-elle déclaré. « Et je pense que ce type d’approche interdisciplinaire se concentre sur la Humain problème. Par exemple, qui veut que cette technologie soit construite ? Comment veulent-ils qu’il soit construit ? Comment vont-ils l’utiliser ?

Tout aussi importante, dit Fan, est la décision d’ouvrir autant d’éléments du projet que possible – du modèle à l’ensemble de données d’évaluation et au code de formation – ce qui devrait aider à corriger le déséquilibre de pouvoir inhérent à une entreprise travaillant sur une telle initiative. . Meta offre également des subventions aux chercheurs qui souhaitent contribuer à de tels projets de traduction mais qui ne sont pas en mesure de financer leurs propres projets.

« Je pense que c’est vraiment, vraiment important, car ce n’est pas comme si une seule entreprise pouvait résoudre de manière holistique le problème de la traduction automatique », a déclaré Fan. « C’est tout le monde – globalement – et nous sommes donc vraiment intéressés à soutenir ces types d’efforts communautaires. »

[ad_2]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*