L’Europe, à la pointe de la LanguageTech

Les universités et entreprises européennes développent des outils linguistiques au succès planétaire. Portrait d’un secteur en pleine expansion.

Par Blandine Guignier

Sur à peine 2% de la surface de la planète, l’Europe concentre plus d’une centaine de langues. Un multilinguisme qui a forcé les habitants du continent à trouver des moyens ingénieux pour communiquer entre eux. Désormais, ils sont nombreux à développer des outils numériques en ce sens. Des dictionnaires en ligne comme Reverso ou LEO ainsi que des applications de traduction automatique et d’apprentissage telles Babbel, Duolingo, Busuu, Mondly, ou ABA English ont ainsi été fondés par des Européens.

Des percées grâce à l’intelligence artificielle

Cette vitalité des technologies linguistiques («LanguageTech») s’explique en partie par l’arrivée de nouveaux procédés. En traduction automatique par exemple, trois méthodes ont vu le jour depuis les années 1950. Il y a d’abord eu la méthode dite linguistique «Les plus simples de ces systèmes informatiques traduisaient mot-à-mot avec un dictionnaire bilingue», explique Pierrette Bouillon, doyenne de la Faculté de traduction et d’interprétation de l’Université de Genève. L’approche statistique, fondée sur des corpus de textes, a ensuite émergé. «La machine apprend à partir de traductions déjà existantes, découpe la phrase à traduire en segments, puis choisit la traduction des segments la plus probable.» Aujourd’hui, les géants du web misent sur les réseaux de neurones. «Dans un système de réseaux de neurones, la machine se nourrit aussi de corpus de textes, mais fait de l’apprentissage profond. Les mots y sont représentés numériquement. Le système peut ainsi établir des relations entre les mots et mieux généraliser. Il a aussi une meilleure notion de contexte, car il ne choisit pas la traduction d’un mot sur la base des quelques mots qui précèdent, mais il prend en compte toute la phrase source et cible»

En Europe, l’Allemande DeepL tire profit de ces fameux réseaux de neurones. Après son premier succès avec le moteur de recherche de traductions Linguee (plus de dix milliards de demandes depuis sa création en 2010), elle a lancé en 2017 un service dans sept langues, censé concurrencer Google Traduction. «Le traducteur automatique de DeepL est une très grande réussite et ce, pour deux raisons, souligne François Yvon, professeur à l’Université Paris Sud et chercheur au Centre national de la recherche scientifique (CNRS). Contrairement à Google qui se base sur toutes les données présentent dans ses applications, il travaille à partir d’un corpus de grande qualité, notamment des textes des institutions de l’UE, que la société utilisait déjà sur son moteur de recherche de traduction Linguee. Deuxièmement, son interface se distingue par sa fluidité et sa réactivité.»

Reconnaissance vocale et adaptive learning

Dans le domaine de l’apprentissage des langues, les applications linguistiques sont à l’avant-garde de l’adaptive learning – création de supports d’apprentissage qui changent en fonction des besoins de chaque apprenant – et de la reconnaissance vocale. «Nous utilisons déjà la reconnaissance vocale pour identifier le niveau de l’étudiant», annonce ainsi Marc Vicente, directeur de l’académie d’anglais en ligne ABA English. La méthode de la société barcelonaise, qui compte plus de 80 employés et anticipe un revenu net de 12 millions d’euros en 2018 (+25% par rapport à 2017), repose sur trois piliers. «Nos étudiants regardent des films en streaming avec des scénarios du quotidien. Ils pratiquent des activités de grammaire, de prononciation et d’écoute, etc. Enfin, ils reçoivent les explications d’un professeur particulier.» Avec un million d’étudiants actifs chaque mois, l’entreprise est bien implantée au Brésil, en Italie, en Espagne, en France, au Mexique et aux États-Unis. Elle vise aussi désormais la Russie, la Turquie et la Chine.

Lalilo, start-up qui soutient l’apprentissage de la lecture et de l’écriture en français et en anglais, va encore plus loin. Laurent Jolie, co-fondateur et diplômé de l’École polytechnique (l’X) résume son produit: «Le meilleur moyen d’apprendre est de lire très souvent à voix haute. Or, dans une grande classe avec un seul enseignant, il est difficile pour les élèves de tous s’exercer à la lecture.» Avec Lalilo, les étudiants peuvent lire à voix haute, même si le professeur ne se trouve pas à côté d’eux. «La machine sera capable d’analyser leurs discours et de reconnaître leurs erreurs d’élocution. Elle pourra ensuite adapter les exercices qu’elle leur propose.»

Vers la disparition des professionnels?

Les machines remplaceront-elles enseignants et traducteurs? La plupart des outils européens ne visent pas à remplacer le travail des professionnels, mais le complète, selon Marc Vicente: «Les applications qui promettent d’apprendre une langue avec dix minutes d’exercices ludiques par jour ne suffisent pas. L’immersion et le contact avec un spécialiste sont indispensables.»

Du côté de la traduction et de l’interprétation, on sait que les nouveaux outils ne sont pas parfaits. «S’il s’agit du sens minoritaire d’un mot, le système se trompera presque à chaque fois, précise François Yvon. De même, le traducteur automatique ne parvient pas être cohérent dans un texte entier.» Pierrette Bouillon cite, entre autres, les omissions ou les problèmes de ponctuation parmi les limites des traducteurs automatiques neuronaux. «Ces outils constituent un gain de temps et un bon point de départ, mais la post-édition par un professionnel se révèle toujours nécessaire».

Le secteur du traitement des langues a encore de beau jour devant lui. Le marché global des traducteurs automatiques pourrait atteindre 983 millions de dollars d’ici 2022 (avec une croissance annuelle moyenne de 14,6%) et celui de l’apprentissage en ligne des langues devrait augmenter de 18,97% en moyenne par année entre 2017 et 2021. «Le nombre de chercheurs et d’industriels actifs dans le domaine pourrait augmenter dans toute l’Europe, avec l’adoption le 11 septembre dernier d’une résolution sur l’égalité des langues à l’ère numérique», avance François Yvon. Le Parlement européen, qui communique lui-même dans 24 langues, y appelle à développer de nouveaux programmes de recherche et d’éducation en matière de communication numérique et de technologies linguistiques. Il insiste en particulier sur le rôle bénéfique de ces dernières pour la croissance et la société.

_______

Une version de cet article est parue dans le magazine en ligne Technologist, qui traite l’actualité de la recherche et de l’innovation en Europe.