You are currently viewing Comment optimiser l’utilisation de l’IA en traduction technique ?

Comment optimiser l’utilisation de l’IA en traduction technique ?

L’objectif de cet article est : comment optimiser l’utilisation de l’intelligence artificielle en traduction technique ? Il est issu du script d’une conférence réalisée pour DITA Molière. À ce titre, le style peut parfois paraître direct et familier.

Nous avons tous été confrontés à des dirigeants ou des clients qui pensent que maintenant la traduction doit être gratuite. Je vois chez beaucoup de nos clients qu’ils viennent en disant « finalement maintenant avec l’intelligence artificielle, tout doit être gratuit. La traduction doit être gratuite, la traduction automatique marche bien ! Et donc il n’y a plus de plus besoin de traducteur, cela doit être automatique. »

Une autre situation fréquente est la mise en place par les équipes informatiques d’un groupe de travail qui étudie ou a réalisé un pilote avec un LLM, entrainé avec du contenu collecté auprès des différents services et dont on attend beaucoup et en particulier de traiter les traductions.

Lors de mes accompagnements d’entreprises, ce sont des sujets qui arrivent très rapidement au début et c’est en général le point de départ de nos discussions

Workflow de traduction

Aujourd’hui, je vous propose un travail commun. Je ne vais pas vous asséner les meilleures pratiques. Ce que nous allons faire, c’est bâtir ensemble, avec du bon sens et de la réflexion, un système de traduction idéal qui utilisera au mieux l’Intelligence Artificielle pour « automatiser » la traduction technique.

Alors on commence. Le point de départ est le suivant : on a du contenu, on a fait une documentation technique. On dit « cette documentation technique, qui a souvent été rédigée en anglais, maintenant on va la traduire en japonais pour nos clients japonais ».

On va prendre un LLM, celui qui nous va bien, et on va lui demander de traduire en japonais. Donc tout ça va très bien.

La qualité est moyenne, mais on décide de mettre un disclaimer (décharge de responsabilité) pour indiquer que la documentation a été traduite par traduction automatique donc qu’on n’est pas engagé.
Peut-être, avez-vous entendu parler de l’exemple de Air Canada qui avait mis en place un chatbot qui répondait aux questions des clients. Ils avaient mis un gros disclaimer en indiquant « c’est un chatbot. Les réponses qu’il donne peuvent être erronées. », et en ne pensant que les réponses engageaient leur responsabilité. Le chatbot a donné quelques réponses erronées et les clients se sont retournés contre Air Canada. Il y a donc maintenant une « jurisprudence »,
Ce qui est sûr maintenant c’est que si on publie une traduction automatique, même si on met un disclaimer, on est engagé par l’information que fournit la traduction automatique, et donc pour une documentation technique, ça peut être quand même un peu gênant. S’il y a des incohérences, s’il y a des erreurs, ça peut être dangereux parce que ça peut engager la société de façon importante. La stratégie dépendra, bien entendu, de l’industrie dans laquelle opère l’Entreprise ; si c’est les jeux vidéo, on va peut-être l’accepter. Si c’est l’appareillage médical, je pense qu’on aura un peu plus de difficultés.

La première réponse est donc qu’il faut améliorer la qualité de la documentation traduite pour pouvoir la publier.

Comment peut-on améliorer la qualité de cette traduction automatique? On va commencer par entrainer le LLM ou faire travailler le LLM avec des contenus de référence.
Un LLM, c’est un « Large language model », c’est l’IA générative, type Chat GPT, Gemini, Claude, LeChat et tous ces outils-là.

Donc, on va commencer à l’entrainer avec du contenu propriétaire et de la terminologie pour améliorer le résultat et ça améliore effectivement le résultat. Malgré tout, ce n’est toujours pas parfait et en conséquence il y a toujours des risques.

De plus, il y a toujours le phénomène d’hallucination. Je vais prendre un exemple qui nous est propre, on traduisait des documentations qui parlaient d’Interface Homme Machine (IHM), en anglais « UI terms ». Dans 99 % des cas « UI terms » était traduit correctement par des « éléments d’interface » comme requis pas la base terminologique, mais dans quelques cas où le LLM avait jugé que le contenu était plus juridique, il traduisait « UI terms » comme des « Unemployment Insurance Terms and Conditions ». C’était traduit ainsi parce qu’il avait considéré que ce choix était plus logique dans le contexte.

On a inclus la terminologie et le corpus de référence pour améliorer, et ça améliore vraiment

Mais comme cela ne suffit pas complètement à garantir un niveau de qualité suffisant, logiquement, on va convenir que la solution est de réviser les contenu traduit avant de le publier ; on ne peut pas se permettre de le publier tel quel et on va le réviser, c’est-à-dire affecter quelqu’un qui va faire la révision du contenu : regarder ce contenu, le corriger éventuellement avant qu’on le publie pour être sûr qu’il est correct.

Se pose alors la question de savoir comment va se passer le processus de révision. Comment on corrige, comment on modifie ? Ces choix dépendent des outils de la société.

Une autre difficulté apparaît : Ce réviseur est très critique parce qu’il fait partie des équipes du pays cible, qui n’ont pas forcément toujours les bonnes ressources disponibles ; de plus, ce n’est pas leur métier, elles ne sont pas payées pour ça, ce n’est pas un travail qu’elles apprécient beaucoup donc elles sont souvent très difficiles à motiver…

Comme c’est nécessaire, on va motiver le réviseur qui va commencer à réviser et puis il va dire « Mais attendez les gars, vous m’avez fait réviser 6 documents. Sur les 6 documents, il y a plein de chapitres qui sont les mêmes. Je dois les corriger plusieurs fois dans chaque document ». Et c’est tout à fait vrai ! En effet, on travaille en contenu structuré donc nous, on fait du « Re-Use ». On conçoit le contenu avec de nombreux topics qui sont partagés. On réalise donc qu’on n’aurait pas dû travailler sur les documents publiés, mais sur les documents sources ou plutôt les documents natifs (pour éviter la confusion avec la langue source en traduction). Ainsi, les topics communs comme les précautions ou avertissements ne seront revus qu’une fois.

Ce n’est pas le contenu source publié qu’on doit traduire, c’est le contenu natif DITA, ou d’autres standards, qui est géré dans un « repository » ou un CMS.

Pour être tout à fait exact, dans ce cas-là, ce n’est pas le contenu traduit publié que va fournir le réviseur, mais il va livrer du contenu natif traduit et révisé dans le CMS qui va republier le contenu final. Mais pour des raisons de simplification, on va le présenter ainsi.

Donc le processus fonctionne très bien : La documentation publiée est de bonne qualité et le réviseur ne revoit qu’une fois le contenu commun à plusieurs documents. Il y a quand même un inconvénient, c’est que l’efficacité des moteurs de traduction est bien moins bonne quand ils vont traduire du DITA ou du contenu tagué avec en particulier du contenu conditionnel, des phrases qui sont parfois un peu complexes. Effectivement, le réviseur ne révisera qu’une fois le contenu, mais il aura plus de mal à réviser, d’autant plus que le réviseur lui-même n’est pas forcément un expert XML et réviser du XML c’est pas toujours très facile.

En admettant que la révision se passe bien, une autre difficulté apparaît. 3 mois après, on fait une « release » et on génère la nouvelle version. Le réviseur il va alors dire : « mais attendez les gars, tout ça, je l’ai déjà révisé sur la version précédente. »

Effectivement, mais le contenu a été regénéré. Il faut le corriger de nouveau. Quelle est la solution ? Pour éviter que ça se reproduise, il faudrait garder l’historique de ce qu’on a déjà révisé et donc utiliser ce qui s’appelle une mémoire de traduction, et par conséquent mettre en œuvre un TMS (Translation Management System) avec des mémoires de traduction et des workflows. Notre workflow est donc maintenant :

  • Le contenu est envoyé par le CMS au TMS
  • Qui décompose en phrases
  • Réutilise les phrases révisées de la version précédente
  • Fait traduire par l’IA les phrases nouvelles
  • Envoyer en révision

Le moteur de traduction, basé sur l’IA, va donc travailler sur des phrases. Mais, quand on va travailler en mode phrase, les LLM sont beaucoup moins bons parce qu’ils travaillent sur un contenu global avec du contexte, ils sont beaucoup moins bons que ceux qu’on avait traditionnellement qui étaient les moteurs de traduction neuronaux, les NMT.

Donc on va constater finalement que la meilleure efficacité dans ce processus est d’utiliser un NMT et pas le LLM qu’on avait initialement choisi.

On obtient ce processus tout logiquement en partant de l’objectif initial, en analysant les difficultés et les solutions potentielles.

Que se passe-t-il alors quand on utilise ce processus ? Le réviseur va toujours avoir les problèmes de traduction de DITA ou de contenu structuré avec des tags. Ces tags ne seront pas forcément corrects parce que tous les moteurs ne traitent pas les tags correctement. Comme le réviseur est une personne critique qui vaut cher, qui n’est pas forcément disponible ni très motivée par cette tâche, c’est dommage de l’utiliser à faire de la correction syntaxique et grammaticale. C’est de la perte de temps inutile pour cette ressource critique, mais aussi une source de démotivation. Il vaut mieux l’utiliser uniquement sur ce qui est le sujet du contenu où la connaissance du métier et du produit est primordiale.

Logiquement, on va affecter quelqu’un qui va faire de la post-édition (correction syntaxique, grammaticale, terminologique) avant de soumettre le contenu à la révision.

On peut alors faire le choix de réviser ou non. En effet, à partir du moment où la traduction a été revue en post-édition, on peut décider, suivant l’exigence qualité du métier dans lequel on opère, de ne pas faire la révision métier complémentaire.

Au final, on réalise qu’on a réinventé le processus actuel, à très peu de choses près, ce qu’on met en place, ce qu’on a mis en place depuis quelques années.

C’est à la fois rassurant, mais aussi frustrant :
Quand on commence à concevoir le système en prenant en compte les difficultés, on retombe sur des choses qui existent et c’est, d’une certaine façon, frustrant, parce qu’on se dit finalement, on n’a pas apporté grand-chose malgré la puissance de la nouvelle technologie, mais c’est d’un autre côté satisfaisant quand on travaille depuis longtemps dans ce métier-là, de se dire que finalement, on n’était pas si incompétents que ça.

Amélioration du contenu

Comment s’assure-t-on que ce processus fonctionne correctement et que ce système est efficace ? C’est-à-dire pouvoir obtenir l’efficacité de la partie intelligence artificielle, traduction automatique. Pour cela, il faut être conscient que le contenu qu’on va traduire, c’est le contenu qui a été rédigé.

C’est donc le travail sur la qualité de la rédaction et la qualité de la réutilisation de la traduction, la conformité à la terminologie, la conformité à des règles de style qui va faire que la traduction automatique va être efficace, voire même le modèle d’information.

Je prends des exemples :
Si vous faites du conditionnel, en français on parle d’applicabilité, pour afficher du texte différent selon les conditions. Si c’est la phrase elle-même qui comporte les conditions, le moteur de traduction ne saura pas traduire correctement. En revanche, si vous concevez votre documentation pour que les phrases elles-mêmes soient indépendantes, et que les conditions soient à l’extérieur des phrases, le moteur de traduction qui traduit alors des phrases va pouvoir traduire correctement.
De la même façon, votre contenu peut faire référence à une interface homme-machine (IHM). Si les chaînes ou les termes de l’IHM sont dans la documentation. Ils vont être traduits par le moteur de traduction qui, lui, n’a pas forcément la connaissance exacte de la façon dont ils sont traduits sur votre logiciel. Les termes peuvent être dans la base terminologique, mais pas toujours de façon univoque. La meilleure solution est d’externaliser ces termes en utilisant des « conref » ou « conkeyref » pour les inclure dans la documentation. Dans ce cas, vous pouvez garantir par la structure que vos termes d’IHM seront toujours corrects dans la documentation traduite.

Ainsi, il y a de nombreux choix possibles. Un travail sur le contenu peut améliorer significativement la façon dont celui-ci sera traduit. Et donc ça signifie qu’il faut une gouvernance, une gouvernance assez forte.
Quand on est un seul rédacteur, la gouvernance c’est assez facile. En principe, on est d’accord avec soi-même. Mais quand on est plusieurs rédacteurs, on doit mettre en place une gouvernance au niveau de la terminologie, des guides, des règles de style… pour s’assurer que, justement, on va respecter ces bonnes pratiques pour que les moteurs de traduction automatique fonctionnent bien et que tout le processus à la suite soit optimisé. C’est un point clé.

Mais vous voyez qu’on arrive finalement à une autre recommandation que j’effectue depuis des années auprès des clients que je conseille : Rédiger le contenu avec en tête la localisation, ce que j’appelle du contenu « loc-ready ».

Apport de L’IA

Nous sommes partis de comment tirer bénéfice des progrès récents de l’IA, pour finalement revenir sur le système en place depuis plusieurs années, qui fonctionne bien, qui utilise l’IA et les réseaux neuronaux, mais pas beaucoup plus que ça : On ne bénéficie pas d’IA générative dans ce modèle, ce qui n’était pas le but de cet article.

On va donc maintenant essayer d’identifier ce que l’intelligence artificielle peut apporter dans ces process-là pour qu’ils marchent encore mieux : Où va-t-on pouvoir bénéficier de l’intelligence artificielle ?

En rédaction

On va premièrement bénéficier de l’intelligence artificielle au niveau de la rédaction. On voit de plus en plus de systèmes de rédaction qui travaillent avec de l’intelligence artificielle, qui vont pouvoir être capables de récupérer des informations du produit, se connecter à des éléments de type Product Information Management (PIM) pour aller arriver à générer, ou aider le rédacteur à générer de la documentation technique à partir de documents de conception.
Ces outils fonctionnent bien pour rédiger du contenu DITA. J’utilise régulièrement mon moteur préféré pour écrire mes exemples.

C’est un apport intéressant et significatif de l’IA, mais ce n’est pas, non plus, l’objet de cet article. Cela ne concerne pas la traduction, on est dans la création de rédaction de contenu.

Quand on va passer de la rédaction à la traduction, l’apport de l’intelligence artificielle va être significatif dans la fonction de gouvernance :

Les rédacteurs ont rédigé du contenu. Dans l’immense majorité des cas, le contenu est rédigé en anglais. Les rédacteurs, parfois, ne sont pas anglophones, ou alors dans des pays lointains où on rémunère la quantité plus que la qualité. En conséquence, la qualité est parfois perfectible. On peut donc utiliser l’apport de l’intelligence artificielle pour contrôler si le contenu est bien conforme à nos exigences, à nos règles de rédaction. Il existe d’ores et déjà des outils sur le marché qui utilisent l’IA pour ce contrôle. On peut et on doit avoir des règles très précises, sans même aller jusqu’à du STE (Simplified Technical English), on peut s’en inspirer fortement.

Les outils avec l’intelligence artificielle vont pouvoir nous dire : Ce contenu est conforme, celui-là n’est pas conforme et, grâce à l’IA générative on va pouvoir même aller plus loin, on va pouvoir faire du « refactoring », c’est-à-dire qu’on va pouvoir proposer des rédactions, de corriger la rédaction pour proposer des rédactions qui soient conformes en disant : « Vous avez rédigé ça, on a bien compris ce que vous vouliez rédiger et on vous propose de le rédiger d’une autre façon ». Parfois, couper des phrases, changer un terme, changer des tournures de phrases permet d’être conforme aux règles et d’obtenir un contenu plus cohérent et plus facile à traduire.

Beaucoup de fabricants d’outils y travaillent. On n’est pas encore à des niveaux très élaborés, mais ça commence à exister et ça ira très vite. Mais encore une fois, tout est basé sur une gouvernance. Si vous n’avez pas la gouvernance, si vous n’avez défini les règles, vous ne pourrez pas avoir de système qui va vous dire comment être en conformité avec ces règles-là.

Une des questions qui m’a été posées était. Est-ce qu’un corpus de référence pourrait compenser l’existence et la gouvernance de règles précises ? En théorie effectivement, grâce aux technologies de type RAG (Retrieval augmented Generation ou Génération à enrichissement contextuel en français), si on fournit au LLM un corpus réduit de bonne qualité, l’outil de génération doit va pouvoir proposer des améliorations de la rédaction en fonction du corpus.

Le premier niveau est le contrôle ou la correction du contenu pour le mettre en conformité avec les règles communes. Un deuxième niveau plus pointu peut être envisagé. On sait tous très bien qu’il y a de nombreuses façons de rédiger les phrases qui vont dire la même chose et elles peuvent être toutes conformes au guide de style et à toutes nos règles. Mais il peut se trouver qu’on en a déjà traduit une et autant qu’on réutilise celle qu’on a déjà traduite.
Donc là, l’intelligence artificielle peut nous aider à identifier les phrases ou le contenu qui existe, qui a déjà été traduit et dire finalement au rédacteur : « si vous rédigiez votre phrase, la phrase que vous avez rédigée, si vous la rédigiez légèrement différemment, elle existe déjà en mémoire de traduction. Est-ce que vous êtes d’accord avec ça ? »

Il y a déjà des grosses sociétés, avant même l’intelligence artificielle, qui avaient mis en place des thésaurus très précis et les rédacteurs techniques n’avaient le choix d’utiliser que des morceaux de phrases ou des phrases qui existaient déjà dans une grosse base de données. Par exemple, un grand constructeur automobile français avait mis en place une solution technologique où les rédacteurs techniques des méthodes de réparation ne pouvaient utiliser que du contenu extrait d’un thésaurus de phrases ou composants possibles. Cela générait des contraintes assez importantes pour le rédacteur technique, mais cela fonctionnait. Le nouveau contenu à rédiger était limité avec, à la clé, des économies substantielles en traduction.

Cette technologie de « refactoring » vers les mémoires de traduction n’existe pas encore à ma connaissance, mais les technologies existent et donc cela pourra exister très bientôt notamment chez les fournisseurs de systèmes de mémoire en traduction. Cela permettra, d’améliorer le contenu source qui a été rédigé pour améliorer ce qu’on appelle le « leverage », c’est-à-dire faire en sorte qu’on ne qu’on ait plus de réutilisation des mémoires de traduction.
Là encore, il s’agit de gouvernance, cela nécessite de gouverner correctement la terminologie, ça nécessite de « gouverner » les mémoires de traduction, le CMS, les règles de style… Et donc, on peut s’appuyer sur des moteurs d’IA générative pour améliorer les contenus. Les technologies existent maintenant, le travail à faire est de l’intégration de systèmes et des développements qui sont d’ores et déjà en cours.

En traduction

Le premier apport de l’IA, comme nous venons de la voir, est d’améliorer le contenu en vue de sa traduction. Si maintenant on regarde la partie aval, la partie en traduction, qu’est-ce qu’on va pouvoir faire ?

On va pouvoir bénéficier de l’intelligence artificielle pour améliorer la productivité de la tâche de post-édition :

Dans notre métier de « traduction », nous avons des métriques de productivité. En règle générale, un traducteur qui fait de la post-édition ou un post-éditeur — ce sont parfois des métiers légèrement différents — va économiser entre 30 et 40 %, c’est-à-dire qu’on va gagner 30 à 40 % de productivité.

Que signifie gagner ? En moyenne, le post-éditeur va passer 40 % de temps en moins ; cela ne signifie pas que, pour chaque phrase, il va passer 40 % de moins ; cela signifie :

  • qu’il va y avoir 70 % des phrases qui vont être correctes, donc le post-éditeur va vérifier et dire « ça c’est correct, ça c’est correct, ça c’est correct, ça c’est correct… » en y passant très peu de temps.
  • Il y aura 2 phrases sur 10 où la traduction n’est pas tout à fait correcte et il va corriger légèrement pour améliorer la phrase.
  • Enfin, il y aura une phrase sur 10 par exemple, où il va complètement rédiger à nouveau la traduction parce que le moteur de traduction s’est trompé, parce qu’elle était ambiguë, parce que le contenu ou les tags n’étaient pas clairs…

Voilà donc ce qui fait la moyenne de traduction. En fait, il va passer une grande partie de son temps à vérifier des phrases pour trier entre les bonnes traductions et les autres. La profession commence à proposer d’utiliser l’IA pour réaliser cette analyse, ce tri entre les bonnes traductions et les traductions « suspectes » en s’appuyant sur un LLM ou du « Machine Learning ».

Donc le moteur de traduction neuronale donne une traduction de la phrase, une IA complémentaire va reprendre toutes ces phrases et leur affecter un indicateur de confiance. En conséquence, on pourra choisir de ne soumettre en post-édition que les phrases dont on pense qu’elles ne sont pas suffisamment bonnes, et le post-éditeur économisera tout le temps qu’il passait auparavant à vérifier les phrases. Tout ce travail économisé était un travail qui n’était ni intéressant ni gratifiant pour le traducteur.
L’IA ne va pas corriger les phrases, sinon elle serait intégrée au moteur de traduction automatique, elle va juste fournir un indicateur de confiance.

Comme l’IA va vérifier va donner un score à chaque segment. On peut très bien définir, en gouvernance, le niveau qu’on tolère. C’est-à-dire que si on est sur un jeu vidéo, si on est sur une documentation d’un logiciel B To C peu critique, on va pouvoir être tolérant sur la qualité. Si on est dans un domaine de « Medical Device », on va certainement sélectionner un niveau critique beaucoup plus élevé.

Voilà donc ce qui va permettre d’améliorer de façon significative la productivité du post-éditeur. On commence à le voir chez les LSPs ; on parle alors de Quality Evaluation ; on trouve des appellations différentes selon les fournisseurs, mais ça finit en général par QE pour Quality Evaluation. Ce sont des techniques qui vont permettre d’évaluer la qualité de retour et en fonction de cette qualité de définir ce qu’on fait de la traduction.

On peut mesurer une qualité globale qui va permettre de valider l’efficacité d’un moteur de traduction pour un type de contenu, mais on obtient aussi un indicateur élémentaire de qualité élémentaire qui va permettre de définir des workflows pour les différents segments. Ces techniques vont permettre d’améliorer significativement la productivité.

Nous avons vu l’apport de l’IA sur la post-édition. Quand on regarde l’étape suivant, on peut faire la même chose pour l’étape de révision, c’est-à-dire qu’on peut réappliquer une IA après la partie post-édition.
Pour dire « cette phrase est simple et n’a pas de terme métier et donc il n’est pas nécessaire de la réviser par un expert métier, en revanche celle-là, elle semble importante et peut générer un risque ou semble spécifique du métier, il faut donc la valider par un expert… » Donc en révision aussi, l’IA peut améliorer la productivité sur la tâche de révision.

Il faut noter que quand je dis, « les segments ne sont pas envoyés en post-édition ou en révision », c’est une formule rapide. En fait, ils sont aussi envoyés parce qu’ils fournissent du contexte important au post-éditeur ou au réviseur, mais ils sont identifiés et on ne lui demande pas de les vérifier.

Globalement, on peut appliquer des workflows différents au niveau des segments ou des workflows différents à des parties de document ou à des types de documents. On peut très bien dire : Un document d’installation doit être parfaitement juste parce que les gens peuvent se tromper, en revanche si c’est un document de type « release notes » ou un exemple, un document secondaire, on peut tolérer qu’il y ait quelques écarts.

Tous ces choix : niveau de productivité, niveau de qualité…, c’est aussi de la gouvernance. Imaginez que vous travaillez avec un partenaire qu’on appelle LSP (Language Service Professional), c’est ce partenaire qui va le mettre en œuvre avec sa technologie, mais c’est l’entreprise qui doit piloter ce process-là qui doit « gouverner » au sens anglais. On ne va pas lui envoyer du contenu en lui disant renvoyez-nous la traduction, mais on va envoyer le contenu en disant c’est moi qui pilote le niveau de qualité que je tolère à chaque niveau avec un compromis coût :

C’est-à-dire qu’on peut régler à ce point-là et mettre des seuils plus ou moins élevés, qui vont donner une qualité ou un risque plus important sur la sortie, mais également des réductions de coûts et de délai plus ou moins importants. C’est une responsabilité de l’entreprise de gouverner son niveau de qualité, son niveau de ses process, de la même façon qu’on gouverne en rédaction.

Toutes ces fonctions d’optimisation par Intelligence Artificielle, c’est des technologies qui existent et des solutions qui existent partiellement et existeront très bientôt parce qu’elles sont dans les tuyaux. Ce n’est plus qu’une question d’intégration et de mise sur le marché.

Quels gains en attendre ?

Quand on regarde la partie rédaction, l’optimisation au niveau de la rédaction en partant d’un contenu qui n’a pas de gouvernance peut atteindre 50 %
Je vais être très clair là-dessus, il y a très peu de sociétés qui mettent en place une vraie gouvernance au niveau du contenu, c’est malheureusement sans se rendre compte malheureusement de l’importance que peut avoir la définition exacte du contenu, des règles qu’on applique, de leur optimisation, de la réutilisation, de la structure de contenu, de la terminologie. Pour la terminologie, on doit bien s’assurer que la terminologie est cohérente et univoque parce que plus la terminologie est équivoque, plus il y a de risques bien évidemment en traduction automatique.

Effectivement, in fine, par rapport à une situation de contenu non gouverné, si on met en place une gouvernance et en particulier assistée par l’intelligence artificielle, on peut gagner plus de 50 % du contenu à traduire. C’est-à-dire que, dans une situation avec du contenu structuré comme DITA, ce qu’on envoie à traduire, ce sont les nouveaux topics ; on n’envoie pas à traduire bien évidemment les topics qui ont déjà été traduits. Donc quand on traduit les nouveaux topics, on peut s’attendre que dans ces nouveaux topics on aura 50 % de contenu en moins à traduire parce qu’on va réutiliser des mémoires de traduction, parce qu’on aura un meilleur contrôle et on va gagner en efficacité de la mémoire, en efficacité de la du moteur de traduction.

Et sur ces 50 % de contenu qu’on va envoyer à traduire, on va avoir, on va pouvoir avoir 40 % de réduction d’efforts en travaillant sur la partie, en mettant en place ce qu’on appelle le MT QE ou tout ce qui est évaluation de qualité et adaptation des workflows en fonction des critères de qualité.

Quand on combine tout ça, au final, on peut gagner 70 % du coût de la traduction, du ou de l’effort de traduction par la mise en place de ces systèmes-là.

Mais encore une fois, ce n’est pas de la magie. Ce n’est pas en passant d’un processus existant à quelque chose de complètement nouveau grâce à l’IA (ce dont rêvent peut-être nos dirigeants et ce que font croire les gourous). Quand on repart du point de départ, on s’aperçoit qu’on est obligé de reconstruire un système très proche des systèmes existants et éprouvés, mais qu’en contrôlant le process, on s’aperçoit qu’on peut optimiser significativement grâce à l’IA.

De plus, on a des métriques à tous les niveaux qu’on peut optimiser et on peut définir à tous les niveaux ce qu’on peut optimiser et avec de la maturité, pouvoir augmenter cette réduction de coûts ou d’efforts, mais ça nécessite quand même un système, un système assez important.

Apport pour le reste de l’Entreprise

Je voudrais maintenant mettre en évidence un bénéfice sous-exploité qui permet au service de documentation technique d’apporter de la valeur au reste de l’Entreprise.

Nous avons mis en place un processus de traduction technique, utilisant l’IA au maximum et pour lequel on dispose de métriques de qualité : on a bien optimisé et on a notamment notre moteur de traduction automatique avec le NMT et l’IA pour vérifier, pour évaluer la qualité.

Cependant dans une entreprise, il n’y a pas que de la documentation technique, il y a aussi des gens qui vont travailler, qui travaillent sur des mails, qui rédigent des documents de tous les jours (courrier, note d’information, procédure, présentation…) et qui ont envie de faire traduire pour partager avec des collaborateurs de l’Entreprise ou avec des partenaires ou clients à l’extérieur de l’Entreprise sans une autre langue, ou bien qui reçoivent des informations ou documents dans une langue qu’ils ne maîtrisent pas parfaitement.

Grâce à notre processus de traduction de documentation technique, on peut très bien répondre à ce besoin. Tout ce qu’on a développé et mis en place dans la partie documentation technique peut être réutilisé à travers maintenant des API (des interfaces d’intégration d’applications). On peut l’utiliser directement dans l’environnement de travail de tous les employés de l’entreprise. Les logiciels utilisés comportent tous cette option et l’intégration est très transparente, souvent une icône ou un menu supplémentaire

Donc ça fonctionne pour le contenu quotidien. Mais ça peut aussi s’appliquer dans plein d’autres systèmes, par exemple le contenu de formation. On conçoit des contenus de formation, on va vouloir les déployer dans de nombreux pays et donc traduire ce contenu de formation. Bien évidemment, on va bénéficier de notre système optimisé.
Toutes les autres fonctions de l’entreprise vont pouvoir en bénéficier, parce que maintenant tous les outils traitant du contenu disposent d’une option de traduction.
Par exemple, si vous achetez un CRM. Tous les CRM vous permettent de traduire. Si vous voulez faire un mailing à vos clients, Le CRM va faire une pré-traduction de votre mailing et ils ont tous des API qui permettent d’interconnecter à ce point. Dans le domaine d’intégration et de ces types d’outils, on appelle souvent cette option : « TAAF », Translation as a Feature. C’est-à-dire qu’on rajoute une fonctionnalité de traduction à l’intérieur de tous les outils métiers. Parmi les autres exemples on peut citer, l’Intranet d’une entreprise, des conférences (il y a des outils de video conferencing, entre autres ce que fournit LanguageWire, où le manager peut faire la conférence interne en anglais, et tous les employés l’écoutent l’avoir dans leur propre langue).

Donc toutes ces fonctions, tous ces outils peuvent s’appuyer sur notre solution de traduction instantanée optimisée.

Ce qui est vrai pour la communication interne de l’entreprise où il n’y a pas de problème de responsabilité se complique pour la communication externe. On veut bénéficier de ces outils, et gagner en productivité.

Mais en communication externe, par exemple sur les réseaux sociaux, le helpdesk ou un chatbot, on retombe sur des problèmes de responsabilité qu’on avait traités en documentation technique.
Si pour les réseaux sociaux on peut être tolérant, au niveau du helpdesk et des chatbots ; on va donner des informations importantes à un client et la qualité est donc fondamentale. Comme pour la partie documentation technique, la mesure de la qualité (Quality Evaluation) et son réglage et le choix des workflows qui en découlent va nous permettre de répondre à la problématique.
Prenons l’exemple du helpdesk. Un client japonais a fait une requête, le système du helpdesk va dire : « J’ai traduit la requête du client, et je propose cette réponse-là en japonais. » Mais aussi « je suis passé par l’anglais et je suis confiant à 90 % de ma réponse », on va pouvoir choisir de prendre le risque de publier une réponse à 90 %, et choisir de ne pas publier directement une réponse au-dessous de 90 %. Dans ce cas, on ne publie pas directement et un agent du helpdesk va vérifier la réponse.
Au-delà de l’obtention d’une traduction qui est en général d’assez bonne qualité, on peut définir ainsi le niveau de qualité toléré, puisqu’on a cette évaluation de la qualité.

Si on s’intéresse au chatbot, on peut très bien décider, dans le cas où la qualité est inférieure à 90 %, de répondre « Je n’ai pas la réponse, veuillez contacter le helpdesk… »

Dans les exemples, j’ai choisi 90 %, c’est totalement arbitraire pour plusieurs raisons :

  •  La métrique ne sera pas forcément un nombre entre 0 et 100 et il conviendra de faire des tests pour définir le niveau acceptable. On peut commencer à un niveau élevé et le descendre quand la confiance augmente.
  • Le niveau de qualité acceptable dépend de votre industrie et de l’évaluation de vos risques.

Mais ce qui est important, c’est que l’IA va permettre de donner une mesure et un indicateur de qualité. Avec ces indicateurs, on va pouvoir piloter, faire de la gouvernance, à un niveau plus élevé.

On va aussi pouvoir analyser, a posteriori, tous les contenus qui n’avaient pas un bon score pour identifier :

  • Si notre filtre était trop restrictif et si on aurait pu publier ce contenu
  • Ou essayer de comprendre et améliorer ce niveau de qualité, sur une langue, un type de contenu…

Ainsi, on peut travailler sur le moteur, sur l’entrainement, sur la terminologie pour améliorer le niveau de qualité. 

Conclusion :

À court terme, l’IA ne va pas tout résoudre par magie.

Nous avons travaillé avec notre expérience et beaucoup de bon sens : Nous sommes partis du point de départ : « On essaie de tout traduire en traduction totalement automatique » et puis à chaque fois où nous avons rencontré des difficultés ou des contraintes, nous avons trouvé des solutions à ces contraintes, pour retomber sur nos processus et nos systèmes actuels.
Nous avons cependant identifié des apports que l’IA va nous procurer pour optimiser de façon significative la productivité de ces processus, dans la condition sine qua non d’une gouvernance efficace.

Et puis nous avons identifié des bénéfices substantiels pour l’ensemble de l’entreprise qui permettent d’améliorer la productivité et la compétitivité. Cet apport permet en outre de booster l’image interne des équipes de documentation technique.

En résumé, à court terme, L’IA va nous servir à optimiser les processus actuels.

De la même façon, on pourrait se poser la question de savoir si on a besoin de contenu structuré, mais on s’apercevra que si on veut de la qualité, si on veut de la garantie, si on veut de la, fiabilité de la documentation, on va être obligé de passer par du contenu structuré.

Le deuxième point à retenir est que l’apport de l’IA s’appuie sur une gouvernance forte sans laquelle l’efficacité sera bien moindre.

Enfin, même si on s’est focalisé sur la documentation technique, le sujet est un sujet d’Entreprise qui doit bien sûr commencer par la documentation technique.

Est-ce qu’à moyen terme ça va toujours être le cas ? À moyen terme, il est vraisemblable que l’intelligence artificielle va révolutionner beaucoup plus toute la documentation.

Mais vous avez vu le point de départ de la réflexion. C’est l’engagement de qualité et les risques associés. Pour faire l’analogie avec les voitures autonomes, la technologie est prête, elle était déjà prête depuis quelques années. La limitation, c’est la loi autour de ça, la jurisprudence, qui est responsable de quoi et comment ?

À mon sens, tant qu’on est dans la situation où la société qui publie son contenu est responsable de tout son contenu, on restera sur des processus de ce type-là sans changement drastique. Et j’ajouterais que la tendance est plutôt dans ce sens-là puisque la directive machine, toutes les protections conduisent à renforcer les aspects réglementaires au niveau de la documentation.

Si jamais les réglementations enlevaient cet aspect de responsabilité systématique, on pourrait alors effectivement envisager des processus totalement automatiques.
C’est envisageable s’il est admis de fournir de la documentation qui est un plus, mais qui n’est pas critique, et que dans certaines conditions, l’entreprise n’est pas totalement engagée par sa documentation. Ce sont des libertés que prennent déjà certains fournisseurs chinois.

On pourrait donc effectivement envisager de changer complètement nos pratiques et de revoir complètement les processus. C’est peut-être la direction future, mais pour l’instant, avec nos contraintes actuelles, je pense que dans les 4 à 6 ans à venir, on restera sur des processus proches des processus actuels qui seront optimisés par l’IA, d’autant plus que notre métier est très conservateur et que nos méthodes évoluent lentement.