Défis de la traduction automatique avec DITA

  • Auteur/autrice de la publication :
  • Post category:Article

La traduction automatique (TA) a connu des améliorations significatives ces dernières années grâce à la mise en œuvre de réseaux de neurones, à l’apprentissage profond et surtout à la puissance de calcul qui permet de traiter des corpus très volumineux.

Actuellement, son domaine d’application principal est le raffinage numérique de texte (traduction suffisamment bonne pour comprendre le contenu) appliqué aux réseaux sociaux, au commerce électronique et à l’intelligence artificielle (IA), que ce soit en matière de concurrence, de brevets ou de sécurité…

Lorsqu’elle est accompagnée d’une révision humaine (appelée post-édition), elle permet d’obtenir une qualité de traduction similaire à celle d’une traduction humaine, dans un délai de commercialisation plus court et à moindre coût.

Pour atteindre ce niveau de performance, les moteurs de TA doivent : 

  • être capables de traiter correctement le contenu et le format source  ;
  • être conçus pour chaque paire de langues (source, cible)  ;
  • être adaptés ou entraînés selon la terminologie du secteur et de l’entreprise.

Actuellement, 10 à 20 moteurs de TA peuvent produire des résultats satisfaisants dans certaines paires de langues : entre 8 et 10 langues européennes, et 4 à 5 langues asiatiques majeures vers et à partir de l’anglais.

De nos jours, les informations techniques s’appuient sur les normes XML (dans de nombreux cas, la norme DITA) pour augmenter la réutilisation du contenu et la publication multicanale : PDF, aide en ligne, portail web de support client, applications mobiles, agents conversationnels, etc. 

Cette politique de réutilisation et de publication multicanale entraîne une baisse importante des besoins en traduction, ce qui limite la valeur potentielle de la TA. De plus, celle-ci s’appuie sur un contenu DITA riche avec des structures et des métadonnées supplémentaires, ce qui nuit à l’efficacité de la traduction automatique.

Dans cet article, nous examinons les principales difficultés créées par DITA pour les moteurs de TA, l’état actuel de ces outils et les différentes approches possibles pour traduire des informations techniques avec la TA.

Balises en ligne

DITA est une structure de développement de l’information basée sur le format XML. Elle définit un nombre important de balises différentes (610 dans sa dernière version officielle) qui peuvent être combinées avec des attributs, notamment l’attribut «  translate  » qui sert à contrôler ce qui peut être traduit. Certaines de ces balises, comme <i>, <uicontrol> ou <cite>, sont appelées balises «  en ligne  », car elles peuvent apparaître à l’intérieur d’un segment à traduire. Elles représentent de manière générale les principaux défis pour la traduction DITA, et plus spécifiquement pour la TA :

  • Les balises en ligne peuvent fournir des indications spécifiques relatives au contenu inclus :
    Les possibilités d’exploiter la <keyword otherprops= »localization »>mémoire de traduction</keyword> sont plus élevées.
    Elles se comportent de la même manière que les balises de formatage HTML et peuvent être imbriquées. 
  • Les balises en ligne peuvent avoir une valeur sémantique et représenter un contenu réel qui sera inclus, comme les balises avec des attributs conref, conkeyref ou href :
    Cliquez sur <uicontrol conkeyref= «  »WHP_SITE/CUST_login » »/>.
  • Certaines balises ont des exigences particulières concernant le contenu imbriqué.
    Par exemple, <menucascade> n’autorise que les balises <uicontrol>.
  • En outre, le «  D  » de DITA signifie Darwin, ce qui indique que des éléments personnalisés peuvent être créés :
    La spécialisation audio introduite par WhP ajoute 6 nouveaux éléments.

Par conséquent, plus le contenu est adapté à la réutilisation, à la maintenance, à la diffusion multicanale, au microcontenu, etc., plus les segments à traduire sont susceptibles de comporter des balises.


La traduction DITA doit également faire face à des défis supplémentaires concernant la qualité du contenu. Le contenu n’est jamais aussi parfait qu’il devrait l’être à cause des migrations, des contraintes de temps ou du manque de sensibilisation à la localisation. Les problèmes les plus courants comprennent :

  • la présence de phrases sensibles au genre du contenu inclus  ;
  • la présence de contenu conditionnel au sein d’un segment  ;
  • l’apparition de balises d’ouverture et de fermeture d’une seule et même paire dans différents segments.

Traitement des balises par la traduction automatique 

La traduction automatique n’a pas été conçue pour DITA ou le format XML, puisque sa cible principale est le texte brut. 

Différentes approches ont été mises en œuvre par les moteurs de TA pour traiter les balises. 

La plus commune est l’approche «  retirer puis réintégrer les balises  », selon laquelle les balises sont tout d’abord exclues le temps du traitement par la TA, puis réinsérées par la suite sur la base de la correspondance des mots. Bien que ses performances relatives aux «  balises de formatage  » présentées ci-dessus puissent être considérées comme satisfaisantes, cette approche ne parvient pas à traiter correctement les autres types de balises.

Plusieurs nouvelles approches, telles que celle proposée par Amazon research [1], qui s’appuie sur l’apprentissage automatique à partir d’un vaste corpus ou celle proposée par Salesforce [2], essayent d’améliorer ces performances. 

À ce jour, un contenu DITA riche ne peut pas être directement publié en utilisant une traduction automatique brute. Il est nécessaire d’avoir recours à une traduction automatique assistée par l’homme (TAAH) où le contenu traduit est post-édité par un réviseur humain, qui est un spécialiste à la fois de la langue cible et de DITA. Tous ceux qui ont déjà réalisé cette tâche peuvent témoigner du temps considérable qu’elle prend.

Différentes approches 

Comme indiqué ci-dessus, la technologie de la TA n’est pas encore entièrement fonctionnelle en ce qui concerne le traitement approprié d’un contenu DITA riche, mais de nombreuses recherches sont en cours et les progrès sont très rapides. 

Les différentes approches que nous vous proposons sont les suivantes :

  • Simplifier le modèle d’information DITA pour réduire le nombre de balises et se rapprocher du format HTML, ce qui permet de limiter ses capacités de réutilisation 
  • Attendre que les moteurs de TA s’améliorent ou commencer à utiliser un moteur de TA disponible dans l’entreprise, en gardant à l’esprit que cette approche peut ne pas être rentable immédiatement, mais seulement plus tard
  • Utiliser la TA en tant que support à un traducteur humain, en proposant des options similaires à celles proposées par les outils de TAO (Traduction assistée par ordinateur), une démarche que nous pourrions appeler THATA (Traduction humaine assistée par la traduction automatique). 

L’approche choisie dépendra des pratiques, des objectifs et de la maturité de l’entreprise.

Références 

[1] Greg Hanneman, Georgiana Dinu. Fifth Conference on Machine Translation (WMT20) lors de la conférence EMNLP 2020. 2020

[2] Kazuma Hashimoto, Raffaella BUSCHIAZZO, James BRADBURY, Teresa MARSHALL, Caiming Xiong  Richard Socher. Brevet américain US10963652B2, Salesforce.com inc. publié le 30/03/2021

Cet article a été écrit en anglais et traduit par Meryem MURAT, étudiante en master TSM à l’université de Grenoble, dans le cadre d’une collaboration avec les universités et avec l’aimable autorisation de Dominique Trouche.