GT3 – Multilinguisme, Multiplicité des langues

Animateurs

Laurent Besacier (Naver Labs)
François Yvon (ISIR MLIA)

Les travaux du GT Multilinguisme, multiplicité des langues visent à conforter les travaux de deux thèmes historiques que sont la traduction automatique et le traitement des langues peu dotées et à faire émerger deux nouveaux thèmes, l’apprentissage des langues et la dialectologie computationnelle présentant un potentiel important.

  • Traduction automatique (et TAO)
    Si la traduction automatique a montré des avancées importantes ces dernières années, il reste un long chemin à accomplir et de nombreux obstacles à surmonter pour atteindre l’objectif d’une traduction automatique performante, transparente et fiable, pour tous les couples de langues et contextes de traduction. Une autre réflexion porte sur la traduction d’échanges informels (SMS, chats, tweets) ou la traduction de parole où les avancées sont plus lentes, faute en particulier de disposer de données appropriées, voire d’une définition claire de la tâche (Doit on traduire les émoticons ? Les hésitations ? Les faux départs ? Les reprises ? Les erreurs de grammaire volontaires ou involontaires ? L’intonation ? etc.).
  • Le traitement des langues peu dotées
    D’une manière générale, les langues peu dotées se caractérisent par une forte variation à l’oral et à l’écrit (lorsqu’elles disposent d’un système d’écriture), ce qui constitue un défi pour les outils de TAL, avec, en plus, la forte contrainte du manque de données disponibles. Ces défis favoriseront dans les années à venir les travaux visant à mettre au point des méthodes extrêmement robustes et peu sensibles au manque de données, qui viendront compléter les travaux actuels se focalisant sur le traitement de grandes quantités de données pour les langues bien dotées.
  • TAL pour l’apprentissage des langues
    Pour les TICE et l’enseignement/apprentissage des langues, les technologies du TAL connaissent des applications variées, comme la génération de contenus de référence pour la didactique, l’aide à la lecture, la génération d’activités, la détection d’erreur et génération de feed-back, l’évaluation automatique, l’aide à la rédaction et sélection automatique de textes ou encore l’adaptation de l’environnement en fonction du modèle d’apprenant. Ces technologies TAL sont encore assez peu utilisées par les enseignants et les apprenants (fiabilité jugée insuffisante, contexte didactique tolérant mal les erreurs d’analyse).
  • TAL et dialectologie
    Le traitement de la dialectologie s’appuie sur des informations typologiques (dérivées de la comparaison empirique et systématique des langues du monde) qu’il s’agit d’intégrer dans des systèmes et algorithmes de TAL. L’intégration des informations typologiques dans les algorithmes et les systèmes de TAL est encore mal maîtrisée comme l’est d’ailleurs leur acquisition par les méthodes d’apprentissage profond.

Actions

  • Journée du 24 octobre 2019 LIG Grenoble
  • Axe de réflexion 2018 Multilinguisme, multiplicité des langues Rapport

Liste de diffusion

Les personnes intéressées pour participer aux travaux du GT3 ou suivre ses activités sont invitées à s’abonner à la liste de diffusion :
gdrtal-multilinguisme@services.cnrs.fr
Pour ce faire, envoyez, depuis l’adresse mèl que vous souhaitez voir intégrer à la liste de diffusion, un message à sympa@services.cnrs.fr contenant uniquement le sujet :
subscribe gdrtal-multilinguisme@services.cnrs.fr Prénom Nom (corps du message vide).
Pour diffuser un message sur la liste, adressez-le à :
gdrtal-multilinguisme@services.cnrs.fr
Si vous souhaitez vous désabonner ultérieurement de la liste, il vous suffira d’adresser un message composé du seul sujet :
unsubscribe  gdrtal-multilinguisme@services.cnrs.fr
à sympa@services.cnrs.fr