École d’été en Traitement Automatique des Langues
14-18 juin 2021, ENSSAT Lannion
🔎 Objectifs, intervenants, publics
L’école d’été en Traitement automatique des langues (ETAL) est l’un des outils de formation associé au GDR Traitement Automatique des Langues (TAL). Pour sa première édition, le comité scientifique d’ETAL a décidé d’aborder, en collaboration avec le GdR MaDICS, un thème novateur : les nouvelles interactions pour l’accès à l’information.
Depuis quelques années, on assiste à une forte convergence des outils scientifiques dans les communautés du traitement automatique de langue écrite ou parlée et de la recherche d’informations, portées notamment par les approches en apprentissage statistique et neuronal, et des types de données manipulées. Cela se traduit notamment par :
– des nouvelles avancées dans le traitement conjoint de l’oral et de l’écrit s’appuyant sur de grands corpus de parole et de textes écrits ;
– de nouvelles approches et méthodes statistiques ou mixtes de la parole, de la langue et de la recherche d’informations, pour produire de nouvelles interfaces ;
– des spécificités des dialogues oraux mais aussi des conversations écrites de type courrier électronique, micro-blog (tweets), forum et chat.
Thèmes et intervenants
La formation consiste en 4,5 jours de cours magistraux et de travaux pratiques (50 % cours, 50 % TP) divisés en modules fondamentaux présentant les notions essentielles, les dernières avancées des méthodes statistiques et des modules thématiques dédiés aux nouvelles interfaces. Seront traités les concepts et méthodologie pour le traitement automatique de la langue écrite, de la langue parlée et de la recherche d’informations, l’apprentissage statistique et les approches neuronales dédiées à la représentation du texte, à la modélisation acoustique, à la classification et l’étiquetage, les architectures neuronales de bout en bout, la fouille de texte dans les documents retranscrit, les systèmes de dialogues et les dialogues multi-participants et l’éthique.
Les travaux pratiques s’effectueront sous un environnement informatique commun : un serveur Jupyter sera mis en place avec installation des librairies standard telle que Pytorch et mise à disposition des données nécessaires.
Les intervenants
- Alexandre Allauzen, PR, Université Paris Sciences et Lettres, ESPCI, UMR LAMSADE
- Yannick Estève, PR, Université d’Avignon, EA LIA
- Karën Fort, MCF, Sorbonne Université, EA STIH / UMR LORIA
- Lina Maria Rojas Barahona, Senior Researcher, Orange
- Sophie Rosset, DR, CNRS, LIMSI
- Laure Soulier, MCF, Sorbonne Université, UMR LIP6
- Xavier Tannier, PR, Sorbonne Université, UMR LIMICS
Public
Le programme d’ETAL cherche à répondre aussi bien aux besoins de formation des jeunes chercheurs du monde académique qu’aux besoins émis par les industriels désireux de mieux appréhender les spécificités des données langagières écrites ou orales. Le public visé est celui des informaticiens, de niveau master informatique ou équivalent, qui ont besoin d’une formation :
- sur les aspects informatiques, linguistiques et méthodologiques liés au traitement de langue écrite, parlée et en recherche d’informations ;
- sur l’IA notamment en rapport avec l’usage de grandes données textuelles ou orales et leurs spécificités, ainsi que les techniques les plus récentes d’apprentissage statistique et d’approches neuronales utilisées par la RI en situation de dialogue pour le développement d’interfaces innovantes ;
- sur l’éthique, en relation avec la constitution de corpus, l’analyse et la génération de données textuelles et/ou orales.
📆 Programme
Détails des cours
Cours 1 : Concepts et méthodologie pour le TAL, TLP et RI
Xavier TANNIER
(Sorbonne Université, LIMICS)
Ce cours introductif présente les objets d’étude dans les domaines concernés, notamment les niveaux d’analyse de la parole et du langage, qui fournissent classiquement des informations pour les traitements applicatifs. Seront aussi abordées ici les méthodes classiques de traitement et prétraitement, les ressources existantes, les corpus oraux et textuels. Les problématiques d’évaluation dans différents contextes et applications seront également traitées.
Pré-requis (scient. et tech.) : Aucun.
Cours 2 : Apprentissage statistique et approches neuronales 1
Alexandre ALLAUZEN
(Univ. PSL, ESPCI, LAMSADE)
Yannick ESTÈVE
(Université d’Avignon, LIA)
Cette première partie consacrée aux approches par apprentissage automatique présentera les architectures de réseaux de neurones pour (1) les représentations textuelles vectorielles au niveau lexical (plongements de mots simples, non contextuels) et acoustique et (2) la modélisation acoustique pour la reconnaissance et la synthèse de la parole. Ce cours présentera les approches fondamentales mais aussi les limites et les biais introduits par ces techniques pour le TALN et le TAP. Le cours est accompagné de séances de laboratoire mettant en pratique les approches présentées sur des données de petite taille et la manipulation de modèles pré-entraînés plus larges.
Pré-requis (scient. et tech.) : idéalement des connaissances en commande Unix et programmation Python, utilisation de notebooks, bases du calcul matriciel, notions de dérivée et gradient.
Cours 3 : Apprentissage statistique et approches neuronales 2
Alexandre ALLAUZEN
(Univ. PSL, ESPCI, LAMSADE)
Laure SOULIER
(Sorbonne Université, LIP6)
La suite du cours précédent est consacrée aux architectures plus complexes visant des représentations au niveau de phrases ou d’éléments textuels plus importants (textes, dialogues) : réseaux de neurones récurrents, encodeurs/décodeurs à mécanisme d’attention, réseaux convolutifs et leur utilité pour la classification de textes, l’étiquetage de séquences, ainsi que pour des approches de prédiction structurée : modèle séquence-à-séquence, encodage-décodage, et les applications en RI, TAP et TAL. Un volet spécifique sera consacré à la RI (processus, modèles de base et évaluation) avec des modèles neuronaux pour l’ordonnancement de documents et les dernières tendances du domaine.
Pré-requis (scient. et tech.) : Base du traitement de texte, programmation Python.
Cours 4 : Éthique
Karën FORT
(Sorbonne Université, STIH, LORIA)
Ce cours introductif présente les objets d’étude dans les domaines concernés, notamment les niveaux d’analyse de la parole et du langage, qui fournissent classiquement des informations pour les traitements applicatifs. Seront aussi abordées ici les méthodes classiques de traitement et prétraitement, les ressources existantes, les corpus oraux et textuels. Les problématiques d’évaluation dans différents contextes et applications seront également traitées.
Pré-requis (scient. et tech.) : Aucun.
Cours 5 : De la parole au texte. Fouille de textes dans les documents retranscrits
Sophie ROSSET
(CNRS, LIMSI)
Ce cours aborde la recherche d’information et la fouille de texte dans les données de parole. Y sera étudiée la confrontation des modèles (sacs-de-mots et neuronaux) de RI et fouille actuels aux spécificités de données de type parole. Un focus sera mis en particulier sur l’examen d’un problème typique : la reconnaissance des entités nommées (y compris le liage d’entités – entity linking), les méthodes pour les repérer (analyse multimodale ou à partir de textes retranscrits) et pointer les erreurs types en fonction des méthodes employées.
Pré-requis (scient. et tech.) : Aucun.
Cours 6 : Systèmes de dialogues – Dialogues multi-participants
Lina ROJAS
(Orange)
Ce cours présentera les problématiques liées au dialogue, qu’il soit entre humains ou entre humains et machines, ainsi que sous toutes ses formes (multi-modalité, forums, chats, e-mails). Un premier regard sera porté sur les aspects linguistiques et sociaux, puis un second sur ceux informatiques avec le développement de systèmes de dialogue comme perspective. Pour cela, après une introduction de la terminologie et une brève introduction à l’architecture modulaire de ces systèmes, nous parlerons des composants liés à la compréhension de l’intention de l’utilisateur et au belief tracking. Les aspects a gestion/politique de dialogue et la génération seront également abordés.
Pré-requis (scient. et tech.) : Connaissances en apprentissage automatique, programmation Python.
🏁 Inscription, venue, hébergement
Venue et hébergement
- L’école d’été aura lieu dans les locaux de l’école d’ingénieur ENSSAT située à Lannion. Son adresse exacte est : 6, rue de Kerampont, Lannion
- Pour l’hébergement, vous serez accueillis à l’hôtel IBIS de Lannion, au 30 Avenue du Général de Gaulle, Lannion. Il se trouve à 100m de la gare.Comme le montre le plan ci-dessous, tous les déplacements sont très faciles d’un lieu à l’autre.
Inscription
>>> LES INSCRIPTIONS SONT DESORMAIS CLOSES <<<
Le nombre de places est limité. La préinscription est obligatoire.
Pré-inscrivez-vous ici
Pour les agents CNRS, les frais d’inscription et de séjour seront pris en charge par la délégation régionale des participants. Les frais d’inscription prévus seront d’environ 550 € pour les participants académiques et de 400 € pour les doctorants, et couvrent l’hébergement, les repas du midi et la participation aux cours et travaux pratiques. L’inscription des participants industriels est réservée aux partenaires du GDR TAL.
Date limite d’inscription : 3/04/2021
👫 Comités
Comité scientifique
- Guillaume Gravier, CNRS-IRISA (Président)
- Damien Lolive, IRISA
- Vincent Claveau, CNRS-IRISA et dir. adjoint GdR MaDICS
- Géraldine Damnati, Orange Labs
- Jean-Pierre Chevallet, LIG
- Catherine Berrut, LIG
- Philippe Muller, IRIT
- Béatrice Daille, LS2N et directrice du GdR TAL
- Emmanuel Morin, LS2N
- Max Chevalier, IRIT
- Haïfa Zargayouna, LIPN
- Philippe Boula de Mareüil, CNRS-LIMSI
Comité d’organisation
- Damien Lolive, IRISA (Président)
- Vincent Claveau, CNRS-IRISA et GdR MaDICS
- Nelly Barbot, IRISA
- Jonathan Chevelu, IRISA
- Arnaud Delhay-Lorrain, IRISA
- Angélique Le Pennec, IRISA
- Gwénolé Lecorvé, Orange Labs
Merci également à Valentin Durand, Antoine Perquin, Aghilas Sini et Lily Wadoux.
💬 FÀQ & Contacts
FÀQ
Y a-t-il des prérequis pour comprendre les cours ?
Les cours s’adressent à un public de Bac+5 ou Bac+8 en informatique. Ainsi, il est supposé que les participants ont des connaissances en programmation. La connaissance du langage Python sera notamment utile. De même, des notions sur les questionnements linguistiques et la notion d’apprentissage automatique sont supposées. Pour le reste (notamment deep learning), le programme est prévu pour accompagner les participants.
Les repas sont-ils compris dans le séjour ?
Oui, du lundi matin au vendredi midi inclus (petit déjeuner, déjeuner, dîner). Seul le repas du dimanche soir est laissé à la charge des participants.
Dois-je prévoir quelque chose de particulier pour l’événement social ?
Il est recommandé d’apporter un coupe-vent, éventuellement imperméable :-).
Contacts
- Pour toute question relative à l’école d’été : contact POINT etal2021 AT inria POINT fr
- Pour toute question re lative au Club des partenaires, veuillez contacter gdrtal-clubpartenaires AT services POINT cnrs POINT fr