L’école d’été en Traitement automatique des langues (ETAL) est l’un des outils de formation associé au GDR Traitement Automatique des Langues (TAL). Pour sa première édition, le comité scientifique d’ETAL a décidé d’aborder, en collaboration avec le GdR MaDICS, un thème novateur : les nouvelles interactions pour l’accès à l’information.
Depuis quelques années, on assiste à une forte convergence des outils scientifiques dans les communautés du traitement automatique de langue écrite ou parlée et de la recherche d’informations, portées notamment par les approches en apprentissage statistique et neuronal, et des types de données manipulées. Cela se traduit notamment par :
– des nouvelles avancées dans le traitement conjoint de l’oral et de l’écrit s’appuyant sur de grands corpus de parole et de textes écrits ;
– de nouvelles approches et méthodes statistiques ou mixtes de la parole, de la langue et de la recherche d’informations, pour produire de nouvelles interfaces ;
– des spécificités des dialogues oraux mais aussi des conversations écrites de type courrier électronique, micro-blog (tweets), forum et chat.
29 juin au 3 juillet 2020 à l’ENSSAT Lannion
Thèmes et intervenants
La formation consiste en 4,5 jours de cours magistraux et de travaux pratiques (50 % cours, 50 % TP) divisés en modules fondamentaux présentant les notions essentielles, les dernières avancées des méthodes statistiques et des modules thématiques dédiés aux nouvelles interfaces. Seront traités les concepts et méthodologie pour le traitement automatique de la langue écrite, de la langue parlée et de la recherche d’informations, l’apprentissage statistique et les approches neuronales dédiées à la représentation du texte, à la modélisation acoustique, à la classification et l’étiquetage, les architectures neuronales de bout en bout, la fouille de texte dans les documents retranscrit, les systèmes de dialogues et les dialogues multi-participants et l’éthique.
Les travaux pratiques s’effectueront sous un environnement informatique commun : un serveur Jupyter sera mis en place avec installation des librairies standard telle que Pytorch et mise à disposition des données nécessaires.
Les intervenants
Alexandre Allauzen, PR, UMR LIMSI
Yannick Estève, PR, LIA, Université d’Avignon
Karën Fort, MC, EA STIH
Lina Maria Rojas Barahona, Senior Researcher, Orange Labs
Sophie Rosset, DR CNRS, LIMSI
Laure Soulier, MC, UMR LIP6
Xavier Tannier, PR, UMR LIMICS
Public
Le programme d’ETAL cherche à répondre aussi bien aux besoins de formation des jeunes chercheurs du monde académique qu’aux besoins émis par les industriels désireux de mieux appréhender les spécificités des données langagières écrites ou orales. Le public visé est celui des informaticiens, de niveau master informatique ou équivalent, qui ont besoin d’une formation :
- sur les aspects informatiques, linguistiques et méthodologiques liés au traitement de langue écrite, parlée et en recherche d’informations ;
- sur l’IA notamment en rapport avec l’usage de grandes données textuelles ou orales et leurs spécificités, ainsi que les techniques les plus récentes d’apprentissage statistique et d’approches neuronales utilisées par la RI en situation de dialogue pour le développement d’interfaces innovantes ;
- sur l’éthique, en relation avec la constitution de corpus, l’analyse et la génération de données textuelles et/ou orales.
Inscription
Le nombre de places est limité. La préinscription est obligatoire ICI
Pour les agents CNRS, les frais d’inscription et de séjour seront pris en charge par la délégation régionale des participants. Les frais d’inscription prévus seront d’environ 550 € pour les participants académiques et de 400 € pour les doctorants, et couvrent l’hébergement, les repas du midi et la participation aux cours et travaux pratiques. L’inscription des participants industriels est réservée aux partenaires du GDR TAL.
Date limite d’inscription : 30/04/2020.
Comité scientifique
- Guillaume Gravier, CNRS-IRISA (Président)
- Damien Lolive, IRISA
- Vincent Claveau, CNRS-IRISA et dir. adjoint GdR MaDICS
- Géraldine Damnati, Orange Labs
- Jean-Pierre Chevallet, LIG
- Catherine Berrut, LIG
- Philippe Muller, IRIT
- Béatrice Daille, LS2N et directrice du GdR TAL
- Emmanuel Morin, LS2N
- Max Chevalier, IRIT
- Haïfa Zargayouna, LIPN
- Philippe Boula de Mareüil, CNRS-LIMSI
Comité d’organisation
- Damien Lolive, IRISA (Président)
- Vincent Claveau, CNRS-IRISA et GdR MaDICS
- Nelly Barbot, IRISA
- Jonathan Chevelu, IRISA
- Arnaud Delhay-Lorrain, IRISA
- Gwénolé Lecorvé, IRISA
Pour toute question relative à l’école d’été, veuillez contacter Damien Lolive damien.lolive_at_irisa.fr
Pour toute question relative au Club des partenaires, veuillez contacter Béatrice Daille beatrice.daille_at_ls2n.fr