Les corpus annotés constituent une ressource cruciale à la fois pour le TAL et pour la linguistique computationnelle, que ces ressources aient été entièrement ou partiellement validées manuellement ou pas du tout. De telles ressources sont requises pour l’apprentissage supervisé de systèmes de TAL et utilisées également pour l’apprentissage semi-supervisé. Et même dans le cas non supervisé, l’évaluation nécessite en général des ressources annotées. Si dans le cadre de certaines applications comme la traduction automatique ou la reconnaissance de la parole, les corpus annotés linguistiquement sont en concurrence avec des données plus simples ne contenant pas d’annotations linguistiques mais seulement des entrées/sorties de l’application, les annotations linguistiques ont une vocation plus générique, et permettent l’apprentissage de modèles plus facilement interprétables.
Pour la recherche en linguistique également, le corpus est un matériau central. Les annotations en corpus facilitent la recherche d’exemples attestés. Elles peuvent servir à valider une formalisation linguistique et sont à la base des modèles statistiques linguistiques. Par ailleurs, l’utilisation croissante dans les systèmes de TAL de représentations distribuées pour des symboles linguistiques atomiques (i.e. des plongements de mots, de POS ou de labels de dépendances syntaxiques) ouvre la voie à une évaluation quantitative des frontières traditionnellement utilisées entre catégories linguistiques.
Ce numéro spécial sur les corpus annotés permettra de faire le point sur les enjeux actuels de leur construction et exploitation. Les auteurs sont invités à soumettre des documents originaux concernant tous les aspects des corpus annotés.
Nous encourageons en particulier les soumissions sur des ressources intégrant du français, qui pourront ainsi intéresser au premier chef les chercheurs travaillant sur le français. Les problématiques et tâches suivantes sont particulièrement encouragées (liste non exhaustive):
Création de corpus annotés avec tout type d’information méta-linguistique, en particulier les corpus comprenant du français
Interopérabilité des annotations, entre types d'annotation, entre langues
Procédures d’annotation, incluant la projection à partir de ressources dans d’autres langues
Evaluation qualitative et quantitative d’annotations
Questions linguistiques (avantages et inconvénients de schémas d’annotation du point de vue de la description linguistique, impact de la simplification linguistique)
Corpus augmentés de représentations distribuées sensibles au contexte (par ex. “sense embeddings”)
Comparaison d’annotations linguistiques atomiques vs représentations distribuées
Comparaison de la formalisation linguistique dans les annotations et dans les théories linguistiques
Comparaison et évaluation de schémas d’annotation pour des tâches précises
Défis pour l’annotation (par ex. Annotation sur plusieurs phrases, discours, annotations multilingues, multimodales, de construction, de langue non standard, de contenu généré par l’utilisateur, code-switching…)
Maintenance de corpus annotés
Utilisation innovante de corpus annotés
Outils d’annotation et/ou d’exploration de corpus annotés (développement, évaluation)
INFORMATIONS
DATES IMPORTANTES
Date limite de soumission : 2 9 novembre 2018
Notification aux auteurs, première relecture : 8 février 2019
Notification aux auteurs, seconde relecture : 12 avril 2019
Publication : septembre 2019
LA REVUE
La revue TAL (Traitement Automatique des Langues) est une revue internationale éditée depuis 1960 par l’ATALA (Association pour le Traitement Automatique des Langues) avec le concours du CNRS. Elle est maintenant publiée en format électronique, avec accès gratuit immédiat aux articles publiés, et impression annuelle à la demande. Cela ne change aucunement son processus de relecture et de sélection.