Numéro spécial sur les corpus annotés

Revue TAL : (60-2) Numéro spécial sur les corpus annotés

FR EN

Revue TAL : Numéro spécial sur les corpus annotés

Direction: Marie Candito et Mark Liberman

Les corpus annotés constituent une ressource cruciale à la fois pour le TAL
et pour la linguistique computationnelle, que ces ressources aient été entièrement
ou partiellement validées manuellement ou pas du tout. De telles ressources sont
requises pour l’apprentissage supervisé de systèmes de TAL et utilisées également
pour l’apprentissage semi-supervisé. Et même dans le cas non supervisé, l’évaluation
nécessite en général des ressources annotées. Si dans le cadre de certaines
applications comme la traduction automatique ou la reconnaissance de la parole,
les corpus annotés linguistiquement sont en concurrence avec des données plus
simples ne contenant pas d’annotations linguistiques mais seulement des entrées/sorties
de l’application, les annotations linguistiques ont une vocation plus générique, et
permettent l’apprentissage de modèles plus facilement interprétables.

Pour la recherche en linguistique également, le corpus est un matériau central.
Les annotations en corpus facilitent la recherche d’exemples attestés. Elles peuvent
servir à valider une formalisation linguistique et sont à la base des modèles
statistiques linguistiques.
Par ailleurs, l’utilisation croissante dans les systèmes de TAL de représentations
distribuées pour des symboles linguistiques atomiques (i.e. des plongements de
mots, de POS ou de labels de dépendances syntaxiques) ouvre la voie à une
évaluation quantitative des frontières traditionnellement utilisées entre catégories
linguistiques.

Ce numéro spécial sur les corpus annotés permettra de faire le point sur les enjeux
actuels de leur construction et exploitation. Les auteurs sont invités à soumettre des
documents originaux concernant tous les aspects des corpus annotés.

Nous encourageons en particulier les soumissions sur des ressources intégrant du
français, qui pourront ainsi intéresser au premier chef les chercheurs travaillant sur le
français. Les problématiques et tâches suivantes sont particulièrement encouragées
(liste non exhaustive):

Création de corpus annotés avec tout type d’information méta-linguistique, en particulier les corpus comprenant du français
Interopérabilité des annotations, entre types d'annotation, entre langues
Procédures d’annotation, incluant la projection à partir de ressources dans d’autres langues
Evaluation qualitative et quantitative d’annotations
Questions linguistiques (avantages et inconvénients de schémas d’annotation du point de vue de la description linguistique, impact de la simplification linguistique)
Corpus augmentés de représentations distribuées sensibles au contexte (par ex. “sense embeddings”)
Comparaison d’annotations linguistiques atomiques vs représentations distribuées
Comparaison de la formalisation linguistique dans les annotations et dans les théories linguistiques
Comparaison et évaluation de schémas d’annotation pour des tâches précises
Défis pour l’annotation (par ex. Annotation sur plusieurs phrases, discours, annotations multilingues, multimodales, de construction, de langue non standard, de contenu généré par l’utilisateur, code-switching…)
Maintenance de corpus annotés
Utilisation innovante de corpus annotés
Outils d’annotation et/ou d’exploration de corpus annotés (développement, évaluation)

INFORMATIONS

DATES IMPORTANTES

Date limite de soumission : 2 9 novembre 2018
Notification aux auteurs, première relecture : 8 février 2019
Notification aux auteurs, seconde relecture : 12 avril 2019
Publication : septembre 2019

LA REVUE

La revue TAL (Traitement Automatique des Langues) est une revue internationale éditée depuis 1960 par l’ATALA (Association pour le Traitement Automatique des Langues) avec le concours du CNRS. Elle est maintenant publiée en format électronique, avec accès gratuit immédiat aux articles publiés, et impression annuelle à la demande. Cela ne change aucunement son processus de relecture et de sélection.

Personnes connectées : 2

Vie privée