DU BRUIT DANS LE SIGNAL : GESTION DES ERREURS EN TRAITEMENT AUTOMATIQUE DES LANGUES
La langue que les applications de traitement automatique des langues ont à traiter ressemble assez peu aux exemples parfaitement grammaticaux que l'on rencontre dans les livres de grammaire. Dans l'usage quotidien, les énoncés à traiter se présentent sous une forme imparfaite : les textes dactylographiés contiennent des erreurs de saisie, ainsi que de fautes d'orthographe et de grammaire ; les énoncés oraux correspondent souvent à des phrases incomplètes et contiennent des disfluences; les sorties des systèmes d'OCR contiennent de multiples confusion entre caractères, et celles des systèmes de reconnaissance vocale contiennent des transcriptions inexactes de ce qui a réellement été prononcé.
Le bruit est donc inhérent au données langagières et ignorer cette réalité ne peut que nuire à la qualité de nos systèmes de traitement. Pour certaines applications, l'enjeu est de développer des mécanismes robustes vis-à-vis de ces erreurs. Par exemple, un système de dialogue pourra utiliser des mesures de confiance portant sur les hypothèses de reconnaissance vocale pour décider s'il doit demander à l'utilisateur de répéter. Pour d'autres applications, il sera nécessaire de faire appel à des techniques de correction automatique des erreurs; ainsi, par exemple, un système d'OCR pourra post-traiter les textes avec des modèles de correction contextuels pour valider l'orthographe des mots.
Ce numéro spécial vise à rassembler des contributions portant sur la gestion des erreurs en traitement des langues. De nombreux sous-domaines du TAL ont besoin de prendre en compte le bruit et les erreurs dans les signaux linguistiques qu'ils considèrent, mais il est rare que des chercheurs issus de ces diverses communautés aient l'occasion de comparer leurs méthodes et leurs résultats. Notre ambition est de mettre en perspective des travaux issus de ces différents domaines de manière à encourager la fertilisation croisée des idées.
Pour ce numéro spécial, nous considérons donc comme pertinent tout travail touchant au traitement automatique de données bruitées. Les sous-domaines les plus développés sont probablement la correction orthographique, et, dans une moindre mesure, la correction grammaticale; aucun de ces problèmes n'est pourtant complètement résolu, et la situation est encore moins satisfaisante quand on considère des erreurs plus profondes, touchant par exemple au style ou à l'organisation du discours. Les traitements robustes, qui visent à extraire le maximum d'informations utiles d'entrées potentiellement erronées, seront aussi favorablement considérés, que ces entrées se présentent sous forme écrite ou orale ; plus généralement, les études portant sur les stratégies de réparation d'erreur, par exemple dans les systèmes de dialogue ou d'autres systèmes analogues, sont également pertinentes pour ce numéro.
Nous invitons donc les contributions portant sur tout aspect relatif au traitement des erreurs en TAL, et en particulier (liste non exclusive): * correction automatique de l'orthographe et de la grammaire * erreurs sémantiques et logiques * correction d'erreurs dans le style ou l'organisation du discours * correction d'erreurs "artificielles" (OCR, reconnaissance vocale, etc.) * correction automatique de requêtes à des moteurs de recherche * acquisition, annotation et analyse d'erreurs dans les textes réels * corpus d'erreurs * traitement des erreurs dans les langages contrôlés * erreurs en apprentissage des langues * erreurs de performance * normalisation d'écrits non standards * TAL robuste * traitement de parole disfluente * traitement des erreurs en reconnaissance vocale * apprendre avec des données bruitées * mesures de la gravité des erreurs * mesures de confiance * fouille et analyse d'erreurs * auto-évaluation et diagnostic d'erreurs