- Accueil
- > Revue papier (Archives 1993-2001)
- > Questions d'épistémologie en didactique du françai ...
- > AXE 2 : RELATIONS AVEC LES DISCIPLINES CONNEXES
- > Didactique des langues étrangères, linguistique de corpus et traitement automatique des langues
Didactique des langues étrangères, linguistique de corpus et traitement automatique des langues
Par Sylviane GRANGER
Publication en ligne le 13 septembre 2018
Table des matières
Texte intégral
1. Linguistique de corpus et traitement automatique des langues
1Au cours de la seconde moitié de ce siècle, la linguistique informatique s’est considérablement développée et a mené à des progrès remarquables dans des domaines aussi divers que la reconnaissance de la parole, la correction orthographique, la traduction ou la recherche documentaire. L’application de ces recherches dans le domaine de la didactique des langues étrangères constitue un développement beaucoup plus récent. S’il est encore trop tôt pour dresser un bilan des réalisations dans ce domaine, il est cependant utile de dresser un inventaire des outils et des méthodes utilisés et des résultats qu’on peut en attendre.
2On peut subdiviser les recherches menées dans ce domaine en deux catégories selon qu’elles relèvent de la linguistique de corpus (lc) ou du traitement automatique des langues (tal).
3La linguistique de corpus est une linguistique qui fait appel de manière systématique à des corpus électroniques « pour développer, à partir des “faits” rassemblés, des dictionnaires et des grammaires descriptives, mais aussi pour tester des hypothèses, confronter un modèle postulé aux réalisations effectives. […] Cette utilisation de corpus annotés, de grande taille, variés et assortis d’outils d’exploration puissants, permet d’observer plus finement les phénomènes et remet en question une partie des postulats de la linguistique. », (B. Habert et al. 1997).
4Il existe des corpus nombreux et variés pour les langues natives (variétés géographiques, stylistiques, diachroniques), en particulier pour l’anglais. Par contre, les corpus d’interlangue1 (aussi appelés « corpus d’apprenants ») sont beaucoup plus récents et encore peu répandus. Ces corpus contiennent des productions orales ou écrites d’apprenants de langues étrangères ou secondes. L’intérêt principal de ces données pour la recherche en acquisition des langues étrangères est qu’elles fournissent une base empirique beaucoup plus solide que celle qui émane des seules données introspectives. L’intérêt d’un très grand corpus est qu’il « aide à voir ce qui est central et typique dans le langage et ce qui l’est moins » (Blanche-Benveniste 1996 : 27). Une comparaison entre les variétés native et étrangère d’une même langue permet de cerner, au-delà des erreurs formelles, les différences de fréquence d’emploi de mots, structures ou expressions qui caractérisent les productions des allophones. Il est à présent possible de quantifier l’interlangue, d’identifier les entités linguistiques qui sont sous-employées, suremployées, voire totalement évitées.
5Le traitement automatique des langues a pour objectif de traiter de manière automatique des données linguistiques, c’est-à-dire des données exprimées dans une langue naturelle. Ce traitement nécessite l’élaboration d’outils et de méthodes automatiques qui sont de trois ordres : linguistiques, formels et informatiques (Delafosse 1999). Parmi les logiciels d’analyse linguistique, citons les logiciels d’étiquetage morpho-syntaxique et de parsage, qui sont à la base de la plupart des applications en tal (traduction automatique, traitement de la parole, etc.).
6Ici aussi, comme en linguistique de corpus, les outils sont destinés à traiter la langue native. Cependant, des recherches récentes visent à adapter ces outils à la langue des apprenants en s’aidant pour ce faire des descriptions fines fournies par une analyse rigoureuse des corpus d’apprenants. À terme, ces recherches devraient permettre de mettre au point des outils d’analyse automatique de l’interlangue et à partir de là, de développer, par exemple, des logiciels de correction automatique adaptés aux spécificités de la langue des apprenants.
7Les sections suivantes ont pour but de décrire deux projets centrés sur les corpus d’apprenants. Le premier projet arrive à son terme : il a pour but de collecter et d’analyser un corpus d’anglais langue étrangère (ale). Le second projet, qui porte sur le français langue étrangère (fle) et a pour but de développer un logiciel d’elao, est en phase de démarrage.
2. Corpus d’anglais langue étrangère
8Le corpus d’anglais langue étrangère (ale) rassemblé à Louvain (icle : International Corpus of Learner English) en collaboration avec de nombreuses universités étrangères comprend des écrits argumentés rédigés par des apprenants avancés de 14 langues maternelles différentes (français, allemand, néerlandais, espagnol, suédois, finnois, polonais, tchèque, bulgare, russe, italien, japonais, chinois, lithuanien). Au stade actuel, il comprend deux millions de mots, ce qui représente quelque 4 000 textes différents. Chaque texte est accompagné d’une série de variables qui décrivent l’apprenant (âge, sexe, langue maternelle, etc.) et la tâche proprement dite (examen ou non, temps limité ou illimité, emploi d’outils de référence, etc.). Grâce à ces variables, le chercheur peut faire des recherches sélectives dans la base de données. Il peut, par exemple, comparer les textes rédigés par des femmes avec ceux émanant d’apprenants masculins ou les textes écrits par des francophones et des hispanophones, etc. Un autre corpus en cours d’élaboration à Louvain (lindsei : Louvain International Database of Spoken English Interlanguage) contient des productions orales en ale2.
9L’avantage de disposer de productions d’apprenants sous forme électronique est que les données peuvent être soumises à tous les outils de traitement automatique du langage qui ont été élaborés pour les corpus de langue maternelle.
10Les recherches les plus simples sont celles qui utilisent un corpus d’interlangue « brut » ou « nu », c’est-à-dire sans aucune annotation linguistique, et un concordancier, qui permet d’extraire d’un corpus toutes les occurrences d’un mot ou groupe de mots et de le présenter dans son contexte. Il faut noter cependant que les logiciels les plus récents ne se contentent pas de construire des concordances ; ils fournissent en outre des listes de fréquence, de mots-clés, de collocats et de séquences lexicales récurrentes.
11Dans une étude portant sur les connecteurs logiques (Granger & Tyson 1996), nous avons ainsi pu comparer l’emploi des connecteurs dans un corpus ale d’apprenants francophones et dans un corpus comparable d’anglais langue maternelle. Cette comparaison a permis de déceler de grandes disparités d’emploi : suremploi ou sous-emploi de certains connecteurs par les apprenants, erreurs sémantiques, stylistiques (registre) ou syntaxiques (placement des connecteurs). La description très précise ainsi obtenue fournit des renseignements précieux pour l’élaboration d’un outil pédagogique bien adapté aux difficultés de la catégorie d’apprenants concernée.
12Les corpus bruts se révèlent donc extrêmement utiles. Cependant, l’utilité des corpus est sensiblement accrue lorsque ceux-ci sont enrichis d’annotations linguistiques : catégories grammaticales, structures syntaxiques, sens, etc. Un catégoriseur morphosyntaxique permet d’affecter automatiquement à chaque mot d’un corpus une étiquette représentative de sa catégorie grammaticale. L’intérêt de ce type d’annotation est fonction de la richesse du jeu d’étiquettes : certains catégoriseurs n’utilisent qu’une trentaine d’étiquettes, d’autres en ont trois cents ou plus. Le logiciel qui est utilisé pour étiqueter le corpus iclecomprend quelque 250 étiquettes3. Il permet dès lors de faire des recherches très précises. Une recherche sur l’étiquette aux(pass) m’a ainsi permis d’extraire toutes les occurrences des verbes au passif dans des corpus d’ale de trois langues maternelles différentes (français, suédois, finnois) ainsi que de deux corpus de contrôle d’anglais langue maternelle (Granger 1997). Cette étude a mis en évidence un sous-emploi des passifs par les trois catégories d’apprenants, ce qui pourrait résulter d’une tendance générale des apprenants à ne pas employer les structures marquées. Un des avantages de la base de données icle est qu’elle permet de distinguer les caractéristiques d’interlangue qui sont communes à plusieurs groupes d’apprenants, voire à l’ensemble d’entre eux, de celles qui sont propres à un groupe particulier et sont dans ce cas souvent dues à un transfert de la langue maternelle. À cet égard, il convient de noter que si l’on veut pouvoir affirmer avec certitude qu’une caractéristique d’interlangue est de type interlingue, il est nécessaire de disposer également de corpus bilingues couvrant la langue seconde (par exemple, l’anglais) et la langue maternelle des apprenants (par exemple, le français). Dans tous nos travaux, corpus d’apprenants et corpus bilingues sont étroitement associés dans un modèle contrastif intégré (Integrated contrastive model, Granger 1996 : 47).
13Ces quelques exemples montrent que les corpus de langue seconde ou étrangère constituent un outil très performant pour améliorer notre connaissance de l’interlangue des apprenants et par le fait même, produire des outils pédagogiques mieux adaptés à leurs difficultés.
14Un autre intérêt des corpus de langue seconde/étrangère qui ne sera pas développé ici est qu’ils peuvent servir de matériau pédagogique dans le cadre d’activités pédagogiques de type « éveil au langage » ou « mise en conscience » (language awareness / consciousness-raising). Il s’agit en fait d’une adaptation des méthodes de data-driven learning (Johns 1994) aux données d’interlangue. Au lieu de faire découvrir à l’apprenant les règles de fonctionnement du langage en leur soumettant des extraits de corpus natif (souvent sous la forme de concordances), il s’agit de les confronter à leurs propres productions et de les amener à découvrir par eux-mêmes les traits distinctifs de leur interlangue, notamment grâce à une comparaison avec des textes semblables produits par des locuteurs natifs (cf. Granger & Tribble 1998 et Seidlhofer 1998).
3. Enseignement des langues assisté par ordinateur : le projet FreeText
15L’exploitation systématique des corpus de langues étrangères / secondes a également des implications importantes en tal. En effet, la description très précise qu’elle fournit devrait permettre d’adapter les outils de traitement automatique des langues aux spécificités d’une interlangue donnée. Si, dans un deuxième temps, ces outils étaient incorporés dans des logiciels d’enseignement des langues assistés par ordinateur (elao), on obtiendrait des logiciels plus intelligents que ceux qui sont actuellement sur le marché (cf. Hamel & Schulze 1999). En effet, à l’heure actuelle, les logiciels emploient principalement des techniques de choix multiples. L’apprenant n’a pas la possibilité de produire des textes libres. Un logiciel qui incorporerait un analyseur / correcteur syntaxique adapté à une interlangue donnée offrirait par contre à l’apprenant une certaine liberté dans la rédaction. C’est le sens du projet européen FreeText4 dont le but est d’élaborer un logiciel d’apprentissage du français intégrant des outils de tal.
16La composition du consortium reflète bien l’interdisciplinarité nécessaire à la mise en œuvre d’un tel projet. Le Laboratoire d’Analyse et de Technologie du Langage (latl) de l’université de Genève adaptera ses outils de tal (Wehrli 1992) en se basant sur les analyses des corpus de fle fournies par le Centre for English Corpus Linguistics (cecl) de l’université de Louvain. Le Centre for Computational Linguistics (ccl) de l’université umist de Manchester concevra le logiciel et y intégrera les outils tal et la firme française Softissimo produira et commercialisera le logiciel.
17La phase d’analyse de corpus consistera à rassembler un vaste corpus de français langue étrangère5, à mettre sur pied une typologie des erreurs et un système standardisé d’étiquettes d’erreurs à l’aide duquel le corpus fle sera annoté. Pour ce faire, le système d’étiquetage d’erreurs mis sur pied à Louvain pour analyser des corpus d’ale (voir Dagneaux et al. 1998) sera adapté ainsi que le logiciel éditeur qui facilite l’insertion des étiquettes d’erreurs dans le corpus. Une fois les corpus annotés, il suffit d’utiliser un concordancier pour extraire toutes les occurrences d’une catégorie donnée d’erreur et de les visualiser dans leur contexte. Ces répertoires d’erreurs en contexte constituent une base empirique solide pour adapter les outils de tal et en particulier pour incorporer dans le logiciel un outil de diagnostic des erreurs.
4. Conclusion
18Les recherches basées sur l’exploitation des corpus d’apprenants n’en sont encore qu’à leurs balbutiements. Cependant, même à ce stade préliminaire, les résultats sont très prometteurs. Une chose est sûre en tout cas : dans ce domaine, le maitre mot est la pluridisciplinarité. Pour aboutir à des méthodes et des outils pédagogiques performants, il est indispensable que les recherches soient menées de front par des linguistes, des informaticiens et des didacticiens.
Notes
1 Le terme « interlangue » désigne la langue de l’apprenant (voir Vogel 1995).
2 Pour une description détaillée des corpus, voir Granger 1998.
3 Il s’agit du taggeur-lemmatiseur tosca-icle de l’Université de Nijmegen (Pays-Bas). Courriel : tosca@let.kun.nl
4 French in Context : An advanced hypermedia call system featuring NLP tools for a smart treatment of authentic documents and free production exercises.
5 Les premiers jalons de ce corpus intitulé FRIDA (French Interlanguage Database) ont déjà été posés : 100 000 mots de textes argumentés rédigés par des apprenants anglophones sont déjà disponibles sous forme électronique.