Génération automatique de matériel linguistique contrôlé : comparaison de quatre approches

Cao, Elena

Files

Cao_57161700_2023.pdf

UCLouvain restricted access
Adobe PDF
3.11 MB

Cao_57161700_2023_annexe.zip

Closed access
Unknown
127.14 MB

Details

Supervisors: François, Thomas ; Cardon, Rémi
Faculty: Faculté de philosophie, arts et lettres
Degree label: Master [120] en linguistique, à finalité spécialisée: traitement automatique du langage
Abstract: Le développement d’outils de simplification automatique de texte requiert de connaître les difficultés particulières au public cible. Pour ce faire, les chercheurs doivent disposer de matériel linguistique hautement contrôlé, permettant de mesurer l’impact des différentes variables. C’est notamment le cas du projet AIGLE (AIde au paramétrage de textes pour auGmenter leur LisibilitE), qui vise à développer un outil de simplification automatique pour personnes souffrant de DMLA. La DMLA est une maladie dégénérative de la macula, qui provoque une tâche aveugle au centre de la rétine. Les membres de l’équipe de chercheurs à l’origine de ce projet ont déjà identifié plusieurs facteurs psycholinguistiques qui ralentissent la lecture des patients, comme la fréquence d’un mot ou la taille de son voisinage orthographique. Toutefois, la création du matériel linguistique a été chronophage, et l’étude de chaque nouvelle variable requiert un jeu de données. L’objectif de ce mémoire est ainsi d’automatiser la création des tests de lecture qui seront utilisés dans les premières phases du projet AIGLE, afin d’étudier l’impact de cinq autres variables. Quatre méthodes seront comparées, dont trois templates (chacun rempli avec différentes ressources) et GPT-3. La méthode ayant apporté les résultats les plus satisfaisants, au niveau du respect des contraintes et de la qualité de la langue produite, est le template rempli à l’aide du modèle de langue pré-entraîné CamemBERT.

ATTENTION/WARNING - NE PAS DÉPOSER ICI/DO NOT SUBMIT HERE

Génération automatique de matériel linguistique contrôlé : comparaison de quatre approches

Files

Cao_57161700_2023.pdf

Cao_57161700_2023_annexe.zip

Details