Génération automatique de matériel linguistique contrôlé : comparaison de quatre approches
Files
Cao_57161700_2023.pdf
UCLouvain restricted access - Adobe PDF
- 3.11 MB
Cao_57161700_2023_annexe.zip
Closed access - Unknown
- 127.14 MB
Details
- Supervisors
- Faculty
- Degree label
- Abstract
- Le développement d’outils de simplification automatique de texte requiert de connaître les difficultés particulières au public cible. Pour ce faire, les chercheurs doivent disposer de matériel linguistique hautement contrôlé, permettant de mesurer l’impact des différentes variables. C’est notamment le cas du projet AIGLE (AIde au paramétrage de textes pour auGmenter leur LisibilitE), qui vise à développer un outil de simplification automatique pour personnes souffrant de DMLA. La DMLA est une maladie dégénérative de la macula, qui provoque une tâche aveugle au centre de la rétine. Les membres de l’équipe de chercheurs à l’origine de ce projet ont déjà identifié plusieurs facteurs psycholinguistiques qui ralentissent la lecture des patients, comme la fréquence d’un mot ou la taille de son voisinage orthographique. Toutefois, la création du matériel linguistique a été chronophage, et l’étude de chaque nouvelle variable requiert un jeu de données. L’objectif de ce mémoire est ainsi d’automatiser la création des tests de lecture qui seront utilisés dans les premières phases du projet AIGLE, afin d’étudier l’impact de cinq autres variables. Quatre méthodes seront comparées, dont trois templates (chacun rempli avec différentes ressources) et GPT-3. La méthode ayant apporté les résultats les plus satisfaisants, au niveau du respect des contraintes et de la qualité de la langue produite, est le template rempli à l’aide du modèle de langue pré-entraîné CamemBERT.