ATTENTION/WARNING - NE PAS DÉPOSER ICI/DO NOT SUBMIT HERE

Ceci est la version de TEST de DIAL.mem. Veuillez ne pas soumettre votre mémoire sur ce site mais bien à l'URL suivante: 'https://thesis.dial.uclouvain.be'.
This is the TEST version of DIAL.mem. Please use the following URL to submit your master thesis: 'https://thesis.dial.uclouvain.be'.
 

Génération automatique de matériel linguistique contrôlé : comparaison de quatre approches

(2023)

Files

Cao_57161700_2023.pdf
  • UCLouvain restricted access
  • Adobe PDF
  • 3.11 MB

Cao_57161700_2023_annexe.zip
  • Closed access
  • Unknown
  • 127.14 MB

Details

Supervisors
Faculty
Degree label
Abstract
Le développement d’outils de simplification automatique de texte requiert de connaître les difficultés particulières au public cible. Pour ce faire, les chercheurs doivent disposer de matériel linguistique hautement contrôlé, permettant de mesurer l’impact des différentes variables. C’est notamment le cas du projet AIGLE (AIde au paramétrage de textes pour auGmenter leur LisibilitE), qui vise à développer un outil de simplification automatique pour personnes souffrant de DMLA. La DMLA est une maladie dégénérative de la macula, qui provoque une tâche aveugle au centre de la rétine. Les membres de l’équipe de chercheurs à l’origine de ce projet ont déjà identifié plusieurs facteurs psycholinguistiques qui ralentissent la lecture des patients, comme la fréquence d’un mot ou la taille de son voisinage orthographique. Toutefois, la création du matériel linguistique a été chronophage, et l’étude de chaque nouvelle variable requiert un jeu de données. L’objectif de ce mémoire est ainsi d’automatiser la création des tests de lecture qui seront utilisés dans les premières phases du projet AIGLE, afin d’étudier l’impact de cinq autres variables. Quatre méthodes seront comparées, dont trois templates (chacun rempli avec différentes ressources) et GPT-3. La méthode ayant apporté les résultats les plus satisfaisants, au niveau du respect des contraintes et de la qualité de la langue produite, est le template rempli à l’aide du modèle de langue pré-entraîné CamemBERT.