ATTENTION/WARNING - NE PAS DÉPOSER ICI/DO NOT SUBMIT HERE

Ceci est la version de TEST de DIAL.mem. Veuillez ne pas soumettre votre mémoire sur ce site mais bien à l'URL suivante: 'https://thesis.dial.uclouvain.be'.
This is the TEST version of DIAL.mem. Please use the following URL to submit your master thesis: 'https://thesis.dial.uclouvain.be'.
 

La transcription automatique de la parole spontanée non standard. Étude des modèles Whisper pour la reconnaissance vocale chez les néerlandophones apprenant le français.

(2024)

Files

Couplet_74311500_2024.pdf
  • Open access
  • Adobe PDF
  • 1.39 MB

Couplet_74311500_2024_Annexe1.pdf
  • Open access
  • Adobe PDF
  • 118.32 KB

Details

Supervisors
Faculty
Degree label
Abstract
Ce mémoire a pour sujet la transcription automatique, et plus particulièrement la transcription de la parole de locuteurices non-natif·ve·s. Pour nos recherches, nous avons travaillé sur un corpus créé par la Dr. Ann-Sophie Noreillie (Noreillie, 2019) qui est un corpus composé à la fois d’enregistrements d’étudiant·e·s néerlandophones parlant en français ainsi que d’enregistrements d’étudiant·e·s francophones parlant en français. Pour réaliser les transcriptions, nous avons utilisé le modèle Whisper d’OpenAI, qui est actuellement l’outil le plus performant pour transcrire la parole spontanée. Dans notre travail, nous comparons les transcriptions obtenues avec les différentes versions du modèle Whisper. En effet, il existe 6 versions du modèle qui ont été entrainées avec un nombre de paramètres différents : les versions tiny, base, small, medium, large et largev2. Nous cherchons à savoir à la fois si Whisper est aussi compétent pour transcrire la parole de locuteurices non-natif·ve·s que de locuteurices natif·ve·s et également à déterminer quelle version de Whisper fonctionne le mieux pour nos données. Le présent travail est divisé en trois parties. Tout d’abord, un état de l’art, général et non exhaustif, du domaine de la transcription automatique, qui se clôture par une section plus précise sur la transcription de la parole des personnes non-natives. Ensuite, une partie méthodologie dans laquelle nous présentons nos données et le déroulement de nos recherches. Enfin, une partie analyses où nous discutons de nos résultats. This master thesis focuses on automatic transcription, specifically the transcription of non-native speakers' speech. For our research, we worked on a corpus created by Dr. Ann-Sophie Noreillie (Noreillie, 2019), which is composed of recordings of Dutch-speaking students speaking in French, as well as recordings of French-speaking students speaking in French. To perform the transcriptions, we used OpenAI's Whisper model, which is currently the most effective tool for transcribing spontaneous speech. In our work, we compare the transcriptions obtained with the different versions of the Whisper model. Indeed, there are six versions of the model that have been trained with a different number of parameters: the tiny, base, small, medium, large, and largev2 versions. Our aim is to find out whether Whisper is as competent in transcribing the speech of non-native speakers as it is with native speakers and also to identify which version of Whisper works best for our data. This work is divided into three parts. First, a general and non-exhaustive review of the field of automatic transcription, ending with a more specific section on the transcription of non-native speakers. Next, a methodology section in which we present our data and the progression of our research. Finally, an analysis section where we discuss our results.