ATTENTION/WARNING - NE PAS DÉPOSER ICI/DO NOT SUBMIT HERE

Ceci est la version de TEST de DIAL.mem. Veuillez ne pas soumettre votre mémoire sur ce site mais bien à l'URL suivante: 'https://thesis.dial.uclouvain.be'.
This is the TEST version of DIAL.mem. Please use the following URL to submit your master thesis: 'https://thesis.dial.uclouvain.be'.
 

De l’expressivité pilotable en synthèse vocale neuronale : fondements d’une phonostylistique computationnelle

(2024)

Files

Matarelli_22372000_2024.pdf
  • Closed access
  • Adobe PDF
  • 2.49 MB

Matarelli_22372000_2024_Annexe1.pdf
  • Closed access
  • Adobe PDF
  • 894.34 KB

Details

Supervisors
Faculty
Degree label
Abstract
Ce mémoire explore l’intégration de connaissances linguistiques dans la synthèse vocale expressive à travers le prisme de la "phonostylistique computationnelle", une nouvelle discipline hybride située à la croisée de la phonostylistique traditionnelle et des techniques avancées de Text-To-Speech. En contexte de progrès significatifs dans le domaine de la synthèse vocale neuronale, ce travail interroge la capacité des prétraitements linguistiques à générer des phonostyles synthétiques distincts, naturels et expressifs. Nous enracinant dans une approche mixte, nous avons développé des phonostyles spécifiques — neutre, spontané et didactique — en manipulant des traits linguistiques et paralinguistiques via la syntaxe SSML pour en évaluer l'impact perceptif. Les résultats, bien que non concluants quant à la perception de naturel et d'expressivité, suggèrent des axes d'amélioration pour les futures recherches. Cette étude contribue à une meilleure compréhension des interactions entre linguistique et synthèse vocale, en offrant un cadre paradigmatique pour l'amélioration future de l'expressivité et du naturel dans la parole artificielle. This thesis explores the integration of linguistic knowledge into expressive speech synthesis through the lens of "computational phonostylistics," a new hybrid discipline at the intersection of traditional phonostylistics and advanced Text-To-Speech techniques. In the context of significant progress in the field of neural speech synthesis, this work examines the ability of linguistic preprocessing to generate distinct, natural, and expressive phonostyles. Grounding our approach in a mixed methodology, we developed specific phonostyles — neutral, spontaneous and didactic — by manipulating linguistic and paralinguistic traits using SSML syntax to assess their perceptual impact. Although the results are inconclusive regarding the perception of naturalness and expressivity, they suggest avenues for improvement in future research. This study contributes to a better understanding of the interactions between linguistics and speech synthesis, providing a paradigmatic framework for future enhancements in expressivity and naturalness in artificial speech.