De l’expressivité pilotable en synthèse vocale neuronale : fondements d’une phonostylistique computationnelle
Files
Matarelli_22372000_2024.pdf
Closed access - Adobe PDF
- 2.49 MB
Matarelli_22372000_2024_Annexe1.pdf
Closed access - Adobe PDF
- 894.34 KB
Details
- Supervisors
- Faculty
- Degree label
- Abstract
- Ce mémoire explore l’intégration de connaissances linguistiques dans la synthèse vocale expressive à travers le prisme de la "phonostylistique computationnelle", une nouvelle discipline hybride située à la croisée de la phonostylistique traditionnelle et des techniques avancées de Text-To-Speech. En contexte de progrès significatifs dans le domaine de la synthèse vocale neuronale, ce travail interroge la capacité des prétraitements linguistiques à générer des phonostyles synthétiques distincts, naturels et expressifs. Nous enracinant dans une approche mixte, nous avons développé des phonostyles spécifiques — neutre, spontané et didactique — en manipulant des traits linguistiques et paralinguistiques via la syntaxe SSML pour en évaluer l'impact perceptif. Les résultats, bien que non concluants quant à la perception de naturel et d'expressivité, suggèrent des axes d'amélioration pour les futures recherches. Cette étude contribue à une meilleure compréhension des interactions entre linguistique et synthèse vocale, en offrant un cadre paradigmatique pour l'amélioration future de l'expressivité et du naturel dans la parole artificielle. This thesis explores the integration of linguistic knowledge into expressive speech synthesis through the lens of "computational phonostylistics," a new hybrid discipline at the intersection of traditional phonostylistics and advanced Text-To-Speech techniques. In the context of significant progress in the field of neural speech synthesis, this work examines the ability of linguistic preprocessing to generate distinct, natural, and expressive phonostyles. Grounding our approach in a mixed methodology, we developed specific phonostyles — neutral, spontaneous and didactic — by manipulating linguistic and paralinguistic traits using SSML syntax to assess their perceptual impact. Although the results are inconclusive regarding the perception of naturalness and expressivity, they suggest avenues for improvement in future research. This study contributes to a better understanding of the interactions between linguistics and speech synthesis, providing a paradigmatic framework for future enhancements in expressivity and naturalness in artificial speech.