ATTENTION/WARNING - NE PAS DÉPOSER ICI/DO NOT SUBMIT HERE

Ceci est la version de TEST de DIAL.mem. Veuillez ne pas soumettre votre mémoire sur ce site mais bien à l'URL suivante: 'https://thesis.dial.uclouvain.be'.
This is the TEST version of DIAL.mem. Please use the following URL to submit your master thesis: 'https://thesis.dial.uclouvain.be'.
 

Utilisation d'outils de classification supervisée et de pattern matching pour la discrimination chromosomique et plasmidique de séquences d'ADN bactérien

(2021)

Files

Bonjean_82491500_2021.pdf
  • Open access
  • Adobe PDF
  • 3.13 MB

Details

Supervisors
Faculty
Degree label
Abstract
Ce mémoire porte sur l'utilisation d'outils de classification supervisée. Initialement, nous souhaitions les utiliser afin de découvrir de nouvelles bactériocines dans les génomes du Vibrio Cholerae, nous avons dû changer l'axe du mémoire suite à la trop grande complexité de ce domaine. Nous nous sommes dès lors intéressés à l'utilisation d'outils de classification supervisée afin de prédire si une séquence provient du chromosome ou du plasmide pour les espèces bactériennes suivantes : Escherichia Coli et Vibrio Cholerae. En effet, le séquençage actuel (NGS) ne permet pas de déterminer l'origine chromosomique ou plasmidique des contigs qu'il génère. Or, si un gène est découvert dans un de ces contigs, il est important de savoir si ce gène fait partie d’un chromosome ou d’un plasmide. Grâce à cette information, nous pourrons être capables de connaitre le mode de transmission de ce gène qui diffère en fonction de sa localisation. Nous avons dès lors recouru à une méthode basée sur des k-mers afin de caractériser des séquences de chromosomes et de plasmides. Ensuite, nous avons utilisé des outils de classification supervisée afin de faire de la prédiction sur l'origine des séquences provenant du séquençage. Les outils de classification supervisée utilisés sont le SVM et la régression logistique. Afin d'optimiser les classificateurs, nous avons testé différents paramètres pour obtenir les paramètres les plus performants. Enfin, les résultats obtenus ont été comparés à la littérature. L’utilisation de k-mers avec les outils de classification SVM et régression logistique est performante dans la discrimination chromosomique ou plasmidique de contigs provenant de V. Cholerae. Cependant, les résultats obtenus dans ce mémoire concernant Escherichia Coli sont moins concluants que ceux obtenus par mlplasmid.