Techniques d'apprentissage automatique appliquées à la statistique et à la fusion de données : application à des bases de données socio-économiques belges
Files
ElAmraoui_88361900_2022.pdf
Closed access - Adobe PDF
- 1.84 MB
Details
- Supervisors
- Faculty
- Degree label
- Abstract
- Les données aujourd'hui présentent un atout incontournable pour l'étude et l'amélioration de notre vie, ils jouent un rôle essentiel dans la compréhension des phénomènes. Dans certains cas, elles peuvent être obtenue en combinant deux ou plusieurs sources de données.Les scientifiques et les chercheurs doivent souvent analyser des données provenant de différentes sources,les observations, qui ne partagent qu'un sous-ensemble de variables , ne peuvent pas toujours être appariées pour détecter des individus communs. C'est le cas, par exemple, lorsque les informations nécessaires à l'étude d'un certain phénomène proviennent de différentes enquêtes par sondage. L'appariement statistique est une pratique courante pour combiner ces ensembles de données. Ce mémoire de maîtrise présente une procédure d'intégration des données d'enquêtes sociales par l'utilisation combinée de techniques d'apprentissage automatique et de méthodes d'appariement statistique. Une attention particulière est accordée aux méthodes basées sur les méthodes de machine learning : forêts aléatoires (RF), eXtrême Gradient Boosting(XGB) et le perceptron multi-couches (MLP),pour décrire les relations entre les variables communes et non communes, puis d'utiliser les modèles ajustés ainsi obtenus pour imputer les données manquantes des deux ensembles de données. Nous utilisons les statistiques belges 2013 sur le revenu et les conditions de vie (EU-SILC) et nous comparons les performances des méthodes d'appariement statistique proposées au moyen d'une technique de validation croisée, comme si les données étaient disponibles à partir de deux sources distinctes.