Comparaison entre différentes méthodes d'Analyse en Composantes Principales parcimonieuse

Rghioui, Mehdi

Files

Rghioui_29912100_2024.pdf

Open access
Adobe PDF
904.72 KB

Download

Details

Supervisors: Segers, Johan
Faculty: Faculté des sciences
Degree label: Master [120] en science des données, orientation statistique, à finalité spécialisée
Abstract: L'Analyse en Composantes Principales (ACP) est une méthode très répandue permettant de réduire le nombre de dimensions d'un jeu de données. Les nouvelles variables créées sont appelées les composantes principales et elles vont contenir un maximum de variabilité du jeu de données d'origine. Il existe cependant un problème avec cette méthode: ces nouvelles variables sont difficilement interprétables dû au fait qu'elles sont des combinaisons linéaires de toutes les variables d'origine. Pour résoudre ce problème, il est possible de fixer à 0 certains coefficients des composantes principales les moins informatives, ce qui permet de sélectionner les variables qui participent le plus à l'explication de la composante principale. Cette extension de l'ACP est appelée l'analyse en composantes principales parcimonieuse, et il existe plusieurs façons d'y parvenir. Ce mémoire théorique sert de guide à la bonne utilisation des méthodes existantes appliquant la parcimonie dans les coefficients des composantes principales. Après un rappel sur l'ACP classique et un historique des méthodes de parcimonie, nous passerons en revue les méthodes SPCA, sPCA-rSVD et GPower d'abord d'un point de vue théorique, et ensuite par des simulations et des applications sur de réelles données. Principal Component Analysis (PCA) is a widely used method for reducing the dimensionality of a dataset. The new variables created are called principal components, and they contain the maximum variability of the original dataset. However, there is a problem with this method: these new variables are difficult to interpret because they are linear combinations of all the original variables. To address this issue, it is possible to set some coefficients of the less informative principal components to zero, which allows for the selection of variables that contribute the most in explaining the principal component. This extension of PCA is called sparse principal component analysis, and there are several ways to achieve it. This theoretical thesis serves as a guide to the proper use of existing methods applying sparsity to the coefficients of principal components. After a review of classical PCA and a history of sparse methods, we will review the SPCA, sPCA-rSVD, and GPower methods first from a theoretical perspective, and then through simulations and applications on real data.

ATTENTION/WARNING - NE PAS DÉPOSER ICI/DO NOT SUBMIT HERE

Comparaison entre différentes méthodes d'Analyse en Composantes Principales parcimonieuse

Files

Rghioui_29912100_2024.pdf

Details