Recomposition via des méthodologies Machine Learning des formules tarifaires sur base d’échantillon avec insistance sur les interactions entre les variables
Files
Ganguem_74121700_2021.pdf
Closed access - Adobe PDF
- 2.26 MB
Details
- Supervisors
- Faculty
- Degree label
- Abstract
- Les données sont le nouvel or noir de l’assurance. Le volume et la diversité de données disponibles, aussi bien en interne et qu’externe, se sont accrus notamment grâce au développement de l’open Data (Données disponibles en ligne). Cette émergence de données impacte le métier des assureurs et des actuaires aussi bien en termes de pricing que de gestion de risque. L’enjeu est double : capter et travailler les données afin de les rendre exploitables, et choisir l’algorithme qui saura comprendre les données et les faire parler. Les modèles GLM, classiquement utilisés en assurance ont l’avantage de permettre l’utilisation de tests statistiques pour juger de la qualité d’un modèle, mais il nécessite de faire des hypothèses a priori fortes que ce soit sur la loi de la variable à expliquer ou bien sur les interactions entre les variables explicatives. Ainsi les modélisations statistiques classiques sont restrictives et ne sont pas adaptées à l’exploration des données : les Machine Learning le sont. Les Machine Learning sont une catégorie de modèle non-paramétrique dont le leitmotiv pourrait être résumé de manière schématique à la citation suivante : « la connaissance est la fille de l’expérience.» (Simon de Bignicourt). Autrement dit, le principe de ces algorithmes est de réaliser une tâche sur la base de l’expérience tirée des données. De plus, vu qu’ils ne font pas d’hypothèses fortes sur la distribution des données à expliquer, ils vont permettre de capter et de retranscrire les interactions entre les données et donc d’affiner l’appréhension du risque. Ainsi, dans ce contexte, les travaux porteront sur l’exploration de certains de ces algorithmes utilisés en assurance plus particulièrement le GBM , et la tentative de les expliquer tant au niveau de leurs résultats que des méthodes de construction de ceux-ci, en insistant sur l’intérêt des interactions de variables. Data is the new black gold of insurance. The volume and diversity of data available, both internally and externally, has increased, particularly with the development of open data (data available online). This emergence of data has an impact on the work of insurers and actuaries, both in terms of pricing and risk management. The challenge is twofold : to capture and process the data in order to make it usable, and to choose the algorithm that will be able to understand the data and make it speak. GLM models, classically used in insurance, have the advantage of allowing the use of statistical tests to judge the quality of a model, but they require strong assumptions to be made a priori, either on the law of the variable to be explained, or on the interactions between the explanatory variables. Thus, classical statistical modelling is restrictive and not adapted to data mining : Machine Learning is. Machine Learning is a category of non-parametric model whose leitmotiv could be summarized schematically by the following quote : « la connaissance est la fille de l’expérience » (Simon de Bignicourt). In other words, the principle of these algorithms is to carry out a task on the basis of experience drawn from the data. Moreover, as they do not make strong assumptions about the distribution of the data to be explained, they will make it possible to capture and transcribe the interactions between the data and thus refine the understanding of the risk. Thus, in this context, the work will focus on the exploration of some of these algorithms used in insurance, more particularly the GBM, and the attempt to explain them as much at the level of their results as of the methods of their construction, by insisting on the interest of the interactions terms.