Méthodesdeclassiﬁcationpourl’optimisation descalculs Best ...

Mémoire présenté devant l’ENSAE ParisTechpour l’obtention du diplôme de la filière Actuariat

et l’admission à l’Institut des Actuairesle 13/11/2019

Par : Aurélien Choquer

Titre : Méthodes de classification pour l’optimisationdes calculs Best Estimate en assurance-vie

Confidentialité : NON OUI (Durée : 1 an 2 ans)

Les signataires s’engagent à respecter la confidentialité indiquée ci-dessus

Membres présents du jury de la filière Entreprise : SINALYSNom : Hervé MORAND

Caroline HILLAIRET Signature :

Membres présents du jury de l’Institut Directeur du mémoire en entreprise :des Actuaires

Nom : Pierrick PIETTESignature :

Autorisation de publication et demise en ligne sur un site dediffusion de documents actuariels(après expiration de l’éventuel délai deconfidentialité)Signature du responsable entreprise

Secrétariat :

Signature du candidatBibliothèque :

Ecole Nationale de la Statistique et de l’Administration Economique (ENSAE)5, avenue Henry Le Chatelier - 91120 PALAISEAU, FRANCE

Table des matièresRemerciements I

Résumé II

Abstract III

Note de synthèse IV

Summary X

Introduction 1

1 Solvabilité 2 et le calcul du Best Estimate 31.1 Le cadre de la réglementation Solvabilité II . . . . . . . . . . . . . . . . . . . . . 31.2 Le Best Estimate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Les risques liés aux contrats d’assurance vie . . . . . . . . . . . . . . . . . . . . 7

2 Présentation du modèle ALM utilisé 92.1 Le générateur de scénarios économiques . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Modèle de taux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.1.2 Modèle action et immobilier . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.3 Modèle inflation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.1.4 Condition de martingalité . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Modélisation du passif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.1 Modélisation du rachat . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.2 Modélisation du décès . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 La modélisation de l’actif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3.1 Valorisation des obligations . . . . . . . . . . . . . . . . . . . . . . . . . 132.3.2 Valorisation des actions et de l’immobilier . . . . . . . . . . . . . . . . . 13

2.4 Modélisation des provisions et de la participation aux bénéfices . . . . . . . . . . 142.5 Les contraintes opérationnelles du Best Estimate . . . . . . . . . . . . . . . . . . 16

3 Modélisation du passif 183.1 Fondements de l’agrégation au passif . . . . . . . . . . . . . . . . . . . . . . . . 183.2 Construction de model points . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.2.1 Description de l’algorithme utilisé : k-medoid . . . . . . . . . . . . . . . . 193.2.2 Choix du nombre de model points . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Description du portefeuille . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Agrégation et résultats opérationnels . . . . . . . . . . . . . . . . . . . . 313.3.3 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4 Modélisation de l’actif 404.1 Les obligations dans le modèle ALM . . . . . . . . . . . . . . . . . . . . . . . . 404.2 Construction de model points d’obligation . . . . . . . . . . . . . . . . . . . . . 41

4.2.1 Étape de clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2.2 Choix du nombre de clusters . . . . . . . . . . . . . . . . . . . . . . . . . 434.2.3 Agrégation des obligations . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.1 Améliorations opérationnelles . . . . . . . . . . . . . . . . . . . . . . . . 44

4.3.2 Limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Clustering des scénarios économiques 495.1 Réseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.1.1 Les réseaux de neurones à propagation avant . . . . . . . . . . . . . . . . 515.1.2 Les réseaux de neurones convolutifs . . . . . . . . . . . . . . . . . . . . . 595.1.3 Les réseaux de neurones récurrents . . . . . . . . . . . . . . . . . . . . . 60

5.2 Clustering de scénarios économiques . . . . . . . . . . . . . . . . . . . . . . . . . 615.3 Agrégation des scénarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.3.1 Scénarios de taux et inflation . . . . . . . . . . . . . . . . . . . . . . . . 645.3.2 Scénario action et immobilier . . . . . . . . . . . . . . . . . . . . . . . . 64

5.4 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.4.1 Application du processus et analyse des résultats . . . . . . . . . . . . . 695.4.2 Résultats opérationnels . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.4.3 Améliorations potentielles . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Conclusion 77

Table des figures 80

Table des tableaux 80

A La formule standard i

B Cashflows au cours du temps iii

C Scénario action par groupe iv

D Zoom sur les scénarios économiques action v

Liste des symboles vi

II

Remerciements

Je tiens ici à remercier l’ensemble des personnes qui ont permis à ce mémoire de voir le jour.

Tout d’abord je remercie Hervé Morand et l’ensemble des associés du cabinet Sinalys pourm’avoir permis de réaliser ce mémoire au sein de l’entreprise et pour la confiance qu’ils m’ontaccordée tout au long de la rédaction de celui-ci.

Je remercie ensuite mes tuteurs Pierrick Piette, pour m’avoir proposer ce sujet captivant etm’avoir suivi tout au long de la rédaction de ce mémoire, et Omar Zaoui pour l’ensemble deses conseils avisés.

J’adresse également des remerciements au reste du pôle actuariat de Sinalys, Laure-AnneBarbin, Aïssatou Dieng et Maud Sterling pour m’avoir accueilli chaleureusement dans l’équipe.

Enfin j’adresse une pensée particulière à mes proches qui ont été impliqués dans la relecturede ce mémoire et qui m’ont aidé tout au long de sa rédaction.

I

Résumé

L’objectif du mémoire est de proposer des méthodes statistiques de classification afin d’op-timiser l’éxécution d’un modèle de gestion actif-passif (ALM). L’exercice d’assureur nécessiteainsi la production de données quantifiant les engagements de l’assureur envers ses assurés : leBest Estimate. L’obtention de ce Best Estimate en assurance vie implique une projection del’activité de l’assureur sur un horizon de 50 ans et sur plusieurs centaines de scénarios écono-miques. Cette projection est faite au travers d’un modèle ALM ; les temps de calcul, ainsi que laplace en mémoire requis pour la mise en oeuvre de ce processus sur l’intégralité du portefeuilleassureur, constituent une problématique complexe, voire impossible à résoudre.

Ce mémoire propose de créer des groupes homogènes de risques afin de réduire la taille desportefeuilles de passif, d’actif et le nombre de scénarios économiques nécessaires pour l’obtentiondu Best Estimate. L’ensemble des techniques développées dans ce mémoire a été expérimentésur des portefeuilles réels.

Dans un premier temps les portefeuilles de passif sont regroupés grâce à l’algorithme k-medoid permettant aux model points, représentant les groupes de risques, d’être choisis ausein des portefeuilles étudiés. Cette méthode a permis d’améliorer considérablement la vitessed’exécution du modèle ALM tout en conservant une marge d’erreur faible sur le calcul du BestEstimate.L’extension de cette méthode au portefeuille obligataire a été expérimentée et a obtenu de bonsrésultats. Cependant le regroupement se limitant à la séparation par maturité, l’utilisation destatistiques n’est pas nécessaire.

Dans un second temps, des réseaux de neurones sont implémentés. Un réseau de neuronessera utilisé afin de résumer l’information présente dans les scénarios économiques. A partirde cette information un algorithme k-means permet d’obtenir des groupes de scénarios éco-nomiques ayant des comportements similaires. Ensuite un autre réseau de neurones est utiliséafin d’approximer la valeur de marché du portefeuille au cours du temps et de refléter le fonc-tionnement du modèle ALM lors de l’agrégation des scénarios action et immobilier. Enfin unerégression linéaire du scénario agrégé sur les scénarios initiaux est réalisée afin de garantir lapropriété de martingale des model points utilisés.

II

Abstract

The aim of the thesis is to propose statistical classification methods to optimize the executionof an asset-liability management (ALM) model. The insurer’s exercise requires the production ofdata quantifying the insurer’s commitments to its policyholders : the Best Estimate. Obtainingthis Best Estimate in life insurance involves a projection of the insurer’s activity over a 50-yearhorizon and over several hundreds of economic scenarios. This projection is done through anALM model ; the calculation times and the memory space required for the implementation ofthis process on the entire insurer portfolio is very complex or impossible.

This thesis proposes to create homogeneous risk classes in order to reduce the size of assetand liability portfolios and the number of economic scenarios required to get the Best Estimate.The whole set of techniques proposed in this thesis were tested on real-world portfolios.

First, liability portfolios are grouped thanks to a k-medoid algorithm. This algorithm enablesthe model points, representing each risk group, to be chosen as part of the studied portfolio.This method has improved greatly the execution speed of the ALM model while conserving agood approximation on the Best Estimate calculation.This method has been extended to the obligation portfolio and got some good results. Howeverthe grouping is limited to a maturity separation, the use of statistics isn’t necessary in thatcase.

Secondly, neural networks are implemented. A neural network will be used to summarize theinformation presented in the economic scenarios. From this information, a k-means algorithmmakes it possible to obtain clusters of economic scenarios with similar behaviors. Then anotherneural network is used to approximate the market value of the portfolio over time and to reflectthe functioning of the ALM model when aggregating the equity and real estate scenarios.Finally, a linear regression of the aggregated scenario on the initial scenarios is carried out inorder to guarantee the martingale property of the model points used.

III

Note de synthèse

Fin 2018, l’encours associé à l’assurance vie en France s’élevait à 1700 milliards d’euros.L’importance de cet encours ainsi que la nature de long terme de l’assurance vie nécessitent unencadrement très fort de l’activité. Afin de garantir la pérennité et la solvabilité des assureurssuite notamment à la crise financière de la dernière décennie, la réglementation Solvabilité IIa créé des indicateurs financiers tel que le Best Estimate de manière à mesurer l’engagementprobable de l’assureur envers ses assurés.

Les contrats d’assurance-vie proposent un mécanisme de participation aux bénéfices consis-tant à reverser à l’assuré une partie des bénéfices réalisés par l’assureur grâce à son portefeuilled’actifs. Le montant de son engagement est ainsi lié, non seulement à l’évolution du portefeuillede contrats d’assurance, mais aussi à l’évolution du portefeuille d’actif de celui-ci. L’évaluationdu Best Estimate nécessite alors d’avoir recours à un modèle de gestion actif-passif (ALM)permettant d’obtenir la valeur du Best Estimate en mettant en relation ces deux portefeuilles.

Cet indicateur dépend également de l’environnement économique, c’est-à-dire de l’évolutionde diverses variables économiques (taux d’intérêt, cours de l’action...) au cours du temps. Cetteévolution étant incertaine à la date de calcul il est nécessaire d’effectuer des simulations surplusieurs centaines de scénarios afin d’obtenir une distribution future des engagements. Le BEse définit alors comme la moyenne des engagements sur ces scénarios.

Le nombre de scénarios utilisé pour l’obtention du BE dans un environnement stochastiquen’est pas imposé par la réglementation mais il est d’usage d’utiliser entre 500 et 1000 scénarios.D’autre part, l’arrivée de la nouvelle réglementation PRIIPs (Packaged Retail and Insurance-based Investment Products), destinée à informer les clients sur les spécificités d’un produitimpose de réaliser 10000 simulations sur 4 types de scénarios différents soit 40000 simulationsALM.

Le calcul d’un Best Estimate stochastique, en utilisant les moyens matériels disponibles,nécessiterait 1,09 To de stockage et s’effectuerait en 2800 heures de calcul soit 120 jours sur lesserveurs à disposition lors de cette étude. L’objectif de ce mémoire est de proposer des méthodesbasées sur la classification par machine learning des variables d’entrée du modèle ALM afin dediminuer les contraintes de calcul. Pour atteindre cet objectif, ce mémoire se décompose en 3axes correspondant chacun à un type de variable étudiée :

— les contrats d’assurance,— le portefeuille obligataire,— les scénarios économiques.

L’algorithme k-medoid est un algorithme de classification non supervisé permettant de réuniren groupe des individus "proches" au sens de la distance choisie. La distance choisie pour lamodélisation est la distance euclidienne. L’avantage de l’algorithme k-medoid est que la mi-nimisation de la distance totale se fait par rapport à un centre appartenant au portefeuilleassurantiel. D’autre part, un contrat d’assurance est représenté par l’ensemble de ces probabi-lités de sortie sur les 50 années de la projection du portefeuille ainsi que sur la valeur du Best

IV

Estimate dans plusieurs scénarios de choc, calculée selon un scénario économique. L’ensembledes variables est normalisé.Une des contraintes de l’utilisation de cet algorithme est la nécessité de spécifier le nombrede groupes à utiliser pour la partition à créer. Afin de déterminer ce nombre, la méthodologies’appuie sur un algorithme d’apprentissage supervisé : les arbres de régression. L’idée est dedéterminer le nombre de partitions de l’arbre qui représente la meilleure approximation de lavariable dépendante en minimisant le nombre de classes utilisées. La variable dépendante choi-sie est le Best Estimate en scénario central et les variables explicatives sont celles du k-medoid.Une fois ce nombre de groupe sélectionné, il est possible de créer une partition d’un portefeuillede rente et d’épargne puis de représenter les groupes de contrats au travers d’une Analyse enComposante Principale :

ACP des groupes de contrats de rente

Sur cette figure on constate que chaque groupe est bien séparé. Cela se transcrit lorsque leportefeuille de model points(représentant de chaque groupe) est utilisé dans le modèle ALM etcomparé au portefeuille complet. En effet, l’erreur relative observée sur les portefeuilles de rente(respectivement d’épargne) utilisés est en moyenne sur les 8 scénarios de choc de SolvabilitéII de 0,2% (respectivement 0,06%). Cette agrégation permet, en outre, de réduire significative-ment les contraintes du traitement des temps de calcul, entre 80 et 90 %.

V

Rentes Épargne

Nb de lignes Espace disque (Mo) Tps calcul (min) Nb de lignes Espace disque (Mo) Tps calcul (min)

Portefeuille complet 8349 1885 460 3430 4589 192

Model points 129 143 30 46 197.06 25

Réduction 98% 93% 92% 99% 96% 87%

Agrégation naïve 1234 777 87 293 235 31

Réduction 85% 59% 81% 91% 95% 84%

Résultats opérationnels de l’agrégation du passif

La méthodologie expérimentée à été comparée à une agrégation plus naïve. Ce portefeuillese compose de groupes constitués de contrats de mêmes caractéristiques, d’âge de contratégal et concernant des assurés dont l’âge a été agrégé par groupes de 5 ans. La méthodologiestatistique permet une compression environ 10 fois supérieure de nos données et propose unemeilleure estimation du BE pour le portefeuille d’épargne mais reste moins performante dansle cas de la rente. Le choix de la méthode à utiliser dépendra des attentes de l’utilisateur. Uneaugmentation du nombre de model points afin de rivaliser avec l’agrégation naïve est égalementenvisageable.

La méthodologie a ensuite été appliquée à un portefeuille d’obligations. Une obligation estreprésentée par les cashflows actualisés qu’elle délivre au cours du temps. Si la méthode se révèleperformante, elle se cantonne toutefois à un groupement des obligations par date de maturité.Les méthodes statistiques ne se révèlent donc pas pertinentes dans ce cas.

Dans un second temps, l’étude a porté sur la réduction du nombre de scénarios économiquesà utiliser dans le cadre de la projection stochastique du BE. Pour des raisons de simplificationde la modélisation, celle-ci s’est focalisée sur les variables économiques action et immobilier.Ce choix est dû au fait que ces deux scénarios sont traités de manière asymétrique, selon lacroissance ou la décroissance, par le modèle ALM utilisé. Il apparaît essentiel de regrouperles différents scénarios selon leurs comportements au cours du temps. En effet, il est possiblede grouper ensemble de façon exacte deux scénarios actions ayant le même comportement demonotonie même si leurs valeurs diffèrent. Afin d’y parvenir le premier objectif a été d’endonner une autre représentation, basée davantage sur les caractéristiques propres de la sérietemporelle et non uniquement sur les valeurs prises. Pour ce faire, la méthode utilisée s’appuiesur un auto-encodeur. Un auto-encodeur est un algorithme d’apprentissage auto-supervisé quiapprend à reproduire les données d’entrée. Il consiste en la succession de 2 réseaux de neurones :

— un encodeur qui permet de fournir une nouvelle représentation latente des données— un décodeur qui permet de reproduire les données initiales à partir de cette représentation

latente.Grâce à cette structure il est possible de déterminer une nouvelle représentation des donnéesinitiales. Pour obtenir une partition des scénarios, un algorithme de type k-means est utilisésur cette nouvelle représentation. Le processus complet est résumé sur la figure ci-dessous :

VI

encodeur decodeur

x

z

x

Représentationlatente

k-means Classification

Utilisation d’un auto-encodeur pour le clustering de scénarios économiques

Cependant les scénarios économiques imposent une difficulté supplémentaire lors de l’agré-gation. Il est impossible d’obtenir des groupes composés de scénarios ayant exactement le mêmecomportement : des pertes vont être observées lors de l’agrégation. Or chaque scénario n’a pas lemême poids ; le modèle ALM faisant intervenir des phases d’investissement et désinvestissementà chaque période et la valeur du portefeuille étant indexée sur l’évolution économique, certainsscénarios proposent des versements de dividendes ou coupons plus importants que d’autres. Laperte d’informations associée à chaque scénario lors de l’agrégation n’aura donc pas le mêmepoids sur le résultat final.

La donnée de la valeur de marché au cours du temps associée à un scénario paraît doncprimordial afin de réaliser une agrégation performante. Or pour un portefeuille de contratsdonné, cette valeur de marché dépend essentiellement des hypothèses d’investissement, desscénarios économiques et du comportement du portefeuille de contrat. Partant de ce constat,un nouvel algorithme d’apprentissage basé sur les réseaux de neurones a été proposé afin deprédire la valeur de marché au cours du temps partant des hypothèses d’investissement et desscénarios économiques. Ce modèle introduit bien entendu du bruit par rapport à la vraie valeurde marché mais permet de capter plus précisément le comportement global des sous-portefeuilleset de mieux gérer l’asymétrie liée à l’action et l’immobilier. L’inconvénient est que l’algorithmeproposé est un algorithme d’apprentissage supervisé : il est nécessaire d’avoir à disposition lesvaleurs de marché de certains scénarios pour le calibrer. Le but étant de diminuer au maximumle nombre de simulations ALM, on va se baser sur la représentation latente afin de produire

VII

une partition de la base de données en 150 groupes et tirer un scénario issu de chaque groupepermettant ainsi d’appréhender chacun des comportements types de la base. Cette stratégieréduit la taille de la base d’apprentissage tout en conservant une bonne qualité d’approximationde la valeur de marché.

La dernière difficulté est que les model points obtenus en utilisant la valeur de marché nesont a priori pas martingales. Les scénarios ne correspondent donc pas à un environnementrisque-neutre tel que requis par la réglementation. Afin de résoudre ce problème, la modélisa-tion s’appuie sur le fait qu’une combinaison linéaire de martingale est encore martingale. L’idéeest ainsi d’approximer le scénario obtenu précédemment par une combinaison linéaire de mar-tingales à notre disposition : les scénarios originaux. Une régression linéaire de ces scénariossur le scénario obtenu par la méthode précédente est réalisée. Cela produit une approximationquasiment parfaite du scénario non-martingale : le R2 de la régression est de 1 pour l’ensembledes scénarios testés. La figure ci-dessous représente les scénarios obtenus pour la variable actiondans le cas d’une agrégation en 50 groupes :

Visualisation des model points de scénarios économiques sur la variable économique action

La modélisation proposée permet ainsi de conserver l’existence de scénarios extrêmes mais ausside refléter les proportions de scénarios extrêmes initialement dans la base. Le travail étant effec-tué sur la base des caractéristiques, et non des valeurs prises par le cours d’action, les scénariosextrêmes ne sont pas démesurément favorisés. Enfin, ce nouvel ensemble de scénarios restreinta été expérimenté sur l’évaluation d’un BE stochastique en scénario central en utilisant 25 ou50 scénarios. Les résultats d’erreur et de performance sont explicités ci-dessous :

VIII

50 scénarios 25 scénariosBest Estimate -0,06% -0,13%

Best Estimate Garanti 0,09% 0,12 %

Erreur relative de l’agrégation des scénarios économiques sur le Best Estimate en scénariocentral

Tps de calcul(min) Espace disque(Mo)500 scénarios 853 692250 scénarios 170 403Réduction 80% 94%25 scénarios 100 93Réduction 88% 98%

Résultats opérationnels du processus de model points

L’algorithme remplit son objectif en réduisant significativement les temps de traitement etla place en mémoire tout en introduisant peu d’erreur sur l’évaluation du BE stochastique.Cette approche nécessiterait d’être testée sur les différents chocs Solvabilité II pour éprouversa robustesse.

Ce mémoire propose de développer des méthodes de classification des variables nécessairesau lancement d’un modèle ALM dans le but de réduire les contraintes opérationnelles de celui-ci. Les trois axes investigués ont montré des résultats concluants individuellement. Ces résultatssont cependant dépendants du modèle ALM utilisé notamment pour le cas des scénarios éco-nomiques. Il serait de plus intéressant de déterminer l’effet de l’utilisation des 3 méthodescumulées.

IX

Summary

At the end of 2018, the outstanding amount associated with life insurance in France amoun-ted to 1700 billion euros. The importance of this outstanding amount as well as the long-termnature of life insurance requires a very strong management of the activity. In order to guaran-tee the durability and solvency of insurers following the financial crisis of the last decade, theSolvency II regulation has created financial indicators such as the Best Estimate in order tomeasure the probable commitment of the insurer towards its insured.

Life insurance contracts offer a profit-sharing mechanism whereby the insurer pays a portionof the profits earned by the insurer through its portfolio of assets. The amount of its commitmentis thus linked not only to changes in the portfolio of insurance contracts but also to changesin the portfolio of assets of the insurer. The evaluation of Best Estimate then requires the useof an asset-liability management (ALM) model to obtain the value of Best Estimate by linkingthese two portfolios.

This indicator also depends on the economic environment, ie the evolution of various econo-mic variables (interest rates, share prices, etc.) over time. As this evolution is uncertain at thecalculation date, it is necessary to perform simulations on several hundred scenarios in orderto obtain a future distribution of the commitments. The BE is then defined as the average ofthe commitments on these scenarios

The number of scenarios used to obtain textit BE in a stochastic environment is notimposed by the regulations but it is customary to use between 500 and 1000 scenarios. Onthe other hand, the arrival of the new PRIIPs regulation (Packaged Retail and Insurance-based Investment Products) designed to inform customers about the specificities of a productrequires that 10000 simulations be performed on 4 different types of scenarios, ie 40000 ALMsimulations.

The calculation of a Stochastic Best Estimate, using the available hardware, would require1.09TB of storage and would be done in 2812 hours of computation or 120 days. The objectiveof this thesis is to propose methods based on machine learning classification of ALM modelinput variables in order to reduce computational constraints. In order to achieve this objective,this memory is broken down into 3 axes corresponding to a type of studied variable :

— insurance contracts— the bond portfolio. The results associated with this part are explained in the body of

the paper but will not be presented in this note— the economic scenarios.

indent The k-medoid algorithm is an unsupervised classification algorithm for grouping indi-viduals "close" in the sense of the chosen distance. The distance chosen for modeling is theEuclidean distance. The advantage of the k-medoid algorithm is that the minimization of thetotal distance is done with respect to a center belonging to the insurance portfolio. On the otherhand, an insurance contract is represented by all of these exit probabilities over the 50 yearsof the projection of the portfolio as well as on the value of the Best Estimate in several shock

X

scenarios calculated according to an economic scenario. The set of variables is normalized.One of the constraints of using this algorithm is the need to specify the number of groups touse for the partition to be created. To determine this number the methodology is based on asupervised learning method : regression trees. The idea is to determine the partition numberof the tree that represents the best approximation of the dependent variable by minimizingthe number of classes used. The dependent variable chosen is the Best Estimate in the centralscenario and the explanatory variables are those of the k-medoid. Once you have selected thisnumber of groups, you can create a partition of an annuity and savings portfolio and thenrepresent the groups of contracts through a Principal Component Analysis :

PCA of insurance contracts group

In this figure we see that each group is well separated. This is transcribed when the modelpoints portfolio (representative of each group) is used in the ALM model and compared to thefull portfolio. In fact, the relative error observed on the annuity (saving) portfolios used is onaverage on the 8 Solvency II shock scenarios of 0.2% (respectively 0.06%). This aggregationalso makes it possible to significantly reduce the processing constraints, between 80 and 90%of the computation time in particular.

Annuities Savings

Line nb Memory space (Mo) Calcul. time (min) Line nb Memory space (Mo) Calcul. time (min)

Complete portfolio 8349 1885 460 3430 4589 192

Model points 129 143 30 46 197.06 25

Reduction 98% 93% 92% 99% 96% 87%

Naive aggregation 1234 777 87 293 235 31

Réduction 85% 59% 81% 91% 95% 84%

Operational result of the passive aggregation

Experienced methodology has been compared to a more naive aggregation. This portfolio

XI

consists of groups of contracts with the same characteristics, equal age of the contract andthe age of the insured was aggregated in groups of 5 years. The statistical methodology allowsabout 10 times more compression of our data and offers a better estimate of the textit BEfor the savings portfolio but is beaten in the case of the annuity. The choice of the method touse will depend on the need of the user to increase the number of textit model points in orderto compete with the naive aggregation. Vskip 0.4 cm The methodology was then applied to abond portfolio. An obligation is represented by the discounted coupons that it issues over time.The method proves to be efficient, however the method is actually limited to a grouping ofobligations by date of maturity, the statistical methods are therefore not relevant in this case.vskip 0.4 cm Second, the study focused on reducing the number of economic scenarios to beused in the stochastic projection of textit BE. For reasons of simplification of the modeling,this one focused on the economic variables action and real estate. This choice is due to thefact that these two scenarios are treated asymmetrically, according to growth or decay, by theALM model used. It seems essential to group the different scenarios according to their behaviorover time. Indeed it is possible to group together exactly two action scenarios with the samebehavior of monotony even if their value differs. In order to achieve this, the first objective wasto give another representation based more on the specific characteristics of the time series andnot only on the values taken. To do this, the method used is based on an auto-encoder. Anauto-encoder is a self-supervising learning algorithm that learns to reproduce the input data.It consists of the succession of 2 neural networks :

— an encoder that provides a new latent representation of data— a decoder that reproduces the initial data from this latent representation.

Thanks to this structure it is possible to determine a new representation of the initial data. Toobtain a partition of the scenarios, an algorithm of type textit k-means is used on this newrepresentation. The entire process is summarized in the figure below :

However the economic scenarios impose an additional difficulty during the aggregation. Indeedit is impossible to obtain groups composed of scenarios having exactly the same behavior : losseswill be observed during the aggregation. But each scenario does not have the same weight ; theALM model involving investment and disinvestment phases in each period and the value ofthe portfolio being indexed to the economic evolution some scenarios offer larger dividend orcoupon payments. The loss of information associated with different scenarios will therefore nothave the same weight during the final aggregation.

The value of the market value over time associated with a scenario therefore seems essentialin order to achieve a successful aggregation. For a given portfolio of contracts, this market valueessentially depends on the investment assumptions as well as the economic scenarios. Based onthis observation, a new learning algorithm based on neural networks has been proposed inorder to predict the market value over time based on the hypotheses previously specified. Thismodel, of course, introduces noise with respect to the true market value, but allows the sub-portfolios’ overall behavior to be more accurately captured and to better manage the equityand real estate asymmetry. The disadvantage is that the proposed algorithm offers a supervisedlearning : it is necessary to have available the market values of certain scenarios to calibrate the

XII

encoder decoder

x

z

x


k-means Clustering

Use of an auto-encoder for economic scenario clustering

algorithm. The goal is to minimize the number of ALM simulations, we will rely on the latentrepresentation to produce a partition of the database into 200 groups and draw a scenario fromeach group to learn each of the behaviors types of the base. This strategy reduces the sizeof the learning base while maintaining a good quality of approximation of the market value.vskip 0.2 cm The last difficulty is that the textit model points obtained using the marketvalue are not a priori martingales. The scenarios therefore do not correspond to a risk-neutralenvironment as required by the regulations. In order to solve this problem, the modeling isbased on the fact that a linear combination of martingale is still martingale. The idea is toapproximate the scenario obtained previously by a linear combination of martingales at ourdisposal : the original scenarios. A linear regression of these scenarios on the scenario obtainedby the previous method is carried out. This produces an almost perfect approximation of thenon-martingale scenario : the R2 of the regression is 1 for all the scenarios tested. The figurebelow represents the scenarios obtained for the action variable in the case of an aggregationinto 50 groups

XIII

Visualization of model economic scenario points on the economic variable action

The proposed modeling thus makes it possible to preserve the existence of extreme scenariosbut also to reflect the proportions of extreme scenarios initially in the database. The work beingdone on the basis of the characteristics and not of the values taken by the course of action itmakes it possible not to favor the extreme scenarios excessively. Finally, this new restricted setof scenarios has been tested on the evaluation of a stochastic textit BE in central scenariousing 25 or 50 scenarios. The error and performance results are explained below :

50 scenarios 25 scenariosBest Estimate -0,06% -0,13%

Guaranted Best Estimate 0,09% 0,12 %

Relative Error Aggregating Economic Scenarios on Best Estimate in Central Scenario

Calculation time(min) Memory space(Mo)500 scenarios 853 692250 scenarios 170 403Reduction 80% 94%25 scenarios 100 93Reduction 88% 98%

Operational results of the model points process

The algorithm fulfills its purpose by significantly reducing processing times and placing it inmemory while introducing little error in the evaluation of stochastic textit BE. This approachwould need to be tested on different Solvency II shocks to test its robustness. Vskip 0.2 cm This

XIV

thesis proposes to develop methods of classification of the variables necessary to launch an ALMmodel in order to reduce the operational constraints of this one. The three axes investigatedshowed conclusive results individually. These results, however, depend on the ALM model usedin particular for economic scenarios. They would also be interesting to determine the effect ofusing the 3 cumulative methods.

XV

h

Introduction

h

Fin 2018, l’encours associé à l’assurance vie en France s’élevait à 1700 milliards d’euros.L’importance de cet encours ainsi que la nature de long terme de l’assurance vie nécessitent unencadrement très fort de l’activité. Afin de garantir la pérennité et la solvabilité des assureurs,suite notamment à la crise financière de la dernière décennie, la réglementation Solvabilité IIa créé des indicateurs financiers tel que le Best Estimate de manière à mesurer l’engagementprobable de l’assureur envers ses assurés.

Les contrats d’assurance-vie proposent un mécanisme de participation aux bénéfices consis-tant à reverser à l’assuré une partie des bénéfices réalisés par l’assureur grâce à son portefeuilled’actif. Le montant de son engagement est ainsi lié non seulement à l’évolution du portefeuillede contrats d’assurance mais aussi à l’évolution du portefeuille d’actif de celui-ci. L’évaluationdu Best Estimate nécessite alors d’avoir recours à un modèle de gestion actif-passif (ALM)permettant d’obtenir la valeur du Best Estimate en mettant en relation ces deux portefeuilles.

Cet indicateur dépend également de l’environnement économique c’est-à-dire de l’évolutionde diverses variables économiques (taux d’intérêt, cours d’action...) au cours du temps. Cetteévolution étant incertaine à la date de calcul, il est nécessaire d’effectuer des simulations surplusieurs centaines de scénarios afin d’obtenir une distribution future des engagements. Le BEse définit alors comme la moyenne des engagements sur ces scénarios.

Le nombre de scénarios utilisé pour l’obtention du BE dans un environnement stochastiquen’est pas imposé par la réglementation mais il est d’usage d’utiliser entre 500 et 1000 scénarios.De plus, l’arrivée de la nouvelle réglementation PRIIPs (Packaged Retail and Insurance-basedInvestment Products), destinée à informer les clients sur les spécificités d’un produit, imposede réaliser 10000 simulations sur 4 types de scénarios différents soit 40000 simulations ALM.

La réalisation de ces multiples projections nécessite des ressources informatiques extrême-ment importantes et les simulations peuvent durer plusieurs jours. Des alternatives ont étéproposées afin de pallier à ce problème comme par exemple le curve fitting ou le least squaremonte carlo. Les assureurs ont également commencé à s’intéresser à l’utilisation de méthodesmachine learning pour contourner la difficulté. Des travaux ont notamment été réalisés pourcalibrer des modèles statistiques afin de reproduire le modèle ALM. On peut citer par exempleles travaux de Rémi Gauville, 2017 [11] ou encore de Matteo et Fabio Tesser, 2018 [24] afind’établir un modèle permettant de se substituer au modèle ALM.

Ce mémoire propose une approche différente et ne cherche pas à se substituer au modèleALM mais plutôt à accélérer sa vitesse d’exécution en réduisant le nombre de variables sur les-quelles le modèle va opérer. Après une présentation du contexte réglementaire de l’étude et du

1

modèle ALM utilisé pour les simulations, l’étude se divisera en trois parties. Dans un premiertemps, l’étude se basera sur une étude de Pierre-Olivier Goffard, 2014 [13] afin de réduire lenombre de contrats de passif utilisés par les simulations. Dans un deuxième temps, ce prin-cipe sera étendu à l’étude du portefeuille d’actions et plus particulièrement au regroupementd’obligations. Enfin, la dernière partie proposera une méthodologie permettant de regrouperles scénarios économiques par classe de comportement en se basant sur des approches dévelop-pées par Maridju et al, 2018 dans [21] et par Wong et Luo, 2018 dans [26]. La création desreprésentants de chaque groupe nécessitera alors une approche propre au modèle ALM.

2

1 Solvabilité 2 et le calcul du Best Estimate

1.1 Le cadre de la réglementation Solvabilité II

La directive Solvabilité II est une directive européenne entrée en vigueur le 1er janvier 2016.Son objectif est de mieux prendre en compte les risques réels encourus par les assureurs etd’adapter notamment les fonds propres nécessaires à l’exercice de l’activité. Elle correspondaussi à une uniformisation des pratiques au niveau européen. Solvabilité II se divise en 3 piliers.

Pilier 1 : Exigences quantitatives

Le pilier 1 de Solvabilité II porte principalement sur le calcul des provisions techniques etsur la définition du capital réglementaire : le SCR 1. Le calcul de ce SCR en formule standardnécessitant le calcul des provisions techniques, concentrons nous d’abord sur le calcul de cesprovisions.

La réglementation impose une évaluation des actifs et des passifs à leurs "justes valeurs"(Fair value) afin de mieux refléter la réalité économique de l’entreprise à un instant donné.Les actifs sont donc évalués en valeur de marché et les passifs sont évalués en Best estimate(meilleure estimation). Le bilan comptable devient un bilan économique. Le figure 1.1 proposeune comparaison des 2 bilans.

Figure 1.1 – Confrontation du bilan schématique d’une société dans un cadre comptable etdans un cadre Solvabilité II

Plusieurs remarques peuvent être faites sur ces bilans :— la taille du bilan est plus importante dans la réglementation Solvabilité II. Ceci est

notamment dû à la valorisation des actifs qui est réalisée selon la valeur de marché en

1. Solvency Capital Requirement

3

univers Solvabilité II tandis qu’elle se faisait de manière comptable et donc prudentielleprécédemment avec notamment un provisionnement des moins values latentes mais pasdes plus values latentes

— les provisions techniques sont plus importantes dans le bilan comptable en raison ducaractère prudentiel de leurs calculs. La différence entre les deux correspond donc à lamarge de prudence adoptée dans la réglementation comptable.

Les engagements de l’assureur envers les assurés sont évalués à leurs meilleures estimations etla prudence de l’estimation est notamment assurée par l’ajout d’un capital supplémentaire : laRisk Margin.

Définition 1.1. La marge pour risque ou Risk Margin est un capital supplémentaire tel qu’ad-ditioné aux provisions techniques Best Estimate 2, ce capital correspond à la valeur à laquelleun tiers accepterait de reprendre le risque lié aux contrats du passif. Elle est calculée comme laquantité de capital minimal qu’un tiers devrait immobiliser pour reprendre les engagements duportefeuille dans un cadre Solvabilité 2.

La modélisation de la marge pour risque est primordiale puisque celle-ci intervient dansl’établissement du bilan économique. Cependant, l’objet du mémoire ne portant pas sur cettegrandeur, le calcul de celle-ci n’est pas détaillée ici. Une méthode de calcul de cette marge grâceau coût du capital est développée par Estelle Gerondeau, 2017 [12].

Pilier 2 : Exigences qualitatives de gestion des risques

Le Pilier 2 de Solvabilité II vient compléter les exigences quantitatives de fonds propres pardes exigences qualitatives de gestion du risque. Celui-ci requiert entre autre :

— une organisation claire et bien définie, avec des responsabilités bien établies— des mécanismes de contrôle interne adaptés à l’activité— la mise en place de processus efficaces pour évaluer, gérer, mesurer et reporter les risques

existants ou potentielsIl existe un lien direct entre le Pilier 1 et le Pilier 2 de la directive puisque l’ACPR 3 a lacapacité d’ajouter un capital add-on au SCR de l’entreprise en cas d’insuffisance du contrôleinterne. Cette évaluation interne des risques et de la solvabilité, dite ORSA 4 constitue la piècemaîtresse de ce dispositif. L’ORSA s’inscrit dans un processus global d’ERM 5 qui vise à uneidentification globale et coordonnée des risques auxquels l’entreprise est exposée. Son but ultimeest une évaluation du « besoin global de Solvabilité ». Ce processus doit être prospectif et estde la responsabilité du Management qui doit en faire une partie intégrante du processus depilotage de l’entreprise.

2. Voir section 1.23. Autorité de contrôle prudentiel et de résolution4. Own Risk and Solvency Assessment5. Enterprise Risk Management

4

Pilier 3 : Exigences de communication financière

Le Pilier 3 concerne la communication externe de l’assureur. Il impose la transparence decelui-ci au travers de la publication de rapports qualitatifs (SFCR 6 et RSR 7) et de rapportsquantitatifs (QRT 8) à destination du superviseur et parfois du public.La structure de Solvabilité II peut se résumer au travers de la figure 1.2 [20].

Figure 1.2 – Principe de fonctionnement de Solvabilité II

1.2 Le Best Estimate

Définition 1.2. L’EIOPA 9 retient comme définition du Best Estimate celle énoncée dans lesspécifications techniques du QIS4, 2008 [9] : la moyenne pondérée en fonction de leurs proba-bilités des futurs flux de trésorerie compte tenu de la valeur temporelle de l’argent, laquelle estestimée sur la base de la courbe des taux sans risque pertinente.

Le Best estimate contient donc l’ensemble des flux de trésorerie futurs pondérés par leursprobabilités d’occurrence (risque de rachat ou de décès) et actualisés grâce à la courbe de tauxsans risque fournie par l’organisme EIOPA. La figure 1.3 présente un schéma simplifié du calculdu Best Estimate.

6. Solvency and Financial Conditions Report7. Regulatory Solvency Report8. Quantitative Reporting Templates9. European Insurance and Occupational Pensions Authority

5

Date d’inventaire t

Flux probable de trésorerieFlux de trésorerie

Flux de trésoreries entrants

Flux de trésoreries sortants

Actualisationet somme

Figure 1.3 – Schéma simplifié du principe de calcul du Best Estimate

La réglementation Solvabilité II fait intervenir deux univers de projection différents : l’uni-vers "Monde réel" et l’univers "Risque neutre". La probabilité historique correspond à la va-riation réelle des actifs tel qu’observée sur les marchés. La probabilité risque neutre est, quantà elle, liée fondamentalement à la valorisation des produits dérivés. En effet, la valorisation dela plupart des dérivés est effectuée sous cette probabilité grâce au résultat suivant :

Théorème 1.1. Dans un marché sans opportunité d’arbitrage, il existe au moins une probabilitééquivalente à la probabilité historique tel que les prix actualisés des actifs soient des martingales.Si on note Q une de ces probabilités alors pour tout processus de prix (St)t≥0 défini sur l’espace(Ω,F ,Q) :

— ∀t ≥ 0, St ∈ L1(Ω,F ,P)

— ∀t ≥ 0, St est Ft-mesurable—

∀t ≥ s, EQ(Ste−

∫ Tt rudu|Fs) = Ss. (1.1)

De plus si le marché est complet, c’est-à-dire si chaque flux financier peut être répliqué par unportefeuille composé de l’actif sans risque et des actifs risqués, alors la mesure Q est unique ets’appelle la probabilité risque-neutre.

Les deux référentiels sont utilisés dans la réglementation Solvabilité II. D’une part le réfé-rentiel monde réel est utilisé pour projeter les flux à un an avant de passer en monde risqueneutre afin de déterminer le SCR avec une vision modèle interne. D’autre part les actifs sontprojetés en monde neutre sur toute la durée de projection afin d’évaluer le Best Estimate avecune vision Market Consistent.Ce mémoire étant essentiellement concentré sur l’étude du Best Estimate, la probabilité risqueneutre est utilisée pour le calcul de celui-ci. D’un point de vue mathématique, si on notet1, ..., tN les dates d’occurrence des cashflows, rti le taux sans risque au temps ti utilisé pouractualiser alors le Best Estimate peut s’écrire :

BE0 = EQ

(N∑i=1

Cashflowti(1 + rti)

ti

), (1.2)

6

Le calcul du BE0 peut s’effectuer de deux manières différentes :— de manière déterministe : en utilisant des hypothèses définies à l’avance et en ayant

recours à des formules fermées pour la détermination du prix des actifs notamment.L’équation 1.2 devient :

BE0 =N∑i=1

Cashflowti(1 + rti)

ti, (1.3)

où chacun des éléments est défini préalablement.— de manière stochastique : Un Générateur de Scénarios Économiques 10 est utilisé pour

simuler les grandeurs utilisées dans le calcul du Best Estimate. Pour chacun de ces Kscénarios un Best Estimate, noté BE(j) pour le jme scénario, est calculé et l’équation1.2 est approximée par :

BE0 =1

K

K∑j=1

BE(j) =1

K

K∑j=1

N∑i=1

Cashflowti(j)

(1 + rti(j))ti. (1.4)

En supposant l’indépendance entre les BE pour différents scénarios, la consistance del’estimateur BE0 est garantie par la loi des grands nombres.

1.3 Les risques liés aux contrats d’assurance vie

L’objectif de cette partie est de présenter brièvement les risques auxquels un assureur vieest exposé dans son activité et qu’il faudra prendre en compte dans la modélisation du BestEstimate tout au long de ce mémoire.

Le risque de rachat

Ce risque concerne essentiellement les contrats d’épargne. Le rachat de tout ou partie dessommes investies dans un contrat d’assurance-vie est l’opération par laquelle le souscripteurprélève son épargne avant le terme du contrat. Ce rachat peut être exercé à n’importe quelledate du contrat et est éventuellement soumis à des pénalités selon les termes du contrat.

La participation au bénéfice

L’un des éléments intrinsèques à l’activité d’assurance vie est la participation aux béné-fices dont la modélisation est primordiale. Le Best Estimate tel que défini dans l’équation 1.2tient compte de cette participation aux bénéfices versée aux assurés. Ainsi, les engagements del’assureur peuvent être scindés en deux parties :

— la partie garantie que l’assureur doit verser quelles que soient ses performances finan-cières : le BEG (Best Estimate Garanti). Celui-ci est lié au taux minimum garanti :il s’agit d’un taux défini contractuellement par lequel la compagnie d’assurance s’engageà valoriser l’encours des assurés. Le choix d’un taux trop élevé représente un risque pourl’assureur car si les performances du portefeuille ne couvrent pas ce taux, l’assureur

10. Voir section 5.4.1

7

devra enregistrer des pertes pour maintenir ce taux garanti. Le calcul de ce taux estnotamment spécifié dans l’article A132-3-III du code des assurances.

— la partie relative à la participation aux bénéfices, à la discrétion de l’entreprise, quidépend de ses résultats. Il s’agit de la part du résultat financier et technique réalisé parl’assureur et dû aux assurés. Le taux de participation aux bénéfices entre en comptedans le calcul du taux servi et est un élément important permettant aux assureurs de sedifférencier de leurs concurrents et donc de prévenir le rachat des contrats.

Les risques de marché

Le risque de taux

Le risque de taux correspond au risque lié aux changements affectant la courbe des tauxd’intérêt. Cette courbe entre en compte dans la valorisation des obligations qui correspondentà une grande partie du portefeuille d’un assureur et dans l’actualisation des flux. La gestion dece risque est primordiale pour l’assureur. On dénote deux types de risque lié à ce taux :

— la hausse des taux réduit la valeur de marché des actifs, en particulier celle des porte-feuilles obligataires 11, et peut provoquer simultanément le rachat de certains contrats,notamment ceux à rendement garanti inférieur à celui des nouveaux contrats proposés.L’assureur est donc confronté à une baisse de son actif conjuguée à un besoin de liquidité.

— une baisse des taux : En cas de baisse des taux, la valeur de marché des obligationsaugmente et, par conséquent, la valeur de marché de l’actif de l’assureur aussi. Cepen-dant, cela réduit la marge financière future car le rendement des nouveaux actifs peutapparaître insuffisant pour faire face aux taux garantis par les contrats antérieurs.

Le risque action et immobilierLe risque action (respectivement le risque immobilier) est le risque lié aux fluctuations

du niveau ou de la volatilité du marché des actions (respectivement des actifs immobiliers).L’exposition à chacun des deux risques dépend de la composition du portefeuille de l’assureur.Les portefeuilles étudiés par la suite étant constitués en partie d’immobilier, mais surtoutd’actions, ces risques doivent être modélisés dans le calcul du Best Estimate.

La prise en compte de ces risques, liés notamment aux performances de l’assureur et doncà ses actifs, impose de mettre en interaction son portefeuille d’actif et de passif au traversdu modèle ALM 12. Cela lui permet de calculer l’intégralité des Cashflowti pour un scénarioéconomique donné et ainsi d’estimer le Best Estimate par les formules 1.3 ou 1.4 mais aussi leSCR associé en formule standard 13

11. Voir section 4.112. Asset and Liability Management13. Voir annexe A

8

2 Présentation du modèle ALM utilisé

Nous allons introduire dans cette partie l’ensemble des éléments de calcul réalisé par lemodèle ALM de Sinalys menant à l’obtention du Best Estimate.Le modèle ALM permet d’obtenir l’ensemble des données liées à l’évolution de l’actif et dupassif au cours du temps. La projection du modèle est faite sur une période de 50 ans. Leschéma de fonctionnement du modèle ALM est résumé en figure 2.1

Figure 2.1 – Schéma de fonctionnement du modèle ALM

2.1 Le générateur de scénarios économiques

Un Générateur de Scénarios Économiques (GSE) est un outil permettant de simuler lestrajectoires de variables économiques d’intérêt pour les calculs du Best estimate. Le générateurde scénarios économiques de Sinalys propose notamment de projeter l’évolution des taux d’in-térêt, des actions, de l’immobilier et de l’inflation. L’obtention de ces variables économiquespermet de calculer les différents BE de scénarios présents dans l’équation 1.4. L’ensemble deces scénarios sont projetés en environnement risque neutre. L’objectif de cette partie est debrièvement exposer les modalités de création de ces scénarios.

2.1.1 Modèle de taux

Le modèle de taux utilisé est un modèle de taux court gaussien : le modèle Hull-White à unfacteur. Ce modèle est caractérisé par une vitesse de retour à la moyenne a, un paramètre θ(t)permettant la reproduction de la courbe du taux zéro-coupon d’aujourd’hui et par une fonctionde volatilité σ(t, T ). Le taux court rt vérifie alors sous la probabilité risque-neutre Q l’équationdifférentielle :

drt = (θ(t)− art)dt− σ(t, T )dWQt , (2.1)

9

où WQt est un mouvement brownien sous Q. La fonction de volatilité choisie dans le GSE de

Sinalys est la suivante :

σ(t, T ) =

p∑i=1

σi1Ti−1≤T<Ti + σp+1e−α(T−t)1Tp≤t. (2.2)

Les volatilités locales du modèle sont calibrées grâce aux prix des caps Euribor 3 mois à lamonnaie ayant des maturités de 1 à 10 ans, 15 ans et 20 ans. La fonction θ(t) permet uneréplication exacte de la courbe de taux zéro-coupon si celle-ci est de la forme (Gurrieri et al,2016 [15]) :

θ(t) =∂

∂tf(0, t) + af(0, t) +

1

2

(∂2

∂t2V (0, t) + a

∂

∂tV (0, t)

)V (t, T ) =

∫ T

t

σ2(u, T )du

σ(u, T ) = σ(u)β(u, T ).

(2.3)

Ce modèle présente pour avantage :? la diffusion est simple avec peu de paramètres? il existe une formule fermée pour le prix des zéro-coupons et des caps mais pas des

swaptions? la forme de la fonction de volatilité préserve le caractère markovien du taux court.

D’autre part dans ce modèle le prix du zéro-coupon s’écrit sous la forme :

P (t, T ) =P (0, T )

P (0, t)exp

−1

2β(t, T )2φ(t)− β(t, T )rt

. (2.4)

Avec les fonctions β et φ définies par[5] :

β(t, T ) =1− e−a(T−t)

a=

∫ T

t

e−a(u−t)du

φ(t) =

∫ t

0

σ(s)2e−2a(t−s)ds.

(2.5)

Enfin on définit le taux zéro-coupon à la date t pour la maturité T noté R(t, T ) comme le tauxconstant continue qu’aurait une obligation zéro-coupon de maturité T à la date t. Il est définipar la relation :

P (t, T ) = e−R(t,T )(T−t) ⇔ R(t, T ) =−ln(P (t, T ))

T − t. (2.6)

C’est cette courbe de taux zéro-coupon qui est fournie en entrée du modèle ALM.

2.1.2 Modèle action et immobilier

La simulation du prix des actions et de l’immobilier est faite selon la dynamique suivante :

dStSt

= rtdt+ σtdWt, (2.7)

10

avec σt la volatilité déterministe et rt le taux d’intérêt stochastique issu du modèle de Hull-White.Ce modèle présente plusieurs avantages : sa simplicité d’application et de formulation et sonimportante utilisation par les opérateurs du marché.

2.1.3 Modèle inflation

Le GSE ne fournit pas de modèle propre à l’inflation mais s’appuie sur la relation de Fisher :

ir =1 + rrel1 + r

− 1 avec

rrel : le taux d’intérêt réelr : le taux d’intérêt nominal

. (2.8)

Les taux réels sont calculés grâce aux swaps d’inflation et à la courbe EIOPA. Les prix deszéro-coupon de taux réels sont calculés de façon à respecter le caractère risque neutre deszéro-coupon d’inflation.

2.1.4 Condition de martingalité

Une fois les grandeurs précédentes simulées il est nécessaire de s’assurer qu’elles vérifientles exigences réglementaires et les propriétés théoriques associées. Outre la condition de marketconsistency consistant à s’assurer que la volatilité des variables financières utilisées pour cesscénarios économiques permet bien de retrouver le prix des options sur le marché, la principalecondition que doit vérifier le scénario économique est la condition de martingalité. En effetles simulations des scénarios économiques sont effectuées dans un univers risque neutre. Parconséquent, l’ensemble des prix actualisés doit être des martingales (ie doit vérifier l’équation1.1). Les équations choisies pour chacune des grandeurs respectent cette martingalité mais lepas des simulations n’étant pas infinitésimal une dérive numérique propre à chaque actif doitêtre ajoutée afin de garantir le caractére martingale.

2.2 Modélisation du passif

La modélisation du passif fait intervenir deux éléments essentiels : le rachat et le décès. Lemodèle ALM fait l’hypothèse que le rachat intervient avant le décès. Dans le cas de contrat derente il est également nécessaire d’ajouter le versement d’une prestation liée au versement dela rente.

2.2.1 Modélisation du rachat

Le rachat peut être divisé en deux composantes :— Les rachats structurels sont les rachats qui dépendent des caractéristiques du contrat

d’assurance. En effet, ce type de rachat dépend de l’ancienneté du contrat. On remarqueainsi un pic de rachat lors de la 9eme année d’existence du contrat, dû au taux d’imposi-tion qui diminue après cette date (figure 2.2). L’évolution du taux de rachat conjoncturelest donc essentiellement dirigé par les avantages fiscaux propres à l’assurance vie.

11

Figure 2.2 – Evolution du taux de rachat conjoncturel en fonction de l’ancienneté du contrat

— Les rachats conjoncturels sont les rachats liés au contexte financier du moment et plusparticulièrement à la performance de l’assureur. Ce taux de rachat conjoncturel dépenden effet du taux servi par l’assureur l’année précédente et du taux moyen des entreprises,c’est-à-dire le taux servi par les entreprises concurrentes.

Le taux de rachat total est alors défini par :

TauxRachat(t) = min(1, TauxRachat conjoncturel(t) + TauxRachat structurel(t)). (2.9)

Les prestations servies par l’assureur sont soumises à des pénalités de rachat. Ainsi l’assureurne verse qu’une proportion Tauxservi du montant dû. Ce montant est fixé à la provision mathé-matique de la fin d’année précédente pour chacun des N contrats. Ainsi les rachats pour l’annéet sont définis par :

Rachat(t) =N∑i=1

TauxRachat(t)× PMi(t− 1)× Tauxservi. (2.10)

2.2.2 Modélisation du décès

Les décès interviennent après les rachats. Les taux de décès utilisés dans le modèle ALMdépendent du portefeuille étudié :

— pour le portefeuille d’épargne, la table de mortalité utilisée est la THTF00-02— pour le portefeuille de rente, la table de mortalité utilisée est la TGHTGF05.

La référence pour le calcul des prestations de décès est la provision mathématique restanteaprès les rachats évoqués précédemment :

Décès(t) =N∑i=1

TauxDécès(t)× (1− TauxRachat(t))× PMi(t− 1). (2.11)

12

Dans le cas des contrats de rente, la présence d’un bénéficiaire est possible. En cas de décèsde l’assuré principal et de survie du bénéficiaire à cette date l’assureur va alors transférer unepartie des droits de l’assuré principal au bénéficiaire. Cela se traduit au travers d’un tauxde réversion défini contractuellement qui définit la proportion de la rente principale qui serareversée au bénéficiaire. Une modélisation jointe de la probabilité de survie de l’assuré et dubénéficiaire est donc nécessaire.

2.3 La modélisation de l’actif

2.3.1 Valorisation des obligations

Une obligation est un instrument financier représentant une part de l’endettement d’uneentreprise ou d’un Etat. Elle permet de financer l’activité ou l’investissement des entreprisesou des Etats.

Une obligation se caractérise par :— une maturité qui correspond à la date de fin de vie de l’obligation.— un nominal qui représente la valeur faciale utilisée pour calculer les paiements effectués

sur l’obligation. C’est également la valeur qui sera versée à maturité de l’obligation— le coupon qui représente les intérêts versés par l’obligation au cours de la période

d’intérêt. Ce coupon est souvent exprimé en pourcentage du nominal.— le risque de défaut correspondant au risque que l’émetteur de l’obligation ne soit pas

en mesure de rembourser l’intégralité des intérêts et du nominal de l’obligation.A partir des informations précédentes il est possible de calculer théoriquement la valeur demarché d’une obligation. Notons t1 ≤ ... ≤ ti ≤ ... ≤ tn = T les dates de versement del’obligation avec T la maturité de celle-ci et (ri)1≤i≤n les taux d’intérêt EIOPA correspondants,C le taux de coupon de l’obligation et N son nominal. La valeur de marché d’une obligation sedéfinit alors par :

VM =n−1∑i=1

C ×N(1 + ri)ti︸︷︷︸

Cashflows intermédiaires actualisés

+(1 + C)×N

(1 + rn)tn︸︷︷︸Cashflow terminal actualisé

. (2.12)

2.3.2 Valorisation des actions et de l’immobilier

Les valeurs des actions et de l’immobilier sont revalorisées au cours du temps grâce auxscénarios action et immobilier générés selon le modèle 2.7. Une réévaluation de la valeur demarché de ces actifs n’est faite qu’en cas de rendement négatif au cours de l’année précédente.La valeur de marché se définit par récurrence par :

VMavt invt = VMaprès inv

t−1 ×(1St≥St−1 +

StSt−1

× 1St≥St−1

). (2.13)

En cas de rendement positif c’est-à-dire si l’assureur a fait des bénéfices, celui-ci reçoitdes dividendes correspondant à la plus value réalisée au cours de l’année. Autrement dit les

13

dividendes actions ou loyers immobiliers s’écrivent sous la forme :

Dividendet =St − St−1St−1

× VMaprès invt−1 × 1St−St−1

St−1>0, (2.14)

avec St le cours de l’action ou de l’immobilier à l’issue de l’année t. Le versement des dividendesse fait avant la phase d’investissement. Ces dividendes sont associés au montant du monétairepossédé par l’assureur. Le monétaire obtenu par l’assureur au cours de la période t est alorsdonné par :

∆Monétairet = Coupont + Dividendet + Loyert − Prestations totalest. (2.15)

Les investissements et désinvestissements

Au cours du temps la valeur des actifs, des obligations, de l’immobilier et du monétairevarient en lien avec l’ensemble des variables économiques projetées et le comportement du por-tefeuille de passif associé. La variation de valeur des actifs mène à une stratégie d’investissementet de désinvestissement à chaque fin de période. L’assureur fournit des taux cibles de répartitionde ces investissements en actif qui sont pris comme donnée dans le modèle. En fin de périodeune valeur de marché totale est calculée comme :

VMavt invtot = VMavt inv

monétaire + VMavt invoblig + VMavt inv

action + VMavt invimmo . (2.16)

Puis cette valeur de marché totale est redistribuée de façon à respecter les taux cibles en fin depériode. Cette redistribution est faite en augmentant ou diminuant la valeur de marché investiedans chaque actif c’est-à-dire en vendant ou achetant une proportion d’actif pour atteindre letaux cible. Concernant les obligations, deux comportements sont possibles :

— en cas de désinvestissement la quantité de chacune des obligations du portefeuille estdiminuée d’une proportion équivalente

— en cas d’investissement celui-ci est fait sur des obligations de même maturité et de mêmecoupon pour chacun des types d’obligations de manière à atteindre les taux cibles.

2.4 Modélisation des provisions et de la participation aux bénéfices

La provision mathématique

La provision mathématique sur l’ensemble des contrats intervient dans le compte de résultattechnique mais aussi dans le calcul de la participation aux bénéfices. Cette provision est définiecomme :

PMt = (PM ouvt − (Rachatt + Décèst))× (1 + Taux servi× (1− Taux chargement)). (2.17)

Les chargements et prélèvements sociaux

Les prélèvements calculés par le modèle ALM se basent sur des hypothèses concernant lestaux de chargement appliqués par l’assureur :

14

— Les taux de chargement sur les prestations— Les taux de chargement sur les cotisations— Les taux de chargement sur les provisions mathématiques— Les taux de chargement de placement.— Les taux de prélèvement sociaux. Les prélèvements sociaux dépendent des intérêts tech-

niques et des intérêts sur la provision pour participation au bénéfice conservée.A partir de ces hypothèses ainsi que de l’inflation fournie par le GSE, le modèle calcule l’en-semble des prélèvements.

La participation aux bénéfices

Le modèle ALM procède au calcul de deux résultats reflétant l’activité de la période quientrent dans le calcul de la participation aux bénéfices :

— le résultat financier qui illustre l’activité du portefeuille d’actif de l’assureur :

Résultat Financiert = Dividendet + Loyert + Intérêt monétairet + Coupont− Frais placementt,

(2.18)

— le résultat technique :

Résultat Techniquet = PPB8 anst + PM ouv

t − PMavt PBt + Chrgt Prestat

− Prestat − Fraist,(2.19)

où PPB8 anst correspond à la provision pour participation aux bénéfices conservée depuis

8 ans par l’assureur. La réglementation laisse en effet la possibilité de provisionner lesbénéfices non distribués aux assurés mais impose de redistribuer ces bénéfices aux assurésaprès 8 ans de conservation maximum.

Le Code des assurances (articles L. 331-3, A. 331-3 et A. 331-4) impose que, pour chaqueexercice, l’assureur calcule un montant minimal de participation aux bénéfices techniques etfinanciers à reverser aux assurés :

— au moins 90 % des bénéfices techniques— un minimum de 85 % du solde du compte de résultat financier

La PB minimale à reverser est alors définie par :

PBmint = 0, 85× Résultat Financiert + 0, 9× Résultat Techniquet + ResNegt−1, (2.20)

où le terme ResNegt−1 est le terme de reprise des éventuels résultats négatifs des années précé-dentes.

D’autre part l’assureur fournit comme hypothèse un taux de participation au bénéfice ciblegrâce auquel la participation aux bénéfices peut être calculée par :

PBciblet = Taux cible× PM ouv

t . (2.21)

Dès lors plusieurs cas se présentent :

15

— la PBmint est supérieure à PBcible

t alors l’assureur verse la PBciblet et place le surplus

dans la provision pour participation aux bénéfices,— si ce n’est pas le cas l’assureur tente de distribuer la PBcible

t grâce à la provision pourparticipation aux bénéfices et aux plus values latentes réalisées sur son portefeuille actionet immobilier,

— si le taux cible ne peut être atteint les opérations précédentes sont répétées avec un tauxcible diminué de moitié,

— enfin si aucun des cas précédent ne peut être réalisé il n’y a pas de participation auxbénéfices et l’assureur verse uniquement le TMG.

Le modèle calcule alors le taux servi pour la période en cours puis calcule la PB à servir sur lesprovisions mathématiques et sur les prestations c’est-à-dire les prestations destinées aux assurésayant racheté leurs contrats dans l’année et bénéficiant de la participation aux bénéfices.

Calcul du Best Estimate

A partir de toutes les données explicitées précédemment il est possible de calculer les cash-flows versés en fin d’année par l’assureur (brut de réassurance) :

CFBREAt = Prestationt × (1− Tx prestation(1 + Tx PPB)) + Frais placement× PMt

PMavt PB

+ Frais prestationt + Frais PMt + Prestationt + Tx PPBt × Prestation

+ Intérêt servis PB + Prélèvement sociauxt.(2.22)

Dès lors le Best Estimate est calculé comme la somme des cashflows obtenus par l’équation2.22 après actualisation.

2.5 Les contraintes opérationnelles du Best Estimate

Maintenant que l’ensemble des prestations et des flux du portefeuille actif-passif a été in-troduit il est possible de présenter les difficultés opérationnelles liées à l’obtention du BestEstimate. En effet le calcul du Best Estimate associé à un contrat nécessite l’obtention de l’en-semble des probabilités de rachat, de décès au passif et des dividendes, coupons et loyers àl’actif ainsi que des frais et des prélèvements.

Afin d’avoir des données de référence, le calcul du Best Estimate a été réalisé sur un porte-feuille de contrats d’épargne et de rente provenant d’un assureur. Ce portefeuille est constituéde 31885 contrats au passif et de 5031 lignes à l’actif. Le calcul du Best Estimate a été réalisépour 8 trajectoires de variables économiques telles que définie dans le cadre du générateur descénarios économiques. On obtient les résultats suivants :

— L’obtention de l’ensemble des résultats a nécessité le stockage en mémoire de l’intégralitédes données présentées précédemment soit un total de 17526 Mo présents sur les serveursde l’entreprise.

— Le calcul a été effectué en environ 29 heures.

16

On l’a vu précédemment, le Best Estimate stochastique s’approxime par une moyenne sur unensemble de scénarios. La réglementation n’impose pas un nombre de scénarios prédéfini ce-pendant l’ensemble de la profession s’accorde sur un nombre de scénarios compris entre 500et 1000 scénarios. Ainsi le calcul d’un Best Estimate stochastique nécessiterait, en supposantque le temps de calcul et le stockage soient proportionnels en le nombre de scénarios et quel’approximation du BE soit basée sur 500 scénarios, 1,09 To de stockage et s’effectuerait en2812 heures de calcul soit 120 jours. Il est aisément compréhensible que cela n’est pas réalisableavec des moyens matériels raisonnables.

17

3 Modélisation du passif

Avant de poursuivre, il est nécessaire de définir ce qu’est un model point dont la détermi-nation est au coeur de la problématique posée dans ce mémoire.

Définition 3.1. Un model point est un élément fictif représentant un groupe de contrats, deproduits financiers du portefeuille préalablement rassemblé par proximité dans leurs comporte-ments.

La définition de ces comportements et les méthodes de rassemblement font l’objet des pro-chaines parties.Il est important de noter que l’emploi de méthodes de regroupement est autorisé par la régle-mentation sous réserve que cela permette une réduction conséquente des temps de calcul etn’implique pas une sous-estimation des risques sous-jacents (EIOPA, 2010 [10])

3.1 Fondements de l’agrégation au passif

Commençons par présenter l’intuition derrière l’agrégation du passif. Les calculs seront ef-fectués dans le cas d’un portefeuille d’épargne pour lequel des formules fermées existent (Bonninet al, 2014 [2]). Cependant les variables retenues par ces raisonnements seront étendues à unportefeuille de rente.

Soit un contrat d’épargne de valeur d’engagement initial V R(0) et de taux d’accumulationinstantané ra(t) alors la valeur des engagements en t est :

V R(t) = V R(0)× exp

(∫ t

0

ra(s)ds

). (3.1)

La valeur actuelle du contrat est alors définie pour un taux d’intérêt instantané r(t) par :

PV R(t) = V R(t)× exp

(−∫ t

0

r(s)ds

)= SV (0)× exp

(∫ t

0

(ra(s)− r(s)) ds). (3.2)

Le Best Estimate du contrat d’épargne correspond au résultat probabilisé de 3.2 c’est-à-dire entenant compte des probabilités de rachat. La formule exacte du Best Estimate pour un scénariodonné fait intervenir une espérance sous forme d’intégrale (Goffard, 2015 [13]). Le modèle ALMde Sinalys ayant recours à une discrétisation des probabilités de rachat à une échelle de 1 annous allons avoir recours à cette même approximation. Le Best Estimate pour un scénario F

donné s’exprime alors sous la forme :

BEF(0, T ) ≈

[T−1∑t=0

pF(t, t+ 1)t∏

k=0

1 + ra(k, k + 1)

1 + r(k, k + 1)+ pF(T )

T−1∏k=0

1 + ra(k, k + 1)

1 + r(k, k + 1)

]V R(0), (3.3)

où pF(t, t + 1) est la probabilité de rachat entre t et t+1 et ra(k, k + 1) et r(k, k + 1) sont lestaux d’accumulation et d’intérêt pour la période k à (k+1).

Le raisonnement va s’appuyer sur la linéarité du Best Estimate pour des contrats ayantdes probabilités de rachat identiques. Le Best Estimate d’un portefeuille de deux contrats de

18

portefeuilles ayant les mêmes probabilités de rachat et de valeur d’engagement initial V R(0) etV R′(0) est :

BEF(0, T ) = BEF1 (0, T ) +BEF

2 (0, T )

=

[T−1∑t=0

pF(t, t+ 1)t∏

k=0

1 + ra(k, k + 1)

1 + r(k, k + 1)+ pF(T )

T−1∏k=0

1 + ra(k, k + 1)

1 + r(k, k + 1)

]× V R(0)

(3.4)

+

[T−1∑t=0

pF(t, t+ 1)t∏

k=0

1 + ra(k, k + 1)

1 + r(k, k + 1)+ pF(T )

T−1∏k=0

1 + ra(k, k + 1)

1 + r(k, k + 1)

]× V R′(0)

=

[T−1∑t=0

pF(t, t+ 1)t∏

k=0

1 + ra(k, k + 1)

1 + rδ(k, k + 1)+ pF(T )

T−1∏k=0

1 + ra(k, k + 1)

1 + rδ(k, k + 1)

]× (V R(0) + V R′(0)).

Il est donc parfaitement identique au Best Estimate d’un contrat d’épargne ayant les mêmescaractéristiques mais avec une valeur d’engagement initiale égale à V R(0) + V R′(0). Il sembledonc légitime de représenter les contrats d’épargne par leurs probabilités de rachat.

Afin d’appliquer le même processus aux contrats de rente, la définition de la probabilité derachat peut être étendue à la probabilité de décès de l’assuré ou du bénéficiaire. Cependantla participation aux bénéfices étant plus difficile à modéliser, il est nécessaire d’ajouter desvariables permettant de prendre en compte cette donnée dans nos regroupements.

Pour ce faire nous allons nous appuyer sur une simulation du Best Estimate en environne-ment déterministe dans plusieurs scénarios de choc : central, risque action, frais, immobilier,baisse du rachat, hausse du rachat, rachat de masse , spread, taux bas et taux haut. Cet en-semble de simulation va non seulement permettre de raffiner les variables explicatives mais aussiconstituer un benchmark pour les model points obtenus. Bien que longue à mettre en oeuvre,cette exécution est réalisable en déterministe.

La simulation du Best Estimate totale prenant en compte la participation aux bénéfices descontrats l’ajout de ces variables à la liste des variables explicatives permettra de prendre encompte cette participation aux bénéfices. Les BE étant globalement proportionnel à la provisionmathématique associée au contrat, ceux-ci sont transformés de manière à éliminer l’effet taille.Les variables sont également normalisées en utilisant le z-score.Un contrat x est alors représenté par le vecteur :

x =

(pF(0, 1) ... pF(T )︸︷︷︸

50 probabilité de rachat/décès

BE1 · · · BE8︸︷︷︸8 scénarios BE déterministes

). (3.5)

3.2 Construction de model points

3.2.1 Description de l’algorithme utilisé : k-medoid

L’idée de l’agglomération précédente est valable pour des contrats ayant des caractéristiquessimilaires. Une première agrégation de ces portefeuilles est effectuée afin de traiter séparémentles portefeuilles ayant des caractéristiques différentes :

19

— pour les portefeuilles d’épargne, une séparation est faite en fonction du sexe de l’assuréet du bénéficiaire.

— pour les portefeuilles de rente, on fait de nouveau une distinction au niveau du sexede l’assuré et du bénéficiaire. On ajoute également à ces variables le type de cotisationet le taux de réversion. Le taux de réversion prenant un ensemble de valeurs restreintl’utilisation de cette variable dans la séparation facilitera l’agrégation et n’est pas trèscontraignante pour le procédé d’agrégation.On distingue 4 types de cotisations différentes :• l’assuré est à l’âge de la retraite,• l’assuré et à l’âge de la retraite et il existe une réversion,• la rente différée,• la retraite est déjà touchée par le bénéficiaire.Ces 4 types de rentes au sein du portefeuille ne sont pas liés au même comportementet sont par conséquent modélisés différemment au sein du modèle ALM. Il est doncnécessaire de ne pas les traiter ensemble.

Reste à définir la distance qui permettra d’effectuer une mesure de la dissimilarité entre deuxcontrats. La distance choisie dans notre modélisation est la distance euclidienne.Si x et y sont caractérisés par leurs facteurs d’actualisations respectifs (xi)1≤i≤n et (yi)1≤i≤n

alors on place la distance suivante entre les individus :

||x− y||2 =

√√√√ n∑i=1

(xi − yi)2. (3.6)

L’objectif est ici de pénaliser les éléments extrêmes afin de les isoler. Par exemple si le béné-ficiaire d’un contrat d’épargne est jeune alors l’engagement de l’assureur envers celui-ci est unengagement de long terme et le Best Estimate associé à son contrat peut se révéler très impor-tant notamment en cas de choc sur la courbe de mortalité. Ainsi il est primordial de ne pasréunir ce contrat avec un autre contrat dont les probabilités de sortie seraient bien différentes.Une autre contrainte s’ajoute à celle de la représentativité des contrats : celle que les modelpoints choisis soient associés à des caractéristiques de contrat existantes (âge de l’assuré notam-ment) et que ces caractéristiques soient relativement stables dans le temps. Contrairement auxobligations qui peuvent être créées artificiellement à partir de leurs caractéristiques il peut êtreintéressant pour un assureur d’avoir des model points dont les caractéristiques soient réalistes.De plus dans la perspective de la mise en place de la nouvelle directive IFRS17 il est nécessairede disposer des model points stables dans le temps. La mise en place de model points dans lecadre de cette réglementation sort du cadre de cette étude mais il est intéressant de voir s’il estpossible de répondre aux besoins de cette nouvelle norme.Afin de pallier cette difficulté nous allons représenter chaque groupe obtenu par un des élémentsde ce groupe. Cet élément du portefeuille, appelé medoid, est moins sensible aux changementsdu cluster dans lequel il se trouve que ne le serait une moyenne pondérée des individus parexemple. L’objectif est alors de minimiser la distance entre les éléments de chaque cluster etle medoid qui le représente. Cette distance totale s’écrit pour un nombre de classes k et une

20

partition associée C(k) = (Ci)1≤i≤k :

d(C(k)) =k∑i=1

∑xj∈Ci

||xj − xi∗||2, (3.7)

où l’individu j∗ est l’individu du cluster i qui minimise la distance quadratique totale avecl’ensemble des éléments du cluster Ci c’est-à-dire vérifiant :

j∗ = argminj:xj∈Ci

∑xs∈Ci

||xs − xj||2. (3.8)

Le Best Estimate d’un contrat est globalement proportionnel à la provision mathématique decelui-ci, il est donc primordial de se concentrer sur les contrats constituant une forte provisionmathématique puisque ceux-ci ont un plus grand poids dans l’évaluation du BE et peuventdonc potentiellement amener une erreur plus importante. On associe donc à un individu x lepoids :

ωx =PMx(0)∑x

PMx(0),

avec PMx(0) la provision mathématique associée au contrat x

On cherche ainsi à résoudre le programme suivant :

argminC(k)=(Ci)1≤i≤k

k∑i=1

∑xj∈Ci

ωxj||xj − xi∗||2︸︷︷︸

d(C(k))

j∗ = argminj:xj∈Ci

∑xs∈Ci

ωxs||xs − xj||2

(3.9)

Afin de résoudre ce problème nous avons recours à l’algorithme PAM( Partitionning aroundmedoid) proposé par Kaufman & Rousseeuw (1990). Celui-ci propose une approche itérativequi, partant d’une partition C, échange provisoirement chaque centre ik avec une observationqui n’est pas un centre à l’itération précédente et sélectionne le nouvel ensemble de centresminimisant le critère d(C(k)) dans l’équation 3.9. Puis chaque observation est attribuée aucluster associé au centre le plus proche :

C(i) = argmin1≤i≤k

||xi − xi∗||2.

Ceci est fait jusqu’à ce qu’aucun échange avantageux ne puisse être trouvé. Cette étape d’échangeest relativement lourde avec une complexité de l’ordre de O(n2). Notons que d’autres algo-rithmes moins gourmands en calcul ont été proposé comme par exemple l’algorithme CLARA(Clustering Large Applications) également proposé par Kaufman & Rousseeuw. Cependant lesbases de données étudiées n’excédant pas les 10000 observations l’algorithme PAM se montresuffisamment rapide pour notre utilisation. Une illustration du principe de fonctionnement del’algorithme se trouve en figure 3.1.

21

Figure 3.1 – Illustration de l’évolution de l’algorithme k-medoid

Choix des centres initiaux

L’une des propriétés fondamentales de l’algorithme k-means, la convergence vers un mi-nimum éventuellement local 14, s’étend aisément à l’algorithme PAM. La difficulté est alorsd’obtenir la convergence vers le minimum global et non pas le minimum local. Il est donc pri-mordial d’avoir un ensemble de medoids initiaux pertinents afin d’assurer la convergence vers leminimum global. L’algorithme initial proposé par Kaufman&Rousseeuw propose une méthodede choix de ces medoids basée sur l’idée que la partition sera de bonne qualité si les clusterssont éloignés les uns des autres. Cette intuition s’appuie sur la relation de Huygens :

∑x

||x− µ||22︸︷︷︸Total sum of squares

=k∑j=1

∑x∈C(i)

||x− µi||22︸︷︷︸Cluster sum of squares

+k∑i=1

||µj − µ||22︸︷︷︸Between cluster sum of squares

. (3.10)

Le premier centre est donc choisi de façon à minimiser la distance globale aux individus de la

14. Voir section 4.2.1 pour le principe de cette convergence

22

base de données :

c1(1) = argminxi

n∑j=1

ωxj||xj − x||2. (3.11)

Puis chaque centre suivant est choisi parmi les éléments non medoid de manière à vérifier :

ci(1) = argmaxx 6∈c1(1),...,ci−1(1)

∑xj

ωxjmax(D(xj)− ||xj − x||2, 0), (3.12)

la distance D(xj) étant la distance du point xj au medoid le plus proche à une itération donnée.Cette opération est répétée jusqu’à avoir obtenu k centres.

Agrégation

L’agrégation des contrats du passif est aisée par l’approche utilisant les medoids puisquele meilleur model points est par définition le medoid associé à chaque groupe. Il ne reste qu’àattribuer à ce medoid la provision mathématique de l’intégralité du groupe.

3.2.2 Choix du nombre de model points

Le seul paramètre restant à déterminer est le nombre de classes k que l’on veut créer dansnotre base de données. La méthode de décision classique en clustering est basée sur des in-dices de qualité de la partition. Cependant des essais utilisant certains de ces indices ont étéréalisés donnant un nombre de classes trop important pour être utilisé : les indices saturaientglobalement le nombre de classes proposées.

Une approche basée sur l’algorithme X-means (Pelleg et Moore, 2002 [23]) a également étéentreprise. Cependant le critère de choix du nombre de clusters est basé sur le calcul de l’indiceBIC (Bayesian information criterion) pour des données distribuées selon la loi normale. Nosdonnées de probabilité au sein d’un même groupe tendaient à avoir une probabilité de sortieégale à 1 au-delà d’une certaine date (figure 3.5), Celles-ci ne correspondent donc pas à desdonnées générées selon une loi normale.

Afin de contourner cette difficulté l’information supplémentaire fournie par le Best Estimatecalculé en scénario central sera utilisée. Cela permet le passage à une stratégie d’apprentissagesupervisé c’est-à-dire une méthode d’apprentissage s’appuyant sur la connaissance de la variableà expliquer à l’inverse de l’apprentissage non supervisé auquel l’algorithme PAM a recours.Les méthodes d’apprentissage supervisé donnent le plus souvent de meilleurs résultats que lesméthodes non supervisées car elles apportent une information supplémentaire sur le problème àrésoudre. L’optimisation des paramètres se base sur une mesure d’erreur prenant en compte lerésultat réel à prédire. Une approche en supervisé n’a pas été retenue ici car celle-ci risqueraitd’entraîner un sur apprentissage sur le scénario central. L’absence de connaissance du résultatpermet de mettre en avant les variables explicatives et ainsi de mieux s’adapter aux différentschocs réglementaires de la réglementation Solvabilité II. En effet, des assurés d’âges différentsayant des contrats différents dans leurs TMG peuvent avoir un Best Estimate similaire selonun scénario mais en cas de choc sur le taux d’intérêt par exemple ces contrats auront un

23

comportement bien différent. Cependant ces méthodes et plus particulièrement l’algorithme departitionnement des arbres de régression qui va être utilisé sont adaptés au choix d’un nombrede groupes dans notre ensemble d’individus.

Construction d’un arbre de régression

Définition 3.2. Un arbre de décision est une méthode d’apprentissage supervisé qui permetd’expliquer une variable qualitative ou quantitative. Dans le cas d’une variable quantitative iciétudiée on parle d’arbre de régression.

Cette méthode présente l’avantage de ne pas être linéaire en ces variables explicatives maisde conserver un caractère visuel et une compréhension aisée que d’autres modèles plus complexespeuvent perdre.

L’idée d’un arbre de régression est de créer une partition de l’ensemble des données etd’attribuer à chaque sous-ensemble de la partition une valeur constante. Si on considère lapartition (Rj)1≤j≤M alors on cherche le prédicteur sous la forme :

f(x) =M∑m=1

cm1x∈Rm . (3.13)

L’algorithme aura de bons résultats si dans chacun des sous-ensembles créés les éléments sontproches de la valeur attribuée à la partition. Cette proximité entre deux éléments x = (x1, ..., xn)

et z = (z1, ..., zn) d’une partition est mesuré au travers de la distance euclidienne entre leursvaleurs prédites par f : ||f(x) − f(z)||2 =

√(f(x)− f(z))2. L’objectif de l’algorithme CART

Classification And Regression Trees est similaire à celui du k-means mais celui-ci s’appuie surla connaissance de la variable à expliquer. Le programme s’écrit :

(Ci)1≤i≤k = argmin(Ci)1≤i≤k

k∑i=1

∑xj∈Ci

(f(xj)− µi)2 (3.14)

où µi est la valeur attribuée au sous-ensemble Ci.Pour résoudre cela l’algorithme CART procède itérativement. Illustrons le principe de l’algo-rithme au travers de la première séparation. Partant d’une partition constituée de l’ensemble desdonnées, l’algorithme cherche à faire une division selon Xj 1 ≤ j ≤ n la variable de séparationselon un point de séparation s pour obtenir R1(j, s) = (X|Xj ≤ s) et R2(j, s) = (X|Xj > s) lesnouvelles régions correspondantes.Pour cela, il réalise la minimisation suivante :

minj,s

minc1

∑xi∈R1(j,s)

(f(xi)− c1)2 + minc2

∑xi∈R2(j,s)

(f(xi)− c2)2 . (3.15)

24

En notant Nm = #xi ∈ Rm = Rm(j, s), la minimisation intérieure donne :

c1 =1

N1

∑xi∈R1(j,s)

f(xi)

c2 =1

N2

∑xi∈R2(j,s)

f(xi)(3.16)

Pour chaque variable de division j, l’algorithme peut trouver s facilement par une minimisationà une variable. Le calcul de l’équation 3.16 est fait pour chaque j possible et le couple (j,s)minimisant cette distance est retenu. Pour un problème à deux variables explicatives X1 et X2,la partition obtenue pourrait être la suivante :

Figure 3.2 – Partitionnement d’un arbre de régression pour un problème à deux variables etarbre correspondant

Cet algorithme divise donc l’ensemble de l’espace des variables explicatives en plusieurs groupeshomogènes en la variable d’intérêt.

Coefficients de complexité et détermination de la taille de l’arbre

Le seul paramètre restant à déterminer est le M de l’équation 3.13 c’est-à-dire le nombrede groupes utilisé pour diviser l’espace des variables explicatives. Un arbre profond c’est-à-direavec un M très grand conduit à sur apprendre nos données d’apprentissage en choisissant untrop grand nombre de classes tandis qu’un M petit ne capture pas suffisamment d’éléments pourréaliser une partition de qualité. L’objectif est donc de trouver l’arbre alliant bonne performanceet taille raisonnable.

L’approche la plus courante pour choisir la taille de l’arbre est de créer un arbre de trèsgrande taille en continuant de séparer l’espace jusqu’à ce qu’une nouvelle division de l’espacedonne un groupe de moins de 20 individus (paramètre par défaut dans l’algorithme rpart de R).L’arbre est ensuite élagué en utilisant le critère de coût-complexité. L’élagage consiste à utilisercomme prédicteur un sous-arbre de l’arbre initialement créé, c’est-à-dire un arbre obtenu enfusionnant certains de ces noeuds internes. Un exemple de sous arbre issu de l’arbre de la figure3.2 se trouve en figure 3.3.

25

Figure 3.3 – Exemple d’élaguage de la partition de la figure 3.2

Notons, pour un arbre T donné, |T | le nombre de noeuds terminaux de T (le nombre de

catégories distinctes de l’espace). En notant Qm(T ) =1

Nm

∑xi∈Rm

(yi − cm)2, on définit le critère

de coût-complexité par :

Cα(T ) =

|T |∑m=1

NmQm(T )︸︷︷︸qualité de précision

+ α|T |︸︷︷︸Pénalisation de la taille de la partition

. (3.17)

Le critère est équivalent à la régression Lasso en pénalisant l’ajout d’une catégorie supplémen-taire. L’idée est de trouver pour un α donné l’arbre Tα qui minimise Cα(T ). Le paramètre α estle paramètre qui gouverne le trade off entre la taille de l’arbre et la qualité de l’apprentissage. Ilest choisi par cross validation de façon à minimiser la perte quadratique. On peut montrer qu’ilexiste, pour un α donné, un unique arbre Tα de taille minimale qui minimise Cα(T ) (Breimanet al, 1984 [3]).

Dès lors on peut construire un arbre de taille maximale puis calculer la taille de l’arbrequi minimise Cα(T ) pour α donné par cross validation. Enfin on élague l’arbre pour obtenirla taille souhaitée et l’erreur de cross validation peut être calculée sur notre échantillon. Onobtient ainsi un graphique de l’erreur de prédiction en fonction du nombre de groupes choisis etun choix de la taille de la partition peut être fait en choisissant le nombre de groupes minimalde manière à ce que l’erreur soit faible.

Application au choix du nombre de classes

Le choix du nombre de classes dans notre problème va donc s’appuyer sur les propriétés departitionnement des arbres de régression.

L’objectif étant de déterminer le nombre optimal de groupes alliant précision dans l’éva-luation du Best Estimate et gain de temps de calcul le problème correspond exactement aucritère 3.17. Cette approche est préférée à l’utilisation d’un Lasso car le Best Estimate n’estpas linéaire en les variables explicatives. La variable expliquée choisie est le BE dans un scénariocentral et les variables explicatives sont celles qui seront utilisées dans l’algorithme PAM. Celapermet de décrire une partition optimisée en qualité et en nombre de groupes de l’espace descontrats en fonction de leurs BE centraux.

26

Cette méthode souffre pourtant d’un défaut : le problème que l’algorithme PAM et CARTcherche à résoudre n’est pas exactement le même puisque l’on calcule l’inertie par rapport à lamoyenne dans un cas et par rapport aux medoids dans l’autre. Cependant on peut s’attendreà ce que l’approche par medoid soit globalement similaire à celle autour des moyennes. Cetteméthode donne donc une bonne approximation du nombre de model points à conserver pournotre clustering.

3.3 Résultats

Afin de démontrer son efficacité, la procédure ci-dessus va être appliquée à des portefeuillesde contrats réels. Les résultats obtenus seront évalués selon 3 critères :

— l’erreur sur le Best Estimate définie par :BEMP −BEréel

BEréel

— le gain de place en termes de nombre de contrats par portefeuille,CardMP − Cardréel

Cardréelmais aussi en termes de mémoire sur les serveurs lors du calcul du Best Estimate,

— la durée de traitement du calcul.Afin d’établir un élément comparatif à notre portefeuille de model points, un portefeuille demodel points plus naïf est réalisé. Ce portefeuille se compose de groupes constitués de contratsde mêmes caractéristiques, d’âge du contrat égal et dont l’âge des assurés à été agrégé pargroupe de 5 ans.

Le processus de création des model points sera appliqué dans la suite au portefeuille de rentequi présente l’avantage d’être caractérisé par plusieurs variables contractuelles et offre donc uneplus grande richesse d’analyse.

3.3.1 Description du portefeuille

Ce portefeuille se compose de 8049 contrats d’épargne. Ces contrats sont décrits par :— les caractéristiques liées à l’assuré et au bénéficiaire : année de naissance et sexe— l’arrérage. Cette arrérage correspond à la conversion du capital accumulé (la provision

mathématique) en une rente versée annuellement pour un assuré d’âge x :

Arreragex =PM

ax=

PM∑∞k=1 px(k) 1

(1+i)k

, (3.18)

le ax représentant le capital nécessaire pour avoir une rente de 1e, le px(k) la probabilitépour un individu d’âge x de décéder dans k années et i le taux d’actualisation utilisé.

— une provision mathématique associée au contrat— une variable binaire indiquant si le contrat offre la possibilité de versement d’un capital

ou uniquement la possibilité d’une rente— un coefficient de majoration. Ce coefficient représente la proportion de la rente versée

prise en charge par l’Etat.— le type de cotisation et le taux de réversion. Pour ces deux variables on rappelle qu’elles

permettent d’obtenir des sous-portefeuilles de contrats identiques au regard de ces va-riables.

27

Pour commencer, étudions la distribution des âges des individus au sein du portefeuille. Sur lafigure 3.4 nous pouvons observer la répartition de l’âge de l’assuré principal et du bénéficiairedans le portefeuille. Sur ce graphique la ligne en pointillés représente la moyenne de l’âge desindividus sur l’ensemble du portefeuille. L’étude porte donc sur un portefeuille relativement âgépuisque cette moyenne est, pour les deux types d’individus, supérieure à 80 ans. D’autre partil est également remarquable que les bénéficiaires soient en général légèrement plus jeunes queles assurés principaux sur l’ensemble du portefeuille mais présente une forte similarité dans ladistribution des âges : le coefficient de corrélation est ainsi de 0,91.

Figure 3.4 – Répartition des ages des assurés et bénéficiaires en fonction des groupes ALM

Comme précisé dans la section 3.1, un contrat va être représenté par des probabilités de sortiedu contrat que ce soit dû à un rachat ou à un décès. Le modèle ALM suppose qu’il n’y apas de rachat pour les contrats de type rente étudiés ici. Ainsi la sortie de contrat est induiteuniquement par des décès. La probabilité de sortie sera définie dans la suite par :

psortie(t) = pDécès assuré(t)× pDécès bénéficiaire(t). (3.19)

Autrement dit il est considéré qu’il y a sortie du contrat dès lors que l’assuré et le bénéficiairesont décédés (en faisant l’hypothèse simplificatrice que ces deux évènements sont indépendants).Cette modélisation ne tient pas compte du taux de réversion : les engagements de l’assureurne sont pas les mêmes envers l’assuré principal et le bénéficiaire. Cependant les contrats étantpréalablement groupés par taux de réversion, nous négligeons cet effet. La figure 3.5 présentel’évolution de ces probabilités au cours du temps. Le saut jusqu’à 1 observable sur ce graphiques’explique par l’hypothèse faite dans le modèle ALM qu’à partir de l’âge de 106 ans l’ensembledes individus est décédé. Ce saut intervient rapidement puisque le portefeuille étudié est âgécomme on vient de le voir.

28

Ces séries de probabilités ont une tendance à la croissance avec des sauts/ irrégularités àcertaines années. Cela est dû à la structure de produit que nous avons choisi. Ces probabilitésn’étant pas considérées comme des séries temporelles dans la modélisation mais comme desvariables distinctes cela n’a pas d’incidence sur les résultats obtenus.

Figure 3.5 – Evolution de la probabilité de sortie au cours du temps de 25 contrats de rente

Une fois ces probabilités de sortie définies et avant de procéder au regroupement par l’algorithmedes k-medoids, la première agrégation explicitée dans la section 3.2.1 est réalisée. Les résultatsfigurent dans la table 3.1. Le portefeuille se divise en 14 sous portefeuilles auxquels nous feronsréférence comme étant des groupes ALM dans la suite de cette section.

Groupe alm 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sexe de l’assuré H H H H H H H F F F F F H F

Sexe dubénéficiaire F F F F F F F H H H H H F H

Versement decapital ? 0 0 0 0 1 0 0 1 0 0 0 0 1 1

Type decotisation 1 2 4 1 3 4 2 3 1 1 2 2 3 3

Intervention del’Etat ? N N O O N N O O N O O N O N

Nombre decontrat 1183 986 490 1106 170 505 919 73 1137 1078 71 80 146 105

Table 3.1 – Résultat de la première aggrégation du portefeuille de rente

29

Les variables d’intérêts que nous cherchons à modéliser sont le BE et le BEG. Ces variablesferont également parties après normalisation préalable de nos variables explicatives. La figure3.6 présente le lien entre ces deux variables pour le groupe ALM numéro 1. Afin d’avoir unélément de comparaison, la même représentation est effectuée pour le portefeuille d’épargneafin de comprendre les différences entre les deux portefeuilles.

La première remarque que l’on peut faire est que le portefeuille de rente présente plusieurscorrélations de valeur 1. Cela s’explique d’abord par le fait que le modèle suppose une absencede rachat pour les portefeuilles de rente. Par conséquent l’ensemble des scénarios de rachat estparfaitement corrélé au scénario central. En revanche la corrélation est différente de 1 entreles scénarios de BEG et de BE ce qui confirme la présence d’une participation aux bénéfices.Celle-ci est notamment visible pour le scénario action. En effet, le Best Estimate Garanti estparfaitement corrélé aux autres étant donné qu’il n’y a aucune interaction actif-passif ici. Dèslors que l’on étudie le BE le constat est tout autre : la PB dû aux dividendes versés estimpactée par ce choc et le scénario est globalement décorrélé des autres. Cela montre que leportefeuille d’actions de la société est relativement important pour les rentes. Le constat esttout autre pour l’épargne qui elle possède une composante de rachat prépondérante commele montre la décorrélation qui s’ensuit d’un scénario de rachat. En revanche la PB obtenuegrâce au portefeuille d’actions est bien moins importante : la sensibilité au scénario action estmoindre. Ce constat explique la raison pour laquelle il fut possible de modéliser le portefeuilled’épargne à partir des données de sorties du contrat c’est-à-dire exclusivement du passif tandisque l’interaction actif passif est bien plus importante pour le portefeuille de rente.

Figure 3.6 – Comparaison de la corrélation entre le BE et le BEG pour différents scénariosentre le portefeuille d’épargne (à droite) et un groupe ALM du portefeuille de rente (à gauche)

30

3.3.2 Agrégation et résultats opérationnels

L’objectif de cette partie est de brièvement illustrer le processus d’agrégation proposé puisde présenter les améliorations opérationnelles que cela apporte.

Justifions tout d’abord le choix qui a été fait d’avoir recours à un arbre de régression afinde sélectionner le nombre de classes. Pour cela l’étude du groupe ALM 1 sera faite. Pourrappel ce groupe se compose de 1183 contrats. Sur la figure 3.7, quelques indices classiques dechoix de nombre de classes sont présentés 15. Ceux-ci évaluent la qualité d’une partition donnéecorrespondant à un choix de nombre de groupes. Ici ces indices ont été calculés pour un nombrede groupes variant de 2 à 40. La ligne horizontale correspond au choix de nombre de classes quiserait fait en s’appuyant sur ces indices. Tandis que les deux premiers (silhouette et Calinsky-Harabasz) proposent une saturation du nombre de classes, l’indice de Davies-Bouldin suggèreun choix de 31. Cependant la valeur de l’indice pour un choix de 31 classes demeure éloignéede 0. Ainsi un autre choix pourrait être fait si l’indice était évalué pour un nombre de classesentre 40 et 50. Enfin l’inertie intercluster présente une décroissance lente entre 7 classes et 32classes ; il est difficile d’observer un ralentissement net de la décroissance de l’inertie ici et parconséquent de choisir un nombre de groupes par cette méthode.

Figure 3.7 – Choix du nombre de classe par des indices de qualité de clustering

D’autre part le choix de l’utilisation d’une méthode supervisée se justifie aussi par la rapiditéd’évaluation en supervisé. L’évaluation par les indices nécessite la création de la partition pourchacun des nombres de groupes proposés. Ici cela représente la création de 38 partitions maisle choix de 40 comme nombre de groupe maximum est arbitraire ; un choix plus élevé estimaginable. La méthode des arbres quant à elle créé une partition en un nombre maximal departitions du portefeuille (uniquement limité par la contrainte que tous les clusters doivent

15. Voir Section 4.2.2 pour une définition complète de ces indices

31

contenir 20 éléments à minima) avant de réduire la partition en fusionnant des sous-groupes(élagage). Cette procédure constitue un avantage d’une part en termes de rapidité mais aussipar le fait que l’algorithme établit automatiquement un choix de nombre de classes maximumdans le groupe ALM. Par exemple pour le groupe ALM 1 la partition de cardinal maximalétait de 99. La figure 3.8 constitue un zoom du graphique obtenu par l’élagage des arbres ense cantonnant aux arbres dont la pénalisation dans l’équation 3.17 est supérieure à 0.0001 :α ≥ 0.0001.

Concentrons nous à présent sur la figure 3.8. Celle-ci présente l’évolution de l’erreur relativedu groupe ALM par rapport à l’erreur totale du portefeuille. Autrement dit, soit µ1 la valeurmoyenne du BE central sur les n scénarios du groupe ALM 1 et soit µ la valeur moyenne du BEcentral sur l’ensemble des N contrats du portefeuille de rente. Nous définissons alors la variancepondérée totale du portefeuille P et du groupe ALM G qui sont les variances obtenues pourune partition en 1 classe par :

VP =∑x∈P

ωx × (BE centralx − µ)2

VG =∑x∈G

ωx × (BE centralx − µ1)2

(3.20)

Enfin nous rappelons que pour un arbre de régression en k classes, de classifieur f la variancede la partition Part s’exprime :

VPart =k∑i=1

∑xj∈Ci

ωx(f(xj)− µi)2. (3.21)

L’algorithme CART tel qu’il est implémenté dans le package rpart représente en ordonnée unpourcentage d’erreur de la partition relativement à la variance totale c’est-à-dire :

y =VPartVG

. (3.22)

Ici cette version est légèrement modifiée. En effet chaque groupe ALM ne représente qu’unepart du portefeuille totale. Certains groupes ALM représentent une valeur moins importanteque d’autres : à titre d’exemple le groupe ALM 1 représente 22% de la provision mathématiquedu portefeuille contre 0,05 % pour le groupe ALM 8. La procédure de clustering fonctionnantsur les groupes ALM indépendamment les uns des autres, il est important d’avoir une idée dela part que ce portefeuille représente réellement dans le portefeuille. Pour parvenir à ceci lareprésentation 3.22 est modifiée pour obtenir :

y =VPartVP

=VPartVG︸︷︷︸

Qualité de représentation du groupe par la partition

× VGVP︸︷︷︸

Importance du groupe dans le portefeuille

. (3.23)

La ligne en pointillés représente alors le nombre de classes à partir duquel la variance interclasseest inférieure à 0.1 % de la variance totale du portefeuille. Celle-ci est uniquement placée à titre

32

indicatif et le choix est laissé à la discrétion de l’utilisateur. Par exemple le choix qui a été faiten rapport avec la figure 3.8 est de 14 model points afin de capter la légère amélioration de lapartition entre 13 et 14.

Figure 3.8 – Sélection d’un nombre de classe par arbre de régression

Une fois le choix du nombre de classes effectué pour chaque groupe ALM les medoids sontcréés et le modèle est lancé sur ce portefeuille. Les résultats de réduction de taille et d’erreurse trouvent respectivement en table 3.2 et 3.3. La signification des codifications utilisées dansla table 3.3 se trouve à la page vi.

Rentes Epargne

Nb de lignes Espace disque (Mo) Tps calcul (min) Nb de lignes Espace disque (Mo) Tps calcul (min)


Model points 129 143 30 46 197.06 25

Réduction 98% 93% 92% 99% 96% 87%

Aggrégation naïve 1234 777 87 293 235 31

Réduction 85% 59% 81% 91% 95% 84%

Table 3.2 – Résultats opérationnels de l’aggrégation du passif

33

Model points Portefeuille naïfScénario Rente Épargne Rente ÉpargneACTION 12,7 -0,7 27 7,6

BEG_ACTION 8,5 -9,7 2,5 -25BEG_CENTRAL 8,5 -9,6 2,5 -24BEG_FRAIS 8,5 -9,5 2,3 -24BEG_IMMO 8,5 -9,6 2,5 -2,5

BEG_RACH_B 8,5 -11,2 2,5 -27,2BEG_RACH_H 8,5 -8,0 2,5 -2,3BEG_RACH_M 14,5 -6,4 -6,5 -17BEG_SPREAD 8,4 -9,8 2,5 -25,1BEG_TAUX_B 8,1 -8,3 -0,9 -25,3BEG_TAUX_H 8,2 -14,1 6,1 -22,6

CENTRAL 50,0 11,3 2,6 -3,5FRAIS 18,5 1,4 -17,1 -2,3IMMO 35,0 11,3 -12,0 -3,5

RACH_B 50,0 4,2 2,6 3,6RACH_H 50,0 3,4 2,6 1,2RACH_M 50,0 -0,1 2,6 -2,5SPREAD 17,3 10,5 -21,1 6,3TAUX_B 13,5 0,2 0,6 -5,9TAUX_H 17,9 -2,4 -1,5 -0,9

Erreur moyenne 21,1 6,1 6,2 13,7

Table 3.3 – Écart de Best Estimate observé sur un portefeuille d’épargne et de rente avec desmodel points au passif exprimé en point de base

L’observation de ces tables permet de faire plusieurs remarques :— d’un point de vue opérationnel, les model points permettent une réduction du nombre

de contrats au passif d’un facteur entre 65 et 75 selon le portefeuille ce qui résulte en untaux de compression de 98%. Ce taux de compression ne se répercute pas directementsur l’espace en mémoire et les temps de calcul. Cela est dû au fait que les calculs dumodèle ALM ne sont pas linéaires en le nombre de contrats au passif. Cependant lestaux de réduction sont de l’ordre de 90%. Par exemple, les calculs pour le portefeuillede rente passent de 460 minutes à 30 minutes pour le calcul du Best Estimate sur 10scénarios. En considérant le Best Estimate approximativement linéaire en le nombre decontrats au passif (comme en section 2.5) l’utilisation de model points permettrait de

passer de460× 500

10= 23000 minutes soit plus de 383 heures ou autrement dit 15 jours

à30× 500

10= 1500 minutes soit 25 heures. L’utilisation de model points permet donc de

passer d’un calcul inapplicable opérationnellement à un calcul pouvant s’effectuer en 1journée.

— l’agrégation par la méthode naïve permet une compression importante du nombre decontrats au passif. Cependant cette compression est bien moins efficace que celle obtenue

34

par la méthode des model points. Le temps de calcul pour le portefeuille de rente estainsi multiplié par 3 ce qui le rend bien moins utilisable opérationnellement.

— concernant les résultats d’erreur, la stratégie des model points permet d’obtenir une er-reur extrêmement faible sur le Best Estimate notamment sur les contrats d’épargne. Lesmodel points proposent de bien meilleurs résultats que l’agrégation naïve sur le porte-feuille d’épargne. En revanche l’agrégation naïve obtient de meilleurs résultats sur leportefeuille de rente. Cela est dû notamment à de meilleurs résultats sur le scénariocentral et par conséquent sur les rachats (le modèle supposant une absence de rachatdans les conditions de sortie du contrat ceux-ci sont équivalents au central). L’agglo-mération par âge de bénéficiaire permet dans le cas des rentes d’obtenir une excellenteapproximation du portefeuille complet. Cela est notamment dû à la forte corrélationqui existe entre l’âge de l’assuré et du bénéficiaire : le coefficient de corrélation étantde 0,91. Le groupement de l’âge de l’assuré est ainsi quasiment équivalent à un groupe-ment par âge de bénéficiaire et donc par probabilité de sortie. Cependant le portefeuillenaïf représente 10 fois plus de contrats que le portefeuille obtenu par des méthodesstatistiques. Il est fort probable qu’en augmentant le nombre de model points utilisés lestechniques statistiques permettraient d’obtenir des résultats au moins équivalents. Enfin,le scénario action qui représente la sensibilité de l’engagement au choc sur le portefeuilled’actions est mieux représenté par les model points ce qui confirme que l’utilisation desBest Estimate normalisés se révèle efficace pour ce portefeuille.

La technique utilisée permet ainsi d’obtenir une réduction importante du portefeuille tout eninduisant une erreur relativement faible : cette technique semble donc utilisable d’un point devue réglementaire. Les techniques statistiques utilisées proposent de meilleurs résultats qu’uneagglomération simple en fonction de l’âge des bénéficiaires.

3.3.3 Analyse des résultats

Présentons à présent les caractéristiques des model points obtenus précédemment.

Reproduction des cashflows

Le premier élément qu’il est possible d’étudier est la distribution dans le temps des cashflowsdistribués au cours du temps. Sur les figures 3.9 et B.1 sont représentés les cashflows actualisésproduits par le portefeuille complet, le portefeuille de model points et l’agrégation naïve.

De l’observation de ces figures ressortent plusieurs constats :— tout d’abord les deux portefeuilles reproduisent la trajectoire temporelle des cashflows

du portefeuille complet. En effet l’écart maximum observé est de moins de 1 million cequi représente moins de 0,1% du Best Estimate. Ce constat confirme que le choix desmodels points qui est fait reproduit à la fois le comportement global du portefeuille autravers du Best Estimate mais aussi le comportement dans le temps.

— le portefeuille naïf suit davantage la trajectoire du portefeuille complet ce qui s’expliqued’abord par le fait que celui-ci reprend plus de contrats que les model points obtenus parnotre approche. L’agrégation faite par des méthodes statistiques proposant une réduction

35

plus importante du nombre de contrats celle-ci écrête de fait les "irrégularités" telles quecelle observée sur la figure B.2 en annexe pour l’année de versement 7. Les trajectoiresproposées sont ainsi plus lisses et ne reflètent que la partie générale de l’évolution duportefeuille. Sur le portefeuille d’épargne (figure B.1) on peut constater qu’entre 0 et 6ans les cashflows versés sont sous-évalués tandis qu’au cours des 20 années suivantes cesflux sont surévalués.

Pour conclure concernant la trajectoire temporelle des model points ceux-ci reproduisent latrajectoire générale du portefeuille mais de façon moins précise que l’agrégation naïve et s’appuiesur la moyenne de l’erreur au cours du temps pour obtenir les résultats évoqués précédemment.

Figure 3.9 – Différence de cashflows actualisés du portefeuille de model points statistiquestatistique avec le portefeuille réel de rente au cours du temps

Axes de regroupement statistique

L’efficacité des model points ayant été étudiée précédemment, nous allons à présent procéderà une analyse de la façon dont est fait le regroupement de nos contrats au passif. Pour cela nousallons nous baser sur un des groupes ALM du portefeuille de rente. Les contrats étant représentéspar un nombre important de variables, ceux-ci vont être représentés dans un espace de dimensionréduite au travers d’une Analyse en Composantes Principales (ACP). Plus précisément nousallons procéder à la réalisation d’une ACP sur l’ensemble des variables explicatives utiliséesau cours du clustering pour les individus du groupe ALM 3. Les résultats de projection desindividus dans un espace de dimension 2 se trouvent sur la figure 3.10. Sur cette figure chaquecontrat qu’il soit individuel ou model point est représenté par une forme dont la taille estproportionnelle à la provision mathématique associée à ce contrat. Il est possible de s’appuyersur cette représentation puisque les deux axes représentés ici expliquent à eux deux 85% de lavariance et fournissent donc une bonne représentation de la dispersion du nuage des individus.

36

L’ACP réalisée permet de mettre en évidence une des propriétés du clustering réalisé parun algorithme k-medoid : les clusters ont des formes elliptiques. L’ensemble des individus d’unmême cluster appartiennent bien à une même zone cependant il y a un chevauchement decertains clusters notamment dans la zone centrale. Une autre remarque qui peut être faiteà l’observation de ce graphique est l’importance des poids dans notre construction du modelpoint. En effet il est remarquable que les points les plus gros au sein de chaque cluster soientdes carrés et donc des model points. Il y a bien un effet d’inertie de la provision mathématiqueimportant dans la construction des model points grâce à la pondération appliquée.

Figure 3.10 – Représentation des contrats du groupe ALM 3 dans un espace de dimension 2

Afin de mettre en évidence les variables explicatives les plus utilisées pour la classification,la table 3.4 présente la corrélation des deux axes de l’ACP avec les variables explicatives. Laprobabilité de sortie au cours de l’année i est notée pi. La lecture de la table 3.4 démontre quele premier axe est en étroite relation avec les probabilités de sortie entre 4 et 10 ans tandisque le deuxième axe représente la variance qui existe au niveau des différents scénarios de BestEstimate normalisé. Il y a donc une complémentarité entre les 2 ensembles de variables qui ontété utilisés dans notre classification.

p7 p6 p8 p10 p9 p5 p4 p13 p31 p30

Dimension 1 0.935 0.928 0.926 0.926 0.925 0.922 0.915 0.914 0.913 0.910

RACH_M p1 TAUX_H p2 RACH_H RACH_B CENTRAL FRAIS SPREAD p3

Dimension 2 0.469 0.424 0.419 0.412 0.409 0.409 0.409 0.407 0.403 0.400

Table 3.4 – Corrélation des deux premiers axes de l’ACP avec les variables explicatives

Enfin regardons comment se répartissent les variables d’intérêt et les variables caracté-ristiques au sein de nos groupes. La figure 3.11 représente la distribution de deux variables

37

caractéristiques essentielles : l’année de naissance de l’assuré et l’année d’effet du contrat. Ladistribution des années de naissance des assurés est bien distincte selon les groupes considérés.Cela semble pertinent dès lors que les prestations à verser au travers d’un contrat de rentesont liées à l’âge de l’assuré. Il est donc légitime de distinguer les contrats en fonction de cetâge puisque les Best Estimate sont définis par ces prestations. La distribution des âges desbénéficiaires n’est pas représentée ici mais la forte corrélation qui existe avec l’âge de l’assuréentraîne des distributions similaires. A l’inverse la date d’effet du contrat ne semble pas êtreprise en compte dans la classification puisque seuls 2 groupes se distinguent réellement dans larépartition des années d’effet. Cela semble de nouveau légitime puisque le modèle ALM supposequ’il n’y a pas de rachat pour les contrats de rente par conséquent la date d’effet du contratn’intervient pas dans le calcul du Best Estimate et n’y est liée qu’au travers de la corrélationqu’il y a avec l’âge de l’assurée (coefficient de corrélation de 0.36).

Figure 3.11 – Répartition des années de naissance de l’assuré et d’effet du contrat pargroupe aggrégé

D’autre part la figure 3.12 représente la distribution du Best Estimate au sein de chacundes groupes obtenus. Le constat est que chaque groupe présente des distributions distinctes àl’exception des groupes 1, 11 et 14. On retrouve notamment le groupe 1 et le 14 qui se su-perposent également dans la représentation de l’ACP de la figure 3.10. La distinction entreces deux groupes n’est donc pas optimale du point de vue de notre modèle. En revanche il estégalement notable que peu de groupes présentent des valeurs extrêmes : cela montre que chaquecontrat est globalement bien réparti par groupes.

38

Figure 3.12 – Répartition du Best Estimate Central au sein des groupes obtenus sur legroupe ALM 3

Evolution dans le temps

L’une des caractéristiques souhaitée pour les model points est la stabilité dans le temps.Le portefeuille de rente n’a malheureusement pas pu être observé dans une continuité de 2années. En revanche l’étude précédente a été réalisée sur le portefeuille d’épargne sur 2 annéesconsécutives : en 2017 et 2018. L’étude du portefeuille 2017 a été développée précédemment. En2018 le portefeuille comptait 2922 contrats soit une réduction du volume du portefeuille de 15%du portefeuille en un an. Ces portefeuilles d’épargne sont essentiellement décrits par l’année denaissance de l’assuré et l’année de début du contrat c’est donc ces variables qui doivent êtrecomparées pour constater l’évolution du portefeuille de model points.

L’étude équivalente menée précédemment aurait mené à un choix de 41model points en 2018.Pour des raisons de comparaison immédiate le nombre de model points a également été fixé à 46comme en 2017. Le portefeuille 2018 comporte ainsi 15 model points présentant la même annéede naissance de l’assuré et la même année de début du contrat soit 30% du portefeuille de modelpoints stable dans le temps. Seulement un tiers du portefeuille est stable dans le temps quandla totalité du portefeuille devrait l’être dans la réglementation IFRS 19. cependant au vu de lavariation de 15 % du portefeuille initial qui impacte certains groupes ALM et du fait qu’aucuncritère de stabilité dans le temps n’ait été utilisé, la stabilité des model points obtenus semblesatisfaisante. Il serait nécessaire d’observer l’évolution sur d’autres années mais aussi sur desportefeuilles plus complexes à décrire comme le portefeuille de rente pour pouvoir conclure àla stabilité de la méthode dans le temps.

39

4 Modélisation de l’actif

Cette section vise à continuer le processus d’agrégation des éléments de calcul du Best Esti-mate et est consacrée à la construction de model points sur le portefeuille d’actifs de l’assureur.Plus précisément cette étude porte sur les obligations, les autres actifs financiers (action, im-mobilier...) étant préalablement agrégés par l’assureur. Les obligations utilisées par l’entrepriseont des coupons annuels.

4.1 Les obligations dans le modèle ALM

On va ici présenter un raisonnement similaire à celui sur le passif pour donner l’intuitionderrière l’agrégation des obligations.

Les obligations entrent dans le calcul du Best Estimate au travers des cashflows versés aucours du temps. Ces cashflows étant actualisés et probabilisés au travers du taux d’intérêt etdu facteur de défaut.

Considérons un portefeuille composé de 2 obligations en quantité Q1 et Q2 ayant les mêmesdates de cashflows t1, ..., tn, le même risque de défaut et le même nominal N. Leurs taux decoupon respectif est noté C1 et C2. Le Best Estimate du portefeuille correspondant est alorspour un scénario F donné :

BEF0 =

n−1∑i=1

C ×N ×Q(1 + ri)ti

+(1 + C)×N ×Q

(1 + rn)n+

n−1∑i=1

C ′ ×N ×Q′

(1 + ri)ti+

(1 + C ′)×N ×Q′

(1 + rn)tn

=n−1∑i=1

(C ×Q+ C ′ ×Q′)×N(1 + ri)ti

+(Q+Q′ + C ×Q+ C ′ ×Q′)×N

(1 + rn)tn

=n−1∑i=1

(C×Q+C′×Q′)Q+Q′

× (Q+Q′)×N(1 + ri)ti

+

(1 + (C×Q+C′×Q′)

Q+Q′

)× (Q+Q′)×N

(1 + rn)tn︸︷︷︸Best Estimate d’une obligation de coupon C×Q+C′×Q′ en quantité Q+Q′

(4.1)

L’idée derrière la création de model points actifs repose sur cette propriété de linéarité. L’agré-gation de 2 obligations de caractéristiques explicitées précédemment sous la forme d’une obliga-

tion de caractéristique identique mais de quantité Q+Q’ et de couponC ×Q+ C ′ ×Q′

Q+Q′permet

d’obtenir une évaluation parfaite du BE. Ce résultat peut facilement être généralisé à un nombrequelconque d’obligations.

L’agrégation des obligations ayant exactement les mêmes caractéristiques ne permettantpas de réduire significativement la taille du portefeuille, des techniques statistiques vont êtreappliquées. La contrainte sur les dates de cashflows peut être relaxée, cependant les obligationsreprésentées par un model point doivent posséder certaines caractéristiques communes aveccelui-ci notamment au niveau du risque de défaut. Une agrégation préliminaire est réalisée afinde réunir les obligations ayant les mêmes caractéristiques suivantes :

— la classe d’obligations : elles peuvent être étatiques de l’espace économique euro-péen (ETATEEE), étatiques hors de l’espace économique européen(ETATNONEEE),publiques (SECURISEE) ou privées (PRIVEE).

40

— La notation Credit Quality Step (CQS) qui est une mesure discrète du risque dedéfaut d’un émetteur.Le CQS d’un titre est calculé en retenant la deuxième meilleurenotation déterminée par les agences reconnues par la réglementation (S&P, Moody’sInvestor Service et Fitch Ratings). Cette notation est une mesure du risque de défautd’une entreprise ; en réunissant les obligations de la sorte le problème de prise en comptedu risque de défaut disparait.

Une fois les obligations regroupées par caractéristique emprunteur, les nominaux sont norma-lisés de façon à être tous égaux comme dans le raisonnement de l’équation 4.1. Ceci est fait enmodifiant la quantité d’obligations de manière à ne pas modifier la valeur de marché correspon-dante. Il reste maintenant à agréger les obligations d’un même groupe selon leurs cashflows.

4.2 Construction de model points d’obligation

4.2.1 Étape de clustering

Soit un sous-portefeuille de n obligations xi de classe et de notation homogène devant êtrepartitionné en un ensemble de k clusters C1, ..., Ck. Comme vu dans la partie précédente l’agré-gation est parfaite dès lors que les obligations ont les mêmes dates de cashflows. Cependant afind’étudier l’impact réel des différentes obligations sur le BE, les obligations vont être représen-tées par leurs cashflows actualisés et non pas par leurs facteurs d’actualisations. Cela permetnotamment de prendre en considération la différence entre une obligation zéro-coupon et uneautre obligation. Chaque obligation est donc représentée par un vecteur de cashflows actualiséspris dans un scénario central (les obligations ayant des caractéristiques homogènes elles vontréagir de manière similaire aux scénarios de marché).

xi =

(C

(1 + r0)t0· · · 1 + C

(1 + rn)tn0 · · · 0︸︷︷︸

date au-delà de la maturité

). (4.2)

Comme pour les model points passifs, on conserve la distance euclidienne afin de mesurer ladifférence entre les contrats.

Afin d’optimiser la qualité de la partition C(k) = (Ci)1≤i≤k l’objectif va être de minimiser ladistance entre l’ensemble des obligations d’un des regroupements et l’obligation moyenne. Eneffet, il n’y a pas ici de nécessité à posséder une obligation réellement existante : celle-ci peut êtredéfinie à partir d’une moyenne pondérée des caractéristiques des individus de son groupe. Cettedistance totale s’écrit pour un nombre de classes k et un clustering associé C(k) = (Ci)1≤i≤k :

d(C(k)) =k∑i=1

∑xj∈Ci

||xj − µi||2, (4.3)

où l’individu µi est l’individu moyen représentant le cluster i. La valeur associée à une obligationau sein du portefeuille est proportionnelle à la quantité d’obligations détenue (après standar-disation du nominal). Il est donc plus important, pour conserver une bonne modélisation duportefeuille, de bien représenter une obligation contenue en grand nombre dans le portefeuille.

41

Afin de prendre cela en considération et en ne tenant compte que de l’information disponible àla date 0 (pas de ré-allocation d’actif) le poids suivant est associé à chaque individu :

ωx =Qx(0)∑x

Qx(0),

avec Qx(0) : la quantité initiale d’obligation x.

On cherche ainsi à résoudre le programme suivant :

(Ci)1≤i≤k = argmin(Ci)1≤i≤k

k∑i=1

∑xj∈Ci

ωxj||xj − µi||2. (4.4)

Autrement dit on cherche à obtenir des clusters de telle sorte qu’au sein de ces clusters la dissi-milarité entre les individus et l’individu moyen soit minimale. Il s’agit d’un problème statistiqueclassique qui se résout notamment au moyen de l’algorithme k-means.

Algorithme k-means

L’algorithme des k-means est un des algorithmes de clustering les plus utilisés. Il résoutle problème 4.4 grâce à une descente de gradient itérative. Le principe de fonctionnement del’algorithme est le suivant (Hastie et al, 2001 [16]) :

Algorithm 1 Clustering avec l’agorithme K-means1. Pour une décision de clustering (Ci)1≤i≤k donnée la variance totale est minimisée par

rapport à (µi)1≤i≤k

(µ∗i ) = argminµi

k∑i=1

∑xj∈Ci

ωxj||xj − µi||2

2. Pour un ensemble (µi)1≤i≤k donné, chaque observation est attribuée au cluster corres-pondant au centre le plus proche c’est-à-dire :

C(i) = argmin1≤j≤k

||xi − µ∗j ||2

3. Les opérations précédentes sont répétées jusqu’à ce qu’aucun changement ne soit effec-tué.

Les itérations des étapes 1 et 2 précédentes permettent de diminuer la variance totale quiest positive : la convergence du modèle est donc assurée. Cependant cette convergence peuts’effectuer vers un minimum local de la variance totale. Afin de résoudre ce problème unevariante nommée K-means ++ sera utilisée (Arthur et Vassilvitskii, 2007 [1]). La solutionapportée par cette variante est basée sur l’idée que le clustering sera de meilleure qualité sichaque cluster et par conséquent chaque centre de cluster est éloigné les uns des autres d’aprèsl’équation 3.10. Le choix des centres initiaux ne se fait donc pas aléatoirement comme dansl’algorithme k-means mais de façon à ce que des centres initiaux éloignés soient sélectionnés.

42

Plus précisément les centres initiaux sont choisis par la procédure suivante :

1. Choisir dans l’ensemble des obligations un premier centre initial avec probabilité uniforme.

2. Choisir un nouveau centre ci aléatoirement tel que la probabilité de choisir x soit :

D(x)2∑x

D(x)2,

où D(x) est la distance entre le point x et le centrele plus proche déjà sélectionné. Ainsiplus un point est éloigné des centres choisis précédemment plus sa probabilité d’êtrechoisie est élevée.

3. Répéter cela jusqu’à ce que k centres initiaux aient été choisis.

Suite à cette opération les centres initiaux sont fournis à l’algorithme k-means standard.

4.2.2 Choix du nombre de clusters

L’autre défaut majeur de l’algorithme k-means ++ est le même que celui des k-medoids : ilest nécessaire de préciser préalablement le nombre de clusters. Cela peut être un avantage si lenombre de groupes doit être décidé par l’utilisateur. Cependant, l’objectif ici est uniquement deformer de bons clusters avec un nombre minimal de groupes . Il va être nécessaire pour choisirk de se baser sur des critères de qualité de la partition pénalisant un choix élevé de nombre degroupes. Un grand nombre d’indicateurs a été proposé dans la littérature.

Le premier indicateur est le plus évident : la variance pondérée définie par l’équation 4.4. Ilest légitime de regarder cet indicateur dès lors qu’il s’agit de la fonction objectif. L’idée est dechercher le nombre de groupes à partir duquel cette variance atteint un plateau : c’est ce qu’onappelle la règle du coude. Le principal défaut de cette méthode est qu’il n’existe pas de règleprécise de choix en termes de maximisation ou de minimisation. Le choix est à la discrétion del’utilisateur. Afin d’automatiser la procédure, trois autres critères vont être présentés mais lavariance pondérée constitue malgré tout un excellent benchmark.

Le second indicateur a été introduit par Calinsky et Harabasz en 1974 [4]. Il se définit pourun nombre de groupes k par :

CH(k) =WBCI(k)

WWCI(k)× n− kk − 1

WBCI(k) =k∑i=1

∑x∈Ci

ωx||µi − µ||2 (4.5)

WWCI(k) =k∑i=1

∑xj∈Ci

ωxj||xj − µi||2

Cet indicateur n’est pas défini pour une partition en un seul groupe. Il pénalise l’ajout d’une

nouvelle classe par le facteur multiplicatifn− kk − 1

qui est décroissant en k. Le nombre optimal degroupes est celui qui maximise le critère CH. Cela s’interprète facilement puisqu’une bonne par-tition se caractérise par une variance intraclasse (WWCI(k)) faible et une variance interclasse

43

élevée (WBCI(k)).

Un autre indice classique pour trouver le nombre de clusters d’une partition est l’indice deDavies-Bouldin (Davies-Bouldin, 1979 [19]). Cet indice prend en compte la distance moyenne

des individus d’un cluster à l’individu moyen du cluster : δk =1

|Ck|∑i∈Ck

||xi − µk||2

et s’exprime sous la forme suivante :

SDB =1

K

K∑k=1

maxk′ 6=k

(δk + δk′

||µk − µk′||2

). (4.6)

Cet indice étudie pour chaque cluster obtenu le cluster le plus similaire du point de vue de

la mesure de similarité(

δk + δk′

||µk − µk′||2

). En effet si la similarité est élevée cela peut signifier

soit que les 2 clusters sont très proches soit que les points d’un des clusters sont éloignés deson centre. Dans les deux cas la partition sera de mauvaise qualité. Le score de Davies-Bouldinvarie entre 0 pour une partition parfaite à +∞ pour une partition de très mauvaise qualité ; ildoit donc être minimisé pour obtenir la meilleure partition possible.

Enfin un dernier critère communément utilisé pour le choix du nombre de groupes est lecritère de silhouette introduit par Kaufman et Rousseeuw (1990 [17]). Celui-ci se définit pourchaque individu par :

s(i) =b(i)− a(i)

max (a(i), b(i))(4.7)

où a(i) est la distance moyenne entre l’individu i et les autres points de son groupe et b(i)est la distance moyenne entre i et les points situés dans le cluster le plus proche du sien. Uneobligation sera bien classée si sa silhouette est proche de 1 puisque cela signifie que b(i) a(i)

et donc que le point est très proche de son cluster comparativement au cluster voisin. Ainsi lenombre k à choisir est celui qui maximise la silhouette moyenne de tous les individus.

4.2.3 Agrégation des obligations

Une fois le partitionnement réalisé selon la méthode précédente, il ne reste plus qu’à créerle représentant du groupe. Pour cela on s’appuie sur le raisonnement de l’équation 4.1. Lereprésentant se voit ainsi attribuer les caractéristiques communes à toutes les obligations de songroupe, un taux de coupon défini comme la moyenne pondérée par les quantités d’obligationsdes taux de coupons, une quantité égale à la somme des quantités. L’année de maturité del’obligation a été définie comme une moyenne pondérée des années de maturité de toutes lesobligations arrondie.

4.3 Résultats

4.3.1 Améliorations opérationnelles

La méthodologie présentée dans la partie précédente va à présent être appliquée à un porte-feuille réel d’obligations correspondant à un portefeuille d’épargne composé de 626 obligationsdifférentes. Afin de diminuer les temps de traitement, l’ensemble des calculs de Best Estimate a

44

été réalisé en confrontant le portefeuille d’actifs au portefeuille passif de model points obtenusdans la section précédente.

Avant de réaliser l’agglomération des obligations on procède à une première agglomérationen fonction des caractéristiques du contrat. Les résultats de cette 1ere étape se trouvent dansla table 4.1. On remarque qu’on observe au total 19 groupes différents mais que la répartitiondes actifs est très hétérogène. Notamment les obligations de la classe privée représentent 95 %des obligations du portefeuille.

Notation CQSType d’obligation ETATEEE ETATNONEEE PRIVEE SECURISEE PUBLIC Total

0 2 1 0 5 81 7 1 17 7 322 1 0 98 2 1013 1 0 202 2 2054 0 0 45 0 455 0 0 23 0 236 1 0 3 0 47 0 0 204 4 208

Total 12 2 592 20 626

Table 4.1 – Composition des sous-portefeuilles après la première aggrégation par typed’obligation

Pour la suite l’étude portera sur le sous-portefeuille composé des obligations privées de notationCQS 7. Ce sous-portefeuille possède les caractéristiques suivantes :

Coupon Quantité d’obligation Duration Année de maturitéMinimum 0.0000 0.2005 1.000 20191er quartile 0.0038 2.3037 3.000 2021Médiane 0.0150 5.5706 4.303 2022Moyenne 0.0175 17.2008 4.744 2022

3ème quartile 0.0250 12.2968 5.552 2023Maximum 0.0750 520.1723 21.000 2027

Table 4.2 – Description des obligations du sous portefeuille étudié

Sur la figure 4.1 se trouve l’évolution des différents indices définis en section 4.2.2. Lacourbe tracée en pointillés correspond au choix de k pour chacun des indices. L’indice deCalinsky Harabasz est globalement croissant par rapport au nombre de classes choisi. Celapeut notamment s’expliquer par une pénalisation insuffisante du nombre de classes choisi dansce critère. Ce dernier est écarté pour le choix du nombre de clusters.

Les indices de silhouette et de Davies Bouldin s’accordent eux en revanche quant au choixd’un nombre de clusters égal à 12. Le choix d’un nombre de clusters basé sur l’inertie expliquées’appuie sur la règle du coude consistant à choisir le k à partir duquel la courbe d’inertieexpliquée forme un coude et donc la part d’inertie intercluster supplémentaire résultant de

45

l’ajout d’une nouvelle classe diminue. Cette règle entraînerait le choix de 9 clusters ; cependantla confrontation avec les deux autres indices et le fait que la variance intercluster soit minimalepour un choix de 12 clusters nous permet de sélectionner 12 clusters pour le partitionnementdu portefeuille. Notons également que la partition est de très bonne qualité dans ce cas puisquel’indice de silhouette est proche de 1 (0.95) et que l’indice de Davies Bouldin est proche de

0 (0,08). D’autre part le choix de 12 clusters permet d’obtenir une réduction de204− 12

204=

94, 11%.

Figure 4.1 – Résultats des différents indices pour le choix de classe du sous portefeuillePrivée CQS 7

Une fois notre algorithme appliqué à l’ensemble des sous-portefeuilles, le portefeuille d’obli-gations restantes se limite à 96 obligations soit une réduction de 84, 6% de la taille du porte-feuille. Les erreurs relatives en point de base (1 bp=0,01%) sur les BE et BEG résultant del’agglomération se trouvent dans la table 4.3 :

Scénario ACTION CENTRAL FRAIS IMMO RACH_B RACH_H RACH_M SPREAD TAUX_B TAUX_H

BE −10, 5 −6, 2 −0, 19 −6, 2 −12, 8 −1, 0 −0, 61 8, 1 −0, 17 −6, 6

BEG 0, 11 −0, 23 −0, 26 −0, 23 −2, 0 0, 32 0, 33 7, 9 −0, 48 −1, 5

Table 4.3 – Erreur relative sur le calcul du Best Estimate en utilisant le portefeuille de modelpoints

L’erreur obtenue est relativement faible sur l’ensemble des scénarios. La faible erreur ob-servée sur le BEG s’explique par la prise en compte des frais de placement qui sont impactéspar l’utilisation du portefeuille d’obligations restreint. On peut regarder plus précisément lecomportement du portefeuille d’obligations au cours du temps pour isoler l’effet que celui-ci

46

peut avoir sur la valeur du Best Estimate. L’évolution de la valeur de marché au cours du tempsdans le scénario central et dans un scénario de spread se trouve dans la figure 4.2. On remarqueque l’évolution des portefeuilles est très similaire. Bien que la valeur de marché soit légèrementsurestimée lors du scénario de risque de spread avec notre portefeuille de model points, nouspouvons considérer que ce risque est suffisamment pris en compte grâce à la première agrégationen sous-portefeuille.

Figure 4.2 – Evolution de la valeur de marché du portefeuille de référence et model points aucours du temps

Enfin, regardons l’effet qu’a eu notre agrégation sur le temps de traitement du calcul du BE :

Epargne Retraite

Nb de lignes Espace disque(Mo) Tps calcul (min) Nb de lignes Espace disque(Mo) Tps calcul (min)


Model points 96 35 18 129 89 24

Ecart relatif −85% −76% −28% −82% −55% −20%

Table 4.4 – Résultats opérationnels model points actifs

Les résultats sont probants puisqu’on peut constater un gain de temps de 28 % dans lestemps de calcul correspondant à 6-7 minutes de gagner pour un calcul sur les 8 scénarios déter-ministes considérés dans la table 4.3. Ce gain réalisé sur 500 scénarios pourra considérablementaccélérer le processus d’évaluation du Best Estimate stochastique. De plus, le gain de place enmachine est encore plus important puisque l’espace nécessaire au stockage est réduit de moitiévoire aux trois quarts. De nouveau la transposition à un grand nombre de scénarios diminueraconsidérablement la place en machine nécessaire.

47

4.3.2 Limites

Cependant une analyse plus approfondie du résultat de l’agrégation effectuée sur un sous-portefeuille révèle une correspondance exacte entre l’appartenance à un groupe et l’année dematurité de l’obligation. Ainsi l’algorithme se contente de réunir les obligations en fonctionde leurs maturités. Le sous-portefeuille constitué de 11 maturités différentes est groupé en 11groupes distincts. Ce constat peut s’expliquer par plusieurs choses :

— la modélisation des actions et leur part dans le calcul du Best Estimate sont plus aiséesà modéliser que ne l’était celle du passif,

— les taux d’intérêt étant extrêmement faibles actuellement les facteurs d’actualisation de2 cashflows délivrés la même année sont très similaires. Ainsi la dissimilarité entre 2obligations provient principalement de la différence de maturité puisque les cashflowsau-delà de la maturité sont fixés à 0 et marquent donc un réel changement entre deuxobligations.

Afin d’éviter la prépondérance de la différence de maturité, une autre distance pourrait êtreutilisée comme la distance de Manhattan qui pénalise moins les grandes distances. Une pon-dération particulière pourrait également être utilisée pour tenir compte de cette différence dematurité.D’autre part un autre choix de classes plus restrictif pourrait être fait. Sur la figure 4.1 l’inertieinterclasse suggérait un choix de 9 classes tandis que l’indice de silhouette et de Davies Bouldinatteignait un extremum local en cette valeur. Il serait donc possible de choisir 9 model points.Cependant ce choix risquerait de faire augmenter l’erreur réalisée tandis que le gain opérationnelserait négligeable.

Enfin d’autres méthodes de clustering pourraient être testées sur le portefeuille. Cependantle taux de compression et la diminution du temps de calcul obtenue par cette stratégie étantsatisfaisante d’un point de vue opérationnel sur notre portefeuille, ces stratégies n’ont pasété explorées. Notons que sur d’autres portefeuilles d’obligations comportant par exemple desobligations à coupon semestriel, la méthode d’agrégation pourrait se révéler plus pertinente.

48

5 Clustering des scénarios économiques

Cette section s’intéresse à l’optimisation du calcul du Best Estimate stochastique. Plus par-ticulièrement l’objectif est d’obtenir un ensemble de scénarios économiques réduit permettantde répliquer l’ensemble complet au sein du modèle ALM. Un scénario économique se décomposeen plusieurs évolutions de variables économiques :

— un cours d’action— un cours d’immobilier— un cours d’inflation— 50 variables de taux zéro-coupon forward. Chaque variable correspond à une année de

taux zéro-coupon en vigueur au cours d’une des 50 années de projection.La suite de cette section porte sur la création de model points sur un échantillon initial de 500scénarios économiques. L’intégralité des variables économiques représentant un ensemble de 53projections de 50 ans il est nécessaire de réduire le nombre de variables à étudier au cours dela création des model points. Les figures 5.1, 5.2 et 5.3 représentent les 3 variables économiquesrésumant les comportements essentiels du scénario : l’action, l’inflation et les taux forward 1an. En effet la variable immobilière étant généré selon le modèle 2.7 tout comme l’action et lesautres variables de taux forward étant généré selon le même modèle que le taux forward 1 an,ces variables n’apportent pas d’informations sur le type de comportement à étudier.

Figure 5.1 – Evolution du cours d’action des 500 scénarios économiques étudiés

La figure 5.1 montre que les scénarios actions proposent des schémas bruités ainsi que desscénarios extrêmes. En revanche le scénario inflation présente un comportement relativementlisse. De plus, l’inflation étant utilisée uniquement dans le calcul des frais uniquement, celle-ci a donc un effet secondaire. Ce scénario sera donc négligé lors du clustering et sera agrégéselon la partition obtenue sur d’autres variables. Enfin concernant les taux ceux-ci ont des

49

comportements extrêmement similaires. La différence de comportement étant invisible à l’oeilnu et quasiment inexistante dans les faits, l’ensemble des grandeurs de taux est retiré desvariables utilisées pour le clustering. Finalement le regroupement des scénarios va être fait ens’appuyant sur les cours d’action et d’immobilier.

Figure 5.2 – Evolution de l’inflation des 500 scénarios économiques étudiés

Figure 5.3 – Evolution du taux forward 1 an des 500 scénarios économiques étudiés

L’une des principales difficultés liée à la création d’un model points de scénarios économiquesest le comportement asymétrique des portefeuilles action et immobilier au sein du modèle. Dansla suite le cours et le rendement de l’action à l’instant t seront notés St et rt .

50

On distingue 2 cas :— si St > St−1 alors la valeur de marché investie en action reste constante (avant la pé-

riode d’investissement) et la plus value réalisée est matérialisée par le versement d’undividende.

— dans le cas contraire il n’y a pas de versement de dividende sur la période mais la valeurde marché du portefeuille action est impactée par la baisse de S.

Dès lors il est possible (d’un point de vue théorique) de réaliser une agrégation parfaite desscénarios économiques dès lors que chaque scénario groupé a exactement le même compor-tement à chaque période. Sachant que les scénarios sont projetés sur 50 ans, cela représente250 comportements possibles pour le scénario action ainsi qu’immobilier soit 251 réalisationspossibles. Il est donc légitime de supposer que chacun des scénarios considérés est distinct etqu’une agrégation parfaite est impossible.

Afin de réaliser les model points de scénarios économiques il va donc être nécessaire :— de réaliser un clustering des scénarios économiques en fonction de leurs comportements

(cluster de volatilité, scénario extrême...). Si deux scénarios ont des comportements dif-férents sur une période alors il y a perte d’information : si l’un croit et l’autre décroîtle scénario moyen prendra en compte un seul des mouvements. Comme explicité précé-demment une telle perte est inévitable mais l’objectif est de la minimiser.

— de proposer une méthode d’agrégation des groupes précédemment réalisés afin de répli-quer au mieux les versements de dividende et les baisses dans la valeur de marché dugroupe.

Pour atteindre ces deux objectifs cette partie propose de s’appuyer sur les réseaux de neuronespour apprendre d’une part une autre représentation des scénarios économiques mais aussi deproposer un méta-modèle approximant la valeur de marché qui sera nécessaire au cours del’agrégation. La première partie propose ainsi une introduction aux réseaux de neurones quiseront utilisés par la suite.

5.1 Réseaux de neurones

Les réseaux de neurones sont des méthodes d’apprentissage profond (Deep Learning) etont permis d’obtenir de grandes avancées dans la reconnaissance d’image ou encore dans latraduction automatique du langage. Cette section présente les éléments théoriques utiles à ladéfinition des réseaux de neurones en s’inspirant notamment de l’ouvrage de Goodfellow et al,2016 [14].

5.1.1 Les réseaux de neurones à propagation avant

Les réseaux de neurones profonds à propagation avant aussi appelés perceptrons multi-couches (PMC) sont les modèles de base de l’apprentissage profond. Afin de présenter lesdifférents termes liés à l’utilisation des réseaux de neurones nous allons nous appuyer la repré-sentation d’un réseau de neurones de la figure 5.6.

L’objectif de ces algorithmes d’apprentissage est d’approximer une fonction de la forme y =

f(x), comme en apprentissage automatique. Le terme de réseau provient de la représentation qui

51

en est faite en agençant à la suite des fonctions différentes associées à des couches successives.

Le terme de neurone provient du parallèle qui existe entre le fonctionnement de l’unité debase du réseau de neurones, le perceptron, et la cellule nerveuse. En effet, un perceptron telque h1 ou hp sur la figure 5.6 peut se définir par :

— un espace d’entrée ici X = Rn,— un espace de sortie Y qui sera toujours R dans le cadre de cette étude mais qui ne s’y

restreint pas nécessairement,— un vecteur de paramètres w1, ..., wp ∈ Rn,— un paramètre de biais scalaire θ1 dont on peut faire l’analogie avec une ordonnée à

l’origine pour une régression linéaire,— une fonction d’activation ici φ : R→ R. Cette fonction doit vérifier certaines propriétés

de régularité pour idéalement être saturante comme dans le théorème 5.1.Un perceptron peut ainsi être assimilé à une fonction définie par :

f(w,θ) :

X → Y

x → φ( twx+ θ)(5.1)

La table 5.1 propose une liste non exhaustive des fonctions d’activation définies sur R quisont communément utilisées dans la définition des perceptrons. La figure 5.4 représente cesdifférentes fonctions d’activation :

Fonction Définition Image

Linéaire x→ αx, α ∈ R R

Unité de rectification linéaire : Relu x→

x, x ≥ 0

0, x < 0R+

Relu Paramétrique x→

x, x ≥ 0

α× x, x < 0R

Tanh x→ tanh(x) [−1, 1]

Unité Exponentielle Linéaire : Elu s→α (ex − 1) , x < 0

x, sinon ]−α,+∞[

Logistique x→=1

1 + e−x]0, 1[

Table 5.1 – Liste de quelques fonctions d’activation usuelles

52

Figure 5.4 – Visualisation de quelques fonctions d’activation classiques

Un perceptron permet de représenter des modèles de régression classiques comme la régres-sion logistique. Dans ce modèle on définit la fonction :

g(x) =exp( twx+ θ)

1 + exp( twx+ θ), x ∈ Rp, w ∈ Rp, θ ∈ R. (5.2)

L’objectif est de prédire une étiquette y à partir de cette fonction. Or celle-ci peut être reproduitepar un perceptron de biais θ, de vecteur de paramètre w et de fonction d’activation

φ :

R → R

x → ex

1 + ex

qui n’est autre que la fonction d’activation logistique.

Les perceptrons permettent donc de reproduire de nombreux modèles. Cependant ces per-ceptrons possèdent des limites dont l’exemple le plus répandu est l’apprentissage du OU exclusif(XOR). Pour illustrer cela on considère cette fonction dans un espace d’entrée X = 0, 12 dé-finies selon le graphique suivant :

x2

x10

0

1

1

0 1

01

Figure 5.5 – Représentation graphique du ou exclusif en 2 dimensions

53

Cette fonction très simple propose des données non linéairement séparables c’est-à-dire qu’ilest impossible de les séparer par un hyperplan (ici une droite). C’est également une des limitesdes modèles linéaires : il n’y a pas de prise en compte de l’interaction entre les variables telleque celle imposer par le ou exclusif. Notons que certains modèles d’apprentissage classique telsque les arbres de régression auraient pu aisément reproduire cette fonction très simple.

Afin de prendre en compte l’interaction qu’il existe entre les différents variables nous allonsintroduire les réseaux de neurones multicouches.

Définition 5.1. Soit L un entier naturel et N1, ..NL des entiers strictement positifs. On ditque g : Rp → Rk est un réseau de neurones à L couches cachées s’ils existent :

— des matrices W 0, ...,WL

— des vecteurs θ1, ..., θL+1

— des fonctions d’activations φ1, ..., φL+1

tels que :g(x) = φL+1(( t(WL) · φL( t(WL−1 · ...+ θL) + θL+1). (5.3)

Cette définition peut s’écrire sous forme récursive :

hha0 = xzl+1 = t(W l)al + bl+1

al+1 = φl+1(zl+1)l = 0, ..., L,

hhy = aL+1

(5.4)

La définition formelle précédente suppose que chaque élément présenté possède une di-mension adéquate à la définition du réseau de neurones. Concrètement un réseau de neuronesmulticouches est une succession de couches chacune associée à une fonction d’activation donnéeet dont la sortie de l’une constitue la donnée d’entrée de la suivante. Le réseau de la figure 5.6constitue un exemple de réseau de neurones à une couche cachée, les notations sont celles de ladéfinition 5.1. Le réseau de neurones se définit alors comme :

G(x) = f2(f1(x)). (5.5)

Dans l’équation 5.5 les fonctions f1 et f2 sont les fonctions de transfert associées à chacune descouches successives du réseau. Pour un réseau de neurones multicouches on définit la profondeurdu modèle L ∈ N comme le nombre de couches composant le réseau. La fonction ou exclusifétudiée plus haut peut être évaluée facilement à l’aide d’un réseau de neurones à 1 couchecachée [14].

54

......

φ( tw1 · x + θ1)

φ( twp · x + θp)

p∑i=1

αiφ( twi · x + θi)

x1

x2

x3

xn

h1

hp

G(x)

w11

w21

w31

w1pw

2pw3p

w np

wnp

α11

αp1

Couched’entrée

Couchecachée

Couchede sortie

f1 :

Rn → Rpx1...xn

→

φ( tw1 · x + θ1)...

φ( twp · x + θp)

f2 :

Rp → Rφ( tw1 · x + θ1)...

φ( twp · x + θp)

→ G(x)

Fonction d’activation : φ1 = φ

Biais : θ1 =

θ1...θp

Fonctiond’activationφ2(x) = xθ2 = 0

Figure 5.6 – Représentation d’un réseau de neurones à une couche cachée composée de pneurones avec n entrées et 1 sortie

L’intérêt des réseaux de neurones multicouches peut être explicité par le résultat suivantvalable dès lors que le réseau de neurones possède une couche cachée. La qualité d’approximationdes réseaux de neurones multicouches a été démontrée en 1989 par Cybenko [7] :

Théorème 5.1. Soit In = [0, 1]n et φ une fonction continue discriminante (toute fonctionbornée et mesurable l’est) alors la fonction G définie par :

G(x) =

p∑i=1

αiφ( twix + θi) (5.6)

est dense dans l’espace des fonctions définies sur In. Ainsi ∀f ∈ C(In) et ε > 0 il existe G dela forme 5.6 tel que :

|G(x)− f(x)| < ε, ∀x ∈ In. (5.7)

Or la fonction G peut être définie par un réseau de neurones à une couche cachée de fonctiond’activation φ. Dès lors le résultat précédent permet de dire que toute fonction de C(In) peut

55

être approchée uniformément, avec une précision arbitraire, dans un domaine fini de l’espace deses variables, par un réseau de neurones comportant une couche de neurones cachés en nombrefini, possédant tous la même fonction d’activation, et une couche de sortie linéaire telle quedécrit par la figure 5.6.

Ce théorème ne précise cependant rien quant au choix de la fonction φ et la plupart desréseaux de neurones proposent d’ajouter plus de couches cachées afin d’enrichir la modélisationbien qu’aucun résultat théorique n’ait pu être établi pour un nombre de couches cachées supé-rieur à 1. Les résultats empiriques démontrent cependant que l’augmentation de la profondeurdu réseau tend à améliorer la précision sur la base de test 16.

Un réseau de neurones constitue un modèle semi-paramétrique puisque les fonctions d’ac-tivation à utiliser sont à déterminer par l’utilisateur. Les paramètres optimisés par le modèlesont les θ = Wl,θl+10≤l≤L. Par la suite la fonction associée au réseau de neurones sera notéeFθ.

Apprentissage du modèle

Nous allons ici présenter le principe de fonctionnement de l’apprentissage d’un réseau deneurones. La première étape permettant d’entraîner un réseau de neurones est la définition d’unefonction de perte l afin d’évaluer la précision du réseau. Lors de la définition de cette fonctionde coût il n’est pas tenu compte d’éventuelles normalisations afin d’éviter le sur apprentissage.Les réseaux de neurones étant par la suite utilisés à des fins de régression, la fonction deperte choisie est la fonction de perte quadratique ; d’autres choix de fonction peuvent êtrefaits pour résoudre des problèmes différents. Pour une base d’apprentissage de taille n ∈ N∗ :(xi, yi)1≤i≤n ∈ (X × Y)n et une architecture de réseau donnée, le problème à résoudre s’écritalors :

θ∗ ∈ argminθ=Wi,θi+10≤i≤L

1

n

n∑i=1

(yi − Fθ(xi))2︸︷︷︸Ln(θ)

= argminθ=Wi,θi+10≤i≤L

1

n

n∑i=1

Lin(θ). (5.8)

Cette minimisation est un problème statistique classique du même type que ceux posés dansl’équation 3.14 et 4.4. La résolution de ce problème se fait communément par la méthode de ladescente de gradient. En notant γk la valeur du pas de contrôle à l’itération k, W est obtenuitérativement en résolvant :

θ(k+1) ← θ(k) − γk∇Ln(θ(k)), (5.9)

où ∇Ln est le gradient de Ln. Dans la suite, seule la procédure de calcul du gradient des poidssera développée pour ne pas alourdir les explications. Dès lors l’équation 5.9 peut se réécriresous la forme terme à terme suivante :

W k+1h,(m,n) ← W k

h,(m,n) − γk1

n

n∑i=1

∂Lin(θ)

∂Wh,(m,n)

, (5.10)

16. [14] p.198

56

où Wh,(m,n) est le terme (m,n) de la matrice de poids de la hime couche.Deux problèmes peuvent apparaître lors de l’application de cette méthode :

1. le calcul de ∇Ln est complexe dû à la dépendance de Fθ en θ,

2. Pour des n élevés , le calcul de ∇Ln peut être extrêmement couteux et entraîner destemps de calcul trop élevés.

Afin de résoudre le premier problème il est nécessaire d’avoir recours à un algorithme nommérétropropagation. Celui-ci est basé sur la règle de dérivation à la chaîne :Soit x ∈ Rm, y ∈ Rn, g : Rm → Rn et f : Rn → R. Si y = g(x) et z = f(y) ie z = f(g(x))

alors on a le résultat :

∂z

∂xi=∑j

∂z

∂yj× ∂yj∂xi⇔ ∇xz = t

(∂y

∂x

)∇yz, (5.11)

où∂y

∂xest la matrice Jacobienne de g. L’application de ce résultat s’étend aisément à des

tenseurs de dimension arbitraire quitte à aplatir les tenseurs afin de les obtenir sous formevectorielle.

En se basant sur le résultat 5.11 il est possible de calculer∂Lin(θ)

∂Wh,(m,n)

récursivement en

passant d’une couche à l’autre du réseau. Afin d’expliciter l’algorithme, les notations suivantessont utilisées :

— on considère un réseau de profondeur l ∈ N∗,— pour chaque couche k ∈ J1, lK on note pk le nombre de neurones présents dans la couche,

ykij, 1 ≤ i ≤ pk, 1 ≤ j ≤ pk+1 la sortie du neurone i de la couche k vers le neurone j de lacouche k+1,

— chaque couche est décomposée entre une opération linéaire faisant intervenir les poidset une opération d’application de la fonction d’activation. Le résultat intermédiaire estnoté xki pour le ime neurone de la couche k.

L’ensemble des notations est repris sur un exemple de réseau de neurones à 2 couches cachéessur la figure 5.7 illustrant le fonctionnement de la rétropropagation. L’idée essentielle de larétropropagation est de diviser une dépendance complexe d’une fonction à une variable en unesérie de dépendances simples de variables successives. La figure 5.7 illustre ce principe de décom-position pour le calcul du gradient relativement à un poids de la dernière couche. Le principe estle même pour l’ensemble du calcul des poids ; la seule subtilité à prendre en compte est de biendistinguer l’ensemble des chemins de dépendance de la fonction de perte à une variable. Cettedépendance multiple est alors prise en compte grâce à la formule de dérivation à la chaîne del’équation 5.11. Ainsi la dépendance de la perte à la variable W1,(1,1) est repérée par les flèchesen rouge sur la figure 5.7.

L’algorithme complet de rétropropagation pour un réseau de neurones multicouches entiè-rement connecté est détaillé dans l’algorithme 2.

57

x1

x2

φ1

φ1

Σ

Σ

Σ

Σ

Σ

Couchecachée 2

φ2

φ2

φ2

Σ φ3 y Lnx31

y111

y 112

y 113

y1

21y122

y123

y 213

y223

y2

33

x11

x12

x21

x22

x23

Couchecachée 1

Couched’entrée

Couchede sortie

∂Ln∂y

∂y

∂x31

∂Ln∂x31

=∂y

∂x31× ∂Ln

∂y

∂Ln∂W3,(1,1)

=∂x31

∂W3,(1,1)

× ∂Ln∂x31

∂x31∂W3,(1,1)

Figure 5.7 – Algorithme de rétropropagation

Algorithm 2 Algorithme de rétropropagation1. Calculer le gradient de la fonction de perte par rapport à la prédiction :

g← ∇yLn(θ) = t

(∂Ln(θ)

∂y1

· · · ∂Ln(θ)

∂ypl

)2. Pour k=l,l-1...,1 faire :

? Calculer le gradient de la fonction de perte en fonction de l’activation de la k-ièmecouche :

g← ∇xkLn(θ) = t

(∂Ln(θ)

∂xk1· · · ∂Ln(θ)

∂xkpk

)= t

(g1 × ′φk(xk) · · · gpk × ′φk(xk)

)? Calculer le gradient selon le biais et les poids :

∇b(k)Ln(θ) = g

∇W (k)Ln(θ) = g ty(k−1)

Ces deux gradients peuvent être utilisés pour mettre à jour les poids et les biais.? Propager le gradient à la couche précédente en calculant :

g← ∇h(k−1)Ln(θ) = tW kg

58

Le second problème qui a été évoqué précédemment est le problème du coût de calcul pourun nombre d’observations important. L’étude étant limitée à 500 scénarios maximum cela nepose pas de difficultés a priori. Cependant nous allons présenter la méthode des minis batchscouramment utilisée dans l’apprentissage de réseaux de neurones. L’idée est de considérer nonpas l’intégralité des données lors de la mise à jour mais des sous-ensembles de la base d’en-trainement. L’échantillon est partitionné en bloc B1, ..., BM de sorte que chaque bloc comporteenviron

n

Méléments. L’algorithme considère alors tour à tour chaque bloc de données et met

successivement à jour les paramètres. L’équation de mise à jour 5.10 devient alors :

W k+1h,(m,n) ← W k

h,(m,n) − γk1

card(Bj)

∑i∈Bj

∂Lin(θ)

∂Wh,(m,n)

, 1 ≤ j ≤M. (5.12)

Lorsque l’ensemble des données a été utilisé après M mises à jour on dit qu’une époque d’en-trainement a été achevé. Cet algorithme a tendance à mieux performer sur des échantillonsqu’il ne connaît pas car celui-ci n’a qu’une version bruitée du gradient à sa disposition ce quile rend moins susceptible de surapprendre.

5.1.2 Les réseaux de neurones convolutifs

L’objectif de cette partie et de la suivante n’est pas de présenter en détail les élémentsthéoriques liés aux réseaux convolutifs ou récurrents mais d’expliciter le principe de fonction-nement de ces réseaux. Les réseaux de neurones convolutifs sont très similaires aux réseaux deneurones développés précédemment dans le sens qu’ils utilisent des fonctions d’activation etoptimisent des poids grâce à l’algorithme de rétropropagation. La différence cependant est queles couches successives ne sont pas entièrement connectées comme précédemment mais certainspoids sont égaux ou valant 0. Cette différence est résumée dans la figure 5.8 où chaque couleurde connexion est associée à un poids dans la couche de convolution. Le changement au niveaudes matrices de transition est retranscris sur la même figure. L’un des paramètres à choisirlors du paramétrage d’un réseau de neurones convolutif est la taille du filtre : dans l’exempleci-dessous le filtre est de taille 4.

59

FiltreNoyau deconvolution

tW =

w11 w21 w31 w41 w51 w61

w12 w22 w32 w42 w52 w62

w13 w23 w33 w43 w53 w63

Convolution⇒ tW =

w1 w2 w3 w4 0 0

0 w1 w2 w3 w4 0

0 0 w1 w2 w3 w4

Convolution

Figure 5.8 – Différence entre une couche entièrement connectée et une couche de convolution

L’avantage des réseaux de neurones convolutifs est qu’en limitant le nombre de paramètresà optimiser le temps d’apprentissage et le risque de sur apprentissage sont réduits. Ils sontgénéralement suivis d’une couche de pooling (respectivement upsampling) réalisant un sous(respectivement sur) échantillonnage et permettant de diviser par deux (respectivement dedoubler) la taille des données. Plus précisément les réseaux de neurones utilisés par la suiteauront recours à une couche de max Pooling illustrée en figure 5.9.

7 9 3 5 9 4

0 7 0 0 9 0

5 0 9 3 7 5

9 2 9 6 4 3

2× 2 max pooling

9 5 9

9 9 72

2

Figure 5.9 – Exemple d’opération de Maxpooling

5.1.3 Les réseaux de neurones récurrents

Les réseaux de neurones récurrents (RNN) sont particulièrement adaptés au traitement età l’étude des séries temporelles. Jusqu’ici les réseaux proposés n’incluaient aucune interactionentre les neurones des couches cachées. Les réseaux de neurones récurrents proposent eux d’avoirdes données triées temporellement et de faire découvrir successivement les données associées àchacune des périodes de temps.

60

Définition 5.2. Soient n, k, p ∈ N, (xt)0≤t≤m,xt ∈ Rn une suite de données temporelles,W ∈ Mk,n, Wh ∈ Mk,k, O ∈ Mp,k et h−1 ∈ Rk. Un réseau de neurones récurrent vanille defonction d’activation φ se définit alors par la dynamique :

ht = φ (Wxt +Whht−1)

yt = Oht

où ht ∈ Rk désigne l’état de la couche caché au temps t. Ces réseaux peuvent être visualiséspour une itération au temps t en figure 5.10.

(x1)t

(x2)t

(x3)t

(x4)t

W

Wh

O

Couchecachéeà t-1

Couchecachéeà t

Couchede

sortie

Couched’entrée

yt

Figure 5.10 – Exemple de réseau de neurones récurrents

Le principal défaut de ces réseaux de neurones récurrents vanille est qu’en pratique ils ne semontrent pas capables de prendre en compte la dépendance de long terme entre les variables.Ce constat a amené au développement des réseaux LSTM (Long Short Term Memory) quiremédie à cela. Plus précisément les réseaux récurrents utilisés par la suite sont des réseaux detype Gated Recurrent Unit (GRU) développé par Cho et al, 2014 [6] qui sont des simplificationsdes réseaux LSTM 17.

5.2 Clustering de scénarios économiques

A présent que les différents types de réseaux de neurones qui peuvent être utilisés ont étédéfinis, il est possible de débuter le clustering de scénarios économiques. Comme précisé en in-troduction de cette section l’étude se réduit aux deux variables économiques les plus volatiles etdonc les plus discriminantes lors du calcul du Best Estimate : l’action et l’immobilier. L’objectifétant d’obtenir des scénarios ayant des comportements similaires, nous allons nous appuyer sur

17. Voir [25] pour une explication pratique du fonctionnement de ces réseaux

61

les réseaux de neurones afin d’obtenir une représentation latente c’est-à-dire une représentationdes caractéristiques propres à chaque scénario. Plus précisément, l’étude va s’appuyer sur untype particulier de réseaux de neurones : les auto-encodeurs.

Un auto-encodeur est un type particulier de réseaux de neurones qui permet un appren-tissage non supervisé ou plutôt un apprentissage auto-supervisé. En effet, la cible pour unauto-encodeur correspond exactement aux données d’entrée ; l’auto-encodeur est entrainé pourapprendre à reproduire les données d’entrée. Il est constitué d’ue couche cachée représentant uncode associé aux données d’entrée. Son objectif est d’apprendre une représentation (encodage)d’un ensemble de données. Un algorithme apprenant à reproduire l’idendité n’étant pas d’ungrand intérêt, les auto-encodeurs sont souvent restreints dans leurs apprentissages en bruitantles données ou encore en réduisant la dimension. Ce processus oblige l’algorithme à prioriserses axes d’apprentissage lui permettant ainsi d’apprendre des caractéristiques intéressantes surles données d’entrée. Une autre solution permettant d’éviter l’apprentissage de l’identité estl’usage de réseaux de neurones profonds notamment pour s’affranchir de la capacité d’approxi-mation universelle du théorème 5.1. Les auto-encodeurs peuvent être utilisés comme extensionde l’ACP par exemple. Un auto-encodeur se compose en réalité de deux réseaux de neurones :l’un chargé de l’encodage et l’autre chargé du décodage. L’objectif étant de reproduire une en-trée donnée, le problème posé est de minimiser la distance entre le scénario prédit et le scénarioinitial. La fonction de perte quadratique est donc un choix légitime de fonction de perte pource problème.

Afin d’obtenir la représentation des données l’auto-encodeur utilisé s’inspire notamment decelui de Madiraju et al, 2018 [21] et se décomposera en :

— un encodeur lui-même constitué de :? une couche de neurones convolutif ayant pour objectif de capter les caractéristiques de

court terme des variables économiques. Ici nos variables économiques étant généréesselon le modèle 2.7, on peut considérer que la variable est markovienne (elle le seraitsi la volatilité était constante). On va donc chercher à mettre en lien les variables autemps t et t-1 en prenant un noyau de convolution de largeur 2.

? une couche de neurones temporelle de type GRU dont l’objectif est de déterminerles changements temporels pouvant se produire au cours du temps pour les variableséconomiques.

— un décodeur composé de :? une couche de neurones convolutif chargée de reconstituer les composantes de court

terme.? une couche de neurones entièrement connectés dont l’objectif est de mettre en relation

l’ensemble des variables afin d’obtenir une reproduction des données d’entrée.La figure 5.11 résume la structure choisie pour l’auto-encodeur. La représentation latente denos données d’entrée sera le résultat de l’encodeur servant de données d’entrée au décodeur.Une fois cette représentation obtenue il est possible de réaliser un clustering en appliquant unalgorithme k-means à ces données (Wong et Lui, 2018 [26]). Le processus de clustering va doncconsister à entraîner un réseau de neurones sur les données issues des scénarios d’action etd’immobilier. Il n’y a pas de risque de sur apprentissage puisque l’unique but de cette étape est

62

d’entraîner puis de prédire la base d’entraînement fournie. Une fois cet entraînement réalisé, lareprésentation latente des scénarios économiques peut être obtenue et un algorithme k-meanspeut-être appliqué sur ces données. D’autres algorithmes de clustering classiques pourraientêtre expérimentés ici comme une classification ascendante hiérarchique. Il pourrait égalementêtre envisagé de remplacer ce processus par deux autres techniques de clustering :

— un algorithme k-shape : introduit par Paparizos et Gravano en 2015 [22]. Cette méthodeconstitue l’une des méthodes les plus en vogue dans le domaine de la classification desérie temporelle. L’utilisation de cette méthode requiert néanmoins de s’interroger sur ladéfinition d’une distance entre deux séries temporelles multivariées dont les composantespeuvent être corrélées,

— les cartes de Kohonen ou carte auto-adaptative qui sont des techniques de classificationbasées sur le même type de processus que les réseaux de neurones. Elles ont été introduitsen 1982 par Kohonen [18] et permettent sur un principe similaire à celui développé ci-dessus de classifier des individus en fonction de leurs caractéristiques sous-jacentes.

encodeur decodeur

GRUConv +Max Pool

Conv+Upsample Dense

x

z

x


k-means Classification

Figure 5.11 – Utilisation d’un auto-encodeur pour le clustering de scénarios économiques

63

5.3 Agrégation des scénarios

5.3.1 Scénarios de taux et inflation

Les scénarios de taux et d’inflation ont été négligés lors de la partie précédente. Il estcependant important de réfléchir à la façon dont ceux-ci vont être agrégés selon la partitionprécédente.La première étape est l’agrégation des taux qui permettra par la suite d’obtenir les déflateurs etde réaliser l’agrégation des autres scénarios. Le scénario de taux doit être tel que les déflateurssoient martingales afin de conserver le caractère risque neutre du scénario économique. D’autrepart supposons que le portefeuille obligataire verse à un instant t donné un montant C decoupon. Soit C = (Ci)1≤i≤n le cluster de scénario économique composé de n scénarios et rit letaux utilisé pour actualiser le coupon dans le scénario i entre t et t-1. Dès lors les obligations

versent sur cette période en moyenne1

n

n∑i=1

C× e−Ri(0,t)×t. Notons que ceci ne constitue qu’une

approximation puisque le coupon versé est indexé sur la valeur de marché du portefeuille demarché. Cette valeur étant elle-même influencée par les variations de l’ensemble des variableséconomiques inhérentes au scénario. Cependant cette variation est ici négligée et le scénario detaux du model points se définit par :

e−R(0,t)×t =

1

n

n∑i=1

e−Ri(0,t)×t ⇔ R(0, t) = −1

tln

1

1n

n∑i=1

e−Ri(0,t)×t

. (5.13)

L’hypothèse d’invariance du coupon en fonction du scénario permet de définir le déflateur dumodel point comme la moyenne des déflateurs des scénarios ce qui permet de conserver lapropriété de martingale de celui-ci. En effet :

D(0, t) =1

n

n∑i=1

Di(0, t)⇔ EQ(D(0, t)) = EQ

(1

n

n∑i=1

Di(0, t)

)=

1

n

n∑i=1

EQ(Di(0, t)) = ZC(t),

(5.14)où ZC(t) est le prix du zéro-coupon de maturité t.A partir de l’obtention du déflateur qui vient d’être défini, il est possible d’agréger l’inflation.Celle-ci n’intervenant dans le modèle qu’au travers du calcul des frais, nous allons simplementveiller à conserver le caractère martingale de l’inflation actualisée. Pour ce faire, l’inflationagrégée notée It est définie par :

It =1

Dt

×n∑i=1

Dit × I it . (5.15)

5.3.2 Scénario action et immobilier

La principale problématique de l’agrégation est liée au caractère asymétrique du traitementdes scénarios action et immobilier. Comme évoqué lors de l’introduction de cette section, uneagrégation parfaite des scénarios est impossible. La difficulté de définir un scénario action re-

64

présentatif d’un groupe tend essentiellement au choix de la croissance ou décroissance du courspour chaque période. Afin d’optimiser le choix de cette formule une approximation de la valeurde marché du portefeuille va être nécessaire. Pour illustrer cette nécessité, supposons que deuxscénarios aient été regroupés. On suppose pour simplifier que les variables "immobilier", "infla-tion" et "taux" sont les mêmes pour ces deux scénarios. A un instant t donné le cours d’action1 vaut 500 et le cours 2 vaut 10. Si les deux cours ont pour le reste le même comportementalors la valeur de marché du scénario 1 va être supérieure à celle du scénario 2. A l’instant t :

— le cours 1 augmente de 1%— le cours 2 diminue de 2%

Une agrégation à la moyenne entraînerait une baisse de 0,5%. Cela revient à négliger un divi-dende important versé dans le scénario 1 pour privilégier le scénario 2 dont les dividendes sontmoins importants. Cet exemple montre qu’il est important de pondérer chaque scénario afin derépondre à cette problématique.

Montrons à présent en quoi la donnée de la valeur de marché peut permettre de construireune meilleure agrégation des scénarios action et immobilier. Plus précisément nous distinguonscomme dans la section 2.3.2 la valeur de marché avant investissement et après investissement.Les notations de la section 5.3.1 sont conservées et l’horizon de projection est noté T. Noussupposons disposer de la donnée (VM(t)iaprès inv)0≤t≤T pour chaque scénario i. A partir de cettedonnée il est possible de calculer la nouvelle valeur de marché après variation du cours de

l’action entre t et t+1 : VM(t)ivar = VM(t − 1)iaprès inv ×StSt−1

. Cette donnée correspond en

réalité à la plus ou moins value réalisée sur la période qu’elle soit matérialisée par un dividendeou une variation de la valeur de marché. On a la relation :

∀1 ≤ t ≤ T, V M(t)var = VM(t− 1)après inv ×StSt−1

= VMaprès inv(t− 1)×(1St≥St−1 +

StSt−1

× 1St≥St−1 +St − St−1St−1

× 1St>St−1

)= VMavt inv(t) +Dividendet.

(5.16)

En se basant sur ces données il est possible de savoir si la variation globale du cluster C a étépositive ou négative. On distingue 2 cas :

— Si1

n

n∑i=1

VM ivar(t) <

1

n

n∑i=1

VM(t−1)iaprès inv alors le comportement global du portefeuille

est à la baisse, notre cours doit donc être à la baisse et pour refléter cette baisse :

1

n

n∑i=1

VM ivar(t) =

StSt−1

× 1

n

n∑i=1

VM(t−1)iaprès inv ⇔ St = St−1×

1n

n∑i=1

VM ivar(t)

1n

n∑i=1

VM(t− 1)iaprès inv

.

(5.17)Autrement dit il s’agit de refléter la baisse globale du portefeuille au travers de la varia-tion du cours de chaque scénario pondéré par son importance : la valeur de marché.

— Sinon le portefeuille est à la hausse et donc doit verser des dividendes. La valeur de

65

marché n’est pas modifiée ici. On va donc chercher à approximer les dividendes verséssachant que tous les scénarios n’en versent pas ; il est donc nécessaire de ne tenir compteque des scénarios versant des dividendes. Les scénarios enregistrant une baisse du coursde l’action sont négligés. Cela donne :

Dividendet =St − St−1St−1︸︷︷︸rt

× 1

n

n∑i=1

VM(t− 1)iaprès inv =1

n

n∑i=1

VM(t− 1)iaprès invrit1rit≥0

⇒ rt ×1

n

n∑i=1

VM(t− 1)iaprès inv =1

n

n∑i=1


⇒ St = St−1 ×

1 +1

1n

n∑i=1


× 1

n

n∑i=1


.

(5.18)

Il est dès lors possible de définir le cours action et immobilier par récurrence avec S0 = 1 puisSt est défini par :

St = St−1 ×((

1 +1

VM(t− 1)après inv×Divt

)At +

VMvar(t)

VM(t− 1)après inv× (1− At)

)VMvar(t) =

1

n

n∑i=1

VM ivar(t)

VM(t− 1)après inv =1

n

n∑i=1


At = 1VMvar(t)≥VM(t−1)après inv

Divt =1

n

n∑i=1


(5.19)

Obtention de la valeur de marché

Nous venons de voir que la donnée de la valeur de marché pouvait permettre d’agrégerde façon beaucoup plus fidèle les scénarios action et immobilier. Cependant cette donnée estle résultat des calculs du modèle ALM qui n’est pas accessible a priori. Malgré tout, pour unportefeuille donné l’évolution de cette donnée dépend essentiellement des scénarios économiquesd’entrée, des courbes de taux de rachat et des hypothèses d’investissement qui sont faites.L’ensemble de ces données étant des hypothèses il est possible d’y avoir accès. L’obtention dela valeur de marché va donc être basée sur un méta-modèle qui grâce à l’ensemble des donnéesexplicitées précédemment permet de produire l’évolution de la valeur de marché. L’inconvénientde cette méthode est qu’elle nécessite d’avoir accès aux valeurs de marché associées aux scénariosafin d’entraîner le modèle. Malgré tout une fois le modèle entraîné il sera possible de le réutilisersur un portefeuille similaire dès lors que le modèle ALM ne change pas. D’autre part une autreméthode permettant d’obtenir un algorithme de prédiction efficace tout en limitant le nombrede scénarios économiques à lancer dans le modèle ALM est de s’appuyer sur la technique de

66

clustering développé en section 5.2. En effet il est possible d’obtenir une partition de nos 500scénarios en par exemple 150 groupes de scénarios. Dès lors il est possible de considérer quel’apprentissage du modèle sur un des éléments de chaque groupe lui permettra d’être performantsur les autres éléments du groupe. En se basant sur cette hypothèse, l’apprentissage sera réalisésur 150 scénarios bien choisis.

Le modèle choisi nécessitant de prendre en entrée des séries temporelles afin de prédire ensortie une autre série temporelle il s’agit d’un problème d’apprentissage de séquence à séquencequi est notamment rencontré dans les modèles de traduction automatique. Les méthodes ba-sées sur les réseaux de neurones ayant fait leurs preuves sur ce type de problème nous allonsde nouveau y avoir recours. Il est nécessaire pour notre modèle de prendre en considérationplusieurs choses :

— la dépendance qui existe entre la valeur marché en t et la valeur de marché en t-1notamment au travers de l’évolution du cours des actions qui impacte directement unepart de cette valeur de marché,

— la dépendance de la valeur de marché avec les différents scénarios soit directement pourles actions soit indirectement au travers des taux impactant les actions,

— la dépendance avec les lois de sorties au travers du versement de prestations et de laparticipation aux bénéfices.

Le réseau de neurones utilisé est similaire à l’auto-encodeur de la figure 5.11 dans l’enchaînementdes couches cependant le nombre de neurones par couches diffère.

Propriété de martingale

Le défaut de la méthode précédente est que la pondération appliquée afin de définir St enfonction de St−1 est fonction d’une indicatrice et peut donc être différente selon les périodes.Elle fait d’autre part intervenir les valeurs de marché des différents scénarios à regrouper quisont des processus sur lesquels nous disposons de peu d’informations. La méthode précédenteentraine donc une perte a priori du caractère martingale et donc de la propriété risque neutrequi sert de base théorique au calcul du Best Estimate. Cependant les 500 scénarios qui sontétudiés ici présentent l’avantage de respecter la propriété de martingale. Ainsi toute combinaisonlinéaire de ces scénarios respectera la propriété de martingale. Soit (αi)1≤i≤N des réels, N le

nombre de scénarios disponibles, M le processus défini par ∀ 1 ≤ t ≤ T, Mt =N∑i=1

αiDitS

it et

Ft la filtration correspondant à toute l’information disponible à l’instant t. Dans ce cas M estmartingale par rapport à F sous Q :

EQ(Mt|Fs) = EQ(N∑i=1

αiDitS

it |Fs) =

N∑i=1

αiEQ(DitS

it |Fs) =

N∑i=1

αiDisS

is = Ms. (5.20)

L’idée va donc être de définir un processus S pour le model point tel que

St ×Dt = Mt =N∑i=1

αiDitS

it qui sera alors martingale. D’autre part , l’objectif est d’approcher

au mieux le processus défini précédemment qui ne vérifie pas la propriété de martingale. Le

67

problème posé est donc de trouver α = (αi)1≤i≤N tel que :

StDt =N∑i=1

αiDitS

it + νt ⇔ St =

N∑i=1

αiDit

Dt

Sit + εt, (5.21)

où ν et ε sont des termes d’erreur. Le modèle 5.21 est un modèle de données temporelles et nerespecte pas les hypothèses usuelles des modèles de régression des moindres carrés ordinaires.En particulier (St, S

it) et (Ss, S

is) sont a priori corrélés : il s’agit de données de panel. L’erreur

est usuellement décomposée entre un terme individuel α et un terme temporel εt. Cependant icile modèle se composant d’un unique individu, l’hypothèse est faite que α = 0. Par conséquentl’hypothèse E(Sit×α) = 0 est vérifiée. Dès lors les estimateurs des moindres carrés ordinaires sontconvergents et peuvent être utilisés. Il faudra cependant être attentif au fait que les estimateursdes écarts-types usuels ne sont plus convergents [8]. L’objectif ici n’étant pas d’obtenir uneanalyse des écarts-types ni même d’étudier les coefficients de cette régression linéaire mais biend’obtenir un processus martingale approchant le processus non martingale, nous allons pouvoirnous appuyer sur cette régression pour atteindre cet objectif.

D’autre part le problème classique de régression des moindres carrés classique est le suivant :

argminα=(αi)1≤i≤n

T∑t=1

(St −

N∑i=1

αiDit

Dt

Sit

)2

. (5.22)

Cependant il semble légitime d’appliquer une pondération à cette régression pour 2 raisons :— la présence de déflateurs intervenant dans le calcul du Best Estimate accorde une plus

grande importance aux évènements se déroulant au cours des premières années de laprojection,

— les erreurs qui sont réalisées lors des premières périodes impactent la valeur de marchédu portefeuille de début. Cette modification va alors se propager et s’amplifier au coursdes années suivantes par "effet boule de neige".

Afin de remédier à ce problème une régression des moindres carrés pondérés va être effectuée.Le choix des poids qui a été fait ici est celui des déflateurs du scénario agrégé obtenu dans lasection 5.3.1. Le problème à résoudre devient :

argminα=(αi)1≤i≤n

T∑t=1

Dt

(St −

N∑i=1

αiDit

Dt

Sit

)2

. (5.23)

Le processus complet d’obtention des model points proposé dans cette section est résumé dansla figure 5.12.

La définition du Best Estimate agrégé va être modifiée à la fin de l’algorithme. Chaquemodel point de scénario sera associé à un poids correspondant au nombre de scénarios présentsdans le groupe qu’il représente. Cela s’écrit par la moyenne pondérée :

BE0 =1

K

K∑j=1

pjBE(j), (5.24)

68

où pj est le nombre de scénarios dans le groupe j créé, J est le nombre de model points créés etK=500 scénarios dans cette modélisation. Cette formule s’étend pour un nombre de scénariosplus important.

Figure 5.12 – Schéma du processus complet d’agrégation des scénarios économiques

5.4 Résultats

5.4.1 Application du processus et analyse des résultats

Afin d’appliquer le processus d’agrégation précédent, le portefeuille de rente est utilisécomme référence. Par la suite la référence au Best Estimate incluera la participation au bé-néfice ; les résultats d’erreur du Best Estimate garanti sont simplement fournis pour établir laqualité du modèle. Pour des raisons de temps d’exécution seul le scénario central est utilisé pourtester le modèle. De plus des model points des portefeuilles d’actifs et de passifs sont utilisésafin d’obtenir des temps de calcul raisonnables.

La première étape du processus consiste à apprendre une représentation latente des scé-narios actions et immobilier. Pour cela on entraîne l’auto-encodeur sur l’intégralité de la base

69

normalisée : il n’y a aucun risque de sur-apprentissage puisque l’algorithme pourra être entraînésur chaque nouvelle base de scénarios étudiée. On entraîne l’auto-encodeur sur 2500 époquesd’entraînement ; c’est-à-dire que l’algorithme va avoir accès à l’intégralité de la base 2500 fois.La figure 5.13a résume l’évolution de la perte quadratique. Celle-ci décroît rapidement au coursdes premières époques d’entraînement avant de considérablement ralentir. Un choix de nombred’époques moins important pourrait être fait mais en l’absence de risque de sur apprentissagece choix ne pose aucun problème. Suite à l’entraînement complet l’erreur quadratique sur l’en-semble de la base est de 0.0032. D’autre part on peut observer la différence entre l’estimateurx et les données d’entrée x pour le scénario "action". Sur la figure 5.13b cette comparaison estfaite pour 4 scénarios. En bleu figure l’estimateur et en rouge les données réelles. On constateque la dynamique du cours est globalement reproduite bien que l’estimateur soit plus volatileque les données à certaines dates et inversement. Cependant ces différences étant globalementmineures et au vu de l’erreur très faible, il est possible de s’appuyer sur la représentation latentedes données pour réaliser un clustering. L’information qui est contenue permet une reconstitu-tion quasiment identique des données.

(a) Evolution de la perte quadratique en fonction de l’époque d’entrainement lorsde l’entrainement du réseau de l’auto-encodeur

(b) Reconstruction de la variable économique action par l’auto-encodeur

70

Une fois la représentation latente obtenue, il est possible de créer une partition des donnéesà l’aide de l’algorithme k-means. Contrairement aux 2 premières sections, le nombre de groupesconstituant la partition est fixé comme donnée et non pas calibré pour obtenir la meilleurereprésentation possible. Le choix du nombre de groupes à déterminer est fixé à 50 dans cettesection. La figure 5.14 représente la distribution des Best Estimate par groupes pour ce choix.Les groupes ont été ordonnés de droite à gauche de la moyenne de Best Estimate au sein dugroupe la plus élevée à la plus faible.

Figure 5.14 – Répartition des Best Estimate par groupe de scénarios

L’observation de cette répartition révèle que l’algorithme ne classe pas les scénarios par va-leur de Best Estimate : un grand nombre de groupes possède des valeurs extrêmes. Ce constatne remet pas en question la qualité de l’algorithme puisque l’objectif était de répartir les scé-narios en groupes de comportements homogènes. Les groupes auraient probablement été plushomogènes en valeur de Best Estimate si un algorithme k-means avait été utilisé directementsur les cours d’action.

Afin de présenter les caractéristiques des groupes créés par l’algorithme de classification lafigure 5.15 représente le scénario action au sein de 6 exemples de groupe obtenus. L’intégralitédes groupes est représentée en annexe C.

Le premier cluster représenté est le numéro 16 qui correspond au groupe composé de plusd’un scénario ayant la moyenne de Best Estimate la plus élevée. De plus, ce groupe comporteune valeur extrême correspondant au scénario dont l’intensité de croissance est beaucoup plusimportante que les autres. L’observation de cette représentation montre cependant que lescomportements de ces scénarios sont similaires : ils présentent tous une croissance relativementlisse , d’intensité certes différente, à partir de l’année 40. Le scénario cluster 43 est égalementconstitué de variables globalement croissantes à partir de l’année 30 mais ayant une trajectoire

71

beaucoup plus accidentée. Le cluster 28 propose lui des scénarios très volatiles tout au longde la période de projection. Enfin le cluster 1 isole un scénario dont le Best Estimate n’estglobalement pas très élevé et dont les valeurs prises sont également modérées. Cependant cescénario présente un comportement extrême au cours des premières années qui en fait un casisolé au sein de la base de scénarios ; il paraît donc légitime de l’isoler. Les deux derniersgroupes présentés cherchent à montrer les limites de l’agrégation. Ce sont les deux groupesqui représentent la plus grosse erreur d’approximation du Best Estimate d’une part en sur-évaluation pour le groupe 9 et en sous-évaluation pour le groupe 38 (voir figure 5.18). Toutd’abord, le groupe 38 présente une courbe croissante isolée tandis que les autres scénarios ont descomportements plus bruités : il parait donc légitime que ce groupe sous-évalue le Best Estimatepuisque l’effet du scénario "extrême" au sein du groupe va être absorbé par l’ensemble desautres scénarios. Ainsi les dividendes versés ne seront pas pris en compte. A l’inverse le groupe9 tend à surestimer le Best Estimate notamment car cette fois il présente plusieurs scénarioscroissants à valeurs importantes qui prennent le pas sur les scénarios plus volatiles du groupe.

Figure 5.15 – Visualisation de quelques groupes de scénarios

Une fois le clustering obtenu, il est nécessaire d’entraîner de nouveau un réseau de neuronesafin d’obtenir les valeurs de marché du portefeuille. Un clustering de 150 groupes est réalisésur les données issues de l’auto-encodeur. Parmi ces 150 groupes un scénario est sélectionnéaléatoirement pour représenter le groupe. Cette base constituera la base d’entraînement dumodèle. Parmi les scénarios non sélectionnés 50 sont tirés aléatoirement afin de constituer labase de validation permettant de contrôler l’erreur du modèle hors apprentissage et de prévenirle risque de sur-apprentissage. Le nombre d’époques d’entraînement est fixé à 300 comme lemontre la figure 5.16b. A l’issue de l’entraînement sur l’échantillon, la perte quadratique estde 0,13. Cette erreur semble satisfaisante sachant que la valeur de marché est utilisée comme

72

une pondération des cours d’actifs ce qui diminue les problèmes d’agglomération qui pourraitprovenir d’erreur de prédiction de la valeur de marché. D’autre part, notre réseau de neuroneseffectue la tâche qui était attendue à savoir reproduire la trajectoire globale de la valeur demarché pour chaque scénario comme on peut le voir sur 5 exemples en figure 5.16a. Cela permetd’apporter l’information nécessaire à l’agrégation.

(a) Reconstruction de la valeur de marché par le réseau de neurones

(b) Evolution de la perte quadratique en fonction de l’époque d’entrainement lorsde l’entrainement du réseau de neurones

Il est à présent possible de déterminer les model points à utiliser pour les scénarios écono-miques. Pour cela, les variables agrégées non martingales sont créées puis la régression linéairepondérée est réalisée. Pour rappel dû au caractère dépendant des individus, les estimateursdes écarts-types ne convergent pas, seuls les coefficients convergent. Le R2 obtenu est égal à 1pour chacun des scénarios calibrés. En réalité, la perte quadratique obtenue entre les scénariosnon martingales et ceux obtenus comme combinaison linéaire des variables est de l’ordre de10−26. Ainsi il y avait perte de la martingalité a priori mais en réalité le scénario obtenu étaitquasiment martingale. Une représentation des scénarios actions ainsi obtenus sur la variableéconomique action est donnée en figure 5.17 et un zoom se concentrant sur les scénarios non

73

extrêmes est placé en annexe D. L’observation de ces deux figures montre que :— la création de model points permet de conserver 2 scénarios extrêmes sur les 4 qui

pouvaient être observés sur la figure 5.1. La modélisation permet donc de conserverl’existence de scénarios extrêmes au sein de notre base réduite.

— l’ensemble des scénarios considérés comme non extrêmes figurant en annexe D permetde couvrir une grande diversité de scénarios

Figure 5.17 – Visualisation des model points de scénarios économiques sur la variableéconomique action

5.4.2 Résultats opérationnels

On va à présent chercher à déterminer l’impact de l’utilisation de model points sur le résultatobtenu et sur les performances de calcul. La méthodologie a été expérimentée non seulement surles 50 scénarios présentés dans la section précédente mais aussi sur 25 scénarios afin de déter-miner l’impact d’une réduction du nombre de scénarios utilisé. Les tables 5.3 et 5.2 présententles impacts de la procédure. Sur la figure 5.3 on peut observer que les erreurs relatives obtenuessont de l’ordre de 10−4 pour l’ensemble des calculs réalisés. Cependant bien que l’erreur sur leBest Estimate Garanti soit relativement similaire pour un choix de 50 ou 25 scénarios, l’erreursur le Best Estimate double en passant de l’un à l’autre. L’erreur obtenue à l’utilisation de 25scénarios permet cependant d’utiliser cette méthode de façon fiable. Le choix de l’utilisation del’une ou l’autre dépendra probablement du contexte, selon que l’on souhaite obtenir des résul-tats plus fiables ou plus rapides. Les effets de l’agrégation sur les temps de calcul sont notablesbien que non linéaires en nombre de scénarios. C’est surtout sur l’espace disque occupé que l’onobtient les réductions les plus importantes allant jusqu’à 98% pour le choix de 25 scénarios.

74

50 scénarios 25 scénariosBest Estimate -0,06% -0,13%

Best Estimate Garanti 0,09% 0,12 %

Table 5.2 – Erreur relative de l’aggrégation des scénarios économiques sur le Best Estimateen scénario central

Tps de calcul(min) Espace disque(Mo)500 scénarios 853 692250 scénarios 170 403Réduction 80% 94%25 scénarios 100 93Réduction 88% 98%

Table 5.3 – Résultats opérationnels du processus de model points

Enfin la figure 5.18 présente la décomposition de l’erreur précédente sur chacun des groupesde scénarios. On remarque que 3 groupes de scénarios présentent des erreurs importantes rela-tivement à l’erreur globale dont 2 de ces scénarios ont déjà été présentés en section 5.4.1. Lavolatilité est relativement faible sur l’ensemble des autres groupes : le bon résultat obtenu necache pas de grandes disparités d’erreur au sein des groupes se compensant lors de l’agrégation.

Figure 5.18 – Pourcentage d’erreur sur le calcul du Best Estimate total par groupe

5.4.3 Améliorations potentielles

Cette section a permis de proposer un processus de création de model points sur les scénarioséconomiques qui s’est avéré efficace sur les tests qui ont pu être faits dans le cadre de ce mémoire.

75

Cependant d’autres éléments peuvent être pris en compte afin de valider le modèle ou bien del’améliorer.

Le principal test qui peut être fait est celui de la prise en compte des différents chocsproposés par la réglementation Solvabilité II. Le processus d’agrégation proposé prend en effeten compte les valeurs de marché du portefeuille pour un scénario économique sans hypothèse dechocs. Il serait intéressant de déterminer comment cette modélisation s’adapte aux différentesdéformations des hypothèses proposées par la réglementation. Cela n’a cependant pas pu êtretesté à cause du temps de calcul nécessaire à l’obtention des chiffres de référence pour cesdifférents chocs sur 500 scénarios.

D’autre part il serait intéressant de prendre en compte les erreurs de valeur de marchéqui apparaissent au cours de l’agrégation. En effet lorsqu’on néglige des baisses de certainsscénarios la valeur de marché n’est plus égale à la moyenne des valeurs de marché comme cela aété considéré dans la modélisation proposée. La considération de cette valeur de marché réelledu scénario agrégé pourrait améliorer les résultats développés précédemment.

76

h

Conclusion

L’objectif de ce mémoire était de pallier la difficulté temporelle et matérielle induite parl’utilisation d’un modèle ALM pour le calcul du Best Estimate. L’approche adoptée pour at-teindre cet objectif a été de travailler à la réduction des variables d’entrée du modèle en sebasant sur les avancées récentes dans le domaine de la statistique et du machine learning.

Dans un premier temps, l’étude a porté sur le portefeuille de contrats d’assurance vie. Nousavons proposé une méthodologie de regroupement de ces contrats en utilisant l’algorithme k-medoid. La classification se base sur des variables caractéristiques du contrat : les probabilitésde sortie du contrat et les Best Estimate de chaque contrat calculé en environnement déter-ministe pour prendre en compte le lien entre l’actif et le passif. Afin de déterminer le nombrede groupes à créer pour le portefeuille, la technique d’élagage des arbres de classification estutilisée. La méthodologie a permis de réduire significativement les temps de calcul et la placeen mémoire nécessaire de l’ordre de 95% tout en conservant une erreur du Best Estimate trèsfaible de l’ordre de 0,1%. L’analyse des résultats montre que le portefeuille de passif agrégéreproduit globalement le comportement du portefeuille complet en s’appuyant d’abord sur lecomportement des assurés et dans un deuxième temps sur le lien qu’il existe avec le portefeuilled’actifs.

Dans un second temps, une méthodologie similaire a été expérimentée sur le portefeuilled’obligations en se basant cette fois sur les coupons actualisés versés par chaque obligation. Lesrésultats ont été probants mais une analyse de l’axe de regroupement a montré que la partitionobtenue était limitée à une séparation par maturité des obligations.

Enfin, l’étude s’est portée sur les scénarios économiques en se cantonnant au regroupe-ment des scénarios selon les variables économiques action et immobilier. D’abord un réseaude neurones a été utilisé afin d’apprendre une représentation des caractéristiques de ces deuxscénarios. Cette représentation a ensuite permis d’obtenir une partition des scénarios au tra-vers d’un algorithme k-means. Une étude du modèle ALM utilisé nous a menés à proposer unnouvel algorithme supervisé de réseaux de neurones reproduisant la valeur de marché au coursdu temps. Cette valeur de marché a permis d’agréger les scénarios en pondérant chacun parl’importance des cashflows délivrés. Pour finir une régression linéaire du scénario obtenu sur lesscénarios initiaux a été calibré dans le but de garantir le caractère martingale et ainsi la risqueneutralité du scénario. L’application de cette méthode pour diviser le nombre de scénarios par10 et par 20 a permis de réduire significativement les temps d’exécution du calcul en conservantune bonne approximation du BE stochastique.

Pour conclure, ce mémoire a proposé une approche d’optimisation de l’exécution du modèleALM basée sur la classification et l’agrégation des données d’entrée. Chacune de ces méthodesa été testées sur des portefeuilles réels. Ces méthodes ont toutes été performantes individuel-lement. L’effet cumulé de l’ensemble de ces méthodes n’a malheureusement pas pu être testé

77

ici mais il serait intéressant de déterminer comment se cumulent les erreurs successives en uneerreur globale.

78

Table des figures0.1 ACP des groupes de contrats de rente . . . . . . . . . . . . . . . . . . . . . . . . V0.2 Utilisation d’un auto-encodeur pour le clustering de scénarios économiques . . . VII0.3 Visualisation des model points de scénarios économiques sur la variable écono-

mique action . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII0.4 PCA of insurance contracts group . . . . . . . . . . . . . . . . . . . . . . . . . . XI0.5 Use of an auto-encoder for economic scenario clustering . . . . . . . . . . . . . . XIII0.6 Visualization of model economic scenario points on the economic variable action XIV1.1 Confrontation du bilan schématique d’une société dans un cadre comptable et

dans un cadre Solvabilité II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Principe de fonctionnement de Solvabilité II . . . . . . . . . . . . . . . . . . . . 51.3 Schéma simplifié du principe de calcul du Best Estimate . . . . . . . . . . . . . 62.1 Schéma de fonctionnement du modèle ALM . . . . . . . . . . . . . . . . . . . . 92.2 Evolution du taux de rachat conjoncturel en fonction de l’ancienneté du contrat 123.1 Illustration de l’évolution de l’algorithme k-medoid . . . . . . . . . . . . . . . . 223.2 Partitionnement d’un arbre de régression pour un problème à deux variables et

arbre correspondant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Exemple d’élaguage de la partition de la figure 3.2 . . . . . . . . . . . . . . . . . 263.4 Répartition des ages des assurés et bénéficiaires en fonction des groupes ALM . 283.5 Evolution de la probabilité de sortie au cours du temps de 25 contrats de rente . 293.6 Comparaison de la corrélation entre le BE et le BEG pour différents scénarios

entre le portefeuille d’épargne (à droite) et un groupe ALM du portefeuille derente (à gauche) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.7 Choix du nombre de classe par des indices de qualité de clustering . . . . . . . . 313.8 Sélection d’un nombre de classe par arbre de régression . . . . . . . . . . . . . . 333.9 Différence de cashflows actualisés du portefeuille de model points statistique sta-

tistique avec le portefeuille réel de rente au cours du temps . . . . . . . . . . . . 363.10 Représentation des contrats du groupe ALM 3 dans un espace de dimension 2 . 373.11 Répartition des années de naissance de l’assuré et d’effet du contrat par groupe

aggrégé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.12 Répartition du Best Estimate Central au sein des groupes obtenus sur le groupe

ALM 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.1 Résultats des différents indices pour le choix de classe du sous portefeuille Privée

CQS 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2 Evolution de la valeur de marché du portefeuille de référence et model points au

cours du temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475.1 Evolution du cours d’action des 500 scénarios économiques étudiés . . . . . . . . 495.2 Evolution de l’inflation des 500 scénarios économiques étudiés . . . . . . . . . . 505.3 Evolution du taux forward 1 an des 500 scénarios économiques étudiés . . . . . . 505.4 Visualisation de quelques fonctions d’activation classiques . . . . . . . . . . . . . 535.5 Représentation graphique du ou exclusif en 2 dimensions . . . . . . . . . . . . . 535.6 Représentation d’un réseau de neurones à une couche cachée composée de p

neurones avec n entrées et 1 sortie . . . . . . . . . . . . . . . . . . . . . . . . . . 555.7 Algorithme de rétropropagation . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.8 Différence entre une couche entièrement connectée et une couche de convolution 605.9 Exemple d’opération de Maxpooling . . . . . . . . . . . . . . . . . . . . . . . . . 605.10 Exemple de réseau de neurones récurrents . . . . . . . . . . . . . . . . . . . . . 615.11 Utilisation d’un auto-encodeur pour le clustering de scénarios économiques . . . 635.12 Schéma du processus complet d’agrégation des scénarios économiques . . . . . . 69

5.14 Répartition des Best Estimate par groupe de scénarios . . . . . . . . . . . . . . 715.15 Visualisation de quelques groupes de scénarios . . . . . . . . . . . . . . . . . . . 725.17 Visualisation des model points de scénarios économiques sur la variable écono-

mique action . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.18 Pourcentage d’erreur sur le calcul du Best Estimate total par groupe . . . . . . 75A.1 Le fonctionnement modulaire de la formule standard . . . . . . . . . . . . . . . iB.1 Différence de cashflows actualisés du portefeuille de model points statistique sta-

tistique avec le portefeuille réel de rente au cours du temps . . . . . . . . . . . . iiiB.2 Cashflows actualisés du portefeuille de rente complet . . . . . . . . . . . . . . . iiiC.1 Représentation des scénarios action par groupe . . . . . . . . . . . . . . . . . . . ivD.1 Zoom sur les scénarios non extrêmes parmi les 50 model points . . . . . . . . . . v

Liste des tableaux0.1 Résultats opérationnels de l’agrégation du passif . . . . . . . . . . . . . . . . . . VI0.2 Erreur relative de l’agrégation des scénarios économiques sur le Best Estimate

en scénario central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IX0.3 Résultats opérationnels du processus de model points . . . . . . . . . . . . . . . IX0.4 Operational result of the passive aggregation . . . . . . . . . . . . . . . . . . . . XI0.5 Relative Error Aggregating Economic Scenarios on Best Estimate in Central

Scenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XIV0.6 Operational results of the model points process . . . . . . . . . . . . . . . . . . XIV3.1 Résultat de la première aggrégation du portefeuille de rente . . . . . . . . . . . . 293.2 Résultats opérationnels de l’aggrégation du passif . . . . . . . . . . . . . . . . . 333.3 Écart de Best Estimate observé sur un portefeuille d’épargne et de rente avec

des model points au passif exprimé en point de base . . . . . . . . . . . . . . . . 343.4 Corrélation des deux premiers axes de l’ACP avec les variables explicatives . . . 374.1 Composition des sous-portefeuilles après la première aggrégation par type d’obli-

gation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.2 Description des obligations du sous portefeuille étudié . . . . . . . . . . . . . . . 454.3 Erreur relative sur le calcul du Best Estimate en utilisant le portefeuille de model

points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4 Résultats opérationnels model points actifs . . . . . . . . . . . . . . . . . . . . . 475.1 Liste de quelques fonctions d’activation usuelles . . . . . . . . . . . . . . . . . . 525.2 Erreur relative de l’aggrégation des scénarios économiques sur le Best Estimate

en scénario central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.3 Résultats opérationnels du processus de model points . . . . . . . . . . . . . . . 75A.1 Coefficients de corrélation entre les modules de la formule standard . . . . . . . ii

A La formule standardLe pilier 1 de la réglementation Solvabilité II concerne notamment le capital réglementaire

nécessaire pour obtenir l’agrément d’assurance pour exercer son activité : le SCR. Ce capitalcorrespond au capital économique nécessaire à l’entreprise pour limiter la probabilité de ruineà 1 an à 0,5%.Pour calculer le SCR, l’assureur peut avoir recours à deux méthodes :

— la formule standard fournie par la directive— un modèle spécifique développé en interne qui est plus adapté à son profil de risques et

optimise davantage son capital réglementaire mais dont la mise en place est plus lourde.L’obtention du Best Estimate étant à la base du calcul du SCR grâce à la formule standardnous allons nous attarder sur le fonctionnement de celle-ci.La formule standard aborde une approche modulaire du SCR développé en figure A.1 [20].

Figure A.1 – Le fonctionnement modulaire de la formule standard

Les hypothèses permettant d’arriver à la formule standard ne sont pas mentionnées ici, l’objectifétant de développer la formule de calcul du SCR afin notamment de comprendre comment lesdifférents SCR des sous-modules s’inscrivent dans un contexte plus général. Le SCR en formulestandard est défini par :

SCR = BSCR + Ajustement+ SCRop + SCRintangible. (A.1)

Le terme Ajustement est un ajustement réalisé au titre de la capacité d’absorption des pertestandis que le SCRop est un chargement en capital pour prendre en compte le risque opérationnelet le SCRintangible est l’exigence de capital pour le risque lié aux immobilisations incorporelles.L’élément principal de calcul du SCR est le BSCR : le Basic Solvency Capital Requirementdéfini par

BSCR =

√∑(i,j)

ρi,j × SCRi × SCRj, (A.2)

avec SCRi et SCRj le SCR d’un des modules marché, défaut, souscription, vie, non-vie, santéet les coefficients de corrélation ρi,j entre les modules sont données par :

i

ρi,j Marché Défaut Vie Santé Non-vieMarché 1 0.25 0.25 0.25 0.25Défaut 0.25 1 0.25 0.25 0.5Vie 0.25 0.25 1 0.25 0Santé 0.25 0.25 0.25 1 0Non vie 0.25 0.5 0 0 1

Table A.1 – Coefficients de corrélation entre les modules de la formule standard

Puis chacun des SCR associé aux modules de la table A.1 est calculé grâce à une nouvelleapproche modulaire. Pour un module M de risques RM le SCR de module est :

SCRM =

√ ∑(i,j)∈RM

ρMi,j × SCRi × SCRj, (A.3)

où les ρMi,j sont issus d’une table de corrélation spécifique au module étudié. Ainsi la formulestandard propose de calculer la SCR global en calculant des SCRrisque restreint à un risque bienidentifié.Le calcul de ce SCRrisque est réalisé grâce à des chocs matérialisant la réalisation de ce risquesur la grandeur économique associée. Il s’agit d’une différence de NAV 18 qui se définit commela différence entre l’actif évalué en valeur de marché et le passif évalué en Best estimate. On aainsi :

SCRrisque = ∆NAV

= NAV Scénario central −NAV Scénario risqué (A.4)= (VMAScénario central −BEScénario central)− (VMAScénario risqué −BEScénario risqué)

= ∆VMA−∆BE.

Avec VMA la valeur de marché des actifs du portefeuille. Le calcul du capital économique estprimordial pour pouvoir exercer une activité d’assurance et nécessite donc d’être apte à calculerle Best Estimate dans l’ensemble des scénarios propres aux caractéristiques du portefeuille.

18. Net Asset Value

ii

B Cashflows au cours du temps

Figure B.1 – Différence de cashflows actualisés du portefeuille de model points statistiquestatistique avec le portefeuille réel de rente au cours du temps

Figure B.2 – Cashflows actualisés du portefeuille de rente complet

iii

C Scénario action par groupe

Figure C.1 – Représentation des scénarios action par groupe

D Zoom sur les scénarios économiques action

Figure D.1 – Zoom sur les scénarios non extrêmes parmi les 50 model points

v

Liste des symbolesACTION Best Estimate avec choc action

BEG_ACTION Best Estimate garanti avec choc action

BEG_CENTRAL Best Estimate garanti sans choc

BEG_FRAIS Best Estimate garanti avec choc sur les frais

BEG_IMMO Best Estimate garanti avec choc immobilier

BEG_RACH_B Best Estimate garanti avec baisse du rachat

BEG_RACH_H Best Estimate garanti avec hausse du rachat

BEG_RACH_M Best Estimate garanti en cas de rachat de masse

BEG_SPREAD Best Estimate garanti en cas de rachat de masse

BEG_TAUX_B Best Estimate garanti en cas de baisse des taux

BEG_TAUX_H Best Estimate garanti en cas de hausse des taux

CENTRAL Best Estimate sans choc

FRAIS Best Estimate avec choc sur les frais

IMMO Best Estimate sans choc

RACH_B Best Estimate avec rachat à la baisse

RACH_H Best Estimate avec rachat à la hausse

RACH_M Best Estimate avec rachat de masse

SPREAD Best Estimate avec choc de spread

TAUX_B Best Estimate avec baisse des taux

TAUX_H Best Estimate avec hausse des taux

vi

Références[1] David Arthur et Sergei Vassilvitskii. “k-means++ : The Advantages of Careful See-

ding”. en. In : (2007), p. 11.

[2] François Bonnin, Frédéric Planchet et Marc Juillard. “Best estimate calculationsof savings contracts by closed formulas : application to the ORSA”. en. In : EuropeanActuarial Journal 4.1 (juil. 2014), p. 181–196. issn : 2190-9741. doi : 10.1007/s13385-014-0086-z. url : https://doi.org/10.1007/s13385-014-0086-z.

[3] Leo Breiman et al. Classification and Regression Trees. Monterey, CA : Wadsworth etBrooks, 1984.

[4] Tadeusz Caliński et Harabasz JA. “A Dendrite Method for Cluster Analysis”. In : Com-munications in Statistics - Theory and Methods 3 (jan. 1974), p. 1–27. doi : 10.1080/03610927408827101.

[5] Arthur Chaix. Cours de Dérivés de taux. 2018.

[6] KyungHyun Cho et al. “On the Properties of Neural Machine Translation : Encoder-Decoder Approaches”. In : CoRR abs/1409.1259 (2014). arXiv : 1409.1259. url : http://arxiv.org/abs/1409.1259.

[7] George Cybenko. “Approximation by superpositions of a sigmoidal function”. en. In :Mathematics of Control, Signals and Systems 2.4 (déc. 1989), p. 303–314. issn : 1435-568X. doi : 10.1007/BF02551274. url : https://doi.org/10.1007/BF02551274.

[8] Xavier D’Haultfoeuille. Cours d’économétrie 2. 2018.

[9] EIOPA. Technical Specifications QIS IV. European comission. 2008, p. 13.

[10] EIOPA. Technical Specifications for QIS V. European comission. 2010, p. 30.

[11] Rémi Gauville. Projection du ratio de solvabilité : des méthodes de machine learningpour contourner les contraintes opérationnelles de la méthode des SdS. Mémoire pourl’obtention du titre d’actuaire. 2017, p. 31.

[12] Estelle Gerondeau. Ratio de couverture Solvabilité 2 d’un contrat d’épargne en euros,quels leviers de pilotage pour l’assureur ? Mémoire pour l’obtention du titre d’actuaire.2017, p. 31.

[13] Pierre-Olivier Goffard et Xavier Guerrault. “Is it optimal to group policyholdersby age, gender, and seniority for BEL computations based on model points ?” en. In :European Actuarial Journal 5.1 (juil. 2015), p. 165–180. issn : 2190-9741. doi : 10.1007/s13385-015-0106-7. url : https://doi.org/10.1007/s13385-015-0106-7(visité le 16/09/2019).

[14] Ian Goodfellow, Yoshua Bengio et Aaron Courville. Deep Learning. http://www.deeplearningbook.org. MIT Press, 2016.

[15] Sebastien Gurrieri, Masaki Nakabayashi et Tony Wong. “Calibration Methods ofHull-White Model”. In : SSRN Electronic Journal (nov. 2009). doi : 10.2139/ssrn.1514192.

[16] Trevor Hastie, Robert Tibshirani et Jerome Friedman. The Elements of StatisticalLearning. Springer Series in Statistics. New York, NY, USA : Springer New York Inc.,2001.

[17] Leonard Kaufman et Peter J. Rousseeuw. Finding Groups in Data : an introductionto cluster analysis. Wiley, 1990.

vii

https://doi.org/10.1007/s13385-014-0086-z

https://doi.org/10.1007/s13385-014-0086-z

https://doi.org/10.1007/s13385-014-0086-z

https://doi.org/10.1080/03610927408827101

https://doi.org/10.1080/03610927408827101

http://arxiv.org/abs/1409.1259



https://doi.org/10.1007/BF02551274

https://doi.org/10.1007/BF02551274

https://doi.org/10.1007/s13385-015-0106-7

https://doi.org/10.1007/s13385-015-0106-7

https://doi.org/10.1007/s13385-015-0106-7

http://www.deeplearningbook.org

http://www.deeplearningbook.org

https://doi.org/10.2139/ssrn.1514192

https://doi.org/10.2139/ssrn.1514192

[18] Teuvo Kohonen. “Self-organized formation of topologically correct feature maps”. en.In : Biological Cybernetics 43.1 (jan. 1982), p. 59–69. issn : 1432-0770. doi : 10.1007/BF00337288. url : https://doi.org/10.1007/BF00337288.

[19] David L. Davies et Don Bouldin. “A Cluster Separation Measure”. In : Pattern Analysisand Machine Intelligence, IEEE Transactions on PAMI-1 (mai 1979), p. 224–227. doi :10.1109/TPAMI.1979.4766909.

[20] Franck Levallois. Cours de Réglementation et Assurance. 2019.

[21] Naveen Sai Madiraju et al. “Deep Temporal Clustering : Fully Unsupervised Learningof Time-Domain Features”. In : CoRR abs/1802.01059 (2018). arXiv : 1802.01059. url :http://arxiv.org/abs/1802.01059.

[22] John Paparrizos et Luis Gravano. “k-Shape : Efficient and Accurate Clustering ofTime Series”. In : Proceedings of the 2015 ACM SIGMOD International Conference onManagement of Data. SIGMOD ’15. New York, NY, USA : ACM, 2015, p. 1855–1870.isbn : 978-1-4503-2758-9. doi : 10.1145/2723372.2737793. url : http://doi.acm.org/10.1145/2723372.2737793.

[23] Dan Pelleg et Andrew Moore. “X-means : Extending K-means with Efficient Estima-tion of the Number of Clusters”. In : Machine Learning, p (jan. 2002).

[24] Matteo Tesser et Fabio Tesser. “KIDs for PRIIPs : a machine-learning shortcut forCategory IV-ALM-based PRIIPs performance scenarios”. In : ().

[25] Understanding LSTM Networks. 2015. url : http://colah.github.io/posts/2015-08-Understanding-LSTMs/.

[26] Timothy Wong et Zhiyuan Luo. Recurrent Auto-Encoder Model for Multidimensio-nal Time Series Representation. 2018. url : https://openreview.net/forum?id=r1cLblgCZ.

viii

https://doi.org/10.1007/BF00337288

https://doi.org/10.1007/BF00337288

https://doi.org/10.1007/BF00337288

https://doi.org/10.1109/TPAMI.1979.4766909



https://doi.org/10.1145/2723372.2737793

http://doi.acm.org/10.1145/2723372.2737793

http://doi.acm.org/10.1145/2723372.2737793

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

https://openreview.net/forum?id=r1cLblgCZ

https://openreview.net/forum?id=r1cLblgCZ

Méthodesdeclassiﬁcationpourl’optimisation descalculs Best ...

Documents

Transcript of Méthodesdeclassiﬁcationpourl’optimisation descalculs Best ...