Post on 18-Jun-2020
ÉTUDE DE DOSSIER ______
Cadre de direction 2019
Concours réservé aux profils scientifiques
Le développement de l’intelligence artificielle et l’exploitation de nouvelles sources de données pourraient conduire à une refonte profonde des métiers bancaires et de leur supervision.
À partir des documents ci-joints, vous répondrez aux questions suivantes :
1. Comment peut-on définir simplement le mouvement « intelligence artificielle » et « big data » ? Comment se distingue-t-il de l’analyse statistique traditionnelle et économétrique ?
2. En partant d’exemples concrets, dresser une typologie des utilisations d’IA et de big data observées dans le secteur financier.
3. Quels sont les limites et les bénéfices de ce type d’approche ?
4. Quels défis posent ces nouvelles techniques aux autorités ?
Les questions sont indépendantes (il n’est pas nécessaire de les recopier) ; nous vous conseillons toutefois de
les traiter dans l’ordre, d’être attentif à la qualité de l’argumentation et à la mobilisation du dossier.
LISTE DES DOCUMENTS JOINTS
1. Big data et intelligence artificielle : un peu de décryptage pour y voir plus clair www.lesechos.fr – 21/07/2016 – 2 pages 2. What’s the difference between IA and statistics? – N. Donelli www.linkedin.com – January 2019 – 2 pages 3. Machine-learning promises to shake up large swathes of finance www.economist.com – 25/05/2017 – 2 pages 4. Intelligence artificielle : vers la banque augmentée… ou diminuée ? Point banque Novembre 2018 – 6 pages 5. Some financial regulatory implications of artificial intelligence – L. D. Wall Journal of Economics and Business, Volume 100 – November-December 2018 – 9 pages 6. For artificial intelligence to thrive, it must explain itself www.economist.com – 15/02/2018 – 5 pages 7. Les limites des modèles comportementaux du big data – P. Seabright www.lemonde.fr – 16/03/2017 – 2 pages 8. The blacklash against big data www.economist.com – 21/04/2014 – 1 page 9. Les dangers et les incongruités du big data – M. Jacot www.lemonde.fr – 23/11/2016 – 2 pages 10. Intelligence artificielle : enjeux pour le secteur financier (extrait) – O. Fliche et S. Yang https://acpr.banque-france.fr – Décembre 2018 – 13 pages 11. « La réglementation économique et financière à l’ère du big data » www.banque-france.fr – 24/11/2017 – 4 pages 12. Communiqué de presse ACPR/AMF https://acpr.banque-france.fr – 21/03/2018 – 1 page
1
CDIR 2019-01 1/2 www.lesechos.fr 21/07/2016
Big data et intelligence artificielle : un peu de
décryptage pour y voir plus clair
Le Big data ! Tout le monde en parle, mais qui sait vraiment de quoi il s’agit et quels en
sont les vrais enjeux ? Au départ, c’est assez simple. Le Big data, c’est la profusion des
données liée à l’accélération de leur production : on estime ainsi que 90 % des données
récoltées depuis le début de l’humanité l’ont été ces deux dernières années...
u départ, c’est assez simple. Le Big data, c’est la profusion des données liée à
l’accélération de leur production : on estime ainsi que 90 % des données récoltées
depuis le début de l’humanité l’ont été ces deux dernières années... Mais Big est
trompeur, car son intérêt n’est pas la quantité, mais les interfaces et liaisons entre ces données.
Elles se font consciemment ou inconsciemment, par exemple un simple « like » d’une image
d’un de vos amis.
À partir de là, les systèmes informatiques vont construire un maillage de données immense à
partir de celles du profil qui a « liké », de ceux des personnes se trouvant sur la photo, des
données relatives au contexte de la photo, etc.
Qui cela peut-il intéresser ? Tout le monde ! On se rue sur ces maillages complexes de data,
car dans un monde de consommation où le marketing est roi, l’exploitation intelligente
d’information est l’essence même du Big data. Les profils liés aux « like » et les données de
la photo vont être traités pour, par exemple, susciter des propositions commerciales diverses à
toutes les personnes concernées. Derrière ces propositions se trouvent les fameux « cookies ».
Mais l’enjeu du Big data va bien au-delà : qui organisera et donnera le meilleur de ces
développements, tout en limitant les risques, notamment liés à la protection de la vie privée ?
Comment organiser la gouvernance des organisations devant un tel champ infini
d’informations ? L’homme aura besoin d’éclairage, et cette lumière sera aussi dans le Big
data, à travers le développement de l’intelligence artificielle.
On l’entend arriver avec Watson, l’intelligence artificielle d’IBM, avec Google qui développe
ses algorithmes de traitement sur l’océan de données dont ils disposent, mais aussi une
quantité de start-ups qui développent des systèmes d’analyse dédiés à la valorisation de
données pour des besoins spécifiques. Le Big data est directement lié à l’intelligence
artificielle au travers d’algorithmes, qui vont s’appuyer sur chacune des caractéristiques des
données et de leur lien pour interpréter des phénomènes.
L’intelligence artificielle d’aujourd’hui est basée sur une approche déterministe proche de la
méthode humaine. Demain, elle sera statistique avec un niveau de fiabilité dépendant du
nombre de boucles de contrôle qui aura été réalisé sur la réponse apportée, créant d’autres
données de confirmation.
Dès lors, l’intelligence artificielle pourra apporter des solutions aux questions de
gouvernance : elle disposera d’assez de données fiables avec des interactions fortes
pour évaluer chaque solution en termes de risques et d’opportunités, sur n’importe quel enjeu,
qu’il soit environnemental, économique, social, etc.
A
1
CDIR 2019-01 2/2 www.lesechos.fr 21/07/2016
Le monde de demain sera gouverné par des hommes qui s’appuieront sur des analyses fines et
spécifiques de ce Big data. Potentiellement, celui d’après-demain pourrait être gouverné par
des machines qui auront créé assez de data décisionnelle et de retour d’expérience étayé pour
décider en autonomie.
Il est donc nécessaire d’encadrer le système pour ne pas abandonner notre liberté à des
machines. Bien régulé, il nous permettra de profiter de cette source de connaissance et
d’intelligence dont les possibilités semblent infinies : fin des frontières physiques,
disponibilité de la connaissance, mobilisation d’une énergie infinie, capacité à collaborer et à
faire collaborer des millions de personnes sur un sujet précis...
L’exploitation intelligente du Big data va donc nécessiter un travail titanesque de filtrage et
d’analyse pour intégrer et partager les connaissances et les savoir-faire. Cette nouvelle ère
sera une ère d’ouverture du monde et d’intégration massive d’opportunités.
Rien que le marché des bâtiments intelligents est estimé à 300 milliards de dollars en 2022 !
Tout le monde pourra y trouver sa place si la peur ne prend pas le dessus. Nous aurons ainsi
une autoroute de croissance à notre disposition qui nous offrira des possibilités infinies, à
condition de savoir extraire la substantifique moelle de ces évolutions et d’en contenir les
potentielles dérives.
2
CDIR 2019-01 1/2 www.linkedin.com January 2019
What’s the difference between AI and statistics?
ince I approached Machine Learning during my Ph.D. in Statistics I’ve always tried to
compare classical statistical approaches and machine learning ones. I mean, they are surely
both fundamentally based on data and they both try to extract some kind of knowledge
from data so where exactly is the difference? What is inherently different in those two fields?
To answer these questions let’s start from the very beginning: the definitions.
Statistics is a traditional field, broadly defined as a branch of mathematics dealing with data
collection, organization, analysis, interpretation and presentation.
Machine Learning is a field of artificial intelligence that uses statistical techniques to give
computer systems the ability to “learn” (e.g., progressively improve performance on a specific
task) from data without being explicitly programmed (ref).
Since machine learning sometimes uses statistical techniques it can easily be confused as
rebranded statistics. But the way statisticians use these techniques is different than the way they
are used by the machine learning scientists.
Leo Breiman in a paper called Statistical Modeling: The Two Cultures gives a very thoughtful
description of this difference describing two approaches to data modeling:
• The Data Model (used by statisticians)
• The Algorithmic Model (used by machine learning scientists)
Naturally both models can be used to understand data and make predictions. But the two
approaches do something fundamentally different. The “Data Model” used by statistician makes
upfront assumptions about the process that generated the data while the “Algorithmic Model”
used by machine learning scientists tend to ignore the process that generated the data
(considering it unknownable or uninteresting) and instead focus to model only the observed
relations between data.
Breiman uses the example of a black box with inputs and outputs.
“The analysis in [the data modeling] culture starts with assuming a stochastic data model for the
inside of the black box … The values of the parameters are estimated from the data and the model
then used for information and/or prediction.” Statisticians validate models using goodness-of-fit
tests and residual examination and the goal of these analyses is exactly to check whether the data
allow to reject the initial hypotheses. If the result is rejection than the model is wrong, either way
simply “the data at hand cannot disprove the correctness of the model” (which is commonly
misunderstood as “the model correctly describe the data-generating process”)
On the other hand the analysis in the algorithmic modeling culture “considers the inside of the
box complex and unknown. Their approach is to find a function f(x)—an algorithm that operates
on x to predict the responses y.” Models are validated using performances on unseen data.
Breiman goes on to explain the thinking of the data modeling culture, practiced by statisticians:
Statisticians in applied research consider data modeling as the template for statistical analysis:
Faced with an applied problem, think of a data model. This enterprise has at its heart the belief
that a statistician, by imagination and by looking at the data, can invent a reasonably good
S
2
CDIR 2019-01 2/2 www.linkedin.com January 2019
parametric class of models for a complex mechanism devised by nature. Then parameters are
estimated and conclusions are drawn.
In other words, classical statistical approaches to fitting a model based on assumptions about how
data were generated can lead to a “multiplicity of models”. And this means that there may be
many models that can fit the data, but these do not necessarily reflect the relationships between
inputs and outputs.
This is not what today’s machine learning practitioners would call “data-driven”.
With data gathered from uncontrolled observations on complex systems involving unknown
physical, chemical, or biological mechanisms, the a priori assumption that nature would
generate the data through a parametric model selected by the statistician can result in
questionable conclusions that cannot be substantiated by appeal to goodness-of-fit tests and
residual analysis.
To be completely fair this problem is also felt in the statistical community and it is faced using
the so-called non-parametric approaches. In particular in classical statistics non-parametric
approaches completely avoid distributional assumptions while Bayesian non-parametric
approaches assume very broad priors on the data distribution and this enable more flexibility still
keeping the advantages that can be brought by a model specification (at the cost of a significative
computational burden).
[The machine learning] community consisted of young computer scientists, physicists and
engineers plus a few aging statisticians. They began using the new tools in working on complex
prediction problems where it was obvious that data models were not applicable: speech
recognition, image recognition, nonlinear time series prediction, handwriting recognition,
prediction in financial markets.
Machine learning grew out of a very different mindset than classical statistic: the focus was on
discovering a function that maps inputs to output so as to make predictions. The data-generating
process is ultimately unknown, and the interest in this case is only in finding a function that can
reliably map new input data to predictions.
Data models are rarely used in this community. The approach is that nature produces data in a
black box whose insides are complex, mysterious, and, at least, partly unknowable. What is
observed is a set of x’s that go in and a subsequent set of y’s that come out. The problem is to find
an algorithm fx such that for future x in a test set, fx will be a good predictor of y.
Summary
Machine learning lets data (and trial-and-error) speak about the relation between inputs to outputs
in a complex system while classical statisticians believe they can represent this mechanism
through a well specified model.
Despite these differences these two fields can benefit from each other: examples of this fruitful
interaction are Bayesian hyper-parameters optimization techniques emerged in the last few years.
But these will be the topic of another post.
Nicola Donelli
Senior Data Scientist, CGnal, Blog Entry, January 2019
3
CDIR 2019-01 1/2 www.economist.com 25/05/2017
Machine-learning promises to shake up large swathes
of finance
In fields from trading to credit assessment to fraud prevention, machine-learning is
advancing.
MACHINE-LEARNING is beginning to shake up finance. A subset of artificial intelligence
(AI) that excels at finding patterns and making predictions, it used to be the preserve of
technology firms. The financial industry has jumped on the bandwagon. To cite just a few
examples, “heads of machine-learning” can be found at PwC, a consultancy and auditing firm,
at JP Morgan Chase, a large bank, and at Man GLG, a hedge-fund manager. From 2019,
anyone seeking to become a “chartered financial analyst”, a sought-after distinction in the
industry, will need AI expertise to pass his exams.
Despite the scepticism of many, including, surprisingly, some “quant” hedge funds that
specialise in algorithm-based trading, machine-learning is poised to have a big impact.
Innovative fintech firms and a few nimble incumbents have started applying the technique to
everything from fraud protection to finding new trading strategies—promising to up-end not
just the humdrum drudgery of the back-office, but the more glamorous stuff up-front.
Machine-learning is already much used for tasks such as compliance, risk management and
fraud prevention. Intelligent Voice, a British firm, sells its machine-learning-driven speech-
transcription tool to large banks to monitor traders’ phone calls for signs of wrongdoing, such
as insider trading. Other specialists, like Xcelerit or Kinetica, offer banks and investment
firms near-real-time tracking of their risk exposures, allowing them to monitor their capital
requirements at all times.
Machine-learning excels in spotting unusual patterns of transactions, which can indicate
fraud. Firms ranging from startups such as Feedzai (for payments) or Shift Technology (for
insurance) to behemoths such as IBM are offering such services. Some are developing the
skills in-house. Monzo, a British banking startup, built a model quick enough to stop would-
be fraudsters from completing a transaction, bringing the fraud rate on its pre-paid cards down
from 0.85% in June 2016 to less than 0.1% by January 2017.
Natural-language processing, where AI-based systems are unleashed on text, is starting to
have a big impact in document-heavy parts of finance. In June 2016 JPMorgan Chase
deployed software that can sift through 12,000 commercial-loan contracts in seconds,
compared with the 360,000 hours it used to take lawyers and loan officers to review the
contracts.
Machine-learning is also good at automating financial decisions, whether assessing
creditworthiness or eligibility for an insurance policy. Zest Finance has been in the business
of automated credit-scoring since its founding in 2009. Earlier this year it rolled out a
machine-learning underwriting tool to help lenders make credit decisions, even for people
with little conventional credit-scoring information. It sifts through vast amounts of data, such
as people’s payment history or how they interact with a lender’s website. Lemonade, a tech-
savvy insurance startup, is using machine-learning both to sell insurance policies and to
manage claims.
3
CDIR 2019-01 2/2 www.economist.com 25/05/2017
Perhaps the newest frontier for machine-learning is in trading, where it is used both to crunch
market data and to select and trade portfolios of securities. The quantitative-investment
strategies division at Goldman Sachs uses language processing driven by machine-learning to
go through thousands of analysts’ reports on companies. It compiles an aggregate “sentiment
score” based on the balance of positive to negative words. This score is then used to help pick
stocks. Goldman has also invested in Kensho, a startup that uses machine-learning to predict
how events like natural disasters will affect market prices, based on data on similar events.
Quantifiable progress
Quant hedge funds, both new and old, are piling in. Castle Ridge Asset Management, a
Toronto-based upstart, has achieved annual average returns of 32% since its founding in
2013. It uses a sophisticated machine-learning system, like those used to model evolutionary
biology, to make investment decisions. It is so sensitive, claims the firm’s chief executive,
Adrian de Valois-Franklin, that it picked up 24 acquisitions before they were even announced
(because of telltale signals suggesting a small amount of insider trading). Man AHL,
meanwhile, a well-established $18.8bn quant fund provider, has been conducting research
into machine-learning for trading purposes since 2009, and using it as one of the techniques to
manage client money since 2014.
So it seems odd that some prominent quant funds are machine-learning sceptics. Martin
Lueck of Aspect Capital finds the technique overrated, saying his firm has found only limited
useful applications for it. David Siegel, co-founder of Two Sigma, a quant behemoth, and
David Harding of Winton Capital, have also argued that the techniques are overhyped.
In other fields, however, machine-learning has game-changing potential. There is no reason to
expect finance to be different. According to Jonathan Masci of Quantenstein, a machine-
learning fund manager, years of work on rules-based approaches in computer vision—telling
a computer how to recognise a nose, say—were swiftly eclipsed in 2012 by machine-learning
processes that allowed computers to “learn” what a nose looked like from perusing millions of
nasal pin-ups. Similarly, says Mr Masci, a machine-learning algorithm ought to beat
conventional trading strategies based on rules set by humans.
The real vulnerability may in any case lie outside trading. Many quant funds depend on
human researchers to sift through data and build algorithms. These posts could be replaced by
better-performing machines. For all their professed scepticism, Two Sigma and its peers are
busy recruiting machine-learning specialists.
___________________________________________________________________________________________
4 4
CDIR 2019-01
1/6
Point Banque
Novembre 2018
__________________________________________________________________________________________
4 4
CDIR 2019-01
2/6
Point Banque
Novembre 2018
__________________________________________________________________________________________
4 4
CDIR 2019-01
3/6
Point Banque
Novembre 2018
_________________________________________________________________________________________
4 4
CDIR 2019-01
4/6
Point Banque
Novembre 2018
__________________________________________________________________________________________
4 4
CDIR 2019-01
5/6
Point Banque
Novembre 2018
__________________________________________________________________________________________
4 4
CDIR 2019-01
6/6
Point Banque
Novembre 2018
Contents lists available at ScienceDirect
Journal of Economics and Business
journal homepage: www.elsevier.com/locate/jeb
Some financial regulatory implications of artificial intelligence
Larry D. WallFederal Reserve Bank of Atlanta, United States
A R T I C L E I N F O
Keywords:Financial institutionsArtificial intelligenceMachine learningFinancial supervisionFinancial regulation
A B S T R A C T
Artificial intelligence has been playing an increasingly large role in the economy and this trendseems likely to continue. This paper begins with a high-level overview of artificial intelligence,including some of its important strengths and weaknesses. It then discusses some of the ways thatAI affect the evolution of the financial system and financial regulation.
1. Introduction
Andrew Ng recently compared the transformative power of artificial intelligence (AI) to that of electricity saying “Just as elec-tricity transformed almost everything 100 years ago, today I actually have a hard time thinking of an industry that I don’t think AIwill transform in the next several years.”1 Although Ng’s timescale may be a bit optimistic, those who have studied recent devel-opments in AI generally agree that it will have a transformative effect on a wide variety of industries. Techniques developed inmachine learning (ML), a subfield of AI, recently achieved considerable public attention with their success in playing the games Go(Hassabis, 2016) and Poker (Condliffe, 2017). Moreover, ML is being used in large-scale production processes such as Amazon’s voicerecognition, Google’s search engines and Netflix’s movie recommendations.
One industry that has attracted considerable interest and is in the early stages of being transformed is the financial servicesindustry. Indeed, Economist (2017) recently proclaimed, “Machine-learning promises to shake up large swathes of finance.” Thetransformations induced by AI and especially ML are also likely to have implications for financial supervisors concerned about theconduct and/or the prudent operation of financial firms. At a minimum, supervisors will need to take account of the opportunities forenhanced compliance and safety created by AI, as well as be aware of the ways that AI could be used undermine the goals of existingregulation. However, ideally the development of AI will do more than just challenge the supervisors to keep up with industry; it willalso create opportunities for supervisors to more efficiently and effectively deploy their resources to accomplish their missions.
This study discusses some of the issues raised by AI for prudential supervisors with a focus on its most popular subfield, ML, andits subfield of deep learning. The second section provides a high-level overview of the current state of AI, including developments inits subfields of ML and deep learning. The third section discusses some of the ways in which AI is being applied by the financialservices industry with an emphasis on applications that are relevant to supervisory concerns. This includes the use of AI to help firmscomply with existing regulation—a part of a broader development often called RegTech. The fourth section considers the usage of AIby prudential supervisors, with an emphasis on how AI can and cannot be helpful. The fifth and sixth sections provides somespeculative thoughts on how developments in AI might over the longer run change the financial services environment and broadereconomy.
E-mail address: larry.wall@atl.frb.org.1 See Lynch (2017).
Journal of Economics and Business 100 (2018) 55–63
T
____________________________________________________________________________________________
5
CDIR 2019-01 1/9 Journal of Economics and Business Vol. 100
November-December 2018
2. Artificial intelligence, machine learning, and deep learning
The terms AI, ML and deep learning are increasingly showing up the general press. However, in order to understand how thesetechnologies may influence financial supervision, first it is important to have at least a high-level understanding of what thesetechnologies are, how they engage in learning, and what are some of their important strengths and weaknesses.
2.1. What is meant by artificial intelligence, machine learning, and deep learning
The terms “artificial intelligence,” “machine learning,” and “deep learning” have been given a variety of definitions over time andthe disagreements in the literature remain unresolved.2 For the purposes of this paper, AI will be defined as in the Oxford Dictionaryas “The theory and development of computer systems able to perform tasks normally requiring human intelligence, such as visualperception, speech recognition, decision-making, and translation between languages.”3 One way of implementing AI is to develop an“expert system.” That is, to build a database of knowledge from human experts and apply this data to offer advice or make decisions.This technique was popular in the 1980s but it has attracted relatively less attention as people working on expert systems have cometo understand better the complexity of many seemingly simple problems.
An alternative way of implementing AI is to have the machine learn directly from the data. In 1959, one of the early pioneers inthe field, Arthur Samuel, defined machine learning as the “field of study that gives computers the ability to learn without beingexplicitly programmed”.4 ML has come to dominate most areas of the field in recent years as improvements in computing speed, dataavailability and analysis techniques have facilitated greater accuracy at lower cost.
ML encompasses a variety of methods that can be employed for a variety of purposes including predicting values, classifyingobjects, discovering structure, and finding unusual data points. Even within each of these purposes, there are a variety of techniquesthat can be used depending upon available resources and the exact problem. Some of these techniques, such as linear and logisticregressions, would be familiar to anyone who has studied basic statistics. However, most economists are not as familiar with someother techniques, such as CART and random forest.
A potential problem with many machine-learning techniques, such as regression analysis, is that these techniques make as-sumptions about the structure of the data being analyzed. These assumptions may not hold even approximately for some problemsand may even be irrelevant for other problems (such as determining whether a picture is a cat). To overcome these difficulties,computer scientists have developed methods loosely based on the working of the human brain to allow machines to learn forthemselves. These methods are called deep learning, which this paper will define as “a subfield of machine learning concerned withalgorithms inspired by the structure and function of the brain called artificial neural networks.”5
The exact way in which neural networks work varies across different types of neural networks and is evolving through time. Asimplified way of viewing artificial neural networks is that they may contain a large number of nodes (thousands or even millions).6
Each node takes in data, and assigns a weight to individual data items. The weighted data values are summed and compared with athreshold value. If the sum is less than the threshold then the node passes through no data, whereas if the threshold is exceeded thenode “fires” and passes along some value (typically the weighted sum of the inputs). The individual nodes are arranged in layers withthe first layer taking in the raw data, processing it and passing the results onto higher-level nodes that then perform similar processes.The neural network typically learns by training on real data in which the correct answer is already known. The training processconsists of adjusting the weights and thresholds to improve the accuracy of the forecast.
2.2. Different ways in which machines can learn
Machines can learn from the data in a variety of different ways including supervised learning, unsupervised learning and re-inforcement learning. In supervised learning, the training data is labeled so that the machine learns to use the input data to predictthe desired output value. For example, the machine is given a large number of pictures that are labeled as having a cat or as nothaving a cat. The machine uses the pictures and learns how to identify the features associated with cats.7 Supervised learning can be
2 Artificial intelligence also can be divided into narrow (or weak) AI and strong AI (or artificial general intelligence, AGI). As with other termsassociated with AI, there is not a single universally accepted definition of these terms. The Future of Life Institute defines narrow AI as AI that “isdesigned to perform a narrow task” but that “AGI would outperform humans at nearly every cognitive task.” This study focuses exclusively oncurrently available techniques, which is to say all of the discussion relates to narrow AI. If AGI is developed, it will have a far more profound impacton the financial system and human society than the technologies discussed in this paper. The Future of Life Institute definitions are available athttps://futureoflife.org/background/benefits-risks-of-artificial-intelligence/.3 See https://en.oxforddictionaries.com/definition/artificial_intelligence. An alternative definition from one of the original pioneers of AI, John
McCarthy in 2007, is that artificial intelligence is: “the science and engineering of making intelligent machines…”. He followed up this by definingintelligence as “Intelligence is the computational part of the ability to achieve goals in the world…”. (See http://www-formal.stanford.edu/jmc/whatisai/node1.html) I prefer the Oxford Dictionary definition because of its relative clarity.4 Arthur Samuel is widely attributed to having given this definition in 1959. For example, see https://www.coursera.org/learn/machine-learning/
lecture/Ujm7v/what-is-machine-learning.5 This definition comes from Brownlee (2016).6 This example is obtained from Hardesty (2017).7 Mordvintsev, Olah, and Tyka (2015) provide a high-level description of how a neural network identifies what is in a picture. They note that each
____________________________________________________________________________________________
5
CDIR 2019-01 2/9 Journal of Economics and Business Vol. 100
November-December 2018
used to categorize items (whether something is a cat) and to predict numerical values (such as stock returns).Alternatively, the machine can engage in unsupervised learning in which the input data are not labeled. Probably the most
common method of unsupervised learning is that of clustering, that is for finding patterns in the data.A third type of learning is called reinforcement learning. Here the algorithm makes a decision at each step and is “rewarded” for
taking good actions.8 One area where reinforcement learning has been applied is the area of playing games such as Go and Poker.
2.3. Some of the strengths and limitations of machine learning
In order for most contemporary economists to understand the strengths and weaknesses of ML, it is helpful to compare ML tostatistics, a discipline better known to most economists. Wasserman (2012) raises the question of the differences between ML andstatistics. His short answer is “None. They are both concerned with the same question: how do we learn from data?” He proceeds toargue that there are difference between the ML and statistics in practice, but that these differences are more due to historical andsociological reasons. Statistics arose before computers and tends to emphasize “formal statistical inference (confidence intervals,hypothesis tests, optimal estimators) in low dimensional problems.” In contrast, ML originated in computer science departments and“emphasizes high dimensional prediction problems.” However, he observes that the differences between the fields become “blurrierall the time.”
2.3.1. Machine learning versus statisticsThe difference between statistics’ emphasis on hypothesis testing and ML’s emphasis on prediction lead to both a strength and
weakness in ML relative to statistics. Historically economists have developed empirically testable hypotheses from their theories andused statistics to test these hypotheses. This approach is used to overcome a well-known limitation of statistics that significantcorrelation between two variables need not indicate that a causal relationship exists. Empirical tests of theoretically developedhypotheses overcame this limitation by putting the burden of identifying causal relationships on theory. However, ML’s emphasis onprediction problems has led it to take an atheoretical approach to its analysis. As a result, ML can identify relationships that have not(yet) been identified by theory but it does so at the cost of potentially identifying relationships that are not causal and, thus, cannot bedirectly exploited. One way that users of ML techniques address this problem is to take an “iterative and experimental” approach inwhich small-scale, real world tests are run to determine which correlations identified by ML techniques can be usefully exploited in acausal manner.
Along with the limitations ML imports from statistics, ML that relies on the currently popular deep learning techniques has oneother important limitation. The process by which deep learning techniques reach decisions is unclear. Deep learning techniquesprovide predictions but they do not provide insight into how the variables are being used to reach those predictions (Knight, 2017a).
2.3.2. Machine learning versus human capabilitiesGiven that ML is a form of statistics, some well-known strengths and limitations relative to human capabilities follow almost
immediately. One strength of ML and statistics are that they are designed to process far more data than could be done by any human.This allows machine-learning techniques to identify empirical relationships that humans could easily miss. A second advantage is thatthe computer provides a level of consistency that is not possible for humans who are sometimes distracted by hunger, lack of sleep ornon-work related issues in their lives. A third strength of ML in large-scale operations is that it typically has substantially lower costmarginal costs than reliance on humans.
However, ML also imports the same limitations as statistics. Two important limitations for the use of ML in finance follow fromRowe (2013) observation that “No amount of complex mathematical/statistical analysis can possibly squeeze more information froma data set than it contains initially.”9 The first of these limitations is that there need to be sufficient historical examples of thephenomenon for the empirical analysis to identify the factors that reliably predict its occurrence. As an example of a potentiallyimportant event for which we (fortunately) have too few examples, one may want to predict the probability that a developed countrywould default on its sovereign debt in the next five years. However, the problem of an absolute lack of events is relatively easy toidentify compared with the problem of a lack of events due to a particular cause. For example, one might apply ML to a bank’shistorical credit experience to help predict delinquencies and the model might prove highly accurate given these data. However,before a loan could show up in the bank’s database, a customer must first have applied for the loan and the bank must have grantedthe loan based on various known and possibly unknown criteria. Thus, the data may not provide very good estimates for customergroups that would not historically have applied to that bank for the loan or who the bank had historically screened out prior to thecompletion of an application.
(footnote continued)layer in the extracts higher and higher order features of the image. The first layer may look for edges or corners, the intermediate layers interpret thefeatures to look for overall shapes such as that of a door or leaf. The last few layers assemble the information on these shapes to provide completeinterpretations.8 One could think of rewards as positive or negative points that are assigned to the transition to certain states. The algorithm controlling the
weights and thresholds for individual neurons seeks to maximize these rewards (maximize an objective function based on the rewards), allowing itto learn how to better achieve whatever goal it is being assigned.9 Reinforcement learning can avoid this problem by generating its own data, such as having a machine compete against another machine in the
game of Go.
____________________________________________________________________________________________
5
CDIR 2019-01 3/9 Journal of Economics and Business Vol. 100
November-December 2018
The second limitation that follows from Rowe is that for ML to predict a phenomenon, that phenomenon must be labeled in thedata. This can be a problem, for example, if one knows that a data set of transactions contains a significant number of cases involvingfraud but cannot say which transactions were fraudulent. This limitation can be somewhat mitigated in some cases, however, by theuse of unsupervised learning. For example, unsupervised ML techniques may be applied to a dataset to identify a set of transactionswith characteristics that are different from the others. Unusual transaction may then be further analyzed to determine whether theyare a result of fraud.
3. Applications of machine learning by banks
Although the application of ML to financial problems is relatively new, banks and other financial firms have begun exploring andusing ML in a variety of ways. The following subsections highlight some of the ways banks are or could use ML to serve theircustomers better and to meet increasingly demanding regulatory requirements.
3.1. Some uses of machine learning to serve customers
Banks are using ML in a variety of ways to serve their customers. Some of these applications have been in place for years. Forexample, van Liebergen (2017) reports that banks have been using ML techniques for over a decade to detect credit card fraud withsome significant success. Some other relatively new uses are similar to those being employed by nonfinancial firms, such as Bank ofAmerica’s development of the chatbot “erica.”10 However, ML has potential applications in a variety of areas in the financial servicesthat raise unique regulatory questions.
One obvious area that could potentially benefit from ML is that of measuring credit risk.11 A lender that could identify customersthat are currently paying higher credit risk premiums than is justified could gain profitable market share by offering these customerslower price loans. Similarly, a lender that could identify customers that are being undercharged for credit risk could reduce its lossesby charging them more or denying their loan request. However, the use of ML for lending also raises several potential problems. First,the data used to train the machine-learning algorithm may not be representative of the range of customers that will apply for theloans leading to an increased error rate. A second problem is that as people learn how the model works, the higher risk borrowers canlearn to mimic the behavior of lower risk borrowers before applying for a loan. Both of these problems are relatively well understoodamong experienced lenders and can be at least somewhat mitigated by careful monitoring of delinquencies after the loans have beengranted.
Lending decisions might be significantly improved by the application of current deep learning techniques; however, the lack oftransparency in these models is a potentially large obstacle. The U.S. prohibits discrimination based on various categories includingrace, sex and marital status. Moreover, a lending algorithm could be found in violation of this prohibition even if the algorithm doesnot directly use any of the prohibited categories but rather uses data that may be highly correlated with protected categories, such asgrammatical errors in the lending application according to Petrasic, Saul, Greig, and Bornfreund (2017).12 The lack of transparencycould become an even more difficult problem in the European Union (EU) where the General Data Protection Regulation gives theircitizens the right to receive an explanation for decisions based solely on automated processing according to Goodman and Flaxman(2016). Various efforts are underway to mitigate the lack of transparency and make deep learning results more transparent.13
Another use of ML is to develop strategies for investing and order execution. Kirilenko and Lo (2013) discuss the developments infinancial and computing technology that have led algorithmic trading to become a major part of trading in the financial systems.Initially these computer models relied on human programming. However, ML is coming to play an increasingly large role. Forexample, the world’s largest asset manager, Blackrock, announced that it is going to rely more on computers to pick stocks and that itwas laying off 40 employees including portfolio managers.14 More recently Noonan (2017) reports that JP Morgan will use ML toexecute trades for its customers in equity markets.
The increased use of machines in investment advising and trading comes with some risks. One concern is that the application ofML could facilitate more trading errors. Kirilenko and Lo (2013) quote the technology-specific corollary of Murphy’s Law: “whatevercan go wrong will go wrong faster and bigger when computers are involved.” They provide several examples of things going wrong,albeit none directly attributable machine learning. These examples included flash crashes in which prices suddenly and very dra-matically spiked up or down for no apparent reason.15 A deeper concern expressed by Carney (2017b) is that it could lead to “excess
10 See Crosman (2017) for a discussion of erica.11 See Jagtiani and Lemieux (2018) for an analysis of the use of big data and machine learning by the LendingClub.12 The U.S. Consumer Financial Protection Bureau (2017a) issued a request for information on the use of alternative data and modeling tech-
niques (including machine learning). A no action letter was issued by the U.S. Consumer Financial Protection Bureau (2017b) with regards to the useof alternative data and new technologies such as machine learning by Upstart Network. The no action letter comes with requirements for monthlyreporting to the agency.13 See Knight (2017b) for a discussion of some efforts to make deep learning models decisions more transparent.14 See Reuters (2017) for more on the announcement and Segal (2016) for a discussion of Blackrock’s use of AI and ML.15 Another example of a problem made worse by automation given by Kirilenko and Lo (2013) relates to Knight Capital Group, Inc. on August 1,
2012. Knight encountered a problem at the opening of the market with some software installation that resulted in a large volume of unintendedtrades. Knight was not able to void the trades, so it had to liquidate its positions. The resulting losses wiped out most of Knight’s capital and forced itto sell itself to GETCO.
____________________________________________________________________________________________
5
CDIR 2019-01 4/9 Journal of Economics and Business Vol. 100
November-December 2018
volatility or increase pro-cyclicality as a result of herding.” His concern is that the underlying algorithms could be too sensitive toprice moves or that the algorithms may produce highly correlated recommendations.
ML is also being used in RegTech (regulatory technology) to reduce the cost and increase the effectiveness of compliance withvarious regulatory requirements. One regulatory area that has been especially challenging for many large U.S. banks is that of theComprehensive Capital Analysis and Review (CCAR). CCAR not only requires banks to demonstrate they would remain adequatelycapitalized through a stressful scenario; the banks also have to demonstrate that they have a “robust forward-looking capital-planningprocess” which requires adequately documenting the processes used in their modeling.16 ML techniques helped Citigroup pass CCARby improving the way the bank developed its internal models.17
Another area where ML is being applied is in the area of conduct and market abuse in trading. Carney (2017a) states that globalbanks misconduct costs have exceeded $230 billion. One of the responses of banks according to van Liebergen (2017) is to developautomate systems that monitor a variety of behavior by traders. The behaviors may include trading patterns, e-mail traffic, calendaritems, and even telephone calls. Among the challenges discussed by van Liebergen (2017) is that often there is a lack of labeled datafor supervised learning and the need to be able to audit the results.
4. Financial supervision and regulation
The terms “supervision” and “regulation” are often used interchangeably as a shorthand for “supervision and regulation.”However, these terms relate to different activities and those differences have important implications for the potential contribution ofML.
Regulation is a formal process of writing the rules that define acceptable behavior. In the U.S., the Congress often provides thefederal financial agencies with a general set of goals and specific tools to obtain those goals. The agencies then write relatively moredetailed sets of requirements that specify a range of conduct that is not acceptable behavior (or alternatively, a range of behavior thatis acceptable).
The enforcement of regulations is referred to as supervision. The federal financial agencies typically use some combination of off-site data analysis and on-site examinations to evaluate compliance with the regulations. Whether a financial firm complies with aregulation is sometimes readily determined, especially if the regulation draws a bright boundary between acceptable and un-acceptable behavior based on readily observable facts. However, the determination of compliance with other regulations is not sostraightforward. For example, a bank may report that it complies with minimum regulatory capital requirements but examiners willwant to check periodically to confirm that the bank has not overstated its capital by delaying recognition of some of the deteriorationin its asset values. Moreover, in some cases the boundary between acceptable and unacceptable is rather fuzzy, as for example therequirement that a bank operate in a “safe and sound” manner. In these cases, the agency may readily identify potential problems butneed to engage in further examination and discussion with the bank to determine if this requirement is being violated.
Given these important differences, the following two subsections discuss the use of ML in supervision and then in regulation.
4.1. Supervision
ML can be a valuable input into financial supervision by helping financial supervisors to identify issues that need further analysis.The financial supervisors can evaluate the issues identified by ML based on their accumulated knowledge about the relevant marketsand/or institutions. Additionally, the financial supervisors may conduct further analysis using various other inputs, including dis-cussions with industry participants, to evaluate these issues.
The potential for ML to provide a useful input is highlighted by the longstanding application and proven usefulness of conven-tional statistics to analyzing financial data. Various aspects of the financial system have been analyzed in the thousands of empiricalpapers written on this topic. Some of these papers help us to better understand the financial system but have no direct ties to financialsupervision. However, other parts of the literature have contributed directly to financial supervision. For example, the large ac-counting literature on earnings manipulation has contributed to the ability of the Securities and Exchange Commission (SEC) toidentify violations of that agency’s disclosure requirements. Another example is the so-called early warning literature that seeks toidentify banks that are more likely to become distressed or fail. Bank supervisors have used insights from this literature to allocatemore supervisory resources to the banks most likely to benefit from those resources.
The usefulness of standard statistical analysis is limited relative to ML in at least two important ways. First, statistical analysisdepends upon being able to represent the data in numerical form with categorical data typically converted to discrete numbers. MLcan apply natural language processing to deal directly with words. For example, Bauguess (2017) discusses the application of ML tothe SEC’s file of tips, complaints and referrals. This application helps to identify common themes that allowed the individual reportsto be tagged.
A second difference between ML and statistics is that almost all of the statistical analysis comes from tests of empirical hypothesesderived from theory. As such, the relationships uncovered are likely to be causal (albeit not guaranteed in all cases), but statisticiansoften ignore large numbers of possibly relevant variables for which the theory has no predictions. ML in contrast lets the availabledata speak for itself, potentially revealing important relationships that have not yet been identified by theorists. Both the
16 Quote taken from https://www.federalreserve.gov/supervisionreg/stress-tests-capital-planning.htm.17 See Arnold (2016). See also Woods (2015) for a discussion of how ML can be applied to revenue forecasting models for CCAR.
____________________________________________________________________________________________
5
CDIR 2019-01 5/9 Journal of Economics and Business Vol. 100
November-December 2018
unsupervised and supervised versions of ML can be useful. The unsupervised version can help by clustering observations into groupsallowing further analysis of the individual groups and of the outliers that do not appear to fit into any group. The supervised versioncan be even more useful in helping to identify potential violations of regulations. Bauguess (2016) discusses the SEC’s work to applyML to the analysis of the narrative disclosures in financial statements to help determine the risk of violations of various disclosurerules.18 He observes, however, that the SEC is using ML only to flag activities that might violate existing regulations and not to be a“Robocop” that automatically imposes penalties without further investigation by humans.
4.2. Regulation
ML as an atheoretic application of statistics provides some potentially useful benefits that cannot be obtained from conventionalstatistics. However, the atheoretical nature of ML also imposes significant limits on the use of ML in writing regulations. Additionally,ML and statistics share an important common limitation in that both depend upon available data. The next two subsections discussionthe implications of ML being atheoretical and of ML being limited by available data.
4.2.1. Benefits and limits from atheoretical analysisThe potential benefit of atheoretical ML analysis arises from its imposition of less structure on the empirical analysis and thereby
letting the data speak for itself. As a result, ML has the potential for uncovering previously hidden relationships that allow for a betterunderstanding of financial markets and institutions. In supervised learning this benefit not only includes the possibility of identifyingrelationships with new variables, it also includes the potential for better understanding of non-linear relationships (includingthreshold effects) and uncovering previously unrecognized interactions among the variables. Additionally, unsupervised learning canreveal commonalities across seemingly different groups, as well as highlighting activities and firms that are outliers.
The cost of letting the data speak for itself without the constraints of theory is that the correlations it identifies need not be causalrelationships. The problem with using such correlations in the writing of regulations is that regulation are intended to impose bindinglimits on individuals’ behavior. Yet if the relationship identified by ML is not a causal relationship then the risk arises that theregulation will impose costly constraints without necessarily helping to contribute to the underlying public policy goal of the reg-ulation. Further, once a regulation is written, it is not easily rewritten—that is regulation writing is rarely “iterative and experi-mental.” In part, the problem with rewriting the rules arises from the normal slow pace of any bureaucracy, and in part because therule writing process typically requires that changes to regulation be issue in a proposed format with a comment period for the publicto respond. Moreover, regulations often produce clear winners that gain a competitive advantage by optimizing their operationsgiven the constraints imposed by the regulation. These winners may fight to keep even inefficient regulations in place. Thus, reg-ulations are rarely written with the idea that they will be revisited and likely rewritten in the near future to reflect new informationgenerated by the regulation itself.
4.2.2. Limits imposed by available dataRowe’s (2013) admonition about the limits a data set imposes on statistics, and by implication ML, has some important con-
sequences for ML’s usefulness in helping to write regulations. ML can provide at best limited assistance on issues where we have littleor no data. Unfortunately, as Wall (2016) observes, some of the most important questions in financial regulation relate to issues onwhich we have limited data.
Two of the primary goals of financial regulation are the preservation of financial system stability and the prevention of significantlosses due to the failure of individual large financial institutions. Fortunately, from a social perspective, bouts of financial instabilityand large losses are rare tail events. However, that implies that almost all of the data we have are from normal times when thefinancial system and the large institutions are not under stress. ML can use these data from normal times to help identify thosevariables that are useful in predicting losses during normal periods. However, in order to use these results to reduce the risk ofinstability and large institution failure, we need some theory or parametrical statistical structure linking the data obtained in normaltimes to the determinants of large losses that could threaten overall stability and individual institutions.
The regulation of financial firms’ capital is one good example where available data limits what ML can do to improve regulation.The Basel capital accords set minimum capital requirements with the goal of ensuring that equity capital levels will remain non-negative with an over 99% probability. The U.S. supplements the Basel standards with stress testing designed to make sure that abank has enough capital to not only remain solvent but also continue lending even in the event the economy undergoes a severerecession. Both of these ways of measuring capital adequacy require the projection of losses in parts of the distribution where bankshave relatively little data. Thus, in both cases the supervisors and banks rely on theories about the distribution of losses to link thedata that is available in abundance on normal times to what we might expect in situations where we have little or no directexperience. Although ML has proven useful in analyzing data from normal times, no improvements in ML techniques or increases indata from normal times can replace the need for theories or parametric statistical structure linking what we can observe to whatmight happen in extreme cases.
Another important question in writing regulations is evaluating how regulatees and others will respond to changes in regulation.The goal of regulation is to change behavior by imposing binding limits on legally acceptable behavior. In response to a change in
18 A possible limitation of this approach, however, is that those filing the disclosure statements will learn what sort of language is likely to triggeran SEC examination.
____________________________________________________________________________________________
5
CDIR 2019-01 6/9 Journal of Economics and Business Vol. 100
November-December 2018
regulation, agents are likely to seek to re-optimize their behavior given the new constraints imposed by regulation. However, this re-optimization is likely to involve not only the intended changes in behavior but also unintended changes by both regulatees and othersinvolved in related activities. These unintended changes may lead to changes in the structure of the relevant financial markets andinstitutions that have important implications for the effectiveness of the regulation and possibly even for the effectiveness of otherregulations. Unfortunately, the data that ML uses to make its predictions at the time a new regulation is being written are necessarilydrawn from a market structure optimized for the old regulations. Hence, ML cannot predict whether or how a new regulation willchange the structure of financial markets or institutions. Nevertheless, ML can still be helpful in writing regulations to the extent ithelps regulators better understand current behavior and this helps them predict responses to changes in regulations. Machinelearning may also help regulators in identifying some of the unintended consequences leading to a faster response.
5. The importance of data
Given that ML’s ability to extract insights is limited to the information contained in the dataset it is analyzing, the quantity,quality and diversity of data is an important determinant of the insights that can be obtained from machine learning. Indeed, anincreasingly popular phrase that highlights the importance of data is that “data is the new oil” of the modern economy.19
The fintech industry in general, including ML applied to financial problems, has seen an explosion in competition. New firms areusing ML to enter the financial services industry and existing firms are using ML to enter new subsectors of financial services. Many ofthese entrants will fail due to inferior business plans and/or inferior execution. However, the benefits of access to more data suggeststhere may also be substantial economies of scale for financial firms that rely on ML for critical tasks such as obtaining customers andmanaging risks. Indeed, the behavior of the tech firms that are currently leaders in ML suggests that they perceive data as animportant source of competitive advantage. Simonite (2017) observed that while some of the large tech firms such as Google andMicrosoft have made their software available to others, they are “hoarding” those data sets that are of the most commercial value.20
To the extent that the application of ML to ever larger datasets conveys substantial competitive advantages in financial services,that could have significant implications for the structure of the financial services industry. Firms that provide the best ML enabledproducts will be able to gradually gain market share and in doing so obtain even more data with which to improve their MLpredictions and competitive position. The end game could be a tenuous existence for the smaller firms competing against the MLgiants resulting in reduced competition in financial services. If ML conveys such a competitive advantage, the resulting winners couldbecome substantially larger and their financial condition even more important to overall financial stability (i.e., it could make thetoo-big-to-fail problem even worse).
To the extent that data hoarding conveys a competitive advantage, one way of limiting this advantage is by reducing the extent towhich individual firms have exclusive access to data.21 The simplest approach, that of forcing everyone to share all of their data, islikely not feasible in many countries (and arguably not desirable) because of its implications for customer privacy.22 Simonite (2017)suggests one way of reducing the advantage of larger firms is for the smaller firms to pool voluntarily their data, as is sometimes doneby smaller insurance firms. Such pooling could reduce the competitive advantage of larger firms but could also raise privacy con-siderations similar to those of forced data sharing.23 Another alternative would be for the legal system to take the position that thecustomer owns their data and can share it as they chose. The European Union in its Payment Systems Directive 2 (PSD2) has recentlytaken this approach. The limitations of allowing customers to share their data is that the customer must find that the personal benefitsthey receive from sharing the data outweighs the loss in privacy and other potential risks.
6. Impact of ML through its effect on the rest of the economy
ML is likely to produce economic winners and losers in the broader nonfinancial economy as is true with the adoption of manynew technologies. What is potentially different about the impact of ML relative to prior technological changes, as observed by DavidNg, is its capability of touching almost every part of the economy. Moreover, Manyika et al. (2017) study for the consulting companyMcKinsey estimates that just over 50 percent of the activities currently undertaken in the global economy could be replaced byautomation within the next 40 years, although that estimate could be off by 20 years in either direction. Whether this vision on thepart of ML advocates will be fully realized remains to be seen. However, if a substantial portion of this vision is realized, it would havelarge effects on the economic environment in which the financial services operates.
19 For a discussion of the origin of this phrase, see https://www.quora.com/Who-should-get-credit-for-the-quote-data-is-the-new-oil.20 Some hedge funds are also seeking and obtaining exclusive access to some datasets to improve their trading performance according to Fortado,
Wigglesworth, and Scannell (2017).21 For example, Wildau (2017) reports that the People’s Bank of China has ordered online payment groups to funnel their payments through a
centralized clearing house. He quotes one fintech analyst as saying this will likely result in payments information being shared with commercialbanks, thereby limiting the market power of the online services Alipay and Tencent.22 Privacy is not only relevant to individuals but also to corporations. A corporation’s competitive position could be significantly weakened if
other firms could observe its financial transactions.23 Sharing of data by small firms could lead to herding behavior on the part of these institutions, possibly resulting a the “too-many-to-fail”
situation discussed by Acharya and Yorulmazer (2007). However, this potential increase in financial fragility would be at least partially offset to theextent that increased sharing allowed these smaller firms to continue operating rather than have their business acquired by one of a handful of MLgiants.
____________________________________________________________________________________________
5
CDIR 2019-01 7/9 Journal of Economics and Business Vol. 100
November-December 2018
ML is already producing winners in the tech industry and firms in many other industries are at varying stages of developing MLprojects intended to enhance their competitiveness. Some of these firms will prove better able to execute ML and apply it to theirbusinesses in ways that give them significant competitive advantage. In doing so, these firms will be seeking skilled people to preparethe data, develop the models and apply the models to their businesses. Individuals involved in this process are likely to do well in thelabor market. These winning firms and individuals are likely to become profitable consumers of increased financial services.
However, to the extent that ML helps determine which firms are the winners that gain market share and profitability, it will resultin other firms losing market share and profitability. Some of the losers in this process are likely to face the prospect of having to sellout to firms that are more successful or be at risk of failure. Just as financial firms can profit from timely identification of the winners,they can also avoid losses by timely identification of the losers.
Similarly, although ML has the potential to create some winners in the labor market, it also has the potential to produce auto-mation that displaces many workers. There is an ongoing debate about whether sufficient new jobs will arise for the displacedworkers. However, even if new jobs arise over the long run, some workers face the prospect of the destruction of a substantial part oftheir human capital. Moreover, ML’s ability to perform human tasks is not limited to low skilled jobs. Some tasks done by well-educated, highly skilled workers can also be done using ML. For example, JP Morgan Chase, has a new program, called COIN, forContract Intelligence, that interprets commercial-loan agreements. Prior to the project going on-line, that task required 360,000hours of work each year by lawyers and loan officers.
7. Conclusion
The rapid development and employment of AI techniques has the potential to transform the financial services industry along withmany sectors in the real economy. To the extent this potential is realized, AI will have substantial implications for financial conductand prudential supervisors. Moreover, AI has the potential to help supervisors identify potential violations and help regulators betteranticipate the impact of changes in regulation.
References
Acharya, V. V., & Yorulmazer, T. (2007). Too many to fail—An analysis of time-inconsistency in bank closure policies. Journal of Financial Intermediation, 16(1), 1–31.Arnold, M. (2016). Market grows for ‘regtech’, or AI for regulation. Financial Times (October 14) Available at https://www.ft.com/content/fd80ac50-7383-11e6-bf48-
b372cdb1043a.Bauguess, S. W. (2016). Has big data made us lazy? Speech given to the Midwest Region Meeting – American Accounting Association (AAA). Available at https://www.sec.
gov/news/speech/bauguess-american-accounting-association-102116.html.Bauguess, S. W. (2017). The role of big data, machine learning, and AI in assessing risks: A regulatory perspective. Speech given to OpRisk North America 2017. Available
https://www.sec.gov/news/speech/bauguess-big-data-ai.Brownlee, J. (2016). What is deep learning? Machine Learning Mastery. (April 16). Available at https://machinelearningmastery.com/what-is-deep-learning/.Carney, M. (2017a). Remarks at the banking standards board panel worthy of trust? Law, ethics and culture in banking. Speech at a Bank of England Conference. (March 21).
Available at http://www.bankofengland.co.uk/publications/Documents/speeches/2017/speech970.pdf.Carney, M. (2017b). The promise of fintech – Something new under the sun? Speech at the Deutsche Bundesbank G20 Conference on Digitising Finance, Financial Inclusion and
Financial Literacy. Available at http://www.bankofengland.co.uk/publications/Documents/speeches/2017/speech956.pdf.Condliffe, J. (2017). An AI poker bot has whipped the pros (January 31). Available atMIT Technology Reviewhttps://www.technologyreview.com/s/603544/an-ai-poker-
bot-has-whipped-the-pros/.Consumer Financial Protection Bureau (2017a). CFPB explores impact of alternative data on credit access for consumers who are credit invisible. Press Release, available at
https://www.consumerfinance.gov/about-us/newsroom/cfpb-explores-impact-alternative-datacredit-access-consumers-who-are-credit-invisible/.Consumer Financial Protection Bureau (2017b). CFPB announces first no-action letter to upstart network. Press Release, available at https://www.consumerfinance.gov/
about-us/newsroom/cfpb-announces-first-no-action-letter-upstart-network/.Crosman, P. (2017). B of A gives its bot time to become a banker. American Banker (May 15). Available at https://www.americanbanker.com/news/b-of-a-gives-its-bot-
time-to-become-a-banker.Economist (2017). Machine-learning promises to shake up large swathes of finance. (May 25). Available at https://www.economist.com/news/finance-and-economics/
21722685-fields-trading-credit-assessment-fraud-prevention-machine-learning.Fortado, L., Wigglesworth, Robin, & Scannell, Kara (2017). The Big Read Hedge funds. Financial Times (August 28).Goodman, B., & Flaxman, S. (2016). European Union regulations on algorithmic decision-making and a “right to explanation”. arXiv preprint arXiv:1606.08813 (2016).
Available at https://arxiv.org/pdf/1606.08813.pdf.Hardesty, L. (2017). Explained: Neural networks. MIT News (April 14).Hassabis, D. (2016). AlphaGo: Using machine learning to master the ancient game of Go. (January 27). Available at https://www.blog.google/topics/machine-learning/
alphago-machine-learning-game-go/.Jagtiani, J., & Lemieux, C.e (2018). The roles of alternative data and machine learning in fintech lending: Evidence from the lendingClub consumer platform. Federal Reserve
Bank of Philadelphia Working Paper No. 18-15 Available at https://www.philadelphiafed.org/-/media/research-and-data/publications/working-papers/2018/wp18-15.pdf.
Kirilenko, A. A., & Lo,, A. W. (2013). Moore’s law versus Murphy’s law: Algorithmic trading and its discontents. Journal of Economic Perspectives, 27(2), 51–72.Knight, W. (2017a). The Dark Secret at the Heart of AI. MIT Technology Review (April 13) Available at https://www.technologyreview.com/s/604087/the-dark-secret-at-
the-heart-of-ai/.Knight, W. (2017b). The financial world wants to open AI’s black boxes. MIT Technology Review (April 13) Available at https://www.technologyreview.com/s/604122/
the-financial-world-wants-to-open-ais-black-boxes/.Lynch, S. (2017). Ng A.: Why AI is the new electricity. Insights by Stanford Business (March 11). Available at https://www.gsb.stanford.edu/insights/andrew-ng-why-ai-
new-electricity.Manyika, J., Chui, M., Miremadi, M., Bughin, J., George, K., Willmott, P., et al. (2017). A future that works: Automation, employment, and productivity (January).
Available at https://www.mckinsey.com/∼/media/McKinsey/Global%20Themes/Digital%20Disruption/Harnessing%20automation%20for%20a%20future%20that%20works/MGI-A-future-that-works_Full-report.ashx.
Mordvintsev, A., Olah, C., & Tyka, M. (2015). Inceptionism: Going deeper into neural networks. Google Research Blog (June 17) Available at https://research.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html.
Noonan, L. (2017). JP Morgan Develops Robot to Execute Trades. Financial Times (July 31).Petrasic, K., Saul, B., Greig, J., & Bornfreund, M. (2017). Algorithms and bias: What lenders need to know. White and Case Available at https://www.whitecase.com/
____________________________________________________________________________________________
5
CDIR 2019-01 8/9 Journal of Economics and Business Vol. 100
November-December 2018
publications/insight/algorithms-and-bias-what-lenders-need-know.Reuters (2017). BlackRock is cutting jobs and banking on robots to beat the stock market. Fortune (March 29) Available at http://fortune.com/2017/03/29/blackrock-
robots-stock-picking/.Rowe, D. M. (2013). Risk management beyond VaR. Paper presented at the Federal Reserve Bank of Atlanta 2013 Financial Market Conference (April 10). Available at
https://normaldeviate.wordpress.com/2012/06/12/statistics-versus-machine-learning-5-2/.Segal, J. (2016). BlackRock is making big data bigger. Institutional Investor (November 1). Available at http://www.institutionalinvestor.com/article/3598029/asset-
management-fixed-income/blackrock-is-making-big-data-bigger.html#/.WahmfsiGOr1.Simonite, T. (2017). AI and ‘Enormous Data’ could make tech giants harder to topple. Wired (February 27). Available at https://www.bloomberg.com/news/articles/
2017-02-28/jpmorgan-marshals-an-army-of-developers-to-automate-high-finance.van Liebergen, B. (2017). Machine learning: A revolution in risk management and compliance? Institute for International Finance Research Note (April 27), Available at
https://www.iif.com/file/19459/download?token=1JQdTzAX.Wall, L. D. (2016). Prudential regulation, big data, and machine learning. Notes from the vault (November). Available at https://www.frbatlanta.org/cenfis/publications/
notesfromthevault/11-prudential-regulation-bigdata-and-machine-learning-2016-11-21.aspx.Wasserman, L. (2012). Statistics versus machine learning. Normal deviate (June 12). Available at https://normaldeviate.wordpress.com/2012/06/12/statistics-versus-
machine-learning-5-2/.Wildau, G. (2017). China targets mobile payments oligopoly with clearing mandate. Financial Times (August 9). Available at https://www.ft.com/content/3bcb5150-7cce-
11e7-9108-edda0bcbc928.Woods, M. (2015). Creating effective revenue forecast models for CCAR. (March 25) Available at https://s3.amazonaws.com/cdn.ayasdi.com/wp-content/uploads/2017/
02/13111852/creating-effective-revenue-forecast-models-for-ccar.pdf.
____________________________________________________________________________________________
5
CDIR 2019-01 9/9 Journal of Economics and Business Vol. 100
November-December 2018
6
CDIR 2019-01 1/5 www.economist.com 15/02/2018
For artificial intelligence to thrive, it must explain
itself
If it cannot, who will trust it?
SCIENCE fiction is littered with examples of intelligent computers, from HAL 9000 in
“2001: A Space Odyssey” to Eddie in “The Hitchhiker’s Guide to the Galaxy”. One thing
such fictional machines have in common is a tendency to go wrong, to the detriment of the
characters in the story. HAL murders most of the crew of a mission to Jupiter. Eddie obsesses
about trivia, and thus puts the spacecraft he is in charge of in danger of destruction. In both
cases, an attempt to build something useful and helpful has created a monster.
Successful science fiction necessarily plays on real hopes and fears. In the 1960s and 1970s,
when HAL and Eddie were dreamed up, attempts to create artificial intelligence (AI) were
floundering, so both hope and fear were hypothetical. But that has changed. The invention of
deep learning, a technique which uses special computer programs called neural networks to
churn through large volumes of data looking for and remembering patterns, means that
technology which gives a good impression of being intelligent is spreading rapidly.
Applications range from speech-to-text transcription to detecting early signs of blindness. AI
now runs quality control in factories and cooling systems in data centres. Governments hope
to employ it to recognise terrorist propaganda sites and remove them from the web. And it is
central to attempts to develop self-driving vehicles. Of the ten most valuable quoted
companies in the world, seven say they have plans to put deep-learning-based AI at the heart
of their operations.
Real AI is nowhere near as advanced as its usual portrayal in fiction. It certainly lacks the
apparently conscious motivation of the sci-fi stuff. But it does turn both hope and fear into
matters for the present day, rather than an indeterminate future. And many worry that even
today’s “AI-lite” has the capacity to morph into a monster. The fear is not so much of devices
that stop obeying instructions and instead follow their own agenda, but rather of something
that does what it is told (or, at least, attempts to do so), but does it in a way that is
incomprehensible.
The reason for this fear is that deep-learning programs do their learning by rearranging their
digital innards in response to patterns they spot in the data they are digesting. Specifically,
they emulate the way neuroscientists think that real brains learn things, by changing within
themselves the strengths of the connections between bits of computer code that are designed
to behave like neurons. This means that even the designer of a neural network cannot know,
once that network has been trained, exactly how it is doing what it does. Permitting such
agents to run critical infrastructure or to make medical decisions therefore means trusting
people’s lives to pieces of equipment whose operation no one truly understands.
If, however, AI agents could somehow explain why they did what they did, trust would
increase and those agents would become more useful. And if things were to go wrong, an
agent’s own explanation of its actions would make the subsequent inquiry far easier. Even as
they acted up, both HAL and Eddie were able to explain their actions. Indeed, this was a
crucial part of the plots of the stories they featured in. At a simpler level, such powers of self-
explanation are something software engineers would like to emulate in real AI.
6
CDIR 2019-01 2/5 www.economist.com 15/02/2018
Open the box
One of the first formal research programs to attempt to crack open the AI “black box” is the
Explainable AI (XAI) project, which is being run by the Defence Advanced Research Projects
Agency (DARPA), an organisation that does much of America’s military research. In
particular, America’s armed forces would like to use AI to help with reconnaissance. Dave
Gunning, XAI’s head, observes that monitoring places like North Korea from on high, by spy
plane or satellite, creates a huge amount of data. Analysts looking at these data would
certainly value something that alerted them automatically to suspicious activity. It would,
though, also be valuable if such an agent could explain its decisions, so that the person being
alerted was able to spot and ignore the inevitable false positives. Mr Gunning says that
analysts from one of America’s spy agencies, the NSA, are already overwhelmed by the
recommendations of old-fashioned pattern-recognition software pressing them to examine
certain pieces of information. As AI adds to that deluge, it is more important than ever that
computer programs should be able to explain why they are calling something to a human
operator’s attention.
How the NSA is responding to this is, understandably, a secret. But civilian programmes are
also trying to give neural networks the power to explain themselves by communicating their
internal states in ways that human beings can comprehend. Trevor Darrell’s AI research group
at the University of California, Berkeley, for example, has been working with software trained
to recognise different species of birds in photographs. Instead of merely identifying, say, a
Western Grebe, the software also explains that it thinks the image in question shows a
Western Grebe because the bird in it has a long white neck, a pointy yellow beak and red
eyes. The program does this by drawing on the assistance of a second neural network which
has been trained to match the internal features of the agent doing the recognising (ie, the
pattern of connections between its “neurons”) with sentences that people have written,
describing what they see in a picture being examined. So, as one AI system learns to classify
birds, the other learns simultaneously to classify the behaviour of the first system, in order to
explain how that system has reached its decisions.
A team led by Mark Riedl at the Georgia Institute of Technology has employed a similar
technique to encourage a game-playing AI to explain its moves. The team asked people to
narrate their own experiences of playing an arcade game called Frogger. They then trained an
AI agent to match these narratives to the internal features of a second agent that had already
learned to play Frogger. The result is a system which provides snippets of human language
that describe the way the second agent is playing the game.
Such ways of opening the black box of AI work up to a point. But they can go only as far as a
human being can, since they are, in essence, aping human explanations. Because people can
understand the intricacies of pictures of birds and arcade video games, and put them into
words, so can machines that copy human methods. But the energy supply of a large data
centre or the state of someone’s health are far harder for a human being to analyse and
describe. AI already outperforms people at such tasks, so human explanations are not
available to act as models.
Fortunately, other ways exist to examine and understand an AI’s output. Anupam Datta, a
computer scientist at Carnegie Mellon University, in Pittsburgh, for instance, is not
attempting to peer inside the black box directly, in the ways that Dr Darrell and Dr Riedl are.
6
CDIR 2019-01 3/5 www.economist.com 15/02/2018
Rather, he is trying to do so obliquely, by “stress-testing” the outputs of trained systems—for
example, those assessing job candidates.
Dr Datta feeds the system under test a range of input data and examines its output for dodgy,
potentially harmful or discriminatory results. He gives the example of a removals firm that
uses an automated system to hire new employees. The system might take a candidate’s age,
sex, weightlifting ability, marital status and education, as described in the application, as its
inputs, and churn out a score which indicates how likely that candidate is to be a good
employee.
Clearly one of these pieces of information, the ability to lift heavy things, is both pertinent
and likely to favour male candidates. So in this case, to test the system for bias against
females, Dr Datta’s program alters randomly selected applications from women to make them
appear to be from men and, separately, swaps the weightlifting abilities of female
applicants—again, at random—with that of applicants from both sexes. If the randomisation
of sex produces no change in the number of women offered jobs by the AI, but randomising
weightlifting ability increases it (because some women now appear to have “male”abilities to
lift weights), then it is clear that weightlifting ability itself, not an applicant’s sex, is affecting
the hiring process.
Dr Datta’s approach does not get to the heart of how and why agents are making decisions,
but, like stress testing an aircraft, it helps stop undesirable outcomes. It lets those who make
and operate AI ensure they are basing decisions on the right inputs, and not harmful spurious
correlations. And there are other ways still of trying to peer into machines’ minds. Some
engineers, for example, are turning to techniques, such as cognitive psychology, that human
beings use to understand their own minds. They argue that, since artificial neural networks are
supposed to work like brains, it makes sense to employ the tools of human psychology to
investigate them.
One example of such an approach is research by DeepMind, an AI firm in London that is
owned by Google’s parent company, Alphabet. This has yielded an intriguing insight into the
behaviour of a piece of image-matching software the company has designed. A group of
DeepMind’s engineers, led by David Barrett, showed the software sets of three images. The
first of each set was a “probe” image of a certain shape and colour. Of the other two, one
matched the probe in shape and the second matched it in colour. By measuring how often the
system chose the shape match as opposed to the colour match, Dr Barrett and his team were
able to deduce that DeepMind’s image matcher equates images in the way that people do—
that is, according to shape rather than colour. Elucidating in this way the broader principles of
how a particular AI makes decisions might be useful when preparing it for deployment in the
world. It might also help accident investigators, by directing them towards the most likely
sorts of explanation for a failure.
Those inclined to try to crack open the “minds” behind AI thus have many ways of doing so.
Some people, however, think this whole approach wrongheaded. They observe that those
decisions made by AI which are hardest to scrutinise are necessarily the most complex and
thus likely to be the most useful. Easy-to-parse tasks, like playing video games and naming
birds, are of limited value. Decisions made while balancing an electrical grid or managing a
city’s traffic flow are harder to explain, especially as many of them are taken at levels beyond
human processing capabilities. Yoshua Bengio, a computer scientist at the University of
Montreal, calls this kind of processing artificial intuition.
6
CDIR 2019-01 4/5 www.economist.com 15/02/2018
Dr Bengio says such artificial intuition was on display during the most public demonstration
of deep-learning that has ever taken place. This was a Go match held in 2016 between an AI
agent and Lee Sedol, the world’s greatest human player. The agent in question, AlphaGo, was
trained by DeepMind. It sometimes made unexpected moves that human experts could not
explain. At first those moves appeared to be errors. But AlphaGo then used the surprising
position thus generated to dominate the rest of the match.
Intriguingly, moves like these are also sometimes made by human Go masters. They are
known in Japanese as kami no itte (“the hand of God”, or “divine moves”). As the name
suggests, a player who feels a move is divinely directed in this way usually cannot say how or
why he placed a certain stone where he did. Indeed, the fact that players cannot explain the
reasoning behind their best moves offers a hint as to why old-style Go-playing computers,
based on formal logic, were never any good. Neural learning systems, both those that have
evolved in brains and those now being put into computers, can handle the task of playing Go.
But human language cannot describe it.
Pandora’s box?
There is, though, a crucial difference between the explanations that humans offer up for their
own behaviour, and those available from machines. As Dan Sperber, a cognitive scientist at
the Jean Nicod Institute, in Paris, observes, people tend to construct reasons for their
behaviour which align with information mutually available to speaker and listener, and with
their own interests, rather than describing accurately how their thoughts led to a decision. As
he puts it, “the reason to give reasons is so that others will evaluate your actions and beliefs”.
Today’s autonomous machines do not have their own interests to serve. Instead, their
explanations are forged by and for human beings.
Some speculate that this may change in the future, if AI is developed which, like the fictional
variety, seems to have motives of its own, rather than merely acting at human whim. Jacob
Turner, a specialist in international law, suggests ascribing legal personhood to AI will then
be necessary if those harmed by such advanced agents are to seek compensation and justice.
That is probably a long way off. But even today’s AI may raise ticklish legal questions. In
particular, machine minds that cannot explain themselves, or whose detailed operation is
beyond the realm of human language, pose a problem for criminal law. As Rebecca Williams,
a legal scholar at Oxford University, observes, if machines lack the ability to explain their
actions, current law might struggle to identify criminal intent in acts that arise because of
decisions they have made. “In criminal law,” she says, “the thing that’s interesting is having
the third party breaking the chain of causation that is not a human being. That is really new.”
This is not a matter of AI agents themselves acting in a criminal manner in the way Mr Turner
speculates might one day happen. But if the process by which a machine made a decision
cannot be subject to cross-examination, because neither the machine nor its creator is able to
explain what went on, then deciding the guilt or innocence of a human being associated with
that decision may be impossible.
For example, if a neural network that authorises loans cannot explain why it gives certain
people certain scores that seem biased against one social group or another, it may be
impossible to determine whether its operators had arranged this intentionally (which would be
an offence in most jurisdictions), or whether lazy coding by its designers had led to accidental
6
CDIR 2019-01 5/5 www.economist.com 15/02/2018
bias (which would probably be a matter for the civil courts rather than the criminal ones).
Similarly, if the AI that ran the visual systems of a driverless taxi were a black box that could
not be interrogated about its choices, it might be hard to know whether a death caused by that
car was the fault of the manufacturer or of the firm responsible for maintaining the vehicle.
The world is still a few years from the moment a case involving a driverless car might come
before the courts. A case of social bias, however, is eminently conceivable even now. It does
not require the imaginations of Arthur C. Clarke or Douglas Adams, the inventors,
respectively, of HAL and Eddie, to envisage the advantages of software that can not only act,
but also explain the reasons behind its actions.
7
CDIR 2019-01 1/2 www.lemonde.fr 16/03/2017
Les limites des modèles comportementaux du big
data
Dans sa chronique mensuelle « Recherches », l’économiste Paul Seabright explique
pourquoi il ne faut pas surestimer la qualité de la compréhension qu’on peut tirer des
« données massives ».
e débat sur les avantages et les inconvénients des big data (« données massives ») tend
à opposer les bénéfices d’une meilleure compréhension des comportements humains
aux dangers d’abus concernant la vie privée. Un article de Susan Athey, ancienne
économiste en chef de Microsoft, montre qu’il ne faut pas non plus surestimer la qualité de la
compréhension qu’on peut en tirer (« Beyond Prediction : Using Big Data for Policy
Problems », Science n° 6324, 3 février 2017).
Jusqu’à récemment, les analyses statistiques des comportements humains devaient choisir
entre deux types d’informations. Les enquêtes permettent de poser beaucoup de questions à
relativement peu de gens, avec le risque que les personnes interrogées soient peu
représentatives de l’ensemble de la population. Avec un échantillon plus large, les
recensements permettent de s’adresser à beaucoup de gens, voire à des populations entières,
mais en leur posant peu de questions, ce qui limite l’analyse à une modélisation simple.
Mise en garde
Désormais, les entreprises comme Google, Apple ou Facebook disposent de millions de
variables décrivant le comportement de millions de personnes. Les techniques d’apprentissage
machine (« machine learning ») peuvent y cerner des tendances qui échapperaient à un regard
purement humain. Mais Susan Athey nous met en garde contre un optimisme facile quant à la
sophistication des modèles comportementaux qui en découlent.
Observer des comportements, les cerner à l’aide de l’algorithme le plus sophistiqué, ne nous
aide pas à savoir si ces comportements restent inchangés lorsque nous essayons d’intervenir
pour améliorer la situation. Or, quasiment toutes les applications des big data concernent une
intervention potentielle, que ce soit une politique publique, la politique commerciale d’une
entreprise ou le choix d’un hôpital entre différents traitements.
Son article cite de nombreux cas où les tendances observées par les méthodes du big data ne
suffisent pas pour prédire l’impact d’une intervention. La société eBay avait cru calculer par
ces méthodes que son retour sur investissement en publicité en ligne était de 1 400 % à cause
d’une forte corrélation entre les achats et les investissements publicitaires. Après une
vérification expérimentale, il a été constaté que le vrai retour était de… - 63 %, car la plupart
des achats auraient été faits sans les annonces !
Des risques scientifiques
L’apprentissage machine est souvent utilisé par les entreprises privées pour prédire les profils
de clients les plus susceptibles de quitter la firme pour un concurrent. Ces prédictions sont
utilisées pour allouer le service après-vente en priorité aux clients de fidélité faible. Mais ces
interventions sont souvent décevantes : être susceptible de partir vers un concurrent ne rend
pas forcément le client sensible aux efforts de la firme pour le garder.
L
7
CDIR 2019-01 2/2 www.lemonde.fr 16/03/2017
Un exemple des risques scientifiques des analyses big data apparaît dans un article d’un autre
économiste en chef d’une grande entreprise -en l’occurrence Hal Varian, de Google (« Big
Data : New Tricks for Econometrics », Journal of Economic Perspectives, n° 28/2, printemps
2014)-. On constate depuis vingt ans qu’être noir aux États-Unis est associé à une probabilité
plus faible de se voir accorder un prêt immobilier. Une analyse big data effectuée par Varian
montre que lorsqu’on prend en compte le fait d’avoir pu trouver ou non une assurance
(condition nécessaire pour un prêt), la différence raciale ne joue plus aucun rôle.
Peut-on en conclure que les différences raciales ne sont pas importantes pour accéder aux
prêts immobiliers? Pas du tout ! Comme le reconnaît Varian, trouver une assurance pourrait
être plus difficile pour les Américains noirs que pour les autres -c’est peut-être même à travers
l’allocation des assurances que la discrimination raciale aurait son impact principal sur l’accès
aux prêts-. Les big data permettent de prédire qui recevra un prêt, mais en expliquer les causes
reste un défi autrement plus complexe.
Paul Seabright Professeur de sciences économiques à l'Institut d'études avancées de Toulouse
8
CDIR 2019-01 1/1 www.economist.com 21/04/2014
The backlash against big data
“BOLLOCKS”, says a Cambridge professor. “Hubris,” write researchers at Harvard. “Big
data is bullshit,” proclaims Obama’s reelection chief number-cruncher. A few years ago
almost no one had heard of “big data”. Today it’s hard to avoid—and as a result, the digerati
love to condemn it. Wired, Time, Harvard Business Review and other publications are falling
over themselves to dance on its grave. “Big data: are we making a big mistake?,” asks the
Financial Times. “Eight (No, Nine!) Problems with Big Data,” says the New York Times.
What explains the big-data backlash?
Big data refers to the idea that society can do things with a large body of data that that weren’t
possible when working with smaller amounts. The term was originally applied a decade ago
to massive datasets from astrophysics, genomics and internet search engines, and to machine-
learning systems (for voice-recognition and translation, for example) that work
well only when given lots of data to chew on. Now it refers to the application of data-analysis
and statistics in new areas, from retailing to human resources. The backlash began in mid-
March, prompted by an article in Science by David Lazer and others at Harvard and
Northeastern University. It showed that a big-data poster-child—Google Flu Trends, a 2009
project which identified flu outbreaks from search queries alone—had overestimated the
number of cases for four years running, compared with reported data from the Centres for
Disease Control (CDC). This led to a wider attack on the idea of big data.
The criticisms fall into three areas that are not intrinsic to big data per se, but endemic to data
analysis, and have some merit. First, there are biases inherent to data that must not be ignored.
That is undeniably the case. Second, some proponents of big data have claimed that theory
(ie, generalisable models about how the world works) is obsolete. In fact, subject-area
knowledge remains necessary even when dealing with large data sets. Third, the risk of
spurious correlations—associations that are statistically robust but happen only by chance—
increases with more data. Although there are new statistical techniques to identify and banish
spurious correlations, such as running many tests against subsets of the data, this will always
be a problem.
There is some merit to the naysayers' case, in other words. But these criticisms do not mean
that big-data analysis has no merit whatsoever. Even the Harvard researchers who decried big
data "hubris" admitted in Science that melding Google Flu Trends analysis with CDC’s data
improved the overall forecast—showing that big data can in fact be a useful tool. And
research published in PLOS Computational Biology on April 17th shows it is possible to
estimate the prevalence of the flu based on visits to Wikipedia articles related to the
illness. Behind the big data backlash is the classic hype cycle, in which a technology’s early
proponents make overly grandiose claims, people sling arrows when those promises fall flat,
but the technology eventually transforms the world, though not necessarily in ways the
pundits expected. It happened with the web, and television, radio, motion pictures and the
telegraph before it. Now it is simply big data’s turn to face the grumblers.
9
CDIR 2019-01 1/2 www.lemonde.fr 23/11/2016
Les dangers et les incongruités du big data
Certains algorithmes ou modèles dits prédictifs se sont révélés défaillants et incohérents
avec les faits. Des voix s’élèvent pour réclamer la possibilité d’avoir accès à ces
constructions mathématiques.
our la première fois cette année, le big data est devenu un acteur important -et
controversé- dans deux scrutins majeurs, la présidentielle américaine et le référendum
sur le Brexit au Royaume-Uni. Aux États-Unis, les démocrates avaient une longueur
d’avance sur les républicains en matière de ciblage fin des électeurs, y compris sur
l’historique de leurs votes : depuis la première campagne présidentielle de Barack Obama, ces
techniques ont été perfectionnées.
L’exploitation de ces masses de données n’a pas fait de miracle pour Hillary Clinton, qui n’a
pas réuni suffisamment de grands électeurs, bien qu’elle ait remporté le suffrage populaire,
dans les villes surtout. Elle avait à peine concédé la victoire à Donald Trump que les réseaux
sociaux étaient accusés d’avoir influencé le scrutin, en laissant figurer quantité d’informations
mensongères sur leurs fils d’actualité.
Au Royaume-Uni, à l’issue du référendum du 23 juin sur le Brexit, le big data avait
notamment été vilipendé par Katharine Viner, la rédactrice en chef du quotidien londonien
The Guardian. Les algorithmes des réseaux sociaux, accuse-t-elle, ont inondé les internautes
ciblés par mots-clés de contenus conformes à leurs a priori. Exit les faits débattus et les
démonstrations. Résultat, le Brexit a été, à ses yeux, le « premier vote majeur dans l’ère de la
politique post-vérité ».
Partout, les données massives sont exploitées par les spécialistes (« data scientists ») des
gouvernements, des entreprises privées (à des fins de marketing entre autres) et des réseaux
sociaux. Pour ce faire, ces spécialistes construisent des algorithmes et des modèles. Le
pouvoir est-il en train de basculer vers une technologie sophistiquée qui nous échappe mais
oriente nos votes, nos goûts, nos envies et nos achats ? Sommes-nous devenus les victimes de
modèles et d’algorithmes opaques construits par des experts en mathématiques et en
statistiques, sciences auquel le commun des mortels ne comprend rien et qu’il ne peut donc
investiguer ?
Armes de destruction matheuse
Ex-analyste quantitative dans un fonds spéculatif de Wall Street, docteure en mathématiques
de Harvard, Cathy O’Neil a été l’une des premières à décomplexer le citoyen moyen, dans son
blog et dans son livre Weapons of Math Destruction (Crown, 2016, non traduit), ou « armes
de destruction matheuse ». Outre-Atlantique, cet ouvrage a fait grand bruit : il recense les
dangereuses défaillances de certains algorithmes ou modèles. Le diable est souvent dans le
détail de la collecte des données et dans les résultats tronqués auxquels leur exploitation
aboutit. Ouvrir les données (open data) ne suffit pas, martèle Cathy O’Neil. On doit pouvoir
auditer algorithmes et modèles. Nul besoin d’être un supermatheux ou un champion du
codage, poursuit-elle, il suffit parfois de constater l’incongruité des résultats pour exiger des
comptes.
P
9
CDIR 2019-01 2/2 www.lemonde.fr 23/11/2016
Ainsi, les données compilées par la police de New York entre 2003 et 2013 montraient, dans
leur analyse, que les arrestations concernaient en majorité les Noirs et les Latinos. Mais le
nombre d’arrestations évoqué parmi ces minorités dépassait le nombre effectif de ces
personnes dans la ville ! Un rapport de l’Union des libertés civiques de New York a démontré
l’aberration.
Ouvrir les « boîtes noires »
Autre exemple : la ville de Chicago utilise un algorithme (sur la base de données tenues en
partie secrètes) qui a identifié les 400 habitants de la ville les plus susceptibles de perpétrer
des actes de violence avec, pour chacun, une note de dangerosité. « Si je suis jugée, mesurée
et tenue responsable par certains modèles dans ma vie quotidienne de citoyen, cela a un réel
impact sur la façon dont va se dérouler mon avenir. Je devrais alors savoir comment ce
processus fonctionne », poursuit Cathy O’Neil.
Les modèles dits prédictifs sont particulièrement visés. Or ils se multiplient. De plus en plus
de multinationales utilisent ces modèles, construits à partir de grandes quantités de données,
pour recruter leur personnel, le gérer, l’évaluer ou même identifier les cadres qui risquent de
quitter l’entreprise et ceux qui valent d’être promus. Idem pour des universités américaines,
qui notent leurs professeurs en partie par ce truchement.
Dans leur ouvrage intitulé Big data (Robert Laffont, 2014), Viktor Mayer-Schönberger,
professeur à l’Institut Internet d’Oxford, et Kenneth Cukier, journaliste américain, ont alerté
sur deux grands dangers. Le big data, tel qu’exploité actuellement, fait courir le risque que les
gens soient jugés « non pas sur leur comportement réel, mais sur leur propension à avoir le
comportement que les données leur prêtent ». Les auteurs redoutent par ailleurs que « demain,
on punisse les gens pour leurs penchants, pour leurs relations, plutôt que pour leur action ».
La question des usages du big data est ainsi de plus en plus souvent posée, parallèlement à
celle concernant la protection de la vie privée et celle, tout aussi importante, de la sécurisation
des données. Fini la confiance aveugle vouée aux divers scientifiques des données qui les
exploitent et les corrèlent. Nous devrions, réclament certains, exiger qu’ils ouvrent leurs
« boîtes noires » et qu’ils se conforment à une éthique. Comment la définir ? Le débat est
ouvert, souvent autour des notions de « bien commun » et d’intérêt général. Vaste chantier…
Martine Jacot
Décembre 2018
Intelligence artificielle : enjeux pour le secteur financier
Document de réflexion
AUTEURS
Olivier FLICHE, Su YANG - Pôle Fintech-Innovation, ACPR
__________________________________________________________________________________________
10
CDIR 2019-01 1/13 https://acpr.banque-france.fr
Décembre 2018
2.1.5. Intelligence artificielle et conformité
L’intelligence artificielle pourrait améliorer la performance de la gestion des risques et
de la conformité16
en automatisant certains processus. Pour ce faire, la plupart des
organismes financiers préfèrent innover en interne plutôt que faire appel à des solutions
externalisées, notamment pour des questions de gouvernance, de données, de propriété
intellectuelle et de responsabilité juridique.
Parmi les applications citées, on retrouve principalement les processus de Know Your
Customer (KYC). Toutefois, l’analyse finale est toujours effectuée par un expert. Toujours en
matière de lutte contre le blanchiment et le financement du terrorisme, des tests sont en cours
pour assister les services conformité dans les déclarations de soupçons, notamment en
détectant des signaux faibles dans les transactions enregistrées.
Dans le cadre de ses missions de contrôle, l’ACPR a pu observer que des méthodes
d’apprentissage automatique sont employées dans les modèles internes pour pallier
l’incapacité des méthodes actuarielles classiques à traiter de grandes quantités de données
en grande dimension. Une attention particulière est portée sur le cadre de validation
permettant de s’assurer de la qualité des résultats obtenus, tout en prévoyant des
mécanismes d’add-on permettant de tenir compte de l’éventuelle erreur introduire si celle-ci
se révélait significative.
Par ailleurs, des arbres décisionnels sont utilisées pour modéliser les futures
décisions de gestion, prises en compte dans le calcul du best estimate vie, prenant en
compte de nombreux facteurs exogènes (environnement économique) ou endogènes
(comptable : par exemple, richesses disponibles). L’attention se porte dans ce cas sur le
backtesting in sample (au regard des décisions passées) des IA ainsi utilisées et sur le
caractère vraisemblable et prudent du comportement induit dans des scénarios extrêmes
(backtesting out of sample). Au regard du risque de sur-paramétrisation, l’autorité
recommande de privilégier des algorithmes simples et robustes afin que ces derniers puissent
être compris par l’AMSB17
qui est responsable de les valider.
2.1.6. Services d’investissement, gestion d’actifs et activités liées aux
marchés financiers
Un rapport du conseil de stabilité financière a montré les perspectives ouvertes par
l’IA pour les marchés financiers, en améliorant l’analyse et la gestion des risques et en
réduisant plus rapidement les écarts de prix18
. Pour s’en tenir aux travaux de la task force, les
principales applications de l’IA relevées sont les suivantes :
La détection d’anomalies dans les opérations de marché, à la fois contre les
fraudeurs extérieurs, les délits d’initiés et les erreurs du type « fat fingers ».
16 L’application des nouvelles technologies (dont l’IA) à ce domaine de la gestion des risques et de la conformité est communément désignée sous le vocable “Regtech”.
17 administrative management or supervisory body, introduite dans l’article 40 de la Solvabilité II, cette notion désigne l’organe d’administration de gestion ou de contrôle responsable ultime de l’implémentation de Solvabilité II au sein de l’organisme ou du groupe.
18 Artificial intelligence and machine learning in financial services, FSB, novembre 2017
(...)
__________________________________________________________________________________________
10
CDIR 2019-01 2/13 https://acpr.banque-france.fr
Décembre 2018
La surveillance des risques de marché : des algorithmes de machine learning sont
testés pour anticiper la réalisation des risques de marché (intrinsèques ou liés aux actions
à venir de l’établissement), certaines de ces méthodes sont sur le point d’être mises en
production.
La recommandation de stratégies d’investissement pour les clients : cette
application semble être déjà mise en production chez certains établissements. Les
algorithmes proposent des solutions les moins coûteuses pour l’acheteur/vendeur et qui
ont le moins d’impact sur le marché. Cela conduit à des stratégies autour d’un
séquençage aléatoire des ordres d’achat/vente, une approche moderne de Time
Weighted Average Price.
L’évaluation des profils de risque pour la gestion des portefeuilles qui permet de mieux
appréhender l’appétence des clients vis-à-vis de différents produits d’investissement et
d’épargne. De même, certains assureurs ont mis en place des outils permettant de
détecter l’appétence éventuelle de leurs assurés à certains produits d’assurances ou à
certains supports d’investissement : certains de ces outils sont récemment entrés en
production.
La gestion de portefeuille pour compte de tiers (gestion d’actifs, gestion sous
mandat) où l’IA ne semble pas en production selon les réponses ; des algorithmes d’IA
sont toutefois testés par certains établissements pour faciliter cette tâche.
__________________________________________________________________________________________
10
CDIR 2019-01 3/13 https://acpr.banque-france.fr
Décembre 2018
2.2. Risques
2.2.1. Le traitement des données : les risques liés à l’intelligence artificielle
La performance de l’intelligence artificielle est largement dépendante de la qualité des
données et de l’absence de biais dans leur traitement. L’existence de biais dans les résultats
des algorithmes d’intelligence artificielle peut être dommageable à la fois aux entreprises qui
les utilisent et à leurs clients, en tant que consommateur ou citoyen, en raison des risques de
discrimination ou de conseils inadéquats qu’ils recèlent.
La qualité des données est naturellement un prérequis à l’efficacité des algorithmes
intelligents. Elle implique de vérifier la qualité des sources utilisées, la pertinence des
données au regard des objectifs recherchés ainsi que leur complétude : il faut s’assurer en
particulier que les données sont bien représentatives de la population ciblée afin qu’elles
n’engendrent pas des phénomènes d’exclusion.
Les biais, quant à eux, peuvent exister à la fois dans les données collectées et dans
les modalités de leur traitement.
- Ils peuvent être directement présents dans les variables utilisées, par exemple, avec des
variables considérées comme discriminatoires telles que le genre ;
- Ils peuvent être implicites : ces biais sont plus difficiles à repérer car la discrimination
résulte de l’interaction de plusieurs variables qui n’apparaissent en soi discriminatoires. Ils
demandent une analyse des résultats par un expert métier et, pour ce qui est du risque de
discrimination, une comparaison avec un résultat qui serait obtenu à partir de variables
discriminatoires.
Les biais peuvent être renforcés par l’algorithme et aboutir à des traitements
inéquitables. Par exemple, une information comme le département peut discriminer les
habitants d’un département pauvre pour l’obtention d’un prêt, ce qui peut renforcer les
inégalités existantes. De même, les modèles basés sur un historique de comportement sont
moins performants pour les clients jeunes qui ont un historique réduit, auquel cas il faut
trouver d’autres variables explicatives. Certains effets pourraient constituer un enjeu
d’inclusion financière significatif.
Dans le fonctionnement même des algorithmes, d’autres effets indésirables peuvent
voir le jour. C’est le cas de l’effet « bulle de filtre », c’est-à-dire le fait de proposer
constamment les mêmes produits à des profils similaires, empêchant une entreprise de
proposer des offres inhabituelles à un individu. C’est ce qui arrive souvent dans les
algorithmes de suggestion de contenu, lorsque les profils type dominent l’offre en ne laissant
pas de place aux nouveaux produits. On parle de bulle de filtre lorsque les suggestions
envoyées à un utilisateur sont le résultat d’un processus de personnalisation dont il ne peut
comprendre les ressorts.
L’identification et la suppression des biais reposent in fine sur la rigueur des data
scientists qui ne sont pas toujours formés pour prendre en compte ces risques de biais. C’est
la raison pour laquelle certains établissements financiers mettent en place des formations
spécifiques de sensibilisation de leurs data scientists à ces aspects.
2.2.2. L’intelligence artificielle accroît les enjeux de cyber-sécurité
En matière de cyber-sécurité, le développement de l’intelligence artificielle n’ouvre
pas de nouvelles failles, mais pourrait en accentuer des failles préexistantes. Le diagnostic
peut être résumé comme suit.
_________________________________________________________________________________________
10
CDIR 2019-01 4/13 https://acpr.banque-france.fr
Décembre 2018
L’IA augmente les points d’attaques possibles :
L’utilisation de l’intelligence artificielle permet d’automatiser des tâches répétitives et
augmente le volume d’interconnections informatiques. Cette automatisation décuple donc
le nombre de failles potentielles exploitables par des cybercriminels.
Le recours de plus en plus systématique au Cloud pour les besoins d’IA multiplie les
points d’entrée possibles pour un cybercriminel, bien que les prestataires technologiques
assurent un niveau de sécurité très élevé. Par exemple, le déploiement de solutions SaaS
(Software as a Service) implique des interactions régulières entre l’acteur financier et le
fournisseur de services, qui peuvent ainsi faire naître de nouvelles failles exploitables par
les cybercriminels.
De nouvelles attaques sont conçues pour altérer le fonctionnement des algorithmes d’intelligence artificielle :
L’une des attaques les plus fréquentes fait appel aux techniques de « flooding », qui
cherchent à biaiser les résultats de l’algorithme d’IA par l’introduction de données
falsifiées dans les modèles.
D’autres attaques ciblées peuvent apparaître, comme les attaques adversarials, qui par
une petite altération d’une image induisent un algorithme de reconnaissance de forme en
erreur19
.
L’IA pourrait surtout augmenter la dangerosité des cybercriminels :
L’utilisation de l’IA pourrait rendre plus accessible et moins chère la cybercriminalité :
l'utilisation de l'IA pour automatiser les tâches nécessaires à une cyberattaque modifiera
le compromis existant entre l'ampleur et l'efficacité des attaques.
L’usage du machine learning pourrait permettre de « craquer » des mots de passe à partir
des archives de mots de passe précédents.
Enfin, les cyber-attaques pourraient être personnalisées, ce qui les rendraient plus
efficaces (phishing personnalisé, utilisation de chatbots ou de technologies d’imitation de
voix pour extraire des informations confidentielles).
2.2.3. Le risque de dépendance des acteurs et le changement des rapports de
force dans le marché
La maîtrise des techniques de l’intelligence artificielle par des grandes sociétés
informatiques majoritairement non-européennes (fournisseurs de solutions informatiques ou
de services, comme les « cloud services », sociétés de conseil…) pourrait entraîner une
concentration excessive du marché entre les mains de quelques acteurs, avec les
inconvénients potentiels suivants :
Des prix artificiellement élevés ;
Un accès limité à certains services qui utiliseraient de l’IA ;
Des relations commerciales déséquilibrées ;
19 Shotgun shell: Google's AI thinks this turtle is a rifle, The Guardian
__________________________________________________________________________________________
10
CDIR 2019-01 5/13 https://acpr.banque-france.fr
Décembre 2018
Des questions de souveraineté liées au contrôle des plateformes, des technologies et des
données (exemple : « cloud service providers », fournisseurs de solutions d’IA…) ;
Une maîtrise moyenne par les utilisateurs finaux et une opacité accrue des algorithmes
(« boite noire ») ;
Des difficultés d’accès et d’audit nécessaires dans le contrôle des activités financières.
Le risque le plus important est sans doute que la sophistication croissante des
algorithmes d’IA ne rende impossible leur reproduction, voire leur simple explication, par
d’autres acteurs. Aussi, un retard dans ce domaine pourrait inciter les établissements
financiers français à adopter des solutions étrangères et à alimenter un cercle vicieux laissant
le monopole du développement de l’IA à des firmes non-européennes.
2.2.4. Des enjeux de stabilité financière et de souveraineté
Sur la stabilité financière
La question de la stabilité financière a été posée dès le début du XXIème siècle avec
l’arrivée des algorithmes de trading haute fréquence. Elle connaît un renouveau avec l’arrivée
des algorithmes de type machine learning puisqu’il est difficile de prévoir le comportement
futur de ces algorithmes. En particulier, trois facteurs de risque pourraient être accentués par
l’utilisation de l’IA :
Le trading directionnel technologique, à l’origine de « comportements moutonniers ».
En codant les algorithmes avec des variables similaires, les programmes de trading à
haute fréquence tendent à converger vers la même stratégie. Le risque qui en découle est
d’accentuer ainsi la pro-cyclicité et la volatilité du marché via des achats et ventes
simultanés de grandes quantités.
La vulnérabilité du marché face aux attaques, en partie due aux comportements
moutonniers. Il est en effet plus aisé pour un cybercriminel d’influencer des agents qui
agissent de la même manière plutôt que des agents autonomes, ayant des
comportements bien distincts.
L’entraînement sur des données historiques : beaucoup d’algorithmes ont été
entraînés dans des situations normales, et non en temps de crise. Il y a donc un risque
que le machine learning accentue les crises du marché financier en l’absence
d’entraînement en période de crise.
Ces risques ne sont pas les seuls. Une mauvaise utilisation de l’IA peut également
conduire à des risques systémiques dans d’autres activités financières. Par exemple, elle
peut conduire à des risques de crédit accrus si l’algorithme les évalue mal, et ainsi fragiliser le
marché obligataire ou des acteurs bancaires.
Sur la souveraineté
Les inégalités en matière d’expertise technologique ont déjà été évoquées : elles
pourraient engendrer de fortes asymétries entre pays. Le risque de fuite de données vers des
prestataires américains en est un exemple. Le gouvernement américain a promulgué le 23
mars 2018 le Cloud Act, qui lui octroie la possibilité d’accéder aux données hébergées sur les
serveurs des fournisseurs américains de Cloud. Cette législation semble entrer en directe
confrontation avec les principes du RGPD, notamment l’article 48 sur les « Transferts ou
divulgations non autorisés par le droit de l’Union » qui dispose que « Toute décision d'une
juridiction ou d'une autorité administrative d'un pays tiers exigeant d'un responsable du
traitement ou d'un sous-traitant qu'il transfère ou divulgue des données à caractère personnel
ne peut être reconnue ou rendue exécutoire de quelque manière que ce soit qu'à la condition
qu'elle soit fondée sur un accord international […] »20
.
Texte du RGPD disponible sur le site de la CNIL . 20
10
__________________________________________________________________________________________CDIR 2019-01 6/13 https://acpr.banque-france.fr
Décembre 2018
3. Le développement de l’intelligence artificielle : quels enjeux pour les
superviseurs ?
3.1. La gouvernance et « l’explicabilité » des algorithmes
L’intelligence artificielle a pour objet d’automatiser un certain nombre d’actions ou de
décisions prises jusqu’à présent par des humains ou d’individualiser des décisions
auparavant standardisées. En modifiant les conditions d’élaboration des décisions, les
développements de l’intelligence artificielle sont également susceptibles de remettre en cause
les méthodes traditionnelles d’encadrement a priori, de traçabilité et de contrôle interne et
externe de ces décisions.
Selon les cas d’usage de l’intelligence artificielle, les enjeux réglementaires diffèrent
sensiblement.
Ainsi, l’utilisation d’un « chatbot » pour prendre en charge les réclamations des clients
doit, de façon assez simple et dans un but de protection de la clientèle, se conformer aux
règles générales de gestion des réclamations qui sont largement similaires dans les différents
secteurs financiers21
.
Dans un tout autre domaine, l’utilisation de l’intelligence artificielle pour l’allocation
d’actifs ou la modélisation interne des exigences de capital peut réinterroger les règles de
gouvernance et de gestion des risques « prudentiels » de l’entreprise concernée : dans le
deuxième cas, en particulier, un changement dynamique de certains paramètres du modèle
par un algorithme auto-apprenant, comme par exemple les paramètres de probabilité de
défaut pour les modèles de risque de crédit, serait susceptible de remettre en cause les
politiques de changement de modèles et les règles de validation de ces modèles par les
superviseurs.
Enfin, les exemples, déjà mentionnés dans le rapport, des possibilités ouvertes par
l’intelligence artificielle en matière de sélection et de tarification des risques – tant en banque
qu’en assurance – sont tout particulièrement intéressants car ils doivent prendre en compte
les principes de plusieurs réglementations :
La nécessité de maîtriser les risques acceptés par l’entreprise ;
Le devoir de loyauté vis-à-vis des clients – voire, selon les réglementations, l’obligation de
prendre en compte leurs intérêts ;
Les obligations générales liées au traitement automatisé des données personnelles et de
transparence sur les décisions prises par ces traitements ;
Éventuellement, l’intégration des objectifs de lutte contre le blanchiment et le financement
du terrorisme.
Dans ce contexte, trois enjeux principaux peuvent être identifiés.
21 L’ACPR a publié en 2016 des recommandations en la matière sous la forme d’une annexe sur les interfaces
numériques à la Recommandation sur le devoir de conseil en assurance vie qui date de 2013.
__________________________________________________________________________________________
10
CDIR 2019-01 7/13 https://acpr.banque-france.fr
Décembre 2018
3.1.1. Définir une gouvernance appropriée des algorithmes
Les principes de gouvernance et de contrôle interne posés par les différentes
réglementations sectorielles ont naturellement vocation à s’appliquer et, de façon générale,
les objectifs qu’ils poursuivent (maîtrise des risques, protection des clients, LCB-FT) n’ont pas
de raison d’être remis en cause.
Toutefois, leur prise en compte effective lors de la conception des algorithmes
intelligents doit appeler une attention particulière de la part des organismes contrôlés et des
superviseurs.
En matière de protection des données personnelles, le RGPD a explicité le principe
du « privacy by design » - qui met bien en lumière la nécessité d’intégrer, dès les premières
étapes de la conception de l’outil de traitement des données, les finalités de la
réglementation22
.
Dans le secteur financier, il est clair que le principe du « privacy by design » ne suffit
pas à traiter tous les enjeux réglementaires. En revanche, cette même idée peut sans doute
être utilement transposée pour s’appliquer aux finalités des autres réglementations
applicables, le point d’attention étant de recenser précisément et de prendre en compte
chacun des objectifs fixés par la politique interne en conformité avec ces réglementations
(prudentiel, protection de la clientèle, LCB-FT).
Par ailleurs, dans certains cas, l’utilisation de l’intelligence artificielle peut remettre en
cause, en pratique, des conventions communément admises : on a évoqué le cas des
politiques de changements de modèle ; on peut aussi mentionner, en matière de protection de
la clientèle, la ligne de partage théorique entre « gouvernance des produits » et devoir de
conseil ou d’explication personnalisée.
Ces considérations rejoignent le besoin, exprimé par certains acteurs, lors des
travaux de la task force d’un code de bonne conduite voire d’éthique adapté au secteur de la
banque et de l’assurance et exposant des exemples pratiques. L’objection principale,
soulevée par d’autres participants, est que l’édiction d’un tel code serait prématurée, en
raison de la faible maturité collective en matière d’utilisation de l’intelligence artificielle.
De fait, il peut y avoir un risque à édicter trop tôt des normes qui fassent obstacle au
développement de certains usages de l’intelligence artificielle dans le secteur financier.
Inversement, il apparaît toutefois important que le développement des usages de l’intelligence
artificielle s’accompagne d’une réflexion pratique sur les formes adaptées de leur
gouvernance, au regard d’objectifs réglementaires « technologiquement neutres ».
3.1.2. S’assurer de la fiabilité des algorithmes et de l’atteinte de leurs objectifs
Une fois assurées la compatibilité et la conformité des objectifs des algorithmes
d’intelligence artificielle aux principes de gouvernance posés par les réglementations, la
deuxième question qui se pose, tant aux entreprises qu’à leur superviseur, est celle de leur
fiabilité.
22 La perspective de l’entrée en vigueur en mai 2018 du RGPD a donné lieu à d’importants travaux de la part
des acteurs financiers, dont certains travaux de place. On citera par exemple la norme de pratique NPA 5 publiée en novembre 2017 par l’Institut des actuaires.
__________________________________________________________________________________________
10
CDIR 2019-01 8/13 https://acpr.banque-france.fr
Décembre 2018
Cette fiabilité passe en premier lieu par la qualité des données. Cette exigence, déjà
prévue dans nombre de réglementations sectorielles23
, revêt une signification particulière
dans le cas de l’intelligence artificielle, dont l’usage repose sur l’exploitation d’une volumétrie
importante de données issues de sources très diverses. Quelques précautions semblent
d’usage courant en la matière : minimisation du recours à des données personnelles externes
publiques (quasiment pas de recours, actuellement, aux données des réseaux sociaux chez
les acteurs interrogés), utilisation de données externes de sources jugées fiables (par
exemple INSEE), vérification régulière de la qualité des données sur des échantillons, mise à
jour régulière des données personnelles auprès des clients eux-mêmes.
La fiabilité des algorithmes passe ensuite par la vérification que l’usage des données
est approprié au regard des objectifs fixés et qu’il n’induit pas de biais involontaires. Plusieurs
méthodes sont envisagées par les acteurs financiers à cet égard :
Recours à des experts pour valider la pertinence des variables utilisées, éliminer celles
qui sont inutiles24
ou sources de biais potentiels ;
Emploi d’un processus parallèle plus sûr et plus traditionnel sur une partie des données
tests ;
Utilisation d’un jeu de données étalon sur les algorithmes pour contrôler régulièrement à
la fois la pertinence et l’aspect non-discriminatoire des algorithmes ;
Développement d’outils qui évalueraient la dérive conceptuelle pour maîtriser ce risque
spécifique de l’apprentissage automatique.
Enfin, il convient de réfléchir aux conditions de contrôle de ces algorithmes – par le
contrôle interne ou par le superviseur. Deux aspects complémentaires de la question peuvent
être distingués.
L’ « explicabilité » de l’algorithme
Celle-ci est nécessaire afin de raccorder les sous-jacents techniques et statistiques
aux objectifs fixés ex-ante dans le cadre de la politique interne en matière d’algorithmes d’IA.
On notera, en outre, le cas particulier de certaines règles de protection de la clientèle,
où l’obligation d’explicabilité dérive également des règles encadrant le service rendu. Il en est
ainsi du conseil ou de la recommandation personnalisée en assurance ou de l’évaluation de
la solvabilité de l’emprunteur en matière de crédit : le professionnel est tenu de démontrer la
pertinence de la diligence effectuée ou du service rendu au regard de l’information fournie par
le client sur ses besoins et sa situation financière. Selon les cas, tout ou partie de cette
démonstration doit être exposée au client afin de l’éclairer sur la proposition qui lui est faite :
c’est la reformulation des exigences et besoins du client et la motivation du conseil fourni.
Le professionnel doit donc se mettre en mesure d’expliquer :
De façon générale, quels sont les mécanismes et les critères suivis par l’algorithme au
cours de son processus d’analyse ;
23 On peut citer par exemple, dans la règlementation prudentielle bancaire, les exigences de complétude et de
qualité des données sur les risques et de la notification des risques de la norme BCBS 239. 24
En matière de données personnelles, deux facteurs peuvent limiter l’utilisation d’un trop grand nombre de données : les obligations issues du RGPD mais également la nécessité de ne pas freiner excessivement le parcours client.
_________________________________________________________________________________________
10
CDIR 2019-01 9/13 https://acpr.banque-france.fr
Décembre 2018
Pour une action donnée (une décision prise, un conseil fourni) les critères objectifs et les
éléments discriminants qui ont poussé l’algorithme, dans le cas étudié, à effectuer une
action ou proposer une solution plutôt qu’une autre.
Les tests des résultats obtenus
En complément des travaux d’explication des algorithmes, un certain nombre de tests
(sur de jeux de données indépendants de ceux utilisés pour l’apprentissage des algorithmes)
pourraient être envisagés pour évaluer la qualité des résultats. La méthodologie de tels tests
restent toutefois à définir : en particulier pour les algorithmes apprenants (et selon les enjeux
réglementaires), la question se pose de l’historisation des versions – afin d’être en capacité
de juger de la performance réelle d’un algorithme à une date donnée.
Algorithmes et intervention humaine
Par précaution, certain acteurs envisagent le maintien d’une intervention humaine
pour vérifier la cohérence des résultats de l’algorithme, en particulier dans les domaines,
sensibles règlementairement et commercialement, des informations et conseils délivrés aux
clients ou de la LCB-FT. Cette précaution pratique, très compréhensible à un moment où les
techniques de l’intelligence artificielle en sont à leurs débuts, ne doit toutefois pas amener à
sous-estimer l’importance des travaux à mener pour améliorer l’ « explicabilité » des
algorithmes et les méthodologies de tests de leurs résultats. Il convient en particulier de
rappeler les considérations suivantes :
Un intervenant humain engage davantage sa responsabilité à contredire le résultat d’un
algorithme qu’à le valider25
;
S’il est susceptible de repérer les erreurs manifestes d’appréciation de l’algorithme (ce qui
peut aider à l’apprentissage), il est moins armé pour repérer d’autres formes de biais,
moins visibles mais dont le caractère systématique peut poser problème ;
Sa propre perception de la situation peut l’amener à trouver des justifications au résultat
de l’algorithme totalement déconnectés des sous-jacents réels de la décision proposée :
ce qui pose des problèmes évidents de transparence vis-à-vis de clients, en matière de
conseil ou d’information, mais également un problème plus général de gouvernance en
retardant la détection des faiblesses structurelles éventuelles des algorithmes utilisés.
3.1.3. Le cas particulier d’usage des algorithmes dans le contrôle interne et la
conformité
L’intelligence artificielle a un fort potentiel de développement dans les domaines du
contrôle interne et de la conformité. Dans ce domaine, les usages et la réglementation sont
appelés à évoluer de concert.
De fait, les textes actuels26
, s’ils n’excluent pas l’utilisation de l’intelligence artificielle
dans le dispositif de contrôle interne, ont été écrits dans l’idée que les contrôles étaient
effectués par des humains :
25 La responsabilité de l’humain qui se trompe « comme l’algorithme » peut sembler atténuée tandis que celle
de l’humain qui se trompe contre l’avis de l’algorithme, risque de paraître aggravée, notamment aux yeux de ceux qui le contrôleront. 26
Arrêté du 3 novembre 2014 relatif au contrôle interne
__________________________________________________________________________________________
10
CDIR 2019-01 10/13 https://acpr.banque-france.fr
Décembre 2018
Contrôle interne permanent exercé par des personnes exerçant des activités
opérationnelles d’une part et par des personnes dédiées à la seule fonction de contrôles
des opérations d’autre part ;
Contrôle interne périodique réalisé par des personnes dédiées, de manière indépendante
à l’égard des personnes, entités et services qu’elles contrôlent.
Il paraît toutefois difficile, dans une perspective de généralisation de l’intelligence
artificielle, d’exclure par principe du champ de sa mise en œuvre les activités de contrôle
interne, dont certaines peuvent être effectuées plus efficacement et à plus grande échelle par
des algorithmes. Par ailleurs, la substitution croissante de processus automatisés,
« intelligents » ou non, à des décisions humaines appelle en tout état de cause une révision
de la cartographie des risques et des contrôles.
Aussi, l’introduction de l’intelligence artificielle, dans les processus opérationnels ou
dans les contrôles eux-mêmes, appelle-t-elle une réflexion spécifique sur les modalités du
contrôle réservé aux humains. À cet égard, si certaines formes de contrôle opérationnel sont
amenées à disparaître, il convient aussi d’identifier les nouvelles formes de contrôle
susceptibles d’exister, par exemple, dans les modèles d’ « apprentissage supervisé ». Enfin,
les interactions entre hommes et algorithmes, évoquées ci-dessus, doivent être prises en
compte dans la conception des différents niveaux de contrôle permanent.
3.2. Les enjeux liés aux restructurations possibles du marché
Comme il a été rappelé dans la première partie, le développement de l’intelligence
artificielle s’effectue dans un contexte de profonde mutation des infrastructures
informatiques ; et elle contribue à cette mutation.
L’analyse du superviseur serait donc incomplète s’il ne prenait pas en compte les
modifications que cette mutation est susceptible d’entraîner à la fois sur la nature ou la taille
des organismes financiers, leurs interactions avec les fournisseurs technologiques et le
déplacement éventuels des risques entre les différents acteurs.
3.2.1. Phénomènes de concentration ou de fragmentation envisageables
La quantité et la qualité des données étant un facteur déterminant dans le
développement de l’intelligence artificielle, les acteurs qui détiennent déjà des données utiles
en quantité bénéficient d’un avantage certain. Comme l’ont souligné les premières parties de
ce rapport, cet avantage est particulièrement marqué pour les acteurs du cloud qui
fournissent des services d’intelligence artificielle, puisqu’ils sont susceptibles de drainer
davantage de données pour améliorer encore la performance de leurs algorithmes. La
position oligopolistique de ces grands acteurs, déjà nettement affirmée, pourrait être
renforcée par le développement de l’intelligence artificielle. De fait, de nombreux organismes
interrogés envisagent de recourir à l’intelligence artificielle « comme service ».
Par conséquent, les problématiques déjà identifiées par les autorités de contrôle en
matière de cloud computing27
pourrait se retrouver mutatis mutandis dans les processus
27Recommendations on outsourcing to cloud service providers. On notera que l’EBA suggère que l’audit
collectif d’un acteur majeur du cloud computing est une possibilité, premier signe d’une adaptation des superviseurs aux phénomènes de nouvelles mutualisations rendues nécessaires par les mutations technologiques.
__________________________________________________________________________________________
10
CDIR 2019-01 11/13 https://acpr.banque-france.fr
Décembre 2018
dépendant des services d’IA rendus pas quelques grands prestataires technologiques. En
particulier, l’inversion du rapport de force traditionnel entre organisme financier et sous-
traitant et, peut-être plus encore, le décalage de compétences technologiques qui risque de
croître entre ces deux parties, interroge sur l’effectivité à terme des règles encadrant
aujourd’hui l’externalisation de « services essentiels28
».
À l’inverse de ce phénomène de concentration technologique, et concomitamment29
,
peut également se produire un phénomène de ré-intermédiation, avec la multiplication
d’acteurs de niche – spécialisés dans une clientèle ou dans un service. Ce phénomène, déjà
visible dans le secteur des paiements en raison d’autres mutations technologiques, peut se
voir renforcé, au moins dans un premier temps, par la rapidité des acteurs de la Fintech à
identifier et à mettre en œuvre des services nouveaux ou plus efficaces rendus possibles par
l’intelligence artificielle.
Une telle réorganisation du marché, si elle se produisait, ne serait pas sans poser des
questions plus fondamentales aux superviseurs :
En termes de contrôle individuel des organismes : l’hétérogénéité de la population à
contrôler, tant en termes de taille que d’activité, appellerait à réviser les méthodes de
contrôle et à prendre davantage en compte les risques de dépendance entre les acteurs.
Elle questionnerait également l’approche actuelle de la réglementation qui tend à lier
proportionnalité des règles applicables et statut d’exercice – la multiplication des statuts
pour rendre compte de la diversification des modèles d’affaires ayant comme risques la
perte de lisibilité de la réglementation et l’arbitrage réglementaire.
En termes d’évaluation des risques pesant sur la stabilité financière : le déplacement de
certains risques chez quelques prestataires technologiques, la création de nouveaux
réseaux, plus complexes, d’acteurs interdépendants pourraient également amener à
réétudier les méthodes actuelles d’appréhension des risques systémiques par les
autorités de contrôle30
.
3.2.2. Recherche de mutualisation et responsabilité des organismes
Un autre phénomène lié au développement des nouvelles technologies, aux coûts de
développement de nouvelles compétences et à la corrélation positive entre performance des
algorithmes et disponibilité des données que l’IA induit est la recherche par les acteurs de
marché de nouvelles mutualisations possibles.
28 La liste de services essentiels dans lesquels l’IA pourrait trouver à s’appliquer est longue. Sur la base des
réponses reçues, on peut citer notamment : - Le calcul des échelles de tolérance de risque et d'aversion de perte ;- L’identification de modèles d'épargne individuels ;- L’allocation d'actifs ;- L’optimisation de la tarification ;- La gestion active ;- L’analyse financière ;- La gestion des sinistres en assurance ;- La lutte contre la fraude ;- La lutte contre le blanchiment et le financement du terrorisme.- …
29 Ce scénario de concentration et d’émergence simultanée d’acteurs de niche a été décrit, dans une approche
plus globale, dans un rapport du World Economic Forum d’août 2018 : The new physics of financial services (page 39) 30
Big Data meets artificial intelligence, BaFin, Juillet 2018
__________________________________________________________________________________________
10
CDIR 2019-01 12/13 https://acpr.banque-france.fr
Décembre 2018
Un exemple de mutualisation possible, donné par des participants à la task force,
porte sur la LCB-FT. De fait, le développement inégal des techniques d’intelligence artificielle
dans ce domaine pourrait avoir pour conséquence non pas de diminuer les risques de
blanchiment mais de les déplacer en les réorientant vers les acteurs les moins performants.
Ainsi certains acteurs suggèrent une mutualisation des réflexions en matière d’algorithmes
destinés à prévenir le risque de blanchiment ou de financement du terrorisme, avec une
gouvernance adaptée à cette mutualisation pour :
leur mise à jour et leur contrôle (incidents, données, faux positifs) ;
la prévention de la divulgation des règles de fonctionnement afin d’en préserver toute
l’efficacité.
Un tel exemple montre les bénéfices qui peuvent être retirés de certaines
mutualisations. En termes de pratiques de contrôle, il appelle probablement de la part des
autorités de supervision une articulation plus fine entre, d’une part, la normalisation et la
mutualisation des processus dans un but d’intérêt général et, d’autre part, des règles qui
responsabilisent chaque acteur individuellement en le rendant seul maître de ses choix en
matière de gestion des risques.
3.3. Les défis à relever par les autorités de contrôle
Comme le suggère l’exposé précédent, les autorités de supervision doivent envisager
les mesures à prendre pour :
À court terme, accompagner le marché afin de s’assurer de son appropriation des
techniques de l’intelligence artificielle dans des conditions qui garantissent le respect des
objectifs réglementaires et permettent le contrôle par le superviseur ;
Anticiper à moyen terme les mutations du marché (concentration, fragmentation,
externalisation, mutualisation) pour adapter les réglementations et les méthodes de
supervision à ces nouvelles réalités ;
À ces deux objectifs, il paraît naturel d’en ajouter un troisième : tirer parti des techniques
d’intelligence artificielle pour l’exercice de leurs propres missions (« suptech31
»)
Pour ce faire, les autorités peuvent envisager plusieurs axes d’actions :
En premier lieu, à l’instar des organismes financiers, l’organisation de leur montée en
compétence dans le domaine de l’analyse des données et de l’utilisation de l’intelligence
artificielle32
.
La création de mécanismes de coopération accrue entre superviseurs aux niveaux
national et international. À cet égard, dans le domaine de l’intelligence artificielle,
l’imbrication des problématiques de protection de données personnelles et des questions
règlementaires propres aux secteurs financiers rendent sans doute indispensable une
coopération plus étroite entre l’ACPR et la CNIL – tant en termes d’articulation des
doctrines que de recherche de synergies dans les compétences à acquérir et les
contrôles à mettre en œuvre.
31 Suptech est une contraction de l’expression « Supervisory technology » et fait référence à l’utilisation des
nouvelles technologies au service des missions de supervision. 32
On pourra se reporter à titre d’exemple au programme de recrutement et de formation des personnels, centré sur l’analyse des données, mis en place par la Monetary Authority of Singapore.
Le soutien aux initiatives de standardisation et de normalisation33
et plus généralement
aux travaux méthodologiques tendant à améliorer l’auditabilité et l’ « explicabilité » des
algorithmes « intelligents ».
On peut penser par exemple aux normes ISO/IEC AWI 2305333
, tentative de standardisation d’utilisation de l'IA.33
__________________________________________________________________________________________
10
CDIR 2019-01 13/13 https://acpr.banque-france.fr
Décembre 2018
11
« La réglementation économique et financière à l’ère du Big Data »
Paris, 24 novembre 2017
Remarques conclusives de François Villeroy de Galhau,
Gouverneur de la Banque de France
Je suis très heureux de clore cette conférence sur « La réglementation économique
et financière à l’ère du Big Data ». J’étais à Londres ce matin et je regrette par conséquent
de n’avoir pu assister à vos discussions sur ce sujet que je considère de la plus
haute importance. Je remercie chaleureusement l’ensemble des intervenants, en
particulier Benoît Coeuré, membre du Directoire de la BCE, qui a ouvert cette
conférence, et Philip-Hans Franses, professeur à la Erasmus School of Economics qui a,
m’a-t-on dit, prononcé un discours remarquable.
Le Big Data est en effet un sujet qui mérite d’être abordé dans une perspective
internationale et sous plusieurs angles. C’était l’objectif de cette conférence et je vous
remercie tous, présentateurs et participants, d’avoir permis de l’atteindre.
Pour clore cette conférence, je ne reviendrai pas sur les spécificités du Big Data ni sur
ses nombreuses utilisations. Toutes les présentations ont porté un regard neuf sur le Big
Data et je suis sûr qu’elles seront une excellente base pour la poursuite des discussions au-
delà de cette conférence d’un jour, sur des questions qui revêtent une importance capitale
pour nous tous.
__________________________________________________________________________________________CDIR 2019-01 1/4 www.banque-france.fr
24/11/2017
Je souhaiterais plutôt m’attarder sur les conséquences du Big Data pour l’économie en
général et les banques centrales en particulier. Je développerai cette idée en trois parties :
I. Le Big Data aura d’importants effets économiques. Il modifiera en particulier les
relations entre les membres de la communauté financière et entre cette communauté
et la sphère non financière.
II. Avec le Big Data, les banques centrales devront passer du statut d’observateur à
celui d’utilisateur ou d’acteur, ce qui implique d’importants changements dans la
manière d’exercer une partie de leurs activités.
III. Le Big Data soulève des problèmes d’ordre réglementaire qui ne peuvent être résolus
dans un contexte national, mais nécessitent de la part des autorités publiques une
réflexion à l’échelle mondiale.
**
I. Le Big Data aura d’importants effets économiques. Les coûts d’entrée à la réalisation
11
de transactions financières ont déjà été réduits et le seront encore dans le futur. La
connaissance des clients, en particulier celle concernant les conditions appliquées par les
institutions financières, sera renforcée et, d’une manière plus générale, les asymétries
d’information entre clients et fournisseurs de services financiers seront réduites. Le Big Data
peut être une puissante carte à jouer pour les GAFA ou les autres sociétés, non financières à
l’origine, afin de développer de nouvelles activités. Le secteur financier doit donc s’adapter
rapidement pour faire face à la révolution des données ainsi qu’à l’arrivée de nouveaux
concurrents, tout en préservant la confidentialité des données personnelles face à la montée
des cyber-risques notamment. Au total, la concurrence va augmenter, ce qui est bénéfique
pour l’économie. Le revers de cette évolution est la possibilité de risques accrus pour la
stabilité financière, ce qui requiert une nouvelle forme de vigilance de la part des banquiers
centraux en particulier. Je reviendrai sur ce point.
II. Des téraoctets de données sont disponibles et davantage encore le seront bientôt.
Les banques centrales collecteront de plus en plus de données granulaires. Il s’agit là
clairement d’une opportunité pour améliorer les prévisions, y compris celles qui sont fondées
sur le présent immédiat (nowcasting). Mais afin d’en tirer pleinement profit, les banques
centrales doivent être en mesure de relever le défi technologique, qui est considérable. Elles
doivent également faire face à une concurrence beaucoup plus importante à l’ère des
nouvelles données afin de maintenir la confiance dans l’information publique. Par
conséquent, elles doivent devenir des acteurs, et pas seulement des observateurs, du Big
__________________________________________________________________________________________CDIR 2019-01 2/4 www.banque-france.fr
24/11/2017
11Data. Cela nécessite d’importants efforts. Voici cinq pistes pour s’adapter à l’évolution
digitale.
a) L’ère du Big Data implique d’importantes modifications de l’infrastructure
informatique ainsi qu’une forte détermination à relever de nouveaux défis techniques et à
mettre en place un dispositif prospectif de gestion et d’analyse des données. À la Banque de
France, nous sommes en train de développer un espace de données granulaires (Data
Lake) qui couvre l’ensemble des nouvelles fonctionnalités, de la collecte des données à
l’apprentissage automatique.
b) Les banques centrales devraient également s’organiser afin de répondre à la
demande légitime des universitaires d’avoir accès, via des outils modernes et conviviaux, à
un large éventail de données granulaires. À la Banque de France, nous avons ouvert il y a
tout juste un an une Data Room, qui permet d’accéder à 600 millions de séries anonymisées
et a déjà attiré plus de 30 équipes de recherche. L’exploitation des possibilités offertes par le
Big Data ne fait que commencer, et les banques centrales doivent être dans la course.
c) Dans le même temps, la qualité des données doit être préservée. Le
processus d’entrée/sortie des banques centrales ne doit entraîner aucun écueil du type « à
données inexactes, résultats erronés » (garbage in, garbage out). Gérer de très gros
volumes de données, mettre en place une modélisation à partir de « signaux faibles »
statistiques ou par inférences successives (machine or deep learning) nécessite d’investir en
technologie humaine et automatique, dans la formation et d’embaucher des analystes et des
experts en données. En effet, le Big Data nécessite d’importantes ressources humaines
nouvelles, ce qui doit être anticipé et correctement géré.
d) L’appétence pour l’information en temps réel, le « court termisme » que peut
accentuer la révolution du Big Data, présente le risque que « les mauvaises données
chassent les bonnes », empêchant ainsi le grand public et les médias de comprendre les
évolutions économiques et financières. Nous devons faire notre possible pour détruire les
fausses nouvelles, et il existe également de fausses nouvelles dans le domaine économique.
Cependant, dans une société de la communication plus que de l’information, livrer des
données de bonne qualité, ce qui sera toujours la marque de fabrique des banques
centrales, peut difficilement être la seule réponse. Les banques centrales doivent rendre
leurs publications plus claires, plus lisibles et plus visibles. En particulier, si nous voulons
que des données robustes soient partagées et utilisées, nous devrions nous adresser à tout
_________________________________________________________________________________________CDIR 2019-01 3/4 www.banque-france.fr
24/11/2017
11un chacun et pas seulement aux experts. Nous devrions être davantage « B to C » et pas
seulement « B to B » : au-delà de l’évolution technologique, c’est un changement culturel.
e) Les banques centrales, et je dirais les autorités publiques d’une manière
générale, ne peuvent plus travailler en vase clos. Le partage des données est indispensable.
En France, nous avons une excellente coopération avec l’Institut national des statistiques et
nous partageons quotidiennement de nombreuses données entre superviseurs et banquiers
centraux, mais l’enjeu est plus important et plus large.
Ce qui m’amène à mon dernier point.
III. Le Big Data soulève des problèmes qui ne peuvent être résolus dans un
contexte national, mais nécessitent une réflexion mondiale de la part des autorités publiques.
De très grandes entreprises internationales exploitent massivement le Big Data. Les
autorités publiques doivent élaborer des réponses à des problèmes susceptibles d’apparaître
à l’échelle internationale. Quels thèmes faut-il traiter ? J’aimerais avancer quelques pistes.
1) Le partage de données doit être développé à l’échelle mondiale, comme l’a
souligné à juste titre le FMI dans son initiative sur les lacunes en matière de données (Data
Gaps Initiative) introduite par le G20. En Europe, les dispositions juridiques existantes
autorisant le partage de données entre superviseurs et banquiers centraux pourraient devenir
plus normatives et être plus largement mises en œuvre en pratique dans l’ensemble des
pays concernés. Le partage de données entre les autorités fiscales et les autres
administrations publiques devrait être facilité, sous réserve, bien entendu, du respect de la
vie privée.
2) L’innovation privée favorise la croissance et accroît l’efficience économique.
Par conséquent, elle ne doit pas être découragée par des réglementations invalidantes.
Dans le même temps, il serait bénéfique pour l’économie sur le long terme, et pour la
stabilité financière plus particulièrement, que les acteurs mondiaux qui sont amenés à traiter
d’énormes volumes de données sur les personnes physiques ainsi que sur les entités
privées respectent trois principes fondamentaux : sécurité, transparence, responsabilité.
Dans un monde très largement interconnecté, cela ne peut pas se régler de manière efficace
à l’échelle nationale. Je suis donc convaincu qu’il serait utile pour les organisations
internationales de mener une réflexion sur le sujet et de formuler des recommandations.
**
Je vous remercie de votre attention et vous souhaite une agréable fin de semaine, et pour ceux
qui ne sont pas parisiens, un agréable voyage de retour... aujourd'hui ou, pour certains d'entre
vous, je l'espère, dimanche !
__________________________________________________________________________________________CDIR 2019-01 4/4 www.banque-france.fr
24/11/2017
Direction de la communication de l’AMF - Caroline Richard - Tél : +33 (0)1 53 45 60 39 ou +33 (0)1 53 45 60 28 Service Communication de l’ACPR - Dominique Poggi - Tél. : + 33 (0)1 49 95 42 59 ou + 33 (0)1 49 95 40 29
Paris, le 21 mars 2018
L’ACPR ET L’AMF RELAIENT LE RAPPORT DU COMITÉ MIXTE DES AUTORITÉS EUROPÉENNES DE SURVEILLANCE SUR LE « BIG DATA » ET RAPPELLENT LES RÈGLES QUI PROTEGENT LES CONSOMMATEURS
Le Comité mixte, qui rassemble les trois Autorités Européennes de Surveillance des secteurs financiers [Autorité européenne des assurances et des pensions professionnelles (EIOPA), Autorité européenne des marchés financiers (ESMA), Autorité bancaire européenne (EBA)], a publié son rapport sur l’utilisation du « Big Data » par les fournisseurs de service financiers. Dans le cadre de la mission de protection de l’épargne du Pôle commun, l’ACPR et l’AMF, souhaitent sensibiliser les consommateurs à la suite de l’utilisation croissante de leurs données par les banques, les compagnies d’assurance et les entreprises d’investissement.
Ce rapport décrit les enjeux résultant de l’utilisation des technologies liées au « Big Data » par les fournisseurs de services financiers qui manient de grandes quantités de données afin de mieux connaître leurs clients et de leur proposer des produits et services financiers plus adaptés à leurs besoins. Il souligne les bénéfices mais également les risques pour les consommateurs. En conséquence, le Comité mixte rappelle certaines obligations réglementaires et formule des préconisations à l’endroit des institutions financières en vue de limiter ces risques.
À la suite de la publication de ce document d’information l’ACPR et l’AMF rappellent aux consommateurs qu’un certain nombre de règles ont été établies pour les protéger et réduire leurs risques liés à l’usage et au partage de leurs données :
Tout organisme doit recueillir leur consentement avant de collecter et d’utiliser leurs données ;
Les professionnels ont le devoir de protéger les données personnelles de leurs clients ;
Les fournisseurs de services financiers doivent fournir une information claire, exacte et non trompeuse sur leurs produits et services ;
Ils doivent également agir de façon honnête en tenant compte des intérêts du client lors de la conception et de la distribution de leurs produits et services ;
Si des consommateurs considèrent que leurs droits ne sont pas respectés, ils peuvent :
exercer leur droit de refuser l’utilisation de leurs données à des fins commerciales,
formuler une réclamation auprès de leur fournisseur de services financiers (banque, assurance ou autre), puis le cas échéant, auprès du médiateur compétent,
avertir la Commission nationale de l’informatique et des libertés (CNIL) qui est l’Autorité française chargée de la protection des données.
12
__________________________________________________________________________________________CDIR 2019-01 1/1 https://acpr.banque-france.fr
21/03/2018