Sur le credit scoring par les réseaux de neurones artificiels

13/04/2012
Publication e-STA e-STA 2011-2
OAI : oai:www.see.asso.fr:545:2011-2:2377
DOI :

Résumé

Dans cet article, un problème de mesure de risque de crédit dans une banque est étudié. L’approche proposée  pour  le  résoudre  utilise  un  réseau  de neurones artificiels. Après la collecte des données caractérisant   des   particuliers   demandant   des crédits,    cette    approche    consiste    d’abord    à prétraiter  les  échantillons  recueillis, puis  la  mise en   en   œuvre   de   différentes   architectures   de réseaux et combinaisons de fonctions d’activation et  d’apprentissage  et  comparaison  des  résultats obtenus avec les résultats des méthodes courantes dans les banques.


Sur le credit scoring par les réseaux de neurones artificiels

Auteurs

Sur l’étude du processus d'écriture à la main. Approches classiques et non conventionnelles
Sur l’étude du processus d'écriture à la main. Approches classiques et non conventionnelles
Sur l’unicité de la réponse d’un réseau d’énergie électrique en régime de défauts
Optimisation multicritère par Pareto-optimalité de problèmes d’ordonnancement en tenant compte du coût de la production
Stabilités Comparées de Systèmes Non Linéaires et Linéarisés Basées sur une Description Redondante
Les réseaux de neurones. Application à la modélisation et à la commande des processus
Les réseaux de neurones. Classification
Les réseaux de neurones. Présentation
Stabilité et stabilisation de systèmes discrets à retard
Sur la commande par mode glissant d’un convertisseur multicellulaire série
Recherche automatique de l’architecture d’un réseau de neurones artificiels pour le credit scoring
Chiffrement Partiel des Images Basé sur la Synchronisation de Systèmes Hyperchaotiques en Temps Discret et la Transformée en Cosinus Discrète
Synthèse d’une Commande Stabilisante par Retour d’Etat de Systèmes Linéaires à Retard
Stratégies de Commande de Systèmes Manufacturiers à Contraintes de Temps Face aux Perturbations Temporelles
Etude de la Stabilité d’une Classe de Systèmes de Commande Floue de type Mamdani
Nouvelles conditions suffisantes de stabilisabilité de processus échantillonnés non linéaires
Modélisation multi-physiques d’un actionneur linéaire incrémental pour la motorisation d’une pousse-seringue
Performances comparées de méthodes de commandes par mode de glissement et par platitude d’un papillon motorisé
Etude des Incertitudes dans les Ateliers Manufacturiers à Contraintes de Temps
Modèles discrétisés du système d’écriture à la main par la transformation d’Euler et par RLS
Technique proposée pour le déchiffrage dans un système de transmission sécurisée
Stabilisation de systèmes à retard par un régulateur du premier ordre
Détermination d’attracteurs emboîtés pour les systèmes non linéaires
Modélisation par Réseaux de Petri d’une ligne de traitement de surfaces mono-robot/multi-produits
Domaine de stabilité indépendante du retard d'un système linéaire à commande retardée
Sur le credit scoring par les réseaux de neurones artificiels
Sur l'analyse et la synchronisation de systèmes chaotiques Chen
Comparaison entre les EP et les CF pour l’Optimisation des Systèmes Dynamiques Hybrides
Algorithmes génétiques sequentiels pour la résolution de problèmes d’ordonnancement en industries agroalimentaires
2011-01 04-eSTA-V26.pdf

Métriques

2784
216
466.48 Ko
 application/pdf
bitcache://2fb979a9662f4c74a9a5c0229624355e81521fe3

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/545:2011-2/2377</identifier><creators><creator><creatorName>Oussama Margheni</creatorName></creator><creator><creatorName>Mohamed Benrejeb</creatorName></creator></creators><titles>
            <title>Sur le credit scoring par les réseaux de neurones artificiels</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2012</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Fri 13 Apr 2012</date>
	    <date dateType="Updated">Mon 25 Jul 2016</date>
            <date dateType="Submitted">Mon 10 Dec 2018</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">2fb979a9662f4c74a9a5c0229624355e81521fe3</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>9670</version>
        <descriptions>
            <description descriptionType="Abstract">Dans cet article, un problème de mesure de risque de crédit dans une banque est étudié. L’approche proposée  pour  le  résoudre  utilise  un  réseau  de neurones artificiels. Après la collecte des données caractérisant   des   particuliers   demandant   des crédits,    cette    approche    consiste    d’abord    à prétraiter  les  échantillons  recueillis, puis  la  mise en   en   œuvre   de   différentes   architectures   de réseaux et combinaisons de fonctions d’activation et  d’apprentissage  et  comparaison  des  résultats obtenus avec les résultats des méthodes courantes dans les banques.
</description>
        </descriptions>
    </resource>
.

1 Sur le credit scoring par les réseaux de neurones artificiels. Oussama MARGHENI, Mohamed BENREJEB Laboratoire de recherche LARA Automatique, Ecole Nationale d’Ingénieurs de Tunis BP 37, Tunis, Le Belvédère 1002, Tunisie oussama.margheni@gmail.com , mohamed.benrejeb@enit.rnu.tn Résumé Dans cet article, un problème de mesure de risque de crédit dans une banque est étudié. L’approche proposée pour le résoudre utilise un réseau de neurones artificiels. Après la collecte des données caractérisant des particuliers demandant des crédits, cette approche consiste d’abord à prétraiter les échantillons recueillis, puis la mise en en œuvre de différentes architectures de réseaux et combinaisons de fonctions d’activation et d’apprentissage et comparaison des résultats obtenus avec les résultats des méthodes courantes dans les banques. Mots clés : Risque de crédit, probabilité de défaut, credit scoring, réseaux de neurones artificiels. I. Introduction Le crédit est le produit qui génère le plus des gains dans l’activité d’une banque ; il constitue, en contre partie, le produit qui engendre le plus de pertes en cas de son non remboursement. La décision relative à son octroi ou à son rejet doit donc être justifiée. Le risque de crédit ou de contrepartie est le risque de pertes consécutives au défaut de remboursement d'un emprunteur. Il n'est pas nécessaire que le défaut se réalise pour que le risque de crédit affecte négativement la valeur d'un actif ou d'un portefeuille, il suffit que la vraisemblance de l'événement augmente. Le risque de crédit pose des problèmes de mesure délicats. La simple connaissance des encours de crédit ne suffit pas pour évaluer ce risque. Les pertes possibles sur une contrepartie dépendent des engagements aussi bien que de la probabilité de défaut des contreparties, une probabilité qui n’est pas facilement quantifiable. Les pertes, en cas de défaut, dépendent aussi des garanties ainsi que des éventuelles récupérations à la suite des défaillances. En 2004, le comité de Bâle sur le contrôle bancaire a publié « l’accord de bale II » ; il s’agit d’un ensemble de mesures et directives visant à limiter les risque bancaires, notamment le risque de crédit, en proposant des approches de notations différentes, allant des agences de notation externe au système de notation interne. En 2006, dans sa circulaire 2006-19, la Banque Centrale de Tunisie impose aux établissements de crédit et aux banques non résidentes de disposer d’une procédure de sélection des risques de crédit et d’un système de mesure de ces risques. La notation du crédit, ou le credit scoring, consiste à prédire le comportement d’un emprunteur à partir de l’historique d’autres emprunteurs de la banque. Il s’agit en fait de classer les différents clients de la banque en classes qui différent selon leurs comportements pendant le remboursement, ensuite d’associer le nouvel emprunteur à l’une de ces classes grâce aux données fournies. Dans un premier temps, la clientèle est répartie en classes de défaut et de non défaut. La classe de défaut contient les clients qui ont fait défaut de remboursement. Selon le comité de bale, est considéré défaut un retard de payement de 90 jours ou un abondant total des créances. La classe de non défaut est relative au cas de payement régulier des échéances sans incidents significatifs. 2 Le classement est ensuite affiné en sous classes qui représentent le score du client. II. Constitution et optimisation de l’échantillon II.1. Collecte des données Cette étape consiste à récupérer le plus grand nombre de données possible pour permettre la meilleure caractérisation des clients. En pratique, nous avons récupéré des informations existantes dans une base de données d’une banque source de notre échantillon. Les 33 champs rassemblés sont consignés dans le tableau 1. II.1. Prétraitement des données II.2.1. Etude de la répartition des données Afin d’optimiser l’échantillon, nous avons procédé à une étude descriptive des données qui nous a permis dans un premier temps d’éliminer les champs à relations apparentes ou à très faibles variations. Certains champs, tels que le champ âge qui est la différence entre la date de naissance du client et la date d’octroi du crédit, ont été calculés. D’autres champs dépendent d’un ou de plusieurs champs, tels que la capacité de remboursement qui n’est que 40% de la somme du salaire et d’autres revenus mensuels. Les champs à grande partie vide sont aussi éliminés de l’échantillon. Nous avons aussi procédé à une discrétisation des données quantitatives en divisant les valeurs en classes par intervalles, puis attribué un indice à chaque classe. Le tableau 2 présente l’exemple de la variable « Capacité de remboursement ». Ce premier traitement nous a permis d’alléger l’échantillon des 33 aux 15 champs suivants : 1- Sexe ; 2- Age ; 3- Niveau scolaire ; 4- Profession ; 5- Salarié ou non salarié ; 6- Marché ; 7- Situation de travail ; 8- Ancienneté dans l'emploi ; 9- Capacité de remboursement ; 10- Situation logement ; 11- Ancienneté au logement ; 12- Ancienneté du compte ; 13- Zone géographique ; 14- Montant remboursé/capacité de remboursement ; 15- Domiciliation. Tableau1 : Types des données collectées Champ Description Donnéesduclient Identifiant du client Identifiant numérique attribué par la banque au client Date de naissance Sous format jj-abréviation du mois-aa Sexe Masculin : M ou féminin : F Marché PAR pour particulier et PRF pour professionnel Profession Artisans, Avocats et assimilés, Commerçants, Dirigeants d’entreprises Salariés Privés, Etudiants/Rentiers/Autres, Médecins et assimilés, Professions libérales, Retraités, Salariés privés, Salariés publics, TRE/Artisans/Commerçants/ Professions libérales, Autres Nombre d'années en logement Ancienneté en années dans le logement actuel Situation de logement Propriétaire : P, locataire : L ou autres : A Client multi-banque Oui : O, non : N Niveau scolaire Non scolarisé : N, primaire : P, secondaire : S, universitaire : U Salarié Oui : O, non : N Situation au travail Contractuel : C, stagiaire : S, ou titulaire : T Nombre d'Années dans l'emploi Ancienneté dans l’emploi en années Revenu mensuel net En dinars tunisiens Autres revenus mensuels En dinars tunisiens CAP remboursement Capacité de remboursement du client Donnéesbancaires Total remboursement Montant remboursé mensuellement par le client hors le crédit en cours d’étude, en dinars tunisiens Durpro Revenus déclarés dans la déclaration unique annuelle Valeur du bien Valeur du bien acquis avec le crédit en dinars tunisiens Montant de remboursement Montant remboursé mensuellement par le client, y compris le crédit en cours d’étude, en dinars tunisiens Périodicité de remboursement Remboursement mensuel : M, trimestriel : T, semestriel : S Franchise Nombres de mois de grâce avant le démarrage du remboursement AGE de la voiture Age, en mois, de la voiture acquise pour les crédits auto Assurance vie Oui : O, non : N Domiciliation D : domicilié, N : non domicilié, P : pension de retraite, S : salarier Défaut 0 : Pas de défaut, 1 : Défaut, observation dans un horizon d’un an 3 Tableau 2 : Répartition d’une population par capacité de remboursement Capacité de remboursement Nombres % Indices <200 dinars 67 7% 1 200<= et <300 dinars 236 24% 2 300<= et <400 dinars 211 21% 3 400<= et <600 dinars 217 22% 4 600 dinars<= 258 26% 5 Total 989 100% II.2.2. Test de corrélation entre les variables Nous avons calculé la matrice de corrélation des champs retenus. Les champs ayant un coefficient de corrélation appartenant à l’intervalle −1 − 0,5 ∪ 0,5 1 ont été éliminés. Cette étape nous a permis de retenir un échantillon composé des 10 champs suivants : 1- Sexe ; 2- Age ; 3- Niveau scolaire ; 4- Situation de travail ; 5- Ancienneté dans l'emploi ; 6- Capacité de remboursement ; 7- Situation logement ; 8- Ancienneté au logement ; 9- Ancienneté du compte ; 10- Zone géographique. Le but de notre travail étant de prédire le défaut du client, le champ « défaut » est donc la sortie du modèle de score à élaborer. III. Les réseaux de neurones artificiels pour le credit scoring L’échantillon final composé de 10 champs d’entrée et d’un champ de sortie décrivant 989 individus est divisé en trois sous-échantillons comme suit : - 60% de l’échantillon, soit 593 lignes, destiné à l’apprentissage du modèle neuronal ; - 20 %, soit 198 lignes, pour la validation ; - 20 %, soit 198 lignes, dont 49 mauvais clients et 149 bons clients, pour le test. Dans ce qui suit, nous utiliserons les notations suivantes : Res_n[e n1,… ni… s] avec : n : le nombre de couches cachées ; e : le nombre de neurones de la couche d’entrée ; ni : le nombre de neurones de la couche i, i allant de 1 à n ; s : le nombre de neurones de la couche de sortie ; fe, fi, et fs sont respectivement les fonctions d’activation des neurones de la couche d’entrée de la iéme couche cachée et de la couche de sortie. La performance du réseau est mesurée par la Matrice de Confusion (MC) de la figure 1 et par le Taux du Bon Classement (TBC) de l’échantillon de test. Mauvais clients classeés comme mauvais Noté Mc_M Mauvais clients classeés comme bons Noté Mc_B Bons clients classeés comme mauvais Noté Bc_M Bons clients classeés comme bons Noté Bc_B Figure 1 : Matrice de confusion La conception et mise en œuvre des réseaux de neurones artificiels a suivi l’algoritme de construction suivant : Fixer le nombre de couches ; Fixer le nombre des neurones par couche ; Tester différentes fonction d’activation ; Tester différentes fonction d’apprentissage ; Augmenter le nombre de neurones par couche ; Refaire les tests ; Augmenter le nombre de couches. Dans le tableau 3 sont consignées les meilleures performances atteintes par différents réseaux de neurones testés. Lors de la réalisation de ces tests des réseaux de neurones artificiels multicouches, nous constatons que : - la meilleure performance reste 78,28% réalisée par le réseau Res_1[10 5 2], à fonctions d’activation arctangente et fonction d’apprentissage régulation bayesienne. La matrice de confusion résultante de cette architecture est :