Les réseaux de neurones, Apprentissage

27/08/2017
Auteurs : Pierre Borne
Publication REE REE 2006-8
OAI : oai:www.see.asso.fr:1301:2006-8:19675
DOI :

Résumé

Les réseaux de neurones, Apprentissage

Métriques

17
6
1.28 Mo
 application/pdf
bitcache://fbe5e5e7a535ea91d569eac0cce35c47ed3b5014

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/1301:2006-8/19675</identifier><creators><creator><creatorName>Pierre Borne</creatorName></creator></creators><titles>
            <title>Les réseaux de neurones, Apprentissage</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2017</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Sun 27 Aug 2017</date>
	    <date dateType="Updated">Sun 27 Aug 2017</date>
            <date dateType="Submitted">Sun 9 Dec 2018</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">fbe5e5e7a535ea91d569eac0cce35c47ed3b5014</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>33431</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

Dossier DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? (2,, !, partie) Les réseaux de neurones artificiels Les réseaux de neurones, Apprentissage Pierre BORNE Ecole Centrale de Lille Mots clés Apprentissage, Règle de Hebb, Règle de Kohonen, Rétropropagation dugradient, Apprentissagecompétitif Il existe essentiellement deux types d'apprentissage, l'apprentissage non supervisé et'apprentissage supervisé. Apprentissage non supervisé Dans ce cas, des exemples ou « prototypes » ou « pa- trons » représentés par un ensemble de données regroupées dans un vecteur p sont présentés au réseau que l'on laisse s'auto-organiser au moyen de lois locales qui régissent l'évolution des poids synaptiques. Ce mode d'apprentissage est aussi parfois appelé « apprentissage par compétition ». Apprentissage supervisé Dans ce type d'apprentissage, on cherche à imposer au réseau un fonctionnement donné en forçant à partir des entrées qui lui sont présentées, les sorties du réseau à prendre des valeurs données en modifiant les poids synaptiques. Le réseau se comporte alors comme un filtre dont les paramètres de transfert sont ajustés à partir des couples entrée/sortie présentés. L'adaptation des paramètres du réseau s'effectue à partir d'un algorithme d'optimisation, l'initialisation des poids synaptiques étant le plus souvent aléatoire. 1. Apprentissage non supervisé Il existe de nombreuses méthodes d'apprentissage non supervisé, nous ne présenterons ici que les deux les plus anciennement connues. . Règle de Hebb Considérons un réseau totalement connecté avec les nota- tions suivantes : 'w,y (r) : valeur à l'instant t du poids liant le neurone j au neurone i, · ; (t) :sortie à l'instant t du ièllle iielirone, · f (v) : fonction d'activation du type tout ou rien, f (v) = 1 si> 0 et'f (v) - 0 si v : 5 0. La loi d'apprentissage la plus simple est basée sur la règle de Hebb qui suit en fait le comportement du neurone bio- logique : si deux neurones interconnectés sont simultané- ment activés, alors le poids de la connexion qui les relie doit être renforcé, d'où l'algorithme : IV" ! (/+ l) = /) +,u -, expression dans laquelle,u est une constante positive défi- nissant l'intensité de l'apprentissage. Pour éviter que cette méthode de renforcement des poids ne conduise à des gains élevés, nous pouvons introduire dans l'algorithme un terme d'oubli dont le taux, noté y, est une constante positive inférieure à 1 : : 1 + (t) +/.) La valeur maximale des poids est définie par,u et y, en effet si les neurones/et y sont activés en même temps, nous avons zi (t) -,i (t) - 1 et il vient à l'équilibre soit - (1 - ') i t'il +111 JI Y SSENTf Undesélémentsforts des réseauxde neuronesartificiels est leur faculté d'apprentissage.Celui-cipeut s'effectuer par présentation répétée d'une série de « patrons) ou ( modèles » et peut être supervisé ou non. Dans le cas des réseaux multicouches des approchestrès utilisées sont celles inspirées de la méthode de rétro-propagationdu gradient mais diversesautres méthodes de type « compétitions » peuvent égalementêtre mises en oeuvre. SYNOPSIS One of the main interestsof artificialneural networks istheir lear- ning faculty which can by achievedby repetitive presentations of a set of "patterns" or "models" and which can be supervised or not. For multilayer neural nets, commonly used approachesare inspiredof the backpropagationlearningmethod but variousother approachescan also be implemented such as competitive lear- ning. REE N,9 Octobre2006 1 . Dossier ../ DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? 21 ", partie) Les réseaux de neurones artificiels . Règle de Kohonen Cette règle s'écrit sous la forme : (+ !) - (+ ( (- (/))aveci El (t) avec I (t) Elle permet au neurone d'apprendre le vecteur présenté en entrée et donc d'être utilisé en reconnaissance des formes. L'apprentissage a lieu lorsque l'indice du neurone appar- tient à un ensemble/ () défini en fonction des objectifs. La mise en oeuvre de cette règle est détaillée dans l'arti- cle traitant de la classification. 2. Apprentissage supervisé Ici, nous ne présentons que quelques méthodes significa- tives parmi les très nombreuses approches existantes. 2.1. Réseau monocouche, règle du perceptron · Notations Le réseau étudié est décrit par la figure suivante : il, z ilt, + x x La fonction d'activation f est un tout ou rien. L'objectif est d'apprendre les K patrons . Notons p (t) le patron présenté à l'instant t, S (t) la sortie désirée et z (t) la sortie réelle : s s, (t) z Z, (1), Zi (3,i (/ » Yi (1) I,t,li (t) xi (t)V I - VIJ t.xl t+VIO lt l L'erreur pour la sortie du ième neurone sur présentation à l'instant t du patron P (t) s'écrit : e; t = s, t-J t · Principe La méthode consiste à présenter successivement tous les patrons et à ajuster à chaque étape le vecteur r des poids des connexions des entrées au i neurone selon l'algorithme suivant : iv, (t + 1) = w, (t) + e, (t) p (t) li,/,, (1 + 1) = (t) + , (t) Nous pouvons constater que si la sortie est celle désirée, les poids ne sont pas modifiés. - Variante de la méthode L'approche utilise ici une minimisation de l'erreur par la méthode du gradient. A l'étape/, avec le patron p (t), il vient 1 p (t) > 0 zi (t) 0 silloil La quantité - ( (,t) - z, (i » iill-i' (t) p (t) est donc tou- jours positive ou nulle et ne peut être nulle que pour -i (t) = i (/) - Soit à l'instant t la fonction de coût E (t) (i (t) - Zi (t » 1) (t) Il vient : ÔE (t) (t) : - (Si (t) Zi (t)) P (t) soit pour minimiser E (t) en appliquant l'algorithme du gradient : aE r) i,i " i1 Wi" i (t + 1) = 1'ti (t) + il (t) p (t) 2.2. Apprentissage compétitif L'objectif de cet apprentissage est de permettre la réalisa- tion de la classification automatique, c'est-à-dire le parti- tionnement d'un ensemble d'objets en classes regroupant les objets les plus semblables au sens d'un critère choisi. . Apprentissage compétitif standard Le réseau de neurones considéré est décrit sur la figure suivante : N 9 1 REE N°9 38 Octobre2006 v, li il "i, (1 .V illi mil) .vlm i> illi i1) Couche d'observation Couche intcrmédiaire Couche de sortie - (' (t) = (t) - x (t) La couche d'entrée transmet sans modification l'observa- tion x (t) à l'instant t à l'ensemble des neurones de la cou- che suivante. Dans la couche intermédiaire, le jéme neurone calcule la distance Ilx (t) - (t) l entre son vecteur poids et le vecteur observation, considérés à l'instant t. Le neurone de sortie détermine l'indice du neurone dont le vecteur poids est le plus proche de l'observation : : (,-) (t) -= arg m1iii Ix (1 t) - (t) l Le critère d'optimisation s'écrit : /) =y.) - (/) !'E (1) = ') ai (t) Ilx(r) - W i(t) 112E (t) = :' Y ai (1 avec aj (t) = 1 si x (t) appartient à la classe C/caractéri- sée par le vecteur w et a/ (/) 0 sinon ilvient, en utili- sant l'algorithme du gradient : aE (t) _ _@, j..,, . , ai't " ; - = -a, (/ (1) (x (t) - 1't i (1 » it-ilit oE (l) illl'i (t + 1) = 1,'i (t) -il (t) " -' cw Soit : (t+ 1) = il " , (t) +17 (t) ai (t) (X (t) - lu, (t » Dans cette approche, q (t)est une suite scalaire non crois- sante vérifiant les conditions : Iiiii il (t) = 0, il (t) = - et 772 (t) < - 1-- qui ont pour but de faciliterla convergence de l'algorithme. Avec cet algorithme, seul le centre de classe le plus pro- che se rapproche de l'observation. . Algorithme des K-moyennes C'est l'algorithme le plus simple et le plus répandu en classification automatique. L'ensemble des observations doit être réparti en K classes IÇ,C,,.... C, 1, chaque classe étant caractérisée par son centre. Notons le cen- tre de la classe Ck : T = [.i---...] Une observation caractérisée par le vecteur x (p) est ensuite affectée à la classe C ;dont le centre Wj est le plus proche de x (p) : X (p) E ( IIX (p) expression dans laquelle =min.Y (/ ?) - est une distance, par exem- ple la distance euclidienne. Notons ai (1 » = 1 si x (P) e C, et a, P) 0 sinon. Si N est le nombre des observations, l'algorithme des K- moyennes correspond à la recherche des centres Wj mini- misant le critère El -Y y a, (p) l-v (p) - 2/,=l avec x (i, x (i- L'optimum correspond à l'annulation du gradient : v aL, =-Laj (p) (x (p) -H' aru. a h-x (p-i-i all'i Pour Wj défini par \ lai (p)?). (1 » Y, 6r, (/) ce point correspond au centre de gravité des observations appartenant à la classe Ci : xx X X ) x x x x x Centre 1 X Xx x x x) < x 0 x x x.x \yt'V 1xi, x x Centre 3 Centre 2 REE M W9 Octobre2006 M 39 1 - = Dossier DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? (21 " 1 partie) Les réseaux de neurones artificiels Détail de l'algorithme des K-moyennes : 1) Initialiser les centres à des valeurs aléatoires dans l'espace d'observation. 2) Affecter toutes les observations à des classes asso- ciées aux centres les plus proches. 3) Actualiser les centres des classes selon l'algo- rithme établi précédemment. 4) Arrêter l'algorithme lorsque les centres des classes ne changent plus, sinon aller en 2. Cet algorithme converge en un nombre fini d'itérations, mais la solution obtenue peut varier suivant l'initialisa- tion. Si les observations arrivent séquentiellement, il est possi- ble d'adopter une forme itérative de l'algorithme. Notons x (t) l'observation disponible à l'instant t et Wj (t) le vecteur définissant le centre de la classe Cj au même instant. Il vient : w ai (t+ , i (t + 1) = (t) +,,,. ai (t + 1) (.v (t + 1) - (t » IN,1, (/+ 1) avec N (<) le nombre d'éléments de la classe Cj à l'instant t. A l'instant t + 1, seul le centre Wj tel que uj (t +1) - 1 est actualisé, les autres restant inchangés. a Apprentissage compétitif pénalisant le rival Dans ce cas, l'actualisation intervient non seulement au niveau du neurone gagnant mais également de celui du rival direct. A la présentation d'une observation x (t), le vecteur poids du neurone gagnant (g) se déplace dans le sens de l'observation tandis que son rival (r) se déplace dans le sens opposé, les poids des autres neurones étant inchangés. Notons : Il vient (1 + 1) = l (t) + il (/) (x (1) - v,, (1 » 1,1'i (t + 1) = 1'l " i. (t) - ;/ (t) (x (t) - 1 l,1 (t » (t + 1) = IV,, (/) V/ e ig, 1-1 x X x x cf > x x x x xxx x X 0 x x X X Xx x C)'--xx Si les coefficients d'apprentissage sont tels que y (t) soit très inférieur à'q (t), le réseau peut déterminer le nombre de classes en présence. En effet : . si le nombre K de neurones est supérieur au nombre réel de classes en présence, les neurones gagnants évoluent vers les centres des classes et les autres s'éloignent de l'ensemble des observations ; . si le nombre de neurones est inférieur au nombre de classes en présence, il y a oscillation des vecteurs poids entre les classes durant l'apprentissage ; ce qui indique la nécessité d'ajouter une ou plusieurs classes. 2.3. Apprentissage supervisé du réseau monocouche . Principe Le but est de réaliser la fonction choisie : = g) Notons x l'entrée du réseau et z sa sortie. En l'absence d'entrée inhibitrice, il vient : L.J Il. : --/ = i, . Méthode du gradient total A la valeur x (p) de l'entrée, correspond la sortie z (p) du réseau et s (p) g (x (/ ?)). Soit un ensemble de P patrons, chacun étant défini par une paire (x (p),s ()) avec p 1,..., P. Notons z (p) la sortie du réseau lorsque le p " mepatron est présenté. L'erreur sur l'ensemble des valeurs des patrons s'écrit : E, = 1 1, iîi 1,,I,éie - Y-, y (zi (1 » -,i (P » La méthode du gradient total conduit, en notant wij (t) la valeur du poids wij à la t ième itération, à l'algorithme : i ., 1 1 \ -- 1 1 % m'trnal<· i ii (/+ 1) = ,t, li (1) - il (t) JL ë.hv;; avec ? j (t) coefficient d'apprentissage et dE i' -, - Y-.., ( : : l (p) - si (p » " I) III, r) ital'i " ; i alv, 40 1 REE NI 9 Octobre2006 Avec ozi (] ?) - ' (i (1- » ili (P) ai't i.i (/' » ait,i Le problème d'optimisation peut être formulé comme suit : iiiin E (t) = li'liii 1' (- (c/) ( Il'fi -1 -1n n Il vient pour l'algorithme : l' li 1 (/,),)'i 1 -J 1 li,, 1 1 -,,_ -, 1/-1 1-/ ! UV ;,P . Méthode du gradient instantané Le calcul se simplifie, s'effectuant de façon distincte à chaque changement d'entrée. Pour t'entrée x (t) présentée à la t jème itération, il vient s (t) = g (x (t)) et la sortie du réseau prend la valeur z (t). L'erreur instantanée s'écrit : l' "...' E (1) = - Y-, (-i (t) - si (1 » - 21 : 1 L'algorithme du gradient (t+ 1) (tl) -17 (t) ( -i (1) =,, l (/) (/ » i = 1, 2,..., iii(. i, 1 (/','l-1,,>1 @ i=1,2,.... n,, ii - i 1;l Dans cette écriture, W représente l'ensemble des poids d'interconnexion du réseau de neurones et W (1) (t) la valeur à l'instant t des poids liant les neurones de la cou- che 1 -1 à ceux de la couche 1. L'application de la méthode du gradient pour les poids de la couche 1 conduit à l'algorithme : ' () t+l =W (1) t aE (l) d.v Considérons le réseau de neurones représenté ci-dessous : , \ CI ",. devient alors : t " : (t + 1) = Il-,, (1) - 17 (l) (--, (/) - -li (/ » (/, (*l (1' » y, (1) ch' L'itération se poursuit en présentant successivement au réseau l'ensemble des patrons. Le calcul s'arrête au bout d'un nombre d'itérations prédéfini ou lorsque l'erreur pour chaque patron devient inférieure à un seuil choisi. 2.4. Apprentissage supervisé du réseau multicouche, méthode de rétropropagation du gradient -,Présentation de l'algorithme Dans le cas d'un réseau admettant q couches, une nota- tion simplifiée est utilisée pour alléger la formulation. Dans la méthode de rétropropagation du gradient l'ap- prentissage s'effectue par optimisations successives en opérant couche par couche pour chaque patron en com- mençant par la couche de sortie pour remonter vers la couche d'entrée. Notons E (t) la demi-somme des carrés des erreurs à la t "'e présentation : ) È () -) f (t) représente la somme de tous le signaux attei- gnant le i ème neurone de la couche 1. Il vient l'algorithme de rétropropagation du gradient : . (. [ ()E: (/) ll (. (t) il.i ()IOII..(.I)dE (r) 'a=,' (r) 1 atot' (t) 1 a-/01 ail Ca ; (t) alol ; (t) JI\ a,y soit pour la couche de sortie (l ) : + i'é (t) = (zl "' (1/) - (t) ar ( (/)) ''''' "''/ ;' (/) et pour les couches cachées ( (2 : 5 1 g q - 1) : 1 ' i) " i i Il il(1 + 1) = l i 1 (/) - il (t) ' (t) Z',' (t)ii j, REEW9 Octobre2006 a 41 1 . Dossier / DU TRAITEMENT NUMÉRIQUE À LA GESTION DES CONNAISSANCES DE NOUVELLES VOIES D'INVESTIGATION ? (2111, partie) Les réseaux de neurones artificiels Avec of' (loti (t)') IIi "' ôi (ij (,t) = \ 1 y (/+] 1,V Il atot i, (t) il iiU oti IIII Il est à noter que plusieurs variantes de cet algorithme figurent dans la littérature. Pierre Borne est né en 1944 Après avoir obtenu une maîtrise de Physique en 1967, une maîtrise de mécanique, une maîtrise EEA (Electronique, Electrotechnique et Automatique) et une maîtrise MAF (Mathématiques et Appllcations Fondamentales) en 1968, ri est titulaire du diplôme d'Ingénieur de l'institut industriel Du Nord (IDN), du doctorat de troisième cycle en Automatique de l'Université de Lille en 1970 et du doctorat es Sciences Physiques de la même Université en 1976. Le Professeur Borne est auteur ou co-auteur de plus de 400 arti- cles dans des conférences internationales. Il est aussi auteur ou co-auteur de 17 livres d'automatique, d'un dictionnaire français- anglais anglais-français et co-éditeur de la " Concise Encyclopedia of Modelling and Simulation » publiée chez Pergamon Press. Il a été directeur du GDR Automatique puis du GDR MACS (Modélisation, Analyse et Conduite des Systèmes dynamiques) du CNRS de 2002 à 2005. Il est actuellement Professeur de Classe Exceptionnelle à l'Ecole Centrale de Lille et Directeur du Département dAutomatique et Informatique industrieiie Ses activités concernent l'automatique et en particulier la commande, l'analyse et le pilotage des processus continus ou discrets avec mise en oeuvre des techniques de soft computing telles que la logique floue, les algorithmes génétiques et les réseaux de neurones. Il est membre du Conseil National des Universités (CNU). Membre Fellow de IEEE depuis 1996, Il a été Président de la Société IEEE/SMC en 2000 et 2001. En 1999 il a été nommé Docteur Honoris Causa de l'Université de Moscou (Russie) et en 2006 Docteur Honoris Causa de l'Université de Waterloo (Canada) Elu Vice-Présideni de la Section française de IEEE en janvier 2002, il a créé la même année un chapitre français SMC de l'IEEE. En France il a été nommé Chevalier dans l'Ordre des Palmes Académiques en 1989 puis Officier dans le même ordre en 1999. Nommé de 2000 à 2006, Vice-Président de la Société française de l'Electricité, de l'Electronique et desTechnologies de l'Information et de la Communication (SEE), il a été élu Président du Comité de Publication de la REE en 2004. En décembre 2002, il a reçu la dis- tinction de membre Emérite de cette société en décembre 2002. 42 1 REE N'9 Octobre 2006