Prédire avec des ondelettes orthogonales

03/08/2016
OAI : oai:www.see.asso.fr:545:2009-2:17220
DOI :

Résumé

Prédire avec des ondelettes orthogonales

Métriques

44
12
755.11 Ko
 application/pdf
bitcache://2e5f78437a44826b65c2b1920fc76be0a10f6c2c

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/545:2009-2/17220</identifier><creators><creator><creatorName>Dan Stefanoiu</creatorName></creator><creator><creatorName>Florin Ionescu</creatorName></creator><creator><creatorName>Janetta Culita</creatorName></creator></creators><titles>
            <title>Prédire avec des ondelettes orthogonales</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2016</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Wed 3 Aug 2016</date>
	    <date dateType="Updated">Wed 3 Aug 2016</date>
            <date dateType="Submitted">Fri 20 Apr 2018</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">2e5f78437a44826b65c2b1920fc76be0a10f6c2c</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>28974</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

Prédire avec des ondelettes orthogonales DAN STEFANOIU 1 , FLORIN IONESCU 2 , JANETTA CULITA 1 1 Université «Politehnica» de Bucarest, Faculté d’Automatique et Ordinateurs Splaiul Independentei no. 313, Secteur 6, Bucarest – 060042, ROUMANIE 2 Université des Sciences Appliquées, Département de Mécatronique Brauneggerstrasse 55, Konstanz – 78462, ALLEMAGNE danny@indinf.pub.ro, ionescu@htwg-konstanz.de, jculita@yahoo.com Résumé— Cet article constitue une version étendue de la communication présentée à la Conférence Internationale Francophone d’Automatique CIFA-2008, organisée a Bucharest. Le but est de présenter une méthode de prédiction des séries de temps, basée sur la Transformation en Ondelettes orthogonales et la modélisation ARMA. La transformation est choisie d’une manière adaptative, alors que le modèle ARMA est précisé à l’aide d’un critère appelé la qualité de prédiction. Les simulations sur des séries de temps réelles ont prouvé que, par comparaison avec le prédicteur classique (basé sur une tendance, une composante saisonnière et une variation stochastique), le modèle de prédiction à base d’ondelettes est plus précis et moins subjectif. Mots clés— prédiction, ondelettes, modèles de régression. I. INTRODUCTION Prédiction des phénomènes naturels (comme sismiques, climatiques, célestiels, etc.) est un problème ancien et, quand même, actuel. Ceci parce que tels phénomènes peuvent avoir une dynamique assez forte, avec de changements inouïs. Beaucoup de procédés nécessitent, de même, une prédiction de haute qualité en vue de leur modélisation, simulation, contrôle automatique, etc. Certains phénomènes relèvent leur comportement parmi des séries de temps (st) [11], qui sont en effet des ensembles des données mesurées sur un horizon limité de temps: { } 1, [ ] yn N y n ∈ . Quoi que les mécanismes qui gouvernent la dynamique d’une série de temps soient inconnus, l’entité qui a fourni les données peut être associée à un modèle de signal non stationnaire. Toute st inclut deux types de comportements: déterministe et stochastique. Classiquement, le comportement déterministe est facilement décrit par la superposition d’une tendance Ty et (éventuellement) une composante saisonnière (périodique) Sy . Traditionnellement, la composante stochastique est reliée à un modèle autorégressive (AR) ARy [ToSt89], [8]. Il en résulte le modèle classique de prédiction, exprimé comme ci-dessous: ˆ T S ARy y y y≡ + + . (1) La tendance est un polynôme de degré réduit, dont les coefficients peuvent être déterminés, assez facilement, à l’aide de la Méthode des Moindres Carrés (MMC). La variation périodique est la plus difficile à modéliser, parce que la période et les coefficients saisonniers, doivent être déterminés à la fois. Usuellement, pour ce faire, on utilise deux méthodes quasi-empiriques [11]: Méthode de Wittacker-Robinson (basée sur une approche temporelle) et Méthode de Schuster (basée sur un approche fréquentielle). La difficulté majeure consiste à choisir la période appropriée sans avoir un critère rigoureux de sélection. L’expérience de l’utilisateur, aussi qu’une bonne connaissance des mécanismes cachés derrière la variation abstraite des données mesurées, jouent un rôle décisif. C’est le défaut principal du modèle classique de prédiction (et, en même temps, un défi pour l’utilisateur), son degré de subjectivisme étant assez grand. Quant à la composante AR, il est bien connu l’Algorithme (rapide) de Levinson-Durbin (ALD) [8] pour l’estimation des paramètres. La précision du prédicteur s’avère d’être sensible par rapport aux composantes tendance et saisonnière, qui décrivent le comportement déterministe. Or, la manière classique de modélisation de ce comportement introduit une limite importante, causée par son principe: seulement les séries de temps non ou quasi-stationnaires pourraient être prédites avec précision. La plupart des phénomènes naturelles ou des procédés ont quand même une évolution non stationnaire (les spectres des séries de temps qu’ils fournissent varient en temps). Le comportement non stationnaire d’une st peut être modélisé à l’aide de l’Analyse temps-fréquence-échelle [1]. Les ondelettes sont des instruments typiques de cette analyse, dans le contexte de la Théorie multi- résolution. Cette théorie a été construite surtout par les travaux de S. Mallat, Y. Meyer et I. Daubechies, à la fin des années ’80 [3], [5]. (Une généralisation à été publiée par R. Coifman et M. Wickerhauser dans [2], où les paquets d’ondelettes ont été introduites.) Des ondelettes orthogonales sont employées dans la construction d’une base dans la structure multi-résolution associée à l’espace des signaux stables, d’énergie finie (qu’on appelle signaux usuels). Une telle base d’ondelettes est implantée par l’intermédiaire d’un banc de filtres, capable à focaliser l’analyse du signal dans les sous- bandes de fréquence où l’information sur la prédiction semble d’être concentrée au maximum. Le banc est d’avantage configuré par rapport à la distribution d’énergie de la st, simultanément en temps et en fréquence (i.e. d’une manière adaptative, en tenant compte du caractère non stationnaire du signal). Dans cet article, deux modifications du modèle (1) sont proposées, à partir des résultats et des algorithmes spécifiques au cadre de travail des ondelettes. Premièrement, le modèle classique déterministe est remplacé par un modèle basé sur des ondelettes orthogonales de la classe de Daubechies. Deuxièmement, le modèle AR est complété par une e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 composante de type moyenne glissante (moving average – MA), concernant le bruit blanc. Il devient ainsi un modèle de type ARMA [ToSt89], [8]. La présentation continue avec deux sections principales: une concernant la construction du modèle basé sur ondelettes et un autre relevant quelques résultats de simulation. Une conclusion et la liste bibliographique finissent l’article. II. ALGORITHMES DE BASE AVEC DES ONDELETTES ORTHOGONALES La modélisation déterministe avec des ondelettes est en effet un problème de débruitage des données. Les données originales sont projetées sur un sous-espace U de l’espace des signaux usuels, généré par une collection finie des paquets d’ondelettes, comme illustré dans la Figure 1. ][][ 0 gD ξ yr yr∆ yr U y v U ⊥ yW Figure 1 : Principe du débruitage des données. La projection Wy est associée non seulement à la composante déterministe de la st, mais aussi à sa partie utile, débruitée. Le modèle global est alors: ˆ W ARMAy y y≡ + . (2) Le bruit coloré qui a corrompu les données, Wv y y≡ − , est orthogonal sur le sous-espace ondelettes et, donc, sur la composante utile Wy , comme le montre clairement la Figure 1. Le problème est alors de construire et d’utiliser le modèle global (2), en poursuivant les étapes suivantes: (a) estimer la composante utile Wy , par rapport aux données y et à une structure multi- résolution prédéfinie (i.e. en utilisant un certain type d’ondelettes); (b) estimer le modèle stochastique de type ARMA ARMAy , à partir du bruit coloré v ; (c) prédire la st avec le meilleur prédicteur en termes de la qualité de prédiction. Ensuite, on passe en revue les étapes ci- dessus mentionnées. Les détails de cette construction peuvent être trouvées dans [9]. Une manière de générer le sous-espace U s’appuie sur la Théorie multi-résolution introduite par Mallat en [5]. Ultérieurement, la théorie a été généralisée par Coifman et Wickerhauser en [2]. L’approche de Mallat consiste à construire une structure multi-résolution dans l’espace des signaux usuels, c'est-à-dire une base orthogonale qui puisse surprendre le phénomène du changement de la résolution locale de représentation. La construction débute à partir d’une paire d’ondelettes orthogonales: père ( φ ) et mère ( ψ ). Éventuellement, les ondelettes peuvent avoir le support compact, comme celles proposées par Daubechies en [3]. Les supports sont déterminés par le paramètre N ∗ ∈N et ont les ouvertures suivantes: [ ]Supp( ) 0,2 1Nφ = − & [ ]Supp( ) 1 ,N Nψ = − . (3) Les ondelettes sont des solutions aux équations fonctionnelles ci-dessous: 2 1 0 ( ) 2 (2 ) N n n t h t n − = φ = φ −∑ , 0,2 1t N∀ ∈ − ; (4) 1 1 2 2 ( ) 2 ( 1) (2 )n n n N t h t n− = − ψ = − φ −∑ , 1 ,t N N∀ ∈ − . (5) L’argument « 2t » des termes droits met en évidence un changement d’échelle de représentation, qui constitue le cœur du mécanisme multi-résolution. En effet, les deux ondelettes sont des combinaisons linéaires des versions contractées et déplacées en temps de l’ondelette père. Pour obtenir donc une dilatation des ondelettes, il faut utiliser d’autres ondelettes plus serrées (contractées). Pour cette raison, (4) et (5) s’appellent équations de dilatation en échelle (EDE). Pour faire la distinction entre les deus EDE, la deuxième s’appelle en plus orthogonale (EDE⊥ ). Leurs coefficients sont basés sur une séquence discrète { } 0,2 1n n N h ∈ − (à valeurs réelles) qui possède deux propriétés intéressantes: 2 1 0 2 N n n h − = =∑ , 2 1 0 ( 1) 0 N n n n h − = − =∑ (normalisation); (6) 2 1 2 0 0 [ ] N n n k n h h k − − = = δ∑ , k∀ ∈Z (Nyquist[2]). (7) L’orthogonalité des ondelettes est une conséquence directe de la propriété Nyquist[2] de [7]. En plus, on a démontré que l’orthogonalité des deux ondelettes est équivalente avec la dichotomie théorique de leurs spectres. En pratique (suite au Théorème Paley-Wiener), les deux spectres sont essentiellement localisés en basse fréquence (pour le père) et haute fréquence (pour la mère). Plus N est grand, moins visible est l’intersection des deux spectres en fréquence moyenne. Deux opérations peuvent être appliquées à tout signal pratique f (ainsi qu’à toute ondelette), afin de modifier sa résolution temporelle: changement d’échelle et translation (décalage) temporelle. Les opérations sont définies comme suit, pour tout t ∈R : ( ) ( )( ) 2 2m m m f t f t− − σ = , m∀ ∈Z ; (8) ( )q ( ) ( )n f t f t n− = − , n∀ ∈Z . (9) En changeant l’échelle avec l’opérateur (8), un signal peut devenir plus dilaté (pour 0m > ) ou plus contracté (pour 0m < ). Un signal dilaté peut être considéré comme version brute de l'original, en termes de résolution temporelle. D'ailleurs, selon le principe d’incertitude de Gabor-Heisenberg, le spectre du signal dilaté/contracté est une version contractée/dilatée du spectre original. Ainsi, fondamentalement, en diminuant la résolution temporelle, la résolution en fréquence augmente. Par le décalage de temps (9), la variation d’un signal peut être retardée (pour 0n > ) ou anticipée (pour 0n < ). Un signal f peut produire la famille des e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 signaux à échelle et écart temporel variables, { }, , q n m m n m n f f− ∈ = σ Z , où: ( ) ( )q ( ) 2 2 ( )n m m m f t f t n− − − σ = − , t∀ ∈R (10) este un atome temps-échelle. L’équation (10) prouve que le pas de translation temporelle doit être adaptée à l’échelle de la représentation. Il en résulte que les deux opérateurs ne sont pas commutatifs. La structure multi-résolution de Mallat [5] est construite sur l’espace des signaux stables et d'énergie finie. Elle consiste dans une collection de sous-espaces { }m m∈Z W , qui incluent toutes les translation appliquées aux versions d’un certaine échelle (d’ordre m∈Z ) de l'ondelette mère. Plus précisément, chaque sous-espace mW est produit par une famille { }, q n m m n n − ∈ ψ = σ ψ Z , qui, d'ailleurs, est une base orthogonale des ondelettes. L'ondelette de père joue un rôle similaire. Ainsi, la base orthogonale { }, q n m m n n − ∈ φ = σ φ Z produit le sous-espace mV . En plus: 1 1m m+ +⊥V W & 1 1m m m+ += ⊕V V W , m∀ ∈Z . (11) Par convention, mV est le sous-espace de tous les signaux de résolution temporelle égale à 2 m− , alors que mW est le sous-espace comprenant des signaux de détail, de la même résolution temporelle que les signaux de 1m−V (c’est-à-dire 1 2 m− – deux fois plus grand). Par conséquent, selon les propriétés (11), tout signal m mf ∈ V (de résolution 2 m− ) peut être exprimé par une somme de deux signaux orthogonaux: sa version dilatée 1 1m mf + +∈ V (d’une résolution inférieure, 1 2 m− − ) et un détail 1 1m mf ⊥ + +∈ W (de résolution 2 m− aussi). Dans les applications, seulement un nombre fini de sous-espaces multi-résolution est utilisé. Habituel- lement, l'analyse et la synthèse des signaux sont basées sur la structure multi-résolution finie ci-dessous: 0 1 2 M M= ⊕ ⊕ ⊕ ⊕V W W W V , (12) où 1M ≥ est le niveau grossier d’échelle qui arrête la décomposition. La propriété (12) mène à la représentation suivante, assignée à un certain signal f : 0 0, 0, , , , , 1 M n n M n M n m n m n n n m n f c c d ∈ ∈ = ∈ ≡ φ ≡ φ + ψ∑ ∑ ∑∑Z Z Z , (13) où 0f est la projection de f sur 0V et les coefficients ondelette sont naturellement calculés aussi par projection: {0, }, {0, },,M n M nc f= φ & , ,,m n m nd f= ψ . (14) Mallat a proposé dans [5] une implémentation efficace des équations (14) (d’analyse) et (13) (de synthèse), à l'aide de 3 opérations temporelles appliquées aux signaux discrets: filtrage (ou convolution, ∗ ), décimation ( 2↓ ) et interpolation ( 2↑ ). Par décimation, on enlève chaque échantillon paire des données, alors que, par interpolation, une valeur nulle est insérée entre toute paire d’échantillons consécutifs. Si g est la séquence de coefficients de l’EDE⊥ , les opérateurs ci-dessous peuvent être définis, à partir des opérations utilisées par Mallat: ( ) 2x x h≡ ∗ ↓I ⇔ ( ) 2[ ] [ ]k n k x n h x k− ∈ = ∑Z I , (15) ( ) 2x x g≡ ∗ ↓H ⇔ ( ) 2[ ] [ ]k n k x n g x k− ∈ = ∑Z H . (16) Soulignons que ces définitions n’ont pas été introduites par Mallat. Elles sont formulée pour toute séquence arbitraire en temps discret x . La notation x correspond alors à sa version en miroir ( [ ] [ ]x n x n= − , n∀ ∈Z ). Les définitions (15) et (16) peuvent être combinées avec EDE (4) et EDE⊥ (5) pour arriver aux équations récursives suivantes (vérifiées par les coefficients ondelette): 1m mc c+ ≡ I & 1m md c+ ≡ H , 0, 1m M∀ ∈ − . (17) Elles effectuent l’analyse du signal discret 0c . Réciproquement, la synthèse de ce signal peut être aussi exprimée récursivement: 1 1m m mc c d+ + ∗ ∗≡ +I H , 1,0m M∀ ∈ − , (18) où ∗I et ∗H sont les opérateurs adjoints: ( )2x x h∗ ≡ ↑ ∗I ⇔ ( ) 2[ ] [ ]n k k x n h x k− ∈ ∗ = ∑Z I , (19) ( )2x x g∗ ≡ ↑ ∗H ⇔ ( ) 2[ ] [ ]n k k x n g x k− ∈ ∗ = ∑Z H . (20) Les équations d'analyse (17) et de synthèse (18) constituent le noyau de l’Algorithme de Mallat (AM). Les opérateurs linéaires et leurs adjoints vérifient deux propriétés remarquables (qui sont équivalentes aux conditions (6) et (7)): ∗ ∗≡ ≡II HH J & ∗ ∗≡ ≡IH HI P , (21) Dorénavant, l'équation de synthèse (18) est vérifiée grâce à la propriété de reconstruction parfaite: ∗ ∗+ ≡I I H H J , (22) Les propriétés (21) et (22) sont succinctement représentées dans la Figure 2. Analyse ↓2 x ∗g ↓2∗h xH xG +Synthèse ↑2 ∗g ↑2 ∗h x H I H+! I+! ~ ~ Figure 2 : Propriétés des opérateurs I et H . Comme cette figure le suggère directement, l’AM peut être implanté à l’aide d’un banc de Filtres Miroir en Quadrature (FMQ). Le banc d’analyse est uniquement associée à un arbre binaire, où les noeuds intérieurs ont deux enfants chacun, correspondant aux opérateurs I et H , comme dans la Figure 3. . e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 ππ/2 ω haute fréquence0 (0,0) 2 1 (1,1) (1,0) Spectre 0 4 3 (2,1) (2,0) im im+1+1 im+1 (m+1,1) (m+1,0) (m,0) basse fréquence ... ... iM-1 iM+1 iM (M,1) (M,0) (M-1,0) π/4...2-M π 24... iM+1 iM Figure 3 : Correspondance temps-fréquence d’un banc de FMQ associé à l’AM. Il est bien connu que les bancs de FMQ réalisent une segmentation unique en sous-bandes de fréquence. Par exemple, dans la Figure 2, Hx est un signal de basse fréquence, alors que Gx est un signal de haute fréquence. Il en résulte que la branche d'analyse de l’AM correspond à une configuration de fréquence unique, où seulement les sous-bandes de basse fréquence sont partagées à deux, comme illustré dans Figure 3. Le raffinage des sous-bandes de fréquence signifie la croissance de la résolution de représentation en fréquence, mais dans le détriment de la résolution temporelle, qui diminue (conformément au principe d’incertitude). Si les sous-bandes moyennes ou de haute fréquence doivent être aussi raffinées, la structure multi-résolution doit être changée. Heureusement, dans [2], les auteurs ont prouvé que chaque sous-espace mW peut être segmenté en deux sous-espaces orthogonaux, exactement comme son frère mV . Cette fois, le rôle de l’ondelette père est joué par l’ondelette ,0mψ . En réitérant cette propriété, on conclue que tout sous- espace de la structure multi-résolution peut être ainsi raffiné, ce qui constitue une généralisation de l’approche de Mallat. Afin de décrire une structure multi-résolution généralisée, on part d'un arbre binaire, dans lequel toutes les noeuds peuvent être étendus, non seulement en basse fréquence, comme dans le cas de l’AM, mai aussi en fréquence moyenne ou haute. Les noeuds sont indexés comme dans Figure 3, par une étiquette ( , )mm p , où 0,m M∈ est le niveau d’hauteur de l’arbre et 0,2 1m mp ∈ − est l’azimut. Les nœuds peuvent être de même énumérés à l’aide d’un seul indice: 2 1m m mi p= + − . Une structure multi-résolution généralisée correspond donc à un arbre binaire unique, où les feuilles indiquent le découpage en fréquence réalisé par le banc de FMQ afférent. L’arbre de la Figure 4 constitue un exemple dans ce sens. On peut remarquer son allure non uniforme qui provoque une augmentation locale de la résolution fréquentielle (ici, en fréquence basse aussi qu’en fréquence moyenne). Les nœuds de l’arbre sont indexés soit par des paires hauteur-azimut, soit par un numéral d’ordre. Dans la figure, le produit direct des ensembles M (hauteurs) et P (azimuts) associés aux feuilles de l’arbre est: ππ/2 ω haute fréquence 0 (0,0) 2 1 (1,1) (1,0) Spectre 0 basse fréquence π/42-4 π 6 15 15 (4,0) 3 (2,0) 4 (2,1) 7 (3,0) 16 (4,1) 8 (3,1) 9 (3,2) 10 (3,3) 21 (4,6) 22 (4,7) 23 (4,8) 24 (4,9) 12 (3,5) 6 (2,3) 5 (2,2) 11 (3,4) fréquencemoyenne 3π/4 128 2221 23 24 9 16 Figure 4 : Un arbre d’ondelettes orthogonales et son effet en fréquence. {(2,3),(3,1),(3,2),(3,5), (4,0),(4,1),(4,6), ,(4,9)}. ⊗ = … M P (23) Chacun des deux types de bancs de FMQ (classique ou généralisé) est utilisé pour calculer les coefficients ondelette d’un certain signal. Les coefficients sont obtenus dans les feuilles de l’arbre. Chaque nœud ( , )mm p correspond à un sous-espace , mm pS de la structure multi-résolution, généré par la famille d’ondelettes { }, ,mm p n n∈ ψ Z . Il produit alors les coefficients ondelette de la projection du signal original sur ce sous-espace. Puisque la famille d’ondelettes est en effet une base locale orthogonale, elle s’appelle paquet d'ondelette. (Le concept de paquet de formes d’onde a été introduit pour la première fois par Denis Gabor dans les années ’50.) Pour décrire l’ondelette générique du paquet, on peut s’appuyer à nouveau sur la paire EDE ou EDE⊥ , selon la parité de l’azimut. Ainsi, , ,0 1, /2 ,0 ( ) 2 (2 )m mm p n m p n t t n− ⎢ ⎥⎣ ⎦ ∈ ψ = γ ψ −∑Z , t∀ ∈R , (24) où hγ ≡ si mp est pair et gγ ≡ , autrement. Bien évidemment, l'équation récursive (24) commence à partir de 0,0,0ψ ≡ φ et continue avec 1,0,0 1,0ψ ≡ φ , 1,1,0 1,0ψ ≡ ψ . Les autres ondelettes du paquet sont tout simplement des versions décalées en temps de , ,0mm pψ . La structure multi-résolution impliquée par l'arbre binaire peut être exprimée d’une manière compacte, comme suit: 0 , ( , ) m p m p ∈ × = ⊕ M P V S , (25) où ×M P est le produit Cartésien fini des ensembles comprenant toutes les niveaux d’hauteur et les azimuts des feuilles de l'arbre (i.e. les noeuds de la frontière de l’arbre). En conséquence, la représentation associée au signal est exprimée comme ci-dessous: 0 , , , , ( , ) m p n m p n m p n f c ∈ × ∈ ≡ ψ∑ ∑ZM P , (26) où 0f est la projection de f sur 0V et les coefficients ondelette sont naturellement calculés par: , , , ,,m p n m p nc f= ψ , ( , )m p∀ ∈ ×M P , n∀ ∈Z . (27) e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 Les coefficients ondelette peuvent être fournis par un calcul récurrent également, comme dans le cas de l’AM (voir les équations d'analyse (17) et de synthèse (18)): 1,2 ,m mm p m pc c+ ≡ I & 1,2 1 ,m mm p m pc c+ + ≡ H , (28) , 1,2 1,2 1m m mm p m p m pc c c+ + + ∗ ∗≡ +I H , (29) pour chaque 0, 1m M∈ − et 0,2 1m mp ∈ − . La mise en place des équations (28) et (29) peut être réalisée aussi à travers d’un banc de FMQ, ce qui ferme le cercle. III. CONSTRUCTION D’UN MODÈLE DÉTERMINISTE ADAPTATIF AVEC DES ONDELETTES ORTHOGONALES Le sous-espace U de la Figure 1 est généré par l’emploi d’une collection des paquets d’ondelettes en concubinage avec un critère entropique de sélection. Plus précisément, la composante déterministe (utile) de la st s’exprime comme suit: , , , , , ( , ) ( ) ( ) m p W m p n m p n m p n y t c t ∈ ⊗ ∈ = ψ∑ ∑M P N , t∀ ∈R , (30) où t est le temps continu, alors que: , , 0 , ,,m p n m p nc y= ψ , ( , )m p∀ ∈ ⊗M P , ,m pn∀ ∈ N (31) sont des coefficients ondelette et n est le temps normalisé (discret). Dans les expressions (30) et (31), , ,m p nψ est l’ondelette générique du paquet courrant et 0y est la projection de la st y sur le sous-espace 0≡U V de la structure multi- résolution. Les coefficients ne sont pas calculés selon la définition (31), mais à l’aide d’un banc de FMQ, uniquement associé à la structure multi-résolution, comme montré dans la section précédente. Les ensembles finis M , P déterminent la structure du banc de FMQ, représenté comme un arbre binaire. En même temps, les ensembles des écarts temporaux ,m pN sont déterminés tout en considérant le supports de la st et du couple d’ondelettes père-mère { },φ ψ de la structure multi-résolution (3). Sur les branches de l’arbre se trouvent les versions en miroir des FMQ de base h (passe-bas) et g (passe-haut), uniquement associés aux ondelettes père, respectivement mère. Les filtres sont suivis par de décimateurs, pour réaliser le partage a deux des sous-bandes de fréquence. Conformément aux équations (28), si l’entrée du banc de FMQ est stimulée avec les premiers coefficients ondelette: ( )0,0, 0,0, 1 , [ ] yN n n k c y y k k n = = φ = φ −∑ , (32) alors les feuilles de l’arbre retournent les ensembles (finis) des coefficients ondelettes (31). Ce qui est intéressant, le banc de FQM peut être employé pour le calcul des valeurs de toute ondelette, à l’aide de l’équation récurrente (24). La récurrence débute avec l’ondelette père en tant que premier signal: 0,0,0ψ ≡ φ . Les autres ondelettes du paquet { }, ,m p n n∈ ψ Z sont juste des versions translatées en temps de , ,0m pψ . Ce principe de calcul est illustré dans la Figure 5. min 1,2 min 1,2 max 1,2 1,2 , 1,2 , 1 1,2 1,2 , ( ) ( ) ( ) ( ) m p m p m p m p N def m p N m p m p N t t t t + + + + + + + + ψ⎡ ⎤ ⎢ ⎥ ψ⎢ ⎥ =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ψ⎢ ⎥⎣ ⎦ Ψ min 1,2 1 min 1,2 1 max 1,2 1 1,2 1, 1,2 1, 1 1,2 1 1,2 1, ( ) ( ) ( ) ( ) m p m p m p m p N def m p N m p m p N t t t t + + + + + + + + + + + + + + + ψ⎡ ⎤ ⎢ ⎥ ψ⎢ ⎥ =⎢ ⎥ ⎢ ⎥ ⎢ ⎥ψ⎢ ⎥⎣ ⎦ Ψ Analyse ↓2 min , min , max , , , , , 1 , , , ( ) ( ) ( ) ( ) m p m p m p m p N def m p N m p m p N t t t t + ψ⎡ ⎤ ⎢ ⎥ ψ⎢ ⎥ = ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ψ⎢ ⎥⎣ ⎦ Ψ ☯G ↓2☯H H I Figure 5 : Emploi du banc de FMQ pour calculer des ondelettes orthogonales (un nœud quelconque). La structure du banc de FQM peut être établie d’une manière adaptative, par minimisation de l’entropie des coefficients ondelettes. Par définition, l’entropie d’un signal discret x est: ( ) ( )2 | [ ]| | [ ]| ( ) log n x n x n x x x∈ = −∑Z E E H , (33) où ( ) 2 | [ ]|n x x n∈ = ∑ Z E est l’énergie du signal. Conformément à l’interprétation fournie par Claude Shannon en 1948 [4], l’entropie (8) quantifie le nombre moyen de bits qui sont nécessaires pour coder un échantillon de signal. L’entropie constitue davantage une mesure pour la redondance du signal et son désordre intrinsèque, à la fois. Plus l’entropie est petite, moins redondant et, en même temps, plus ordonné est le signal. La redondance réduite permet de concentrer l’information transportée par le signal sur un petit nombre de coefficients, voire de bits de représentation, grâce à leur ordre intrinsèque. Soulignons quand même que l’entropie n’est surtout pas une mesure additive. Ceci implique l’impossibilité d’égaler l’entropie d’un signal obtenu par concaténation de plusieurs composantes par la somme des entropies de ces composantes. Trouver l’arbre binaire qui permet de représenter l’information du signal analysé sur une collection des coefficients ondelettes d’entropie minimale est un problème d’optimisation non linéaire. Pour offrir une solution à ce problème (même sous-optimale), dans un temps de recherche raisonnable, il est souhaitable d’utiliser une technique de recherche non conventionnelle. Puisque l’information est structurée sur un arbre binaire, on prends en compte la technique IDA* (Iterative Deepening Approach) de l’Intelligence Artificielle [6]. La stratégie générale de recherche spécifique à l’IDA* consiste à trouver le chemin de prix minimum dans un arbre. La recherche s’effectue donc sur un arbre dont les arcs sont marqués par des prix de transition. Plus clairement, dans un tel arbre, le passage d’un nœud n à un de ses héritiers p , noté par n p , s’effectue en payant un certain prix. Le prix prends des valeurs non négatives et peut varier d’un arc à l’autre. Un chemin de l’arbre est défini comme la succession des transitions d’un nœud initial n (usuellement la racine de l’arbre) à un nœud final p (usuellement, une feuille de l’arbre). Il est noté par: n p . Bien e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 entendu, pour parcourir un tel chemin, il faut payer un certain prix [ , ]n pH . Usuellement, il est égal avec la somme des prix des transitions parent-héritier. La fonction prix H s’appelle heuristique. Elle a deux composantes: une réalisée sur le chemin n p (notée par [ , ]n ph ) et un autre prédite sur le chemin restant du nœud p jusqu’à un de ses héritiers direct ou indirect (notée par [ , ]n ph ). Donc: [ , ] [ , ] [ , ]n p n p n p= +H h h . (34) Pour évaluer [ , ]n ph , il faut construire un prédicteur correspondant, à partir de l’histoire des coûts des chemins partiels parcourus sur le chemin global. Le prédicteur le plus simple est celui qui annule [ , ]n ph , indépendamment du nœud p . Dans ce cas là, [ , ] [ , ]n p n p=H h . Normalement, on établit une hauteur maximum de l’arbre. Le problème spécifique de l’IDA* est donc de trouver le chemin le plus économique qui lie la racine d’une feuille à hauteur maximum. Pour résoudre ce problème, IDA* construit l’arbre de recherche pendant la recherche elle-même, selon une stratégie d’investigation des branches possible. Les branches inutiles (c'est-à-dire qui conduisent a une heuristique estimée inacceptable) sont coupées, ce qui peut conduire à une solution sous-optimale du problème d’optimisation. Le gain en termes de temps de recherche est quand même important. La condition nécessaire pour la convergence de l’IDA* est de définir les prix des transitions tel que le coût d’un chemin augmente avec la longueur du chemin. Dans ces conditions, la stratégie de recherche s’appuie sur les étapes suivantes (illustrées dans la Figure 6): n Zone explorée Zone non explorée [ ] [ ] [ ]n n n= +H h h [ ]nh Noeud courant Suivant noeud courant p Horizon de prédiction [ ]nh Figure 6 : Stratégie générale de l’Algorithme IDA*. 1.Si le nœud courrant n est un feuille d’hauteur maximum, alors le chemin optimal est 0 n et le coût minimum a la valeur [0, ]nH . Dans ce cas là, on arrête la recherche. 2.Sinon, tous les nœuds m pour lesquelles [0, ] [0, ]m n≤H H s’étendent. Cette opération consiste à remplacer chaque nœud m par ses héritiers, jusqu’au premier descendent p pour lequel l’heuristique devient supérieure à l’heuristique courrante, [0, ] [0, ]p n>H H . Bien évidemment, le nœud courrant sera, à son tour, étendu. 3.Le nœud courrant suivant est le descendant qui assure le minimum de l’heuristique. Dans la Figure 6, on a mis en évidence deux zones de recherche: une déjà explorée (pour laquelle on connaît les valeurs de l’heuristique) et une non explorée (qui contient la feuille optimale). L’expansion des nœuds testés jette la recherche toujours dans la zone non explorée et augmente le rayon de la zone explorée. Rien ne se perd, car les nœuds de la zone explorée ne sont jamais abandonnés, sauf si le chemin optimal est trouvé. La recherche peut retourner à un certain nœud si tous les autres nœuds conduisent, par expansion, à des valeurs trop grandes de l’heuristique. Malgré cette démarche minutieuse, seulement une petite partie des nœuds de l’arbre sont habituellement étendus. On peut même montrer que le chemin optimal possède un nombre minimal des nœuds aussi. Afin de pouvoir appliquer IDA*, le problème de recherche de la base d’ondelettes à entropie minimale doit être adapté au contexte de cette technique. On peut ainsi construire un méta-arbre défini comme suit (voir la Figure 7): (a) les méta-nœuds sont associés à de différentes structures d’arbres binaires; (b) chaque méta- nœud est généré par expansion d’un nœud binaire vers ses deux enfants; (c) l’étiquette d’un méta-nœud est la suite des indices associés aux feuilles de l’arbre binaire qu’il représente; (d) le prix de la transition d’un méta- nœud à un de ses méta-enfants est égal avec l’entropie des coefficients ondelettes retournés par l’arbre du méta-enfant; (e) le coût total estimé sur le méta-chemin restant est nul (surtout parce qu’on ne connaît pas la longueur finale du méta-chemin). Le banc (sous)optimal de FQM est alors associé à la méta-feuille du méta- chemin à coût minimal, trouvé par IDA*. ••• ••• ••• •••••• 0 [1 2] [3 4 2] [1 5 6] [7 8 4 2] [3 9 10 2] [3 4 5 6] [1 11 12 6] [1 5 13 14] Figure 7 : Le méta-arbre des bancs de FQM. La version finale de Wy s’obtient après avoir enlevé les coefficients ondelettes de la représentation (30) déclarés comme faibles. Ainsi, pour tout couple ( , )m p ∈ ⊗M P , les coefficients ondelettes d’amplitudes inférieures à ( ),m pcµE sont enlevés e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 (masqués) (où 0µ ≥ est un seuil de masquage soit prédéfini, soit établi d’une manière adaptative). L’information transportée par les coefficients masqués n’est pas perdue, mais transférée au bruit coloré Wv y y≡ − . Ce bruit est ensuite identifié par un modèle ARMA, avec la Méthode de Minimisation de l’Erreur de Prédiction [7], [8]. Plus précisément, on présume que le bruit coloré vérifie l’équation à différences suivante (spécifique aux modèles ARMA): 1 2 1 2 [ ] [ 1] [ 2] [ ] [ ] [ 1] [ 2] [ ], na nc v k a v k a v k a v k na e k c e k c e k c e k nc + − + − + + − = = + − + − + + − k ∗ ∀ ∈N , (35) où e est un bruit blanc Gaussien, de moyenne nulle et variance (inconnue) 2 λ , alors que { } 1,i i na a ∈ et { } 1,j j nc c ∈ sont les paramètres du modèle (inconnus de même). Pour toute paire d’indices structuraux { , }na nc , on peut estimer les paramètres du modèle ARMA et les valeurs du bruit blanc à la fois. Après avoir être déterminé, le modèle ARMA permet d’effectuer la prédiction du bruit coloré, selon la recette ci-dessous: 1 1 1 ˆ ˆ ˆ ˆ ˆ[ ] [ 1] [ ] ˆ ˆ ˆ ˆ[ 1] [ ] ˆ ˆˆ ˆ ˆ ˆ[ ] [ ] [ 1] [ ] V V na V nc V V n V y n a y n a y n na c e n c e n nc e n y n y n y n nα = − − − − − +⎡ ⎢ + − + + −⎢ ⎢ = + α − + + α − α⎣ , (36) où: ˆV ARMAy y≡ sur l’horizon de prédiction 1,y yN N K+ + (pour 1K ≥ ) et ˆVy v≡ sur l’horizon de mesure 1, yN . Les notations avec le bonnet indiquent entités estimées à partir des données mesurées. Pour estimer les valeurs du bruit blanc (la deuxième équation), on utilise un modèle AR approximant, avec un grand nombre de paramètres (par exemple, égal avec 3( )na nc+ ). Le modèle est à déterminer par l’ALD. Le bruit blanc courrant qui affecte les données constitue la composante imprédictible de la st et, pour cette raison, n’est pas inclus dans le modèle (36). Néanmoins, sa variance, 2 λ (qui peut être estimée aussi), joue le rôle principal dans la quantification de la précision de prédiction. En effet, cette précision varie d’une manière inversement proportionnelle avec 2 λ et abaisse avec l’accroissement des instants de prédiction. Pour être plus clairs, considérons nous que { }ˆ p p b ∈N sont les coefficients obtenus par la division infinie des polynômes du modèle ARMA, comme ci-dessous: 1 1 ˆ ˆ ˆ1( ) ˆ ˆ ˆ ˆ1( ) nc pnc pna pna c z c zC z b z a z a zA z ∈ + + + = = + + + ∑N . (37) Alors, la précision de chaque valeur prédite ˆ[ ]y N k+ est inversement proportionnelle avec sa variance, définie comme suit: ( )2 2 2 2 2 0 1 ˆ ˆ ˆˆ ˆ k kb b bλ = λ + + + , 1,k K∀ ∈ . (38) Suite au couplage des équations (30) et (36), le modèle global de prédiction est alors: ( ) , , , , , ( , ) ˆ ˆ[ ] [ ] m p y m p n m p n y V y m p n y N k c N k y N k ∈ ⊗ ∈ + = ψ + + +∑ ∑M P N , 1,k K∀ ∈ . (39) Hormis les variances (38), pour figurer la précision du prédicteur (39), on utilise des intervalles de confiance, centrés dans les valeurs prédites. Par définition, un tel intervalle a l’ouverture suivante: ˆ ˆ[ ] , [ ]k y k y kI y N k y N k⎡ ⎤= + −βλ + +βλ⎣ ⎦ , 1,k K∀ ∈ .(40) Si les perturbations des données sont normalement distribuées (ce qui constitue l’hypothèse la plus invoquée, grâce au Théorème Limite Centrale), alors 3β = . Dans ce cas là, si on mesurait la valeur vraie [ ]yy N k+ , elle se situerait à l’intérieur de kI avec une probabilité (confiance) supérieure à 95%. Il en résulte que la précision de la valeur prédite augmente avec la fermeture de l’intervalle de confiance. Malheureusement, au fur et à mesure on s’éloigne de l’horizon de mesure, les définitions (38) et (40) montrent clairement que l’ouverture de l’intervalle de confiance augmente. L’ensemble des intervalles de confiance sur l’horizon de mesure permet de construire un tuyau de confiance, tout en considérant les extrémités de ces intervalles. Le tuyau montre plus intuitivement la marge de précision d’un certain prédicteur, comme illustré dans les Figures 9 et 10 de la section suivante. Plusieurs prédicteurs sont disponibles, tout en variant les indices structuraux na et nb . Afin de sélecter le meilleur d’entre eux, on a introduit dans [9] un critère lié à la prédiction: la qualité de prédiction (QP). Il est défini comme suit, pour un horizon de prédiction à durée K : 1 1 100 QP[ ] [%] ˆ ˆ 1+ ˆ def K k y y k K y k k K y N k y N k = = = ⎡ ⎤ ⎡ ⎤λ + − +⎣ ⎦ ⎣ ⎦ σ λ ∑ ∑ .(41) Dans la définition (41), yσ est la déviation standard de la st originelle. Conformément au critère QP, le prédicteur améliore sa performance quand le tuyau de confiance diminue son ouverture et/ou les valeurs prédites sont proches des vraies valeurs. Le seul problème à résoudre est de trouver une manière de pouvoir calculer les valeurs du QP, étant donné que, sur l’horizon de prédiction, les vraies valeurs de la st sont inconnues. Clairement, pour rendre utile le critère QP, une stratégie spéciale doit être adoptée. Néanmoins, la stratégie n’est pas compliquée. Il suffit de préserver les dernières K données de la série de temps, hors de la construction du prédicteur, comme si elles étaient inconnues. Après la construction des composantes déterministe et stochastique à partir des yN K− données restantes, on détermine la surface QP (en fonction des indices structuraux). Bien évidemment, la surface ne peut pas être construite que par contribution des K données préservées. Par maximisation de la surface QP, on trouve les indices structuraux optimaux du modèle ARMA et, donc, le prédicteur optimal. e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 À noter que la stratégie ci-dessus peut être aussi utilisée en vue de la détermination du prédicteur classique optimal. Cette fois ci, les deux indices structuraux a optimiser sont: le degré du polynôme-tendance et l’ordre du modèle AR. En ce qui concerne la période de la composante saisonnière, son choix reste subjectif, comme mentionné auparavant. IV. RÉSULTATS DE SIMULATION ET DISCUSSION Un simulateur basé sur la méthode succinctement décrite dans la section précédente a été conçu et implanté dans le cadre de l’environnement de programmation MATLAB® 7.04. Pour démarrer une simulation (en vue de la construction d’un prédicteur à base d’ondelettes), quelques paramètres doivent être précisés au début. Il s’agit de: la durée du support des ondelettes père-mère, 2N (qui permet la construction effective des ondelettes orthogonales à support compact de la classe de Daubechies, avec l’Algorithme de Daubechies [3], [10]); usuellement, 2,25N ∈ ; le seuil d’arrêt pour l’IDA* ( 0ε > );usuellement, 7 10− ε = ; le seuil de masquage pour la sélection des coefficients ondelettes ( [0,1)µ∈ ); usuellement, il varie de 0 à 10% . Un paramètre technique est de même employé: l’indice de résolution L∈N , dans la représentation de l’ondelette père (ou mère). Ceci est nécessaire pour préciser la période d’échantillonnage des ondelettes père-mère, qui a la valeur de 10 L− . L’ondelette père échantillonnée intervient dans le calcul des coefficients (32). Normalement, 0,6L∈ . Si 0L > , la famille d’ondelettes de l’expansion (30) devient un cordage dense (tight frame). Dans ce cas là, l’expansion (30) doit être remplacée par: , , , , , ( , ) 1 ( ) ( ) m p W m p n m p n m p n y t c t A ∈ ⊗ ∈ = ψ∑ ∑M P N , t∀ ∈R , (42) où A∈R est la constante du cordage. Pour déterminer cette constante, on utilise tout simplement la MMC (voir [9] pour des détails). Les prédicteurs ont été testés sur une collection de 15 st, fournies par de différents phénomènes naturels. Les figures suivantes montrent, d’une manière comparative, la performance du prédicteur classique versus celle du prédicteur à base d’ondelettes pour une des st. Il s’agit d’une st qui relève la variation de la rate mensuelle du chômage, enregistrée en France, dans les années ’80. La st comprends 141 données. Afin de comparer les deux prédicteurs optimaux (classique et à base d’ondelettes), la durée de l’horizon de prédiction a été établie à 5K = . Par conséquent, les derniers 5 échantillons ont été préservés pour afficher la performance des prédicteurs et encore 3 échantillons ont été utilisés pour la sélection des prédicteurs optimaux. Les prédicteurs ont été donc construits en utilisant 134 données (sur les 141 disponibles). La Figure 8 montre la st, avec la meilleure tendance (d’ordre 3). La composante saisonnière est absente pour cette st. Ensuite, dans la Figure 9, est illustrée la performance du prédicteur classique. On peut constater que la valeur optimale de QP est égale à 78.11%, ce qui signifie que le prédicteur est suffisamment précis. Le tuyau de confiance est quand même trop large, ce qui a permis aux vraies données d’être facilement localisées à l’intérieur. La performance du prédicteur à base d’ondelettes, illustrée dans la Figure 10, est néanmoins supérieure. Non seulement la valeur optimale du QP est supérieure (comptant 86.34%), mais le tuyau de confiance a une allure sensiblement plus serrée. En plus, les valeurs prédites se situent dans le voisinage immédiat des vraies valeurs, pour les premiers 4 instants de prédiction. Il est normal que la dernière valeur soit prédite avec une précision modeste si on utilise la modélisation ARMA pour la composante stochastique. Les deux méthodes de prédiction permettent aussi l’estimation du rapport signal-bruit (SNR – Signal-to- Noise Ratio) de la st. Dans ce contexte, il a été calculé comme le rapport entre l’énergie (ou la variance) du signal et l’énergie (ou la variance) du bruit blanc estimé. Les Figures 11 et 12 montrent la variation de l’erreur de prédiction estimée sur l’horizon de mesure (déterminée par la deuxième équation de (36)). Malgré le fait que les deux SNR estimés sont proches (22.18 dB et, respectivement, 21.07 dB), la performance de prédiction est assez différente. (Le modèle classique produit un SNR légèrement plus grand que le modèle basé sur ondelettes, ce qui constitue une propriété attendue.) En général, le SNR montre la qualité de séparation entre la composante utile et celle parasite, dans la démarche de débruitage du signal, dont on a parle das la deuxiéme section de l’article. Plus le SNR est grand, moins d’information utile est hérité par le bruit blanc. La QP est sensiblement influencée par le SNR, comme il le montre la st analysée aussi. Après avoir varié N de 2 à 25 et L de 0 à 6, les ondelettes père et mère sélectées par le simulateur sont représentées dans la Figure 13. Elles correspondent à 12N = et 5L = (avec sur-échantillonage) et ont une allure assez lissée. (Rappelons que la régularité ou le degré de fractalité des ondelettes orthogonales de la classe de Daubechies varient en fonction du paramètre de support N ; plus N est grand, plus les ondelettes sont lissées [3].) Les deux ondelettes, étant sur- échantillonnées, ont généré un cordage dense de constante 806A ≅ . L’arbre binaire sélecté par IDA*, afin de construire le modèle déterministe de la st (basé sur ondelettes), présente la structure illustrée dans la Figure 14. Sa profondeur est égale à 3. Pour arriver a cette structure, IDA* a dû tester seulement 23 méta-nodes, ce qui prouve l’efficacité de l’algorithme de recherche. Il semble que l’information concernant la prédiction est concentrée finement surtout à mi-fréquence. Cet effet est davantage illustré (et confirmé) dans la Figure 15, où on voit le scalogramme de la st (i.e. les valeurs absolues des coefficients ondelettes, en décibels). Les fréquences hautes sont aussi focalisées par la Transformation en Ondelettes. Au contraire, l’information sur la prédiction ne semble pas d’être transportée par les composantes de basse fréquence, dans le cas de cette st. Les Figures 14 e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 et 15 relèvent la manière dans laquelle la Transformation en Ondelettes s’adapte à la st, tout en exploitant son caractère non stationnaire. (Par ailleurs, on peut voir comment le scalogramme explicite la répartition de l’énergie de la st sur le plan temps- fréquence. Ceci est en effet l’image d’un spectre variable en temps, i.e. de la non stationnarité.) La dernière Figure, no. 16, montre la surface de QP et son maximum, pour les prédicteurs à base d’ondelettes. On peut constater que les modèles ARMA ont des performances de prédiction assez différentes. Le modèle optimal a été choisi pour 23na = et 25nc = . Comme attendu, la valeur maximale de QP (92.37%) dans la phase d’apprentissage des prédicteurs diminue en conditions de prédiction réelle (dans la Figure 10, la QP est de 86.34% seulement). Il serait malhonnête de prétendre que la performance du prédicteur à base d’ondelettes a été sensiblement supérieure à la performance du prédicteur classique pour toutes les 15 st qui ont été testées. Pour certaines st, la QP a gagné à peine 1 ou 2 pourcents. Ceci est plutôt le cas des st pour lesquelles la composante saisonnière est facile à déterminer, malgré le subjectivisme de l’utilisateur. Par exemple, beaucoup de phénomènes ont une variation périodique annuelle, ce qui permet de détecter directement leur période optimale (en fonction de la période d’échantillonnage). La série du chômage français des années ’80 est quand même atypique, car ce phénomène économique et social présente d’habitude une forte composante saisonnière. Les ondelettes sont capables d’améliorer sensiblement la performance de prédiction, notamment là où la composante saisonnière manque ou est difficile à détecter. Ceci a été le cas de la st présentée auparavant. Même si les ondelettes orthogonales de la classe de Daubechies ne soient pas symétriques ou périodiques, elles peuvent détecter naturellement les chablons périodiques d’une st, sans impliquer l’utilisateur. Grâce à cette propriété, la performance du prédicteur basé sur ondelettes est, en général, supérieure, mais au prix d’une complexité plus élevée. V. CONCLUSION Cet article a intégré deux types de modélisation des signaux, afin d’effectuer une prédiction de précision. Le premier type de modèles a une nature déterministe et s’appuie sur la Transformation (adaptative) en Ondelettes Orthogonales de la classe de Daubechies. Le deuxième type de modèles regard le comportement non déterministe (stochastique) et utilise la régression linéaire (ARMA). En tout, la combinaison des deux types de modèles a conduit à un prédicteur pas trop complexe, mais avec des performances supérieures au prédicteur classique, sur toutes les st testées. Comme développements futurs, on peut envisager l’usage des ondelettes bi-orthogonalles et/ou des dictionnaires de formes d’onde, avec un mécanisme de poursuite dans la recherche adaptative des ondes les plus appropriées pour la prédiction. VI. REMERCIEMENTS Cette recherche a été développée dans le cadre d’une paire de projets financés par la Fondation Alexander von Humboldt de l’Allemagne et par le Centre National Roumain pour la Gestion des Programmes. Les auteurs sont extrêmement reconnaissants pour leur support et confiance. VII. RÉFÉRENCES 1. Cohen L. – Time-Frequency Analysis, Prentice Hall, New Jersey, USA, 1995. 2. Coifman R., Wickerhauser M.V. – Entropy-Based Algorithms for Best basis Selection, IEEE Transactions on Information Theory, Vol. 38, No. 2, pp. 713–718, 1992. 3. Daubechies I.– Orthonormal Bases of Compactly Supported Wavelets, Communications on Pure and Applied Mathematics, No. XLI, pp. 909–996, 1988. 4. Shannon C. – A Mathematical Theory of Communication, Bell Systems Technical Journal, Vol. 27, pp. 379-423 & 623-656, 1948. 5. Mallat S.– A Theory for Multi-resolution Signal Decomposition: the Wavelet Representation, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 11, No. 7, pp. 674-693, 1989. 6. Russel S.J., Norvig P. – Artificial Intelligence – A Modern Approach. Prentice Hall, Upper Saddle River, New Jersey, USA, 1995. 7. Söderström T., Stoica P. – System Identification, Prentice Hall, London, UK, 1989. 8. Stefanoiu D., Culita J., Stoica P. – A Foundation to System Modeling and Identification, Printech Press, Bucharest, Romania, 2005. 9. Stefanoiu D., Ionescu F. – Modeling and Prediction of Natural Phenomena by Using Adaptive Orthogonal Wavelet Packets, Research Report HTWG.KN-AvH-STIO-09-07, University of Applied Sciences in Konstanz, Germany, September 2007. 10. Stefanoiu D., Stanasila O. – Mathematics and Signal Processing – Time-Frequency-Scale Analysis with Wavelets, Printech Press, Bucharest, Romania, 2007. 11. Tertişco M., Stoica P. – Modeling and Prediction of Time Series, Romanian Academy Press Bucharest, Romania, 1985. Figure 8 : Rate mensuelle du chômage en France, dans les années ’80. e-STA copyright 2009 by see Volume 6, N°2, pp 50-59 Figure 9. Performance du prédicteur classique. Figure 10 : Performance du prédicteur à base d’ondelettes. Figure 11 : Erreur estimée de prédiction, dans le cas du prédicteur classique. Figure 12 : Erreur estimée de prédiction, dans le cas du prédicteur à base d’ondelettes. Figure 13: Ondelettes optimales père (en haut) et mère (en bas). Figure 14 :L’arbre binaire optimal sélecté par IDA*. Figure 15 : Le scalogramme de la série de temps. Figure 16: La surface QP pour le prédicteur à base d’ondelettes. e-STA copyright 2009 by see Volume 6, N°2, pp 50-59