Réallocation du signal phonique dans le plan temps-fréquence

02/03/2015
Publication e-STA e-STA 2014-1
OAI : oai:www.see.asso.fr:545:2014-1:12786
DOI :

Résumé

Réallocation du signal phonique dans le plan temps-fréquence

Métriques

312
10
1.13 Mo
 application/pdf
bitcache://d299a9308165548e145670ec171074e8aa0d1768

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/545:2014-1/12786</identifier><creators><creator><creatorName>Yosr Chamekh</creatorName></creator><creator><creatorName>Zied Laachiri</creatorName></creator><creator><creatorName>Noureddine Ellouze</creatorName></creator></creators><titles>
            <title>Réallocation du signal phonique dans le plan temps-fréquence</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2015</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Mon 2 Mar 2015</date>
	    <date dateType="Updated">Mon 25 Jul 2016</date>
            <date dateType="Submitted">Tue 15 May 2018</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">d299a9308165548e145670ec171074e8aa0d1768</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>22123</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

1 Réallocation du signal phonique dans le plan temps-fréquence Yosr CHAMEKH, Zied LAACHIRI, Noureddine ELLOUZE BP 37, LE BELVEDERE 1002 TUNIS TEL: (216) 71 874 700 FAX: (216) 71 872 729 yosr.chamekh@enit.rnu.tn, zied.laachiri@enit.rnu.tn, n.ellouze@enit.rnu.tn, Résumé : Dans ce travail nous étudions la méthode de réallocation des données de signaux audio. Le principe de la réallocation est de réarranger ou réallouer les valeurs de la distribution temps fréquence de signaux présentant peu d’interférences pour en améliorer la localisation, en s’aidant d’une distribution bien localisée des interférences. Plus précisément, cela consiste à déplacer avec un champ de vecteurs de réallocation adéquat les valeurs d’une distribution mal localisée de la classe de Cohen ou de la classe affine, pour en concentrer les composantes du signal étalée par lissage. Mots clés: Réallocation, vecteurs de réallocation, réallocation du spectrogramme, réallocation du scalogramme. I. INTRODUCTION A l’intérieur de la classe de Cohen et de la classe affine, il n’existe pas de solution valable pour tous signaux en termes de lisibilité de la représentation. En effet, la nature bilinéaire de la distribution du signal entraine la présence d'interférences [16, 17]. Afin d'atténuer ces interférences, nous avons généralement recours à un lissage, qui à son tour entraine l’étalement ou la délocalisation des composantes du signal. De nombreux travaux, ont été dédiés pour l’amélioration de la lisibilité des distributions de la classe de Cohen et de la classe affine [9]. Nous citons par exemple les techniques d'amélioration de la lisibilité des représentations temps-fréquence et temps-échelle. Ces techniques permettent de développer une représentation temps-fréquence ou temps-échelle simplifiée et reposent sur le principe de recherche de la fréquence instantanée par l'approximation de la phase stationnaire [4]. La réduction de la Transformée de Fourier à Court Terme ou la Transformée en Ondelettes [8, 11, 20] à certaines valeurs importantes du plan temps-fréquence ou temps-échelle [6, 22], permet d'en définir une représentation, non redondante. Nous trouvons également des méthodes qui génèrent des calculs assez complexes comme l'analyse spectrale différentielle [16',17'] dont le principe est le calcul des variations de la fréquence centrale dans une plage fréquentielle [19]. Nous trouvons aussi des méthodes très sensibles au bruit ce qui les rend invalides nous citons par exemple la méthode basée sur la densité de fréquence instantanée [15] ainsi que les méthodes “arête et squelette” [12]. Cette méthode possède de bonnes propriétés de localisation et la possibilité de reconstruction. Les arêtes sont la représentation dans le plan temps fréquence de la transformée de Fourier à court terme restreinte à ses lignes importantes. Une approximation de la phase stationnaire de la transformée de Fourier à court terme est déduite des arêtes. Sa représentation est appelée squelette. Une autre méthode, qui n'a pas fait non plus ses preuves c'est la méthode du “squeezing” [10, 19]. Cette une méthode qui agit en compressant l’information contenue dans la Transformée de Fourier à Court Terme pour calculer sa borne inférieure. 2 Plus de détail sont étalés au paragraphe II. Le paragraphe III présente les tests et la validation des vecteurs de réallocation sur des signaux de paroles. II. LA METHODE DE REALLOCATION La distribution de Wigner Ville [14, 24, 25] est une représentation temps fréquence (Eq.1), à interprétation énergétique, qui peut mettre en évidence certains types d’informations contenues dans le signal. Néanmoins, elle contient de l’énergie dans des endroits où le signal est nul.      de) 2 -(ux) 2 (ux),u(WV i-* x (1) L’apparition d’interférences dans cette représentation est due à la nature bilinéaire de la distribution. Ces interférences n'ont aucune signification physique, et nous les reconnaissons grâce à des structures oscillantes qui compliquent leur interprétation. A ce titre, un lissage de la distribution de Wigner-Ville par un noyau approprié [7, 13, 14, 18, 21,26], afin d'atténuer les oscillations dans la distribution ce qui entraine la diminution des interférences. Ce lissage engendre un étalement de la distribution d’énergie dans la représentation du signal, ce qui conduit à une perte de résolution et de contraste (cas du module de la Transformée de Fourier à Court Terme) [5]. La réallocation s'explique par la 'refocalisation' du spectrogramme sur la répartition d'énergie temps- fréquence donnée par la distribution de Wigner-Ville, en déplaçant les valeurs du spectrogramme de leurs points de calcul vers une nouvelle position définie par      ,tˆ;,ttˆ , où ω = 2πf, donnée par un barycentre évalué sur la distribution de Wigner-Ville du signal dans un voisinage du plan temps-fréquence défini par la distribution de Wigner-Ville de la fenêtre WVh(t,ω) de la manière suivante:       2 dsd )-,ts(WV),s(WVs ),t(S 1 ),t(tˆ hxh x h x où h xS est le spectrogramme du signal x(t) pour une fenêtre d'analyse h(t). due)t-u(h)u(x)f,t(S 2 uf2j-*h x      D'où, en réagençant les valeurs du spectrogramme dans le plan temps-fréquence, tout en faisant la somme, si deux quantités arrivent au même endroit, nous obtenons le spectrogramme réalloué: ),t(Sˆ h x     2 dsd )),s(ˆ-,),s(tˆ-t(),s(S h x h x h x fig1: Principe de la méthode de réallocation dans le cas d'un chirp linéaire [23]. Les ellipses en pointillé représentent les fenêtres d'analyse, les petits cercles représentent les points de l'allocation de l'énergie (les centres géométriques de la fenêtre) et les triangles sont les points de la réallocation (le centre de gravité de l'énergie), dans le cas du spectrogramme 3 1. REALLOCATION DU SPECTROGRAMME Il est montré que le noyau de paramétrisation (t,) du spectrogramme dans la classe de Cohen est la distribution de Wigner-Ville de la fenêtre. Les opérateurs de réallocation sont donc des centres de gravité calculés dans des voisinages qui ne sont pas quelconque. D’abord, rappelons que les équations:       2 dsd )-,ts(WV),s(WVs ),t(S 1 ),t(tˆ hxh x h x       2 dsd )-,ts(WV),s(WV ),t(S 1 ),t(ˆ hxh x h x ont été reformulées à l’aide de la Transformée de Fourier à Court Terme [6], pour l’opérateur temps : 2 dsd )-,t-s(W),s(Ws hx               2 tj sj-*h x esde)t-s(h)s(xs),t(*TCFT et pour l’opérateur en fréquence :  ),t(*TCFT),t(TCFTm- h x hd x            2 tj sj-*h x h x esde)t-s(h')s(x),t(*TCFTm-),t(S Relier les opérateurs de réallocation directement à la Transformée de Fourier à Court Terme mène aux équations suivantes: 2 dsd )-,t-s(W),s(Ws hx       ),t(St),t(*TCFT),t(TCFT h x h x th x  et      2 dsd )-,t-s(W),s(W hx   ),t(S),t(*TCFT),t(TCFTm- h x h x hd x  2. REALLOCATION DU SCALOGRAMME Le scalogramme est obtenu par un lissage de la distribution de Wigner-Ville du signal avec un noyau qui est lui même la distribution de Wigner-Ville du signal de référence utilisé par la transformée linéaire qui lui est associé, à savoir, dans notre cas, l’ondelette (t) [6].       2 dsd )a, a b-s (W),s(W)b,a(S xx De même que pour le spectrogramme, une formulation des opérateurs de réallocation à l’aide de la Transformée en Ondelettes [6] aboutit aux deux équations suivantes: Pour l’opérateur en temps d’une part: 2 dsd )a, a b-s (W),s(Ws x               sd) a b-s (* a 1 )s(xs)b,a(*Tx et celui en fréquence d’autres part: 2 dsd )a, a b-s (W),s(W x               sd) a b-s (* a 1 )s(x)b,a(*Tm a 1 - x avec a/)a/t()t(a  la famille des ondelettes utilisée. Le calcul de trois transformées en ondelettes suffit pour retrouver les opérateurs de réallocation dans la mesure où ils se mettent sous la forme des quotients suivants:           T T ab)a,b(bˆ t x       /dtd 0 x T/Tm a -)a,b(aˆ Une autre formulation des vecteurs de réallocation dans le cas du scalogramme est donnée par les opérateurs temps et pulsation [2]:            2 x x t x x T *TTa -b)a,b(bˆ              2 x x d x0 Ta *TT m a )a,b(ˆ Ces expressions sont très importantes pour la mise en œuvre du scalogramme réalloué. Elles permettent de remplacer le calcul direct des centres de gravité locaux (très coûteux) par un algorithme efficace. III. TESTS ET VALIDATION Dans ce paragraphe nous présentons les tests de validation des opérateurs de réallocation appliqués sur les représentations temps-fréquence et temps-échelle. Le dictionnaire utilisé est constitué de plusieurs types de signaux à savoir une voyelle synthétisée /a/ ainsi que des voyelles et des mots. 1. APPLICATION SUR DES SIGNAUX DE PAROLES 4 Nous avons généré une voyelle synthétisée /a/, de longueur 2500 échantillons, de fréquence d'échantillonnage égale à 16000Hz. Cette voyelle possède un pitch de l'ordre de 128Hz. Le calcul des spectrogrammes et des scalogrammes, simples ou réalloués, a été effectué sur ces signaux après fenêtrage, utilisant la fenêtre de Hamming 256 points. Pour calculer le scalogramme et le scalogramme réalloué, nous avons utilisé l'ondelette de Morlet [1, 3]. Les résultats obtenus sont illustrés dans les figures suivantes, qui comportent les représentations temps fréquence et temps- échelle de la voyelle synthétisée /a/, ainsi que ses représentations temporelles et énergétiques Représentation temps-fréquence et temps-échelle de la voyelle /a/: (a) spectrogramme, (b) spectrogramme réalloué, (c)scalogramme, (d) scalogramme réalloué Sur cette figure dans les basses fréquences, la fréquence fondamentale est aussi bien visible, dans le cas du spectrogramme que celui du scalogramme. Dans les versions réallouées, nous perdons de l'information à propos du pitch, au cours du temps, mais la précision fréquentielle est assez importante. Pour les traits des multiples de la fréquence fondamentale (hautes fréquences), dans le cas du spectrogramme, ainsi que (a) (b) (d)(c) 5 le spectrogramme réalloué, nous ne pouvons rien lire. Par contre, le scalogramme, nous donne la précision temporelle, grâce à laquelle nous pouvons déterminer le pitch. Le rôle du scalogramme réalloué, dans ce cas, est de nous donner des valeurs beaucoup plus précises, que le scalogramme simple, pour pouvoir déterminer plus précisément, la valeur de la fréquence fondamentale. 2. VOYELLE DE LA BASE TIMIT Cette voyelle est prise dans la base acoustico-phonétique: TIMIT, de fréquence d'échantillonnage égale à 16kHz, la fenêtre utilisée est celle de Hamming, de longueur 256 points et l'ondelette qu'on a choisi, pour calculer le scalogramme et le scalogramme réalloué, est l'ondelette de Morlet [1, 3]. Représentation temps-fréquence et temps-échelle de la voyelle /aa/: (a) spectrogramme, (b) spectrogramme réalloué, (c)scalogramme, (d) scalogramme réalloué (a) (b) (c) (d) 6 Une chose très visible dans cette partie est le déclin de la clarté des représentations par rapport à celle de la voyelle synthétisée. Mais les résultats obtenus précédemment restent toujours valides dans le cas de la voyelle de la base TIMIT. La distinction du pitch reste possible et devient beaucoup plus facile dans les versions réallouées des représentations et particulièrement dans le scalogramme réalloué, qui permet la détermination de la fréquence fondamentale à partir des hautes fréquences, sur l'axe des temps. Le spectrogramme réalloué donne une précision beaucoup plus importante, sur l'axe des fréquences, que le spectrogramme simple. Pour le même axe, le scalogramme ne présente pas des résultats meilleurs, par contre nous remarquons la précision par rapport à l'axe des temps. Cependant, elle reste mieux visualisée sur le scalogramme réalloué. Nous remarquons aussi sur le scalogramme réalloué, la réapparition de la précision par rapport à l'axe des fréquences. Toutefois, elle est moins importante que celle sur le spectrogramme réalloué. IV. CONCLUSION Cette étude nous a permis de voir que les vecteurs de réallocations appliqués sur les représentations temps- fréquence à l’intérieur de la classe de Cohen et de la classe affine permettent une meilleure lisibilité des signaux du point de vue précision. Notamment les résultats obtenus par les scalogrammes réalloués présentent des résultats meilleurs que ceux des spectrogrammes réalloués. Pour la voyelle /a/, cette technique de réallocation nous a permis de visualiser la ressemblance de la voyelle synthétisée à la voyelle de la base TIMIT. V. PERSPECTIVE La méthode de réallocation appliquée sur les représentations temps fréquence de signaux phoniques a prouvé son efficacité. Ceci nous donne l'idée de la tester sur des signaux musicaux dont la représentation temps fréquence contient beaucoup d'information sur la fréquence fondamentale et ses harmoniques. BIBLIOGRAPHIE [1] A.N. Akansu, R.A. Haddad. "Multirésolution Signal Decomposition: Transforms, Subbands and Wavelets," Academic Press, 1992. [2] F. Auger, P. Flandrin. "Improving the readability of time-frequency and time-scale representations by the reassignment method". IEEE Trans. Signal Proc., vol. SP-43, n° 5, 1995, pp. 1068–1089. [3] M.J. Bastiaans. "Gabor's expansion of a signal into gaussien elementary signals" Proceedings of IEEE, 68 (4), pp. 538-539, April 1980. [4] R.A. Carmona, W.L. Hwang et B. Torresani. "Practical Time-frequency Analysis" Academic Press, New York, 1998. [5] Y. Chamekh. "Exploration de la méthode de réallocation dans le plan temps fréquence pour l'analyse du signal audio" D.E.A. Ecole Nationale d'Ingénieurs de Tunis, Mai 2004. [6] E. Chassande-Mottin. "Méthodes de réallocation dans le plan temps-fréquence pour l’analyse et le traitement de signaux non stationnaires" Thèse de Doctorat, l’Université de Cergy-Pontoise. Sept. 1998. [7] S.C. Chen, X. Yang. "Speech recognition with high recognition rate by smoothed spaced pseudo Wigner-Ville distribution (SSPWD) and overlap slide window spectrum window" Proceedings of International Conference on Acoustics Speech and Signal Processing, pp. 191-194, New York, April 1988. [8] C.K. Chui. "An Introduction to wavelets" Academic Press, Boston, MA, 1992. [9] L. Cohen, C.A. Pickover. "A comparison of joint time-frequency distributions for speech signals" Proceedings of International Conference on Acoustics Speech and Signal Processing, pp. 42-45, 1986. [10] I. Daubechies, S. Maes. "A nonlinear squeezing of the continuous wavelet transform based on auditory nerve models". In : Wavelets in Medicine and Biology, éd. par A. Aldroubi, M. Unser. CRC Press Inc., 1996. [11] I. Daubechies. "Ten lectures on wavelets". SIAM Press, 1992. [12] N. Delprat, B. Escudié, P. Guillemain, R. Kronland- Martinet, P. Tchamitchian, B. Torrésani. "Asymptotic wavelet and Gabor analysis: extraction of instantaneous frequencies". IEEE Trans. on Info. Theory, vol. IT-38, n° 2, pp. 644–673, 1992. [13] B. Escudié, J. Grea. "Sur une formulation générale de la représentation en temps et fréquence dans l’analyse des signaux d’énergie finie". C. R. Acad. Sc. Paris, série A, vol. 283, pp. 1049–1051, 1976. [14] P. Flandrin. "Temps-Fréquence." Paris, Hermès, seconde édition ,1998. [15] D. Friedman. "Instantaneous frequency distribution vs. time : An interpretation of the phase structure of speech". In: Proc. of the IEEE Int. Conf. on Acoust., Speech, and Signal Proc., pp. 1121–1124. Tampa, FL, 1985. 7 [16] V. Gibiat, F. Wu, P. Perio, S. Chantreuil. "Analyse spectrale différentielle" (A.S.D.). C.R. Acad. Sc. Paris, série II, vol. 294, pp. 633–636, 1982,. [17] P. Jardin. "Evaluation des performances de Fourier glissant (Analyse Spectrale Différentielle) au traitement des signaux de parole." Thèse de Doctorat, Université de Paris VI, 1984. [18] K. Kodera, C. De Villedary, R. Gendrin. "A new method for the numerical analysis of nonstationary signals". Phys. Earth and Plan. Int., vol. 12, pp. 142– 150, 1976. [19] S. Maes. "Wastrum: wavelet derived generalized cepstrum, using the synchrosqueezed plane". In : Proc. Journées GdR TdSI, Temps-Fréequence, Ondelettes et Multirésolution, pp. 27.1–27.4. Lyon, 1994. [20] S. Mallat. A Wavelet Tour of Signal Processing, Second Edition, Academic Press, 1999. [21] K. Marasek. " Speech transients analysis using AR smoothed Wigner-Ville distribution" Eurospeech93, pp. 393-396, Berlin 1993. [22] Y. Meyer. "Les Ondelettes: Algorithmes et Applications," Deuxième Edition, Armand Colin, 1994. [23] F. Plante, G. Meyer et W.A. Ainsworth. " Improvement of Speech Spectrogram Accuracy by the Method of Reassignment" Article, IEEE Transactions on Speech and audio Processing, Vol. 6, NO. 3, May 1998. [24] S. Qian et D. Chen. "Decomposition of the Wigner- Ville Distribution and Time-frequency Distribution Series" IEEE Transactions on Signal Processing, 42, pp.2836-2842, 1994. [25] L. Stankovic, S. Stankovic. "An Analysis of instantaneous frequency presentation using time frequency distributions: Generalized Wigner distribution" IEEE Transactions on Signal Processing, 43 (2), pp. 549-552, 1995. [26] W. Wokurek, F. Hlawatsch, G. Kubin. "Wigner distribution analysis of speech signals" Proceedings of the International Conference on Acoustics, Speech and Signal, Italy, September 1987.