Résumé

Estimation du pitch par le produit multi-échelles du cepstre de parole voisée

Auteurs

Média

0:00
available

Métriques

489
0
619.67 Ko
 application/pdf
bitcache://b42328d9b280c6f537f61e21278e645465fbfcae

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/545:2015-1/13322</identifier><creators><creator><creatorName>Aicha Bouzid</creatorName></creator><creator><creatorName>Wided Jlassi</creatorName></creator><creator><creatorName>Noureddine Ellouze</creatorName></creator></creators><titles>
            <title>Estimation du pitch par le produit multi-échelles du cepstre de parole voisée</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2015</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Sat 18 Apr 2015</date>
	    <date dateType="Updated">Mon 25 Jul 2016</date>
            <date dateType="Submitted">Tue 18 Jul 2017</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">b42328d9b280c6f537f61e21278e645465fbfcae</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>22117</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

Estimation du pitch par le Produit Multi-échelles du Cepstre de Parole Voisée Wided jlassi, Aicha Bouzid, Noureddine Ellouze Laboratoire de Traitement du Signal, Image et Technologies de l’Information, ENIT, Tunis, Tunisia wided1985@hotmail.com, bouzidacha@yahoo.fr, nourellouze@yahoo.fr, Résumé --- Ce papier présente un algorithme d'estimation du pitch basée sur l'analyse du cepstre de parole voisée par le produit multi-échelle des coefficients en ondelettes. L’algorithme comporte la segmentation du signal de parole en zone voisée, le calcul du cepstre réel dans chaque trame puis le calcul du produit multi échelle (PM). L'approche proposée pour l'analyse de cepstre réduit les pics parasites et rend les maximums liée à la période du pitch plus clairs permettant d'améliorer l'estimation de ce dernier. L’approche proposée est évaluée sur la base de données de l'Université de Keele. Les résultats expérimentaux indiquent que le taux d'erreurs grossières (GPE) est le plus faible des méthodes existantes. Mots clés transformée en ondelette, cepstre réel, produit multi-échelle, estimation du pitch I. INTRODUCTION La fréquence fondamentale représente la fréquence de la vibration des cordes vocales et caractérise les segments voisés de la parole. Elle varie d’un locuteur à un autre, en fonction de l'âge et du sexe. L'estimation de la fréquence fondamentale F0 constitue une tâche importante dans le traitement de la parole pour de nombreuses applications telles que l'analyse, le codage et la reconnaissance vocale. Plusieurs algorithmes de détermination du pitch ont été proposés, parmi lesquels plusieurs ont prouvé leur efficacité sur des signaux de parole. En littérature la plupart des algorithmes proposés pour la détermination du pitch sont essentiellement dans le domaine temporel, dans le domaine fréquentiel ou dans le domaine temps-fréquence. Dans cet article, nous proposons un algorithme d'estimation de la F0 qui opère dans le domaine temps-échelle. L’algorithme proposé consiste à calculer le produit multi-échelle du cepstre de la parole. L’approche est évaluée et comparée aux algorithmes d’estimation de pitch de la plateforme de traitement automatique de parole PRAAT [1] qui utilise l'auto-corrélation et le cepstre réel. Le présent article est organisé comme suit: Dans la section 2, la méthode de cepstre pour l'estimation de pitch est présentée. La section 3, présente quelques propriétés de la transformée en ondelettes continue et le produit multi-échelle pour la détection des singularités du signal de parole. La section 4 expose les détails de la méthode proposée pour estimer le pitch. La section 5, présente l’évaluation notre de l’approche sur la base de données de l'Université de Keele. II. ELÉMENTS DE CEPSTRE Le cepstre d’un signal est la transformée inverse du logarithme du spectre de puissance, le cepstre de parole voisée présente un pic fort qui correspond à la période du pitch du segment analysé [2]. Le concept de cepstre provient du modèle de production de la parole qui part de l’hypothèse que le signal vocal est la convolution temporelle de l'excitation de la glotte par le transfert du conduit vocal. L'analyse cepstrale assure la dé-convolution [3]. Cette déconvolution induit une séparation de la contribution de la source et le transfert du conduit vocal. Les méthodes de mesure de la période du pitch obtenus à partir du cepstre obtenus à partir de la détection du maximum, ne sont pas toujours satisfaisantes dans certains cas, car les pics du cepstre correspondants à la période du pitch sont difficilement détectables dans certaines trames. III. PRODUIT MULTI-ÉCHELLE La transformée en ondelettes (TO) est un outil utilisé désormais dans plusieurs algorithmes de détection du pitch [4] [5] [6] [7] [8]. La TO est une méthode connue pour la détection des singularités du signal telles que la fermeture de la glotte GCI instantanée [9] [10]. Mallat [11] [12] a montré que la transformée en ondelettes continue (TOC) calculée avec une ondelette ayant un moment nul indique une discontinuité dans le signal. La transformée en ondelettes a été utilisée pour estimer le pitch d'un signal de parole [13]. Il a par ailleurs été calculée à des échelles dyadiques pour localiser les maximas correspondant aux instants de fermeture de la glotte considérant que la période du pitch n’est autre que l'intervalle de temps entre deux maxima locaux. La transformée en ondelettes est considérée comme un énième dérivé du signal lissé par θ (u))θ(f du d ss)(u,fW sn n n  Avec )( 1 )( s t s ts    En effet une ondelette a un moment nul si et seulement si : ∫ tk+∞ −∞ Ψ(t)dt = 0 ∀ 0 ≤ k ≤ n − 1 Avec n indiquant le nombre des moments nuls caractérisant l’ondelette. Le produit multi-échelle (PM) a été introduit par Bouzid [14] pour améliorer les performances de détection des singularités du signal de parole. Le PM est une combinaison non linéaire des coefficients de la transformée en ondelettes à trois échelles [15] [16]