Un synthétiseur des voix pathologiques

01/08/2016
Publication e-STA e-STA 2010-2
OAI : oai:www.see.asso.fr:545:2010-2:17190
DOI :

Résumé

Un synthétiseur des voix pathologiques

Métriques

52
8
278.45 Ko
 application/pdf
bitcache://859cc0568b8db159f10e8c92ee136ead61481787

Licence

Creative Commons Aucune (Tous droits réservés)
<resource  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                xmlns="http://datacite.org/schema/kernel-4"
                xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
        <identifier identifierType="DOI">10.23723/545:2010-2/17190</identifier><creators><creator><creatorName>Samia Fraj</creatorName></creator><creator><creatorName>Francis Grenez</creatorName></creator><creator><creatorName>Jean Schoentgen</creatorName></creator></creators><titles>
            <title>Un synthétiseur des voix pathologiques</title></titles>
        <publisher>SEE</publisher>
        <publicationYear>2016</publicationYear>
        <resourceType resourceTypeGeneral="Text">Text</resourceType><dates>
	    <date dateType="Created">Mon 1 Aug 2016</date>
	    <date dateType="Updated">Mon 1 Aug 2016</date>
            <date dateType="Submitted">Fri 20 Apr 2018</date>
	</dates>
        <alternateIdentifiers>
	    <alternateIdentifier alternateIdentifierType="bitstream">859cc0568b8db159f10e8c92ee136ead61481787</alternateIdentifier>
	</alternateIdentifiers>
        <formats>
	    <format>application/pdf</format>
	</formats>
	<version>28923</version>
        <descriptions>
            <description descriptionType="Abstract"></description>
        </descriptions>
    </resource>
.

1 Un synthétiseur des voix pathologiques Samia Fraj, Francis Grenez, Jean Schoentgen Laboratoire d‟Images, Signaux et dispositifs des Télécommunications Faculté des Sciences Appliquées, CP 165/51 Université Libre de Bruxelles Av. FF.D. Roosevelt, 50 B-1050 Bruxelles, La Belgique sbenelha@ulb.ac.be http://list.ulb.ac.be/signaux/index.php/Samia_FRAJ Résumé Ce travail concerne le développement et la validation d‟un synthétiseur des voix pathologiques. Le synthétiseur comporte une fonction de distorsion polynomiale pour modéliser l‟aire glottique. Les coefficients du polynôme sont déduits à partir d‟une transformation linéaire des coefficients de Fourier de la forme d‟onde du signal à modéliser. La fonction de distorsion est capable de transformer deux fonctions harmoniques excitatrices en la forme d‟onde souhaitée. La fréquence instantanée et la richesse en harmonique de l‟aire glottique sont contrôlées par la phase instantanée et l‟amplitude des deux fonctions harmoniques à l‟entrée. Le modèle aérodynamique du débit d‟air glottique dépend de l‟aire glottique. La propagation de l‟onde acoustique dans la trachée et le conduit vocal est basée sur un modèle de tubes cylindriques. Les pertes par vibration des parois sont prises en compte par l‟ajout d‟un tube auxiliaire à chaque jonction. Les pertes par conductions thermiques sont simulées par des filtres numériques. Les rayonnements aux lèvres et à la glotte sont introduits par des fonctions de réflexions dépendantes de la fréquence. Les perturbations simulées sont la gigue vocale, le tremblement vocal, la biphonation, la diplophonie et les vibrations aléatoires. Le shimmy vocal résulte de la distorsion de modulation dans le conduit vocal qui transforme la gigue en shimmy vocal. Le souffle est synthétisé par la modulation d‟un bruit Brownien. Pour la validation du synthétiseur, nous avons réalisé deux expériences d‟évaluations perceptives, portant sur des corpus de stimuli synthétiques ou humains, modales ou dysphoniques. Les résultats montrent la capacité du synthétiseur à produire des voix aussi bien modales que troublées avec des timbres indiscernables des humains. En plus, les résultats d‟une expérience d‟exploitation concernant la classification des stimuli synthétiques selon les échelles ordinales GRB suggèrent que troubles simulés et évaluations perceptives concordent. Aussi, les scores perceptifs prédits à partir des paramètres de contrôle du synthétiseur et les scores attribués par des experts sont fortement corrélés. Mots clefs : Synthétiseur, Voix pathologiques, Fonction de distorsion, Aire glottique, Perturbations vocales, Evaluation perceptive. I- Introduction Dans le cadre de ce travail, nous présentons un synthétiseur de voix pathologiques ainsi que sa validation par des expériences de perception. Ce synthétiseur comporte un modèle de source adapté à la simulation des troubles de la voix ainsi qu'un modèle réaliste du conduit vocal et permet pas conséquent de réaliser des voix présentant un timbre proche du naturel. Les motivations pour la synthèse des voix troublées sont les suivantes : a) La préparation des stimuli de référence pour les orthophonistes afin de servir comme support lors des évaluations auditives des locuteurs dysphoniques ; b) La formation des cliniciens débutants et des jurys d‟auditeurs pour des évaluations perceptives cliniques. Cette formation se base en effet sur des tests d‟écoute des voix synthétiques couvrant la plage des différentes pathologies vocales ; c) Le calibrage des algorithmes et des méthodes d‟analyse des dyspériodicités vocales ainsi que le test de la fiabilité et de la validité des indices acoustiques des troubles vocaux. Depuis des décennies, de nombreuses recherches ont été consacrées à la synthèse des voix normales. Cependant, peu d‟études ont été directement dirigées vers la synthèse des voix pathologiques. La difficulté majeure de la synthèse des troubles de la voix réside dans le manque de modèles capables de fournir un contrôle précis du signal de l‟excitation glottique. Habituellement, la forme d‟onde du signal de source est modélisée par une concaténation d‟un nombre fini de segments de courbes qui approchent la forme de l‟impulsion glottique (Rosenberg, 1971 ; Fant, 1979 ; Fant et al., 1985). Le signal de source soutenu est ensuite obtenu en répétant périodiquement la forme d‟onde réalisée. Cette méthode, bien qu‟ayant prouvé sa fiabilité pour la synthèse des voix normales, n‟a pas donné des résultats satisfaisants pour la synthèse des troubles vocaux. Les paramètres définissant d‟une manière exacte la forme d‟onde du signal n‟ont pas de significations physiologiques ou acoustiques et sont difficiles à contrôler en pratique. En effet, pour simuler des troubles de la voix, ces paramètres doivent être ajustés pour chaque cycle glottique d‟une manière itérative. Par conséquent, seuls les changements sur la longueur globale de chaque cycle sont possibles alors que les troubles doivent être introduits à l'intérieur même d'un cycle. Ceci induit en outre la nécessité de synchroniser la longueur de chaque cycle perturbé avec le début ou la fin e-STA copyright 2010 by see Volume 7, N°2, pp 33-39 2 des autres cycles du signal glottique. Ces simulations ne traduisent donc pas exactement la réalité. D‟autres études ont suggéré l‟amélioration des modèles de la source vocale pour la synthèse des voix dysphoniques. Childers et al. (1995 ; 1991), Childers, (1995), Lalwani et al. (1991) ainsi que Hillenbrand (1988) se sont intéressés à l‟obtention des paramètres du modèle de Liljencrants-Fant (modèle LF) de source glottique initialement développé par Fant et al. (1985). Ce modèle décrit la dérivée du débit d‟air glottique par une combinaison d‟une fonction sinusoïdale croissante et d‟une exponentielle. En réglant les paramètres de ces deux courbes, les auteurs susmentionnés ont essayé de simuler quelques voix telles que le falsetto et les voix craquées. D‟autres types de dysphonies n‟ont pas été simulés. Dans ces études, le principe consiste à faire passer un signal de voix humaine par un filtre inverse du conduit vocal afin d‟obtenir le signal d‟impulsions glottiques. Ces impulsions sont ensuite utilisées dans le modèle LF adapté avec des paramètres provenant de plusieurs voix pathologiques similaires. Les résultats des expériences perceptives de ces voix dysphoniques synthétisées ont été variables et n‟ont pas permis de conclure sur la qualité de synthèse obtenue. En même temps, d‟autres études, essentiellement menées par Childers et al. (1994) et Strik (1998), ont été confrontées à la difficulté d‟utiliser le filtrage inverse et de simuler les interactions source-conduit vocal. Childers et al. (1995) avaient montré que, dans la plupart des cas, la divergence des paramètres du modèle LF pour la synthèse des voix pathologiques est due à la difficulté d‟accorder les impulsions obtenues par inversion à une source glottique non-modale. De manière générale, les problèmes mentionnés dans la littérature pour la synthèse des voix pathologiques résultent de l‟absence de modèles de contrôle instantané de la fréquence et de la richesse en harmoniques des cycles glottiques. L‟objectif de ce travail est le développement d‟un synthétiseur vocal capable de simuler plusieurs catégories de voix pathologiques. Les troubles que nous souhaitons simuler trouvent leur origine au niveau du signal de source généré par la vibration des cordes vocales. Nous avons donc mis en œuvre un modèle de source permettant un contrôle fin et précis de l'excitation glottique afin de simuler efficacement les différents types de dysphonies. Nous simulons ensuite la propagation temporelle de l'onde acoustique dans les conduits vocal et subglottique qui agissent comme guides d‟onde pour le signal de pression. Pour rendre la simulation réaliste, nous simulons les pertes acoustiques dans le conduit dues aux vibrations des parois, au frottement visqueux et à la conduction thermiques. Les pertes à la glotte et par rayonnement aux lèvres sont également prises en considération. Ce synthétiseur nous permet de simuler les troubles dus aux perturbations tels que la gigue vocale, le tremblement vocal et le shimmy vocal. La gigue vocale et le tremblement vocal sont obtenus par des modèles stochastiques, tandis que le shimmy vocal résulte de la distorsion de modulation dans le conduit vocal qui transforme la gigue en shimmy. Les troubles dus à la dynamique des cordes vocales tels que la diplophonie, la biphonation et les vibrations aléatoires sont également obtenus. Les voix soufflées sont simulées par l'introduction d'un bruit à la source. Nous décrivons plusieurs expériences pour la validation du synthétiseur aussi bien en voix normales que troublées. Ces expériences concernent l‟évaluation du critère „naturel‟ des voix synthétiques. La dernière expérience illustre l‟exploitation du synthétiseur pour étudier un problème de pertinence clinique. Cette expérience consiste à examiner la catégorisation perceptuelle par des experts, selon l‟échelle ordinale GRB, d‟un corpus de voix simulées en fonction du bruit de modulation en fréquence (gigue), du bruit additif et de la fréquence vocale. II- Le synthétiseur La figure 1 montre le schéma général du synthétiseur. Figure 1 : Schéma général du synthétiseur. A. Modèle de l‟aire glottique Nous modélisons en premier lieu non pas le débit d'air mais l'évolution temporelle de l'aire (la surface) glottique. Le débit est ensuite obtenu à partir d'un modèle aérodynamique prenant en compte les interactions entre la glotte et les conduits supra et sous-glottiques. Le modèle de l‟aire glottique est basé sur une fonction de distorsion non linéaire et sans mémoire (Schoentgen, 1990 & 2003). La fonction de distorsion, qui se compose d‟une paire de polynômes, est capable de transformer deux fonctions harmoniques excitatrices en la forme d‟onde souhaitée. La fonction de distorsion possède des propriétés qui la rendent adéquate pour notre application : - La fréquence du signal est contrôlée par un paramètre unique. Des petites perturbations de cette fréquence n‟affectent pas les valeurs de l‟amplitude et de la pente spectrale des cycles glottiques. - La richesse en harmonique du signal est contrôlée par un paramètre unique, qui n‟altère pas la valeur de la fréquence du signal glottique. fonction de distorsion de l‟aire glottique fonctions harmoniques excitatrices modulées modèle du conduit sous-glottique modèle du conduit vocal signal de parole pression pulmonaire modèle du débit d‟air glottique modèle du rayonnement aux lèvres e-STA copyright 2010 by see Volume 7, N°2, pp 33-39 1 - Ces deux paramètres indépendants fixent la fréquence fondamentale, la pente spectrale et la largeur de bande du signal de l‟aire glottique. - Les coefficients de la fonction de distorsion fixent la forme du cycle glottique typique d‟un locuteur (Fant et al., 1985; Klatt et al. 1990 ; Huji et al., 1986). Contrôle de la fréquence instantanée et de la richesse en harmonique : Le contrôle précis de la fréquence du signal de l‟aire glottique est nécessaire pour simuler l‟intonation, l‟accentuation et les modulations de fréquence. La fréquence de l‟aire glottique est contrôlée par la fréquence instantanée des fonctions harmoniques excitatrices du modèle non linéaire tandis que la pente spectrale et la richesse en harmoniques sont contrôlées indépendamment par la modulation de l‟amplitude des fonctions harmoniques excitatrices. Le contrôle de la richesse en harmoniques permet également une interdépendance entre l‟amplitude et la forme des cycles de l‟aire glottique. Un gain linéaire, simple facteur multiplicatif, permet de contrôler la sonie. B. Modèle du débit d‟air glottique Le débit d‟air glottique est obtenu par un modèle aérodynamique qui imbrique l‟aire glottique, les composantes de pression sous-glottique et supra-glottique incidentes à la glotte ainsi que des constantes physiques. Ce modèle aérodynamique (Titze ; 2006), repose sur une équation non linéaire du débit d‟air glottique et prend en considération les interactions source-conduit. C. Modèle du conduit vocal Le conduit vocal est modélisé par la concaténation de plusieurs tubes cylindriques de même longueur et de différentes sections. Les aires de ces sections en fonction de la distance les séparant de la glotte définissent la fonction d‟aire. Chaque fonction d‟aire est caractéristique d‟une voyelle. Lors de la synthèse d‟un couple de voyelles, nous faisons évoluer linéairement la géométrie du conduit vocal de sa forme pour la première voyelle à sa forme pour la deuxième voyelle. Nous prenons en considération toutes les pertes dans le conduit vocal afin de rendre le modèle plus réaliste. Les pertes simulées sont les pertes par vibration des parois, par frottement visqueux et conduction thermique ainsi que les pertes par rayonnement aux lèvres et à la glotte. Les pertes par vibration des parois sont considérées par l‟insertion de deux tubes en dérivation à chaque jonction (Flanagan et al., 1972). Les pertes par frottement visqueux et conductions thermiques sont introduites via des filtres numériques (Abel et al., 2003) et les pertes aux lèvres et à la glotte sont simulées par une fonction de réflexion qui dépend de la fréquence (Flanagan et al., 1972 ; Badin et Fant, 1984). III- Synthèse des troubles de la voix Les troubles de la voix sont simulés en agissant sur les fonctions harmoniques excitatrices du modèle de l‟aire glottique présenté précédemment. Plusieurs types des troubles de la voix sont obtenus en introduisant des perturbations sur la phase et/ou l‟amplitude instantanées des fonctions harmoniques excitatrices. Ces troubles sont les troubles dus aux perturbations tels que la gigue vocale, le tremblement vocal et le shimmy vocal. Le shimmy vocal résulte ensuite de la distorsion du signal de parole dans le conduit vocal. Nous simulons également les troubles dus à la dynamique des cordes vocales tels que la diplophonie, la biphonation et les vibrations aléatoires. Enfin, nous simulons le bruit additif dû aux turbulences à la glotte. A. Simulation de la gigue vocale Nous simulons la gigue vocale par un modèle basé sur la modulation de la phase instantanée des fonctions harmoniques excitatrices du modèle de l‟aire glottique. Schoentgen (2001) présente ce modèle en tant qu‟un modèle à marche aléatoire. La valeur de la phase instantanée des fonctions harmoniques est perturbée par un bruit blanc sans mémoire et d‟amplitude réglable en fonction de la gigue souhaitée. B. Simulation du shimmy vocal Le shimmy vocal désigne des petites perturbations de l‟amplitude des cycles de parole. Le conduit vocal, en tant que résonateur, traduit des petites variations rapides des durées du cycle glottique (gigue vocale) en des petites perturbations de l‟amplitude des cycles de parole (shimmy vocal) (Schoentgen, 2000). C. Simulation du tremblement vocal Le tremblement vocal désigne des oscillations lentes (1-15 Hz) de la fréquence vocale ou de l‟amplitude instantanée des cycles de la parole voisée. Nous simulons le tremblement vocal en perturbant la phase instantanée, des fonctions harmoniques excitatrices du modèle de l‟aire glottique, par un bruit blanc filtré par un filtre linéaire passe bande du second ordre centré sur la fréquence de tremblement. D. Simulation de la diplophonie La diplophonie désigne un trouble de la phonation caractérisé par un signal périodique contenant plusieurs cycles glottiques de formes et/ou amplitudes différentes. La diplophonie se traduit par la présence de deux ou plusieurs fréquences fondamentales dans un rapport rationnel. Pour simuler la diplophonie, nous modulons l‟amplitude des fonctions harmoniques excitatrices du modèle de l‟aire glottique par une sinusoïde dont la fréquence est dans un rapport rationnel avec la fréquence fondamentale. E. Simulation de la biphonation La biphonation est également caractérisée par une succession de cycles glottiques inégaux. La biphonation se traduit par la présence de deux fréquences fondamentales dans un rapport irrationnel au sein du spectre (Neubauer et al. 2001). La biphonation est simulée de la même manière que la diplophonie sauf qu‟ici, la fréquence de la sinusoïde modulante est dans rapport irrationnel avec la fréquence fondamentale. Les cycles du signal de l‟aire glottique obtenus ne sont jamais identiques. F. Simulation des vibrations aléatoires Les vibrations aléatoires des cordes vocales sont la conséquence d‟un régime dynamique aléatoire. Le e-STA copyright 2010 by see Volume 7, N°2, pp 33-39 4 paramètre pertinent est donc l'amplitude et la forme du cycle glottique. Pour simuler les vibrations aléatoires, l‟amplitude instantanée des fonctions harmoniques est modulée par un bruit blanc filtré par un filtre passe bande du second ordre. La fréquence centrale de ce filtre est la fréquence fondamentale de l‟aire glottique. G. Simulation du bruit additif Pendant la phase de fermeture des cordes vocales, l‟écoulement de l‟air se sépare des parois de la glotte. Il en résulte la formation d‟un jet turbulent dont l‟énergie cinétique est dissipée sans qu‟il y ait récupération de pression à la sortie. Cet écoulement turbulent de l‟air génère un signal acoustique perçu comme un bruit à large bande spectrale lorsque la turbulence est forte. L‟intensité du bruit dépend de l‟interaction du flux avec des obstacles éventuels, ainsi que de la vitesse de l‟écoulement (Stevens, 1998). Plusieurs études ont montré, qu‟en présence de des pathologies, l‟intensité de ce bruit augmente et peut donner lieu à un souffle audible. Pour la simulation du bruit additif, nous proposons une alternative qui se base sur un bruit Brownien vu ses caractéristiques sonores préférées à l‟ouïe. Nous obtenons un bruit Brownien à partir d‟un filtrage passe bas du premier ordre d‟un bruit blanc gaussien. Ensuite, nous modulons le bruit filtré par une fonction affine (2) du débit d‟air glottique )(nug Les coefficients n1 et n2 sont fixés par l‟expérimentateur. Le bruit Brownien modulé est ensuite additionné au débit d‟air glottique à chaque itération. Le bruit modulé par (2) est retardé d‟une milliseconde par rapport au débit d‟air glottique afin de tenir compte de la différence de trajet. 21 )(. nnun g (2) IV- Expériences de validation et d‟exploitation A. Classification binaire humaine/synthétique des voyelles modales A.1. Objectif L‟objectif est de réaliser une classification binaire humaine/ synthétique des voyelles modales avec des participants naïfs et experts. A.2. Corpus Nous avons choisi 10 voyelles humaines modales dans une base de données de voyelles [a] du Français. Les voyelles humaines sont produites par des locuteurs masculins de différents timbres couvrant une plage de fréquences vocales de 88 à 140 Hz. La durée de chaque voyelle est d‟une seconde. Nous avons analysé chaque voyelle et mesuré la fréquence fondamentale, la gigue, le shimmy et le rapport harmonicité sur bruit. Toutes les valeurs mesurées sont en dessous du seuil de pathologie. Nous avons ensuite simulé 10 voyelles synthétiques similaires aux voyelles humaines et de même durée. L‟objectif n‟est pas de copier intégralement les caractéristiques acoustiques des voyelles humaines. Les paramètres du modèle de la gigue vocale et du bruit additif permettent d‟obtenir des valeurs des indices acoustiques mesurées proches des valeurs humaines. Nous avons fixé les paramètres du tremblement vocal à des valeurs typiques d‟un locuteur ne souffrant pas de troubles vocaux. La biphonation, la diplophonie et les raucités sévères ne sont pas simulées. Pour déguiser l‟identité du synthétiseur, nous avons utilisé trois fonctions d‟aire du conduit vocal pour simuler la voyelle [a]. En plus, nous avons imposé les mêmes attaques et déclins pour les voyelles humaines et synthétiques. Le corpus final est donc composé de 20 voyelles de voix masculines modales dont 10 humaines et 10 synthétiques. A.3. Procédure Nous avons présenté l‟expérience en ligne à un ensemble d‟experts dans le domaine du traitement de la parole et du milieu clinique. Nous avons également invité un nombre d‟auditeurs naïfs. Au début de l‟expérience, l‟auditeur est identifié par un login et un mot de passe. Ensuite, l‟auditeur écoute chaque son autant de fois qu‟il le souhaite. Il indique ensuite si le son écouté correspond, selon lui, à une voix produite par un humain ou par une machine. Nous avons enregistré la participation de 36 personnes dont 12 auditeurs naïfs (qui n‟ont pas été entrainés à écouter des voyelles) et 24 experts (ingénieurs en traitement du signal de parole et cliniciens). Nous avons traité les résultats, en termes d‟une matrice de confusion, séparant les réponses des naïfs et des experts. A.4. Résultats Le tableau 1 montre la matrice de confusion qui présente les pourcentages de détection des voyelles par tous les participants naïfs et experts (Fraj ; 2009). Nous observons un taux global de classification (détection correcte + rejet correct) sur les diagonales de 56 % pour les naïfs et de 53.4 % pour les experts. La matrice de confusion montre un taux global de classification incorrecte de 46.6 % pour les experts et de 43.3 % pour les naïfs. L‟identification correcte des voyelles synthétiques est de 55.8 % par les naïfs contre 60.0 % par les experts. Décisions 12 Naïfs 24 Experts H S H S Stimuli H 57.5 42.5 46.7 53.3 S 44.2 55.8 40.0 60.0 Tableau 1 : Matrice de confusion, valeurs en % ; H : Humain ; S : Synthétique. Sur les anti-diagonales, le taux de classification incorrecte des voyelles synthétiques est plus faible chez les experts. 44.2 % des voyelles synthétiques ont été considérées comme produites par des humains selon les naïfs contre 40.0 % selon les experts. Généralement, nous observons que les taux globaux de classifications correcte et incorrecte sont compris entre 40 et 60 %. Le taux de 50 % correspond à des réponses aléatoires. Les voyelles humaines, par contre, étaient moins souvent classées correctement par les e-STA copyright 2010 by see Volume 7, N°2, pp 33-39 1 experts. Le taux d‟identification de celles-ci est de 46.7 % pour les experts contre 57.5 % pour les naïfs. Les juges ne sont pas corrélées entre eux (valeur maximale de corrélation = 0.4). Les résultats montrent que les experts comme les naïfs ne sont pas capables de faire la distinction entre les voyelles synthétiques et les voyelles humaines. B. Classification binaire humaine/synthétique des voyelles dysphoniques B.1. Objectif Cette expérience consiste en une catégorisation humaine/synthétique. L‟objectif est d‟obtenir le taux global de classification incorrecte par des experts et des naïfs. B.2. Corpus Nous avons choisi 15 voyelles humaines dysphoniques dans une base de données de voyelles [a] du Français enregistrée en clinique. Les voyelles sont de différents timbres couvrant la plage de fréquence vocale de 101 à 150 Hz. La durée de chaque voyelle est d‟une seconde. Nous avons procédé de la même manière que pour le corpus de voyelles modales, en synthétisant 15 voyelles de caractéristiques similaires en ce qui concerne la fréquence fondamentale, la gigue, le shimmy et le rapport harmonicité sur bruit. Nous avons également utilisé trois fonctions d‟aire du conduit vocal pour la voyelle [a] afin de déguiser l‟identité du synthétiseur. Les attaque et déclin sont les mêmes pour les voyelles humaines et synthétiques. On peut remarquer que ce choix avantage le synthétiseur car les attaques et déclins sont probablement informatifs pour les cliniciens. Le corpus final est composé de 30 voyelles de voix masculines dysphoniques dont 15 humaines et 15 synthétiques. B.3. Procédure Nous avons proposé cette expérience en ligne à 24 cliniciens et experts travaillant dans le domaine du traitement de la parole ainsi qu'à 6 auditeurs naïfs. La procédure est identique à celle de l'expérience précédente. Nous présentons les résultats en séparant les réponses des naïfs et des experts. B.4. Résultats Le tableau 2 montre la matrice de confusion qui présente les pourcentages de classification des voyelles dysphoniques par tous les participants. Nous observons un taux global de classification correcte (détection correcte + rejet correct) sur les diagonales de 49.4 % pour les naïfs et de 62.5 % pour les experts. L‟identification correcte des voyelles synthétiques est de 49.4 % pour les naïfs contre 66.3 % pour les experts. Nous observons sur les anti-diagonales, un taux global de classification incorrecte de 50.6 % par les naïfs contre 37.4 % par les experts. Concernant les voyelles synthétiques, 50.6 % ont été considérées comme produites par des humains selon les naïfs contre uniquement 33.7 % selon les experts. Nous observons que la catégorisation des voyelles synthétiques est équilibrée pour les naïfs (presque 50 % pour chaque catégorie). En revanche, cette catégorisation est déséquilibrée pour les experts (66.3 % de classification correcte contre 33.7 % de classification incorrecte). L‟observation du tableau montre les réponses des naïfs correspondent à des réponses aléatoires. Ceci suggère que les naïfs ne sont pas capables de distinguer entre voyelles synthétiques et humaines. Décisions 6 Naïfs 18 Experts H S H S Stimuli H 49.4 50.6 58.8 41.2 S 50.6 49.4 33.7 66.3 Tableau 2 : Matrice de confusion, valeurs en % ; H : Humain ; S : Synthétique. Les experts sont plus aptes que les naïfs à détecter les voyelles synthétiques. Pourtant, leur taux global de classification incorrecte (37.6 %) reste considérable. Les juges ne sont pas corrélés entre eux. Des voyelles ont été jugées naturelles par quelques uns et synthétiques par d‟autres. Cette variabilité des réponses est confirmée par les écarts types élevés des réponses des juges. Les valeurs des écarts types des jugements des voix synthétiques sont de 13.1 % pour les naïfs et de 18.3 % pour les experts. Par contre, les valeurs des écarts types pour les jugements des voix humaines sont de 29.6 % pour les naïfs et de 24 % pour les experts. C. Expérience de validation C.1. Objectif Après les expériences de validation, le synthétiseur est jugé prêt pour une expérience d‟exploitation. Nous avons réalisé cinq corpus comprenant plusieurs catégories de voyelles soutenues et de couples de voyelles. L‟objectif est d‟évaluer par des cliniciens chaque stimulus sur les échelles ordinales GRB et de déterminer l‟effet des paramètres de contrôle sur les scores perceptifs à l‟aide d‟une régression linéaire. C.2. Corpus Nous avons réalisé cinq corpus dont les trois premiers comprennent les voyelles soutenues [a], [i] et [u] et les deux derniers les couples de voyelles [ai] et [ia]. Pour obtenir des couples de voyelles, nous avons divisé la durée (1 seconde) en trois parties. La première et la troisième parties reproduisent les voyelles soutenues [a] et [i] dans l‟ordre de la transition. Durant la deuxième partie, nous avons fait évoluer linéairement la géométrie du conduit vocal de la forme du conduit pour la voyelle [a] à sa forme pour la voyelle [i] pour simuler la transition [ai] et vice versa pour la transition [ia]. Chaque corpus est composé de 48 stimuli réalisés en combinant trois paramètres. Ces paramètres concernent trois valeurs de la fréquence fondamentale F0, quatre valeurs de l‟amplitude de la gigue vocale b ainsi que quatre valeurs du coefficient n1 du bruit additif. Les valeurs choisies pour F0 sont 100, 120 et 140 Hz, pour b 0.05, 0.15, 0.25 et 0.35 et pour n1 0.02, 0.04, 0.07 et 0.20. La durée de chaque stimulus est une seconde. En outre, nous avons fait e-STA copyright 2910 by see Volume 7, N°2, pp 33-39 6 décroitre linéairement la fréquence fondamentale d‟une valeur arbitraire choisie dans l‟intervalle de 10 à 20 Hz afin de favoriser le „naturel‟ des voyelles. C.3. Procédure Six cliniciens, ayant de l‟expérience dans l‟évaluation de voyelles de patients dysphoniques, ont participé à cette expérience. Nous avons présenté aux juges les stimuli de chaque corpus dans un ordre aléatoire. L‟ordre de présentation des stimuli est le même pour tous les juges. Chaque juge a la possibilité d‟écouter le stimulus le moins perturbé et le stimulus le plus perturbé à n‟importe quel moment de l‟expérience. Après chaque écoute, le juge évalue le degré d‟enrouement global perçu, appelé grade. Ensuite, il affecte un score au degré de raucité et un deuxième score au degré de souffle. Le juge valide ses réponses par un bouton. Après avoir évalué tous les stimuli d‟une même catégorie phonétique, l‟auditeur enregistre ses données et prend une pause avant de continuer. C.4. Résultats Afin de déterminer la relation entre les paramètres de simulation indépendants b, n1 et F0 d‟une part et les scores affectés par les juges d‟autre part, nous avons effectué une analyse par régression linéaire. Elle obtient les coefficients de régression qui reflètent l‟effet des paramètres de simulation sur l‟affectation des scores. Elle permet également de prédire les valeurs du grade, de la raucité et du souffle à partir des valeurs des paramètres de contrôle du synthétiseur. Nous avons normalisé les paramètres de contrôle et les scores affectés par les juges. Nous avons ensuite calculé les moyennes des scores pour les six juges. Les coefficients de régression sont obtenus pour les paramètres de contrôle et les moyennes des scores. Le tableau 3 rapporte les coefficients de régression. Nous observons que pour le grade et la raucité, le paramètre b réglant l‟amplitude de la gigue vocale importe plus que les autres. En revanche, pour le souffle, le paramètre n1 réglant l‟amplitude du bruit additif influence plus les jugements. Nous constatons des valeurs négatives pour les coefficients de régression de la fréquence fondamentale. Plus la fréquence augmente, plus faible est le jugement de l‟enrouement. Ces coefficients sont plus grands en valeur absolue pour le grade et la raucité que pour le souffle. Stimulus G-G_estimé R-R_ estimé S-S_ estimé [a] 0,94 0,92 0,82 [i] 0,91 0,91 0,81 [u] 0,88 0,90 0,87 [ai] 0,93 0,94 0,91 [ia] 0,89 0,92 0,85 Tableau 3 : Corrélations par catégorie entre scores attribués et estimés pour le grade, la raucité et le souffle. Le tableau 3 rapporte les valeurs de corrélations pour chaque catégorie entre les moyennes des scores normalisés et les scores estimés par régression linéaire. Les valeurs de corrélations montrent que les scores des juges concordent avec les scores prédits. Nous observons que les valeurs des corrélations sont plus importantes pour le grade et la raucité (maximum = 0.94) que pour le souffle (maximum = 0.91). Figure 2 : Diagrammes de dispersion des scores normalisés attribués et estimés pour le grade. Dans la figure 2, nous représentons le diagramme de dispersion des scores normalisés attribués et estimés pour le grade. L‟alignement des nuages de points sur la bissectrice confirme la concordance entre les scores attribués et les scores estimés par régression aussi bien pour les voyelles soutenues que pour les couples de voyelles. V- Discussion générale Exp1 : Les résultats obtenus, pour la première expérience, ont montré que les naïfs aussi bien que les experts ne savaient pas identifier les voyelles humaines et synthétiques. Le taux global de classification incorrecte est proche du taux obtenu dans le cas des réponses aléatoires. La variabilité dans les réponses des juges est confirmée par des écarts types élevés pour les réponses de tous les juges dont les valeurs varient de 15 à 24 %. Ces résultats ont été interprétés en termes de l‟incapacité des auditeurs, aussi bien les naïfs que les experts, à distinguer si les stimuli écoutés étaient humains ou synthétiques. Exp2 : Les résultats de la deuxième expérience montrent que les réponses des auditeurs naïfs se ramènent à l‟aléatoire. Les experts sont plus aptes à distinguer les deux types de stimuli mais leur taux global de classification incorrecte reste élevé (37.6 %). Les réponses des juges, naïfs comme experts, ne sont pas corrélées entre elles. L‟inspection des réponses individuelles suggère que les experts en synthèse de parole obtiennent les meilleurs taux de classification correcte pour les voix modales et les experts cliniciens pour les voix troublées. Exp3 : Le calcul des coefficients de régression montre que le paramètre b de contrôle de l‟amplitude de la gigue vocale importe le plus dans l‟évaluation du grade et de la raucité sur les échelles ordinales GRB. L‟influence du paramètre n1 de contrôle du souffle est moins importante. Ceci est dû au fait que les valeurs de ce paramètre sont faibles par rapport aux attentes. -2 -1 0 1 2 -2 0 2 Score estimé Score [a] -2 -1 0 1 2 -2 0 2 Score estimé Score [i] -2 -1 0 1 2 -2 0 2 Score estimé Score [u] -2 -1 0 1 2 -2 0 2 Score estimé Score [ai] -2 -1 0 1 2 -2 0 2 Score estimé Score [ia] e-STA copyright 2010 by see Volume 7, N°2, pp 33-39 1 Des fortes corrélations sont observées entre les réponses des juges pour le classement des stimuli selon le grade et la raucité. Par contre, les juges sont plus faiblement corrélés pour le classement des stimuli selon le souffle. Les résultats montrent des fortes corrélations pour toutes les catégories entre les scores attribués et estimés par régression linéaire pour le grade, la raucité et le souffle (maximum = 0.94). Vu que le paramètre de contrôle du souffle est trop faible, les scores attribués au souffle sont faibles aussi. Bibliographie Abel, J., Tamara Smyth and Julius O. Smith III (2003) “A Simple, Accurate Wall Loss Filter for Acoustic Tubes”, Proc. Of the 6ème Int. Conference on Digital Audio Effects (DAFx-03), London, UK, September 8-11. Badin, P., Fant, G. (1984) “Notes on vocal tract computation”, STL-QPSR 2-3, 53-109. Childers, D.G. & Ahn, C. (1995) “Modeling the glottal volume velocity waveform for three voice types”, J. Acoust. Soc. Am, 97, 505-519. Childers, D.G (1995) “Glottal source modelling for voice conversion”, Speech Communication, 16, 127-138. Childers, D.G & Lee, C.K. (1991) “Vocal quality factors: Analysis, synthesis and perception”, J. Acoust. Soc. Am, 90, 2394-2410. Childers, D.G & Wong, C. (1994) “Measuring and modelling vocal source-tract interaction”, IEEETransactions on Biomedical Engineering, 41, 663- 671. Fant, G., Liljencrants, J. and Lin, Q. (1985) “A four- parameter model of glottal flow”, STL-QPSR, Vol. 4, 1- 13. Fant, G., (1979) “Vocal source analysis – a progress report”, STL-QPSR, Dept. for speech, music and hearing, 31-53. Flanagan, J. L. and Rabiner, L.R. (1972) “Speech Synthesis”, Bell Laboratories, Murray Hill, N.J. USA. Fraj, S., Grenez, F., Schoentgen, J. (2009) “Perceived naturalness of a synthesizer of disordered voices”, Proceedings, INTERSPEECH 2009, Brighton, U.K., 7-10 September. Klatt, D.H. & Klatt, L.C. (1990) “Analysis, synthesis and perception of voice quality variations among female and male talkers”, J. Acoust. Soc. Am, 87(2), 820-857. Lalwani, A.L. & Childers, D.G. (1991) “Modeling vocal disorders via formant synthesis”, Proceedings of the IEEE, 505-508. Neubauer, J., Mergell, P., Eysholdt, U. and Herzel, H. (2001) “Spatio-temporal analysis of irregular vocal fold oscillations: Biphonation due to desynchronisation of spatial modes”, J. Acoust. Soc. Am., 110(6), 3179-3192. Rosenberg, A. (1971) “Effect of glottal pulse shape on the quality of natural vowels”, J. Acoust. Soc. America, 49, 583-590. Schoentgen, J. (2000) “Glottal vibrations and vocal tract filter function convert jitter into shimmer”, Proceedings 5th Seminar on Speech Production, Kloster Seeon, Germany, 173-176. Schoentgen, J. (1990) “Non-linear signal representation and its application to the modelling of the glottal waveform,” Speech Communication, Vol. 9, N. 3, 189- 201, June. Schoentgen, J. (2003) “Shaping function models of the phonatory excitation signal,” J. Acoust. Soc. Am, 114(5), 2906-2912, November. Schoentgen, J. (2001) “Stochastic models of jitter”, J. Acoust. Soc. Am, 109(4), 1631-1650. Stevens, K. N. (1998) “Acoustic phonetics”, Springer, MIT Press, Cambridge, MA. Strik, H. (1998) “Acoustic parameterization of differentiated glottal flow: Comparing methods by means of synthetic flow pulses”, J. Acoust. Soc. Am, 103, 2659- 2669. Titze, I.R. (2006) “The myoelastic aerodynamic theory of phonation”, The National Center for Voice and Speech, 265, USA. e-STA copyright 2010 by see Volume 7, N°2, pp 33-39