La voix, un instrument de timbre
Comment joue-t-on du timbre vocal ? (suite)
Nathalie Henrich Bernardoni et Michèle Castellengo
Découvrez la diversité des jeux du timbre vocal
(cliquez sur les liens)
- Ajustements pour une qualité de timbre : cas d’un chant féminin de Bulgarie
- Ruptures mélodiques et ornementations : le yodel et le tahrir
- Emergence d’une mélodie spectrale en monophonie : le chant diphonique
- Emergence d’une mélodie spectrale en polyphonie :
cas de la quintina d’un chant liturgique sarde, le «jesu» - Registration vocalique des chanteurs d'une polyphonie Aka
- Un art du timbre vocalique : la polyphonie Bunun du pasi but but
Ajustements pour une qualité de timbre:
cas d'un chant féminin de Bulgarie
Au sein de la diversité vocale développée dans les Balkans, nous nous arrêtons ici sur un style de chant féminin bulgare aux sonorités fascinantes et atypiques. Il s’agit à l’origine de chants monodiques ruraux et genrés, qui accompagnaient la vie quotidienne, depuis le travail dans les champs jusqu’aux fêtes qui rythmaient la vie des villages (Le Gonidec 2005). Ce style de chant met en avant la sonorité et la brillance d’un timbre vocal très singulier. Dans les chants traditionnels, les variations mélodiques portent sur une étendue d’une quarte (5 demi-tons) à une quinte (7 demi-tons), comprise dans une gamme de fréquences allant de si2 (f0 = 247 Hz) à si3 (f0 = 494 Hz). Il existe plusieurs dynamiques d’intensité possibles pour ce style de chant, comme la dynamique de forte intensité pour la qualité teshka (lourd) ou la dynamique plus douce pour la qualité leka (léger). Mais quelle que soit la dynamique, la caractéristique acoustique de ce timbre vocal est celle d'une prédominance du second harmonique par rapport aux autres harmoniques. Ce phénomène est illustré sur la figure 2.

Fig. 2 : Partie supérieure : analyse temps-fréquence d'un extrait chanté en teshka puis en leka par la chanteuse Mara Kiek (son n°1).
Partie inférieure : à gauche : évolution de la fréquence de la première résonance avec les notes chantées ;
à droite : évolution des voyelles chantées dans l'espace vocalique R1-R2.
Les marqueurs ronds correspondent aux voyelles parlées de la chanteuse, les carrés au style teshka et les losanges au style leka.

Une étude mettant en œuvre une technique de mesure des résonances pendant la phonation a apporté un éclairage intéressant sur l’origine de cette caractéristique de timbre (Henrich et al. 2006). La figure 2 reprend ces résultats, en présentant la fréquence de la première résonance, R1, en fonction de la hauteur chantée pour toutes les voyelles du bulgare et toutes les hauteurs. Les voyelles pour lesquelles la fréquence de la première résonance est déjà de valeur assez élevée en parole, comme c’est le cas pour /a/, /o/, /œ/ et /e/, sont articulées de telle sorte que la première résonance vient systématiquement renforcer le second harmonique. Ce renforcement, que nous qualifions d’accord phono-résonantiel, est observé en teshka comme en leka, pour toutes les hauteurs chantées. La conséquence de cet accord phono-résonantiel choisi par la chanteuse pour renforcer la prédominance du second harmonique dans son timbre vocal est que la voyelle chantée va s’écarter de la voyelle parlée par le biais de l’adaptation de la première résonance à la note chantée. Nous pouvons observer cet éloignement dans l’espace acoustique fR1-fR2, tel que l’illustre la figure 2. Il est intéressant de noter qu’en langue bulgare, la seconde résonance a plus d’importance que la première dans la discrimination phonétique des voyelles. La chanteuse peut donc adapter la voyelle à la hauteur mélodique sans que cela altère grandement la compréhension du texte chanté. ■ retour au sommaire
Ruptures mélodiques et ornementations:
le yodel et le tahrir
De nombreuses expressions vocales à travers le monde jouent du timbre vocal par une recherche habile et répétée de la rupture mélodique et de la variation de timbre qui l’accompagne (Castellengo 1991 : 155-165).
C’est le cas de toutes les formes de yodel. Citons les pays germanophones alpins (Suisse, Autriche, Bavière), la musique country d'Australie et des Etats-Unis ou encore le yodel des pygmées de Centrafrique. Dans toutes les productions vocales yodlées, l'analyse acoustique permet de mettre en évidence, non seulement la rupture mélodique recherchée par le changement de mécanisme laryngé, mais aussi l'alternance d'amplitude entre les deux premiers harmoniques, provoquée par le changement de voyelle : voyelle ouverte chantée en mécanisme M1 (son grave avec H2 renforcé) et voyelle fermée chantée en mécanisme M2 (son aigu avec H1 renforcé) (Fürniss 1991 : 167-187).
à droite, technique d’ornementation du tahrir iranien par Mohammad Reza Shâjariân (son n°3).
Analyses de haut en bas : sonagramme du signal audio, amplitude du signal audio, signal électroglottographique (EGG) représentant les variations de contact glottique au cours du temps, fréquence fondamentale, quotient de contact (CQ) dérivé de l’EGG représentant le temps de contact rapporté à la durée d’un cycle glottique (0 pas de contact pendant tout le cycle, 1 contact permanent).


La figure 3 (partie gauche) illustre ces ajustements laryngés à travers la mesure du contact glottique et leurs incidences sur le spectre harmonique.
L’art du tahrir persan joue aussi sur l’effet produit par un changement de mécanisme laryngé, mais d’une tout autre manière (Castellengo et al. 2020). La ligne mélodique reste en permanence en mécanisme M1 et l’emprunt au mécanisme M2, trop bref pour donner la sensation d’une « note », est perçu comme une brillante ornementation du chant : le tekye1. Dans les passages de virtuosité, on peut compter jusqu’à six tekye par seconde. L’homogénéité de timbre est renforcée par l’usage assez général de la voyelle /o/ qui renforce l'intensité de l'harmonique H2 sur toute la tessiture, comme illustré sur la figure 3 (partie droite).
Bien que jouant sur les mêmes paramètres laryngés, ces deux techniques de jeu de timbre s'opposent totalement du point de vue musical. L'une accentue les effets de rupture mélodique et vocalique, l'autre transforme l'effet de rupture en ornementation pour l'intégrer dans une esthétique de continuité mélodique et vocalique. ■ retour au sommaire
- Tekye, nom donné à l'ornement : saut et bref emprunt au mécanisme laryngé M2.
Emergence d’une mélodie spectrale en monophonie:
le chant diphonique
Le chant harmonique – ou diphonique – est aujourd’hui bien connu. Il a fait l’objet de nombreuses recherches1 pour expliquer le fait intrigant qu’il est possible de chanter une mélodie alors que la fréquence fondamentale de la voix du chanteur – appelé diphoneur – reste constante. De nombreux artistes pratiquent ce chant « à l’occidentale », avec une voix quasi « pure » en ne sélectionnant qu’une succession d’harmoniques. Or, dans les pays d’origine des Mongols, des Bouriates ou des Touvas, le chercheur découvre une grande diversité de chants et de sonorités vocales2. Tous les diphoneurs sont capables de développer une voix puissante, riche en harmoniques et de tenir le souffle sur une longue durée3. Disposant d’une matière sonore riche, le diphoneur la sculpte en agissant sur les fréquences de résonance du conduit vocal et, en particulier, celles des voyelles qu'il peut contrôler finement pour cibler les notes de sa mélodie, les autres résonances contribuant aux qualités globales de sa voix.
La mélodie diphonique naît donc de l’accord entre un des harmoniques de la source et une des résonances du conduit vocal : c’est une mélodie spectrale (ou mélodie de timbre) qui exige de la part du diphoneur une grande précision dans l’ajustement du geste vocal. Bien que la source vocale soit unique, l’auditeur non averti peut avoir la sensation de deux sources sonores distinctes : un bourdon stable et une mélodie aiguë. Le bourdon peut être discret et la mélodie proche d’un sifflement : c’est la technique aiguë4. Si le diphoneur utilise ses plis vestibulaires en couplage avec ses plis vocaux, le bourdon produit est grave et plus ou moins sonore5. La vibration des plis vestibulaires altère la vibration glottique tous les deux cycles, induisant une période de la source vocale deux fois plus longue et un chant à l’octave basse (Bailly et al. 2010). C’est le phénomène du « doublement de période » ou period-doubling, terme parfois utilisé pour désigner ces « chants de gorge ».
Pour diphoner, il faut habilement coordonner trois gestes complexes : ajuster les résonances du conduit vocal, sélectionner un groupe d’harmoniques aptes à générer une mélodie et choisir la fréquence fondamentale du son laryngé. Les résonances vocaliques – propres à un individu –, sont celles des deux formants F1 et F2 qui varient de façon coordonnée dans une zone assez bien définie, de 200 à 2000 Hz. La série des harmoniques est une donnée acoustique immuable. Du premier (H1) au sixième harmonique (H6), les intervalles entre harmoniques successifs sont respectivement l’octave, la quinte, la quarte, la tierce majeure et la tierce mineure : ceux d'une fanfare. C’est l’octave H6-H12 qui est utilisée comme plage mélodique par la plupart des diphoneurs, car elle renferme une succession d’intervalles proches d’une échelle pentatonique. Il s’agit d’intervalles « naturels » dits zarliniens : une quarte, constituée de deux intervalles proches d'une grande tierce mineure (H6-H7) et d’un grand ton (H7-H8), puis un ton majeur (H8-H9), un ton mineur (H9-H10), et une tierce mineure (H10-H12).
Compte tenu des deux contraintes précédentes, il n’est pas étonnant de constater que la fréquence fondamentale des voix diphoniques se situe, quel qu’en soit le style artistique, aux alentours de deux zones de fréquence : entre 170 et 210 Hz pour la technique aiguë, et entre 60 et 90 Hz pour la technique grave (Castellengo 2014)6.
La figure 4 permet de concrétiser musicalement ces deux solutions. Elle montre, dans sa partie gauche (a), les deux groupes de voyelles disposés sur les portées musicales. Nous voyons (b) que la technique aiguë ne peut s’appuyer que sur la seconde résonance (F2) alors que le chanteur de technique grave dispose des deux zones de résonance vocaliques. Le sonagramme (c) d'un chant aigu montre que le chanteur sélectionne les harmoniques présents dans la zone de F2 qui concentre toute l'énergie ; F1 coïncide avec l'harmonique H2 de la voix et reste stable, ce qui explique l'absence de voyelle perceptible.
Fig. 4 : a) position musicale des voyelles selon leurs formants F1 et F2 ;
b) tessiture des harmoniques utilisés selon le fondamental de la voix; c) chant mongol de style aigu par Taravaj Ganbold (son n°4).

À gauche (a), Vassili Chazir (son n°5) ; au milieu (b), Tumat Kara-ool et Andrei Chuldum-ool (son n°6) ;
à droite (c), chant xhosa. (son n°7).

Khargiraa 1, Vassili Chazir. Source : Voices from the center of Asia, 1990, CD Smithsonian Folkways, piste 18.

Khargiraa 2, Duo Tumat Kara-ool et Andrei Chuldum-ool. Source : Voices from the center of Asia, 1990, CD Smithsonian Folkways, piste 09.

Chant Xhosa, Mme Mbizweni, Dargie. Source : Les voix du monde, CD CNRS, CD-II-36.
Deux réalisations très différentes d’une même mélodie populaire – Artii-Sayiir – sont présentées sur la figure 5. Les formants F1 et F2 sont présents mais contrôlés différemment. En (a), le chanteur choisit et sélectionne un groupe vocalique dont les formants F1 et F2 évoluent en parallèle, à l’octave l’un de l’autre. Il crée ainsi un timbre vocal clair sur un fondamental très grave (61,9 Hz, si0) et la mélodie est très affirmée. En (b), deux chanteurs à l’unisson ont choisi un parti contraire. Sur un fondamental de 74 Hz (ré1), ils sélectionnent prioritairement des voyelles ouvertes de sorte que F2, constamment éloigné de F1 ne perturbe pas l’écoute de la mélodie. En chant diphonique, la présence constante des voyelles enrichit l’écoute des auditeurs qui peuvent, à tout moment, basculer de l'écoute d'une mélodie vocalique à celle d'une mélodie de « notes ».
L’exemple étonnant d’une femme xhosa – virtuose du chant grave en period-doubling –, présenté figure 5 à droite, couronne ce paragraphe (Dargie 1993, Castellengo 2015 : 249). Pour compenser le fait que la fréquence fondamentale de sa voix est trop aiguë pour cibler la bonne tranche harmonique, la chanteuse alterne deux fondamentaux à intervalle d’un ton, 110 et 124 Hz (la1 et si1), et développe la mélodie avec les harmoniques de rang 3 à 6, renforcés à l’octave par le choix du groupe des voyelles /a/ et /o/. Cette technique s’inspire du jeu de l’arc musical.
La sélection harmonique est au cœur de la pratique du chant diphonique qui n’est ni une illusion perceptive ni une mélodie purement spectrale et suscite bien des ambiguïtés. À la première écoute, la plupart des musiciens de culture occidentale captent immédiatement la « note » fondamentale de la voix chantée, ce qui leur suffit. Certains s’intéressent aussi aux variations sonores qui se produisent dans l’aigu de la voix. Dans tous les cas, un long moment d’écoute, et la connaissance qu’il s’y trouve une mélodie sont nécessaires pour soudainement la percevoir et prendre plaisir à découvrir l’immense variété de timbres des productions diphoniques. ■ retour au sommaire
- Par exemple Hugo Zemp et Tran Quang Hai 1991.
- Une étude approfondie des styles et techniques vocales d’un groupe de diphoneurs natifs de Mongolie est en cours (Curtet et al. 2021). Dans le cadre de cet article, nous faisons le choix de regrouper des productions diphonées issues de cultures diverses.
- Les diphoneurs Mongols s’entraînent face à un vent violent ou au pied d’une grande cascade (Curtet 2013).
- Technique désignée par les termes khöömii, sygyt ou nariin selon les cultures.
- Technique désignée par les termes khargiraa ou budun selon les cultures.
- Ces résultats ont été calculés sur 18 chanteurs d’origines diverses : 11 en style grave et 7 en style aigu.
Emergence d’une mélodie spectrale en polyphonie:
cas de la quintina d’un chant liturgique sarde, le «jesu»
Le phénomène perceptif connu sous le nom de quintina est un chant religieux de Sardaigne – le jesu – richement documenté par Bernard Lortat-Jacob (Lortat-Jacob 1998), au cours duquel il est possible d'entendre une voix aiguë qui couronne la polyphonie, deux octaves au-dessus de celle du bassu. S'agit-il d'une illusion ? Le phénomène perceptif qui sous-tend la perception d'une « note » musicale dépourvue d'énergie sur la fréquence fondamentale1 est connu en acoustique (Castellengo 2015 : 116, 157) sous le nom de « résidu » ou « son résultant » (Terhardt 1982). Il correspond au codage temporel de la hauteur tonale des sons musicaux2. Seul un travail de filtrage puis de synthèse avec les sons prélevés dans l'enregistrement original nous a permis de démêler et de confirmer les hypothèses perceptives dans le cas exceptionnel d'une polyphonie vocale.
Fig. 6 : a) phrase musicale du son n° 8a ; b) étapes de l'expérience de filtrage et de resynthèse de la voix créée par deux harmoniques
accordés aux résonances vocaliques d'un « a »; son n° 8b (1 à 6).

Quintina, chanteurs de Castelsardo, première phrase du jesu. Source : Lortat-Jacob, CD du livre Chants de Passion, 1998.

Expériences de filtrages et de recombinaisons des deux fréquences qui génèrent la cinquième voix; Castellengo 2001 et 2015.
Écoutons le début du chant (son n° 8a, fig. 6a). Fasciné par la beauté des quatre voix et par la plénitude sonore de la polyphonie, l'auditeur entend rarement la quintinad'emblée mais l'expérience suivante sur un accord extrait du chant (son n° 8b, fig. 6b) en révèle l'existence en cours d'écoute : (1) accord normal ; (2) accord privé de deux fréquences ; (3) réentrée des deux fréquences au milieu de l'accord ; (4) les deux fréquences filtrées isolées qui correspondent à la voix de la quintina ; (5) écoutés isolément, les deux sons extraits de l’enregistrement se succèdent comme deux sons purs de fréquence instable (819,9 Hz et 1230 Hz). Écoutés simultanément (6), nous pouvons avoir la surprise d’entendre une voix féminine chantant un [a] à 409,9 Hz3, soit un la4 ! Au regard de l’ensemble des quatre chanteurs qui comptabilisent un très grand nombre d'harmoniques4, seuls deux harmoniques suffisent pour évoquer une cinquième voix qui disparaît lorsqu’on supprime l'un d'eux !
Il s'agit d'un « jeu » formantique avec les résonances des voyelles. Chaque auditeur pourra remarquer que la deuxième voyelle du Jesu chanté est intermédiaire entre un [a] et un [o] très ouvert, mais en aucune manière un « ou » ([u])4 ! Parmi les confréries de Sardaigne seules quelques-unes – dont celle de Castelsardo – parviennent à créer les conditions d'un timbre vocal particulier pour faire émerger la voix de la quintina. Il leur faut conjuguer strictement des conditions très particulières (Castellengo 2015 : 467-471) : que les quatre chanteurs aient des voix riches en harmoniques, stables et sans vibrato ; qu'ils utilisent certaines voyelles dont ils ajustent les formants F1 et F2 à l'oreille ; que le bassu, qui supporte l'harmonie, choisisse sa note aux alentours de 100 Hz afin que les harmoniques 2 et 3 du son résultant se situent dans la zone de fréquence dite « dominante » ; et enfin que les voix fusionnent selon une échelle quasi-harmonique en se calant sur les intervalles naturels, sans battement. Tous les auditeurs n'entendent pas la cinquième voix à la première écoute, mais dès que le phénomène est repéré, il ne les lâche plus. Cet art du timbre vocalique qui suggère « une voix qui n'existe pas » étonne d'autant plus que le spectre harmonique des chanteurs est extrêmement dense et que seuls deux harmoniques suffisent à la faire apparaître. ■ retour au sommaire
- Par exemple un sol2, 200 Hz, entendu lors de la présentation des seuls harmoniques 2 et 3, sol3 et ré3 (400 et 600 Hz).
- Par opposition au codage tonotopique de la hauteur spectrale.
- Soit un lab3 bas d'un quart de ton.
- De l'ordre de 200 rien que pour la voix de bassu !
- Voir Lortat-Jacob (1998 : 129) pour une analyse des modifications des mêmes voyelles parlées et chantées.
Registration vocalique des chanteurs d'une polyphonie Aka
La musique des pygmées Aka est essentiellement vocale et polyphonique. La structure musicale des chants, de type périodique, s'inscrit dans un rythme complexe et rigoureux. À l'ordinaire, un chanteur lance un incipit, développe des variations et rapidement le groupe entier des chanteurs présents se partage les différentes parties de la polyphonie, purement vocalique, qui peut compter jusqu'à huit parties. Pour démêler la complexité sonore de ces polyphonies et en comprendre la structure intervallique, Simha Arom a utilisé la technique du re-recording (Arom 1976). Lors de l'analyse sonagraphique des voix isolées nous avons eu la surprise de découvrir que chaque chanteur adoptait un choix de voyelles – principalement /u/, /a/, /o/, /e/, /ɛ/ – et qu'il s'y tenait strictement du début à la fin du chant, ce qui peut sembler paradoxal au regard de l'habileté des chanteurs Aka à varier et à complexifier leur partie.
Fig. 7 : analyse spectrale de chacune des voix d'un chant polyphonique des Pygmées Aka (son n° 9).

L'analyse de deux périodes pour chaque partie présentée sur la figure 7 met en évidence le rôle des voyelles dans le suivi précis de certains harmoniques : H1-H2 (A ; D) ; H1-H2-H3 (E) ; H1-H2-H5 (B) ; H1-H2-H6 (F) ; l'alternance H1-H5 et H1-H3-H4 (C). Le yodel des deux diyei (G et H) impose l'alternance H1 ou H2.
Nous n'avons pas d'indications sur ces choix de voyelles ni sur le sens que les Aka donnent à cette pratique remarquable1.■ retour au sommaire
- La stratégie que les chanteurs Aka développent spontanément évoque celle des polyphonies instrumentales traditionnelles dont les parties, loin de fusionner, affirment clairement leur indépendance, tant mélodique que rythmique.
Un art du timbre vocalique:
la polyphonie Bunun du pasi but but
Le pasi but but – chant de prière pour une récolte abondante du millet – qui est pratiqué une fois par an par les Bunun aborigènes de Taïwan a fait l’objet d’une étude approfondie (Wu 1996 : 180-248). Ce chant représente une forme musicale unique, associant mouvements mélodiques en glissando et entrée des voix par paliers successifs (cf. Discographie, CD Voix III-06). C’est aussi un chant particulièrement raffiné du point de vue des timbres vocaliques, c’est pourquoi nous l’avons retenu dans ce travail. La version que nous présentons provient de Naifubo (1987), un « village reconnu comme celui entre tous où l’on chante le pasi but but de la façon la plus proche de l’archétype » (Wu 1996 : 252). Avant de poursuivre, nous recommandons d'écouter l'exemple sonore (n° 10).
Fig. 8 : sonagramme du chant de pasi but but avec indications des entrées des voix et représentation musicale de la position
des formants vocaliques pour les quatre voix de la polyphonie Bunun (Castellengo 2015 : 461) (son n°10).

Le choix des tessitures et des voyelles témoigne d’une exceptionnelle sensibilité à l’équilibre spectral de la polyphonie, comme le montre l’analyse spectrographique de la figure 8. La voix supérieure (v1) qui est la plus importante, est chantée avec la voyelle /o/ par trois hommes qui se relaient pour que le son soit continu sur toute la durée du chant (3’35), tout en effectuant une montée insensible de la hauteur (de 192 à 255 Hz soit une quarte, pour cet exemple). Les autres voix s’insèrent selon une succession descendante, en empruntant d’autres voyelles1 : v2 (un homme) à la tierce inférieure de v1, voyelle /e/ ; v3 (deux hommes) un ton plus bas que v2, voyelle /e/ ; v4 (deux hommes) un ton plus bas que v3, voyelle /i/. Puis un nouveau cycle s’effectue en progressant insensiblement vers l’aigu et le chant se termine sur une quinte pure par l’accomplissement du sixième cycle dit de « la plus pleine lune ».
Voici maintenant la description du jeu vocalique entre voyelles ouvertes et voyelles fermées (figure 8). L'important renforcement des harmoniques H2 et H4 de la voix 1, visibles sur le sonagramme, correspond aux deux zones de résonance – F1 et F2 – de la voyelle /o/, soit environ 400 et 800 Hz (pour une voix d’homme). Pour les voix 2, 3 et 4, c'est aussi l’harmonique H2 qui est renforcé par F1. Cependant /ɛ/, /e/ et /i/ étant des voyelles fermées, le deuxième formant F2 est supérieur à 2 kHz. Les autres harmoniques de ces voix sont faibles et n’interfèrent pas avec la voix supérieure qui reste dominante. Enfin, pour que la plénitude sonore de ce chant rituel s’accomplisse sur l’accord terminal, les Bunun doivent décider soigneusement de la fréquence initiale2 et adapter finement leur voyelle au cours de la progression vers l’aigu, pour rester en accord avec les formants vocaliques. ■ retour au sommaire
- Les Bunun ont des termes propres pour qualifier le « timbre » des voix (Wu 1996 : 220).
- Le choix de la note initiale est de la responsabilité d'un chamane qui est aussi le meneur du chant (Wu 1996 : 219-223).
Nathalie Henrich Bernardoni et Michèle Castellengo
Mise en ligne : décembre 2021
Tous droits réservés © Michèle Castellengo et Nathalie Henrich Bernardoni / ADEM Genève / Colophon - 2021. |