L’enveloppe temporelle (ENV) et la structure temporelle fine (TFS) sont des variations d’amplitude et de fréquence dans les sons. Ces fluctuations temporelles sont responsables de nombreux aspects de la perception auditive, notamment la perception de la sonie, de la hauteur et du timbre, et la localisation sonore.
Lorsqu’ils sont traités par le système auditif périphérique, les sons sont décomposés sur un ensemble de bandes fréquentielles. Les signaux à bande étroite résultants véhiculent de l’information à différentes échelles de temps, allant de moins d’une milliseconde à plusieurs centaines de millisecondes[1],[2],[3],[4],[5],[6],[7]. Une séparation entre l’enveloppe temporelle (les fluctuations lentes) et la structure temporelle fine (les fluctuations rapides) dans chaque bande de fréquence a été proposée pour expliquer différents aspects de la perception auditive. Une série d’études psychophysiques, électrophysiologies et computationnelles basées sur cette dichotomie enveloppe temporelle / structure temporelle fine ont examiné le rôle de ces indices temporels dans l’identification de sons et la communication, comment ces indices sont traités par le système auditif central et périphérique, ainsi que l’effet du vieillissement et des dommages cochléaires sur ce traitement. Bien que cette dichotomie soit encore débattue et que la question de l’encodage de ces indices par le système auditif reste ouverte, ces études ont donné lieu à un certain nombre d’applications dans des champs incluant le traitement de la parole, l’audiologie clinique, et la correction des surdités de perception au moyen d’implants cochléaires et de prothèses auditives.
Définition
Les termes d’enveloppe temporelle et de structure temporelle fine peuvent recouvrir des notions différentes selon les études. Une distinction importante porte sur la différence entre les descriptions physique (c.-à-d. acoustique) et biologique (ou perceptuelle) de ces caractéristiques.
Tout son couvrant une bande de fréquences limitée (signal à bande étroite) peut être décrit comme une enveloppe (ENVp, où p indique le signal physique) modulant une porteuse oscillant rapidement, la structure temporelle fine (TFSp)[8].
Dans la vie courante, la plupart des sons, notamment les sons de parole et la musique, sont large bande : ils sont distribués sur tout le spectre des fréquences, et il n’existe pas de façon bien définie de représenter le signal en termes d’ENVp et TFSp. Cependant, dans la cochlée fonctionnelle, les sons sont décomposés par la membrane basilaire en une série de signaux à bande étroite[9]. Ainsi, la vibration de chaque cellule ciliée peut-elle être considérée comme une enveloppe ENVBM superposée à une structure temporelle fine TFSBM[10]. Ces composantes dépendent de la position considérée le long de la membrane basilaire (BM). Au niveau de l’apex, répondant aux fréquences basses, les fluctuations d’ENVBM et TFSBM sont relativement lentes, tandis qu’elles sont les plus rapides à l’extrémité basale répondant aux fréquences hautes[10].
Grâce à la transduction mécanoélectrique effectuée par les cellules ciliées, ENVBM et TFSBM sont tous deux transmis par le nerf auditif, sous la forme de potentiels d'action[11], donnant naissance à ENVn et TFSn. TFSn (la TFS neurale) est encodée principalement par les neurones accordés sur les fréquences audio basses. Au contraire, ENVn (l'enveloppe neurale) est encodée principalement dans les neurones accordés sur les fréquences audio élevées[12],[13]. Dans un signal à large bande, il n’est pas possible de manipuler TFSn sans affecter ENVBM et ENVn et, inversement, il n’est pas possible de manipuler ENVn sans affecter TFSBM et TFSn[14],[15].
Rôles pour la perception de la parole et de la musique
L’ENVp joue un rôle crucial dans de nombreux aspects de la perception auditive, notamment pour la perception des sons de parole et de la musique [2],[7],[16],[17]. Ainsi un son de parole reste-t-il intelligible dans une certaine mesure même lorsque l’information de TFSp qu’il contient est artificiellement supprimée [18]. De même, lorsque la TFSp d’une première phrase est combinée avec l’ENVp d’une seconde, seuls les mots de la seconde phrase sont compris [19]. Les composantes de l’ENVp les plus importantes pour la compréhension de la parole fluctuent à des cadences inférieures à 16 Hz (ce qui correspond à peu près au rythme des syllabes) [20],[21],[22].
Le traitement de l’information de TFSp joue un rôle dans la perception de la hauteur des sons, une capacité importante pour la perception de la musique mais aussi pour la perception de la parole, puisqu’elle contribue à la prosodie de la voix. Ainsi les indices de TFSp sont-ils importants pour l’identification du locuteur, et de ses émotions et intention, transmises par la prosodie [4]. Dans les langues à ton, ils ont également un rôle fondamental pour la transmission du contenu phonétique [23]. De plus, plusieurs études basées sur des sons de parole vocodés ont suggéré que les indices de TFSp contribuent à l’intelligibilité [24]. Bien qu’il soit difficile sinon impossible d’isoler l’effet de la TFSp de celui de l’ENVp[17],[25], certaines études menées sur des auditeurs malentendants indiquent que la perception de la parole en présence d’un bruit de fond nécessite un traitement efficace de la TFSp[26],[27].
Dans le cas de la musique, les variations lentes de l’ENVp transmettent les informations de rythme et de tempo tandis que les variations plus rapides véhiculent les informations d’attaque et de coupure des sons, importantes pour la perception du timbre [28].
↑ a et bRosen S, « Temporal information in speech: acoustic, auditory and linguistic aspects », Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences, vol. 336, no 1278, , p. 367–73 (PMID1354376, DOI10.1098/rstb.1992.0070)
↑Drullman R, « Temporal envelope and fine structure cues for speech intelligibility », The Journal of the Acoustical Society of America, vol. 97, no 1, , p. 585–92 (PMID7860835)
↑ a et bMoore BC, « The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people », Journal of the Association for Research in Otolaryngology, vol. 9, no 4, , p. 399–406 (PMID18855069, PMCID2580810, DOI10.1007/s10162-008-0143-x)
↑De Boer E, « Pitch of inharmonic signals », Nature, vol. 178, no 4532, , p. 535–6 (PMID13358790)
↑F. G. Zeng, K. Nie, S. Liu, G. Stickney, E. Del Rio, Y. Y. Kong et H. Chen, « On the dichotomy in auditory perception between temporal envelope and fine structure cues », The Journal of the Acoustical Society of America, vol. 116, no 3, , p. 1351–4 (PMID15478399)
↑ a et bReinier Plomp, « Perception of speech as a modulated signal », Proceedings of the 10th International Congress of Phonetic Sciences, Utrecht, , p. 19–40
↑David Hilbert (University of California Libraries), Grundzüge einer allgemeinen theorie der linearen integralgleichungen, Leipzig, B. G. Teubner, (lire en ligne)
↑ a et bBrian C. J. Moore, Auditory Processing of Temporal Fine Structure: Effects of Age and Hearing Loss, New Jersey, World Scientific Publishing Company, (ISBN9789814579650, lire en ligne)
↑P. X. Joris, D. H. Louage, L. Cardoen et M. van der Heijden, « Correlation index: a new metric to quantify temporal coding », Hearing Research, vol. 216-217, , p. 19–30 (PMID16644160, DOI10.1016/j.heares.2006.03.010)
↑P. X. Joris, D. H. Louage, L. Cardoen et M. van der Heijden, « Correlation index: a new metric to quantify temporal coding », Hearing Research, vol. 216-217, , p. 19–30 (PMID16644160, DOI10.1016/j.heares.2006.03.010)
↑M. G. Heinz et J. Swaminathan, « Quantifying envelope and fine-structure coding in auditory nerve responses to chimaeric speech », Journal of the Association for Research in Otolaryngology, vol. 10, no 3, , p. 407–23 (PMID19365691, PMCID3084379, DOI10.1007/s10162-009-0169-8)
↑Peter L. Søndergaard, Rémi Decorsière et Torsten Dau, « On the relationship between multi-channel envelope and temporal fine structure », Proceedings of the International Symposium on Auditory and Audiological Research, vol. 3, , p. 363–370 (lire en ligne)
↑S. Shamma et C. Lorenzi, « On the balance of envelope and temporal fine structure in the encoding of speech in the early auditory system », The Journal of the Acoustical Society of America, vol. 133, no 5, , p. 2818–33 (PMID23654388, PMCID3663870, DOI10.1121/1.4795783)
↑D. J. Van Tasell, S. D. Soli, V. M. Kirby et G. P. Widin, « Speech waveform envelope cues for consonant recognition », The Journal of the Acoustical Society of America, vol. 82, no 4, , p. 1152–1161 (ISSN0001-4966, PMID3680774, lire en ligne, consulté le )
↑ a et bO. Ghitza, « On the upper cutoff frequency of the auditory critical-band envelope detectors in the context of speech perception », The Journal of the Acoustical Society of America, vol. 110, no 3 Pt 1, , p. 1628–1640 (ISSN0001-4966, PMID11572372, lire en ligne, consulté le )
↑R. V. Shannon, F. G. Zeng, V. Kamath et J. Wygonski, « Speech recognition with primarily temporal cues », Science (New York, N.Y.), vol. 270, no 5234, , p. 303–304 (ISSN0036-8075, PMID7569981, lire en ligne, consulté le )
↑R. Drullman, J. M. Festen et R. Plomp, « Effect of temporal envelope smearing on speech reception », The Journal of the Acoustical Society of America, vol. 95, no 2, , p. 1053–1064 (ISSN0001-4966, PMID8132899, lire en ligne, consulté le )
↑Léo Varnet, Maria Clemencia Ortiz-Barajas, Ramón Guevara Erra et Judit Gervain, « A cross-linguistic study of speech modulation spectra », The Journal of the Acoustical Society of America, vol. 142, no 4, , p. 1976 (ISSN1520-8524, PMID29092595, DOI10.1121/1.5006179, lire en ligne, consulté le )
↑Nandini C. Singh et Frédéric E. Theunissen, « Modulation spectra of natural sounds and ethological theories of auditory processing », The Journal of the Acoustical Society of America, vol. 114, no 6 Pt 1, , p. 3394–3411 (ISSN0001-4966, PMID14714819, lire en ligne, consulté le )
↑Fan-Gang Zeng, Kaibao Nie, Ginger S. Stickney et Ying-Yee Kong, « Speech recognition with amplitude and frequency modulations », Proceedings of the National Academy of Sciences of the United States of America, vol. 102, no 7, , p. 2293–2298 (ISSN0027-8424, PMID15677723, PMCIDPMC546014, DOI10.1073/pnas.0406460102, lire en ligne, consulté le )
↑Christian Lorenzi, Gaëtan Gilbert, Héloïse Carn et Stéphane Garnier, « Speech perception problems of the hearing impaired reflect inability to use temporal fine structure », Proceedings of the National Academy of Sciences of the United States of America, vol. 103, no 49, , p. 18866–18869 (ISSN0027-8424, PMID17116863, PMCIDPMC1693753, DOI10.1073/pnas.0607364103, lire en ligne, consulté le )
↑Frédéric Apoux, Sarah E. Yoho, Carla L. Youngdahl et Eric W. Healy, « Role and relative contribution of temporal envelope and fine structure cues in sentence recognition by normal-hearing listeners », The Journal of the Acoustical Society of America, vol. 134, no 3, , p. 2205–2212 (ISSN1520-8524, PMID23967950, PMCIDPMC3765279, DOI10.1121/1.4816413, lire en ligne, consulté le )
↑Olaf Strelcyk et Torsten Dau, « Relations between frequency selectivity, temporal fine-structure processing, and speech reception in impaired hearing », The Journal of the Acoustical Society of America, vol. 125, no 5, , p. 3328–3345 (ISSN1520-8524, PMID19425674, DOI10.1121/1.3097469, lire en ligne, consulté le )
↑Kathryn Hopkins et Brian C. J. Moore, « The effects of age and cochlear hearing loss on temporal fine structure sensitivity, frequency selectivity, and speech reception in noise », The Journal of the Acoustical Society of America, vol. 130, no 1, , p. 334–349 (ISSN1520-8524, PMID21786903, DOI10.1121/1.3585848, lire en ligne, consulté le )
↑P. Iverson et C. L. Krumhansl, « Isolating the dynamic attributes of musical timbre », The Journal of the Acoustical Society of America, vol. 94, no 5, , p. 2595–2603 (ISSN0001-4966, PMID8270737, lire en ligne, consulté le )