Research 研究・産学官民連携

劣化音声の知覚的修復:音声の断片をつなぎ合わせて意味のあるまとまりにする聴覚の働きとその限界

芸術工学研究院 研究紹介

劣化音声の知覚的修復:音声の断片をつなぎ合わせて意味のあるまとまりにする聴覚の働きとその限界

芸術工学研究院 音響設計部門
准教授 上田和夫

日常生活において、次のような状況に遭遇することはよくあるでしょう。すなわち、他の音に半分埋もれたようになっている標的音声を聴きとらなければならないような状況です。このような状況を、視覚刺激を例にとって説明してみましょう。それぞれの文字の約半分が削除されるような状況では、何が書いてあるのかを読み取るのはとても難しくなると思います(図 1)。ところが、削除されて空白になるのではなく、黒い棒で覆い隠された場合は(図 2)、いくらか見え方がましになるはずです。手前にある物体が、奥にある物体の一部を隠して見えなくするような状況は、我々にとっては日常茶飯事です。脳は可能であれば隠された部分を自動的に復元します。類似した例は聴覚でも知られており(雑音によって音声が断続されるような場合)、「垣根効果」と呼ばれています (Miller and Licklider, 1950)。ただし、視覚刺激の横軸を聴覚刺激では時間に変換しなければならないこと、そのために横軸の性質が視覚と聴覚とでは異なることに注意が必要です。

図 1. 断続された日本語文の例。ひらがな一文字の約半分が削除されています。このようになるととても読みにくいはずです。原文は黒木 (2021) による。

図 2. 図 1 と同じ文を同じ幅と間隔の黒い棒で断続的に遮蔽した例。こちらも読みにくいが、図 1 よりはいくらかましに感じるでしょう。原文は黒木 (2021) による。

視覚の例に戻ると、断続や遮蔽が横軸方向だけでなく、縦軸方向でも行われたとしたらどうでしょうか。市松模様による断続と遮蔽の例を図 3 および 4 に示しました。これらの例もとても読みにくいだろうと思います。しかし、市松模様による断続と遮蔽は、市松模様の大きさによって大きく結果が変わってくるであろうことは容易に想像できます。聴覚刺激の場合、視覚刺激の横軸に相当するものは時間、縦軸に相当するものは周波数になります(図 5)。ところが軸の性質が異なるため、視覚の例だけから聴覚の場合、どのようになるのかを類推することはできません。そこで我々は意味のある文を使って、区間長と周波数帯域数とを変化させ、市松音声刺激の了解度を系統的に調べる実験を初めて行いました(図 6; Ueda et al., 2021)。結果は驚くべきものでした(図 7)。周波数軸を 20 の周波数帯域に分割した場合、市松音声の了解度は区間長にかかわらず、常に完璧でした。しかし、周波数軸を 2 ないし 4 帯域 (Ueda and Nakajima, 2017) に分割した場合、了解度は全体に同じ区間長の断続音声の了解度よりも低くなり、区間長 160 ミリ秒で了解度が最低となりました。この結果は、我々の聴覚が音声の断片を一つにまとめ上げる能力と密接に関係しています。

図 3. こちらは市松模様で削除した例です。全体の約半分の面積が削除されている点は図 1 と同じです。市松模様の大きさによって、読み取りやすさが大きく影響されることは容易に想像できます。原文は黒木 (2021) による。

図 4. 図 3 と同じ大きさの市松模様で断続的に遮蔽した例。原文は黒木 (2021) による。

図 5. Ueda, Kawakami, and Takeichi (2021) が用いた刺激をスペクトログラム表示した例。色の濃さによって、エネルギーが集中している度合を表しています。(a) 原音声、(b) 区間長 80 ミリ秒で断続した音声刺激、(c) 4 帯域、区間長 80 ミリ秒の市松音声刺激、(d) モザイク化された市松音声刺激(モザイク化とは区画ごとに平均パワーを求め、それにしたがって区画を雑音で埋めること)。Ueda et al. (2021) より引用。

図 6. 防音室内の様子。九州大学五感応用デバイス研究開発センターのご厚意により提供された写真。

図 7. Ueda et al. (2021) の実験結果。断続音声刺激と市松音声刺激について得られた平均モーラ正答率 (n = 20) を区間長と帯域数の関数として表示しています。「モーラ」は日本語における音節に相当する単位。エラーバーは標準誤差を示す。Ueda et al. (2021) による。

音声の高さは音声の断片をつなぎ合わせる手がかりとなることが知られています (Apoux and Healy, 2013; Clarke, Başkent, and Gaudrain, 2016)。そのような音の高さの手がかりがモザイク化 (Nakajima et al., 2018; Eguchi et al., 2022) によって取り除かれると(モザイク化とは区画ごとに平均パワーを求め、それにしたがって区画を雑音で埋めること;図 8b)、断続されたモザイク音声(図 8c)の了解度は急激に低下します (Ueda et al., 2021; Ueda et al., 2022)。しかし、そのように低下した断続モザイク音声の了解度を、モザイク音声区間を伸張し、空白を縮小することにより(図 8d,e)取り戻すことができます(図 9; Ueda et al., 2022)。このような了解度の回復は、ゲシタルト原理の一つである近接の原理によって聴覚体制化が行われることによりもたらされるのではないかと我々は考えています。このような研究により、我々の聴覚系が様々な妨害要因にもかかわらず音声の断片をうまくまとめあげ、聴きとることができるしくみについて調べています。

図 8. Ueda, Takeichi, and Wakamiya (2022) が用いた刺激のスペクトログラムの例。(a) 原音声、(b) 4 帯域(通過帯域50-570, 570-1600, 1600-3400, 3400-7000 Hz)および区間長 40 ミリ秒(コサインの平方根による 5 ミリ秒の立ち上がりと立ち下がりとを含む)、(c) 断続モザイク音声、(d) 音声区間を 1.5 倍に伸張し、空白を 0.5 倍に縮めた断続伸張モザイク音声、(d) 音声区間を 2 倍に伸張し、空白を削除した断続伸張モザイク音声。Ueda et al. (2022) による。

図 9. 伸張前の区間長 20 ミリ秒のモザイク音声について、モーラ正答率のパーセント表示を伸張率と周波数帯域数の関数として表示 (n = 12)。Ueda et al. (2022) による。

文献

▪Apoux, F., & Healy, E. W. (2013). A Glimpsing Account of the Role of Temporal Fine Structure Information in Speech Recognition. In B. C. J. Moore, R. D. Patterson, I. M. Winter, R. P. Carlyon, & H. E. Gockel (Eds.), Basic Aspects of Hearing: Physiology and Perception (Vol. 787, pp. 119-126). New York, NY.: Springer.

▪Clarke, J., Başkent, D., & Gaudrain, E. (2016). Pitch and spectral resolution: A systematic comparison of bottom-up cues for top-down repair of degraded speech. The Journal of the Acoustical Society of America, 139(1), 395-405. doi:10.1121/1.4939962

▪Eguchi, H., Ueda, K., Remijn, G. B., Nakajima, Y., & Takeichi, H. (2022). The common limitations in auditory temporal processing for Mandarin Chinese and Japanese. Scientific Reports, 12(1), 3002. doi:10.1038/s41598-022-06925-x

▪黒木登志夫. (2021). 知的文章術入門. 東京: 岩波書店.

▪Miller, G. A., & Licklider, J. C. R. (1950). The intelligibility of interrupted speech. The Journal of the Acoustical Society of America, 22(2), 167-173. doi:10.1121/1.1906584

▪Nakajima, Y., Matsuda, M., Ueda, K., & Remijn, G. B. (2018). Temporal resolution needed for auditory communication: Measurement with mosaic speech. Frontiers in Human Neuroscience, 12, 149. doi:10.3389/fnhum.2018.00149

▪Ueda, K., & Nakajima, Y. (2017). An acoustic key to eight languages/dialects: Factor analyses of critical-band-filtered speech. Scientific Reports, 7(42468), 1--4. doi:10.1038/srep42468

▪Ueda, K., Kawakami, R., & Takeichi, H. (2021). Checkerboard speech vs interrupted speech: Effects of spectrotemporal segmentation on intelligibility. JASA Express Letters, 1(7), 075204. doi:10.1121/10.0005600

▪Ueda, K., Takeichi, H., & Wakamiya, K. (2022). Auditory grouping is necessary to understand interrupted mosaic speech stimuli. The Journal of the Acoustical Society of America, 152(2), 970-980. doi:10.1121/10.0013425

ウェブサイト

■お問合せ先

芸術工学研究院 音響設計部門
准教授 上田和夫