AIで創る音声コミュニケーションの将来技術

芸術工学研究院研究紹介

芸術工学研究院　コミュニケーションデザイン科学部門
兼　応用知覚科学研究センター
教授　鏑木時彦

　我々は、「音」に囲まれて生活しています。人は、耳で聞いた音をリアルタイムで処理して、その中から意味のある情報を取り出すことができます。この即時的な情報処理のおかげで、我々は「音」を通して極めて効率の良いコミュニケーションを行うことができます。その最たるものは話し言葉（音声）であり、言葉の意味をはじめとして、感情や話者の個人性など、音声はさまざまな情報を同時に、かつ即時的に、聞き手に伝える働きを持っています。

　私の研究室では、人の音声コミュニケーションの成り立ちを、主として情報を発信する発話者の観点から研究しています。音声の発話には、我々の身体のメカニズム、特に口、喉、肺といった呼吸系が深く関係しています。研究室では、人の発話メカニズムを理解するために、口や喉の様子を観測したり、数理モデルとして表現したりすることに力点をおいてきました。言葉を話す上で、口（唇、舌、下顎、軟口蓋など）の動きは非常に重要ですが、舌や軟口蓋の動きを外部から直接観察することは困難です。研究室では、これらの音声器官の動きを3次元的に測定するための磁気センサーを開発し、研究に役立てています（図1）。音声器官の運動計測に特化したモーションキャプチャシステムとしては、国内有数のものになります。

図1: 音声器官の動きを3次元的に測定するための磁気センサー

　また近年は、「音」を通した韻律的なコミュニケーションにも研究対象を広げており、さまざまなスタイルの歌唱発声や、管楽器と演奏者の間のインタラクションについても研究しています。図2に示すように、MRI（磁気共鳴画像）では、身体の内部を任意の断面で画像化できます。サキソフォンのオーバートーン奏法は、キーを押さずにピッチを変化させるもので、この奏法では演奏者が自分自身の口腔の形や音響特性を能動的に調整していることがわかりました。楽器の演奏法の習得は、聴覚フィードバック、すなわち人の運動系と聴覚系のインタラクションに基づいて行われることが多いと考えられますが、この研究成果は経験的に行われる楽器の演奏に対して科学的根拠を与えるものです。

図2: MRIによるサキソフォン奏者の声道の断面画像

　以下では、特に、AI（人工知能）、すなわち機械学習（深層学習）を用いた現在進行形の研究をご紹介します。

AIを用いた病的発声の自動評価

　近年、AIの医療応用が急速に進展しつつあります。例えば、画像診断支援においては、CT、MRI、内視鏡などの画像上でAIが自動的に異常箇所を指摘するなど、病気の有無や進行の把握を支援する技術開発が広く行われています。研究室では、医師や言語聴覚士が病的発声（嗄声）の聴覚的印象を数値的に表す際に用いるGRBAS尺度(下記注を参照)を対象として、各項目の評点を患者の音声からAIを用いて自動的に付与する研究を行っています。このような情報処理システムは、医療機関への支援技術としてだけでなく、疾患のスクリーニングや早期発見にも役立つと期待されます。本研究は、本学医学研究院耳鼻咽喉科学教室との連携に基づいて行われています。

AIを用いた音声合成による代用発声技術

　癌などの疾患により喉頭を摘出した場合、声を出すことができなくなり、日常のコミュニケーションに大きな支障をきたします。そのような場合の代用発声法としては、電気式人工喉頭、食道発声、シャント発声などが一般に用いられますが、それぞれ、抑揚のない不自然な声になる、習得が難しい、定期的に高額な手術が必要になるなどの問題があります。本研究では、喉頭疾患では口腔の音声器官は影響を受けないことから、口の動きから、いわば「口パク」だけで音声が合成される情報処理システムを研究しています。

　図3は、磁気センサーで測定した音声器官の運動パタン、合成した音声のスペクトログラムと、同じ文章を実際に人が発話した時の音声スペクトログラムです。合成音声を生成するには、口腔の音響特性と音声の音源情報（声の高さ、大きさ、有声と無声の区別など）を何らかの形で合成音に反映させることが必要ですが、「口パク」音声合成の難しさは、音声器官の運動と音声の音源情報との間には、直接的な因果関係がほとんど存在しないことにあります。本研究では、音声器官の運動の中長期的な時系列情報をディープニューラルネットワークに構造的に取り込むことによって、この問題に対処しています。AIを用いることで合成音の柔軟な制御が可能になるため、最終的には喉頭摘出者がもとの自分自身の声質で音声を合成できるようにすることを目標にしています。

図3: 磁気センサーで測定した音声器官の運動パタン（左）から合成した音声のスペクトログラム（中央）、同じ文章を人が発話した時の音声スペクトログラム（右）。

注）GRBAS尺度
嗄声の聴覚心理学的検査法の一種で、総合的な嗄声度を表すgrade、声の粗さを表すrough、気息性を表すbreathy、無力性を表すasthenic、努力性を表すstrainedの各項目について4段階で評価する。

■お問い合わせ先
芸術工学研究院　コミュニケーションデザイン科学部門　教授　鏑木時彦

Attention

AIで創る音声コミュニケーションの将来技術

芸術工学研究院 研究紹介