今、誰の声を聞いているのかが脳画像で分かる

加齢によって難聴や単語認識の低下だけでなく「誰が話しているか」も判別しづらくなる

歳を重ねると誰しも徐々に難聴になっていきます。単に聞こえづらいだけでなく、単語そのものの認識能力も低下します。

しかし、それだけではありません。2024年のVirginia Bestらの研究で、加齢(及び難聴)によって複数人で会話していて話者が切り替わった際、「誰が話をしているか」について追従する能力も低下していることが分かりました。

「脳から言葉を読む」が主流だった

人間が言葉を聞くという点においては、脳画像から「言葉」を読み取るという研究が主流でした。

例えば2025年のNature Communicationsに掲載された論文では、723人・3言語・500万語という膨大なデータを用いて、脳波(EEG)や脳磁図(MEG)から頭の中にある言葉を推測するモデルを構築しました。

その結果、音を聞いている時よりも「文字を読んでいる」時の方が精度が高いという結果になりました。

音を聞いている時は「音声上の単語の切れ目」が曖昧なので、脳の情報にそれが反映されるため識別しづらくなります。一方、文字情報は切れ目が明確です。従って、それを処理する脳波や脳磁図の情報もよりクリアになります。

脳画像から「誰の声を聞いているか」を判別する研究も出てきた

Lamotheらの研究のように、脳画像から「今、誰の声を聞いているか」を識別する研究も出てきました。

まず音声をもとにした話になりますが、405話者・8言語・18万2,000個の音声サンプルをもとに「声の個性」を表現する「128次元の地図」を作りました。この地図(モデル)によって男女を98.6%の精度で、年齢は67.3%、話者の特定は38.4%見分けることができました。

Lamotheらは次に「声の個性」のモデルを用いて、脳のどの部位が声の個性を識別しているのか(より担っているのか)を調べました。3人の健常参加者を1人あたり10時間超 fMRIという装置で脳を計測し、各人に対して約1万回の刺激(音声を聞かせた)を与えて脳画像情報を収集分析しました。

するといわゆる聴覚野(A1)よりも、temporal voice areas(TVAs)という側頭葉にある音声処理を担う領域が「この声はこの人っぽい」という処理により関わっていることが分かりました。

<neumo 若林龍成(りょうせい)メモ>

Appleはイヤホンで脳波を測れるようにするために、イヤホン用脳波計(Ear EEG)の特許を取得済みです。

Airpods Proなどで脳波が測れる時代がきたら、上記のような研究が生かされるかもしれません。

脳波ではありませんが、LINE友達登録して頂くと「騒がしい中での聴こえ」が無料で測定できます。是非お試しください。

友だち追加