R&Dコラム vol.2<br>「イヤホンのための音色個人性適用」

R&Dコラム vol.2
「イヤホンのための音色個人性適用」

オーディオ・音響・芸術分野専門家に訊く vol.4~7 Reading R&Dコラム vol.2「イヤホンのための音色個人性適用」 2 minutes

finalでは、「自然な音色」を実現するための研究として、「音色個人性適用」という技術を確立するための取り組みを行なってきました。この技術をまずはイヤホン製品に投入する目途がついたため、ZE8000に応用すべく実用化開発を行ない、JDH(Jibun Dummy Head)というサービスを実現しました。このZE8000 JDHはたいへん好評をいただいたものの、ご提供できるお客様が極めて限られていたため、その汎用化を目指した開発を進めた結果、TONALITEという新しいTWSイヤホンに搭載することになりました。そこで、今回のR&Dコラムでは、その基盤技術である「イヤホンのための音色個人性適用」について解説します。


自然な聴取

図1:バイオリンの生演奏を聴取

図1に示したように、バイオリンの生演奏により空間に放出された音波が、聴取者全員に物理的に全く同じ特性の音波で到来しているという状況が仮定できれば、聴取者全員は基本的に同じ音を聴いていることになります。これを「自然な聴取」と定義します。この自然な聴取の状態で、個人それぞれが、その音をどう感じているか、その音が好きかどうかは、個人の好みや嗜好に関わる話となってきますので、本稿では、そこには踏み込みません。自然な聴取と、個人の嗜好に関わる音の印象を、本稿では厳密に区別して話を進めていきます。これは、イヤホンのための音色個人性適用を理解するうえで極めて重要なところです。

     図2:2チャンネルステレオの聴取


図2に示したように、2個のスピーカーによる2チャンネルステレオ(Stereophonic)再生環境を構築し、その最適聴取位置にひとりずつ座って、かつ、頭や耳の位置をまったく同じにするという聴取状態が実現できると仮定すれば、やはり聴取者全員に自然な聴取状態が担保されるといえます。

ところが、自然な聴取状態において、個人の鼓膜に到来する音波の物理特性は、個人の身体形状の影響により異なっています。しかし、この事実があっても、図1および図2に示したような状況では、自然な聴取ができているわけです。この理由については、Guenther Theileによる図3に示した自然条件下における聴覚システムの動作から理解できます。すなわち、外耳の形状による到来音波への物理的影響は、音の方向知覚のプロセスを経た後、いわば逆フィルターによって解除されるわけです。したがって、外耳による到来音波への物理的影響は音色などの聴覚事象の「ゲシュタルト」に影響を与えません[1]。

図3:自然な条件下における聴覚システムの動作[1]

さて、イヤホンで、図2で示したスピーカーに供給される2チャンネルのステレオオーディオ信号を聴取した場合にも、自然な聴取が確保できているのでしょうか。この問に対する回答は、「いいえ」です。イヤホンのターゲットカーブとは、いわば、この「いいえ」を「はい」に近づけようとする技術だと理解できます。そして、イヤホンの音色個人性適用は、その「いいえ」を「はい」にすることを目指した技術でもあります。


ターゲットカーブ

ターゲットカーブ(Target Curve)とは、イヤホンを設計するときに、その目標とする振幅周波数特性のことです。ターゲットレスポンスカーブ(Target Response Curve)ともいわれることもありますが、本稿では、ターゲットカーブと呼ぶことにします。ターゲットカーブは、前項で説明した自然な聴取をできるだけ実現しようとするための技術であり、イヤホンの音響設計に広く利用されています。

ターゲットカーブについては、いろいろな研究が行なわれ、いくつか広く知られているターゲットカーブがあります。ここでは、ターゲットカーブを導出するための基本的な考えた方のひとつであるインサーションゲイン(Insertion Gain)のコンセプトと、自由音場ターゲットカーブと拡散音場ターゲットカーブについてご紹介します。

図4:インサーションゲインのコンセプト[2]

図4に示したのがインサーションゲインのコンセプトです[2]。Aの特性は、周波数によらず振幅が一定という理想的なスピーカーを自由音場で測定した結果です。Bの特性は、そのスピーカーを被験者の前に設置し、スピーカーから信号音を発生させ、被験者の鼓膜位置で測定した結果です。Cの特性は、あるイヤホンを被験者の耳に装着し、同じ信号音をイヤホンから発生させて、被験者の鼓膜位置で測定した結果です。Dの特性が、インサーションゲインとよばれるもので、Cの特性からBの特性を差し引いた結果です。このインサーションゲインが周波数によらず一定となれば、理想的なスピーカーで再生した音と、イヤホンで再生した音が、鼓膜位置で同じになると理解できます。この考え方に沿って、イヤホンのターゲットカーブを設計すれば、理想的なスピーカーと同じ音をイヤホンで聞くことができるというのがインサーションゲインのコンセプトです。図4では、Dの特性が200 Hzから8 kHzまで一定ですので、この測定で使用されたイヤホンは、インサーションゲインのコンセプトに沿ったターゲットカーブを有しており、そのターゲットカーブが特性Cであると理解できます。

インサーションゲインのコンセプトを実際の製品に反映させるには、図4のような測定を行なうための空間を定義しなければなりません。この定義として代表的に使用されるのが、自由音場と拡散音場です。実際には、自由音場として無響室、拡散音場として残響室を使うことができます。ただし、音響研究を行なう研究室などに設置されている無響室や残響室の実際の特性は、理想的に定義された自由音場と拡散音場の特性とは異なっていることは注意が必要です。図5と図6に、この自由音場ターゲットカーブと拡散音場ターゲットカーブを示します。

図5:自由音場ターゲットカーブ


図6:拡散音場ターゲットカーブ


汎用ターゲットカーブと音色個人性適用ターゲットカーブ

前項で説明したターゲットカーブを、ここでは、「汎用ターゲットカーブ」と定義することにします。インサーションゲインのコンセプトに基づいて得られたターゲットカーブをベースにイヤホン製品のターゲットカーブを設計するということは、これまでも、また現在でも多くのメーカーが行なっています。さらに、汎用ターゲットカーブについては、新たな研究や考え方をベースにしたものも提案され、実際の製品にも応用されていますが[3]、本稿ではその詳細についての説明は割愛します。

さて、汎用ターゲットカーブとは、あるイヤホン製品の個体すべてに共通に採用される唯一のターゲットカーブです。これに対して、本稿で説明するイヤホンのための音色個人性適用によって得られるターゲットカーブは、同じ製品個体であるにもかかわらず、ユーザー毎にターゲットカーブが異なります。そこで、これを「音色個人性適用ターゲットカーブ」と呼ぶことにします。


個人性適用とは

個人性適用(Personalization)とは、個人の身体形状の違いなどをベースに、その個人にあった特性をイヤホンなどの物理特性に適用することです。

身体形状の違いによって、身体の外から到来する音に与えられる物理的な影響が異なる現象は、例えば、頭部伝達関数(Head-Related Transfer Function(HRTF))の違いとして説明されることがあります。図7はfinal社員のHRTFを測定した結果で、個人の身体形状の違いによって、到来する音波への物理的な影響が異なることがよくわかります。

図7: 個人によるHRTFの違い

近年、立体音響、空間音響、三次元音響、3Dオーディオ、イマーシブオーディオなどと呼ばれる、私たちが普段聞いている三次元方向からの音波の到来を再現するオーディオ収音再生法によって制作されたコンテンツを楽しめるホームシアター環境が次第に普及してきています。この三次元配置されたマルチチャンネルスピーカーで再生するための信号を、バイノーラルレンダリングという技術で2チャンネルのバイノーラル信号に変換して、イヤホンでも三次元音響を楽しめるという新たなオーディオコンテンツも市場に多く出てくるようになりました。この2チャンネルのバイノーラル信号による音のことを、本稿では、イマーシブバイノーラルサウンドと呼ぶことにします。このイマーシブバイノーラルサウンドにおいて、コンテンツ制作者が意図した通りの空間印象を得るために、個人性適用が研究開発され、いろいろな製品にも使用されるようになってきました。この個人性適用を、本稿では「空間印象個人性適用」と呼ぶことにします。

さて、本稿のタイトルは「イヤホンのための音色個人性適用」としました。つまり、本稿は、その空間印象個人性適用ではなく、音色の収音再生に対する個人性適用を説明することを目的としています。


音色の重要性

前項で述べた通り、イヤホンの空間印象個人性適用技術は、近年の進展により、イマーシブバイノーラルサウンド聴取時の空間音響再現の精度を高めてきました。特に、個人の頭部伝達関数(HRTF)を用いることで、音像方向再現の精度が向上することは多くの研究で示されており、実際に製品化にもつながっています。

しかし、こうした研究や製品化の多くは「空間的な属性」に主として焦点を当てており、音楽や一般的なコンテンツの再生において本質的に重要な「音色の自然さ」については、あまり十分な検討がなされてきませんでした。実際、音色の再現性が欠けると、たとえ音場の広がりや音像定位が良好であっても、音楽の魅力や感動は大きく損なわれてしまいます。

オーディオコンテンツを楽しむうえで、空間印象にくらべて音色の自然さの方が重要であることは、数多くの研究で明らかになっています。一例をあげれば、図8は、VR(Virtual Reality)の再生実験中に誘発された言語的説明文の数を示したもので、音色(Timbre)が最も優勢で、空間感覚(Sense of space)が2番目であることがわかります[4]。


図8:VR再生実験中に誘発された言語的説明文の数[4] 

従来のアプローチでは、音色の再現性を高めるためには、イコライザーによる好みに基づいた調整が中心であり、リスナー固有の聴覚メカニズムを十分に考慮したものではありませんでした。Guenther Theileは、自然な聴取環境では空間的手掛かりと音色的手掛かりが区別され、特に音色はゲシュタルト的な知覚過程に基づくことを指摘しています。この視点からも、音色再現は、空間再現からは独立した重要課題であるといえます[1]。

さて、音色とは何でしょうか。一般には、音の聴覚印象から、音の大きさと、音の高さを除いた印象だと定義されています。音楽でいえば、私たちが聞いている音楽の中から、ダイナミクス(演奏の音の大きさの変化)と、旋律や音階や和音、それにリズムを除いたものすべてが音色だと理解できます。つまり、楽譜に書かれている情報では、音楽をどの楽器で演奏させるかというのが音色だと理解することもできます。作曲家は、作り出した、旋律、リズム、和音、ダイナミクスを音楽的に表現するために、どういった楽器で演奏させるかを決めていきます。これによって音楽における音色が決まっていきます。

私たちがイヤホンで聴く音楽は、作曲家によって作り出された楽曲を、演奏家が楽器で演奏した音を、録音という技術でオーディオ信号に変換したものです。ここで考えなければならないのが、イヤホンでの音色再現という課題です。つまり、録音されたオーディオ信号に込められた音色を、その通りに再現できるか否かという課題です。

私たちが、生楽器による演奏を聴く際に、音を聴いた瞬間に、音色印象に対するオーディオ的な表現によって演奏の生音を評価することはほとんどないと思います。まずは、音楽そのものに向き合うはずです。

ところが、イヤホンでは、音を聴いた瞬間に、音楽そのものに向き合うのではなく、音色や音質の評価を始めてしまいます。なぜでしょうか。これは、音色が正しく再現されていない、あるいは、音色が自然でないということが原因のひとつだと思われます。つまり、音色に問題があった、あるいはいわゆるアーティファクト(不自然な付帯音)があって、それが気になって、すぐに音楽に向き合えなかったということなのではないでしょうか。

音色個人性適用は、この音色における問題あるいはアーティファクト(不自然な付帯音)をすべて取り除くことを目指す技術です。したがって、音色個人性適用が施されたイヤホンで音楽を聴けば、もはや、音色や音質に対するオーディオ視点での議論や評価は不要になり、いきなり音楽に向き合うことができるようになるはずだと考えています。

音色の重要性について述べてきましたが、音色は理解するのがなかなか難しい概念でもあります。私たちがイヤホンで聴く音楽コンテンツは、いろいろな音の専門家が関わって、私たちのところに届いています。そこで、ヴァイオリン演奏による音楽を例に、どのような専門家が関わっているのか、そして、その専門家たちが音色についてどのように考えているのかをご紹介するために、final LABで音色に関するインタビュー特集を組むことにしました。音にプロとして対峙している、ヴァイオリン製作家、作曲家、ヴァイオリニスト、録音エンジニアそれぞれの音色に関するお話は必見です。ぜひ、そちらも本稿とあわせてご覧ください。


イヤホンのための音色個人性適用

まずイヤホンの音色個人性適用の研究開発を始めるにあたり、その聴取対象を、2チャンネルステレオ、すなわち、図2に示したStereophonicといわれる2個のスピーカーを聴取者の前方左右対称に配置した聴取環境で制作されたコンテンツに限定しました。これは、現在イヤホンで聴かれる音楽コンテンツの最も多くがこの2チャンネルステレオで制作されているからです。そして、2チャンネルステレオにおいては、音色が最も重要な要素であるからでもあります。

イヤホンのための音色個人性適用を実現するには、まず、身体形状の精緻な計測と、計測された身体形状が音波に与えるあらゆる影響をつぶさに明らかにすることが必要です。この手法としては、対象となるヒトを自由空間である無響室に入れて、あらゆる方向から到来する音波に対する身体形状の影響を測定するということが従来から行なわれてきました。近年では、ヒトの身体形状を計測し、その計測に基いて、ヴァーチャルに音響シミュレーションを行なうことによって身体形状の影響を算出することができるようになりました。

音色の個人性適用のためには、身体形状の到来音波への影響に関する物理量を算出したうえで、その物理量から「自然な音色」を実現するためのパラメータを算出するための聴覚モデルが必須となります。聴覚モデルとは、ヒトが鼓膜に到来する音波の物理情報から、音によるさまざまな情報や印象を知覚するプロセスを、数理モデルとして記述するものです。聴覚モデルについては、すでに多くの研究が行なわれており、ヒトがどのように音を知覚しているのかが、少しずつ明らかになっています。こういった聴覚モデルは、自然界での音をヒトの聴覚がどのように知覚しているかを研究するのが目的であり、いわば汎用的な聴覚モデルだといえます。そして、これを完成形に持っていくには、まだまだ膨大な研究が必要だと思われます。そこで、イヤホンのための音色個人性適用を早期に実現するために、そういった汎用聴覚モデルではなく、イヤホンで自然な聴取を実現するという目的だけに特化した、独自の聴覚モデルを研究することにしました。この聴覚モデルの研究過程において、市場にある多種多様なオーディオコンテンツをイヤホンで体験する現在のエンターテインメント状況を分析した結果、まずは、空間印象と音色認識というふたつの大きなカテゴリーで独自の聴覚モデルを具現化することにしました。つまり、この聴覚モデルでは、身体形状の到来音波への影響に関する物理量から得られた情報を、音色に関連した情報と、空間印象に関連した情報に分けたうえで、目的に合わせたパラメータが得られるような数理モデルを構築しています。そして、前述の通り、まずは、2chステレオコンテンツにおいてコンテンツ制作者が意図した音色を忠実に再現することを第一目標として、この聴覚モデルを製品に実装するための開発を進めてきました。「コンテンツ制作者が意図した音色を忠実に再現すること」を、「自然な音色」であるとも定義しています。


自然な音色

さて、イヤホンによる音聴取における「自然な音色」とは何かを改めて説明します。分かりにくい概念でもあるので、やや観念的な説明になってしまいますが、音色をあえて色に置き換えて説明することにします。黒い紙の上に、黒色ペンで絵を描いても、その絵に込められた作者の意図を完全に見ることはできません。一方、真っ白な紙に同様に黒色ペンで絵が描かれていれば、容易に作者の意図を見ることができます。さらに、様々な色を駆使して描かれた絵であれば、黒い紙の上に描かれたその絵と、真っ白な紙の上に描かれたその絵から、私たちが理解できる作者の意図には大きな違いがあることは明らかです。これは極端な対比ですが、真っ白な紙でなくても、たとえば、少しグレーがかった色の紙、少し赤みがかった紙、あるいは、少し緑がかった紙などでも、真っ白な紙に描かれたものとは、私たちが知覚できる絵からの視覚印象、特に色の印象が異なることは容易に想像できると思います。音色個人性適用とは、音コンテンツをイヤホンで聴取する土台を、いわば真っ白な紙にすることだと理解してください。これが「自然な音色」を認識できるという状態です。

この「自然な音色」の状態が担保されると、音コンテンツに込められた制作者の音の意図を寸分たがわず体験できるようになると、上記の視覚体験から理解できます。

この「自然な音色」を、従来法である、イコライザーや、イヤホンやヘッドホンに実装する汎用ターゲットカーブで実現することは、絶対に不可能とはいえませんが、極めて難しい、あるいは、極めて実現が不可能と言わざるを得ません。真っ白な紙、即ち「自然な音色」は、知覚体験としてはイメージできるものの、個人毎に身体の形状による到来音波への影響が異なるため、その個人が自ら「自然な音色」を作る以外には方法がないのです。これを第三者である、イヤホン製品の設計者が、多くの人の平均的な音知覚を想定して、これだったら多くの人が「自然な音色」と感じるであろうとやってきたのが、従来の汎用ターゲットカーブによるイヤホンの音響設計です。

では熟練した設計者がいれば、「自然な音色」が実現できるのでしょうか。答えは「いいえ」です。ターゲットカーブによる音設計や、イコライザーによる音設計をする際には、どうしても音を聴く必要があります。しかしそれらの音は、ほとんどの場合、特定の個人によって作られたコンテンツであり、コンテンツには特有の音の意図が込められています。もちろんピンクノイズやホワイトノイズと言った、物理的に一意に定義できる信号音で確認することも不可能ではないでしょう。しかしながら、真っ白な紙にするということが本当に可能なのか、あるいは設計した結果が真っ白な紙なのかは残念ながら確認する術が今はありません。

従って、真っ白な紙、すなわち「自然な音色」を実現することは、特定の個人の訓練された聴覚や、特定の個人の数多くの知見をもってしても、完全に実現することは不可能だと言わざるを得ません。そこで、この「自然な音色」を、人の聴取判断によらずに、独自の聴覚モデルを用いて、純粋に数理的に実現しようとして開発したのが「イヤホンのための音色個人性適用」技術です。


汎用ターゲットカーブと音色個人性適用ターゲットカーブの比較

汎用ターゲットカーブによって設計されたイヤホンの音色と、イヤホンのための音色個人性適用によって得られた音色を、SD(Semantic      Differential)法を用いた主観評価実験で比較してみたところ、イヤホン製品で用いられている代表的な汎用ターゲットカーブ2種類(DFTC、LPTC)に比べて、音色個人性ターゲットカーブ(PTTC)の方が、表1に示したSD法で用いた多くの評価用語で、図9に示したように、有意に高く評価されていることが分かりました[5]。

表1:SD法による主観評価でも用いた評価用語[5]

図9:SD法による各ターゲットカーブの評価対毎の平均評価点と95%信頼区間[5]


TONALITEにおけるイヤホンのための音色個人性適用

イヤホンのための音色個人性適用を最初に製品に投入したのは「ZE8000」でした。ZE8000では、このイヤホンのための音色個人性適用を馴染みやすい用語で表現するために、JDH(Jibun Dummy Head)という呼び方をしました。イヤホンのための音色個人性適用を投入した次の製品が「TONALITE」です。TONALITEでは、JDHに代わって、DTAS(Digital Twin Audio Simulation)という用語で、イヤホンのための音色個人性適用を呼んでいます。

ここで、あらためてTONALITEのDTASについて説明します。まずは、身体形状のスキャンと音響測定を行ないます。ZE8000のJDHではfinalに来社していただかなければ実行することができなかった身体形状の精緻なスキャンと音響測定を、TONALITEでは、スマートフォンを使用してユーザー個人で行なうことを可能にしました。これを実現するために、スマートフォンの撮影画像から音色個人性適用に必須な身体形状情報を取得するための新たな技術や、スマートフォンとイヤホンによる独自の音響測定法を開発しました。スマートフォンでスキャンした身体形状データや、スマートフォンとイヤホンで測定した音響データは、スマートフォンにインターネット経由で接続されたサーバーに送られます。サーバーでは、final独自の音響シミュレーション技術により、音色個人性適用に必要な情報を取り出します。

次に、取り出した情報をもとに、同じくサーバーの中に構築したfinal独自の聴覚モデルにより数理処理を行ない、TONALITEでの音色個人性適用を実現するためのパラメータを算出します。ZE8000では、身体形状等の情報から聴覚モデルで音色個人性適用を実現するためのパラメータを算出するには、エンジニアがワークステーションを操作して計算する必要がありました。TONALITEでは、これをサーバー上においた聴覚モデルで自動的に算出するための技術も開発しました。

そして、この音色個人性適用を実現するためのパラメータは、サーバーからスマートフォンに送られ、TONALITEに実装されます。これでTONALITEにおける音色個人性適用のプロセスが終了し、いよいよ、自然な音色で、音楽はじめさまざまなオーディオコンテンツを楽しんでいただけるようになります。しかも、今回の実用化に向けて開発したさまざまな技術により、より手軽に自然な音色を堪能していただけることと思います。

ところで、前述したように、TONALITEの音色個人性適用は、2チャンネルステレオによって制作されたコンテンツを自然な音色で楽しんでいただくことを目指した機能です。では、イマーシブバイノーラルサウンドはどのように聞こえるのでしょうか。イヤホンのための音色個人性適用に利用している聴覚モデルでは、身体形状の到来音波への影響に関する物理量から得られた情報を、音色に関連した情報と、空間印象に関連した情報に分けたうえで、目的に合わせたパラメータが得られるような数理モデルを構築しています。すなわち、TONALITEの音色個人性適用では、空間印象からは独立して、音色のためだけの処理を行なっていますので、空間印象への影響はほとんどありません。つまり、イマーシブバイノーラルサウンドでは、その空間印象は保たれたまま、音色だけが改善されるため、より自然な音色で空間印象を楽しんでいただけるようになります。

音色個人性適用の研究開発は、すでに次の段階を目指して、新たなフェーズに入っています。こちらも実用化開発ができた段階でご紹介していく予定です。



参考文献

[1] G. Theile, “On the Standardization of the Frequency Response of High-Quality Studio Headphones,” J. Audio Eng. Soc., vol. 34, no. 12, pp. 956–969 (1986)
[2] C.J. Struck, "Free Plus Diffuse Sound Field Target Earphone Response Derived From Classical Room Acoustics Theory," AES convention paper 8993, New York, USA (2013).
[3] S.E. Olive, T. Welti, and E. McMullin, “Listener Preference for In-Room Loudspeaker and Headphone Target Responses,” AES Convention paper 8994, New York, USA (2013).
[4] F. Rumsey, “Perceptual evaluation - Listening strategies, methods, and VR,” J. Audio Eng. Soc., Vol. 66, No. 4 (2018).
[5] K. Hamasaki, N. Tojo, A. Hara, H. Hirai, S. Saito, M. Hosoo, “Personalized Timbre Optimization Based on a New Auditory Model for Stereophonic Sound Reproduction via Earphones,” AES International Conference on Headphone Technology paper 12, Helsinki, Finland (2025).

一覧へ戻る