final一直致力于实现“自然音色”的研发工作,并为确立 音色个性化 这一技术持续探索。由于这项技术率先具备在耳机产品中实际应用的可能性,我们将其投入到 ZE8000 的应用研发之中,并实现了名为 JDH(Jibun Dummy Head)的服务。
ZE8000 的 JDH 备受好评,但由于能够提供的用户数量极为有限,我们继续推进其通用化的技术开发,并最终将其搭载到全新的蓝牙无线耳机——TONALITE 中。
本次 R&D 专栏将对这项基础技术 耳机专用音色个性化 进行解说。
自然聆听
图1 :聆听小提琴现场演奏
如图1所示,如果假设由小提琴演奏在空间中发出的声波,以完全相同的物理特性到达所有听者,那么所有听者所听到的声音本质上是相同的。我们将此状态定义为自然聆听。
在这种自然聆听状态下,每个人对声音的感受与喜好属于个人嗜好的范畴,本文不对此展开讨论。本文将严格区分 自然聆听 与基于个人偏好的 主观印象。这是理解耳机音色个性化时极为重要的要点。
图2 : 双声道立体声聆听
如图2所示,若构建由两只音箱组成的立体声(Stereophonic)播放环境,并让每位听者依次坐在最佳聆听位置,且完全保持头部与耳朵位置一致,那么听者同样能获得自然聆听状态。
然而,在自然聆听条件下,到达每个人鼓膜的 声波物理特性 会因身体形状不同而产生差异。但即便如此,在图1及图2所示的情境中,听者仍然能进行自然聆听。
这一点可从国际知名德国声学研究专家 君特·泰勒 (Guenther Theile) 在图3中展示的自然条件下听觉系统的工作机制中得到理解:由外耳形状造成的物理影响,会在方向感知过程后,被类似“逆滤波器”的机制所抵消。因此,外耳造成的物理影响并不会影响音色等听觉事件的“格式塔感知”[1]。

图3 : 自然条件下听觉系统的工作机制[1]
那么,如果使用耳机来聆听如图2中提供给音箱播放的同一双声道音频信号,是否也能保证自然聆听呢?答案是:不能。
耳机的 目标曲线(Target Curve)正是试图将这个“不能”尽可能接近“能”的技术。而所谓的 耳机专用音色个性化,就是旨在让这个“不能”真正变为“能”的技术。
目标曲线
目标曲线 即耳机在设计时所追求的振幅频率响应特性。也称为目标响应曲线(Target Response Curve)。本文统一称为目标曲线。目标曲线是为了尽可能实现前述 自然聆听 的技术,广泛用于耳机声学设计。
关于目标曲线已有大量研究,存在数种广泛知名的目标曲线。这里主要介绍用于推导目标曲线的基本概念之一:插入增益,以及 自由声场目标曲线 与扩散声场目标曲线。

图4 : 增益概念示意图[2]
图4所示的是 插入增益 这一概念[2]。
• 特性 A 是在自由声场中测量的、理想状态下扬声器的特性,其幅度在各个频率上保持不变。
• 特性 B 是将该扬声器放置在被试者前方,由扬声器发出测试信号,在被试者鼓膜位置测得的结果。
• 特性 C 是将某款耳机佩戴在被试者耳朵上,由耳机发出同样的测试信号,在被试者鼓膜位置测得的结果。
• 特性 D 就是所谓的 插入增益,是用特性 C 减去特性 B 得到的结果。
如果这一插入增益在各频率上保持恒定,就可以理解为:通过理想扬声器重放的声音与通过耳机重放的声音,在鼓膜位置是一致的。按照这一思路去设计耳机的目标曲线,就能使我们通过耳机听到与理想扬声器相同的声音——这就是 插入增益概念 的核心。图4中,特性 D 在 200 Hz 到 8 kHz 范围内基本保持不变,因此可以认为,这次测量中使用的耳机具备符合插入增益概念的目标曲线,而这一目标曲线就是特性 C。
要将插入增益的概念真正反映到产品中,需要定义用于执行图4所示测量的 声学空间条件。典型的定义是使用自由声场和扩散声场。实际操作中,自由声场通常以无响室实现,扩散声场 则以混响室实现。
不过需要注意的是,音响实验室中实际建造的无响室和混响室,其声学特性与理想定义的自由声场和扩散声场并不完全一致。图5与图6分别给出了自由声场目标曲线 和 扩散声场目标曲线。

图5 : 自由声场目标曲线

图6 : 扩散声场目标曲线
通用目标曲线与音色个性化目标曲线
在此,我们将前文所述的目标曲线定义为 通用目标曲线(General Target Curve)。基于 插入增益概念 来设计耳机的声学响应,是许多耳机品牌过去及当前普遍采用的方法。
同时,随着研究方法及听觉心理学观点的演进,也出现了各种新的目标曲线,其中部分已经被应用于商业产品中[3]。本篇文章不对这些变体进行详细讨论。
通用目标曲线 是一条适用于同一耳机型号所有个体、完全一致的目标响应曲线。与此相对,本文所述方法生成的目标曲线——即 耳机专用音色个性化 所得的目标曲线——是因人而异的:即便是同一款耳机,每位用户获得的目标曲线也各不相同,因为它们根据个人的听觉特性与形态特征进行了优化。
因此,我们将这种个别化的目标曲线称为:音色个性化目标曲线(Timbre-Personalized Target Curve)。
什么是个性化
个性化 是指根据每个个体的人体特征,使耳机等设备的物理声学特性适应该用户。
由于身体形状的不同,会导致输入耳部的声波受到的物理影响产生差异。这种现象通常以 头相关传输函数(HRTF:Head-Related Transfer Function)的差异来描述。
图7展示了数位 final 员工的 HRTF 测量示例,可清楚看到因个体身体形态不同,对声波所造成的物理影响也存在显著差异。

图7 : 不同个体之间的 HRTF 差异
近年来,用户能够在家庭影院环境中欣赏三维方向声音重现技术制作的内容——这些技术常被称为 空间音频(Spatial Audio)、3D音频 或 沉浸式音频(Immersive Audio)。此类内容通常为分布在三维空间中的多声道扬声器系统进行混音。
通过 双耳渲染(Binaural Rendering),这些多声道信号能够转化为双声道的双耳信号,使用户即使通过耳机也能体验三维 声场。本文将这种由双耳信号重现的三维音效称为 沉浸式双耳声音(Immersive Binaural Sound)。
为了确保用户能够感受到内容创作者所意图的空间印象,近年来相关的 空间印象个性化(Spatial-Impression Personalization)被广泛研究,并已在多种产品中采用。
然而,本文题为 耳机专用音色个性化,所关注的并非空间印象领域,而是 音色领域的个性化:即让耳机重现的音色适应每位用户的个体差异。
音色的重要性
如前所述,空间印象个性化的发展显著提升了 沉浸式双耳声音 中空间音频重现的精准度。许多研究显示,使用个体化 HRTF 能提升 声像方向定位 的准确性,且已有产品采用此技术。
但需要注意的是,大部分研究与产品开发主要关注 空间印象,而对音乐与一般内容再现中更为根本的关键因素——音色的自然性关注不足。若音色不自然,即使声像定位准确、声场宽广,音乐的吸引力与情感传达也会大打折扣。
多项研究显示,在音频内容的体验中,自然音色 的重要性往往高于空间印象。例如图8显示,在 VR 播放实验中被试所产生的语言描述类别中,音色(Timbre)出现次数最多,其次才是空间感(Sense of Space)[4]。

图8 : VR 播放实验中引发的语言性描述数量[4]
传统提升音色的方法主要依赖均衡器(EQ),更多以用户偏好为依据,而非基于个体听觉机制。Guenther Theile 指出,在自然聆听条件下,空间线索与音色线索由不同的机制处理,尤其是音色,属于一种 格式塔式的感知 过程[1]。因此,音色重现应被视为与空间重现相独立的关键课题。
什么是音色?
一般来说,音色(Timbre)被定义为:在声音的听觉印象中,除去响度(Loudness)和音高(Pitch)之后所剩下的一切特性。在音乐的语境中,如果我们把力度(音乐的响度变化)、旋律、和声以及节奏都去掉,剩下的就是音色。从谱面角度来看,音色也可以理解为乐器的独特声音——也就是作曲家为谱面上写出的音乐选择使用哪些乐器来演奏。作曲家通过决定用什么乐器来演奏写在乐谱中的旋律、和声、节奏和力度,从而塑造出 音乐的整体音色。
我们通过耳机听到的音乐,是这一整套过程的结果:
1. 作曲家创作的乐曲
2. 演奏家用乐器演奏
3. 通过录音技术转换成音频信号
因此,真正的课题在于:录音信号中所编码的音色,能否通过耳机被忠实地重现。
在聆听现场乐器演奏时,我们很少从 “音质好不好” “音色是什么风格” 这种角度去评价,而是自然地沉浸在音乐本身之中。
相反,通过耳机聆听时,听者往往在声音一响起的瞬间就开始评价音质或音色,而不是首先投入音乐内容。
为什么会这样?一个很大的原因是:音色没有被正确重现,导致声音变得不自然。在这种情况下,音色上的不一致,或者说 听觉伪影(Auditory Artifacts),会不断吸引听者的注意力,使其无法马上投入到作品的艺术表达中。
音色个性化(Timbre Personalization)的目标,就是消除所有这些音色问题与伪影,恢复重放声音的自然性。当通过具备音色个性化功能的耳机来聆听音乐时,对于音质评价将不再必要——听者可以直接把注意力完全集中在音乐本身。
耳机专用音色个性化
在开展耳机音色个性化技术的研究与开发之初,我们刻意将聆听对象限定为 双声道立体声内容,即如图 2 所示,由两只扬声器在听者前方对称摆放的环境中制作的录音。
这样设定有两个原因:
第一,目前通过耳机欣赏的音乐内容大多以这种格式制作
第二,在立体声重放中,音色 是最为关键的要素
为了实现音色个性化,第一步是 对听者的身体几何形状进行精确测量,并详细分析这些形状如何影响传达到耳膜的声波。传统上,这通常是在 无响室 中,让声源从不同方向发出声音,然后测量人体形态对入射声波产生的物理影响。近年来,测量技术和声学模拟技术的进步,使我们能够通过高分辨率的三维身体扫描 以及基于所得几何形状的声学仿真,以虚拟方式计算这些影响。
为了实现音色个性化,必须采用一种能够从描述声波与身体形状相互作用的物理量中,导出实现自然音色所需参数的 听觉模型。听觉模型是一种 数学模型,用来描述人类如何从到达鼓膜的声学信号中感知听觉信息。
关于听觉建模的研究已经进行了大量工作,并逐步揭示了人类听觉感知的机制。然而,这些模型基本上属于 通用型听觉模型,旨在描述听觉系统在自然环境中如何感知声音,而并非专门为耳机的声音重现而设计。要构建一个完整的模型仍是长期且艰巨的挑战。
因此,为了在较短时间内实现耳机音色个性化,我们开发了可以 通过耳机来实现自然聆听 的专用听觉模型,而不是依赖通用框架。
在开发这一专用模型的过程中,我们分析了当今的娱乐聆听环境,那就是大量内容已经从通过音箱改变成通过耳机来体验的现状,并识别出两类主要的听觉感知领域:空间印象(Spatial Impression)和 音色感知(Timbre Perception)
我们的听觉模型采用了一个双域框架,将由身体形状影响而产生的物理信息分为 音色相关成分 与 空间印象相关成分,并分别计算其适用于各自用途的参数。 如前所述,我们最初的目标是 忠实再现内容创作者在双声道立体声中意图呈现的音色。我们将这种对创作者意图的忠实再现称为 自然音色(Natural Timbre)。
自然音色
现在,我们在通过耳机聆听的语境下重新审视一下,所谓“自然音色”到底是什么意思。由于这一概念本身略显抽象,用颜色感知的类比来理解可能更为直观。
设想这样一个场景:
如果用黑色的笔在黑色的纸上作画,我们几乎无法分辨出画家真正想要表达的内容;
相反,如果用同样的黑色钢笔在纯白的纸上绘制同一幅画,观者就能轻而易举地看清作者的用意。如果这幅画是用多种颜色绘制的,那么在黑纸与白纸上的视觉差异会更加明显。
即便是在不那么极端的情况下,例如纸张略微偏灰,略带红色或绿色与白纸相比,观者的整体视觉印象,尤其是对颜色的感知,也会发生明显变化。
在这个比喻中,可以这样理解:耳机的音色个性化 就是把听觉的画布变成一张完全纯白的画纸。这种纯白画纸的状态,对应的就是听者能够识别并体验 自然音色 的知觉状态。
一旦达成这一状态,听者就可以原原本本地体验到创作者在内容中所嵌入的声音表达就如同在一张白纸上观看画作时,我们能够清晰地读出画家的意图。
要通过传统手段例如均衡器(EQ)或通用目标曲线达到这种状态,在理论上并非绝对不可能,但在实践中却极其困难,几乎难以实现。原因在于:个体身体结构对声学的影响因人而异,若要通过传统手段实现真正的自然音色,理论上只有听者本人通过个人听觉和专业技巧才能为自己调适出来。
传统的通用目标曲线,是由工程师基于许多人的平均听感所设计,希望得到一种多数人听起来都比较自然的响应。这种方法在一定程度上是有效的,但它不可避免地将个体差异平均化,因此无法为每一位听者都保证真正的自然音色。
那么,一个经验极其丰富的调音师,是否有可能仅凭个人听觉经验来实现自然音色呢?答案是否定的。
原因在于目标曲线或均衡器进行音色设计,本质上都离不开个人试听和听觉判断;然而,这些用于测试的音源,本身就已经带有特定的声音意图。即便使用诸如粉噪,白噪声这类在物理上定义清晰的测试信号,也不存在一个客观标准,可以证明当前设计结果已经等同于一张白纸。
因此,即便是拥有出色听觉训练和大量经验的专家,也无法仅凭主观听感实现完全中性的白纸状态或真正的自然音色。
为了突破这一限制,我们开发了一种完全不依赖人类主观听觉判断,而是通过数学方式来实现自然音色的方法。这一方法基于我们专门构建的听觉模型,以纯计算的形式再现自然音色。
这项技术,正是我们所称的 耳机专用音色个性化。
通用目标曲线与音色个性化目标曲线的比较
为了比较采用通用目标曲线设计的耳机与采用音色个性化设计的耳机在音色上的差异,我们进行了主观听感评估,方法采用 语义差异法(Semantic Differential)。
在实验中,我们选取了耳机产品中最具代表性的两种通用目标曲线:DFTC(Diffuse-Field Target Curve,扩散声场目标曲线)和 LPTC(Listener-Preferred Target Curve,听者偏好目标曲线),并将它们与基于本文所提出方法生成的 PTTC(Personalized Timbre Target Curve,音色个性化目标曲线)进行了对比。
实验结果(如表1与图9所示)显示 PTTC 在 SD 法使用的大多数评价维度上都获得了显著更高的评分。
表1 : SD 法主观评价中使用的评价用语[5]
图9 : 基于 SD 法评价的各目标曲线平均评分及 95% 置信区间[5]
TONALITE 的耳机专用音色个性化技术
最早搭载 耳机专用音色个性化 技术的产品是 ZE8000。在 ZE8000 中,这项技术以全日文 JDH(Jibun Dummy Head) 命名。随后,为了迎合全世界的语言条件,此技术被改名为更接近其操作概念的 DTAS(Digital Twin Audio Simulation,数字对映音频模拟) 并被采用于蓝牙无线耳机 TONALITE。
整个流程首先从扫描用户的身体形状并进行声学测量开始。在 ZE8000 的 JDH 中,用户必须亲自前往 final 的总部,接受精密的 3D 扫描与声学测量。然而在 TONALITE 中,这些步骤用户只需使用智能手机即可独立完成。
为实现这一点,我们开发了从智能手机拍摄的图像中直接提取音色个性化所需的关键形态信息的技术以及基于智能手机与耳机的原创声学测量技术。通过智能手机获取的身体形状数据,以及通过耳机测得的声学数据,将经互联网传输至专用服务器。在服务器中,final 独有的 声学模拟技术 会对这些数据进行处理,提取出实现音色个性化所需的信息。
接下来,服务器上部署的 final 音色个性化听觉模型 会基于这些信息进行数学演算来实现 TONALITE 音色个性化所需的参数。在 ZE8000 时代,这些计算需要工程师在工作站上手动进行,但在 TONALITE 中,我们开发了 完全自动化的服务器端计算系统,无需人工操作即可生成音色个性化参数。
最终,这些计算所得的音色个性化参数会从服务器传输到 TONALITE,并写入耳机内部。至此,TONALITE 的音色个性化流程即告完成,用户即可以 自然音色 欣赏音乐或其他音频内容。
音色个性化与沉浸式双耳音频
如前文所述,TONALITE 中的音色个性化设计主要用于再现 双声道立体声内容的自然音色。
那么,它对沉浸式双耳音频会产生怎样的影响呢?
用于音色个性化的听觉模型,会将因身体形状影响到达声波的物理信息拆分为两类:与音色相关的部分 和与 空间印象相关的部分 分别处理以获取对应感知领域所需的参数。
因此,TONALITE 中的音色个性化与空间印象相互独立,仅专注于音色处理。其结果是,对空间感知的影响不只是极小,反而是在保持三维空间听感的同时,提升了音色的自然度。
换言之,沉浸式双耳音频的空间感仍被完整保留,同时音色得到改善,使听者可在三维音场中享受到更自然的音色表现。
未来发展
音色个性化技术的研究开发已经进入下一阶段,旨在进一步突破现行系统的能力。当这些新成果达到可实际应用的阶段时,我们计划向大家正式介绍。
参考文献:
[1] G. Theile, "On the Standardization of the Frequency Response of High-Quality Studio Headphones," J. Audio Eng. Soc., vol. 34, no. 12, pp. 956–969 (1986).
[2] C. J. Struck, "Free Plus Diffuse Sound Field Target Earphone Response Derived From Classical Room Acoustics Theory," AES Convention Paper 8993, New York, USA (2013).
[3] S. E. Olive, T. Welti, and E. McMullin, "Listener Preference for In-Room Loudspeaker and Headphone Target Responses," AES Convention Paper 8994, New York, USA (2013).
[4] F. Rumsey, "Perceptual Evaluation—Listening Strategies, Methods, and VR," J. Audio Eng. Soc., vol. 66, no. 4 (2018).
[5] K. Hamasaki, N. Tojo, A. Hara, H. Hirai, S. Saito, and M. Hosoo, "Personalized Timbre Optimization Based on a New Auditory Model for Stereophonic Sound Reproduction via Earphones," AES International Conference on Headphone Technology Paper 12, Helsinki, Finland (2025).



