前言

语音合成（Text To Speech，TTS）技术将文本转化为声音，目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS 的实现涉及语言学、语音学的诸多复杂知识，因实现细节的不同，TTS 系统合成的语音在准确性、自然度、清晰度、连贯性等方面也有着不一样的表现，如何从多维度评价 TTS 系统质量成了 TTS 测试人员的一大挑战。本文针对 TTS 前端、后端的问题介绍了一种包括主观评测、客观评测 TTS 测试方法。

一、前端后端问题

当前典型的 TTS 系统可分为前端、后端两部分，前端完成输入文本的归一化、分词、发音预测、韵律结构预测的处理，后端对声音建模，通过学习得到声音参数，最后由声码器合成声音。

由于自然语言本身的复杂性和开放性，前端处理部分难度较大，难以覆盖所有情况，可能引入的问题举例如下：

1、发音错误。汉语中的多音字、数字、专有名词根据上下文的不同，发音也不一样，训练语料的覆盖不全，会导致合成的语音中部分字词的发音错误。另外现在国际化背景下，各类中英混合语料、缩略词、符号的存在，也为发音预测带来了巨大挑战。

2、声调不准。中文在实际口语发音时，存在一系列复杂的的变调规则，如一／不变调，上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符，听来怪异。

3、韵律异常。前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿，通过时长预测控制字词的发音时长。分词、断句的错误会引起合成语音时的错误停顿，听起来节奏不当。

后端通过声音参数和声码器（WaveNet 不在此列）合成语音波形，实际实现过程中无论是声音参数的选择，还是声码器的设计都是对真实发音过程的有损估计，无法百分百还原人声，可能引入的问题如下：

（1）清晰度差。合成的字、词发音不清晰，近音词区分度差；

（2）还原度差。合成音与目标说话人的音色有差异；

（3）杂音。在合成语音过程中引入背景噪声、字词间隔不顺畅。

二、客观评测

针对前后端可能存在的问题，本评测方法选择如下语料和指标对 TTS 系统做客观评测。

1、语料

本评测方法从发音准确性测试、韵律测试、字典覆盖度测试、字清晰度测试、词清晰度测试等角度出发搜集测试语料，语料结构如下：

2、客观评测指标

（1）发音准确率

根据前端发音预测可能存在的问题，准备测试语料，包括语料文本，待检查词汇，标准发音等，合成语音后人工评测发音准确率。

（2）韵律准确率

前端文本处理过程中会对文本做分词处理和时长预估，人工准备部分语料，对语料做停顿标注，检查前端输出，统计韵律准确率，韵律标注需要较高的语言学知识，因此这块的测试进行起来比较困难。

（3）字典覆盖率

检查语音合成系统对汉字的覆盖程度，检测字表包括普通话不同等级的字库和生僻字库，输入字库语料，检查是否正确合成，统计覆盖率。

（4）字清晰度得分

采用汉语清晰度诊断押韵测试（DRT）法测试字清晰度，由不同听音人对押韵字表听音选择，并计算总 DRT 清晰度得分，详见《GB-T 13504-1992》。

（5）词清晰度得分

采用语义不可测句（Semantic Unpredictable Sentence， SUS）测试单词清晰度，由待测词组成不合语法的待测句子。语义的不可测可以避免听音人的经验猜测，影响测试准确性。

三、主观评测

1、MOS 评测

国际上对语音自然度的评测，一般是使用 MOS 评测，邀请听音人对被测系统输出语音打分衡量。最好是能够邀请到有经验的听音专家来参与评分，听音专家从拟人性、连贯性、韵律感等方面对语音进行打分。

目前我们的评测是培训众测用户做为听音人，流程大致如下：

（1）双方语音音量归一化；

（2）语音字词发音准确性校验；

（3）生成众测问卷，语音顺序交叉打乱；

（4）众测用户培训，试听自然人声和较差合成音锚定打分标准；

（5）众测用户听音打分；

（6）回收问卷，答题数据校验；

（7）计算 MOS 得分。

MOS 打分表：

2、细分主观指标

MOS 作为一个整体的主观打分可用于反映不同 TTS 合成的语音之间的差距，但是不适用于细致分析差异所在。因此，在 MOS 之外我们与用研同学合作，从前端、后端、主观体验上拆解了 15 个细分主观评测指标，通过两两比较评分法（Paired Comparison，PC），让听音人从各细分指标进行打分，指标列举如下，详细问卷描述略。

关注微信公众号腾讯移动品质中心 TMQ，获取更多测试干货！

↙↙↙阅读原文可查看相关链接，并与作者交流