语音识别新范式:完全的“端到端”模型,优势在哪里?

文章正文
发布时间:2024-12-13 15:23

“自然科学的发展除了按常规科学一点一滴地积累之外,还必然要出现‘科学革命’。”托马斯·库恩在其发表于 1962 年的经典著作《科学革命的结构》中提出的“范式转换”一词,如今已成为大家耳熟能详的技术用语。

大的“范式转换”存在于基础科学领域,小的“范式转化”也存在于几乎每个细分的技术领域。

语音识别新范式

以自然语言处理的子领域“语音识别”为例,从 2012 年引入深度学习技术开始,语音识别的研究热点经历了三个阶段:

2011年前后,基于 DNN+HMM(深度神经网络+隐马尔科夫模型)的语音识别 

2014年前后,基于 LSTM+CTC(长短时记忆网络+连接时序分类)的不完全端到端语音识别 

2017年前后,基于 Transformer(自注意力机制)的完全端到端语音识别

如果说 2011 年深度学习的引入,是语音识别领域上一次范式转换的起点,那么从 2017 年开始,基于注意力机制和 Transformer 新型神经网络结构的语音识别研究,无疑标志着语音识别的新范式正在形成。

传统的语音识别主要框架包括:声学模型和语言模型。2011 年前后引入深度神经网络(DNN),主要目标是改进传统语音识别框架中的声学模型算法。2014年前后引入LSTM+CTC的方案,理论上实现了端到端,但因为效果不好,实际使用中仍然会加上语言模型。

而 2017 年之后基于自注意力机制的完全端到端模型,才真正突破了“传统框架”的限制,去除所有中间步骤和独立子任务,充分利用深层神经网络和并行计算的优势,取得最优结果。在 2019 年秋天的语音领域顶会 Interspeech 上,基于自注意力机制和Transformer神经网络结构的算法,几乎出现在了所有语音识别相关的研究中。

基于Transformer的完全端到端模型主要优势有三个:

第一,Transformer采用的自注意力机制是一种通过其上下文来理解当前词的创新方法,语义特征的提取能力更强。在实际应用中,这个特性意味着对于句子中的同音字或词,新的算法能根据它周围的词和前后的句子来判断究竟应该是哪个(比如洗澡和洗枣),从而得到更准确的结果。 

第二,解决了传统的语音识别方案中各部分任务独立,无法联合优化的问题。单一神经网络的框架变得更简单,随着模型层数更深,训练数据越大,准确率越高。因此企业可以使用更大量的专有数据集来训练模型,得到相应场景下更准确的识别结果。 

第三,新的神经网络结构可以更好地利用和适应新的硬件(比如GPU)并行计算能力,运算速度更快。这意味着转写同样时长的语音,基于新网络结构的算法模型可以在更短的时间内完成,也更能满足实时转写的需求。

Transformer-XL进一步释放注意力模型的优势

Transformer-XL神经网络结构是由循环智能联合创始人杨植麟博士(共同第一作者),与Google AI、卡内基梅隆大学共同推出。在全部 5 个单词和字符级语言建模标准数据集取得 state of the art 结果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。


从名字也可以看出来,Transformer-XL通过引入循环机制和相对位置编码,主要解决了超长输入的问题。Transformer-XL对长序列建模能力更强,而语音识别的一个重要基础就是对长序列进行建模。序列越长可以考虑的上下文音频信息越丰富,识别越准确。也就是说,即使超长的句子,也能得出更加准确的结果。

在面向企业的商用场景下,语音识别系统的准确率,主要取决于算法模型的先进程度以及特定领域训练数据的规模。2019 年,在循环智能联合创始人、CTO张宇韬博士带领的工程团队努力下,循环智能已经将最前沿的Transformer-XL技术成果落地到实际应用中。经过一年多的积累,循环智能目前在金融、教育和互联网服务领域经过了几十万小时的数据训练。


在一家市值百亿美金互联网服务公司的实际测试中,循环智能针对电话录音的自动语音识别(ASR)效果超过国内公认的语音巨头和互联网巨头。

从学术前沿到商业落地

虽然学术的前沿、顶尖研究人员的重心已经转到基于 Transformer 的研究,那些曾经辉煌的神经网络结构,很难再取得技术突破,也不符合技术发展的方向。但是,很多从事自动语音识别(ASR)业务的公司,依然不得不固守“传统”的神经网络结构。

原因有二。首先,通常将前沿学术成果落地到商业场景,本身就需要很长时间;其次对于普通公司而言,采用前沿学术成果意味着需要从一项熟悉的旧技术组合切换到另一套,甚至意味着人员的更新迭代,需要的时间更长。

工程能力世界顶级的 Google,从学术前沿的成果到大规模商业落地,大概花了两年多的时间,终于成功将基于Transformer的算法引入其核心搜索产品中:

2017 年 6 月,“Attention is all you need”论文发表 ,Google 在这篇论文中介绍了 Transformer,一种基于自注意力机制(self-attention mechanism)的全新神经网络结构。短短两年多时间,该论文在 Google 学术中的引用量达 5956 次,毫无疑问是近几年自然语言理解领域影响力最大的论文之一。 2018 年 6 月,Google 发布了基于 Transformer 的 BERT 模型,被称为近几年 NLP 领域最具里程碑意义的进展。 

2019 年 10 月,Google 在官方博客中宣布,已经将这项技术应用于搜索中,增强了对用户搜索意图的理解。

新算法模型带来的效果提升非常显著。过去一直以来,当我们向 Google 的搜索框中输入一个完整句子的时候,Google 的做法是用句子中的关键词去匹配相应的搜索结果,并不关心句子的实际含义。正因为如此,早年的“搜索高手”都知道一些搜索技巧,比如搜索引擎会自动忽略句子或短语中的“的”、“是”等虚词,所以他们通常不会输入一个自然句子,而是自己拆成关键词组合,这样对机器更加友好,也更有可能得到更好的答案。而现在,Google 搜索引擎对于长句子的理解更加深入,更懂用户想搜索什么,因此就能匹配更好的结果。

Google 搜索“可以帮人取药吗”的结果对比,新算法更准确地理解了用户的搜索意图,是想问能否帮人取处方药。

对于循环智能而言,商业落地的规模要比 Google 全球搜索的规模小很多,我们在三个月之内完成了基于原创Transformer-XL算法模型的完全“端到端”语音识别引擎部署,针对销售、客服电话录音场景的语音识别准确率同样得到大幅提升。

依靠在金融、教育和互联网服务等领域不断积累行业训练数据,循环智能持续优化算法模型的准确率,赢得了很多大家耳熟能详的上市公司和标杆企业的青睐,包括众安保险、玖富、VIPKID、新东方在线、58同城、猎聘等。

首页
评论
分享
Top