如今国内语音识别行业发展是何局势？

2017-02-24 15:24:02 爱分析ifenxi 点击量：38904

　　【中国安防展览网市场分析】近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术走进了工业、家电、通信、汽车电子、消费电子产品等各个领域。语音识别作为人工智能发展早、且商业化的技术，近几年来随着深度学习技术的突破，识别准确率大幅提升，带动了一波产业热潮。

　　与此同时，自然语言处理(NLP)作为人机交互技术的重要一环，也为此提供了助力。Siri的推出打开了语音交互的先河，不仅催生了一批语音语义创业公司，还激发了百度、搜狗等大型互联网公司在语音语义技术上的投入。

　　由于NLP和语义理解技术能够让机器理解人的意图和需求，并把相应内容反馈给用户，因此在客服行业得到了广泛应用，有效降低了人力成本，提高了企业运营效率。

　　那么，中国智能语音语义产业主要涉及哪些技术？技术发展水平如何？存在哪些问题？有哪些应用领域、玩家和商业模式？行业格局和未来发展趋势又将如何呢？本文将为您一一解答。

　　一、技术篇：语音识别和NLP技术仍不成熟

　　智能语音语义包含语音合成、语音识别和自然语言处理(NLP)三项主要技术。

　　语音合成技术发展早，应用已较为普遍，除了合成音仍偏机械之外，基本不存在太大技术问题；语音识别在2012年卷积神经网络(CNN)应用之后，准确率大幅提升，已经在C端、B端得到了广泛应用，但效果和体验还不够理想；NLP技术虽然在搜索引擎中早有应用，但在人机交互领域仍属于浅层处理。

　　语音识别“鲁棒性“问题显著

　　在生物学中，有个术语叫做“鲁棒性”，是指系统在扰动或不确定的情况下，仍能保持它的特征行为。这一问题在语音识别领域也存在。

　　语音识别整个过程包含语音信号处理、静音切除、声学特征提取、模式匹配等多个环节。由于语音信号的多样性和复杂性，系统只能在一定限制条件下才能获得满意效果。在真实使用场景中，考虑到远场、方言、噪音、断句等问题，准确率会大打折扣。目前业内普遍宣称的97%识别准确率，更多的是人工测评结果，只在安静室内的进场识别中才能实现。

　　要解决语音识别鲁棒性问题，需要在技术和产品两方面进行优化。一方面，在语音增强、麦克风阵列以及说话人分离等多项技术领域持续投入，并结合后端语义，促进对上下文的理解，从而提升识别效果；另一方面，需要从产品设计上进行优化，比如通过进一步交互，使语音识别变得更为准确。

　　语义分析仍是浅层处理

　　NLP技术大致包含三个层面：词法分析、句法分析、语义分析，三者之间既递进又相互包含。

图：NLP分析技术

　　词义消歧是NLP技术的大瓶颈。机器在切词、标注词性、并识别完后，需要对各个词语进行理解。由于语言中往往一词多义，人在理解时会基于已有知识储备和上下文环境，但机器很难做到。虽然系统会对句子做句法分析，可以在一定程度上帮助机器理解词义和语义，但实际情况并不理想。

　　目前，机器对句子的理解还只能做到语义角色标注层面，即标出句中的句子成分和主被动关系等，它属于比较成熟的浅层语义分析技术。未来要让机器更好地理解人类语言，并实现自然交互，还是需要依赖深度学习技术，通过大规模的数据训练，让机器不断学习。当然，在实际应用领域中，也可以通过产品设计来减少较为模糊的问答内容，以提升用户体验。

　　由于人工智能技术对数据依赖性极高，因此，这一领域的技术进步和产业化推进是一种协同关系——通过工程化的方法提升技术效果和体验，从而促进产业化应用，再根据实际应用中的数据和反馈，反过来推动技术实现突破。那么，智能语音语义在产业化方面都有哪些应用领域，又存在哪些问题？

　　二、应用篇：C端提升体验，B端提升效率

　　以问答和聊天为服务形式，智能语音语义在多个使用场景和行业领域都有广泛应用，我们可以简单从C端和B端两个方向分别来看。

图：语音识别/NLP技术应用领域

　　C端应用方面，主要用于移动设备、汽车、家居三大场景，用来变革原有人机交互方式；B端则针对垂直行业需求，提升人工效率，比如帮助医生做电子病历录入，或代替部分人力工作，比如回答大部分简单重复的客服问题。由于两大领域解决的问题不同，因此遇到的挑战也各不相同。

　　C端应用：变革交互方式，需求和体验是关键

　　智能语音为C端提供了一种全新的交互方式，但应用和普及又跟具体场景和需求挂钩。目前，三大场景中，移动设备中的智能手机，以及车内语音交互应用为广泛。家居领域中，虽然各种家电企业也在广泛布局，但实际使用情况并不理想。

　　移动设备

　　智能语音语义在智能手机和可穿戴设备中的应用不尽相同。可穿戴设备虽然没有屏幕或屏幕较小，更适合语音交互，但大多(比如智能手表)都是非生活必需品，本身销量就很有限，再加上一些可穿戴设备并没有太多交互需求，因此实际应用量较少。

　　智能手机中的各类应用软件大多都配备了语音功能，但相比触摸和文字交互，使用率也不算高。很多人仍然没有经常使用语音的习惯，或者还没有使用语音的意识。究其原因，主要由于语音交互在效果和效率上都不够理想。

　　从效果上看，语音在开放场景下识别准确率并不高。对于用户来讲，结果不可预期，产生错误后纠错成本很高，所以宁愿打字。再者，用户在手机端对于打字和触摸已经非常习惯，因此缺乏改变习惯的动力。

　　从效率上看，语音在智能手机和各类软件上的应用主要以输入、搜索和调取服务为主，输入信息量并不大，而且大多移动应用都是基于触摸和文字做的交互设计，有文字推荐、按键选择等友好设置，因此原有交互方式本身已经非常便捷，语音交互效果不好，容易出错，并不能很好地提升效率。

　　目前，除了重度文字使用者，比如作家、记者、编辑等，对语音输入和转化有着刚性需求，其他人使用语音更多还是在无法打字或不方便触摸时，比如走路、开车等情况下。不过，随着语音识别和交互体验不断提升，会有越来越多的人在移动端使用语音。

[1] [2] [3] 下一页

声明：凡来源标明“智慧城市网”的文章版权均为本站所有，如需转载请务必注明出处，违者本网将追究相关法律责任；所有未标明来源为“智慧城市网”的转载文章目的在于传递更多信息，均不代表本网立场及观点，“智慧城市网”不对这些第三方内容或链接做任何保证或承担任何责任；如涉及版权等问题，请在内容发表之日起一周内与本网联系，否则视为放弃相关权利。

上一篇：回顾2016 进一步分析中国智能家居发展环境

下一篇：中国体育产业春风或也吹暖LED产业