移动版

当前位置:智慧城市网资讯中心企业关注

新发产品更多
新型训练语音识别系统 不依赖于转录
2016年12月19日 11:21:16来源:机器之心点击量:23245
导读语音识别系统,如手机上将语音转换为文本的软件,通常是机器学习的产物。计算机通过研究数以百万的音频文件和它们的转录,学习得到音频的声学特征与词语类型的对应关系。但目前转录是一项昂贵、费时的工作,因此语音识别的研究只限于少数经济发达国家的语言。
  【中国安防展览网 企业关注】 语音识别系统,如手机上将语音转换为文本的软件,通常是机器学习的产物。计算机通过研究数以百万的音频文件和它们的转录,学习得到音频的声学特征与词语类型的对应关系。但目前转录是一项昂贵、费时的工作,因此语音识别的研究只限于少数经济发达国家的语言。

新型训练语音识别系统 不依赖于转录
 
  在本周的神经信息处理系统会议(Neural Information Processing Systems conference)上,MIT 计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种新的方法来训练语音识别系统,使其不依赖于转录。相反,这个系统的工作方式是分析图像间的关联和图像的语言描述,而这些语言描述是在大量的音频记录中捕获的。该系统会学习录音中的声学特征与图像特性之间的对应关系。
 
  「该研究的目标是让机器学习语言的方式更像人类,」CSAIL 的研究员 Jim Glass 说,他也是阐述此系统的论文的合著者。「当前用来训练语音识别的方法是完全的有监督学习。一段声音会被标记为对应的意思。这种被标记的数据量是非常大的。」
 
  「我们已经取得了巨大进步——我们有了 Siri 和 Google assistant——但是对语音标注是昂贵的,因此它们大多用于世界主要语言。世界上有 7000 种语言,我认为只有不到 2% 具有自动语音识别(ASR)的能力,我们可能无暇解决其它语言的语音识别问题。因此,如果你在思考技术怎样造福整个社会,那么思考为了改变现状我们可以做什么也是很有趣的。我们多年来一直在探索的方法是怎样在减少监督的情况下实现机器学习。」Glass 说道。
 
  与 Glass 合作论文的有作者 David Harwath,MIT 电气工程和计算机科学(EECS)研究生,以及 EECS 教授 Antonio Torralba。
 
  视觉语义
 
  论文中描述的系统类型不同于传统的将语音与标签文本对应的系统; 相反,它将语音与一组主题相关的图像关联起来。这种关联可以作为其它系统的基础。
 
  例如,如果一段语音与特定类别的图像相关联,并且图像具有与其相关联的文本标签,则可以找到这段语音可能的转录,而所有环节都不需要人工参与。类似,一组具有各种语言文本标签的图像可以为自动翻译提供解决方法。
 
  相反,与类似内容的图像集(如「暴风雨」和「云」)所相关的标签文本词语可以被推断为具有相关含义。因为从某种意义上该系统在学习词的意义——与它们相关联的图像——而不仅仅是它们的声音,所以它比标准语音识别系统具有更广泛的潜在应用。
 
  为了测试该系统,研究人员使用了数据大小为 1000 的图像集,每一张图像带有一段相关的语音描述。研究人员可以将其中的一段语音传入系统,并让系统返回 10 张符合的图像。这一个 10 张图像的集合能以 31% 的概率含有一张正确的图像。
 
  「我一直在强调我们正在像婴儿一样学步,未来仍然有很长的路要走,」Glass 说。「但是这是一个振奋人心的开始。」
 
  研究人员从海量数据库中取得图像来训练该系统,这个数据库是由 Torralba;CSAIL 的研究员 Aude Oliva;以及他们的学生建造的。他们在亚马逊 Mechanical Turk 众包网站上雇人使用语音描述图像,这些语音可以是任何脑海里蹦出的短语,大概持续 10 到 20 秒。
 
  作为研究方法的初步论证,这种裁剪的数据对于保证预测结果是很必要的。但是该研究的终目的是使用数字视频来训练系统,大程度的减少人工参与。「自然而然地,我认为它可以发展到完全使用视频,」Glass 说。
 
  融合形态
 
  为了建立这种系统,研究人员使用了神经网络,一种模仿大脑结构的机器学习系统。神经网络由多个处理节点组成,每个节点像单个神经元一样,处理节点仅能够进行非常简单的计算,但是它们在密集网络中彼此连接。需要处理的数据被输送到网络的输入节点,节点进行一步处理并且将其传递到其它节点,再由下一个节点进一步处理,这一过程在神经网络中会不断继续。当神经网络被数据集训练时,它不断地修改由其节点执行的操作流程,以便改进其在特定任务上的性能。
 
  研究人员的神经网络被分为两个单独的网络:一个将图像作为输入;另一个采用频谱图,代表音频信号作为幅度随时间变化的分量频率。每个网络的顶层的输出是 1024 维向量——1024 个数字的序列。
 
  网络中的终节点采用两个向量的点积。也就是说,它将向量中的对应项相乘在一起,并将它们全部相加以产生单个输出。在训练期间,当音频信号对应于图像时,网络必须尝试使点积大化,并且当音频信号不对应时使网络输出小化。
 
  研究人员系统的每个谱图可以识别点积峰。在实验中,这些峰值可靠地挑选出了解释图像的词语标签——例如给棒球投手的照片标记「棒球」,或为草地图像标记「草地」和「场地」。
 
  在目前的研究中,研究人员正在继续完善该系统,使它可以挑选出单个词的谱图并且仅识别与它们相对应的图像的那些区域。
 
  「一个婴儿在学会形容周遭环境的过程中,大部分需要处理的信息可能都来自于视觉,」中国台湾大学电机工程和资讯工程系教授李琳山说道。「今天,机器已经开始模仿这样的学习过程了。这项研究是这一方向早的探索,令人印象深刻。」
 
  「也许更令人兴奋的是,我们能以此探究深层神经网络可以学到多少,」芝加哥大学丰田技术学院助理教授 Karen Livescu 说道。「研究人员在这方面的工作越多,我们从大数据中挖掘出的潜力就越大。我们一直难以标记体量巨大的数据集,所以这项研究备受瞩目,Harwath 等人可以让系统从未标记的数据集中学习。我对此非常期待,想看看他们能走多远。」
关键词 语音识别图像识别录音
相关阅读更多
版权与免责声明:

凡本网注明“来源:智慧城市网”的所有作品,均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智慧城市网”。违反上述声明者,本网将追究其相关法律责任。

本网转载并注明自其它来源(非智慧城市网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

正在阅读:新型训练语音识别系统 不依赖于转录
我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)afzhan@foxmail.com
  • 联系电话0571-87756384
智慧城市行业“互联网+”服务平台
智慧城市网APP

功能丰富 实时交流

智慧城市网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智慧城市网

抖音号:afzhan

打开抖音 搜索页扫一扫
i

视频号

AF智慧城市网

视频号ID:sphF7DOyrojJnp8

打开微信扫码关注视频号

小红书

智慧城市

小红书ID:2537047074

打开小红书 扫一扫关注
反馈