新型训练语音识别系统不依赖于转录_语音识别,图像识别,录音_企业关注

今日热点更多

精彩视频更多

“向新出发智造未来”itc邀请您来当云厂长

得胜带你体验卓越性能与音质
2025-04-28
时刻智能智慧安消、智能家居解决方案
2025-04-28

推荐展会更多

第十届中国（北京）军事智能技术装备博览会

热搜话题更多

#2025年中国教育装备展示会

#第十五届中国国际道路交通安全博览会

#2025济南安博会

新发产品更多

SIP广播室外防水网络有源音柱
深圳锐科达电子有限公司
面议
CCS认证空气呼吸器
东台市港辉船舶设备有限公司
面议
进口原装Von Ruden减速机液力马达
天津克莱瑞科技有限公司
￥1000
分布式光伏协调控制器
安科瑞电气股份有限公司
￥21000
超声洁牙设备振幅试验机
上海诚卫仪器科技有限公司
￥51000
超声洁牙设备振幅试验机操作规程
山东赛锐特检测仪器有限公司
￥36000

新型训练语音识别系统不依赖于转录

2016年12月19日 11:21:16来源：机器之心点击量：23245

导读语音识别系统，如手机上将语音转换为文本的软件，通常是机器学习的产物。计算机通过研究数以百万的音频文件和它们的转录，学习得到音频的声学特征与词语类型的对应关系。但目前转录是一项昂贵、费时的工作，因此语音识别的研究只限于少数经济发达国家的语言。

　　【中国安防展览网企业关注】语音识别系统，如手机上将语音转换为文本的软件，通常是机器学习的产物。计算机通过研究数以百万的音频文件和它们的转录，学习得到音频的声学特征与词语类型的对应关系。但目前转录是一项昂贵、费时的工作，因此语音识别的研究只限于少数经济发达国家的语言。

新型训练语音识别系统不依赖于转录

　　在本周的神经信息处理系统会议(Neural Information Processing Systems conference)上，MIT 计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种新的方法来训练语音识别系统，使其不依赖于转录。相反，这个系统的工作方式是分析图像间的关联和图像的语言描述，而这些语言描述是在大量的音频记录中捕获的。该系统会学习录音中的声学特征与图像特性之间的对应关系。

　　「该研究的目标是让机器学习语言的方式更像人类，」CSAIL 的研究员 Jim Glass 说，他也是阐述此系统的论文的合著者。「当前用来训练语音识别的方法是完全的有监督学习。一段声音会被标记为对应的意思。这种被标记的数据量是非常大的。」

　　「我们已经取得了巨大进步——我们有了 Siri 和 Google assistant——但是对语音标注是昂贵的，因此它们大多用于世界主要语言。世界上有 7000 种语言，我认为只有不到 2% 具有自动语音识别(ASR)的能力，我们可能无暇解决其它语言的语音识别问题。因此，如果你在思考技术怎样造福整个社会，那么思考为了改变现状我们可以做什么也是很有趣的。我们多年来一直在探索的方法是怎样在减少监督的情况下实现机器学习。」Glass 说道。

　　与 Glass 合作论文的有作者 David Harwath，MIT 电气工程和计算机科学(EECS)研究生，以及 EECS 教授 Antonio Torralba。

　　视觉语义

　　论文中描述的系统类型不同于传统的将语音与标签文本对应的系统; 相反，它将语音与一组主题相关的图像关联起来。这种关联可以作为其它系统的基础。

　　例如，如果一段语音与特定类别的图像相关联，并且图像具有与其相关联的文本标签，则可以找到这段语音可能的转录，而所有环节都不需要人工参与。类似，一组具有各种语言文本标签的图像可以为自动翻译提供解决方法。

　　相反，与类似内容的图像集(如「暴风雨」和「云」)所相关的标签文本词语可以被推断为具有相关含义。因为从某种意义上该系统在学习词的意义——与它们相关联的图像——而不仅仅是它们的声音，所以它比标准语音识别系统具有更广泛的潜在应用。

　　为了测试该系统，研究人员使用了数据大小为 1000 的图像集，每一张图像带有一段相关的语音描述。研究人员可以将其中的一段语音传入系统，并让系统返回 10 张符合的图像。这一个 10 张图像的集合能以 31% 的概率含有一张正确的图像。

　　「我一直在强调我们正在像婴儿一样学步，未来仍然有很长的路要走，」Glass 说。「但是这是一个振奋人心的开始。」

　　研究人员从海量数据库中取得图像来训练该系统，这个数据库是由 Torralba；CSAIL 的研究员 Aude Oliva；以及他们的学生建造的。他们在亚马逊 Mechanical Turk 众包网站上雇人使用语音描述图像，这些语音可以是任何脑海里蹦出的短语，大概持续 10 到 20 秒。

　　作为研究方法的初步论证，这种裁剪的数据对于保证预测结果是很必要的。但是该研究的终目的是使用数字视频来训练系统，大程度的减少人工参与。「自然而然地，我认为它可以发展到完全使用视频，」Glass 说。

　　融合形态

　　为了建立这种系统，研究人员使用了神经网络，一种模仿大脑结构的机器学习系统。神经网络由多个处理节点组成，每个节点像单个神经元一样，处理节点仅能够进行非常简单的计算，但是它们在密集网络中彼此连接。需要处理的数据被输送到网络的输入节点，节点进行一步处理并且将其传递到其它节点，再由下一个节点进一步处理，这一过程在神经网络中会不断继续。当神经网络被数据集训练时，它不断地修改由其节点执行的操作流程，以便改进其在特定任务上的性能。

　　研究人员的神经网络被分为两个单独的网络：一个将图像作为输入；另一个采用频谱图，代表音频信号作为幅度随时间变化的分量频率。每个网络的顶层的输出是 1024 维向量——1024 个数字的序列。

　　网络中的终节点采用两个向量的点积。也就是说，它将向量中的对应项相乘在一起，并将它们全部相加以产生单个输出。在训练期间，当音频信号对应于图像时，网络必须尝试使点积大化，并且当音频信号不对应时使网络输出小化。

　　研究人员系统的每个谱图可以识别点积峰。在实验中，这些峰值可靠地挑选出了解释图像的词语标签——例如给棒球投手的照片标记「棒球」，或为草地图像标记「草地」和「场地」。

　　在目前的研究中，研究人员正在继续完善该系统，使它可以挑选出单个词的谱图并且仅识别与它们相对应的图像的那些区域。

　　「一个婴儿在学会形容周遭环境的过程中，大部分需要处理的信息可能都来自于视觉，」中国台湾大学电机工程和资讯工程系教授李琳山说道。「今天，机器已经开始模仿这样的学习过程了。这项研究是这一方向早的探索，令人印象深刻。」

　　「也许更令人兴奋的是，我们能以此探究深层神经网络可以学到多少，」芝加哥大学丰田技术学院助理教授 Karen Livescu 说道。「研究人员在这方面的工作越多，我们从大数据中挖掘出的潜力就越大。我们一直难以标记体量巨大的数据集，所以这项研究备受瞩目，Harwath 等人可以让系统从未标记的数据集中学习。我对此非常期待，想看看他们能走多远。」

关键词语音识别图像识别录音

十五省交运部携手腾讯共建智慧交通新时代

未来互联网金融中生物识别将有哪些作为？

相关阅读更多

世界读书日：数字墨香无纸化阅读进校园
据《2023全球数字阅读报告》显示，全球数字阅读用户已突破15亿，中国数字阅读市场规模达到592亿元，同比增长11.4%。
无纸化阅读图像识别
2025-04-23
不刷脸行不行？人脸识别新规将落地
近年来，人脸识别技术以“无感通行”“一键核验”等便利性迅速渗透至社区门禁、商场消费、酒店入住等场景。
人脸识别图像识别
2025-03-27
国家互联网信息办公室、公安部联合公布《人脸识别技术应用安全管理办法》
近日，国家互联网信息办公室、公安部联合公布《人脸识别技术应用安全管理办法》。
人脸识别图像识别
2025-03-25
快鱼电子AI 语音质检大模型赋能服务监督新高度
快鱼电子的AI语音质检大模型凭借其严谨、智能且高效的思维链，依托强大的自动化处理能力这一独特优势，使得用户能够在精细化管理的道路上...
AI 语音质检图像识别
2025-02-28
工业和信息化部办公厅关于印发2024年第六批行业标准制修订计划的通知
按照《2024年工业和信息化标准工作要点》，我部编制完成2024年第六批行业标准制修订项目计划，现印发给你们。
技术图像识别
2025-01-24
国家发展改革委有关负责同志就《绿色技术推广目录（2024年版）》答记者问
近日，国家发展改革委会同科技部、工业和信息化部、自然资源部、生态环境部、住房城乡建设部、国务院国资委、国家能源局印发了《绿色技术推...
绿色技术图像识别
2025-01-21

版权与免责声明：

凡本网注明“来源：智慧城市网”的所有作品，均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：智慧城市网”。违反上述声明者，本网将追究其相关法律责任。

本网转载并注明自其它来源（非智慧城市网）的作品，目的在于传递更多信息，并不代表本网赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品第一来源，并自负版权等法律责任。

如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。