【
智慧城市网 企业关注】为解决全国2780万听障人群在教育、就业、办事等多领域存在的信息获取障碍,技术团队在国家通用手语等相关标准尚不完善,缺乏汉语、手语双语翻译专业人员的背景下,长沙千博信息技术有限公司等单位采取以点带面的线上推广方式组建了超750人标注团队,并利用数据增强模拟出更多样化的训练样本,有效解决了数据难以获取的问题。通过自研采集/审核平台将数据采集成本降低50%,时间缩短80%。手语翻译模型落地近千家机构应用,市场占有率达90%。
举措与成效
一是采用数据增强的技术手段,解决了人工标注数据短时间内获取难的问题。在生成式大模型(AIGC)的基础上,用已有数据引导生成符合训练标准的视频和文字数据,弥补了训练数据50%的缺口,大大减少了模型训练对人工标注数据的依赖。
二是自研标注平台,不断迭代标注模式。技术团队根据标注需求自研标注平台系统,并逐步将手语翻译模型阶段性成果引入平台,使数据为模型训练服务,模型训练成果为提升标注效率服务。相比纯人工翻译标注,提升了150%的标注效率。
三是针对特殊群体打造个性化人才队伍建设模式。针对手语、汉语双语熟练人才稀缺、分散等问题,建立了院校、聋协等团体为单位统一召集的模式。采取聋人群体更加适应的师徒制,实现标注人才培训上岗平均耗时缩短50%。
特色亮点
一是基于数据集训练出的汉语-手语双向互译模型应用覆盖全国绝大部分地区。目前手语播报系统已在全国30个省超500家融媒体中心应用;公共服务产品已在上海嘉定等地近百家公共服务机构应用,网页手语已在近百个政府网站完成示范标杆建设。
二是汉语手语翻译支撑数据集种类丰富。建成手语词汇库、词素库,通用手语视频库,自然手语(方言)数据库等。训练语料已积累汉语到手语翻译千万字级(句对),手语到汉语识别80万条(视频),为打造手语AI系列产品奠定坚实的基础,也为手语语言学研究积累了丰富的资料。同时形成的各类手语数据标准,可为健全国家、行业手语相关标准提供支撑。
三是建立专业手语标注人才库。在高质量听人手语翻译稀缺,高文化水平、较高汉语理解能力聋人稀少的背景下,技术团队集聚了全国各特校、高校、社会聋人、手语爱好者等熟悉汉语、手语的采集员超750人。该标注团队是中国手语语言学研究的重要力量,也是支持中国手语翻译技术出海,进行国际化布局的后备力量。
版权与免责声明:
凡本网注明“来源:智慧城市网”的所有作品,均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智慧城市网”。违反上述声明者,本网将追究其相关法律责任。
本网转载并注明自其它来源(非智慧城市网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。