移动版

当前位置:智慧城市网资讯中心企业关注

新发产品更多
高质量数据集典型案例 | 中国移动研发大模型高质量数据集
2025年10月17日 10:52:41来源:国家数据局点击量:38455
导读基于多元化规则体系及大小模型协同技术,实现对代码数据的去重、敏感数据的脱敏以及场景化标签的标注,将原始代码数据转换为可应用于大模型预训练微调及研发全流程场景需求的高质量研发大模型数据集。
  【智慧城市网 企业关注】代码数据质量和动态利用方式,已成为大模型推理能力的“暗物质”,是推理基础设施的核心燃料,在软件工程等领域具有重要应用价值。针对当前代码数据来源广、质量参差不齐、评估手段专业化不足等问题,本案例构建了“数据采集-数据处理-数据质量评估”的高质量数据处理引擎,形成了一套高质量研发大模型数据集,并基于此数据集训练形成了具备代码补全、单元测试等能力的研发大模型,可支撑研发全流程赋能需求。
 
  方案和成效
 
  一是构建海量异构数据采集引擎,实现多源数据融合。针对开源代码数据分散、内容多样化、噪声多等问题,从异构内容自动提取、低熵噪声自动去除等层面,提升数据采集的准确性与完整性,实现代码数据高效、实时汇聚,形成超PB级别原始数据。
 
  二是打造高质量数据处理流水线,提升自动化处理效率。针对代码数据质量不足、研发场景数据缺失等问题,打造文本数据处理流水线和多模态数据合成流水线,支持多样化数据预处理、数据合成、数据探索分析等,整体自动化率达90%,沉淀超50+核心数据处理算子,支持1500万文档/小时。
 
  三是设计高质量数据评估体系,全方位评估数据质量。针对代码数据质量评估手段专业化不足的问题,结合行业标准和数据特性,设计一套支持多粒度代码评估、多维度代码评估的高质量综合评估体系,覆盖12个核心维度,支持100+研发领域数据标签,实现研发大模型数据的全方位质量评估。
 
  创新点
 
  一是技术创新牵引数据质量升级。基于多元化规则体系及大小模型协同技术,实现对代码数据的去重、敏感数据的脱敏以及场景化标签的标注,将原始代码数据转换为可应用于大模型预训练微调及研发全流程场景需求的高质量研发大模型数据集。
 
  二是流程闭环加速数据质量跃升。打造专门面向代码数据的采集、处理、训练等全流程闭环质量优化体系,综合考虑代码数据的技术专业性和复杂性,以规则阈值融合大模型测评等方式,实现模型加数据飞轮良性循环。
 
  三是机制完善推进数据循环共享。构建数据安全合规审查体系和数据资产共建共享办法,并形成产业生态闭环,为数据全生命周期注入安全与合规基因,确保其高效流动与价值最大化。
 
关键词 数据数字经济
相关阅读更多
版权与免责声明:

凡本网注明“来源:智慧城市网”的所有作品,均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智慧城市网”。违反上述声明者,本网将追究其相关法律责任。

本网转载并注明自其它来源(非智慧城市网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

正在阅读:高质量数据集典型案例 | 中国移动研发大模型高质量数据集
我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)afzhan@foxmail.com
  • 联系电话0571-87756384
智慧城市行业“互联网+”服务平台
智慧城市网APP

功能丰富 实时交流

智慧城市网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智慧城市网

抖音号:afzhan

打开抖音 搜索页扫一扫
i

视频号

AF智慧城市网

视频号ID:sphF7DOyrojJnp8

打开微信扫码关注视频号

小红书

智慧城市

小红书ID:2537047074

打开小红书 扫一扫关注
反馈