移动版

当前位置:智慧城市网资讯中心企业关注

新发产品更多
数据标注优秀案例集之 | 大模型驱动的数据自主标注智能服务
2025年05月23日 11:36:01来源:国家数据局点击量:1842
导读通过数据平滑技术、均值填充、插值法、生成对抗网络(GAN)、Z-score、局部异常因子等算法模型,完成初步数据清洗。以企业数据为例,核心指标的缺失值补齐率达到92%,冲突识别率为100%,异常值处理比例约为85%。
  【智慧城市网 企业关注】为解决政府数据加工能力不足所导致大量数据价值被低估、难以深入挖掘和复用的问题,北京数据向量科技有限公司聚焦政府产业经济领域,依托垂类智能体和检索增强生成RAG库,构建特定领域的自动标注体系,该智能体整体数据标注效率提升10-15%,准确率提升至95%以上,形成企业、空间、经济等高质量数据集。
 
  举措与成效
 
  一是小算法赋能的数据预处理。通过数据平滑技术、均值填充、插值法、生成对抗网络(GAN)、Z-score、局部异常因子等算法模型,完成初步数据清洗。以企业数据为例,核心指标的缺失值补齐率达到92%,冲突识别率为100%,异常值处理比例约为85%。
 
  二是大模型支撑的数据关系构建。将清洗后的数据与报告、政策、公文等文档相结合,构建基于RAG(检索增强生成)的实体识别与链接能力;提取企业、空间等实体对象,并将其与知识图谱进行关联,挖掘数据之间隐藏的复杂关系。关系提取成功应用比例约为65%,经过人工干预和知识训练后,成功率可提升至80%。
 
  三是构建数据自主标注智能体。智能体实现标注流程的自动化。结合RAG库的实体关系,自动标注各类实体、关系和属性,使数据处理效率提高5倍。以企业数据为例,智能体可自动完成原有41个步骤的标注流程。
 
  四是自动化的数据质量核验。标注后采用交叉验证等方式,对标注结果进行多轮审核反馈,核验覆盖率达到100%。
 
  特色亮点
 
  一是新技术降低人力和时间投入。将检索增强生成(RAG)技术应用于政府各类数据实体、关系和属性的识别。借助智能体,原本需要30人数月才能完成的任务,现仅需约5人辅助,即可在2个月内完成。
 
  二是新能力落地实践效果显著。在多个产业经济部门成功应用该技术。区域级数据自主标注体系均在2个月内建成,显著缩短上线周期。
 
  三是新手段提高标注准确性。智能体自动标注结果更加准确、一致,减少人工标注可能出现的错误和歧义。标注准确率从传统的83%提升至97%以上。
 
  四是新方式生成高质量数据集。企业数据集融合1000多张表,以某区为例,成功标注生成近40万家企业,涉及数据近2亿条;空间数据集解决多来源地址描述不一致的问题,以某区为例,准确标注7个来源空间数据;经济数据集整合近10个部门的产业经济相关资源,构建了高质量的经济数据集。
关键词 大数据服务平台
相关阅读更多
版权与免责声明:

凡本网注明“来源:智慧城市网”的所有作品,均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智慧城市网”。违反上述声明者,本网将追究其相关法律责任。

本网转载并注明自其它来源(非智慧城市网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

正在阅读:数据标注优秀案例集之 | 大模型驱动的数据自主标注智能服务
我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)afzhan@foxmail.com
  • 联系电话0571-87756384
智慧城市行业“互联网+”服务平台
智慧城市网APP

功能丰富 实时交流

智慧城市网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智慧城市网

抖音号:afzhan

打开抖音 搜索页扫一扫
i

视频号

AF智慧城市网

视频号ID:sphF7DOyrojJnp8

打开微信扫码关注视频号

小红书

智慧城市

小红书ID:2537047074

打开小红书 扫一扫关注
反馈