移动版

当前位置:智慧城市网资讯中心上市公司

新发产品更多
新华三:多层级可靠 构筑智算训练的稳定数据基石
2025年01月15日 08:51:10来源:新华三点击量:32262
导读伴随着智算需求的增长,GPU算力投资已占到AI加速芯片销量的80%以上,但相关统计数据显示,在实际模型训练场景下,GPU的平均利用率却不足50%。
  【智慧城市网 上市公司】伴随着智算需求的增长,GPU算力投资已占到AI加速芯片销量的80%以上,但相关统计数据显示,在实际模型训练场景下,GPU的平均利用率却不足50%。
 
  究其原因,由于数据存储的可靠性不足导致的训练中断尤为突出。例如,训练数据的读写中断、租户间资源相互干扰、计划内的扩容升级以及计划外的宕机等,都会引起算力资源的空耗,从而降低GPU的整体利用率。而解决这一困扰的关键,在于一套高度稳定、多层级可靠的数据存储系统,提供坚实的数据底座支撑。
 
  软硬件协同创新
 
  重构分布式存储可靠性体验
 
  新华三下一代AI数据存储平台H3C UniStor Polaris X20000系列,通过对分布式存储的软硬件协同创新,基于独特的NVMe高密全闪架构,结合新华三傲擎数据存储底层平台,实现了媲美集中式存储的性能和可靠性体验。在系统整体设计方面,H3C UniStor Polaris X20000系列所有组件,不管是硬件还是软件,都采用了“冗余、多活、自动隔离和自愈”的设计,形成多层级可靠性方案。
 
  传统的分布式存储系统,采用节点间心跳的方式监控各节点状态。在智算训练场景下,大规模集群中大量的心跳消息会对网络性能造成影响,并额外消耗计算资源。H3C UniStor X20000系列,创新性地通过SOM存储集成管理平台,实时监控节点健康,制定中断上报、事件上报和主动轮训三种不同的上报方案,配合存储软件联动,实现故障毫秒级上报,性能影响<5%。不论是计划内的维护升级、扩容还是计划外的意外故障,业务都是“弱感知”,保障智算训练任务不间断连续运行。
 
  在智算场景下,多租户操作也是影响训练稳定性的关键因素之一。多租户环境下,单个软件实例需要为多个不同的用户组提供服务,需要在数据的共享、安全隔离和性能间取得平衡。在处理敏感数据时,数据安全的实现策略也会直接影响到不同租户间的隔离程度。H3C UniStor Polaris X20000系列提供了全面的安全策略管理,支持租户间资源隔离,确保每个租户都有独立的容量分配和性能QoS策略,实现模型训练过程中多租户间的零干扰。
 
  在智算平台的建设过程中,数据存储的稳定性对算力有效供给有着重要意义。面向未来,新华三集团将继续秉持“精耕务实,为时代赋智慧”的理念,不断深化“内生智能·成就智慧存储”技术战略,充分发挥自身在数字领域的创新优势,加大产品创新力度,为百行百业构筑澎湃算力提供稳定的数据基石。
关键词 智算训练数据
相关阅读更多
版权与免责声明:

凡本网注明“来源:智慧城市网”的所有作品,均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智慧城市网”。违反上述声明者,本网将追究其相关法律责任。

本网转载并注明自其它来源(非智慧城市网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

正在阅读:新华三:多层级可靠 构筑智算训练的稳定数据基石
我要投稿
  • 投稿请发送邮件至:(邮件标题请备注“投稿”)afzhan@foxmail.com
  • 联系电话0571-87756384
智慧城市行业“互联网+”服务平台
智慧城市网APP

功能丰富 实时交流

智慧城市网小程序

订阅获取更多服务

微信公众号

关注我们

抖音

智慧城市网

抖音号:afzhan

打开抖音 搜索页扫一扫
i

视频号

AF智慧城市网

视频号ID:sphF7DOyrojJnp8

打开微信扫码关注视频号

小红书

智慧城市

小红书ID:2537047074

打开小红书 扫一扫关注
反馈