【
智慧城市网 企业关注】大模型时代,数据决定人工智能的高度,更多的训练数据是大模型迭代升级的前提,更高的数据质量也决定着大模型训练的效果。当前,大模型技术全面推动底层基础设施的发展,算力需求不断攀升,海量数据的存储和处理需求不断增长,对人工智能存储的性能、扩展性、数据韧性、数据范式等都提出更高要求。
为充分发挥新型AI存储对大模型赋能作用,更好支撑大模型发展,推动大模型应用落地,中国信息通信研究院(简称“中国信通院”)人工智能研究所特编制《新型人工智能存储研究报告(2025年)》。2025年4月9日,在中国人工智能产业发展联盟第十四次全会上,中国信通院人工智能研究所发布此报告,中国信通院人工智能研究所平台与工程化部主任曹峰对报告进行了解读。
报告重点对新型人工智能存储的概念范围、面临挑战、关键技术和最佳实践进行了梳理和分析。概念范围上,梳理了新型人工智能存储的基本概念,分析了全球人工智能存储战略和人工智能存储现状。面临挑战上,点明了新型人工智能存储是发力大模型的基础,但同时在海量数据归集、训练数据访问效率、推理实时性等方面存在诸多挑战。关键技术上,阐明了新型人工智能存储需要从存储介质、架构、系统、管理、编织和安全等方面发力。最佳实践上,介绍了银行、运营商、AI企业等在新型人工智能存储的实践案例。最后,报告针对当前人工智能存储发展的挑战,提出了未来我国新型人工智能存储发展建议。
报告核心观点
1. 新型AI存储是指专为人工智能应用和服务设计的数据存储系统,具备超高性能、超大容量、极致安全、数据编织等特征,可以有效支撑海量数据的分析和学习,是AI基础架构不可或缺的组成部分。
2. 新型人工智能存储具备极致性能、数据安全、大模型数据范式、高扩展性、数据编织和绿色节能6大关键特征。极致性能密度加快数据供给,提升AI全流程效率;支持向量、KV Cache等数据范式,加速推理应用;AI存储高可靠性提升基础设施持续服务时间,防勒索和加密保障数据安全;高扩展的AI数据湖降低数据工程和应用对接难度;数据编织实现全局数据可视可管,通过数据版本和血缘管理,保障数据质量不被破坏;绿色AI存储,降低每TB数据能耗和占用空间。
新型AI存储特征
3. 长记忆存储范式为推理提质增效。长记忆存储通过多级KV Cache机制,降低大模型推理的内存占用和计算开销。它以分级方式实现“终身记忆”能力,支持长序列推理和动态上下文建模。例如,在医疗领域,长记忆存储可缓存病理图像的历史计算结果,减少大部分冗余计算,提升推理速度数倍,同时支持多模态数据协同,增强模型对复杂场景的适应性。
4. 数据编织加强数据跨域高效处理。数据编织通过构建统一数据视图,打破数据孤岛,实现跨域数据整合与高效流动。其技术包括数据版本管理、数据血缘管理和统一命名空间,确保数据质量不下降,并通过兼容多种存储协议实现AI全流程业务的无缝对接。例如,在AI企业实践中,全局文件系统支持数据零拷贝和端到端加速,跨域调度效率提升数倍,显著降低数据治理成本,满足大模型对场景化数据治理的需求。
5. 超节点存储架构持续支撑扩展法则。超节点存储架构通过全对等、全直通设计,实现存储与计算之间高并行数据直通。例如,通过高通量数据总线互联,统一内存语义访问数据,实现计算、存储资源解耦灵活调度,资源利用率最大化;通过近存计算将数据预处理功能下沉至存储层,减少数据搬运开销,支撑十万卡级算力集群扩展,满足大模型对高扩展性和高并行数据流转的需求。
6. 高性能并行文件系统以存强算。高性能并行文件系统通过高性能、高可靠、高扩展和加速卡直通存储技术特性,提升大模型训练推理效率。其四大能力包括:百PB/s级带宽和亿级IOPS能力支持超万卡集群无瓶颈扩展;EB级扩展能力适应海量数据;存储系统高可用性达到六个九,实现软硬件故障的自动切换;加速卡直通技术实现数据从存储到GPU的“一跳直达”。
版权与免责声明:
凡本网注明“来源:智慧城市网”的所有作品,均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品,未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:智慧城市网”。违反上述声明者,本网将追究其相关法律责任。
本网转载并注明自其它来源(非智慧城市网)的作品,目的在于传递更多信息,并不代表本网赞同其观点或和对其真实性负责,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品第一来源,并自负版权等法律责任。
如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。