光谷再添一家A I大模型_智慧城市,A I大模型_科技动态

今日热点更多

精彩视频更多

保伦电子与您共创智慧文旅新图景

力卡电子专业无线音频设备
2026-04-29
雷蒙电子携新品亮相
2026-04-29

推荐展会更多

IOTE 2026 第二十五届国际物联网展・深圳站展会

热搜话题更多

#2025年智慧城市行业十大关键词

#共绘中国智慧城市拼图

#我国部署建设10个国家数据要素综合试验区

新发产品更多

24mm孔径互感器
安科瑞电气股份有限公司
￥56
机架式IP网络广播功放主机设备
深圳锐科达电子有限公司
面议
红外抄表仪
山东仁科测控技术有限公司
￥55
原装Delmhorst木材纸张水份测定仪PX-30探针
天津克莱瑞科技有限公司
￥1000
手持式车辆测速仪
山东天合环境科技有限公司
￥2280
小鼠Ⅶ型胶原(COL7)检测试剂盒
上海酶联生物科技有限公司
面议

光谷再添一家A I大模型

2023年12月22日 08:55:52来源：武汉经信点击量：56690

导读近日，华中科技大学软件学院白翔教授领衔的VLRLab团队联合金山办公，发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。

　　【智慧城市网科技动态】近日，华中科技大学软件学院白翔教授领衔的VLRLab团队联合金山办公，发布了多模态大模型——“Monkey”。该模型能够实现对世界的“观察”，对图片进行深入的问答交流和精确描述。

　　多模态大模型是一类可以同时处理和整合多种感知数据(例如文本、图像、音频等)的AI架构，近年来在众多场景中展现了惊人的能力。

　　Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外，Monkey在文本密集的问答任务中显示出显著的优势，甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。

　　Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中，Monkey正确地将其识别为埃菲尔铁塔的绘画，并提供了构图和配色方案的详细描述。而对左下角的文字，只有Monkey和GPT-4V能将其准确地识别为作者名。

　　这样惊人的描述能力是怎么做到的？目前，几乎所有多模态大模型都需要运用网上爬取的图文对数据集，这些数据集只能进行简单的图文描述，无法大分辨率图片的需求。Monkey巧妙利用现有的工具构建了一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，此举可以充分结合不同工具的特性，打出一套威力十足的“组合拳”，大幅度提升描述的准确性和丰富程度。

　　“一个个工具就好比不同的零件，合理的排列组合才能使其发挥最大作用，”白翔教授说，“我们团队从2003年开始便从事图像识别研究，去年我们又从海外引进了专攻多模态大模型的青年人才，Monkey的最终方案是大家一起反复讨论，尝试了10余种方案后最终确定的。”白翔教授说。

　　Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

　　目前，业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力，需投入十分高昂的算力成本。如何更低成本扩大输入分辨率？该团队骨干青年教师刘禹良向记者介绍，团队采用了创新性的“裁剪”方法，将原始输入图片分割成多个块，每块尺寸小于448×448像素，并为每个块配备了一个“放大镜”，放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作，分别“放大”不同的图片块，就能提取更多局部特征。

　　“未来，我们希望Monkey更强大，真正成为神通广大的‘孙悟空’！”对这“只”小猴子，白翔教授信心满满。

　　以光谷为核心承载，目前，武汉已成功推出并商业化落地“紫东太初”多模态大模型、东湖灵境SoulGPT等大模型，已落地应用“星火”大模型、金山办公WPS AI，并推出“武汉.LuoJia”遥感大模型，还有几款行业大模型正在开发。

　　近期，光谷还发布了“软件十条”，开源平台建设最高补贴3000万元，鼓励各类主体进行重大开源项目软件开发，孕育原创性、爆炸性、轰动性的具有全球影响力的大模型。

关键词智慧城市A I大模型

“破冰行动”除雪机器人应运而生

机器人掌勺： AI 全自动餐厅将在南加州开业

相关阅读更多

国家数据局发布《数字中国发展报告（2025年）》
数字经济“进”的态势更加稳健，数字经济核心产业增加值占国内生产总值的比重达到10.5%以上。
数据数字经济
2026-04-29
2026年“模数共振”行动启动数智赋能新型工业化
近日，工业和信息化部、国家数据局联合印发通知，正式启动 2026 年 “模数共振” 行动
新型工业化数字经济
2026-04-29
济宁邹城：巧做建筑垃圾“加减法”，智慧监管提效能
智慧监管是提升建筑垃圾管理效能的核心支撑，邹城市通过平台整合、数据赋能、智能预警，构建全时段、全方位、全要素监管体系。
数据数字经济
2026-04-29
湖南省工业和信息化厅公布2025年度湖南省人工智能大模型、制造业数字化转型促进中心名单
经企业申报、市州推荐、综合审查、现场答辩、会议审定、网上公示等程序，现将2025年度湖南省人工智能大模型、制造业数字化转型促进中心...
人工智能大模型制造业数字化转型
2026-04-29
推进“人工智能+气象” 提升气象预报准确率
人工智能更推动气象服务向“场景化、个性化、全球化”延伸，让气象数据真正转化为服务社会的价值。
人工智能气象
2026-04-29
工信部、国家数据局启动2026年“模数共振”行动依托重点城市打造智能体工厂
当前，模型与数据已成为驱动人工智能高质量发展的两大核心要素，数据孤岛、模型泛化不足、场景适配低效等问题日益凸显。
数据数字经济
2026-04-29

版权与免责声明：

凡本网注明“来源：智慧城市网”的所有作品，均为浙江兴旺宝明通网络有限公司-智慧城市网合法拥有版权或有权使用的作品，未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的，应在授权范围内使用，并注明“来源：智慧城市网”。违反上述声明者，本网将追究其相关法律责任。

本网转载并注明自其它来源（非智慧城市网）的作品，目的在于传递更多信息，并不代表本网赞同其观点或和对其真实性负责，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品第一来源，并自负版权等法律责任。

如涉及作品内容、版权等问题，请在作品发表之日起一周内与本网联系，否则视为放弃相关权利。