小米多模态大模型 Xiaomi MiMo-VL 开源-堆代码网

小米多模态大模型 Xiaomi MiMo-VL 开源

发布于 2个月前
 550 热度

 0 评论

双人剧
1 粉丝 40 篇博客

本周，小米正式发布新一代多模态大模型 MiMo-VL-7B。MiMo-VL-7B 在图像、视频与语言等多模态理解任务中表现出色，以 7B 的参数规模在 OlympiadBench 以及 MathVision、MathVerse 等多个数学类推理基准上，超越 Qwen2.5-VL-72B 和 QVQ-72B-Preview 等体量高出十倍的模型，也超越闭源模型 GPT-4o。

在长达十余步的 GUI 操作任务中，模型也展现出较强的执行逻辑与场景理解能力，甚至能够完成如「将小米SU7添加至心愿单」这类具有明确目标的多轮任务，具备高度 Agent 化潜力。

MiMo-VL-7B 的多模态能力来源于两大技术支撑：一是采用了高质量的图文、视频和操作序列构成的 2.4T 规模预训练数据，二是引入创新的 MORL（混合在线强化学习）训练策略，将文本、多模态感知推理能力与 RLHF 信号融合，实现更稳定的策略学习与推理表现。

目前，小米已将 MiMo-VL-7B 的完整模型、技术报告和评估工具全面开源，相关资源已发布至 Hugging Face 和 GitHub 平台，支持 50+ 多模态任务评估。
与此同时，小米还同步发布了语言模型 MiMo-7B 的最新强化版本 MiMo-7B-RL-0530。在数学代码类任务中，其表现已接近目前最强开源推理模型 DeepSeek R1 和 OpenAI 的闭源模型 o1、o3-mini。

 用户评论

IT那些事
 348 成员 |  4680 话题
+我要提问 +随便写写

可能感兴趣的话题

知名黑客组织发动大规模入侵超百家机构Oracle服务器遭攻破

加码移动端与游戏业务 Netflix持续深耕亚太市场

企业AI投入持续飙升数据显示人力成本仍高于AI支出

Zest全新探店APP上线，重构城市餐厅发现模式