• 小米多模态大模型 Xiaomi MiMo-VL 开源
  • 发布于 1周前
  • 43 热度
    0 评论
  • 双人剧
  • 1 粉丝 37 篇博客
  •   
本周,小米正式发布新一代多模态大模型 MiMo-VL-7B。MiMo-VL-7B 在图像、视频与语言等多模态理解任务中表现出色,以 7B 的参数规模在 OlympiadBench 以及 MathVision、MathVerse 等多个数学类推理基准上,超越 Qwen2.5-VL-72B 和 QVQ-72B-Preview 等体量高出十倍的模型,也超越闭源模型 GPT-4o。

在长达十余步的 GUI 操作任务中,模型也展现出较强的执行逻辑与场景理解能力,甚至能够完成如「将小米SU7添加至心愿单」这类具有明确目标的多轮任务,具备高度 Agent 化潜力。


MiMo-VL-7B 的多模态能力来源于两大技术支撑:一是采用了高质量的图文、视频和操作序列构成的 2.4T 规模预训练数据,二是引入创新的 MORL(混合在线强化学习)训练策略,将文本、多模态感知推理能力与 RLHF 信号融合,实现更稳定的策略学习与推理表现。


目前,小米已将 MiMo-VL-7B 的完整模型、技术报告和评估工具全面开源,相关资源已发布至 Hugging Face 和 GitHub 平台,支持 50+ 多模态任务评估。
与此同时,小米还同步发布了语言模型 MiMo-7B 的最新强化版本 MiMo-7B-RL-0530。在数学代码类任务中,其表现已接近目前最强开源推理模型 DeepSeek R1 和 OpenAI 的闭源模型 o1、o3-mini。
用户评论