昨日,小米技术发文宣布,正式发布并全量开源其声音理解大模型 MiDashengLM-7B 模型。官方介绍,MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。值得一提的是,MiDashengLM-7B 的声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩(SOTA),多个基准测试超越 Qwen2.5-Omni 7B 和 Kimi-Audio-Instruct 7B。
效率方面,MiDashengLM-7B 单样本推理的首 Token 延迟(TTFT)仅为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。官方表示,这种效率优势直接转化为实际部署效益,在同等硬件条件下可支持更多的并发请求量,降低计算成本。另外,MiDashengLM 训练数据 100% 来自公开数据集,涵盖五大类 110 万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。