• 小米开源声音理解大模型
  • 发布于 2小时前
  • 7 热度
    0 评论
  • 心已凉
  • 8 粉丝 53 篇博客
  •   

昨日,小米技术发文宣布,正式发布并全量开源其声音理解大模型 MiDashengLM-7B 模型。官方介绍,MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。值得一提的是,MiDashengLM-7B 的声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩(SOTA),多个基准测试超越 Qwen2.5-Omni 7B 和 Kimi-Audio-Instruct 7B。


效率方面,MiDashengLM-7B 单样本推理的首 Token 延迟(TTFT)仅为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。官方表示,这种效率优势直接转化为实际部署效益,在同等硬件条件下可支持更多的并发请求量,降低计算成本。另外,MiDashengLM 训练数据 100% 来自公开数据集,涵盖五大类 110 万小时资源,包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。


小米表示,作为「人车家全生态」战略的关键技术,MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。
GitHub 主页:https://github.com/xiaomi-research/dasheng-lm
技术报告:https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
模型参数(Hugging Face):https://huggingface.co/mispeech/midashenglm-7b
模型参数(魔搭社区):https://modelscope.cn/models/midasheng/midashenglm-7b
网页 Demo: https://xiaomi-research.github.io/dasheng-lm
交互 Demo:https://huggingface.co/spaces/mispeech/MiDashengLM
用户评论