小米开源声音理解大模型-堆代码网

小米开源声音理解大模型

发布于 2个月前
 690 热度

 0 评论

心已凉
8 粉丝 62 篇博客

昨日，小米技术发文宣布，正式发布并全量开源其声音理解大模型 MiDashengLM-7B 模型。官方介绍，MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器，通过创新的通用音频描述训练策略，实现了对语音、环境声音和音乐的统一理解。值得一提的是，MiDashengLM-7B 的声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩（SOTA），多个基准测试超越 Qwen2.5-Omni 7B 和 Kimi-Audio-Instruct 7B。

效率方面，MiDashengLM-7B 单样本推理的首 Token 延迟（TTFT）仅为业界先进模型的 1/4，同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。官方表示，这种效率优势直接转化为实际部署效益，在同等硬件条件下可支持更多的并发请求量，降低计算成本。另外，MiDashengLM 训练数据 100% 来自公开数据集，涵盖五大类 110 万小时资源，包括语音识别、环境声音、音乐理解、语音副语言和问答任务等多项领域。

小米表示，作为「人车家全生态」战略的关键技术，MiDashengLM 通过统一理解语音、环境声与音乐的跨领域能力，不仅能听懂用户周围发生了什么事情，还能分析发现这些事情的隐藏含义，提高用户场景理解的泛化性。
GitHub 主页：https://github.com/xiaomi-research/dasheng-lm
技术报告：https://github.com/xiaomi-research/dasheng-lm/tree/main/technical_report
模型参数（Hugging Face）：https://huggingface.co/mispeech/midashenglm-7b
模型参数（魔搭社区）：https://modelscope.cn/models/midasheng/midashenglm-7b
网页 Demo： https://xiaomi-research.github.io/dasheng-lm
交互 Demo：https://huggingface.co/spaces/mispeech/MiDashengLM

 用户评论

AI大模型
 110 成员 |  716 话题
+我要提问 +随便写写

可能感兴趣的话题

一种无人建模的企业风险：AI 正在取代它本需学习的专家

中国AI视频生成模型震动好莱坞

你的 AI 编码工具患上了 “健忘症”

云原生AI代理的下一站：告别工具过载，补上缺失的上下文层