微软开源了最新Phi-3.5系列模型支持mini指令微调、专家混合和视觉微调三种模型-堆代码网

微软开源了最新Phi-3.5系列模型支持mini指令微调、专家混合和视觉微调三种模型

发布于 2个月前
 702 热度

 0 评论

CEBBCt
7 粉丝 69 篇博客

微软开源了最新Phi-3.5系列模型，共有mini指令微调、专家混合和视觉微调三种模型。Phi-3.5系列的参数非常小，但性能却超过了Meta最新开源的Llama 3.1 8B和Mistral 7B等知名开源模型，也是目前开源大模型排行榜中唯一入选前10名的小参数模型。所以，微软开源的Phi-3.5系列是专门面向那些算力、硬件有限的中小企业和个人开发者，同时可以部署在手机、平板电脑等移动设备中使用。

Mini开源地址：https://huggingface.co/microsoft/Phi-3.5-mini-instruct
专家混合：https://huggingface.co/microsoft/Phi-3.5-MoE-instruct
视觉：https://huggingface.co/microsoft/Phi-3.5-vision-instruct
微软其他模型开源地址：https://huggingface.co/microsoft

Phi-3.5架构简单介绍
Phi-3.5是2.0、3.0版本的延伸，使用的是Transformer解码器，有3072维隐藏层、32个注意力头以及32层架构。具有4K的默认上下文长度，并通过 LongRope扩展至128K，使得模型能够处理更长的文本序列，支持中文、英文、法文等。此外，还使用了组查询注意力机制，每个注意力头的KV缓存中使用4个查询共享1个键。为了进一步提高训练和推理速度，微软使用了块稀疏注意力模块，能根据不同的稀疏模式有效地划分上下文，减少KV缓存的使用量。

Phi-3.5之所以能够实现如此出色的性能，主要原因之一是其使用了超过3.3万亿token高质量训练数据集。这个数据集是 phi-2 使用的数据集的扩展版本，由经过严格筛选的公开网络数据以及合成数据组成，在模型的预训练过程中发挥了巨大作用。

在安全优化方面，使用了监督微调、近端策略优化和直接偏好优化等方法，使Phi-3.5的输出更符合人类预期，极大减少非法、错误的内容输出。

三款模型
Phi-3.5-mini指令微调模型支持128K上下文，能生成文本/代码、数学推理、解读长文档、总结会议摘要等。在MMLU、MGSM、MEGA TyDi QA、MEGA XCOPA等测试基准中，整体性能超过Llama-3.1-8B、Mistral-7B。Phi-3.5视觉模型除了文本生成之外，还支持图像识别、光学字符识别、图表/表格解读、图像比较、剪辑视频摘要等。

在Art Style、Counting、Forensic Detection、Jigsaw、Relative Depth、Visual Correspondence等视觉基准测试中，其性能超过了InternVL-2-4B/8B、GPT-4o-mini、Claude-3.5-Sonnet、Gemini-1.5-Flash等知名开闭源模型，仅次于GPT-4o。

Phi-3.5专家混合模型共有420亿参数，但在推理的过程中只有66亿参数处于激活状态，其性能大幅度超过了同类开闭源模型，但对资源的消耗却非常低。而专家混合模型可以根据不同场景的复杂任务，调动切换不同的专家模块来处理，进一步提升了对资源的合理分配。

专家混合模型之所以能够实现这种效率和性能的平衡，源于其独特的技术原理。在专家混合模型架构中，模型不是由单一的神经网络构成，而是由多个小型网络或专家组成。每个专家负责处理其擅长的特定类型的任务。当模型接收到输入数据时，会通过 “门控网络”来决定哪些专家需要被激活，以及每个专家应该对最终的输出贡献多少。

专家混合模型的另一个技术优势是其可扩展性。随着开发人员对模型进行进一步的训练和优化，可以轻松地增加更多的专家来提升模型在特定领域的表现，或者通过改进门控网络来优化模型的决策过程。

 用户评论

AI大模型
 108 成员 |  715 话题
+我要提问 +随便写写

可能感兴趣的话题

Cloudflare 的 Agent Cloud 为企业带来类似 OpenClaw 的工作流

云原生AI代理的下一站：告别工具过载，补上缺失的上下文层

斯坦福AI报告：专家乐观，公众焦虑，AI领域的认知鸿沟正在拉大

为何我会忍不住为小型开源AI模型开发商Arcee加油