推荐五款开源的类ChatGPT大语言模型-duidaima 堆代码

推荐五款开源的类ChatGPT大语言模型

发布于 2个月前
 1219 热度

 0 评论

似水流年
0 粉丝 55 篇博客

对于很多个人开发者和小公司来说，没有时间、财力去研发ChatGPT那么强大的大语言模型，同时由于业务场景聚焦在特定领域对功能要求并不高。所以，可以采用一些功能强悍，资源消耗较低的开源模型平替ChatGPT达到相同的效果，使得每个人都能训练自己的ChatGPT模型。下面我将为大家盘点最近推出的5个性能媲美ChatGPT的开源项目。

ColossalAI
开源地址：https://github.com/hpcaitech/ColossalAI
Colossal-AI作为ChatGPT的平替，开源了完整的RLHF流水线，包括，监督数据收集、监督微调、奖励模型训练和强化学习微调等。基于LLaMA预训练模型，并分享最实用的开源项目ColossalChat。ColossalChat只用了不到100亿参数就达到中英文双语能力，通过在大语言模型基础上的RLHF微调，实现了与ChatGPT和GPT-3.5类似的效果。

演示：文本交互方式，无需注册或加入等候名单即可在线试用。
训练代码：开源完整的RLHF训练代码，包括70亿和130亿参数两种模型。
数据集：开源的104K中英文双语数据集。
推理：70亿参数模型的4位量化推理，仅需要4G GPU内存。
模型权重：单台服务器仅需少量算力即可实现快速复现。

GPT4All
开源地址：https://github.com/nomic-ai/gpt4all
GPT4All是基于LLaMA模型70亿参数微调而成。GPT4All 在GPT-3.5-Turbo 的800k 条数据上进行训练，包括文字问题、故事描述、多轮对话和代码。在答案生成方面，几乎与ChatGPT相似，但资源消耗方面更低、

Dolly
开源地址：https://github.com/databrickslabs/dolly
Dolly是一个基于Databricks机器学习平台上训练的大型语言模型，其工作方式是来自Eleuther AI的现有开源60亿参数模型，并使用来自 Alpaca 的数据对其进行轻微修改。dolly有60亿参数，由28个transformer 层组成，每个层有16个注意力头。采用旋转位置嵌入(RoPE) 并与 GPT-3共享相同的分词器。

Vicuna
开源地址：https://github.com/lm-sys/FastChat
Vicuna是通过从ShareGPT.com使用公共 API收集的大约70K用户共享对话，微调 LLaMA模型创建而成。Vicuna拥有130亿参数，具备生成详细、结构更合理的文本答案，可以媲美ChatGPT 和Bard 90%的能力。

Alpaca
开源地址：https://github.com/tatsu-lab/stanford_alpaca
Alpaca是从Meta的LLaMA模型70亿参数中微调而成。Alpaca的行为类似于OpenAI 的GPT-3.5（text-davinci-003），并且在运行环境和训练费用方面更低。开发团队从text-davinci-003以自我指导方式生成了52K数据，用于训练Alpaca模型。对于数据，开发人员通过建立在“自我指导方法”的基础上生成了指令遵循演示。并从自我指导种子集中的，175个人工编写的指令输出对开始。

然后，提示 text-davinci-003使用种子集作为上下文示例生成更多指令。开发人员通过简化生成管道改进了自我指导方法，并显着降低了成本。在数据生成过程产生的52K条独特指令和相应的输出，通过 OpenAI API整个成本不到500美元。

 用户评论

IT那些事
 341 成员 |  3687 话题
+我要提问 +随便写写

可能感兴趣的话题

Anthropic要价数十亿美元吓退苹果 Siri被迫投入Gemini怀抱

苹果二月份动向前瞻：全新Siri测试版即将登场

由乔布斯和沃兹尼亚克共同签名的一张苹果支票被拍出240万美元的高价

苹果详解由谷歌Gemini驱动的Siri运作原理