阿里云于2023年9月25日宣布开源其基于Transformer架构的140亿参数大语言模型Qwen-14B及其对话版本Qwen-14B-Chat。
Qwen-14B支持多语言,训练数据量达到3万亿Token,能够处理长达8k的上下文窗口。Qwen-14B-Chat则经过SFT精细化训练,提供更准确的对话内容。这两模型均可通过阿里魔搭社区下载或在阿里云平台使用。

大语言模型是一种深度学习模型,专门处理和生成文本。与传统AI相比,它具有更多的参数,通常基于Transformer架构。这些模型通过大量文本数据训练,能自动捕获语言特征,无需手工特征工程。其训练方法包括预训练和微调,使其在多种自然语言处理任务上都有出色表现。
自从OpenAI基于GPT系列大语言模型的ChatGPT去年横空问世以来,ChatGPT以在和人交互的时候更像人类,可以用于多种任务帮助人类解决实际问题,而受到了全世界各大企业的重视。
目前大语言模型的生态开发,主要有两种路线:闭源和开源。
具体来说,闭源就是不开放模型代码的下载,客户调用模型提供者的API服务来使用模型。最典型的代表是OpenAI的GPT系列模型。它们目前只能通过API来调用。
开源就是开放模型代码下载,用户可以对下载的代码进行自己的预训练,微调,部署,比如说Meta公司的Llama 和Llama 2,以及阿里巴巴开源的通义千问系列模型。

闭源大模型,通过API提供访问,是包括OpenAI和谷歌在内的一些大模型的服务方式。这种服务方式,对促进大模型生态的发展,围绕大模型构建各行各业的各种应用,有一些明显的缺点。
首先,通过API提供访问,就意味着只有一种部署方式,一种选择。也就是用户把数据通过互联网发给模型的API提供方,然后等待对方处理以后返回结果。
这种方式意味着,围绕大模型构建的应用,也没有其他选择。构建应用的时候,要进行各种测试,也会很困难。很多企业,尤其是中小企业,对围绕API构建自己的应用和生态,不仅仅不方便,也会有顾虑。
比如说,一个企业想要构建一个基于大语言模型的应用,但是希望部署在没有互联网连接的环境,选择闭源的,基于API的大语言模型,就很不切实际。
其次,基于API的闭源的大语言模型,对很多企业,尤其是中小型企业,和广大开发者,还有一个顾虑:费用问题。虽然说,大语言模型API的单次收费看起来可能不起眼,但是累积起来,支付的费用可以非常的高昂。
而很多开发者和中小型企业,想构建基于大语言模型的应用,遇到这种基于API的大语言模型,首先担心的,就是自己能够盈利吗?会不会给大语言模型提供商打工了?
最后,基于这种闭源的API的大语言模型,最终也会导致市场上只有几家巨头垄断了大语言模型,大家的应用都要依赖这些巨头,大语言模型的多样性,不同组织和个人对大语言模型的技术进步做出贡献,都会变得非常的困难。
而基于开源模型,就不会有上述的问题。由于模型本身是开源的,所以模型可以被各大企业和个人开发者按照自己需要的方式去部署,开发者也不用担心为API支付高昂的费用。个人和企业对开源大语言模型做出贡献,也能充分的得到保障,大语言模型,和整个应用生态圈的多样性都能够得到保证。
当然,基于API的大语言模型,也不是全无优点。如果开发者和企业想构建基于大语言模型的应用,却不想自己去部署环境的话,那么基于API的闭源大语言模型,就很方便使用了。
而且,基于API的闭源大语言模型的参数可以做得非常的大。这么大的参数对很多中小企业和个人开发者来说,是不需要的,但是某些大型企业的某些大型软件开发来说,就有需要了。这是目前开源的大语言模型无法企及的。
但是这些优点对于开源的大语音模型,也不是没有相应的解决方案。比如说,第一个优点,用户自己不想费心去部署大模型,解决部署过程中的各种问题。有些大模型在开源的时候,企业就考虑到了。
比如说Meta的开源模型Llama2在开源的时候,就选择和微软的Azure云平台一起合作,推出一站式解决方案。而阿里云在开源自己的通义千问模型的时候,也在阿里云上提供了相应的云服务。
这种方式对开源社区,开发者,和云服务提供商都是共赢的,开源社区有了开源模型,方便个人和企业贡献,为模型多样性提供了基础。开发者个人和企业,喜欢折腾的可以自己部署,不喜欢折腾的可以用云厂商提供的一站式解决方案。而云厂商,一方面通过开源模型,拓展了客户和生态,一方面也通过提供云服务赚到了钱。
至于第二个基于API的闭源大语言模型,参数可以做得非常的大。说实在的,开源的大语言模型,如果需要定制的话,参数也是可以做得很大的。只不过在开源这个环境下,大部分的用户,并不需要用到那么大的参数。
如果说有这样的客户,确实需要这么大的参数的定制化模型,对开源模型提供者,比如说通义千问的提供者阿里云来说,为这些客户定制模型,提供专属的部署,也不是什么难事。
这个事情的好处在于,一方面,这样的客户不是很多,另外一方面,但凡有这种需求的,都是大客户,钱不是问题。所以如果用户有了这种需要,提供定制化服务, 必然也是利润丰厚的高端客户,我相信云厂商也不会放着利润不捡。
所以总的来说,开源大语言模型的优势明显,既方便了想要基于大语言模型开发应用和生态的企业和个人,也为想给大语言模型贡献的个人和企业提供了途径,保证了社区的多样性。这两者也为云厂商扩展了客户源,为云厂商基于开源大语言模型提供了丰厚的盈利,和增长空间。而闭源的,基于API的大语言模型的优势,开源大语言模型的提供者,也可以通过不同的方式来解决。
综上所述,长期看起来,开源的大语言模型是商业与生态的双赢。而闭源的大语言模型,伴随着开源生态的兴起,固然还能有其一席之地,却很难做到星火燎原,撑起整个生态圈。