2023 AI走过的这一年-duidaima 堆代码

2023 AI走过的这一年

发布于 2个月前
 481 热度

 0 评论

温柔在手心
1 粉丝 41 篇博客

AI 在 2023 年无疑掀起了波澜，我们在这里重点介绍一下这一年中最重要的故事，这些故事有望塑造这个开创性行业的未来。

一.AI 进展
今年在 AI 领域的发展主要集中在现有技术的完善上，而非像去年的 ChatGPT 或图像生成器那样带来颠覆性的创新。虽然今年没有出现令人瞩目的成果，通用人工智能（AGI）的实现仍旧遥远，但这一年却成为了连接过去突破与未来更加强大技术的过渡期。为了直观展示这一演变过程，我们创建了一个时间线图，突出展示了今年 AI 领域最引人注目的发展和进步。

图像生成领域
Adobe Firefly：Adobe 的 Firefly 和 Generative Fill 为创造多样化视觉内容，如插画、艺术构思和照片编辑，提供了强大支持。这些功能被整合到了 Photoshop 中，使得 AI 技术得以普及，服务于更广泛的用户群体。此外，新推出的文本效果特性也代表了一大进步，它让用户能够轻松地给文字和短语添加样式或纹理。
Midjourney：Midjourney 的 V5 模型在图像生成领域达到了一个新的里程碑，展示了其在效率、连贯性和分辨率上的明显提升。它的最新 alpha 版本 V6 进一步增强了功能，例如提高了对提示的准确认知、增加了模型的知识量，以及新增了简单的文字绘制能力。
DALL·E 3：基于 ChatGPT 构建的 DALL·E 3 在简化图像生成方面迈出了重要一步，减少了对复杂提示构建的依赖。此外，ChatGPT 还引入了一个新功能，帮助用户根据反馈优化提示并进行图像调整。
Shutterstock.AI：作为一个图库巨头，Shutterstock.AI 融合了 AI 功能，让用户可以将文字提示转换为可供授权使用的图像。通过认可和奖励内容贡献者，Shutterstock 在推进伦理 AI 方面迈出了重要一步。

视频生成领域
Stability AI：Stability AI 发布了 Stable Video Diffusion，这是一款开创性的视频生成模型，已在 GitHub 上开源。类似于 AI 图像生成的趋势，Stable Video Diffusion 模型可能在未来大量 AI 生成的视频创作中扮演核心角色。
HeyGen：这家人工智能初创公司推出了一款集语音克隆、嘴唇运动同步和视频语言翻译于一体的工具。
Runway Gen-2：Runway 推出的 Gen-2 模型允许用户基于文本提示、图像或其他视频内容轻松生成完整视频。下面是一些示例。
Pika 和 Pika 1.0：自首次发布以来，Pika 已吸引超过 50 万用户，并每周生成数百万个视频。Pika 1.0 中升级的 AI 模型进一步增强了用户创建和编辑各种风格视频的能力，如 3D 动画、动漫、卡通和电影等。
Meta 的编解码器头像：Meta 的 3D 人脸像素编解码器头像（PiCA）模型用于视频中，使我们更加接近于实现照片级真实感的远程呈现。

文本生成领域
Bard 和 Gemini：Google 的 Bard 聊天机器人引入了类似人类的情感和情绪，让交流更加生动。在 Bard 中融入的 Google Gemini 模型，基于包含多种数据类型的数据集训练，被认为是目前最先进的 AI 模型之一，与 OpenAI 的 ChatGPT 竞争激烈。
Grok：Elon Musk 的新创公司 xAI 推出了名为 Grok 的聊天机器人，表现出了 Elon 对 AI 领域的深入投入。Grok 不仅风趣幽默、带有叛逆特质，还能通过 𝕏 平台提供实时知识。它专门设计来回答其他 AI 系统不愿涉及的敏感或挑衅性问题。
OverflowAI：Stack Overflow 的 OverflowAI 项目提升了知识整理能力，使得在 Visual Studio Code 和 Slack 中搜索相关答案更加高效。
Llama 2：Meta 发布了下一代开源 LLM Llama 2，展示了更高的效率。这个经过特别优化的模型在多数评测中表现优越，特别适合用于对话场景。
GPT-4：OpenAI 的 GPT-4 在功能上实现了重大飞跃，不仅可以处理图像输入，生成描述和分类，还能参与对话并支持实时网页浏览。OpenAI 还扩展了对插件的支持，促进了开源竞争者生态系统的繁荣。GPT-4 是 OpenAI 向着开发通用人工智能（AGI）迈出的又一重要步伐。
Mistral 7B：估值约 20 亿美元的 Mistral AI 发布了 Mistral 7B 模型，与 GPT-4 和 Claude 2 竞争。Mistral AI 采用了开放技术策略，允许用户免费下载该模型。
Mistral 8x7B：Mistral AI 还推出了 Mistral 8x7B，这是一个高质量的稀疏专家模型混合体（SMoE），具有开放的权重设置，拥有 46.7B 总参数量。该模型在增强真实性和减少偏见方面开创了先例。
Yi-34B llm：李开复的 01.AI 公司，今年估值达到 10 亿美元，发布了 Yi-34B 开源神经网络。这个模型以更高的参数数量超越了竞争对手，强调成本效率。

其他重要进展
Segment Anything Model（SAM）：Meta AI 开发的 SAM 是一种图像分割模型，能够在无需额外训练的情况下精准识别并分割图像中的物体，展示了其适应性和强大的性能。
Direct Preference Optimization（DPO）：DPO 成为一种稳定高效的方法，用于微调大规模无监督语言模型，以及教导文本到图像的模型。它通过人类反馈实现了精确的控制，而无需复杂的强化学习。
Zephyr Direct Distillation of LM Alignment：Zephyr-7B 模型是通过直接偏好优化蒸馏（dDPO）方法开发的，为具有 7B 参数的聊天模型设定了新的标准，无需大量训练即可更好地理解和对齐用户意图。
自主 AI Agent：自主 AI Agent 成为了一个明显的趋势，标志着向更高级和自主的 AI 系统的转变。这些 Agent 能够基于用户的目标自主生成任务和指令，并独立完成，被视为通用人工智能（AGI）的初步体现。
EvoDiff：微软的 EvoDiff 是一个开源 AI 框架，用于快速且节省成本地生成蛋白质，有望在医疗和工业领域带来突破。
Stable Audio：Stability AI 推出了一个工具，可以根据简单文本提示生成短时高质量音频片段。
GPT Store、版权防护、ChatGPT 机器人构建器：OpenAI 推出了 GPT Store，销售定制化 GPT 机器人，版权防护计划，为版权侵权索赔相关的法律费用提供保障，以及一个无代码平台，用于构建定制版 ChatGPT。

Stability AI 开源其 LLM：Stability AI 将其模型 StableLM-Alpha 和 Stable Vicuna 开源，这些模型在生成文本和代码方面的表现非常优秀。Stable Vicuna 是第一个使用人类反馈的强化学习（RLHF）训练的开源聊天机器人。此外，Stability AI 还推出了 SDXL Turbo，一种实时文本到图像生成模型。

二.合作伙伴关系的新篇章
2023 年对 AI 领域来说是一个重要的年份，众多行业巨头通过战略性合作共同塑造了这一领域的未来走向。下面是今年最具影响力的几项合作：

Stability AI 与 Init ML 合作：Stability AI 收购了热门编辑应用 ClipDrop 的开发团队 Init ML，这是一次重大的行业动作。他们的合作目标非常明确：把 Stability AI 的尖端技术融入到 ClipDrop 的生态系统中。这次合作已成功开发出了名为 SDXL Turbo 的新技术。

Runway 与 Getty Images 强强联合：Runway 与 Getty Images 建立了战略合作伙伴关系，共同推出了名为 RGM （Runway 和 Getty Images 模型）的新视频生成模型。这个模型将 Runway 的 AI 技术和 Getty Images 丰富的许可创意内容库结合起来。此次合作旨在彻底革新内容创作流程，使企业能够制作出既高质量又能贴合品牌形象的定制视频。

Snowflake 收购 Neeva：数据仓库平台的重要参与者 Snowflake 收购了使用生成式 AI 改善搜索体验的初创公司 Neeva。尽管 Neeva 最近关闭了其基于订阅的无广告搜索引擎，但这项收购显示了 Snowflake 对 AI 领域的投资和扩展意图。Neeva 创始人也公开讨论了说服用户尝试新搜索引擎的挑战。

Shutterstock 与 OpenAI 的长期合作：Shutterstock 和 OpenAI 确定了一项为期六年的合作延长协议。通过这项合作，OpenAI 获得了 Shutterstock 丰富的高质量数据，包括图像、视频和音乐库，这些都将用于丰富其模型训练数据集。与此同时，Shutterstock 利用 OpenAI 的先进技术，推出了自家的 AI 图像生成工具，进一步拓展其业务范围。

三.法律领域新动态
2023 年，在不断进步的 AI 法律领域，我们面对一个充满不确定性和持续辩论的复杂局面。随着新挑战的出现，关于版权、公司政策以及更广泛的监管框架的讨论也在持续进行，这些讨论正塑造着 AI 的法律版图。以下是 2023 年最重要的法律议题：

欧洲 AI 法案
欧盟推出了 AI 法案，这是世界上第一部全面规范 AI 使用的法律。该法案根据 AI 系统可能造成的风险级别进行分类，并据此制定了相应的规定。虽然 AI 法案已得到暂时性的批准，但其实施工作正面临延迟，预计直到 2025 年才会正式施行。

美国版权局对 AI 生成内容注册的立场
美国版权局明确表态，拒绝为由 AI 算法 Midjourney 独立创作的图像注册版权。这一决策树立了一个先例，明确指出完全由 AI 独立创作、无人类参与的艺术作品不符合版权保护资格。

与此同时，美国版权局还针对 AI 辅助创作的作品发布了指导意见，明确表示，由人类利用 AI 工具创作的作品可能符合版权保护条件。这些指导意见确认了，评估由人类利用 AI 工具创作的作品是否符合版权保护，关键在于人类在创作过程中的作用是否具有决定性。

当前的法律体系尚未准备好接受 AI 创作作品的版权注册，因为 AI 是基于现有数据进行学习的，而这些数据的所有权属于其他人，这就挑战了归属权的确定。预计明年，通过国家进行的公众调查，将促进解决这一问题。如今，没有广泛的公众参与，要独立解决这个问题颇为困难。——Daria Kuznetsova，Everypixel 公司律师

麦肯锡还发布了一幅综合图表，展示了 2023 年最重要的 AI 治理相关政策和监管努力。这一图表生动地展现了 2023 年在塑造 AI 法律环境方面所做的重大贡献。

五.争议
在 2023 年，随着 AI 领域的规范和发展，出现了一系列引人入胜的辩论和讨论。这些辩论不仅是行业发展的必然结果，也预示着未来会有更多令人深思的对话和挑战。以下是今年最为引人注目的几场辩论：

对 ChatGPT 的企业限制
摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等主要金融机构出于对安全和隐私的担忧，限制了对 ChatGPT 的使用。这反映了一个更广泛的趋势，即众多公司开始向员工发布警告，提醒他们在企业环境中使用 AI 应用程序时要考虑相关的法律问题。

OpenAI 使用低薪劳工
《时代》杂志的一项调查曝光了 OpenAI 与 Sama 的合作，后者在肯尼亚雇佣低薪工人来筛选 ChatGPT 的敏感内容。这一发现引发了关于对工人的待遇以及内容审核对心理健康影响的伦理问题。

OpenAI 的领导层变更
上个月，Sam Altman 的短暂离职和迅速复职成为了新闻头条。在与董事会沟通不畅的情况下，Sam Altman 离开了 OpenAI 的 CEO 职位。在临时 CEO Mira Murati 和大多数员工的支持下，Altman 重新回归。这一前所未有的情形引起了广泛关注，并留下了关于这次领导层变更真正原因和对未来的影响的种种猜想。

Adobe 和 Figma 的交易
Adobe 计划以 200 亿美元收购 Figma 的方案遇到了监管障碍。欧洲委员会和英国竞争和市场管理局对这笔可能存在反垄断问题的交易进行了调查。这笔提议的交易不仅涉及设计领域的影响，Adobe 在客户数据平台上的主导地位也让众多 CIO 对其可能对云软件支出的影响感到担忧。然而，由于在欧洲和英国难以获得反垄断审批，Adobe 最终放弃了这笔交易，并向 Figma 支付了 10 亿美元的违约金。

摄影师在世界摄影大赛中的 “黑客行为”
摄影师 Boris Eldagsen 在索尼世界摄影大赛中提交了 AI 生成的艺术作品，打破了比赛的常规。Eldagsen 拒绝接受奖项，引发了一场关于 AI 生成图像在传统摄影比赛中地位的辩论，挑战了人们对于真实性和创造性的传统看法。

 用户评论

AI大模型
 98 成员 |  643 话题
+我要提问 +随便写写

可能感兴趣的话题

MindsDB：治理数据混乱的魔杖

Function Calling与MCP，究竟是替代还是互补？

我发现所有的MCP-Server都好像不太好用，是我打开方式不对吗？

jetbrain 系的 ide 有比较好的 ai 编程解决方案吗？