多模态进展快速，微软AI应用百花齐放

发布时间：2023-10-12 12:33:54 所属栏目：外闻来源：互联网

导读： 　　跟进联合开放人工智能的愿景，在推进大规模神经网络以及各种应用的同时实现同步进展。多种模态正成为大模型发展的主旋律，大模型也能够在多种模态下愈发展现出更加出色的能力，进一步推

　　跟进联合开放人工智能的愿景，在推进大规模神经网络以及各种应用的同时实现同步进展。多种模态正成为大模型发展的主旋律，大模型也能够在多种模态下愈发展现出更加出色的能力，进一步推动创新应用的落地。每次 OpenAI 更新模型后，微软都迅速推出相关应用以跟进最新技术进展，为行业树立了典范。

　　OpenAI 推出的GPT-4、DALL·E3等大模型，是微软AI 应用的核心驱动来源。OpenAI 发布的GPT-4 现已加入了语音和图像功能，使用户能够通过语音与图像的形式与之互动，为用户提供更加丰富和多样化的交互方式。另外，第三代DALL·E 模型它将相比以往的模型更加擅长理解文字提示，从而能生成更加细致的图像。OpenAI 多个大模型的快速进展使得垂直领域的应用更加智能，颠覆传统工作模式，尤其是办公领域。同时，AI 办公领域的其他创业公司也在兴起。

　　微软 Copilot 是全球首款 AI 智能助手，Microsoft 365 Copilot 企业版将于 2023 年 11 月 1 日全面开放，用户能以 30 美元/月的价格开通助手服务，结合办公全家桶，用户可以用自然语言与办公软件交互，个人办公和企业协作、运营等新的运用模式都将变革现有的办公生态。同时，Windows Copilot 通过插件连接各种软件功能，将改变人们使用网络获取服务的方式，微软操作系统庞大用户基数预示着其活跃用户数量将快速增长。除了传统办公领域，微软 Copilot 在团队协作、安全检测以及软件开发等维度也能实现高效赋能，优化现有的工作流程和业务生态。

　　2023 年 9 月 25 日，OpenAI 更新了 GPT-4 的语音和图像功能，使得用户能通过语音与 GPT-4 交流，也能以多张图像的形式与 ChatGPT 交互。至此，GPT-4是一个真正的大型多模态模型，虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准测试中表现出人类水平的性能。例如，它在模拟律师资格考试中的成绩位于前 10％的考生，而 GPT-3.5 的成绩在后 10％。GPT-4 不仅在文学、医学、法律、数学、物理科学和程序设计等不同领域表现出高度熟练程度，而且它还能够将多个领域的技能和概念统一起来，并能理解其复杂概念。

　　除了生成能力，GPT-4 还具有解释性、组合性、可控性与空间性能力。在视觉范畴内，虽然 GPT-4 只接受文本训练，但 GPT-4 不仅从训练数据中的类似示例中复制代码，而且能够处理真正的视觉任务，充分证明了该模型操作图像的强大能力。另外，GPT-4 在草图生成方面，能够结合运用 Stable Difusion 的能力，同时 GPT-4 针对音乐以及编程的学习创造能力也得到了验证。另外，OpenAI 花了6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整，GPT-4 具有了更高的真实性、可控性。

　　GPT-4 的训练数据集包括了 13 万亿个 tokens。但由于没有高质量的训练 token，这 13 万亿个 tokens 中包含了许多自循环的 epoch 数据。据 semianalysis 官网论述，GPT-4 针对文本数据进行了 2 个 epoch 的训练，针对代码数据进行了 4 个 epoch 的训练。即便网络上存在着大量高质量的文本、视频、音频 token，以正规方式获取数据并非如简单的网页抓取那样容易。

　　GPT-4 开放平台的参数量得到了显著提升，尤其是OpenAI 使用全新的混合专家深度学习模型更好地控制成本。GPT-4 的规模是 GPT-3 的 10 倍以上。GPT-4 拥有大约1.8 万亿个参数，分布在 120 个神经网络层之上。相比之下，GPT-3 大约只有1750 亿个参数。 Transformer 作为 GPT 系列的基础模型本身具有扩展性较差的问题，强行扩展规模需要巨大的成本。OpenAI 通过使用混合专家模型（MoE）成功将成本控制在合理范围内。MoE 可以实现训练数据在不同专家模型的分配，使每个模型专注于处理其最擅长的部分，从而实现模型的稀疏性。GPT-4中一共部署了 16 个专家模型，模型的每一次前向传递都由两个专家模型进行路由。

　　GPT-4 训练成本高昂，单次训练成本高达6300 万美元。尽管 GPT-4 的前馈参数仅为 175B 参数的 Davinchi 模型的 1.6 倍，但其成本却是 Davinchi 模型的 3 倍。这主要是因为 GPT-4 需要更大规模的集群，并且利用率较低。故障数量过多是导致利用率低的原因之一，一旦出现故障就需要重新从之前的检查点开始训练。已知 GPT-4 所使用的浮点操作数约为 2.15x10^25，其在大约 25000 个英伟达 A100 上训练了 90-100 天，利用率在 32%-36%之间。倘若OpenAI 每小时使用每一张A100 芯片的云计算成本为1 美元，则本次训练的成本约为 6300 万美元。

　　伴随成本与价格提升，GPT-4 定价水涨船高。GPT 产品可分为 ChatGPT 与 GPT API 两部分，前者是通过 OpenAI 官网访问 GPT 模型，后者则可用于搭建第三方外部访问途径。目前，官网 ChatGPT Plus 版定价为每月 20 美元，开通后即可对话 GPT-4 模型，但并非没有限制，官方定制了每 3 小时最多 25 个提问的数量上限。倘若不开通 Plus 版则只能使用 GPT- 3，但提问数量没有限制。GPT-4 API的定价策略与之前模型不同，其根据响应类型分开定价，分别收取 0.03 美元/1k prompt token，0.06 美元/1k 生成响应 token。该价格相比 GPT-3.5 的 0.002 美元/1k tokens 价格上涨了至少 14 倍。

　　OpenAI 为搭建 GPT-4 付出众多，持续设置技术壁垒。OpenAI 并未公布模型架构、硬件、训练计算、数据集构造、训练方法的具体细节，这并不是因为对人类的某种存在风险，而是 GPT-4 的架构是可复制的。但可以明确的是，OpenAI 为开发 GPT-4 付出了巨大的努力。为搭建 GPT- 4，OpenAI 与Azure 合作从头开始设计了一台超级计算机，并重新搭建了整个深度学习堆栈。同时，OpenAI 开源了 OPenAI Evals 自动评估 AI 模型性能的框架，以让所有人都能指出模型中的缺点，以帮助 OpenAI 进一步改进模型。openai进一步改进模型。这一举措将有助于加速人工智能的发展，并为开发者提供一个平台，让他们可以更快地创建和部署ai应用程序。

（编辑：烟台站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!