GPT-4的断崖式领先,人类的专属技能不多了

图片来源 @视觉中国

文 | 甲子光年，作者 | 赵健

人工智能会替代人类吗？在 ChatGPT 出现之后，人类对于这个问题的答案已经越来越没有信心。

而在昨天夜里，OpenAI 低调发布了深度学习新的里程碑：GPT-4，一个比 ChatGPT 更强大的大模型！OpenAI表示，GPT-4 虽然在许多现实世界场景中的能力依旧不如人类，但在各种专业和学术基准上已经和人类表现持平。

frc-3222176dd203b7b70014814952b7d479_j05nn

GPT-4是一个多模态大模型，具有更强大的创造性、更长的上下文处理能力，可支持图像输入，还可以自定义 GPT-4的语言风格。在 OpenAI 短短 24分钟的发布会中，有这样一个场景：在草稿本上用纸笔画出一个非常粗糙的草图，拍照并上传，GPT-4 在10秒左右直接生成了网站代码。

著名经济学家朱嘉明表示：GPT-4 是 OpenAI 创造出的又一个重大科技事件，达到了 AI历史上前所未有的、不可逆转的新高度。

过去两年，OpenAI 重建了整个深度学习堆栈，并与微软 Azure 一起从头开始共同设计了一台超级计算机。一年前，OpenAI训练 GPT-3.5（即 ChatGPT）作为系统的第一次 ” 试运行 “，发现并修复了一些错误并改进了理论基础。

OpenAI 花了 6 个月的时间来迭代调整GPT-4，取得了有史以来最好的结果，并且成为第一个能够提前准确预测其训练性能的大型模型。这意味着大模型的训练方法将会从过去的纯粹 “暴力美学 ” 进化出更高的可控性与预期性。

这次 OpenAI并没有公布论文，只有一份技术报告，并且不提供架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法等细节。换句话说，其他AI公司不可能再像过去一样，走一条模仿、复现、超越的道路了。

压力来到了国内公司，尤其是明天即将发布文心一言的百度。

比 ChatGPT 更强大

GPT-4比以往任何时候都更具创造性和协作性。它可以承担文本、音频、图像的生成、编辑任务，并能与用户一起迭代创意和技术写作任务，例如创作歌曲、编写剧本或学习用户的写作风格等。

frc-a4aa796f4cf14f0616e6a5a6793de346_m1s0c

GPT-4 能够处理超过 25000 个单词的文本，允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。

frc-7aada3e9d1a929c0c043c57e0ab666b8_0v6oz

在简单的谈话中，ChatGPT 与 GPT-4 可能看不出太大差距。但是，当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

frc-ea86691f148eb97a69678d2e62348a2b_pqw29

左边是 ChatGPT，右边是 GPT-4

为了解这两种模型之间的区别，OpenAI 在各种基准测试中进行了测试，包括人类的模拟考试，比如 GRE。OpenAI并没有针对这些考试进行专门培训，但 GPT-4 的排名依然名列前茅。例如，它通过模拟律师考试，分数在应试者的前 10%左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。

frc-308b76bf0600657ab6d7b36cdcbc4317_y3uaz

GPT-4 在语言风格上也迎来了更新。与具有固定冗长语气和风格的经典 ChatGPT不同，开发人员（普通用户也将会开放）现在可以在 ” 系统 ” 消息中通过描述来规定他们的 AI 风格和任务，也就是 ” 自定义 “能力。

frc-5c33b97f9c327910b0bad616af66504c_w8dph

frc-e8767cb7e33891c1ccd1bd1ee1b3c09f_xs94t

frc-74f07469606e01f70f5ee1dea4b4f9fb_r6ikt

frc-60c7b848021f7905a2d827b25608e054_dwup8

OpenAI 在为机器学习模型设计的传统基准上评估了 GPT-4，大大优于现有的大型语言模型，以及大多数最先进的 ( SOTA) 模型：

frc-d454621b7495f2eb7a020260db48e2f8_w5t0y

许多现有的 ML 基准测试都是用英语编写的。OpenAI 使用 Azure Translate 将 MMLU 基准——一套涵盖57 个主题的 14000 个多项选择题——翻译成多种语言。在测试的 24 种语言中，GPT-4 优于 GPT-3.5 和其他LLM（Chinchilla、PaLM）的英语语言性能，包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言：

frc-7c69e36575d5e09c1be71bdb99a6c6e5_w8h4a

OpenAI 表示内部也在使用 GPT-4，对支持、销售、内容审核和编程等功能产生了巨大影响。

多模态大模型，支持图片输入

除了文本能力的增强，GPT-4 还带来了新的能力——多模态，它可以接受图像作为输入并生成说明、分类和分析结果。

具体来说，它能在用户输入散布式文本与图像后，自主生成文本输出（自然语言、代码等）。在包括带有文本和照片的文档、图表与屏幕截图中，GPT-4展示了与纯文本输入同样强大的功能。此外，它还可以通过为纯文本语言模型开发的测试时间技术实现进化，能运用少量镜头和思维链提示。

不过，GPT-4 的图像输入展示仍然只是研究 ” 样品 ” 预览，真正的成果尚未公开。

frc-f47bb9723209a7970d3b4fedd62303e8_nqzie

GPT-4 可以指出被加工图片的 ” 异常 ” 之处

frc-0437a6b4d43340a09948ddf7b5de4c4e_w1zu5

GPT-4 还能读懂 ” 梗图 “，理解幽默

GPT-4 甚至可以直接阅读并分析带有图片的论文：

frc-a77bf5dbf1a22adb1c7a6f4f3971b0ad_gfqzq

frc-530d776efa43d7e15597a0c7fce11b08_n9xxe

OpenAI 在一组标准的学术视觉基准测试中对 GPT-4 的表现进行评估，预览了它的性能。然而，OpenAI表示这些数字并不完全代表它的能力范围，因为 OpenAI 不断发现这个模型能够解决新的、” 令人兴奋 ” 的任务。OpenAI计划很快发布更多的分析和评估数据，以及对测试时间技术影响的全面调查。

frc-213a8ac47127252674870d769ace412b_h3d5s

花 6 个月时间训练，但训练数据只截止到 2021 年 9 月

GPT-4 是如何训练出来的？

遵循 GPT、GPT-2 和 GPT-3 的研究路径，OpenAI的深度学习方法利用更多数据和更多计算来创建越来越复杂和强大的语言模型。

过去两年，OpenAI 重建了整个深度学习堆栈，并与微软 Azure一起从头开始共同设计了一台超级计算机。一年前，训练 GPT-3.5 作为系统的第一次 ” 试运行 “，OpenAI发现并修复了一些错误并改进了理论基础。结果，GPT-4训练运行前所未有地稳定，成为能够提前准确预测其训练性能的第一个大型模型。

OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训迭代调整GPT-4，从而在真实性、可操纵性以及拒绝越界和敏感问题方面获得了有史以来最好的结果。在 OpenAI 的内部评估中，与GPT-3.5 相比，GPT-4 响应被禁止内容请求的可能性低 82%，产生事实响应的可能性高 40%。

与以前的 GPT 模型一样，GPT-4基础模型经过训练可以预测文档中的下一个单词，并且使用公开可用的数据（例如互联网数据）以及已获得许可的数据进行训练。

尽管功能强大，但 GPT-4 与早期的 GPT 模型具有相似的局限。最重要的是，它仍然不完全可靠，会 ” 幻觉” 事实并出现推理错误。

GPT-4 的训练数据截止到 2021 年 9月，因此对之后发生的事件缺乏了解，并且不会从自己的经验中学习。它有时会犯一些简单的推理错误，这些错误似乎与其强大的跨领域功能不符，有时也会过于轻信用户明显错误的陈述；有时，它也会像人类一样在解决难题时失败，例如在生成的代码中引入安全漏洞。

OpenAI提醒，在使用语言模型输出时应格外小心，特别是在高风险上下文中，使用符合特定用例需求的确切协议（例如人工审查、附加上下文的基础或完全避免高风险使用）。

为此，OpenAI 纳入了更多的人工反馈，包括 ChatGPT 用户提交的反馈——这其中可能也包括你与 ChatGPT的对话数据。OpenAI 还与 50 多位专家合作，在 AI 安全和保障等领域获得早期反馈。

frc-80baa995b01a0653c70e0a770bc3ca04_jgfoa

虽然生成内容的可靠性仍是一个真问题，但 GPT-4 相对于以前的模型显著减少了胡说八道。在 OpenAI的内部对抗性真实性评估中，GPT-4 的得分比 OpenAI 最新的 GPT-3.5 高 40%：

frc-65f9b82739947734a307e007a6c9b30c_i3c5o

GPT-4 项目的主要焦点之一是构建可预测扩展的深度学习框架，主要原因是对于像 GPT-4这样非常大的训练任务，进行大量的模型特定调整是不可行的。

OpenAI开发了基础设施和优化方法，能够在多个规模下表现出非常可预测的行为。为了验证这种可扩展性，OpenAI通过对使用相同方法进行训练但计算量少 10000 倍的模型进行推断，在内部代码库（不是训练集的一部分）上准确预测了 GPT-4的最终损失。

p style=”text-align:center;”> frc-0c0da74e8cd9510fa1b6c905cbe33b2a_no1m7

现在 OpenAI 可以准确预测 OpenAI在训练期间优化的指标（损失），开始开发方法来预测更多可解释的指标。例如，OpenAI 成功预测了 HumanEval数据集子集的通过率，从计算量减少 1000 倍的模型推断。

OpenAI 认为，准确预测未来的机器学习能力是安全的重要组成部分，但相对于其潜在影响而言，它并没有得到足够的重视。OpenAI正在加大力度开发方法，为社会提供更好的未来系统预期指导，希望这成为该领域的共同目标。

如何尝鲜 GPT-4？

目前有两种办法可以体验 GPT-4。

如果你是普通用户，此前订阅了 ChatGPT Plus，将会直接获得 GPT-4的访问权限。不过，ChatGPT Plus 只能用美国信用卡开通。

OpenAI 将根据实践中的需求和系统性能调整使用上限，但预计会受到严重的容量限制。

根据 OpenAI 看到的流量模式，OpenAI 可能会为更高容量的 GPT-4 使用引入新的订阅级别；OpenAI也希望在某个时候提供一些免费的 GPT-4 查询，这样那些没有订阅的人也可以尝试一下。

如果你是开发者，要访问GPT-4API（使用与 GPT-3.5-turbo 相同的ChatCompletionsAPI），需要像等待NewBing一样加入 OpenAI 的候补名单。

OpenAI 今天将开始邀请一些开发人员，并逐步扩大规模以平衡容量与需求。

OpenAI 也公布了定价策略——每 1000个prompttokens0.03 美元，每 1000 个 completiontokens 0.06 美元。默认速率限制为每分钟 4 万个 token 和每分钟 200 个请求。

GPT-4 的上下文长度为 8192 个 token。OpenAI 还提供了 32768 个 tokens 上下文（约 50页文本）版本的有限访问，该版本也将随着时间自动更新（当前版本 GPT-4-32k-0314，支持到 6 月 14 日 ) 。定价为每1000 个 prompt token 0.06 美元和每 1000 个 completion token 0.12 美元。

此外，OpenAI 宣布开源其软件框架 OpenAI Evals，用于创建和运行基准测试以评估 GPT-4等模型。

OpenAI 使用 Evals 来指导 OpenAI 模型的开发，OpenAI的用户可以应用它来跟踪模型版本的性能，并不断发展产品集成。例如，Stripe 使用 Evals 来补充他们的人工评估，以衡量其基于GPT 的文档工具的准确性。

由于所有代码都是开源的，Evals 支持编写新的类来实现自定义评估逻辑。然而，在 OpenAI自己的经验中，许多基准测试都遵循几种 ” 模板 ” 的其中之一，因此 OpenAI 还包括了最有用的模板，包括一个 ” 模型评估模板” —— OpenAI 发现 GPT-4 出人意料地能够检查自己的工作。

OpenAI 希望 Evals 成为分享和众包基准测试的工具，代表着最广泛的失败模式和困难任务。作为一个示范，OpenAI创建了一个逻辑谜题评估，其中包含 GPT-4 失败的十个提示。Evals 也与实施现有基准测试兼容；OpenAI包括了几个实施学术基准测试和几个（小的子集）CoQA 集成的笔记本作为示例。

GPT-4 已经积累了部分商业客户。比如，Stripe 使用 GPT-4 扫描商业网站并向客户支持人员提供摘要，Duolingo将 GPT-4 构建到新的语言学习订阅层中。摩根士丹利正在创建一个由 GPT-4驱动的系统，该系统将从公司文件中检索信息并将其提供给金融分析师。可汗学院正在利用 GPT-4 构建某种自动化导师。

GPT-4 将大模型推向了一个新的高度，甚至是 ” 断崖式 “领先。包括谷歌、百度在内的海内外科技公司，不可避免地将面对自家产品 ” 发布即落后 ” 的尴尬局面，而微软则躺在 OpenAI 背后” 赚麻了 “。

明天我们将报道百度的文心一言。

特朗普、内塔尼亚胡与普京各自陷入盲目战争死胡同

特朗普陷入中东泥潭？伊朗战争或成美国又一场“永无止境的战争”

遭美军大规模空袭 伊朗再封霍尔木兹海峡并袭击海湾多国 地区局势急剧恶化

加拿大备战 “后美国时代”？| 从F-35到GCAP，加拿大为什么突然“两边下注”？

《美墨加协定》谈判之际 墨西哥境内中国产重型卡车数量激增受美方关切

皮尤发布20年首创逆转民调——全球25国好感度中方首超美方

海湾雅聚，掼遇知音｜温哥华首期「掼聚沙龙」圆满落幕

老黄画展前”塑说”老黄黄志荣传统写实油画展

温哥华“社区村”计划遭富裕社区强烈反对 近八成公众意见反对

三位大温中学生斩获“领导力”大奖！用实力展现新一代华裔领导力！

以行动诠释青年责任，她们做的事不轰动，却在改变身边的人

因“学术”被看见，她们为什么学习？三位学术奖青年的答案

不止列治文！加拿大联邦承认大温多城原住民土地权利！

华商拥列治文酒店勒令放盘 庭上拍卖港企竞投 过程峰回路转

列治文原住民土地案 私人业主入禀要求重审

出勤率占分15%！安省省“下狠手”治理中学生逃课！9月起实施！警告：别随便请假！参加比赛也不行！

加拿大11岁男孩靠洗垃圾桶创业 社交媒体吸85万粉丝按赞逾百万

全球最佳大学排名 多伦多大学跻身全球20强

多伦多以华裔平权女人瑞名字命名巷道

多伦多美国领事馆外发现枪击痕迹

CMHC最新夏季展望：2026年加拿大房市下行 东西部呈现极度分化

北一女加拿大校友会年会飘浓浓台湾味 “厝边柑仔店”唤起海外乡情

第十届温哥华当代艺术博览会（Art Vancouver 2026）开幕！

舞在当下，觉知生命：AUDC年度季终盛典《Memento Mori》即将登场

加拿大并不欠给国际学生永久居民身份的人情

安省发生诈骗国际学生学费案 加拿大加强管理移民顾问纪律

中国留学生偷拍试题实时放上网 悉尼大学数千生受累

刘毅观察之大温市选：一张AI生成的图，两周之内惊动了整个列治文，我被市议会点名要求道歉

刘毅观察之大温市选：完整复盘，一篇文章如何登上英文媒体，以及我要问候选人的三个问题

刘毅观察之大温市选：英⽂媒体报道之后，我的回应，和我不变的⽴场

Concord Pacific在本拿比Brentwood建20年来首个大型公园

从Molson啤酒厂到量子公园：Concord Pacific定义温哥华未来智慧社区

100页‼️2026加拿大租赁市场报告出炉‼最快2年抢房潮再现

加拿大正式开放成年人护照网上续期 在线提交时旧护照即作废 符合条件者可在线办理

多伦多2小时直达! “沙滩之都”百年秘境, 暖水湖岸与小众灯塔——晚风落日温柔一整个夏天

温哥华在全球城市魅力指数中仅列第70名 文化历史项跌至第111名

多伦多以华裔平权女人瑞名字命名巷道

往事微痕照见历史足迹 文化讲座走进中加历史记忆——大温哥华中华文化中心举办《到访及客死加拿大的中国名人》历史文化讲座作者：

人头税平反20周年 :为华裔社区带来了什么？

列治文20岁青年骑摩托玩“抬头”特技、严重超速获高额罚单并禁驾半年

水上“救援航母”出征！广西这所高校6000余名学生成功转移

法官气疯了！加拿大49岁华人女富豪当庭被戴手铐押走，入狱40天

相关推荐

遭美军大规模空袭伊朗再封霍尔木兹海峡并袭击海湾多国地区局势急剧恶化

《美墨加协定》谈判之际墨西哥境内中国产重型卡车数量激增受美方关切

温哥华“社区村”计划遭富裕社区强烈反对近八成公众意见反对

华商拥列治文酒店勒令放盘庭上拍卖港企竞投过程峰回路转

列治文原住民土地案　私人业主入禀要求重审

加拿大11岁男孩靠洗垃圾桶创业　社交媒体吸85万粉丝按赞逾百万

全球最佳大学排名　多伦多大学跻身全球20强

CMHC最新夏季展望：2026年加拿大房市下行东西部呈现极度分化

北一女加拿大校友会年会飘浓浓台湾味　“厝边柑仔店”唤起海外乡情

安省发生诈骗国际学生学费案加拿大加强管理移民顾问纪律

中国留学生偷拍试题实时放上网悉尼大学数千生受累

加拿大正式开放成年人护照网上续期在线提交时旧护照即作废符合条件者可在线办理

温哥华在全球城市魅力指数中仅列第70名文化历史项跌至第111名

往事微痕照见历史足迹文化讲座走进中加历史记忆——大温哥华中华文化中心举办《到访及客死加拿大的中国名人》历史文化讲座作者：