先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gpthuiyuan
OpenAI推出了名为“o3”的新系统,在一个叫ARC-AGI的测试集上实现了突破性成绩。简单点说,o3在某些AI尚未攻克的“新奇任务”上展现了前所未有的适应能力。
推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top
ARC-AGI 是什么?
先聊聊背景。ARC-AGI 是一个为测试AI“适应新任务能力”而设计的基准测试。它的规则非常简单:
• 任务对普通人来说不难。 • 但对AI来说,没有训练数据支持,难度陡增。
举个例子,你可能会被问到这样的任务:“观察这组图形的规律,按规则补全空白处。”
对人类而言,这种题目靠直觉就能搞定,但对AI却是噩梦,因为AI无法像人一样灵活推理或临场发挥。
ARC-AGI 的测试分为两个部分:
1. Semi-Private Eval(半公开评估集):100个任务,目的是防止AI“死记硬背”。 2. Public Eval(公开评估集):400个任务,让大家公开测试。
过去几年,AI在这个基准测试上几乎全军覆没。比如,2020年的GPT-3直接挂零,GPT-4系列也只在2024年勉强拿到**5%**的分数。
o3做到了什么?
这次,OpenAI的o3系统在半公开评估集上取得了惊人的75.7%得分,在公开评估集更是突破到了91.5%!
更夸张的是,当使用高计算资源配置时,o3的得分飙升到了87.5%(半公开集)和91.5%(公开集)。这个成绩不仅打破了过去的纪录,还直接拉高了“AI能干什么”的天花板。
来看一张关键数据表:
可以看到,o3的成绩与计算资源成正比,但即便在低计算成本的模式下,它也远超前代AI。
o3背后的技术突破
那么问题来了,o3为什么能做到其他AI做不到的事情?
1. 摆脱“记忆型AI”的瓶颈传统语言模型(LLM,比如GPT系列)的工作方式类似于:
1. 记忆大量的数据(靠训练过程)。 2. 匹配用户输入到已有的“答案”上。
这种方式虽然在聊天和翻译等任务上表现出色,但在新奇任务面前就显得捉襟见肘。原因是:它们不会“主动学习”。
2. o3如何突破?o3 的突破点在于一个关键能力:重组知识以生成新方案。当面对陌生任务时,o3能通过“程序搜索”的方式,尝试不同的解决路径,直到找到一个能解决任务的“步骤链”。
技术上,它用到了两大关键策略:
• 自然语言程序生成:在任务测试时,o3会基于任务描述生成一系列潜在解法。 • 程序搜索与评估:类似下棋时的AI算法(比如AlphaZero的蒙特卡洛树搜索),o3会对生成的解法进行逐步筛选,最终选出最佳路径。
这个过程可以用一个流程图表示:
3. 成本问题与潜在挑战虽然o3表现亮眼,但目前它的成本仍然是硬伤——一个任务消耗的计算资源可高达数万美元。相比之下,雇人来完成任务,平均只需$5。这种“成本效率比”的问题,是未来需要重点优化的方向。
o3 是 AGI 吗?
有人可能会问:“o3 是不是已经接近通用人工智能(AGI)了?”答案是否定的,很遗憾这距离 AGI 还特别远。
虽然o3在某些方面接近了人类的能力,但它依然有明显的局限性:
1. 易错性:一些简单任务,o3仍然表现得比人类差。 2. 对训练数据的依赖:o3生成“步骤链”的能力,仍然需要依赖大量人类标注数据。
换句话说,它还没有达到像人类一样“自学”的能力。这也意味着,我们距离真正的AGI还有很长的路要走。
下一步:ARC-AGI-2 来了!
为了进一步推动AI研究,ARC团队计划在2025年推出新一代测试基准——ARC-AGI-2。据说,它的难度将远超第一代。初步测试显示,即使是o3,得分可能会低于30%!这将是AI适应能力的新试金石。
此外,ARC团队还在筹备一个长期目标:推出“第三代测试框架”,彻底重塑AI研究的方向。
本文链接:https://lechangxia.cc/gpt4/2174.html
Ecoutechatgpt4如何付费chatgpt4.0安装包人工智能chatgpt4.0写作文入口chatgpt会员开通教程chatgpt到了怎么充值gptplus代充手机版chatgpt如何注册chatgpt能用qq邮箱注册吗chatgpt电话注册详细流程