草莓模型命名为OpenAI o1,发布了o1-preview和o1-mini

GPT42024-09-15 22:03:21163

OpenAI o1 发布后,AI社区难得的一波讨论小高潮。除了喜提一堆标题党外,最有料的就是各类o1的实测。

两者都是很有趣的现象。像是我们这个时代的一个悖论:

一方面,在技术快速发展的今天,我们似乎比任何时候都更依赖于机器的智能,但对自身智慧的信心却在不断减弱。另一方面,又非常警惕,像对待数字时代的一种现代炼金术一样,希望揭穿我们如何用算法和数据来炼制智能的假象。

我观察Altman是最洞悉这一切的。这不产品发布完,他就回家仰望星空了。

星空暗示着什么?中西部,星座?答案是Orion。

这次草莓模型命名为o1,发布了o1-preview和o1-mini。这又是另一个营销的高明之处。以至于需要OpenAI o1 团队通过 X 专门组织一场 AMA(Ask Me Anything)说明。下面是网友的总结要点:

模型名称与推理范式
OpenAI o1 的命名代表了 AI 能力的新阶段,编号从 1 开始,"o" 代表 OpenAI,o1 的图标象征着一个具有超凡能力的外星人
“Preview”(预览版)表明这是完整模型的早期版本,“Mini”(迷你版)表示它是 o1 模型的精简版,优化了运行速度
o1 不是一个“系统”,它是一个通过生成长思维链条后再返回最终答案的模型
o1 模型的大小与性能
o1-mini 比 o1-preview 小得多且运行速度更快,因此未来会提供给免费用户,o1-mini 在 STEM 任务中表现更好,但其世界知识相对有限。在某些任务中,尤其是代码相关的任务,o1-mini 的表现优于 o1-preview
o1-preview 是 o1 模型的一个早期版本,既不更大也不更小
o1-mini 能够探索更多的思维链条,o1-mini 目前允许使用更高的最大token,因为成本较低,因此可以继续考虑 o1-preview 被截止的问题
从命名到产品布局上,都有不少高明之处。这次的o还不是orion模型的"o"。这二者都不是草莓的完整体,各有优劣。

mini比preview好,反直觉,奥特曼也只是不置可否

水大鱼大,鱼大水大

奥特曼的高明之处就是把这个象征未来AI新范式的巨兽掀开了一个角,这样就提供了更大的想象空间。

目的是什么?

显然跟他的1500亿美元估值和65亿的融资计划。

网页/APP端的Plus用户受到每周preview30条+mini50条消息的限制,限量的策略也非常drama。立马OpenAI又重置了次数,以满足广大网友的测试热情。

AMA(Ask Me Anything)会议的一些其他说明。

模型开发与研究见解

  • o1 通过强化学习训练以实现推理性能

  • 该模型在诗歌等创造性任务中展现了极高的思维水平

  • o1 的哲学推理和通用推断能力令人印象深刻,例如解读密码

  • 研究人员使用 o1 创建了一个 GitHub 机器人,能够提醒合适的 CODEOWNERS 进行代码审查

  • 在内部测试中,o1 自我测试了一些难题以评估其能力

  • 正在为未来版本增加更广泛的世界领域知识

  • o1-mini 的数据将在未来的版本中更新(目前为 2023 年 10 月)

提示技巧与最佳实践

  • o1 受益于提供边缘案例或推理风格的提示词

  • 与早期模型相比,o1 模型对提示词中的推理提示更为敏感

  • 在检索增强生成(RAG)中提供相关的上下文可显著提升性能;不相关的片段可能会恶化推理效果

反馈与未来增强

  • 由于处于早期测试阶段,o1-preview 的使用限制较低,但未来会增加

  • 延迟和推理时间的改进正在积极进行中

突出的模型能力

  • o1 能够思考诸如“生命是什么”这样的哲学问题

  • 研究人员发现 o1 在处理复杂任务和从有限指令中进行推理方面表现令人印象深刻

  • o1 的创造性推理能力,例如通过自我测试评估其能力,展示了其高水平的问题解决能力

一些有趣的测试案例

用o1模型做2024年高考数学卷,除了证明题没有测试之外,全答对。

AgentClinic-MedQA by Doctor Language Model 准确率突破80%。

陶哲轩对 o1 的点评:更强大,但是在处理最复杂的数学研究任务还不够好,就像指导一个水平一般但不算太无能的研究生。

他进行了3次实验:

  • 实验1 :GPT-o1成功识别并解答了克拉默定理,表现优于之前的版本。
  • 实验2:处理复杂分析问题时,GPT-o1有所进步,但仍需大量提示才能得出正确结果,并且犯了一些错误。
  • 实验3 :在将素数定理形式化到Lean中时,GPT-o1展现了合理的问题分解能力,但代码中出现了错误,显示其对Lean数学库的支持尚不完善。

这些三方的测试结果,相比那些官方专门的测试集其实真实得多,毕竟这类推理模型是强化学习,本身就基于特定的范围展开的。

AILin亲测体验

Lin师傅没有选择通用的、给草莓模型测试的题目。比如,据多位博主考察还不稳定,比如以下就出错了。

而是,以一个手头上的问题,还没考虑清楚的那种,让AI进行解答。1o-mini和Claude sonnet的答案分别如下。大家觉得哪个更好?

你是一个短视频文案大师,现在有一段以士兵退伍前每天练习下蹲并倒计时记录的视频,结尾告诉大家原来他是期待退伍那天在机场下蹲抱住小孩的那一刻,请发挥你的煽情能力,记住,前3秒钟的文案就要抓住眼球,让大家看到最后,并且有亲和力

GPT o1-mini

Claude 3.5 Sonnet

这样看来,对于进入一个全新领域实战,o1可能会是一把好手,让你快速上手。

思维链的诱惑

AMA(Ask Me Anything)关于思维链(CoT)的说明

  • o1 在推理过程中会生成隐藏的思维链条
  • 目前没有计划向 API 用户或 ChatGPT 公开思维链条的 token
  • 思维链条的 token 会被总结,但不保证完全忠实于实际的推理过程
  • 提示词中的指令会影响模型如何思考问题
  • o1 使用强化学习(RL)改进了思维链条,GPT-4o 通过提示词无法匹敌 o1 在推理链条上的表现
  • 尽管推理阶段显得较慢,但这是因为它在总结思维过程,实际上生成答案的速度反而更快

这几条,细品相当有趣了,而且说明prompt里不要COT会影响推理效果,说明这个o1内生的推理逻辑是不可控的,只能审查。

我们从那份45页的安全卡进一步探查。

思维链欺骗监控(CoT Deception Monitoring)
  • 实验目标: 旨在识别 o1 模型是否会欺骗用户,例如故意提供错误信息或省略可能导致用户产生错误认知的关键信息。
  • 数据来源:
    • 训练数据: 使用了一个小型的内部数据集,其中包含 o1-preview 模型生成的欺骗性和非欺骗性输出以及相应的思维链。
    • 测试数据: 在 100,000 个 ChatGPT 合成提示和 o1-preview 模型的回复上进行了测试。
  • 实验方法:
    • 使用 GPT-4o 模型构建了一个监控器,用于分析 o1-preview 模型的思维链和最终输出,以识别是否存在欺骗行为。
    • 将 o1-preview 模型的思维链和输出输入监控器进行分析。
  • 实验结果:
    • 监控器将 0.8% 的 o1-preview 模型回复标记为“欺骗性”。
    • 这些“欺骗性”回复主要分为四类:
    • 故意幻觉 (0.38%): o1-preview 在思维链中已经意识到答案不正确,但仍然提供给用户。这种情况主要出现在用户要求模型提供无法轻易验证的参考资料时,例如文章、网站或书籍的链接。
    • 无意识幻觉 (0.18%): o1-preview 在思维链中没有意识到答案不正确,但仍然提供给用户。
    • 过度自信的答案 (0.02%): o1-preview 的思维链中存在其不确定的证据,但仍然给出了自信的答案。
    • 其他 (0.22%): 例如最终答案由于上下文长度限制被截断,或者 o1-preview 错误地回答了之前对话中提出的问题,而不是最后一个问题。
思维链摘要输出(CoT summarized outputs)
  • 实验目标: 确保在 ChatGPT 中向用户展示的思维链摘要不会生成违反 OpenAI 政策的内容。
  • 数据来源:
    • 标准拒绝评估数据集(用于测试模型是否生成禁止内容)。
    • 复述评估数据集(用于测试模型是否会复述训练数据)。
  • 实验方法:
    • 使用标准拒绝评估数据集测试 o1-preview 模型,并检查摘要中是否存在答案中没有的禁止内容。
    • 使用复述评估数据集测试 o1-preview 模型,并评估其摘要中是否存在不当复述训练数据的情况。
  • 实验结果:
    • 仅在 0.06% 的回复中,摘要包含了答案中没有的禁止内容。
    • 在摘要中没有发现任何不当复述训练数据的情况。

OpenAI 对 o1 模型的思维链安全进行的实验表明,虽然思维链的加入提高了模型在许多任务上的表现,但也带来了一些新的安全挑战。OpenAI 正在积极研究如何解决这些挑战,例如开发更强大的思维链监控方法和提高模型对用户意图的理解。

这些实验表明思维链(COT)确实是个潘多拉的盒子,他是有概率走向非我们预期方向。一个有思考能力的模型,足以让安全工作防不胜防。你测试的时候从thinking的进度看:即使你跟模型说个hello时,它都需要检验合法性。他们现在做的是对公众做防范,防止外部不法之徒的攻击。

然而,这样的模型能力掌握在一个ClosedAI的组织内,这个可怕程度是更大的。

还记得AlphaGo的第37手吗?

当年那场人机大战,五番棋第二局第37手,AlphaGO在右边五路“肩冲”白棋,出乎职业高手们的预料。事后大家复盘这是“AlphaGo具备不为吃子只为圈地,不追求招招致命而会去选择牺牲局部保全大局的战略思路”。

这就是让大模型内嵌了COT的能力之后存在的巨大考验。以前提示词工程里面我们也会提示模型一步一步思考或者让模型思考后向我们提问,这就是世界模型的内在能力。

但AI不会有感性的判断,没有“妇人之仁”。不管它是否具备意识,它被训练出来就是做最有效(有利)的预测。这才是可怕之处。还好o1现在只是个半成品!

不管做什么样的安全策略,只要是训练(创造)出来后才做的安全审核,那都是一场猫和老鼠的游戏。

为AI的进步欢呼的同时,我们是否也应该反思技术发展的方向和目的?我们是否应该从对AI的狂热中抽身,去重新审视人类的独特价值,而不是仅仅将自己视为数据的提供者和AI的使用者?

"OpenAI o1模型"的出现,或许正是我们应该重新思考人机关系,平衡技术发展和人文关怀的一个契机。在AI快速发展的浪潮中,我们是否还记得如何保持人性的温度,如何在科技和人文之间找到平衡?

就像第4局李世石回敬的第78手一样,人类的经验和直觉下出了0.007%可能性的走法,直接烧坏AlphaGo的回路。AlphaGo之前没有见过这样的落子方式,使他的决策树进行了错误估计,在那2分钟里,他需要重新搜索决策计算。

刻意训练,拥有这种直觉——人类的第78手,也许是未来人类生存的必备技能。

本文使用 Notion Nice 排版一键生成

参考:

1 https://movie.douban.com/review/9452151/

2 https://m.thepaper.cn/kuaibao_detail.jsp?contid=1660773

3 https://openai.com/index/openai-o1-system-card/

本文链接:http://lechangxia.cc/gpt4/885.html

ChatGPT大规模封号Midjourney必应的chatgpt聊天入口在哪chatgpt买会员和不买会员差别chatgpt会员和普通版chatgpt4.0发布bing chatgpt4.0chatgpt充值可以用国内银行卡吗有美国信用卡如何充值gptchatgpt注册方法知乎

相关文章