OpenAI 的 o3 现在还不会替代程序员

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

OpenAI 以 o3 模型结束其 12 天的 OpenAI 活动,很多人感到兴奋,纷纷表示 AGI 时代已经来临,程序员这个岗位马上就要说拜拜了。

01

推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

基准测试

下面是一些基准测试的指标,让我们先从数据上直观看到 o3 的强劲表现。
完整的 o3 是 o1 预览版(本身仅在 3 个月前发布的)的两倍多一点。这是 Codeforces 上的竞赛代码,通常比 LeetCode 给出的面试问题更难。
如果这还不够,SWE-bench Verified 是一项以代理为中心的评估,其问题都是软件工程师在日常工作中面临的典型问题。接近 72% 的准确率是一个很好的分数。
SWE-bench Verified 的网址如下
https://openai.com/index/introducing-swe-bench-verified/
最新模型 o3 在 ARC-AGI 基准测试中表现强劲,该基准测试旨在测试人工智能泛化和适应新任务的能力。87.5% 的分数让 AI 世界嗡嗡作响——这真的会成为通用人工智能 (AGI) 吗?
此测试旨在衡量泛化全新的任务。像 GPT-4o 这样的前几代在同一基准上得分只有 5%,以下是测试类型的示例:
这里的答案是在空格中添加一个块,这些测试看似简单,但对人类来说很容易,对 AI 来说却很难。

02

o3 会取代程序员吗?

AI 不是威胁,o3 并不能取代你目前大部分的工作任务。几乎可以肯定,它在很多方面都不会比你好。原因如下。
1、程序员每天写代码的时间很少
第一点(也是显而易见的)是开发人员每天不会花太多时间编码,我也是程序员,大家都清楚每天真正用来编码的时间占比是多少。
另外,回答算法问题很强并不意味着在实际的项目上就会有好的表现,这个大家看那些擅长刷题,但是实际工程落地能力很差的同事就知道了。
2、o3 并不总是正确的
上面的 SWE-bench 验证编号可能是每个问题的第一次尝试。即使这样,你也需要有人检查代码,因为在 25% 的情况下,简单的单元测试是不正确的(生成的代码有多少次无法通过健壮的审查)?
幻觉没有强有力的解决方案,也没有迹象表明幻觉这个问题会很快被解决。
3、成本
性能提高了,但成本也提高了。完成这些任务的费用为每项任务 20 美元——而不是 OpenAI 目前每月收取的 20 美元订阅费用。
每个任务 20 美元,这个成本比社招一个低级别的码农还要贵。低级别的码农还可以背锅和背低绩效,AI 出问题了谁来背锅和背低绩效?

03

结论

我的结论是 o3 目前还不会砸了程序员整个行业的饭碗,不用杞人忧天,整体惶恐。
不过话说回来,我用了一个月的 cursor,编码效率的确提高了很多,一个人干几个人的活问题不大。
对于招聘方来说,招聘有经验并且擅长使用 AI 工具的程序员是性价比非常高的选项。只知道埋头硬写代码,抗拒新质生产力工具的程序员要小心了。
在程序员主业之外,积极寻求第二曲线的副业方案,多条腿走路才能走得更稳更远。

chatgpt plus(GPT4)代充值

本文链接:https://lechangxia.cc/gpt4/2187.html

chatgpt4.0代充会封号吗chatgpt4.0下载及注册方法chatgpt4.0官方下载chatgpt可以用visa信用卡充值吗gpt代充违反外汇管理吗

相关文章