OpenAI反超Claude3,GPT4.5-Turbo正式版发布,GPT-4终于不再偷懒又开始变聪明了

GPT42024-04-20 11:00:28502

没想到,仅仅过了两个月,全球最强AI的宝座又易主了!

几个月前,Claude3 Opus全面超越GPT-4,全球的网友纷纷抛弃GPT,投向Claude3的怀抱,并纷纷分享Claude3带来的惊艳体验。

如今,OpenAI再次用实力证明了,GPT依然是AI世界最强的玩家!

在最新的AI基准测试中,OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新夺回了全球第一的AI王座:

除了命名为GPT-4-Turbo-2024-04-09的API版本,ChatGPT的Web版本也已经向付费PLUS会员开放。

如果你的知识库数据集截止时间已经更新为2023年12月,那恭喜你已经成功接收到了新版本的推送。如果还没有,那不妨再耐心等待一下。

值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。

虽然 GPT-4-Turbo 发布已久,但一直以“预览版”的方式提供。

这次也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

据介绍,更新后的版本在写作、数学、逻辑推理以及编程等多个领域均实现了显著进步。

使用新版GPT4写作,你会发现它的响应速度提升,交流更为流畅,并且表达方式更趋于口语化。

简而言之,新版本的写作风格更贴近人类的自然语言,多了些人情味,少了点AI机器味。

AI邦第一时间通过国内最稳、更新最快的AI工具站BotGo·机器国进行了GPT-4-Turbo体验。

BotGo·机器国是一个AI大语言模型和智能机器人的竞技场,致力于发现和创造有灵魂的AI机器人。

他们正在做的一件事情就是对接全球最强的AI大语言模型和智能机器人,由真人在实战环境中对大模型和机器人进行基准测试,并汇总全部真人投票数据发布排行榜单。

所以,BotGo·机器国简直就是为做大模型测试量身定做的理想环境。

好了,话不多说,我们这就开始测评了,Bot go!

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现:

这是一个很隐蔽的bug,以前的Claude 3 Opus是完全没找到bug在哪,现在经过调教有所进步,已经能够发现Bug的问题,并且提供了修复的代码。

其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo不仅能找到bug,修改后的代码也更为优质,而且除了Bug之外还提出了索引处理和效率方面的问题及建议,整体表现确实比Claude3更为优秀。

非常惊艳,这应该是世界上唯二能够修复这个bug的AI了。

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度,上传一个生物样品图片给AI:

然后我们在BotGo·机器国上看看Claude3、GPT4和Gemini Pro这三个地表最强的多模态AI,对这个图片分析的结果:

结果发现,最新版的GPT-4好像还不能解析上传的图片,可能还在调测当中。在图片问答方面还是不如Claude-3 Opus。

这方面的能力排序是 Claude-3 > Gemini Pro > GPT-4。

我们再换一个专业问题,让AI大模型来讲述最近大火的文生视频模型Sora的技术原理,而且要让高中生也能听明白哈哈。

关于Sora技术原理的解释,所有的AI中,GPT-4和Gemini表现都非常优秀。

Claude-3有些片段出现了知识性的错误——Sora是生成式的,不是检索式的。而Kimi则只提到了深度学习技术,但没明确具体的技术架构和路径。

Gemini非常形象地将Sora所采用的卷积网络技术类比于乐高的积木结构,确实更容易理解。GPT-4则在专业性上更胜一筹。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。

营销能力测试

这次测试加大难度,直接丢给AI一个威狮云通信的介绍文档PDF,让它去生成一篇营销文案和搜索SEO的标题。

结果发现这次的GPT-4正式版是还不能支持文档分析的,这也和官方的公布信息一致,要进行文档分析还是要有请最强大的GPT4多模态全能版本。

AI写作能力测试

最后测试下AI写作能力!

写作的测试结果就要见仁见智了,每个人的看法都可能不一样。

这里面我最喜欢的是Claude-3写的文章,既能比较口语化富有感染力,内容也有一定的深度。

GPT-4和Gemini Pro差不多,GPT-4更专业,Gemini Pro更流畅,速度也快一些。

Kimi感觉相对欠缺一些,象写给低龄的孩子,稍显幼稚。

之前LMSYS平台曾曾专门做过测试对比,GPT4的英文写作更强,而Claude3的中文写作能力更胜一筹,这可能也是我从Claude2开始就喜欢上这个小德子的原因吧。

好了,今天的评测就到这里了。你们更喜欢哪个AI呢?

最后附上GPT-4 的版本介绍:

▶ GPT-4-Turbo-2024-04-09

  • GPT-4-Turbo 首次发布的正式版

  • 基础能力更新,按官方说法:Majorly improved GPT-4 Turbo model
  • 自带读图能力,无需使用 4v 接口
  • 128k 上下文
  • 训练数据截止至 2023 年 12 月
  • 输入:$10.00 / 100万 tokens
  • 输出:$30.00 / 100万 tokens
  • 读图:最低 $0.00085 / 图

▶ GPT-4

发布于去年的 3 月 14 日(即 0314 版),后续更新 0613 版,支持 8k 上下文,是经典版的 GPT-4。

  • 输入:$30.00 / 100万 tokens
  • 输出:$60.00 / 100万 tokens

▶ GPT-4-32k

与 GPT-4 同期发布,也是有 0314 和 0613 两个子版本,支持 32k 上下文,是当时上下文最长的模型,但非常贵。

  • 输入:$60.00 / 100万 tokens
  • 输出:$120.00 / 100万 tokens

另说一下,这个模型是邀请制,至今未公开提供。

▶ GPT-4-Turbo-Preview (即 GPT-4 Turbo 预览版)

发布于去年的 11 月 6 日(即 1106 版),后续更新 0125 版,支持 128k 上下文,并且大幅降价。

  • 输入:$10.00 / 100万 tokens
  • 输出:$30.00 / 100万 tokens

▶ GPT-4-Vision-Preview (即 GPT-4 Turbo 的读图版)

和 GPT-4-Turbo-Preview 同一时间发布,也包括 1106 版和 0125 版,价格保持一致,但给的用量不多。

  • 输入:$10.00 / 100万 tokens
  • 输出:$30.00 / 100万 tokens

读图的价格看分辨率:最低 $0.00085 / 图

本文链接:http://lechangxia.cc/gpt4/783.html

Expediachatgpt4.0免费chatgpt镜像入口chatgpt引爆搜索引擎大战chatgpt会员充值教程chatgpt4.0搭配ar眼镜亚马逊怎么使用chatgpt4.0运营充值后chatgpt怎么还老是崩溃如何在gpt3.5账户中充值chatgpt官网中文版注册

相关文章