更便宜的GPT-4o mini来了：百万tokens只需要1块钱！

GPT42024-07-19 08:30:25257

继国内厂商卷大模型价格之后，OpenAI终于也卷进来了，新发布的GPT-4o mini模型价格比GPT-3.5-Turbo还便宜60%。

具体地，每百万输入 tokens 只需要15 美分，而每百万输出 tokens只需要 60 美分。如果按照现在的汇率算的话，1块钱人民币差不多可以买100万的输入tokens。而且，虽然更便宜了，但是性能依然很能打，在MMLU评测集可以达到82得分，超过GPT-3.5 Turbo，Gemini Flash和Claude Haiku，甚至在LMSYS leaderboard人工喜好评测上超过GPT-4了。所以说，GPT-4o mini妥妥的是大模型的“价格屠夫”。

同时，GPT-4o min也和GPT-4o一样是一个多模态大模型，目前在 API 中支持文本和图像，未来将支持文本、图像、视频和音频的输入和输出。该模型具有128K tokens的上下文窗口，每个请求支持最多16K输出tokens，并拥有截至2023年10月的知识。

下面，我们来具体看一下GPT-4o min在一些关键benchmarks上的表现：

首先是推理任务，GPT-4o mini 在涉及文本和视觉的推理任务上比其他小型模型表现得更好，在 MMLU中得分为82.0%，相比之下，Gemini Flash 为77.9%，Claude Haiku 为73.8%。

其次是数学和编程能力：GPT-4o mini 在数学推理和编程任务上表现卓越，超越了市场上之前的小型模型。在衡量数学推理能力的 MGSM 测试中，GPT-4o mini 得分为87.0%，相比之下，Gemini Flash 为75.5%，Claude Haiku 为71.7%。在衡量编程表现的 HumanEval 测试中，GPT-4o mini 得分为87.2%，相比之下，Gemini Flash 为71.5%，Claude Haiku 为75.9%。

然后是多模态推理：GPT-4o mini 在 MMMU上也表现出色，得分为59.4%，相比之下，Gemini Flash 为56.1%，Claude Haiku 为50.2%。

在大家比较认可的LMSYS Chatbot Arena排行榜上，目前GPT-4o mini的评分是1254，并列在第4名，超过GPT-4，和GPT-4 Turbo性能持平。