欢迎访问GPT4中文教程网,学习chatgpt相关知识,以下是正文内容:
GPT-3.5和GPT-4的区别
在一次随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。当任务的复杂性达到一个足够的阈值时,差异就显现出来了——gpt -4比GPT-3.5更可靠、更有创造力,能够处理更细微的指令。
为了理解这两种模型之间的区别,我们在各种基准测试上进行了测试,包括模拟最初为人类设计的考试。我们继续使用最新的公开测试(在奥林匹克和AP自由回答问题的情况下)或购买2022-2023年版的练习考试。我们没有针对这些考试进行专门的培训。在训练期间,模型看到了考试中的少数问题,但我们认为结果是具有代表性的——详细信息请参阅我们的技术报告。
我们已经创建了GPT-4,这是OpenAI在扩展深度学习方面的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实场景中不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了一场模拟的律师考试,分数在前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。我们花了6个月的时间,利用对抗性测试程序和ChatGPT的经验教训,反复调整GPT-4,在事实性、可操纵性和拒绝跳出护栏方面取得了有史以来最好的结果(尽管远非完美)。
在过去的两年里,我们重建了整个深度学习堆栈,并与Azure一起,从头开始为我们的工作负载共同设计了一台超级计算机。一年前,我们对GPT-3.5进行了培训,作为该系统的第一次“测试运行”。我们发现并修复了一些bug,完善了我们的理论基础。结果,我们的GPT-4训练运行是(至少对我们来说!)前所未有的稳定,成为我们第一个能够提前准确预测其训练性能的大型模型。随着我们继续关注可靠的规模,我们的目标是磨练我们的方法,以帮助我们提前预测和准备未来的能力——我们认为这对安全至关重要。
我们正在通过ChatGPT和API发布GPT-4的文本输入功能(有一个等待列表)。为了准备更广泛的图像输入功能,我们正在与一个合作伙伴密切合作。我们还开源了OpenAI Evals,这是我们用于自动评估人工智能模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步改进。