我们报告了GPT-4的发展,这是一个大规模的多模态模型,它可以接受图像和文本输入并产生文本输出。虽然在许多现实场景中,GPT-4的能力不如人类,但在各种专业和学术基准上表现出了人类水平的表现,包括通过模拟律师资格考试,成绩在前10%左右。GPT-4是一个预先训练过的基于转换器的模型,用于预测文档中的下一个令牌。训练后的对齐过程提高了事实性测量和对期望行为的坚持。该项目的一个核心组件是开发基础设施和优化方法,可预测的范围。这使我们能够准确地预测GPT-4的某些方面基于计算不超过GPT-4的1/1000的模型。
本技术报告介绍了GPT-4,一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这些模型是一个重要的研究领域,因为它们有潜力被用于广泛的应用中,如对话系统、文本摘要和机器翻译。因此,它们一直是近年来[1–28]的重大兴趣和进展的主题。
开发这种模型的主要目标之一是提高它们理解和生成自然语言文本的能力,特别是在更复杂和更微妙的场景中。为了在这种情况下测试它的能力,GPT-4在最初为人类设计的各种测试中进行了评估。在这些评估中,它的表现表现得相当好,而且得分往往超过了绝大多数的人
1