大规模语言模型(Large Language Models,LLM),也称大规模语言模型 或大型语言模型 ,是一种
由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标注文
本进行训练。自 2018 年以来,Google、OpenAI、Meta、百度、华为等公司和研究机构都相继发布
了包括 BERT[1],GPT[6] 等在内多种模型,并在几乎所有自然语言处理任务中都表现出色。2019 年
大模型呈现爆发式的增长,特别是 2022 年 11 月 ChatGPT(Chat Generative Pre-trained Transformer)
发布后,更是引起了全世界的广泛关注。用户可以使用自然语言与系统交互,从而实现包括问答、
分类、摘要、翻译、聊天等从理解到生成的各种任务。大型语言模型展现出了强大的对世界知识
掌握和对语言的理解。
2023-12-15 15:06:00
23.44MB
语言模型
NLP
1