伯特
***** 2020年3月11日新产品:更小的BERT模型*****
此版本发行了24个较小的BERT模型(仅限英语,无大小写,使用WordPiece掩码进行了培训),在读物精通的 。
我们已经证明,除了BERT-Base和BERT-Large之外,标准BERT配方(包括模型体系结构和训练目标)对多种模型尺寸均有效。 较小的BERT模型适用于计算资源有限的环境。 可以按照与原始BERT模型相同的方式对它们进行微调。 但是,它们在知识提炼的情况下最有效,在这种情况下,微调标签是由更大,更准确的老师制作的。
我们的目标是允许在计算资源较少的机构中进行研究,并鼓励社区寻找替代增加模型容量的创新方向。
您可以从 下载全部24个,也可以从下表单独下载:
高= 128
高= 256
高= 512
高= 768
L = 2
L = 4
L = 6
L = 8
L = 10
L = 12
请注意,此版本中包含的BERT-Base模型仅出于完整性考虑; 在与原始模型相同的条件下进行了重新训练。
这是测试集上相应的GLUE分数:
模型
得分
可乐
SST-2
MR
1