CCF-BDCI-Sentiment-Analysis-Baseline
1.从该中改写的
2.该模型将文本截成k段,分别输入语言模型,然后顶层用GRU拼接起来。好处在于设置小的max_length和更大的k来降低显存占用,因为显存占用是关于长度平方级增长的,而关于k是线性增长的
模型
线上F1
Bert-base
80.3
Bert-wwm-ext
80.5
XLNet-base
79.25
XLNet-mid
79.6
XLNet-large
--
Roberta-mid
80.5
Roberta-large (max_seq_length=512, split_num=1)
81.25
注:
1)实际长度 = max_seq_length * split_num
2)实际batch size 大小= per_gpu_train_batch_size * numbers of gpu
2021-11-17 19:34:01
1.03MB
Python
1