SPACES 端到端的长文本摘要模型(法研杯2020司法摘要赛道)。 博客介绍: 含义 我们将我们的模型称为SPACES,它正好是科学空间的域名之一(),具体含义如下: S:Sparse Softmax; P:Pretrained Language Model; A:Abstractive; C:Copy Mechanism; E:Extractive; S:Special Words。 顾名思义,这是一个以词为单位的、包含预训练和Copy机制的“抽取-生成”式摘要模型,里边包含了一些我们对文本生成技术的最新研究成果。 运行 实验环境:tensorflow 1.14 + keras 2.3.1 + bert4keras 0.9.7 (如果是Windows,请用bert4keras>=0.9.8) 首先请在snippets.py中修改相关路径配置,然后再执行下述代码。 训练代码: #! /b
2022-03-10 15:21:26 74KB Python
1
cail2019_track2 中国法研杯CAIL2019要素抽取任务第三名方案分享 欢迎大家使用 (修改了一下readme,之前那一版感觉写的太水了。) 这次比赛和前两名差距很大,但是也在此给大家分享一下我所用的方案。 主要的trick包括领域预训练、focal loss、阈值移动、规则匹配以及模型优化、调参。 没有使用模型融合。 效果对比 由于是第一次参赛,很多比赛细节没有做记录,效果对比的分数是我从凭印象在上传历史记录里边找的,可能分数不一致,但是大概就在那个范围,还请见谅。 Model 详情 线上评分 BERT 使用bert_base做多标签分类 69.553 BERT+RCNN+ATT 在BERT后增加RCNN层,并把最大池化换成Attention 70.143 BERT+RCNN+ATT 增加阈值移动 70.809 BERT+RCNN+ATT 增加focal loss 71.1
2021-11-03 12:39:42 4.19MB multi-label-classification bert rcnn focal-loss
1
更多模型和代码,参考: :) 嗷嗷嗷,有缘再见呀。。。。。。。 中国法研杯比赛 法律数据集 文件组成 cail2018_big.json: 171w 数据组成 数据中涉及 183个法条、202个罪名,均为刑事案件 数据清洗 数据中筛除了刑法中前101条(前101条并不涉及罪名),并且为了方便进行模型训练,将罪名和法条数量少于30的类删去。 数据格式 数据利用json格式储存,每一行为一条数据,每条数据均为一个字典 字段及意义 fact: 事实描述 meta: 标注信息,标注信息中包括: criminals: 被告(数据中均只含一个被告) punish_of_money: 罚款(单位:元) accusation: 罪名 relevant_articles: 相关法条 term_of_imprisonment: 刑期 刑期格式(单位:月) death_penalty: 是否死刑 life_im
2021-10-17 16:00:34 64KB Python
1
#介绍 提取码nhd3 -Des.path.home = D:/elasticsearch-6.5.4-SNAPSHOT -Des.path.conf = D:\ elasticsearch-6.5.4-SNAPSHOT \ config -Xms1g -Xmx1g -Djava.security.policy = D:/ elasticsearch-6.5.4-SNAPSHOT / config / java.policy -Dlog4j2.disable.jmx = true
2021-08-28 16:09:16 37.75MB Python
1
机器阅读理解数据集(中文法研杯数据)这个数据集比较干净. 比起百度的DuReader数据集. 只有训练集.可以做相关研究...加油机油机油哇
2021-08-10 20:08:30 5.86MB MRC 法研杯 阅读理解数据集 NLP
1
2019法研杯阅读理解baseline.zip
2021-07-13 22:09:35 164.93MB 法研杯 baseline
1
2020法研杯阅读理解数据集.zip
2021-07-13 17:08:35 7.1MB 数据集
1
2020法研杯要素抽取数据集.zip
2021-07-13 17:08:34 3.81MB 数据集 法研杯
1
2020法研杯相似案例数据集.zip
2021-07-13 17:08:33 625KB 法研杯 数据集
1
2020法研杯baseline.zip
2021-07-13 17:08:33 2.13MB 法研杯 baseline
1