“万创杯”中医药天池大数据竞赛——中医文献问题生成挑战 决赛 第一名方案
wodejiafeiyu|nano- nano- 康一帅
简介
环境
Tensorflow == 1.14.0
Keras == 2.3.1
bert4keras == 0.8.8
文件说明
EDA:用于探索性数据分析。
code/train.py:用于模型的训练。
code/infer.py:用于模型的推断(预测)。
code/utils.py:工具函数。
data:数据目录。
赛题背景分析及理解
赛题是中医药领域的问题生成挑战,而问题生成属于NLG中重要的一种应用。
问题生成任务需要我们根据篇章及对应的答案自动生成相应的问题,即“篇章+答案→问题”这样的流程。
训练集由三个字段(篇章、问题、答案)构成,测试集由两个字段(篇章、答案)构成,其中的问题字段需要我们生成。
根据以上分析,我们可以采用Seq2Seq
1