带有元数据的文本的最小监督分类
该项目提供了一个对文本与元数据进行分类的弱监督框架。
安装
为了进行培训,强烈建议您使用GPU。
凯拉斯
该代码基于Keras库。 您可以找到安装说明。
相依性
该代码是用Python 3.6编写的。 依赖关系总结在文件requirements.txt 。 您可以像这样安装它们:
pip3 install -r requirements.txt
快速开始
要在我们的论文中再现结果,您需要首先下载。 我们的论文中使用了五个数据集。 不幸的是,由于我们对数据提供者的承诺,因此无法发布GitHub-Sec数据集。 其他四个数据集可用。 解压缩下载的文件后,您可以分别看到对应于这四个数据集的四个文件夹。
数据集
文件夹名称
#文件
#班
类名(该类中的#Repository)
bio/
876
10
序列分析(210),基因组分析(176),基因表达(6
1