GENIA语料库是为GENIA项目编写并标注的最初的生物医学文献集合。这个语料库是为了发展和评估分子生物学信息检索及文本挖掘系统而创建的。这个语料库包含1999条Medline的摘要,这些摘要是由PubMed按照human、blood cells以及transcription factors三个医学主题词(medical subject heading terms )为搜索条件搜索到的。这个语料库已经被按照不同级别的语言信息、语义信息进行标注。
2019-12-21 19:26:10
4.55MB
实体识别
1