COMETA:在线医疗实体的语料库
该存储库包含运行我们介绍的基线模型的代码: COMETA: EMNLP 2020社交媒体中医疗实体链接的语料库。
COMETA 是一个实体链接外行医学术语数据集。 它是通过分析 68 个以健康为主题的 subreddits 中四年的内容收集的,并用相应的 SNOMED-CT 实体注释最常见的内容。 每个术语都分配了两个注释:通用 SNOMED-CT 标识符和特定标识符,分别表示术语的字面和上下文含义。
有关语料库的副本,请按照我们上的说明进行操作。
预训练向量
模型
下载链接
Bioreddit-FastText
,
Bioreddit-BERT
您可以在找到在相同的Bioreddit语料库上针对ELMo,Flair和GloVE训练的载体。
引文
如果您使用我们的语料库或我们的嵌入,请引用:
@inproceedings { basaldel
1