前段时间做的语义角色标注任务(SRL)时需要用到ontonotes-release-5.0的数据集,前前后后花了将近半个月的时间才把数据集处理好,一个个坑踩过来很有必要记录下,希望对其他人有所帮助。
第一步:注册LDC账号并加入组织获取数据
在寻找数据源的过程中很多链接最后都会指向LDC这个神秘的组织。这个组织掌握了各行各业很多种数据集,价格从几百美元到几千美元不等,好在我们需要的ontonotes-release-5.0,免费。在这里是LDC2013T19,如下图:
点右上角register注册账号没什么难度。
注册账号的过程中需要加入一个组织,这个组织可以是你的大学或者公司或者随便一个其
1