ATEC语义相似度学习比赛数据集
1
哈工大BQ_corpus数据集
2021-06-06 20:01:24 1.16MB 语义相似度 数据集
1
哈工大LCQMC数据集
2021-06-06 20:01:24 3.55MB 哈工大LCQMC数据集 语义相似度
1
由于ATEC比赛和CCKS 2018比赛提供的语料都是互金客服场景下的语料,所以把两个数据集的语料合并到了一起,基于分层抽样划分了出了训练集、验证集和测试集
2021-06-06 20:01:23 3.1MB 语义相似度
1
NLP-语义相似度分析-常用数据集——SICK数据集,共10000个样本。 SICK数据集的格式比较规整,有以下几个特点:1.无错别字 2.无乱码干扰词 3.主谓宾完整
2021-05-08 16:36:38 883KB NLP 数据集 语义分析 语义相似度
1
一种新的基于本体的概念语义相似度计算方法,孙铁利,邢元元,词词语之间的语义相似度评估在文本分类,信息检索和集成,本体映射等领域起着至关重要的作用。如今,知识库和大型本体越来越多,
2021-04-26 22:26:53 554KB 语义相似度
1
根据wordnet 结构 计算一个单词的信息量
2021-04-23 16:02:29 3KB 语义相似度 信息量 wordnet
1
基于深度学习的短文本语义相似度计算,通过深度学习的思想计算语义相似
2021-04-16 10:21:49 27.57MB 深度学习 相似度计算 语义相似度
1
Words-240测试集包含240对中文词汇和人工对这些词对之间的语义相关度的评测值(和英文的WordSimilarity-353测试集类似),此测试集可以用于测试或者训练中文语义相关度算法。我们以组为单位安排人员进行测试,共分为12组,每组包含20对词。每一组词汇都有20人分别对其相关性进行量化评测, 共有240余人参与了测试。词汇之间相关性的度量值介于0到10之间(0表示这两个词之间毫不相关,10表示这两个词是同义词),我 们将这20个人对某词对的评测结果的平均值作为最终结果。每个人的评价结果请参见“测试集统计结果.xls”。如果您有什么问题或者评论,请您发邮件和我们联系,邮件地址是:xiangwangcn@gmail.com。 此测试集是我们为了测试中文词汇之间的语义相关度算法而构造的,详情请参见我们的论文《基于中文维基百科链接结构与分类体系的语义相关度计算》(作者:汪祥,贾焰,周斌,丁兆云,梁政)。论文尚未发表,发表后您将可以看到。 Words-240测试集得到了国防科技大学613教研室的大力支持,感谢贾焰老师、周斌老师等的指导和帮助。在构造测试集中,著名英文词汇语义相似度的测试集WordSimilarity-353的创立者Lev Finkelstein在如何选择测试集Words-240中词对的问题上进行了热心的指导,在此表示诚挚的感谢。在构造测试集的过程中,湖南师范大学的彭丹同学、湖南大学的陈军同学和国防科技大学的李虎给予了大力协助,在此表示衷心的感谢。国防科技大学、湖南师范大学和湖南大学的240余名同学无偿参与了测试,他们的无私奉献精神直接促使了本测试集的诞生,参加测试的同学有:万芬芬,李大财,吴章彬,尹晋文,邱口,黄江勇,蔡强,王刚,张伟,周晓锋,刘时,徐浩,胡燕,左文豪,吴勇,刘念松,尹波,姚鑫,张右良,周晟,王佳静,何佳,袁功彪,李晋国,谢小红,叶光辉,林建,钟勇才,杨海兵,陈聪,陈超,童国雄,周新云,邹垒,肖天赐,尹邦浩,刘伟,何花,李欢妮,焦丙丰,刘乾,张翠,艾达,伍浩,孙浩然,钟方敬,赵浒,刘哲,龚秀娟,李琦,杨瑞丽,何珂,甘玲,许念,胡蛟,孔梦娟,罗浩,刘芳,廖璨,李冬嫦,白露,皮之云,袁园,潘剑珍,杨厅,徐征,匡牧宇,王薇薇,祁曦婕,宇岳,游凤英,王昕,曹璇,吕性,张志世,杨贵芸,杨雪梅,李腾飞,廖娟,陈娅琦,彭燕,崔文秀,路俊雅,刘雅玲,曾状林,范仁娇,陈玲佳,詹会,孙梦迪,毛本,徐汇,刘婷,黎明阳,刘雨薇,王晓秀,祁美丹,程怡欣,吴之瑶,马超玲,蒋丽娟,刘娜,张芬,阮晓婷,马璞玉,刘贤霖,李西,李小芳,余立,曾惠奇,晓歪,张艳翔,曾田田,张卫,付渔,伍新春,胡朱,苏兴恺,马党,张祥洪,段丽,李文韶,黄红君,陈超,伍月,侯丽华,陆金梅,谢璐璐,谭娜娜,胡海姣,裴晓强、刘建峰,王海波等(由于隐私保护等原因,很多同学的姓名等未在此处列出),在此对他们表示感谢。
1
语义相似度 中文语义相似度模型测试
2021-04-03 17:08:28 1KB
1