词义消歧是自然语言处理中的难题之一。结合《知网》,从语义的角度出发,结合词性信息、搭配实例和语义相关度等信息,提出了一种多策略的词义消歧方法。
1
人工智能-机器学习-词语语义相关度计算研究.pdf
2022-05-04 12:06:01 2.39MB 人工智能 文档资料 机器学习
对基于WordNet的词汇语义相关度算法的评估 作者:Alexander Budanitsky,Graeme Hirst University of Toronto
2021-05-21 23:35:15 972KB 语义相关度
1
Words-240测试集包含240对中文词汇和人工对这些词对之间的语义相关度的评测值(和英文的WordSimilarity-353测试集类似),此测试集可以用于测试或者训练中文语义相关度算法。我们以组为单位安排人员进行测试,共分为12组,每组包含20对词。每一组词汇都有20人分别对其相关性进行量化评测, 共有240余人参与了测试。词汇之间相关性的度量值介于0到10之间(0表示这两个词之间毫不相关,10表示这两个词是同义词),我 们将这20个人对某词对的评测结果的平均值作为最终结果。每个人的评价结果请参见“测试集统计结果.xls”。如果您有什么问题或者评论,请您发邮件和我们联系,邮件地址是:xiangwangcn@gmail.com。 此测试集是我们为了测试中文词汇之间的语义相关度算法而构造的,详情请参见我们的论文《基于中文维基百科链接结构与分类体系的语义相关度计算》(作者:汪祥,贾焰,周斌,丁兆云,梁政)。论文尚未发表,发表后您将可以看到。 Words-240测试集得到了国防科技大学613教研室的大力支持,感谢贾焰老师、周斌老师等的指导和帮助。在构造测试集中,著名英文词汇语义相似度的测试集WordSimilarity-353的创立者Lev Finkelstein在如何选择测试集Words-240中词对的问题上进行了热心的指导,在此表示诚挚的感谢。在构造测试集的过程中,湖南师范大学的彭丹同学、湖南大学的陈军同学和国防科技大学的李虎给予了大力协助,在此表示衷心的感谢。国防科技大学、湖南师范大学和湖南大学的240余名同学无偿参与了测试,他们的无私奉献精神直接促使了本测试集的诞生,参加测试的同学有:万芬芬,李大财,吴章彬,尹晋文,邱口,黄江勇,蔡强,王刚,张伟,周晓锋,刘时,徐浩,胡燕,左文豪,吴勇,刘念松,尹波,姚鑫,张右良,周晟,王佳静,何佳,袁功彪,李晋国,谢小红,叶光辉,林建,钟勇才,杨海兵,陈聪,陈超,童国雄,周新云,邹垒,肖天赐,尹邦浩,刘伟,何花,李欢妮,焦丙丰,刘乾,张翠,艾达,伍浩,孙浩然,钟方敬,赵浒,刘哲,龚秀娟,李琦,杨瑞丽,何珂,甘玲,许念,胡蛟,孔梦娟,罗浩,刘芳,廖璨,李冬嫦,白露,皮之云,袁园,潘剑珍,杨厅,徐征,匡牧宇,王薇薇,祁曦婕,宇岳,游凤英,王昕,曹璇,吕性,张志世,杨贵芸,杨雪梅,李腾飞,廖娟,陈娅琦,彭燕,崔文秀,路俊雅,刘雅玲,曾状林,范仁娇,陈玲佳,詹会,孙梦迪,毛本,徐汇,刘婷,黎明阳,刘雨薇,王晓秀,祁美丹,程怡欣,吴之瑶,马超玲,蒋丽娟,刘娜,张芬,阮晓婷,马璞玉,刘贤霖,李西,李小芳,余立,曾惠奇,晓歪,张艳翔,曾田田,张卫,付渔,伍新春,胡朱,苏兴恺,马党,张祥洪,段丽,李文韶,黄红君,陈超,伍月,侯丽华,陆金梅,谢璐璐,谭娜娜,胡海姣,裴晓强、刘建峰,王海波等(由于隐私保护等原因,很多同学的姓名等未在此处列出),在此对他们表示感谢。
1