汉字字频统计 1. 给出前100个汉字高频字的频率统计结果; 2. 分别给出前1、20、100、600、2000、3000、6000汉字的字频总和; 3. 计算汉字的熵值; 4. 针对不同规模语料重复上述实验; 5. 以图表的形式表示上述结果; 6. 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。
1
该文提出了一种新的基于小世界网络特性的关键词提取算法.首先,利用K最邻近耦合图构成方式,将文档表示成为词语网络.引入词语聚类系数变化量和平均最短路径变化量来度量词语的重要性,选择重要性大的词语组成候选关键词集.利用侯选关键词集词语位置关系和汉语词性搭配关系,提取出复合关键词. 实验结果表明该方法是可行和有效的,获取复合关键词比一般关键词所表达的含义更便于人们对文本的理解.
2021-02-23 14:04:07 268KB 计算机应用 ; 中文信息处理 ;
1
中文自动分词 1. 使用任意分词方法实现汉语自动分词; 2. 给出至少1000个句子的分词结果(以附件形式); 3. 计算出分词结果的正确率,并给出计算依据; 4. 用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力; 5. 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。
2020-01-03 11:30:38 376KB 中文自动分词 哈工大 中文信息处理
1
中文信息处理发展报告2016第一章词法与句法分析,第二章语义分析,第三章语篇分析,第四章语言认知模型,共20章。知识图谱发展报告2018,第一章知识表示与建模,第二章知识表示学习,第三章实体识别与链接,共十一章。都是高清pdf文档。
1
此压缩包内为苏州大学中文信息处理课程的试卷及答案,共两套
2019-12-21 19:49:00 704KB 苏州大学 中文信息处理
1
宗成庆著统计自然语言处理第二版,包括统计学习的基本概念和自然语言处理的相关知识, PDF版本
2019-12-21 18:55:00 17.7MB nlp 机器学习 自然语言处理
1