本文介绍了现在分词的语法和用法,并提供了一些练习题,包括单句语法填空。练习题中涉及到了现在分词作主语、宾语、表语、定语和状语的情况,以及现在分词和动词不定式的区别。通过练习,读者可以更好地掌握现在分词的用法和运用。
2023-10-08 10:29:58 9KB
1
NLPIR.user 下载
2023-10-04 17:17:26 3KB 许可证过期 分词
1
最近跑代码在数据处理分词部分总是需要停用词表,一样一样找太麻烦了,干脆整个合集,方便后续使用。
2023-09-23 21:10:09 49KB 停用词 中文自然语言处理 分词
1
1、 修改字典格式,提高字典加载速度 2、 增加对英文专业名词的支持 如C++,C#等只要加入字典就可以被分出来 3、 增加词频判断功能,在无法取舍时根据词频取舍 4、 增加优先优先词频选项,通过这个选项动态决定分词粒度 需打开 FreqFirst 5、 增加中文人名前后缀统计和根据该统计定位人名的功能 6、 增加中文人名和未登录词出现频率统计功能 7、 增加自动更新字典功能,对超过阈值的人名和未登录词自动插入字典 需打开 AutoInsertUnknownWords 开关 并设置 UnknownWordsThreshold,(不推荐自动插入,推荐手工插入) 8、 增加定期保存字典和统计结果功能 需设置 AutoSaveInterval 9、 增加KTDictSeg.xml配置文件来配置分词参数 10、增加对Lucene.net 的支持,提供 KTDictSegAnalyzer 分析器给Lucene.net 11、增加字典管理功能,可以添加删除修改字典 12、字典管理中提供从未登录词中批量插入字典功能,可帮助使用者手工选择合适的未登录词插入字典(推荐) 13、提供一个新闻搜索的简单例子,采用Lucene.net+KTDictSegAnalyzer+KTDictSeg,项目名为Demo.KTDictSegAnalyzer 14、将所有ArrayList 改为List<> 其中 src_V1.3.01是源码 rel_V1.3.01 包含所有的可执行文件,配置文件;Data目录下是词库,停用词表,以及我目前统计的人名前后缀词表;News 目录下是Lucene.net为 新闻搜索的例子建的索引。 News.zip 是上图中批量插入时要输入的XML文件,它包含3万条从新浪和中华网抓下来的过时的新闻,大约2000万字左右,可供各位朋友学习使用。 注意:如果要导入news.xml,这个文件必须要和Demo.KTDictSegAnalyzer.exe放在同一个目录下!
2023-09-11 06:09:00 3.04MB C# 盘古分词 KTDictSeg 张勇涛
1
搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库搜狗中文语料库
2023-09-09 16:21:03 52.77MB NLP
1
360万中文热门词库分词
2023-05-23 14:43:23 28.02MB 中文 词库 分词
1
NLPCC2016-WordSeg-微博 NLPCC 2016微博分词评估项目 ##任务说明 单词是自然语言理解的基本单元。 但是,中文句子由连续的汉字组成,没有自然的分隔符。 因此,中文分词已成为中文自然语言处理的首要任务,它可以识别句子中单词的顺序并标记单词之间的边界。 与流行的二手新闻数据集不同,我们使用了来自新浪微博的更多非正式文章。 培训和测试数据包含来自各个主题的微博,例如金融,体育,娱乐等。 每个参与者都可以提交三个运行:封闭式运行,半开放式运行和开放式运行。 在封闭的轨道上,参与者只能使用在提供的培训数据中找到的信息。 排除了诸如从外部获得的字数,部分语音信息或姓名列表之类的信息。 在半公开赛道中,除了提供的训练数据之外,参与者还可以使用从提供的背景数据中提取的信息。 排除了诸如从外部获得的字数,部分语音信息或姓名列表之类的信息。 在公开赛道上,参与者可以使用应该
1
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。 icwb2-data 中文分词数据集_datasets.txt icwb2-data 中文分词数据集_datasets.zip
2023-05-17 22:04:02 50.22MB 数据集
1
中文分词词库,中文词库20万(19万6千),自己整理的,用于做中文分词,根据一段话,或者一篇文章进行拆词都可以使用的上。
2023-05-11 22:56:04 2.22MB 中文词库 中文分词 分词词库
1
2022年全国数据分析大赛B题目全部代码,餐饮评价情感倾向包含分词,建模等操作
2023-05-09 23:45:57 54.6MB 情感分析 数学建模 分词 停用词
1