搜索【分词；】的结果

【深度学习语料库】常见金融领域词汇词典

金融方面的常见词汇形成的词典/语料库，jieba.load_userdict()即可使用

2019-12-21 18:53:33 15KB NLP 语料库 jieba 分词词典

1

北大人民日报语料库1998两份（带词性标注和不带词性标注）

仅供学习和研究使用，禁止用于商业行为

2019-12-21 18:53:29 4.64MB 中文分词

1

结巴分词、词性标注以及停用词过滤

因为比赛需要用到结巴分词，所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。

2019-12-21 18:53:25 7.15MB python jieba

1

爬虫+分词+Word2vec向量化的实现.zip

可以实现网页的爬取，到分词，词语的向量化

2019-12-21 18:53:13 8.74MB 爬虫，分词

1

jieba+百度分词词库(60万+)

jieba和百度分词词库；

2019-12-21 18:53:13 2.51MB jieba词库 百度分词词库 分词词库

1

搜狗中文文本分析语料库

搜狗实验室新闻数据精简版，将xml文本进行处理后分类如下：奥运 5595个txt 房产 14695 个txt 互联网 2200个txt 健康 1153个txt 教育 2075个txt 旅游 1802个txt 汽车 1405个txt 商业 12465个txt 时尚 3490 个txt 体育 17237 个txt 文化 628个txt 娱乐 6757个txt 招聘 18个txt 由于是个人xml文本处理过的，处理了部分文档，如果需要更多可以联系我。免费下载链接：https://share.weiyun.com/X0prakLr

2019-12-21 18:52:17 83.69MB 搜狗语料库 jieba分词 文本分类

1

法律判决文书python爬虫、以及数据处理（分词、T-IDF）

https://github.com/helloMickey/project_previous/tree/master/judicial-data-analysis 爬取法律判决书的日期、年份、处理法院，并下载相应文书。代码简单修改参数即可爬取不同的案件

2019-12-21 18:52:00 11KB 判决文书爬虫

1

NLP分词算法，源码

最大概率分词算法，带详细源码基于最大概率的汉语切分目标：采用最大概率法进行汉语切分。其中：n-gram用bigram，平滑方法至少用Laplace平滑。输入：接收一个文本，文本名称为：corpus_for_test.txt 输出：切分结果文本，其中：切分表示：用一个字节的空格“ ”分隔，如：我们在学习。每个标点符号都单算一个切分单元。输出文件名为：学号.txt

2019-12-21 18:51:56 220KB 分词算法

1

中文网页自动分类器

利用knn算法实现了一个中文网页自动分类器，包括网页预处理，ictclas中文分词，基于tf-idf的文本特征表示，基于df的特征选取和基于knn的分类算法，最后通过struts2框架web发布

2019-12-21 18:51:55 173KB ictclas knn struts2 中文分词

1

小黄鸡语料库（分词以及未分词）

小黄鸡语料库，包含分词以及未分词，可以用于自然语言处理。

2019-12-21 18:50:16 12.25MB 语料库 小黄鸡

1

个人信息

热门下载

最新下载

其他资源