SnowNLP: Simplified Chinese Text Processing SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。 from snownlp import SnowNLP s = SnowNLP(u'这个东西真心很赞') s.words # [u'这个', u'东西', u'真心', # u'很', u'赞'] s.tags # [(u'这个', u'r'), (u'东西', u'n'
2021-06-25 21:01:13 36.01MB 附件源码 文章源码
1
这份代码是我们专业的一个实验,内容包含了文本分词和文本分类。分别使用了正向最大匹配算法和KNN算法。分词速度平均153295词/秒,189100字符/秒。文本分类使用tf-idf计算单词权重进行特征选择,我测试时选择前100个特征词,根据k的不同取值,分类的准确度平均为75%。
2021-06-25 09:04:28 15KB 分词算法 KNN文本分类算法 python
中文文本相似度/文本推理/文本匹配数据集——XNLI
2021-06-21 23:42:28 16.27MB 文本匹配
1
CNN-RNN中文文本分类,基于TensorFlow 环境 Python 2/3 (感谢howie.hu调试Python2环境) TensorFlow 1.3以上 numpy scikit-learn scipy
2021-06-21 19:40:22 407KB py 人工智能 AI 中文分词
1
基于朴素贝叶斯的中文文本情感倾向分类研究,写得还是不错的。。。
2021-06-20 19:17:12 1004KB 朴素贝叶斯 情感分类
1
“复旦大学计算机信息与技术国际数据库中心自然语言处理小组”提供的小样本中文文本分类语料,分为训练集和测试集两部分。内容真实有效
2021-06-19 23:06:32 3.9MB 自然语言处理 中文文本 样本数据
1
有24000条新闻,共六个类别,直接用python3的pickle.load()该文件即可,是一个24000个元素的list,list的每个元素是一个tuple,tuple的第一个元素是与处理好的文本,第二个元素是对应的标签。
1
1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。 2、资源中还附有一份停用词。
2021-06-14 10:38:46 86.75MB 中文文本分类 文本分类 语料 停用词
1
一种基于情感词典和朴素贝叶斯的中文文本情感分类方法
2021-06-09 21:36:04 294KB 论文
1
cnews中文文本分类数据集;由清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史 数据筛选过滤生成,训练过程见我的博客;
2021-06-02 20:25:12 42.97MB cnews 深度学习 数据集
1