由复旦大学李荣陆提供。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。train.zip为训练语料,共9804篇文档,分为20个类别。answer.zip为训练语料,共9833篇文档,同为20个类别。训练语料与测试语料基本按照1:1的比例来划分
2019-12-21 20:08:37 52.56MB NLP 文本分类 语料库 训练集
1
最新Tmsvm基于SVM的文本挖掘系统 包含JAVA和python两个版本
2019-12-21 20:05:59 3.46MB SVM 支持向量机 tmsvm 文本分类
1
中文文本分类,停用词表
2019-12-21 20:05:36 3KB 停用词表
1
中文京东商品评论数据集,分为正负两类,共4000个,可用做文本分类实验
2019-12-21 20:00:11 741KB 文本分类
1
一个文本分类系统,C++的
2019-12-21 19:50:52 8.03MB 文本分类 C++
1
基于贝叶斯分类的中文垃圾信息分类识别核心核心代码,可直接运行的源程序。public void loadTrainingDataChinies(File trainingDataFile,String infoType) { //加载中文分词其 NLPIR.init("lib"); // System.out.println(trainingDataFile.isFile()+"=============="); // 尝试加载学习数据文件 try { // 针对学习数据文件构建缓存的字符流,利用其可以采用行的方式读取学习数据 BufferedReader fileReader = new BufferedReader(new FileReader( trainingDataFile)); // 定义按照行的方式读取学习数据的临时变量 String data = ""; // 循环读取学习文件中的数据 while ((data = fileReader.readLine()) != null) { // System.out.println("*****************************"); //System.out.println(data+"000000000000000000000"); // 按照格式分割字符串,将会分割成两部分,第一部分为ham或spam,用于说明本行数据是有效消息还是垃圾消息,第二部分为消息体本身 //String[] datas = data.split(":"); // 对消息体本身进行简单分词(本学习数据均为英文数据,因此可以利用空格进行自然分词,但是直接用空格分割还是有些简单粗暴,因为没有处理标点符号,大家可以对其进行扩展,先用正则表达式处理标点符号后再进行分词,也可以扩展加入中文的分词功能) //首先进行中文分词 // System.out.println(datas[1]+"------------------------"); //if(datas.length>1) { //System.out.println(datas.length); String temp=NLPIR.paragraphProcess(data, 0); //System.out.println(temp); String[] words = temp.split(" ");
2019-12-21 19:45:49 14KB 垃圾信息 文本分类 贝叶斯
1
卡方特征词选择法选取1000个特征词的中间文件
2019-12-21 19:44:34 13.78MB 文本分类 卡方
1
短文本情感分析语料,某外卖平台收集的用户评价,正负各8000条,共16000条
2019-12-21 19:36:36 386KB 中文情感分析 语料 短文本分类 NLP
1
基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类准确率达到了78%,包含卡方特征选择算法(训练集特征选择)。
2019-12-21 19:36:01 3.9MB Hadoop 文本分类 朴素贝叶斯 TF
1
Python,TensorFlow实现文本分类代码集合(含数据)_TextCNN_TextRNN_TextRCNN_HierarchicalAttentionNetwork__Seq2seqWithAttention等等9种文本分类算法实现代码
2019-12-21 19:30:34 13.92MB 文本分类
1