只为小站
首页
域名查询
文件下载
登录
TextClassification:基于scikit-learn实现对新浪新闻的文本分类,数据集为100w篇文档,总计10类,测试集与训练集1:1划分。分类算法采用SVM和Bayes,其中Bayes作为基线-源码
新浪新闻文本分类 语料库重建 本项目的语料来源新浪新闻网,通过spider.py爬虫模块获得全部语料,总计获得10类新闻文本,每一类新闻文本有10条。 采纳新浪新闻网的一个api获取新闻文本,api的url为 使用进度池并发执行爬虫,加快抓取速度。 数据预处理 本项目的数据预处理包括:分词处理,去噪,向量化,由stopwords.py模块,text2term.py模块,vectorizer.py模块实现。 本项目借助第三方库解霸完成文本的分词处理。 通过停用词表移除中文停用词,通过正则表达式消除数字(中文数字&阿拉伯数字)。 filter_pattern = re . compile ( ur'[-+]?[\w\d]+|零|一|二|三|四|五|六|七|八|九|十|百|千|万|亿' ) 使用进程池并发执行数据的分词和去噪,加快数据预处理的过程。 把数据集1:1划分为训练集和测试集,各50w篇文档。 通过scikit-learn提供的CountVectorizer类完成矢量化,得到训练集和测试集两个文本的特征矩阵,矩阵类型为稀疏矩阵。 移除文档中文档频率小于0.1%的特征,这些特征我们认
2021-05-14 10:13:12
98KB
data-mining
text-classification
svm
scikit-learn
1
Chatbot_CN:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取,NLU,NLG,知识图谱等,并利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口-源码
Chatbot_CN:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取,NLU,NLG,知识图谱等,并利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口
2021-05-13 01:21:50
1.74MB
reinforcement-learning
deep-learning
sentiment-analysis
text-classification
1
chinese_text_cnn:TextCNN Pytorch实现中文文本分类情感分析-源码
TextCNN Pytorch实现中文文本分类 论文 参考 依赖项 python3.5 pytorch == 1.0.0 torchtext == 0.3.1 jieba == 0.39 词向量 (这里用的是Zhihu_QA知乎问答训练出来的单词Word2vec) 用法 python3 main.py -h 训练 python3 main.py 准确率 CNN-rand随机初始化嵌入 python main.py Batch[1800] - loss: 0.009499 acc: 100.0000%(128/128) Evaluation - loss: 0.0000
2021-05-02 21:05:21
5.99MB
nlp
text-classification
chinese-text-classification
text-cnn
1
多标签文本分类:关于基于神经网络的多标签文本分类-源码
深度学习的多标签文本分类 该存储库是我的研究项目,也是对TensorFlow,深度学习(Fasttext,CNN,LSTM等)的研究。 该项目的主要目的是解决基于深度神经网络的多标签文本分类问题。 因此,根据这种问题的特征,数据标签的格式类似于[0、1、0,...,1、1]。 要求 Python 3.6 Tensorflow 1.15.0 Tensorboard 1.15.0 斯克莱恩0.19.1 脾气暴躁的1.16.2 Gensim 3.8.3 Tqdm 4.49.0 项目 项目结构如下: . ├── Model │ ├── test_model.py │ ├──
2021-04-30 19:34:03
276KB
text-classification
tensorflow
python3
sentence-classification
1
text-cnn:嵌入Word2vec词向量的CNN中文文本分类-源码
使用CNN和Word2vec进行文本分类 本文是参考gaussic大牛的“
text-classification
-cnn-rnn”后,基于同样的数据集,嵌入词级别操作的CNN文本分类实验结果,gaussic大牛是基于字符级的;进行了第二版的更新:1。加入不同的卷积核; 2。加入正则化; 3。词唯一的中文或英文,删除掉文本中数字,符号等类型的词; 4。删除长度为1的词训练结果较第一版有所提升,验证集准确率从96.5%达到97.1%,测试准确率从96.7%达到97.2%。 本实验的主要目是为了探索基于Word2vec训练的词向量嵌入CNN后,对模型的影响,实验结果得到的模型在验证集达到97.1%
2021-03-11 19:01:08
15.65MB
text-classification
tensorflow
word2vec
cnn
1
PaddleNLP:基于PaddlePaddle 2.0的NLP核心库和模型动物园-源码
简体中文| 简介 PaddleNLP 2.0具有丰富的模型库,简洁易用的API与高性能的分布式训练的能力,可以为飞轮开发者提升文本建模效率,并提供基于Padddle 2.0的NLP领域最佳实践。 特性 丰富的模型库 涵盖了NLP主流应用相关的前沿模型,包括中文词向量,预训练模型,词法分析,文本分类,文本匹配,文本生成,机器翻译,通用对话,问答系统等,更多详细介绍请查看。 简洁易用的API 深度兼容飞轮2.0的高层API体系,提供可替换的文本建模模块,可大幅度减少数据处理,组网,训练互换的代码开发量,提高文本建模开发效率。 高效分散训练 通过深度优化的混合精度训练策略与舰队分布式训练API,可充
2021-02-07 12:06:41
2.33MB
nlp
text-classification
transformer
seq2seq
1
text-classification
论文.zip
150篇相关论文
2021-02-01 21:40:40
113.29MB
自然语言处理
深度学习
文献
1
Text Classification Algorithms _ A Survey.pdf
A brief overview of text classification algorithms is discussed. This overview covers different text feature extractions, dimensionality reduction methods, existing algorithms and techniques, and evaluations methods.
2021-01-28 04:54:51
7.2MB
文本分类
综述
算法
机器学习
个人信息
点我去登录
购买积分
下载历史
恢复订单
热门下载
凯斯西储大学(CWRU)轴承数据集(含数据包+整理Python程序+使用说明)
商用密码应用与安全性评估——霍炜.pdf
刚萨雷斯《数字图像处理》第四版答案.pdf
画程(版本6.0.0.127)setup个人版
芯片验证漫游指南以及源代码.zip
ios无人直播 虚拟视频实用版 可以导入视频
上帝之眼和拾荒者.rar
2021华为芯片研发岗位笔试题
基于OpenCV的车牌号码识别的Python代码(可直接运行)
(推荐)小爱触屏音箱LX04_2.34.5-官改-(开发版)SP5
sqlite运行所需Vc++运行环境,纯净版System.Data.SQLite.dll及SQLite.Interop.dll
空间谱估计理论与算法------程序.rar
avantage 软件 xps 处理软件30天后不能使用问题
中国地面气象站观测数据2000-2021
Autojs 例子 源码 1600多个教程源码
最新下载
基于Qt的MinGw编译PCL及其所有依赖库boost、eigen、flann、qhull、VTK
P5K SE/EPU 添加ahci 添加771微码之终极完美bios
涡喷发动机图纸.rar
高空抛物演示代码:基于sort和动态检测
曲波变换matlab代码-curvelops:适用于CurveLab2D和3DCurvelet转换的Python包装器
诺威达K2201S车机车载导TEYES天之眼安卓rom安卓9.1 卡刷升级救砖刷机包
Labview与舟正DAQM-4206C模拟量采集卡485通讯,采集的模拟量信号是0-5V的电压信号
RTL8211 layout指导手册
zemax光纤耦合设计
联想BIOS_L-IG41M3 V1.1 版本:DMKT05AUS 新圆梦F208
其他资源
imedllhost下载
华为光猫ONT维修使能工具V300R13C10SPC800
《MySQL实用教程》郑阿奇著实验报告完整版
struts2+hibernate+spring+jpa+maven的网上订餐系统
IP5306方案2.4A充电宝PCB
公交车线路查询APP系统
61850客户端工具
C++课程设计:学生管理系统、学生考勤系统、酒店点菜系统(含源码和文档)
电视大赛及观众投票排名系统.docx
语音识别MFCC特征提取matlab代码
emu8086(汉化版)
C++高级网络编程经典的C++网络编程书籍
CGMM MVDR 波束成形
如鹏网《Net微服务》课件第二版.pdf
UEd转换器-源码
成电 信号与信息处理(081002)考博专业《信号与系统》总结
MvxScaffolding::building_construction:一个可定制的模板,用于搭建跨平台的MvvmCross应用程序-源码
k8s集群部署及使用说明_案例讲解.docx
2021年《初级会计实务》第4章(无答案版).docx
WinRemoteDesktop 简易远程桌面管理工具
flash cs5 与as3制作的仿雷电小游戏
基于jsp的网上订餐系统
model predictive control (E.F.Camacho,C.Bordons)