文本信息隐藏是保护文本内容安全性与完整性的重要技术。综述了中文文本信息隐藏的研究进展,根据中文文本信息隐藏的线索,将已有的算法分为3类:基于文本图像的算法、基于文本格式的算法和基于文本内容的算法,分别阐述了每类算法的实现过程,分析其优势与不足,并且对比分析了它们的原理、嵌入容量和抵抗攻击能力等。此外,总结了中文文本信息隐藏技术存在的问题,并且对其研究趋势进行展望,期望为该领域的研究提供参考。
1
中文分析软件 chinese analysis
2023-02-19 04:34:17 2.86MB 中文 文本分析工具
1
适用于中文中长文本分类 原始数据集和已经划分的数据集已给出 划分的数据集经过数据预处理,删除了其中的重复文本,以及文本长度小于50的句子,最终构造的平衡语料 训练集 5800 测试集 1000条 验证集1000 (正负评论各站一半)
1
做的失独老人博客的文本分析,做了词云,词频相关性,和词频聚类。欢迎交流~
2023-01-13 11:31:41 12KB R;文本分析
1
NLTK是Python中用于自然语言处理的第三方模块,但处理中文文本具有一定局限性.利用NLTK对中文文本中的信息内容进行抽取与挖掘,采用同语境词提取、双连词搭配提取、概率统计以及篇章分析等方法,得到一个适用于中文文本的NLTK文本内容抽取框架,及其具体的实现方法.经实证分析表明,在抽取结果中可以找到反映文本特点的语料内容,得到抽取结果与文本主题具有较强相关性的结论.
1
复旦大学中文文本分类训练集和测试集 文件太大压缩为了zip格式。 all文件夹为复旦大学中文文本分类语料集, test_corpus为该语料集中挑选部分划分出来的, train_corpus为该语料集中挑选test_corpus后剩余部分划分出来的。 下载以后可以按照自己的要求指定比例划分训练集和测试集,也可以按照本文档的划分方法。
1
NLP实战之中文文本分类
2022-08-08 09:06:40 8.75MB NLP
1
中文文本分类语料-测试集下载 是测试集,训练集请见我的资源 本语料库由复旦大学李荣陆提供。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。
2022-07-21 10:16:29 52.72MB 大数据 文本分析 文本训练 机器学习
1
Bert-Chinese-Text-Classification-Pytorch LICENSE 中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。 介绍 模型介绍、数据流动过程:还没写完,写好之后再贴博客地址。 工作忙,懒得写了,类似文章有很多。 机器:一块2080Ti , 训练时间:30分钟。 环境 python 3.7 pytorch 1.1 tqdm sklearn tensorboardX pytorch_pretrained_bert(预训练代码也上传了, 不需要这个库了)
2022-07-09 11:07:18 6.11MB 深度学习 Bert Ernie 中文文本分类
用朴素贝叶斯分类算法做中文文本分类-附件资源
2022-06-10 09:03:29 23B
1