文本信息隐藏是保护文本内容安全性与完整性的重要技术。综述了中文文本信息隐藏的研究进展,根据中文文本信息隐藏的线索,将已有的算法分为3类:基于文本图像的算法、基于文本格式的算法和基于文本内容的算法,分别阐述了每类算法的实现过程,分析其优势与不足,并且对比分析了它们的原理、嵌入容量和抵抗攻击能力等。此外,总结了中文文本信息隐藏技术存在的问题,并且对其研究趋势进行展望,期望为该领域的研究提供参考。
1
文本预处理:分词,取出停用词,过滤低频词汇,编码归一化等; 文本向量化:如使用向量空间模型VSM(Vector Space Model)或者概率统计模型对文本进行表示,使计算机能够理解计算,用的方法基于集合论模型。基于代数轮模型。基于频率统计模型等等; 文本特征提取和选择:特征提取对应着特征项的选择和特征权重的计算。
2022-11-06 10:26:20 115KB NLP
1
文本特征向量化
2022-08-21 18:06:01 547KB 文本特征向量化
1
摘要源领域和目标领域特征空间的不一致导致迁移学习准确率下降为此提出一种基于的 不 同领 域 特 征 对 齐 算 法 只 选 取 形 容 词 副 词 名 词 动
2022-08-04 13:00:40 1.56MB 迁移学习 算法
1
微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-of-Words,BoW)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。
2022-04-13 17:00:51 756KB 论文研究
1
基于相似图片聚类的Web文本特征算法.pdf
2021-12-26 17:16:30 428KB 聚类 算法 数据结构 参考文献
常见的文本特征(句向量)提取方法.pdf
2021-11-22 09:08:46 276KB NLP 文本特征提取
1
基于词频与词位置信息的混合式文本特征选择方法软件工程分析.docx
2021-10-08 23:11:13 18KB C语言
基于词条属性聚类的文本特征选择算法.pdf
2021-08-20 01:23:21 1.11MB 聚类 算法 数据结构 参考文献
特征处理代码,数值特征,文本特征,图像特征