基于分词与BP网络的文本分类
首先下载整个文件,BP文本分类-语义特征提取.rar主要存放了相关的数据集
代码主要包括:
1.特征提取 首先对文本信息进行分词处理,采用基于字符串匹配的方法: 依次截取一到多个词,并与字典库进行匹配。如二狗,如果匹配到字典中有这个词,则将其分为一个词;发现字典中没有与之匹配的,则说明这个不是一个词语,进行顺序操作,
2.得到分词后的文本之后,就是转换成数字编码,因此电脑没办法识别汉字。这一部分叫特征表示,即用数字的方式表示中文文本,采用的方法是基于词带模型的特征表示
3.通过2我们将文本表示成了数字,但是这样的表示通常都是稀疏的,为此我们利用降维方法,消除掉这些冗余特征。
4. 文本分类,采用的就是bp网络(1)如pca的降维数,维数过高,包含冗余数据,过低又会删除掉重要信息。(2)bp网络结构的调整,如隐含层节点数,学习率等
1