文本分类
使用Python进行文本分类的简单实践
文件
内容
罗基奥.py
使用 Rocchio 算法的文本分类。 每个文档都在一个向量空间中表示。 在训练阶段,找到每类文档的质心。 在测试阶段,计算测试文档到每个质心的距离,并将文档分配到最近的质心类。
天真的eBayes.py
使用朴素贝叶斯算法的文本分类。 每个文档在一个向量空间中表示。 在训练阶段,学习字典每个术语的类先验和类条件概率。 在测试阶段,文档被分配给给定测试文档具有最大后验概率的类。
这是一个 IPython 笔记本,展示了使用 scikits-learn 机器学习库的完整但简单的文本分类管道。 管道从文本清理和标记化开始,然后将每个文档投影到一个向量空间中。 Tfidf 加权用于对向量进行归一化。 然后测试一些分类器; 使用它们的默认参数。 最后,在蛮力参数网格搜索上使用 10 倍交叉验证,找到了一些分类器的最
2023-03-12 19:06:52
1.16MB
Python
1