12.1 应用场景
垃圾、邮件检测
语言种类检测
客户反馈分析、微博评论情感分析
…
12.2学习目标
在学习完本章后,您应能够:
解释什么是文本挖掘、如何使用文本挖掘,以及使用文本挖掘有哪些好处。
识别文本可能采取的各种格式,以便进行文本挖掘。
连接至文本,并将其导入为文本挖掘模型的数据来源。
在 RapidMiner 中开发一个文本挖掘模型,其中包括常用的文本操作符,例如tokenization、stop word filtering等。
对文本挖掘结果应用其他数据挖掘模型,以便根据文本分析结果预测或分类。
12.3文本挖掘概览
本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾和我们实际想阅读的之间的区别。然后我们将应用此学习到的模型到新的中,来确定其是否为垃圾。垃圾是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾分类的相同的技术可以在许多其他文本挖掘领域中使用。
以下为我们主要执行的挖掘步骤:
– 安装文本挖掘插件
– 加载数据集到 RapidMiner中
– 检查这些文本
– 处理这些文本
– 使用 Naïve Bayes 算法构造一个文本分类模型
– 验证模型
– 应用模型到未分类的数据中