可视化数据挖掘应用实例一则——某银行信贷规则评估
吴源林
(上海财经大学MBA 学院,上海 200083)
摘要:本文应用 Clementine 工具,通过对某银行评估客户信用申请的资料挖掘,展示
了数据挖掘中遇到的问题和解决思路。
关键词:数据挖掘;决策树;Clementine
数据挖掘是运用模式识别技术,以及统计和数
学知识,通过对大量的、不完全的、有噪声的、模
糊的、随机的数据集进行详尽审查挖掘,以发现数
据中内在的关联性、特征和趋势。数据挖掘综合了
多种学科技术,能提供数据分类、聚类、关联和预
测等功能。
近年来,数据挖掘技术已经在
国外多行业中得到了普遍应用,尤
其在金融、电信、零售等领域。许
多企业纷纷利用数据挖掘技术作为
他们获取竞争优势的战略工具,典
型的数据挖掘应用包括生产营运管
理、营销管理和信用分析等。一些
软件公司也推出了功能强大、用户
友好的数据挖掘应用软件,如SAS
公司的Data Miner,SPSS 公司的
Clementine,IBM Intelligent Miner
等,微软公司在其客户关系管理软
件CRM3.0 中也集成了部分数据挖
掘功能。
目前国内不少企业也正在引进
和开始实施这些技术,以期提高其
决策管理能力和竞争优势。但数据
挖掘不仅仅是一个技术运用问题,
其涉及到商务活动中的各个方面。
如果我们对所研究的问题和数据挖掘方法的认识不
够深入的话,则很可能得到错误的信息,造成巨大
的经济损失。
本文通过对日本某银行审批客户申请贷款的记
录进行挖掘,展示数据挖掘中可能遇到的问题和解
决思路,并希望能起到抛砖引玉的作用。
数据挖掘功能的强大性,使其几乎可以运用于
任何商业或科研领域,为了保障数据挖掘的质量和
有效性,SPSS 公司联合几大行业巨头制定了“数据
挖掘跨行业标准流程”(CRISP-DM1)。我们下面的
挖掘过程也将严格按照该流程进行。为清晰展现整
个数据挖掘流程, 我们使用了SPSS 公司的
Clementine 工具。该工具使用节点连接的方式建立
模型,能让我们直观了解建模过程,并把注意力集
中在具体问题的分析上。
一、商业理解,亦即研究理解阶段
这一阶段把项目的目标和要求用清晰的,并把
这些目标和制约条件转化成数据挖掘问题的定义,
形成一个初步实现目标的策略;
在本例中,我们的目标是要找出银行批准或否
1