CRM系统:决策树技术在银行CRM 中的实证研究
客户关系管理应用于银行业是指银行通过富有意义的交流沟通, 理
解并影响客户行为, 最终实现提高客户获得、客户保留、客户忠诚和客户
创利目的反复循环的过程, 是一种旨在改善银行与客户之间关系的新型
管理机制。
对于银行业来说,如何提供更快速和周到的优质服务吸引和保持更
多的客户成为各银行逐利的目标。数据挖掘是整个客户关系管理中最重
要的组成部分, 是客户关系管理创造商业价值的关键。在银行CRM中
有效利用数据仓库和数据挖掘技术,可以为银行高层决策者提供准确的
客户分类、忠诚度、盈利能力及潜在客户等有用信息, 指导他们制定最优
的银行营销策略、降低银行运营成本、增加利润及加速银行的发展。
一、决策树
决策树技术由于其生成的规则容易理解和可解释性等特点, 被广泛
地应用于数据挖掘领域。决策树由三个基本部分组成: 节点、分支和树叶
节点。决策树中的节点是一个测试条件, 这个测试条件将决策树分为多
个分支, 每个分支代表了该测试条件的每个可能答案, 位于决策树最顶
端的节点为根节点。每个分支会连接另一个节点, 或者连接决策树的末
端( 即树叶节点) , 决策树建立起来后, 需要预测的数据对象从根节点出
发, 根据所经过的节点的测试条件选择要经过的分支, 并最终到达树叶
节点。树叶节点的值或类别也就是要赋予该数据对象的值或类别。
决策树可以通过图形和文字的形式展现出来, 可解释性大大高于其
他数据挖掘工具, 如神经网络。建模人员可以通过观察决策树的各个节
点来了解数据集合的整体模式, 还可以根据领域知识和正常逻辑来判断
决策树的分类是否妥当。当数据挖掘任务是分类记录或预测离散结果
时, 决策树更是首选对象。此外, 决策树比许多其他技术相比需要的数据
准备更少些。因此, 决策树技术被广泛地应用到银行客户关系管理中。
二、决策树技术在银行CRM中的实证研究
我国人口分布特征是约80%的人口为农村户口, 本文采用的实证研
究数据来源于农行浙江分行某县级市支行所属的分理处。该分理处主要
的客户对象所在镇的农民储户、当地居民、个体经商户等, 存款额( 个人、
单位、同业存款) 4 亿元以上, 贷款2.5 亿元左右。
( 一) 数据挖掘任务的提出。在传统存贷款业务中主要包括三类, 即
个人、单位和同业存款。其中个人储蓄主要形式是活期和定期等形式, 在
个人存款客户关系管理中, 由于客户分散, 数量较多, 利用决策树技术对
客户进行分类, 并找出各类客户的特征, 使其有目标、针对性地开展客户
营销活动, 降低客户营销成本, 提高银行新的利润增长点。
( 二) 用于数据挖掘的数据分析。在客户关系管理的数据挖掘系统
中, 并不是所有的数据格式都能直接被用于数据挖掘, 一般用于数据挖
掘的数据有以下特点: 一是所有的数据应该放在单一的表格中; 二是每
行应该与一个实体相对应, 例如客户; 三是带有单一数值的列应该被忽
略; 四是对每列带有不同数值的列应该被忽略; 五是对于预言性建模, 目
标列应该被识别, 并且所有的同义列要除去。因此, 必须对数据进行预处
理。
( 三) 数据预处理。数据预处理是从大量的数据属性中提取出对目标
有重要影响的属性来降低原始数据的维数, 或者是处理一些不好的数
据, 从而改善实例数据的质量和提高数据挖掘的速度, 包括数据收集与
整理、清理、变换等。数据收集与整理主要是选择正确的数据源; 数据清
理主要是对数据库中的异常数据、不相关字段或互相冲突的字段进行处
理。清理的方法包括直接删除空缺项、人工填补空缺值、使用属性的平均
值填写空缺值。数据变换是将数据进行规范化和聚集。规范化可以改进
涉及距离度量的挖掘算法的精度和有效性。聚集是对数据进行汇总。
本例数据预处理分析: 1.数据收集与整理。原始数据有活期储户一
览表和定期储户一览表, 表中有近两万个记录, 其中活期储户一览表中
包括姓名、身份证号码、账号、开户日期、余额、积数等信息。“积数”是指:
以一年为计数单位, 以每年的7 月1 日为基准日, 至统计截止日为止的
储户账户余额逐日累计的总额, 例: 某储户活期账户7 月1 日时余额为
1000元, 假设该储户账户中的余额一直未变, 又假设统计截止日为7 月
8 日, 则该储户的积数为1000×8=8000 元。因此, “积数”数额的大小实际
上直接反映了储户对银行筹资贡献的大小。考虑到储户开户时间的长短
不同,用积数作为预测变量不能正确衡量差异性, 因为相同的储蓄金额,
开户时间长的, 其积数一定比开户时间短的高。因此, 引入“平均积数”来
替代“积数”。平均积数的计算公式为: 平均积数=积数/天数。平均积数的
另一个名词称为每户日均存储余额,反映的是单户日均数。定期储户一
览表中包括姓名、身份证号码、账号、开户日期、存款期限、存款金额等信
息。2.数据清理。对近万个客户记录的活期储蓄数据进行清理, 主要是对
身份证号码不全者( 有些是实名制前的客户资料) , 由于存在无法推导其
真实年龄( 性别可根据客户姓名大致判断) 等问题, 因此将这部分数据直
接进行了删除。此外, 还删除了银行提供的“积数”为零的值。3.数据变
换。经清理后, 将数据进行必要的变换, 本文确定了用于数据挖掘的相关
属性共六个: 年龄、性别、存款余额、账户使用年限、平均积数和是否定期
储户。
( 四) 概念分层
从数据分析可知, 对每列带有不同数值的列是不适合用于数据挖掘
的。因此, 数据还要进行概念分层处理。概念分层最重要的问题是: 如何
确定一个最佳的分割阀值。
( 五) 决策树生成过程
根据数据挖掘任务, 将目标变量定为“是否定期储户”, 属性为
nominal, 取值为“0”或“1”, 其中“0”表示不是定期储户, “1”表示既是活期
储户同时也是定期储户。预测变量为: 性别、年龄、使用年限、余额和平均
积数。本文选用C&RT 算法即决策树分类和回归算法。该算法是一种完
全两分类树型分析法则, 用来方便细分数据以及生成精确的同质性子
集。
( 六) 由决策树提取出该银行客户分类规则
图1 的决策树由于不存在过分拟合等情况, 因此, 不需对其进行剪
枝处理, 直接根据上述决策树提取规则, 以IF- THEN 的形式来表示。对
从根到树叶的每条路径创建一个规则。在给定的路径上的每个属性- 值
对形成规则前件( “IF”部分) 的一个合取项。叶节点包含类预测, 形成规
则后件( “THEN”部分) 。
沿着根节点到叶节点的路径, 图1 的决策树可以转换成IF- THEN
分类规则, 如下所述:
1.IF 年龄>70 AND 平均积数<=312 THEN 86.8%的活期储户选择
定期; 2.IF 年龄>70 AND 平均积数>312 THEN 61.8%的活期储户选择
定期; 3.IF 年龄<70 AND 平均积数<=27348.28 AND 余额<=134.51
THEN 3.5%的活期储户选择定期; 4.IF 年龄<70 AND 平均积数<=
27348.28 AND 余额>134.51 THEN 7.5%的活期储户选择定期; 5.IF 年
龄<70 AND 27348.28<平均积数<=38483.12 THEN 21%的活期储户选
择定期; 6.IF 年龄<70 AND 平均积数>38483 THEN 59.2%的活期储户
选择定期。
三、结论与建议
1.银行活期储蓄客户中, 是否同时是定期储户这一条件不受性别影
响, 与活期储蓄账户使用年限的关系也不大。因此, 可不必过多地去考虑
储户的性别和账户使用年限,而跟年龄和平均积数有很大的关系。
2.年龄在70 岁以上的客户, 同时选择定期储蓄存款的可能性极大。
不难分析出, 这部分储户的储蓄的动机主要目的是为了防老。在我国, 尤
其是广大农村( 本案例的数据提供银行为县级市支行下属分理处, 因此,
其客户的身份多数是农民和小城镇居民) 社保体系极不完善, 人们就不
得不进行生老病死等费用的预防性储蓄。因此, 此类客户一般是较忠诚
的客户, 除非等着急用, 一般存入银行的钱不会轻易取出, 可以把他们归
为忠诚度较高的客户。其次, 这类客户的另一个特点是其储蓄金额不会
太大, 从本案例的数据中可以看出, 此类储户平均定期储蓄金额为
8576.23 元。究其原因, 此类客户的收入来源比较单一, 自己已没有劳动
能力创造财富, 其财富的积累靠平时的节俭、力所能及的劳动以及子女
的赡养积攒而成。因此, 根据此特点, 建议银行对此类客户不必投入过多
的营销费用, 因为他们的储蓄能力有限。
3.建议银行关注平均积数的数额, 平均积数大于38483 元的活期储
户大部分也会同时选择定期储蓄。分析此类客户的特点, 其一, 年龄在
70 岁以下, 富有劳动力, 平均积数高意味着财富相对较多, 且平均积数
的大小直接与银行的贡献率相关。平均积数越大, 其对银行的贡献就越
大; 其二, 本案例的数据中可以看出, 此类客户的平均定期储蓄金额高达
175632 元, 平均积数高同时也意味着资金流动量大。因此, 根据以上特
征可以判断出此类客户属于高收入阶层。其中, 有一些是企业经营者、个
体老板。对于此类客户, 银行应把他们列入重点营销对象进行营销, 平时
应加强与他们的联系。采取比对一般客户更加有吸引力、更加优惠的政
策以牢牢保持住这部分高贡献度、高收入的客户。
4.对于平均积数在27348.28 元与38483 元之间的活期储户, 其中有
大概五分之一的人会同时选择定期储蓄, 根据分析, 此类客户一般为县
城中的中低等收入者。对此类客户建议银行进行关注, 可作为银行定活
储蓄的潜在客户进行关注, 并应采取一定的营销策略, 推出各种优惠条
件, 以吸纳其储蓄金额, 为银行的业务发展作贡献。
5.对于平均积数低于27348.28 元的活期储户, 这类客户同时存定期
储蓄的可能性较低, 因此, 可作为一般客户处理。当然, 在现实生活中我
们亦不难发现, 虽然他们当前对储蓄的热情并不高, 随着收入条件的变
化以及理财方式的改变, 他们依旧是银行的潜在客户, 所以, 银行最好也
能采取相应的措施管理这部分客户, 为银行将来进一步开拓市场做准
备。[作者: 浙江经济职业技术学院]
强力推荐:
天柏客户关系管理系统
天柏客户关系管理系统(CRM)是一款集专业性、实用性、易用性为一体的纯B/S架构的CRM系统,它基于以客