CRM系统:数据挖掘技术在CRM中应用的过程研究
数据挖掘技术在CRM中应用的过程研究
戴艳红
( 河北政法职业学院计算机系, 石家庄050061)
[ 摘要] 本文介绍了客户关系管理的概念, 并对数据挖掘的概念和技术方法做了简要说明, 最后着重介绍了在客户
关系管理中应用数据挖掘技术的过程。
[ 关键词] 客户关系管理; 数据挖掘; 电子商务
[ 中图分类号] F270.7;F273.7 [ 文献标识码] A [ 文章编号] 1673- 0194( 2007) 04- 0043- 02
客户关系管理(CRM) 的核心思想是将企业的客户作
为最重要的企业资源, 通过完善的客户服务和对客户的行
为方式进行深入分析, 寻找其中的规律, 满足客户的需求,
提高服务水平, 保证实现客户的终生价值。同时CRM也是
一种管理软件和技术, 它将最佳的商业实践与数据挖掘、
数据仓库、OLAP 以及其他信息技术紧密结合在一起, 为企
业的销售、客户服务和决策支持等领域提供解决方案, 使
企业能有一个基于电子商务的面向客户的平台, 从而顺利
实现由传统企业模式到以电子商务为基础的现代企业模
式的转化。数据挖掘技术能对大量的数据及信息进行挖
掘, 从中发现潜在的关系, 并利用模型对客户需求进行预
测, 帮助企业做出决策, 使企业获得高额的投资回报。
一、数据挖掘的概念
数据挖掘(Data Mining,DM), 又称数据库中的知识发
现(Knowledge Discovery in Database,KDD), 是指从大型数
据库或数据仓库中提取隐含的、未知的、非平凡的及有潜
在应用价值的信息或模式。它是数据库研究中的一个很有
应用价值的新领域, 融合了数据库、人工智能、机器学习、
统计学等多个领域的理论和技术。从商业角度看, 数据挖
掘是一种崭新的商业信息处理技术, 其主要特点是对商业
数据库中的大量业务数据进行抽取、转化、分析和模式化
处理, 从中提取辅助商业决策的关键知识, 即从一个数据
库中自动发现相关商业模式。它可以描述成: 按企业既定
业务目标, 对大量的企业数据进行探索和分析, 揭示隐藏
的、未知的或验证已知的商业规律, 并进一步模式化的数
据处理方法。数据挖掘工具能够对将来的趋势和行为进行
预测, 从而很好地支持人们的决策。比如, 经过对整个公司
数据库系统的分析, 数据挖掘工具可以回答诸如“什么样
的客户对我们公司的邮件推销活动最有可能做出反应, 为
什么”等类似的问题。如果将其运用到客户关系管理中, 就
能在数据量庞大的客户数据仓库中, 将看似无关联的数据
进行筛选, 净化, 提取出有价值的客户关系, 实现对客户需
求做出恰当的回应, 并预测需求趋势。
二、常用的数据挖掘方法
常用的数据挖掘方法主要包括: 分类、聚类、关联规
则、统计回归、偏差分析等等。
1. 分类
分类在数据挖掘中是一项非常重要的任务。分类的目
的是通过统计方法、机器学习方法( 包括决策树法和规则
归纳法) 、神经网络方法等构造一个分类模型, 然后把数据
库中的数据映射到给定类别中的某一个。
2. 聚类
聚类是把一组个体按照相似性归成若干类别, 即“物
以类聚”。它的目的是使同一类别之内的相似性尽可能大,
而类别之间的相似性尽可能小。这种方法可以用来对客户
进行细分, 根据客户的特征和属性把客户分成不同客户
群, 根据其不同需求, 制订针对不同客户群的营销策略。
3. 关联规则
它是描述数据库中数据项之间存在关联的规则, 即根
据一个事物中某些项的出现可导出另一项在同一事物中
也出现, 即隐藏在数据间的关联或相互关系。在客户关系
管理中, 通过对企业客户数据库里大量数据进行挖掘, 可
以从中发现有趣的关联关系, 例如, 买过A 商品的客户以
后会购买B 商品。通过对这些数据进行挖掘, 获得对顾客
购买行为极有价值的信息, 从而可以帮助企业及时把握客
户需求, 对客户实行交叉销售, 为企业决策提供参考。
4. 回归分析
回归分析反映的是事务数据库中属性值在时间上的
特征, 主要用于预测, 即利用历史数据自动推出对给定数
据的推广描述, 从而对未来数据进行预测。它可应用于商
品销售趋势预测、客户赢利能力分析和预测等。
5. 偏差分析
偏差分析侧重于发现不规则和异常变化, 即与通常不
同的事件。在相类似的客户中, 对客户的异常变化要给予
密切关注。例如某客户购买行为发生较大变化, 购买量较
以前大大减少, 就要对客户的这种原因进行调查, 避免客
户流失。
三、CRM中的数据挖掘过程
为使CRM系统建立良好的模型, 在实施数据挖掘之
前, 先确定采取什么样的步骤, 每一步都做什么, 达到什么
样的目标是必要的, 有了好的计划才能保证数据挖掘有条
不紊地实施并取得成功。
虽然把各个步骤按顺序排列, 但要注意数据挖掘过程
并不是线性的, 要取得好的结果就要不断重复这些步骤。
比如在“分析数据”时可能会发现在“建立数据挖掘数据
库”时做的不够好, 需要添加一些新的数据。
有效的CRM中的数据挖掘的基本步骤为:
1. 定义商业问题
每一个CRM应用程序都有一个或多个商业目标, 要
想充分发挥数据挖掘的价值, 必须要对目标有一个清晰明
确的定义, 即决定到底想干什么。
2. 建立数据挖掘库
连同下面的两个步骤, 这三步构成了数据预处理的核
心。这三步比其他所有的步骤加在一起所花的时间和精力
还多。数据准备和模型建立之间可能反复进行, 因为从模
型中会学到新的东西, 而这又需要修改数据。数据准备阶
段也要占去全部数据采集过程的80%到90%的时间和努
力。
应该把要挖掘的数据都收集到一个数据库中。注意这
并不是说一定要使用一个数据库管理系统。根据要挖掘的
数据量的大小、数据的复杂程度、使用方式的不同, 有时一
个简单的平面文件或电子表格就足够了。
需要建立独立的数据挖掘库的另一个理由是, 数据仓
库可能不支持对数据进行各种复杂分析所需的数据结构,
包括对数据进行统计查询, 多维分析和各种复杂的图表及
其可视化。
建立数据挖掘库可分成下面几个部分:
(1) 数据收集。确定要挖掘的数据源。
(2) 数据描述。描述每个文件和数据库表的内容。
(3) 数据提取。把一些冗余或无关的数据除去, 选择用
于数据挖掘的数据。在数据提取过程中, 可以利用数据库
的查询功能以加快数据的提取速度。
(4) 数据清理。了解数据库中字段的含义及其与其他
字段的关系。对提取出的数据进行合法性检查并清理含有
错误的数据。
(5) 合并与整合。大部分情况下需要的所有数据是分
布在不同的数据库中的。数据合并与整合把来自不同数据
源的数据合并到同一个数据挖掘库中, 并且要使那些本来
存在冲突和不一致的数据一致化。
3. 为建模准备数据
这是建立模型之前的最后一步数据准备工作。可以把
此步骤划分成4 个部分:
(1) 选择变量。理想情况下, 可选择所拥有的全部变
量, 输入到数据挖掘工具中, 找出哪些是最好的预测变量。
实际上这样做并不是很好, 其中一个原因是建立模型的时
间随着变量的增加而增加;另一个原因就是盲目性, 包括无
关紧要的数据列被加入, 却很少甚至不能提高预测能力。
(2) 构建新的预测依据。例如, 预测信用风险时, 使用
债务—收入的比率而不是单独使用债务或收入作为预测
变量, 可以产生更准确的结果, 并且更容易理解。
(3) 选取一个子集或标本来建立模型。建立数据挖掘
模型时, 要从大量数据中取出一个与问题相关的样板数据
子集, 而不是动用全部数据。使用恰当的随机挑选的子集
并不会引起信息不足, 反而能减少数据处理量, 节省系统
资源, 而且能通过数据的筛选, 使规律性更容易凸现出来。
(4) 转换变量。使之和建立模型的运算法则一致。
4. 建立模型
建立模型是一个反复的过程。需要仔细考察不同的模
型以判断哪个模型更有用。在寻找好的模型的过程中学到
的东西, 会启发用户修改数据, 甚至改变最初对问题的定
义。
为保证得到的模型具有较好的精确度和健全性, 需要
一个定义完善的训练—验证协议, 有时也称为指导性学
习。主要思想就是先用一部分数据建立模型, 然后再用剩
下的数据来测试和验证这个得到的模型。
5. 评价模型
对模型的评价依赖于需要解决的问题, 由领域专家对
模型的精确性和有效性进行评价。
6. 实施
把数据挖掘模型所发现的知识应用到实际工作中, 为
决策提供支持。如根据得到的知识可以设置某些触发器,
当满足条件时进行特殊处理。
四、结论
本文在探讨CRM的基础上引入数据挖掘技术, 详细
阐述了该技术在客户关系管理的重要应用及其实现过程。
数据挖掘技术在以客户为中心的客户关系管理中扮演着
越来越重要的角色, 随着理论的进一步发展和深化, 必然
会带给CRM更为广泛的应用前景和市场价值, 提高企业
的竞争力。
主要参考文献
[ 1] 赵红宇. CRM中的数据挖掘技术[M] . 商场现代化, 2006, ( 6) ( 上
旬刊) .
[ 2] 赵静,和斌. 基于数据挖掘的客户关系管理系统的构建[ J] . 情报
技术, 2005, ( 11) .
[ 3] 吴志军. 客户关系管理中的数据挖掘[ J] . 商场现代化, 2005, ( 9)
( 中旬刊) .
[ 4] 颜炎. 构建基于数据挖掘的客户关系管理系统[M] . 长沙: 国防科
技大学出版社, 2002.
[ 5] 陈文伟, 黄金才. 数据仓库与数据挖掘[M] . 北京: 人民邮电出版
社, 2004.