CRM系统:聚类模型在客户关系管理中的应用以及对特征提取的探讨
聚类模型在客户关系管理中的应用
以及对特征提取的探讨
谭元戎, 孙剑平
(南京理工大学经济管理学院, 南京210094)
摘要:随着数据挖掘技术的发展和信息的增长,企业和公司开始运用数据挖掘技术来分析和处理他们在商业活
动中积累的关于客户的大量数据,以从中发现重要的规律,来指导公司的营销策略。客户聚类就是一个重要的问
题。它根据客户的个人属性和行为属性,把相似的客户群聚集起来。公司可以根据不同类型的客户作出不同的营
销策略。本文讨论了有关聚类模型的两个问题。第一,介绍了两种经典的聚类算法,以及他们的复杂度。并讨论它
们在客户关系管理中的应用和有效性;第二,讨论了特征提取在聚类过程中的必要性,并给出了如何在聚类模型中
进行特征提取的有效算法。
关键词:聚类;客户关系管理;数据挖掘;特征提取;非监督学习
中图分类号: F22419 文献标志码:A
1 引言
随着数据挖掘技术的成熟,以及客户的个人信
息和行为数据的积累,企业和公司开始重视运用数
据挖掘技术来分析这些数据,希望从中得到有用的
知识和规律,来指导公司的营销策略和发展计划。
因此,数据挖掘技术在客户关系管理[1 ] 领域中找到
了很重要的应用。
例如,银行有一个数据库来保存客户数据。包
括客户的个人信息,如性别,年龄,收入水平等,以及
客户的行为数据,如客户在银行开的账户类型,每月
的存储活动,信用卡客户的刷卡纪录等。移动公司
可以掌握用户的个人信息,以及行为数据:每月通话
的频率,时间长短,通话类型(本地,长途,漫游) 等。
综合用户的个人信息和行为数据,公司可以分析客
户的消费特性。
基于对客户的分析,对客户群体进行聚类,是一
个重要的问题。聚类就是对客户群体的一个划
分———把相似的客户归为一类,把不相似的客户划
分到不同的类中。比如移动客户中,如果每月话费
在1 000 元以上,有很多长途或者漫游的呼叫,这类
客户通常是经常出差,公务繁忙的高额漫游客户群;
如果每月话费在100 元内,短信数量很大而通话比
重较小的,这类客户往往是工作地点比较固定,并且
比较经济型消费的低端客户群;如果用GPRS 上网
量大消费额高,这类客户就是GPRS 大客户群。如
果企业能够对客户进行有效的聚类,识别出客户子
群体,就能够根据每种子群体,总结出他们有代表性
的属性,并针对他们的消费行为,设计营销策略。对
移动公司而言,可以针对不同客户群,设计不同的优
惠移动套餐,以吸引相应的消费人群。
聚类(clustering) 算法和分类(classification)
算法的一个重要的区别是,聚类是一种非监督的学
习(unsupervised learning) , 而分类是一种有监督
的学习( supervised learning)1 在分类问题中,数据
除了属性之外,还有类属性,标示数据属于哪一类。
分类算法就是根据这些训练数据来建立一个分类模
型,模型的参数调整到使得模型可以最好的区分训
练数据。而聚类问题只有数据的属性值,没有类属
性。并且用户事先不知道有几个子类。聚类算法是
通过数据属性的分布而找出相对密集的点,作为一
个子类,相对分散的点作为其他的子类。
聚类模型为分析客户数据提供了一种有力的工
具。在实际应用中,客户数据通常只有属性,没有类
属性。或者类别通常由客户根据主题而定义,并人
为地给每个数据点赋上类属性值。因此,给训练数
据集人工的赋上类属性是很耗时,并且很主观的。
而聚类算法就没有这样的要求,因此聚类算法很适
合用于分析无类属性值的数据。
但是,运用聚类算法也有一些难点。①有些算
法需要用户预先指定子类的个数。可是用户往往面
对着大量数据,很难准确地估计出这些数据可以自
然的分割成几个子类。而且,聚类的结果也会因为
用户指定子类的个数不同而不同。②数据里有很多
属性。可是有些对于聚类并不相关,比如说,用户的
家庭住址。怎样有效的选择相关的属性进行聚类,
需要在聚类之前对数据进行分析,进行特征提取。
③数据里有连续的属性, 例如工资,年龄;也有离散
的属性,例如性别,职位。对连续属性计算距离很自
然,但是对于离散的属性,很难定义不同属性值之间
的距离。④不同的连续属性,他们的取值有不同的
范围。比如说,工资通常在(1 000 ,10 000) 间取值,
而年龄通常在(18 ,80) 间取值。如果两个数据点,他
们的工资差别是2 000 ,而年龄差别是5 , 如果把这
两个距离简单的相加,那么在工资属性上的距离会
大大超过年龄的差距,从而削弱年龄这个属性的影
响力。因此,在聚类之前,要先对各属性进行归一化
(normalization) 。一种办法是把每个连续的属性值
都归一化到一个统一的区间,比如[ 0 ,1 ]之间。
作者认为,在上面提到的对聚类的数据进行特
征提取是一个很重要、值得研究的问题。在数据挖
掘或者机器学习的领域中,绝大部分的对特征提取
问题进行研究的工作都是在有监督学习的框架下,
比如分类算法中, 决策树C415[2 ] 用Information
Gain 来进行特征提取。然而,聚类问题属于非监督
学习。在这种情况下进行特征提取,难度会大大增
加,由于缺乏类属性的信息,因此不能给每个单独的
特征给出一个有效性的衡量。
尽管使用聚类算法有这些难度,它还是给用户
分析公司的客户数据提供很好的模型。公司可以根
据客户在属性上的差别,把他们分成不同的子类。
然后分析每个子类的特点。本文将讨论两种重要的
聚类算法,然后讨论如何将它们运用到客户关系管
理的实例中。再给出在聚类问题中(非监督学习) 进
行特征提取的算法。本文将按照以下的结构组织。
第二节讨论两种重要的聚类算法,他们的优缺点,以
及他们的时间复杂度。这些算法将作为分析客户子
群体的重要模型。第三节讨论将聚类算法运用到客
户聚类问题上的步骤,和每一步应注意的问题。第
四节,介绍聚类问题中的特征提取算法。第五节用
一些实验来验证聚类算法和特征提取算法。第六节
给出结论并结束全文。
2 聚类模型
聚类算法根据不同的方法,可以分成以下几种
类型: 基于划分的,例如K - Means [3 ] , K - Me2
doids [4 ] ; 基于层次的,例如BIRCH [5 ] , CURE [6 ] ;
基于密度的, 例如DBSCAN[7 ] , OPTICS [8 ]1 在这
一节我们将详细介绍K - Means 算法,并讨论它的
一个改进版本,并分析它们的复杂度。
K- Means 属于基于划分的聚类算法。其基本
思路是,选择K 个数据点作为子类的中心,然后根
据所定义的距离的衡量,把其余的点都划分到不同
的子类。K2Means 是聚类模型中最有代表性的一
个算法。它的思路是: ①随机的挑选K 个数据点作
为初始的中心; ②把每一个数据点归到离它最近的
中心; ③对每一个子类,计算它们的属性值的平均
值,把算出的平均值作为新的中心; ④重复步骤②,
直到每一个数据点的归类都不再变化。K2Means
的好处在于它的时间复杂度比较低,是O ( t kn) , t
是算法循环的次数,k 是子类的个数,n 是数据点的
个数。通常t , k < < n , 因此K - Means 可以看成
是数据点个数的线性复杂度。但是K2Means 算法
的最终结果常常因为初始化中心的不同而不同。K
- Means 实际上是一个EM ( Expectation2Maximi2
zation) [ 9 ] 算法,所以它的结果是一个局部最优解,而
不能保证全局最优解。另一个问题是每一步在计算
每个子类的平均值。对于离散值,如何定义平均值
是一个问题。而且K2Means 算法对于容易受到数
据中的噪音影响总体的聚类效果, 比如说,有一个
数据点,它的某一个属性值的值异常的大,用这个属
性值计算出来的平均值会影响整个数据的分布,从
而影响聚类的结果。
K2Medoids 是对K2Means 的一个改进。算法
的思路基本相同,但是在每一步不用子类中数据点
的平均值作为子类的中心,而是选择子类中最中心
的数据点作为这个子类的中心。K2Medoids 的算法
如下: ①随机的选择K 个数据点作为初始的中心;
②选一个非中心的数据点A 去代替一个中心B ,计
算这个代替会不会在带来更好的聚类效果。如果
是,用A 代替B 作为中心; ③重复步骤②,直到子类
的中心不再变化。K2Medoids 比K2Means 能够更
好的处理数据中的噪音,因为用一个实际的数据点
作为子类的中心,比用一个子类的平均值作中心,会
更少的受数据中的噪音影响。但是K - Medoids 时
间复杂度比K- Means 高,是O( k ( n - k) 2 ) , n 是数
据点的个数,k 是子类的个数。因此对于小的数据
集, K2Medoids 效果很不错,但是对于大的数据集,
效率却不够高了。
强力推荐:
天柏客户关系管理系统
天柏客户关系管理系统(CRM)是一款集专业性、实用性、易用性为一体的纯B/S架构的CRM系统,它基于以客户为中心的协同管理思想和营销理念,围绕客户生命周期的整个过程,针对不同价值的客户实施以客户满意为目标的营销策略,通过企业级协同,有效的“发现、保持和留住客户”,从而达到留住客户、提高销售,实现企业利润最大化的目的。通过对客户进行7P的深入分析,即客户概况分析(Profiling)、客户忠诚度分析(Persistency)、客户利润分析(Profitability)、客户性能分析(Performance)、客户未来分析(Prospecting)、客户产品分析(Product)、客户促销分析(Promotion)以及改善与管理企业销售、营销、客户服务和支持等与客户关系有关的业务流程并提高各个环节的自动化程度,从而帮助企业达到缩短销售周期、降低销售成本、扩大销售量、增加收入与盈利、抢占更多市场份额、寻求新的市场机会和销售渠道,最终从根本上提升企业的核心竞争力,使得企业在当前激烈的竞争环境中立于不败之地。
关键词:CRM,CRM系统,CRM软件,客户关系管理,客户管理软件,客户管理系统,客户关系管理软件,客户关系管理系统