CRM系统:基于SAS 数据挖掘技术的航空CRM系统分析
基于SAS 数据挖掘技术的航空CRM系统分析
奉国和
(华南师范大学经济管理学院信息管理系 广州 510006)
摘 要 数据挖掘是实施客户关系管理强有力的手段,而SAS 是一整套有效的数据挖掘技术平台。通过运用SAS 设
计三层客户关系管理应用系统和与航空业务紧密相关的几大数据挖掘模块,帮助公司设计有针对性的服务、销售与管
理办法,提高客户服务水平,大幅度降低客户维护费用与促销成本,争取公司利润最大化。
关键词 客户关系管理 SAS 数据挖掘 航空系统
航空业激烈竞争,促使航空公司采用先进技术加大管理力
度,争取优质服务。而实施客户关系管理系统是公司提高管理
的重要一环,其中数据挖掘是实施客户关系管理系统的核心技
术,寻找成熟的数据挖掘技术和平台快速构建公司的信息分析
应用系统是每个企业的期望。SAS 系统是大型集成式软件包,
在数据管理、数据挖掘、查询分析等方面具有很强的优势,能非
常方便地构建企业信息分析应用系统。运用SAS 搭建航空公
司的客户关系管理系统,为航空公司优化决策管理必将提供有
力保障。
1 数据挖掘理论
数据挖掘(Data Mining) 是指从大量的数据中提取出可信、
新颖、有效并能被人们所理解的、潜在的模式、规律或趋势的高
级处理过程。它融合了数据库、人工智能、机器学习、统计学等
多个领域的理论和技术,在理论研究领域也被称为数据库中的
知识发现( Knowledge Discovery in Database ,KDD) 。数据挖掘模
式一般分为以下几种类型:
1. 1 概念或类描述 概念或类描述通过数据特征化即汇总
所研究的数据、数据区分将目标与一个或多个比较类比较、数
据特征化和比较得到。
1. 2 关联分析 关联分析的目的就是为了挖掘出隐藏在数
据间的相互关系。在数据挖掘研究领域,对于关联分析的研究
开展得比较深入,人们提出了多种关联规则的挖掘算法,如
APRIORI、STEM、AIS、DHP 等算法。
1. 3 序列模式分析 序列模式分析和关联分析相似,其目
的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在
于分析数据间的前后序列关系。序列模式分析描述的问题是:
在给定交易序列数据库中,每个序列是按照交易时间排列的一
组交易集,挖掘序列函数作用在这个交易序列数据库上,返回
该数据库中出现的高频序列。在进行序列模式分析时,同样也
需要由用户输入最小置信度C 和最小支持度S。
1. 4 分类和预测分析 假定记录集合和一组标记( TAG) ,
所谓标记是指一组具有不同特征的类别。分类分析首先为每
一个记录赋予一个标记,即按标记分类记录,然后检查这些标
记的记录,描述出这些记录的特征。这种描述可能是显式的,
例如一组规则定义;或者是隐式的,例如一个数学模型或公式。
目前,已有很多种分类分析模型得到应用,其中的几种典型模
型为线性回归模型、决策树模型、基于规则模型、神经网络模型
和支持向量机模型。
1. 5 聚类分析 与分类分析不同,聚类分析输入的是一组
未分类记录,并且这些记录应分成几类事先也不知道。聚类分
析就是通过分析数据库中的记录数据,根据一定的分类规则,
合理地划分记录集合,确定每个记录所在类别。它所采用的分
类规则是由聚类分析工具决定的。聚类分析的方法很多,其中
包括系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运
筹方法等。采用不同的聚类方法,对于相同的记录集合可能有
不同的划分结果。
1. 6 孤立点分析 孤立点分析是一种发现异常数据的方
法,数据库中往往包含一些数据对象,他们与数据的一般行为
或模型不一致,这些数据对象就是孤立点(Outlier) 。应用中异
常的数据点可能比正常数据点更有用或者更有趣,比如孤立点
可以发现信用卡欺骗,也可以发现黄金客户。
1. 7 演变分析 演变分析描述行为随时间变化的对象的规
律或趋势,包括时间序列数据分析、序列或周期模式匹配等。
数据挖掘最吸引人的地方是它能建立预测模型而不是回顾型
的模型,表1 是传统工具与数据挖掘工具比较。
2 SAS 数据挖掘工程方法
美国SAS 研究所在多年的数据处理研究工作中积累了一
套行之有效的数据挖掘方法———SEMMA。
2. 1 Sample :数据取样 当进行数据挖掘时,先要从企业大
量数据中取出一个与要探索问题相关的样板数据子集,而不是
动用全部企业数据。通过数据取样,要把好数据的质量关,一
定要保证取样的代表性、真实性、完整性和有效性。这样才能
通过此后的分析研究得出反映本质规律性的结果。
2. 2 Explore :数据特征探索、分析和予处理 当拿到了一个
样本数据集后,分析它是否达到原来设想的要求,其中有没有
什么明显的规律和趋势,有没有出现你所从未设想过的数据状
态,因素之间有什么相关性,它们可区分成怎样一些类别,这都
是要首先探索的内容。进行数据特征的探索、分析,最好是能
进行可视化的操作,如SAS 的SAS/ INSIGHT 和SAS/ SPEC2
TRAVIEW。这两个产品提供了可视化数据操作的最强有力的
工具、方法和图形。它们不仅能做各种不同类型的统计分析显
示,而且可做多维、动态甚至旋转的显示。应用这两个工具对
样本数据进行预分析,推测主要的数据、异常趋势和规律性。
2. 3 Modify :问题明确化、数据调整和技术选择 通过Sam2
ple 和Explore 两步之后,对原来要解决的问题可能会有了进一
步的明确,这时要尽可能对问题解决的要求能进一步量化。在
问题进一步明确化的基础上,可以按照问题的具体要求来审视
数据集,看它是否适应问题的需要。针对问题的需要,可能要
对数据进行增删,也可能按照你对整个数据挖掘过程的新认
识,组合或者生成一些新的变量,以体现对状态的有效描述。
SAS 对数据强有力的存取、管理和操作的能力保证了对数据的
调整、修改和变动的可能性。
2. 4 Model :模型的研发、知识的发现 数理统计方法是数据
挖掘工作中最常用的主流技术手段。SAS/ STAT 软件包中就
覆盖了所有的实用数理统计方法,提供了十多个过程可进行各
种不同类型模型、不同特点数据的回归分析,如正交回归、响应
面回归、Logistic 回归、非线性回归等,且有多种形式模型化的方
法选择。可处理的数据有实型数据、有序数据和属性数据,并
能产生各种有用的统计量和诊断信息。在方差分析方面,SAS/
STAT 为多种试验设计模型提供了方差分析工具,它还有处理
一般线性模型和广义线性模型的专用过程。在多变量统计分
析方面,SAS/ STAT 为主成分分析、典型相关分析、判别分析和
因子分析提供了许多专用过程。SAS/ STAT 含有多种聚类准
则的聚类分析方法,利用SAS/ STAT 可进行生存分析。
这些工具不仅能揭示企业已有数据间的新关系、隐藏着的
规律性,而且能反过来预测它的发展趋势,或是在一定条件下
将会出现什么结果。另外,SAS 人工神经元网络和决策树的方
法结合起来可用于从相关性不强的多变量中选出重要的变量。
2. 5 Assess :模型和知识的综合解释和评价 从上述过程中
将会得出一系列的分析结果、模式或模型。若能得出一个直接
的结论当然很好,但更多的时候会得出对目标问题多侧面的描
述。这时就要能很好地综合它们的影响规律性,提供合理的决
策支持信息。所谓合理,实际上往往是要你在所付出的代价和
达到预期目标的可靠性的平衡上作出选择。假如在数据挖掘
过程中就预见到最后要进行这样的选择的话,那么最好把这些
平衡的指标尽可能地量化,以利于综合抉择。
决策支持信息适用性如何,是个十分重要的问题。SAS 软
件除了在数据处理过程中提供给许多检验参数外,评价的另一
办法是直接使用原来建立模型的样板数据来进行检验。一般
来说,在这一步得到较好评价,说明确实从这批数据样本中挖
掘出了符合实际的规律性。
3 基于SAS 的系统构架
整个系统基于B/ S 结构,前端应用基于Java 技术实现,系
统分为数据服务器、Web 应用服务器、Web 客户端三个层次。
应用服务器起到封装业务逻辑、支持前端应用、隔离用户和数
据等作用。在工作压力不大的情况下,数据服务器和应用服务
器可以部署到同一台物理服务器上。SAS 平台的B/ S 系统架
构图如图1 所示。
图1 SAS 平台的B/ S 系统架构图
在B/ S 架构下,应用服务器采用SAS/ AppDev Studio 开发
套件。SAS/ AppDev Studio 套件是SAS 公司的基于Java 中间件
技术的应用服务器组件包。其中包括了Java 开发环境、应用/
Web 服务器产品,以及一整套功能全面的SAS 扩展类库。通过
这套类库可以支持各种通用的或SAS 专有的访问接口,借助这
些接口可以实现各种数据访问和统计分析功能。数据服务器
底层的通讯服务组件换成了传统的SAS/ SHARE 和SAS/ CON2
NECT。借助SAS/ AppDev Studio 套件中的接口支持,前台应用
可以通过JDBC 接口连接SAS/ SHARE 组件获得数据服务,或
通过J - CONNECT 接口连接SAS/ CONNECT 组件获得计算服
务。
4 系统总体设计目标
4. 1 数据通道集中、独立 建立集中、独立的数据采集通
道,实现相关业务数据的自动获取和连续积累,采用数据统一
管理的整体构想,通过对业务系统数据的自动抽取、整合、分
析、加工,建立各类业务管理模型。
4. 2 确保实现资源共享 通过办公自动化系统已有的内部
网络结构,可以实时查询各主题的分析数据报表和数据分析报
告,利用数据集中的优势,实现数据统一管理。
4. 3 集中采用元数据管理,实现功能参数化 功能逻辑的
改变不影响到程序,只需修改参数,这样可以及时响应客户的
新需求,提高工作效率。
4. 4 安全机制 建立完善的系统安全和数据安全控制机
制,对用户采取集中授权的管理模式,基本实现安全管理的统
一化。
4. 5 数据挖掘技术 利用商业智能技术和数据挖掘技术对
业务数据进行及时、科学的汇总、分析和预测,实现分析自动
化,为领导分析决策提供真实、全面和准确的依据。
4. 6 经济效益性 分析系统的建设是一项复杂的、长期不
断发展的系统工程,因此在规划建设过程中必须遵循长远规
划、逐步建设的指导方针。同时,在技术实现上,应采