CRM系统:CRM 中的数据仓库技术研究
CRM 中的数据仓库技术研究
雷 蕴
摘 要:介绍了客户关系管理(CRM)以及数据仓库技术,着重分析了CRM 中的数据仓库技术,对数据转移和数
据的存储与管理的改进及其在CRM 中的应用作了深入的探讨和研究。
关键词:客户关系管理(CRM) 数据仓库 数据转移 数据粒度 数据分割
中图分类号:TP311 文献标识码:A 文章编号:1006-7973(2007)03-0138-02
一、CRM 对数据仓库技术的需求
1.动态、整合的客户数据管理和查询功能
客户关系管理系统中的客户信息必须是动态的、整合的。
动态需求方面,客户数据仓库能够实时地向客户关系管理系
统提供客户的基本资料和历史交易行为等信息,并在客户每
次交易完成后,补充新的信息;整合需求方面,综合、统一
客户管理系统中客户数据的客户信息数据仓库,可以使各业
务部门权限的不同实施信息查询和更新功能。
2.客户购买行为参考功能
客户信息数据仓库可以使企业的每一个服务人员在向客
户提供产品和服务的时候,都能清楚客户的习惯购买行为,
从而提供更具针对性的个性化服务。例如,联系中心能够根
据客户最后一次的选择和购买记录,以及他们最近一次与客
户交流获得的有关信息,向客户推荐不同的产品和服务。
3.客户流失警告功能
对于企业来说,留住一个客户的费用大约是发展一个新
客户的费用的6 倍之多。通过对客户信息数据仓库中客户历
史交易行为的观察和分析,可以警示客户异常购买的行力。
例如,某个客户的购买周期和购买量出现显著萎缩变化时,
都是潜在客户流失的迹象。
二、CRM 中的数据仓库技术
1.数据转移
数据转移是一个较为复杂的过程,它包括数据的抽取、
转换和装载(ETL)。
(1)数据抽取(Data Extraction)
数据抽取就是根据CRM 数据仓库系统数据模型的需求,
从相应的业务系统、外数据源等中抽取需要的数据。抽取出
来的数据可能需要经过转换,采取同步或异步的方式加载到
CRM 数据仓库系统中。根据抽取的源数据形式,选择数据抽
取接口的原则建议为以下几点:
① 对于数据形式为关系型数据库的系统,建议采用
ODBC、OLEDB 或专用数据库驱动接口方式;
② 对于数据形式是文件方式的源数据,则一般直接进入
转换和加载流程;
③ 对于业务系统性能要求较高,业务量大,不能影响系
统性能的系统,一般应当采用高性能的数据抽取接口,比如:
专用数据库驱动接口、OLEDB 接口等;
④ 对于数据量特别大的业务系统数据的抽取,必须采用
高效率的数据接口,比如专用的API 接口,进行编程。
数据的抽取必须能够充分满足CRM 数据仓库系统分析
及决策支持的需要,同时必须保证不能影响业务系统的性能,
所以进行数据抽取时必须充分考虑这些因素,制定相应的策
略。
(2)数据转换( Data Transformation)
数据转换是指对从业务系统中抽取的源数据根据CRM
数据仓库系统模型的要求,进行数据的转换、清洗、拆分、
汇总等处理,保证数据按要求装入CRM 数据仓库。
根据实际情况,数据转换工作一般会在以下几个环节中
具体实现:
① 在抽取过程中进行数据处理;
② 使用异步数据加载,以文件的方式处理;
③ 在数据加载过程中进行数据处理;
④ 进入数据仓库以后再进行数据处理;
采用在数据抽取过程中进行数据转换时,必须考虑抽取
的性能以及对业务系统性能的影响;采用异步数据加载需要
以文件方式处理时,必须充分考虑中间磁盘的存储量以及
ETL 整个流程的协调性工作和大量的非SQL 语句的编程;
采用在数据加载过程中进行数据转换时,必须考虑加载性能;
采用先将数据装载到CRM 数据仓库后再处理时,必须考虑
CRM 数据仓库引擎的海量数据处理能力。
(3)数据加载(Data Loading)
数据加载就是将从源业务系统中抽取、转换后的数据加
载到CRM 数据仓库系统中。一般来讲,不同的数据仓库提
供厂商,都会有自己的数据加载工具以及深入编程的API 接
口。对于用户而言,需要重点考察的是数据加载工具的加载
性能。
数据加载策略主要包括两方面的内容:加载周期和数据
追加策略。加载周期是指多长时间从业务系统中抽取并向
CRM 数据仓库中加载一次数据。数据追加策略是指数据每次
是如何向CRM 数据仓库系统中追加的。
根据CRM 系统所需业务数据的实际情况,建议对不同
业务系统采用不同的加载周期,但必须保持同一时间业务数
据的完整性。数据的追加策略可以根据数据的抽取策略以及
业务规则来确定,一般建议采用三种类型:直接追加、全部
覆盖、更新追加。
2.数据的存储和管理
数据仓库的真正关键技术是数据的存储和管理。大量数
据的存储和管理是数据仓库最重要的技术需求。管理大量数
据的方法可以通过寻址、索引、数据的外延和有效的溢出管
理。在建造CRM 数据仓库时,理想的情况是假定其能够满
足处理大量数据的需求。对于CRM 中数据仓库数据的存储
和管理,可以从数据的粒度、数据分割和数据组织方面来研
究。这里重点讨论CRM 中数据仓库的数据粒度和数据分割。
(1)数据粒度
粒度问题是设计CRM 数据仓库的一个最重要方面。粒
度是指CRM 数据仓库的数据单位中保存数据的细化或综合
程度的级别。细化程度越高,粒度级就越小;相反,细化程
度越低,粒度级就越大。
如果CRM 数据仓库的空间很有限的话(数据量总是
CRM 数据仓库中的首要问题),用高粒度级表示数据将比用
低粒度级表示数据的效率要高得多。高粒度级不仅只需要少
得多的字节存放数据,而且只需要较少的索引项。然而数据
量大小和原始空间问题不是仅有的应考虑的问题。为了访问
大量数据,其处理能力的大小同样也是应考虑的一个因素。
所以,在CRM 数据仓库中数据压缩非常有用。当数据被压
缩后就会大大节省所用的DASD 存储空间,节省所需的索引
项,以及节省处理数据的处理器资源。但是,当提高数据粒
度级时,数据所能回答查询的能力就会随之降低。换句话说,
在一个很低的粒度级上你实际可以回答任何问题,但在高粒
度级上,数据所能处理的问题的数量是有限的。如果在高粒
度级上包括了足够的细节,则使用高粒度级数据的效率将会
高得多。
在管理数据的粒度问题中,粒度的权衡是首要的,大多
数据组织的最佳解决办法是采用多重粒度级的形式。在设计
和构造CRM 数据仓库之初就必须仔细考虑这种权衡。当一
个企业或组织的CRM 数据仓库中拥有大量数据时,在CRM
数据仓库的细节部分考虑双重(或多重)粒度级是很有意义的。
事实上,需要多个粒度级而不是一个粒度级的需求,是因为
粒度级设计采用双重级别应该是几乎每个机构默认的选择。
鉴于费用、效率、访问便利和能够回答任何可以回答的查询
的能力,数据双重粒度级是大多数机构建造CRM 数据仓库
细节级的最好选择。只有当一个机构的CRM 数据仓库环境
中只有相对较少的数据时,才应尝试采用数据粒度的单一级
别。
数据仓库中往往存在着多个主题,而用户对这些主题的
访问频率是不同的,就是对属于同一主题的综合数据,用户
查询的概率也不尽相同,因此在这种多重粒度的数据仓库中,
不需要将所有综合数据都放在CRM 数据仓库中,可以把在
一段时间内访问频率相对较低的这部分综合数据调出数据仓
库,将其释放的空间供当前被访问的综合数据使用。
综合上述的论述,给出一种数据粒度的划分方法:
① 按数据的历史时序划分粒度级别,数据存贮时间越
久,数据汇总粒度级别越高;
② 在粒度级别不同的数据间.给出缓冲区,在缓冲区内
保存同一数据的两种存贮粒度类型,用以回答不同问题;
③ 缓冲区内数据按使用频度决定新的粒度变换.变换阈
值由领域专家给定;
④ 变换粒度的使用频度阈值的有效性.决定于领域专家
给定的较大的正整数值,该值取决于专家经验。
(2)数据分割
分割是CRM 数据仓库中数据的第二个主要的设计问题
(在粒度问题之后)。数据分割是指把数据分散到各自的物理单
元中去,它们能独立地处理。在CRM 数据仓库环境中,问
题不是要不要对当前细节数据进行分割,而是怎样对当前细
节数据进行分割。对当前细节数据进行分割的总体目的是把
数据划分成小的物理单元。小的物理单元能为操作者和设计
者在管理数据时提供比对大的物理单元更大的灵活性。
CRM 数据仓库开发人员面临的主要问题之一是在系统
层上还是在应用层上对数据进行分割。通常,在应用层上分
割CRM 数据仓库的数据是很有意义的。这是有某些重要原
因的,最重要的是在应用层上每年的数据可以有不同的定义。
2002 年和2003 年的数据定义,可以相同也可以不相同。
CRM 数据仓库中数据的性质是长期数据积累的结果。当数据
在系统层上分割时,DBMS 不可避免地希望只有一种数据定
义。假定CRM 数据仓库中保存的数据时间较长(如达到十
年),而且数据定义经常变化,让DBMS 或操作系统去管理
一个本该只有一种数据定义的系统将是毫无意义的。在应用
层上管理数据分割的另一重要特点是它能从一个处理集转移
到另一个处理集而没有损失。在CRM 数据仓库环境中,当
工作负载和数据量成为真正的负担时,这种特点就是一种真
正的优点。
三、结束语
全球信息化的普及使得企业CRM 所采集的数据量会更
加庞大,因此数据仓库技术的引入可以说是一个根本上的解
决方案,可以为企业争取更多的客户份额,使之在激烈的市
场竞争中立于不败之地。可以预见,随着数据仓库技术的进
一步成熟,CRM 也会越来越完善,必将发挥重要的作用。
参考文献
[1] 罗纳德.S.史威福特.客户关系管理.杨东龙,姚成龙,黄
燕译.中国经济出版社.2002.3.
[2] 宋擒豹,杨向荣,沈均毅.数据仓库技术研究.计算机工
程.2002.28.1:125~127.
[3] 熊忠阳,张玉芳,吴中福.数据仓库数据加载技术.重庆大
学学报.2002.25.2:106~108.
[4] Alex Berson.构建面向CRM 的数据挖掘应用.贺奇,郑岩
译.人民邮电出版社.2001.8.
强力推荐:
天柏客户关系管理系统
天柏