商业智能的基础知识
一、 商业智能的基础概念
1. 名词解释
1.1. OLTP(联机事务处理)--OLTP(on-line transaction processing)也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。 如医院HIS系统、办公自动化系统、CRM系统等。
1.2. OLAP(联机分析处理)——OLAP(On-Line Analytical Processing)OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP一般是数据仓库应用的前端工具。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是“维”这个概念。“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。OALP的多维数据分析操作包括:
切片和切块——是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。
钻取——是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
旋转——变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
1.3. ETL数据转换工具:数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 ETL的过程就是数据流动的过程,从不同异构数据源流向统一的目标数据。其间,数据的抽取、清洗、转换和装载形成串行或并行的过程。ETL的核心还是在于T这个过程,也就是转换,而抽取和装载一般可以作为转换的输入和输出,或者,它们作为一个单独的部件,其复杂度没有转换部件高。
1.4. EIS前端展现工具——EIS(Executive Information System,领导信息系统):指为了满足无法专注于计算机技术的领导人员的信息查询需求,而特意制定的以简单的图形界面访问数据仓库的一种应用。
1.5. 数据仓库(Data Warehouse)――是将从多个数据源收集的信息,按照单一的模式进行存储,并通常将这些信息驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造其内容。数据仓库收集了整个组织的主题信息,因此,它是企业范围的数据存储。宽松地讲,数据仓库是一个数据库,组织可以将它与组织机构的操作数据库分别进行维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。按照W.H.Inmon这位数据仓库系统构造方面的权威设计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。”
1.6. 数据集市(Data Mart)――它是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。为汇总而优先的专用数据存储,用于特定的场合,其存储的内容作为数据仓库的子集。数据集市通常使用OLAP技术进行处理。它通常为一个公司的特定需求,或一个机构的特定业务而建立的,一般有两种特殊的数据库结构:星型模式和雪花模式。
1.7. 数据挖掘:数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。
在了解了以上概念后,我们再来看商业智能的概念:
商业智能(Business Intelligence): 商业智能是用来实现数据向信息转变,信息向知识转变,知识向价值转变的这么一个过程(如下图所示),以及这个过程中所使用到的各种技术和工具。商业智能并不是一项新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合应用。
2. 几个概念的对比
2.1. OLTP vs OLAP的对比分析
对比项目 OLTP OLAP
用户 操作人员,低层管理人员 决策人员,高级管理人员
功能 日常操作处理 分析决策
DB 设计 面向应用 面向主题
数据 当前的,最新的细节的,二维的分立的 历史的,聚集的,多维的集成的,统一的
存取 读/写数十条记录 读上百万条记录
工作单位 简单的事务 复杂的查询
用户数 上千个 上百个
DB 大小 100MB-GB 100GB-TB
2.2. 数据挖掘(DM)vs数据分析 OLAP
OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。OLAP侧重于分析数据之间的关系,而数据挖掘则侧重于通过对数据分析结果的挖掘进行预警与预测。
2.3. 数据仓库系统(DW) vs 商业智能系统(BI)
数据仓库从概念上更多地侧重在对各类企业信息的整合工作,包括了数据的迁移,数据的组织和存储,数据的管理与维护这些我们平常称之为后台的基础性的数据准备工作,它是BI的核心;
商业智能概念则侧重在对数据的查询,报表、多维/联机数据分析、数据分析和数据可视化工具这些平常称之为所谓前台的数据应用方面。
2.4. 商业智能(BI) vs 决策支持系统(DSS)
早期BI的雏形就是决策支持系统DSS,只是当时还没有采用数据仓库、多维分析以及数据挖掘等技术,而且其面向的服务人群主要是管理人员。当今的BI在应用范围上已经更加广泛,已经可以拓展到整个企业的所有员工,通过对各个层面信息的获取、分析以及利用来满足各个部门及员工的需求。从这个角度而言,决策支持是BI中的一种应用。而数据挖掘只是BI涉及到的技术手段中的一种。(目前的BI从某种程度上还只限于DSS的应用)
3. 商业智能的技术架构
从技术架构来讲,商业智能系统主要由数据源、数据仓库系统、商业智能应用几个部分组成:
3.1. 数据源包括了现有企业中所有的信息系统,以及根据决策分析需求可能涉及的其他外部数据资源。它主要包括业务数据和外部数据。
3.2. ETL——数据抽取、转换和装载(Extract, Transform, Load) 负责将数据从业务系统或外部系统中获得,转换和处理成数据仓库需要的格式和形态,并在规定的时间装入到数据仓库中去。在系统实现时一般采用数据抽取工具和应用编程实现,并拥有调度管理和控制功能。
3.3. 数据仓库(Data Warehouse)是数据存储核心,目前,大多数数据仓库采用关系型数据库管理。由于数据量的庞大和查询复杂的特点,在系统配置上强调大规模并行处理和针对决策支持访问的专项优化。
3.4. 操作数据(Operational Data Store) 近年来,随着商业智能应用的需求,如数据挖掘和实时业务分析,在数据仓库中需要有部分数据拥有当前数据的特征,根据业务系统的变化而变化,不必关心历史信息,同时又拥有数据仓库数据面向主题的特点。这部分数据叫作操作数据,一般采用关系数据库存储,规模适中,强调快速查询响应能力。
3.5. 数据集市(Data Mart)存储了由数据仓库来的,经过裁剪和归整的数据,这些数据针对某个业务部门或某种业务分析应用而建立。数据集市一般都对数据进行了各种层次的汇总,并建立多维分析的模型,同时也包括了数据采样。数据集市的存储主要有关系数据库和多维数据库。其中,多维数据库存放多维分析数据,而关系数据库则存储星型模式。
3.6. 数据归整(Refinement) 数据归整指数据从数据仓库到数据集市的过程,它是数据仓库系统内部的数据处理和转换的过程,主要的任务是多维模型的转换、数据的汇总和采样等。有时,它由ETL系统统一调度完成。
3.7. 商业智能应用——涉及数据和信息的展现部分,它是用户使用商业智能系统的界面。目前的商业智能系统一般提供以下两类功能:1、客观呈现用户想要信息,如查询和报表、联机分析处理(OLAP)。2、对数据进行进一步的分析,发现新知识,如数据挖掘和数理统计等。
3.8. 元数据是管理商业智能系统的数据,其主要部分类似于数据字典,其内容贯穿了商业智能应用的各阶段,记录着从ETL到分析展现各个阶段和各组成部分的管理信息。在系统管理上,试图提供统一的平台对元数据进行管理和维护,并通过元数据的状态驱动系统各部分的运转。不过,就目前而言,元数据的概念在数据仓库业界尚未拥有一个统一的标准,各个数据仓库厂商的产品间元数据也是不能够互通的。
二、 商务智能的发展阶段及趋势
随着近年来信息化建设的不断完善,从全球范围来看,商业智能(BI)系统已经成为继企业资源计划(ERP)之后最重要的信息系统。在中国,商业智能也已经被越来越多的企业管理者所认识,而在电信、金融、零售、流通等行业,商业智能已经成为信息化建设的重点。
1. 企业信息化的三个阶段
1.1. 企业信息化发展的第一个阶段:
基础信息化阶段,主要是解决原始手工处理的数据电子化的问题;
信息的关联面是非常有限的;
信息专业性很强,离开了系统的主要用户,别人是看不懂这些数据;
用户在企业中往往是占很少数。
1.2. 企业信息化发展的第二个阶段:
总体角度建设高度集中的、或互相联接的综合业务管理系统,例如银行的核心业务系统;
实现业务的协同运作。
1.3. 企业信息化发展的第三个阶段:
企业是个严密运作的复杂系统,每个细小环节的活动是彼此互相关联的;
基于具体业务所开发的应用系统信息面只能覆盖企业的一个局部范围;
从零碎的,片段的企业局部化信息难以看清企业整体的变化;
企业需要一种协同思考的能力;
信息系统将更多定位在对企业整体战略发展层面的支撑;
商业智能浮出水平并且逐渐成为主角。
|
|