发表于: 2008.07.08 09:08
分类: @EBS
出处: http://2jliu.itpub.net/post/21805/465988
---------------------------------------------------------------
影响数据仓库成功的几个关键因素
http://www.itpub.net/thread-1018277-1-1.html
1. 迭代构建数据仓库,而不是采用“大棒”方法
数据仓库实施过程中最简单最重要的方法就是迭代构建一个数据仓库。
而不是采用“大棒”方法构建数据仓库。快速创建数据仓库的一个迭
代,然后不断调整,并快速进入下一个迭代,以此类推。不要一下子
收集所有需求,也不要采用瀑布开发生命周期的方式开发数据仓库。
2. 做好大数据量的准备
开始启动数据仓库项目时,一定要清醒地认识到你正在处理你以前从
未看到过的大量数据。数据仓库以TB甚至PB来度量数据量。而旧有的
业务系统则以MB或者GB来度量。数据量的增加将代表很多含义——比
如采用什么样的硬件,性能如何,多少用户数,查询规模等等。不要想
当然的认为之前的设计和管理技术经验也能适用于数据仓库环境。
3. 确保终端用户的介入
要确保终端用户在数据仓库初期的设计和开发阶段就介入进来。如果你
不能够保证终端用户的介入,这将会导致一场灾难——很可能数据仓库
从技术上是成功的,但是却是组织上的梦魇,因为没有人会使用这个数
据仓库。
4. 需要提防的事实:数据仓库是基于非传统的开发方式的
一个建议是:数据仓库开发环境与早期的开发环境是非常不同的。数据
仓库的开发是基于螺旋形的开发方法理论。螺旋形开发理论也可以成为
启发式的迭代的开发方法学,即首先从一个很小的部分开始开发,然后
逐渐开发其它部分等等。
螺旋式开发方法论的反面这是瀑布式方法论。瀑布方法论源自于结构化
的分析和设计,需要在下一步动作开始前,必须完成之前所有的设计工
作。瀑布方法论对于开发业务系统而言确实是很好的方法。
5. 元数据的角色非常重要。
元数据是数据仓库环境中的一个非常重要的组成部分。元数据能够告诉
用户数据源自哪里存放在哪里。元数据在数据仓库环境中扮演着一个卡
片目录或者路标的角色。
6. 转换处理会消耗大量资源
在数据仓库开发处理过程中,集成和转换消耗了60%到80%的开发资源。
实际上最初大多数设计人员和开发人员并未意识到所需要的巨大资源。
资源所需的原因在于大量数据需要被集成。集成行为是非常复杂的。典型
的集成活动例如转换、重新格式化、重构、再计算、定义缺省值、排序、
改变DBMS环境、变更操作系统等等是必须的。
7. 从数据仓库中建设数据集市作为一个单独的数据源。
一个重要的架构考虑是从数据仓库中构建数据集市。直接从业务系统中建设
一个数据集市确实是一种诱惑,但是设计者必须自觉抵制这种诱惑。
直接从业务系统中构建数据集市是一种非常短视的方法。我们建议把从数据
仓库中构建数据集市作为一种长期的方法。
8. 静态数据的蔓延和管理。
在某种程度上终端用户必须清醒地意识到构建数据仓库的成本是必须考虑的,
在数据仓库建设早期,费用问题不是很大的问题。但是随着数据仓库的增长
和用户数的增长,成本的增加要求我们必须采取不同的行动。
9. 数据仓库的成本要及时反馈给实际客户。
10. 构建一个数据模型对数据仓库来说是必须的,但是决不要破坏数据仓库
开发的进度。
一方面数据模型对于数据仓库的开发来说是绝对必要的,另一方面为了构建
一个数据模型而停止整个数据仓库开发绝非好主意。
一个开发数据模型的可行方法是:
-从类似的非竞争业务中获取一个数据模型
-注意相关行业联系
-寻找一个通用行业模型等等











