数据湖演进之路.pdf

数据湖演进之路.pdf_第1页
数据湖演进之路.pdf_第2页
数据湖演进之路.pdf_第3页
数据湖演进之路用户画像需要从数据仓库的角度来看,才能获得完整的视图。数据集成真正从大数据的角度来看,才能明白其中的挑战。一个运行了20多年的数据架构,必然有其合理性。也正是因为年代久远,存量过多,才导致举步维艰。在Cloud和5G时代,超密度网络集成和大数据洞察需求给保险行业带来新的挑战,从数据仓库到数据湖,不仅仅架构的变革,更是思维方式的升级。数据仓库历史沿革1970年,关系数据库的研究原型SystemR和INGRES开始出现,这两个系统的设计目标都是面向on-linetransactionprocessing(OLTP)的应用。关系数据库的真正可用产品直到1980年才出现,分别是DB2和INGRES。其他的数据库,包括Sybase,Oracle,和Informix都遵从了相同的数据库基本模型。关系数据库的特点是按照行存储关系表,使用B树或衍生的树结构作为索引和基于代价的优化器,提供ACID的属性保证。到1990年,一个新的趋势开始出现:企业为了商业智能的目的,需要把多个操作数据库中数据收集到一个数据仓库中。尽管投资巨大且功能有限,投资数据仓库的企业还是获得了不错的投资回报率。从此,数据仓库开始支撑各大企业的商业决策过程。数据仓库的关键技术包括数据建模,ETL技术,OLAP技术和报表技术等。目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、BusinessObjects(已被SAP收购)等。数据仓库概念数据仓库之父BillInmon在1991年出版的“BuildingtheDataWarehouse”一书中所提出的定义被广泛接受——数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。这是一个偏向学术的定义,却非常准确的界定了数据仓库与其他数据库系统的本质区别。“Adatawarehouseisasubject-oriented,integrated,time-variant,andnonvolatilecollectionofdatainsupportofmanagement’sdecision-makingprocess.”—W.H.Inmon要理解数据仓库的概念,需要从与数据库的系统的对比来看。数据库是作为“所有处理的单一数据源”出现和定义的。数据库的出现有两个驱动因素,第一是70年代以前大量应用程序和主文件的分散存放导致一片混乱和大量冗余数据。第二是直接存取存储设备的出现使得按记录寻址成为可能。基于DBMS的在线事务处理为商业发展开辟全新的视野。数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计,数据的访问的特点是基于主键,大量原子,隔离的小事务,并发和可恢复是关键属性,最大事务吞吐量是关键指标,因此数据库的设计都反映了这些需求。数据仓库的设计目标是决策支持。历史的,摘要的,聚合的数据比原始的记录重要的多。查询负载主要集中在即席查询和包含连接,聚合等操作的复杂查询。相对于数据库系统来说,查询吞吐量和响应时间比事务处理吞吐量重要的多。数据仓库和数据库系统的区别,一言蔽之:OLAP和OLTP的区别。数据库支持是OLTP,数据仓库支持的是OLAP。对OLTP和OLAP的区别还可以有一个维度,就是及时性需求。OLTP对事务的及时性需求较高,而OLAP则不然。数据仓库一般基于数据库实现,但是为部署和维护上是分离的。数据仓库可以是基于关系数据库实现的,这样的数据仓库被称为ROLAP。数据仓库也可以是基于多维数据结构实现的,这样的数据仓库被称为MOLAP。数据仓库架构数据仓库是一种体系结构,而不是一种技术。数据仓库最为核心的内容分类两部分:•基于关系数据库的多维建模(RDBMS-baseddimensionalmodeling)•基于数据立方体的OLAP查询(cube-basedOLAP)数据仓库体系结构包含了从外部数据源或者数据库抽取数据的ETL工具。ETL还负责数据的转换,清洗,然后加载到数据仓库的存储中。一般来说,数据都会加载到存取速度较慢的存储中,以原始数据的方式保存下来。为了提高查询效率,原始数据会按主题分类,以聚合的方式存储到数据集市中,称之为聚合数据。参见下图,原始数据往往有多条聚合路径,时间维度是一个最基本的内置聚合路径,行政级别划分也是一种常见的聚合路径,产品属性也是常见的聚...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

尊敬的博途智库用户:

欢迎您使用博途智库的服务。在您准备下载文档时,请您仔细阅读以下注意事项,以确保您的下载行为合法、合规,并避免可能产生的纠纷和损失。

一、版权信息确认

在下载文档前,请务必确认文档中的版权信息。博途智库尊重原作者的版权,所有文档均注明版权归属。如果您需要下载涉及版权的文档,请确保您已获得原作者的授权或许可,或者该文档属于可自由使用的范畴。

二、文档内容审查

在下载文档前,请您自行审查文档内容,确保其符合您的需求和使用场景。博途智库不对文档内容的准确性、完整性或适用性做任何形式的保证。因文档内容引发的任何问题或纠纷,博途智库不承担任何责任。

三、文档下载与使用

  1. 下载文档时,请确保您的设备安全、稳定,避免因网络问题或设备故障导致下载失败或文档损坏。
  2. 下载后的文档,请您妥善保管,不得擅自修改、复制、传播或用于商业用途。如需对文档进行分享或传播,请确保您已获得原作者的明确授权。
  3. 在使用文档时,请遵守国家法律法规和道德规范,不得利用文档从事违法、违规或侵犯他人权益的活动。

四、付费文档说明

对于博途智库中的付费文档,您需要按照页面提示完成支付流程后方可下载。请您确保在支付过程中选择正确的支付方式,并核对支付金额。对于因支付问题导致的下载失败或损失,博途智库将尽力协助您解决,但具体责任需根据支付平台的规则进行判定。

五、纠纷处理

如您在使用博途智库下载文档过程中遇到任何问题或纠纷,请及时与博途智库客服联系,我们将竭诚为您提供帮助和解决方案。同时,也请您保留好相关证据,以便在必要时进行维权。

最后,感谢您对博途智库的支持与信任。我们将继续努力为您提供优质、便捷的文档下载服务。祝您使用愉快!

博途智库团队

愚公移山+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

确认删除?
知识变现
客服电话
客服微信
  • 客服微信
客服QQ
  • 客服QQ点击这里给我发消息
发送邮件
回到顶部