大数据下的企业数据仓库建设.pdf

大数据下的企业数据仓库建设.pdf_第1页
大数据下的企业数据仓库建设.pdf_第2页
大数据下的企业数据仓库建设.pdf_第3页
北京中国大饭店第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT2017.07大数据下的企业数据仓库建设易观大数据平台负责人,近8年专注于企业大数据平台构建及优化,数据仓库建设。之前曾在多个数据公司担任负责人及架构师等职务,熟悉零售及统计分析业务演讲人:代立冬第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT为何要建数据仓库避免底层业务变动对上层需求影响过大,不必改一次业务需求就重新从头处理数据屏蔽底层复杂的业务逻辑,清晰数据结构并尽可能简单、完整的在接口层呈现业务数据,一句话总结就是使得业务人员使用起来更简单数据来源和去向可追溯,即数据血缘关系,主要用于快速定位问题减少重复开发,开发通用的中间层数据,减少很多重复的计算那么如何做到上述要点呢?通常的办法是根据业务建立一套合理的数据分层模型第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT数据仓库整体架构第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT数据仓库—STG层STG层是源数据层,也有伙伴叫它原始数据层、接口层、缓冲层等名字,不管什么名字,都是用来表示原始数据在数据平台的落地的。原始数据层就是数据接收端接到的数据,数据结构和客户端发送上来的保持一致。数据结构数据结构与客户端上传时保持一致,存储使用parquet文件格式,方便后续MR处理的数据读取存储周期STG层需保留全部数据表命名规范[层次]_[主题][_表内容]_[分表规则]第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT数据仓库—ODS层ODS层是数据操作层,全称是OperationalDataStore,只用于原始数据在数据平台的落地。这些数据从数据结构、数据之间的逻辑关系上都与原始数据层基本保持一致。在源数据装入这一层时,要进行诸如业务字段提取或去掉不用字段、脏数据处理等等数据结构数据结构与原始数据层基本保持一致存储周期ODS层默认保留近30天的数据表命名规范[层次]_[主题][_表内容]_[分表规则]第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT数据仓库—DWD层DWD层是数据明细层,全称是DataWarehouseDetail,用于源系统数据在数据平台中的永久存储。它用以支撑DWS层和DM层无法覆盖的需求,比如像用户通话详单类业务需求。该层的数据模型不建议开给不懂技术的业务人员直接使用。这一层主要解决一些数据质量问题和数据的完整度问题。比如商场的会员信息来自于不同表,某些会员的数据可能不完整等等问题,我们可以在这一层做一些屏蔽数据结构数据结构与源系统保持一致存储周期保留历史至今所有的数据命名规范dwd.dwd_业务描述+_时间粒度举例:dwd.dwd_sales_d销售详情表第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT数据仓库—DWS层DWS层是数据汇总层,全称是DataWarehouseService,主要包含两类汇总表:一是细粒度宽表、二是粗粒度汇总表。我们拿商场售卖举例。那么包含基于订单、会员、商品、店铺等实体的细粒度宽表和基于维度组合(会员日进场汇总、会员日消费汇总、商场销售日汇总、店铺销售日汇总等)的粗粒度汇总表。这层是对外开放的,用以支撑绝大部分的业务需求。汇总层是为简化源系统复杂的逻辑关系以及质量问题等,这层使得业务结构容易理解,各个层面的工程师容易上手。dws层的汇总数据目标是能满足80%的业务计算数据结构宽表:以业务实体进行展开,将与业务有关的相关字段和属性进行预关联、预处理和预计算,对业务实体进行拉伸形成宽表。汇总表:维度组合形成的汇总表存储周期原则上保留历史至今全部的数据命名规范所有数据汇总层的表都放在DWS下面dws.dws_业务描述+_时间粒度+_sum举例:dws.dws_trans_d_sum交易日汇总表第四届中国数据分析师行业峰会CHINADATAANALYSTSUMMIT数据仓库—DWS层序号目标表字段中文名目标表字段英文名数据类型数据类别主键/分区源表名称源表字段中文名称源表字段英文名称加工逻辑1会员IDmemberIdstring会员主键会员IDsymbol_mid2消费总额sumShoppingSalesdecimal订单订单消费金额sales每天每人消费汇总3消费总笔数sumShoppingCountint订单订单订单IDorderId每个订单算一笔4消费总次数sumShoppingNumbe...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

尊敬的博途智库用户:

欢迎您使用博途智库的服务。在您准备下载文档时,请您仔细阅读以下注意事项,以确保您的下载行为合法、合规,并避免可能产生的纠纷和损失。

一、版权信息确认

在下载文档前,请务必确认文档中的版权信息。博途智库尊重原作者的版权,所有文档均注明版权归属。如果您需要下载涉及版权的文档,请确保您已获得原作者的授权或许可,或者该文档属于可自由使用的范畴。

二、文档内容审查

在下载文档前,请您自行审查文档内容,确保其符合您的需求和使用场景。博途智库不对文档内容的准确性、完整性或适用性做任何形式的保证。因文档内容引发的任何问题或纠纷,博途智库不承担任何责任。

三、文档下载与使用

  1. 下载文档时,请确保您的设备安全、稳定,避免因网络问题或设备故障导致下载失败或文档损坏。
  2. 下载后的文档,请您妥善保管,不得擅自修改、复制、传播或用于商业用途。如需对文档进行分享或传播,请确保您已获得原作者的明确授权。
  3. 在使用文档时,请遵守国家法律法规和道德规范,不得利用文档从事违法、违规或侵犯他人权益的活动。

四、付费文档说明

对于博途智库中的付费文档,您需要按照页面提示完成支付流程后方可下载。请您确保在支付过程中选择正确的支付方式,并核对支付金额。对于因支付问题导致的下载失败或损失,博途智库将尽力协助您解决,但具体责任需根据支付平台的规则进行判定。

五、纠纷处理

如您在使用博途智库下载文档过程中遇到任何问题或纠纷,请及时与博途智库客服联系,我们将竭诚为您提供帮助和解决方案。同时,也请您保留好相关证据,以便在必要时进行维权。

最后,感谢您对博途智库的支持与信任。我们将继续努力为您提供优质、便捷的文档下载服务。祝您使用愉快!

博途智库团队

云在青山月在天+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

确认删除?
知识变现
客服电话
客服微信
  • 客服微信
客服QQ
  • 客服QQ点击这里给我发消息
发送邮件
回到顶部