数仓主题域与主题划分.pdf

数仓主题域与主题划分.pdf_第1页
数仓主题域与主题划分.pdf_第2页
数仓主题域与主题划分.pdf_第3页
一、前言数据仓库具有面向主题的特性,那么就会有主题的概念,数仓建设是遵循纵向分层开发,横向划分主题域设计,数仓分层就不在这次谈了,这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分,同时会引申出主题划分,和数据域是什么,业务过程等。这个对于大数据数仓工程师来说是必备的能力,比如当你面临着一个新业务的开启,需要从0到1开始搭建数据仓库或者数据集市,这时候就要考虑到主题域和主题的合理划分。当然本次分享的内容都是从个人实际出发,有疑问或者反馈可以通过关注公众号留言共同探讨,感谢关注。二、数仓建设的步骤1.业务调研数仓开发侧是承上对接业务研发侧&承下对接数据分析侧,在数仓建设前期要对上游业务过程和对下游数据分析指标体系有所了解和熟知,然后拉齐上下游沟通数据口径和数仓搭建。2.主题域划分3.主题划分4.输出总线矩阵即业务过程和维度,组建成的矩阵5.数仓分层设计模型表6.数仓公共层表迭代升级三、主题和主题域下面结合本人对搬家业务的数仓建设,进行主题域划分和主题划分实践,当然项目的大小决定着这是一个小型的数据集市还是企业级的数据仓库。主题域的划分数仓主题域:主题域通常是联系较为紧密的数据主题的集合,根据业务需求分析的视角进行划分抽象归类。划分方法:主题域划分的方法一般有几种要么按照业务过程来划分,一个业务过程抽象出一个主题域,比如业务系统中的商品、交易、物流等要么按照业务部门来划分,一个业务部门抽象出一个主题域,比如中台部门、业务运营部门、供应链部门等要么按照业务系统来划分,一个业务系统抽象出一个主题域,比如搬家系统、erp系统等主题的划分数仓主题:是在较高层次上将企业生产上的各个系统中某一分析对象的数据进行整合、归类并分析的一种范围,属于一个抽象概念,简单点说每一个主题对应一个宏观分析领域。划分方法:说白了主要就是要识别出分析对象主体,做主题划分和主题域划分,个人建议是要站在全局的视角来看,然后先划分出主题域,再接着在主题域里面划分出各个主题,主题域的划分一般比较谨慎,一旦定下来了避免频繁变动,虽然数仓建设是迭代建设的,不能保证一次性初始化好,但我们的主题域划分和主题划分要尽可能地涵盖企业的所有业务,以及在新业务进来时能够无影响地被包含进来和可扩展主题域。个人案例实践分享我就分享我负责过的搬家业务数仓建设中,我是如何划分主题域和划分主题的,规模相当于数据集市,即小型的数据仓库划分主题域:首先我是按照业务系统来划分的,搬家是企业业务中一个独立的业务线,所对应的业务系统也是跟其他系统是独立开的,那么这时候我按照业务系统来划分,就不会在建设过程中出现一些‘扯皮’操作,出现数据边界归属问题。划分主题:上面的主题域划分完了后就产生一个搬家主题域,然后把搬家分析作为一个分析领域,那么‘搬家分析’所涉及到的主要分析对象就有用户、订单、搬运工等,则数仓的主题就可以划分为用户主题、订单主题、搬运工主题等。健壮性评估:当后续搬家主题域业务新增,我还可以轻松地扩展出其他主题,毕竟按照上面的划分法,搬家的数据基本都划分在搬家主题域,剩下的就是搬家有新业务进来时扩展新主题或包含进已有主题。分享业界其他的案例分享网上搜索到的马蜂窝数仓主题、主题域划分案例以马蜂窝订单交易模型的建设为例,基于业务生产总线的设计是常见的模式,首先调研订单交易的完整过程,定位过程中的关键节点,确认各节点上发生的核心事实信息。四、主题域、数据域、业务过程总是听到数据域,那么数据域和主题域是有什么关系呢,参考《阿里巴巴大数据之路》书籍和网上有人总结过这么一段,如下:主题域:面向业务过程,将业务活动事件进行抽象的集合,如下单、支付、退款都是业务过程,针对公共明细层(DWD)进行主题划分。数据域:面向业务分析,将业务过程或者维度进行抽象的集合,针对公共汇总层(DWS)进行数据域划分。业务过程:指企业的业务活动事件,如下单、支付、退款都是业务过程,业务过程就是一个不可拆分的行为事件。其实数据域跟主题域的差别不大,很大情况下两者就等同于一个概念的。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

尊敬的博途智库用户:

欢迎您使用博途智库的服务。在您准备下载文档时,请您仔细阅读以下注意事项,以确保您的下载行为合法、合规,并避免可能产生的纠纷和损失。

一、版权信息确认

在下载文档前,请务必确认文档中的版权信息。博途智库尊重原作者的版权,所有文档均注明版权归属。如果您需要下载涉及版权的文档,请确保您已获得原作者的授权或许可,或者该文档属于可自由使用的范畴。

二、文档内容审查

在下载文档前,请您自行审查文档内容,确保其符合您的需求和使用场景。博途智库不对文档内容的准确性、完整性或适用性做任何形式的保证。因文档内容引发的任何问题或纠纷,博途智库不承担任何责任。

三、文档下载与使用

  1. 下载文档时,请确保您的设备安全、稳定,避免因网络问题或设备故障导致下载失败或文档损坏。
  2. 下载后的文档,请您妥善保管,不得擅自修改、复制、传播或用于商业用途。如需对文档进行分享或传播,请确保您已获得原作者的明确授权。
  3. 在使用文档时,请遵守国家法律法规和道德规范,不得利用文档从事违法、违规或侵犯他人权益的活动。

四、付费文档说明

对于博途智库中的付费文档,您需要按照页面提示完成支付流程后方可下载。请您确保在支付过程中选择正确的支付方式,并核对支付金额。对于因支付问题导致的下载失败或损失,博途智库将尽力协助您解决,但具体责任需根据支付平台的规则进行判定。

五、纠纷处理

如您在使用博途智库下载文档过程中遇到任何问题或纠纷,请及时与博途智库客服联系,我们将竭诚为您提供帮助和解决方案。同时,也请您保留好相关证据,以便在必要时进行维权。

最后,感谢您对博途智库的支持与信任。我们将继续努力为您提供优质、便捷的文档下载服务。祝您使用愉快!

博途智库团队

愚公移山+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

确认删除?
知识变现
客服电话
客服微信
  • 客服微信
客服QQ
  • 客服QQ点击这里给我发消息
发送邮件
回到顶部