大数据分析方法及工具应用(埃森哲).ppt

大数据分析方法及工具应用(埃森哲).ppt_第1页
大数据分析方法及工具应用(埃森哲).ppt_第2页
大数据分析方法及工具应用(埃森哲).ppt_第3页
现代数据分析是对商务智能的进一步拓展和延伸,随着云计算、大数据、移动分析等新兴技术的出现,以及数据挖掘技术的不断成熟,数据分析将迎来更多的机遇与挑战数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程该过程需要占用大量的精力和时间(约60%)进行数据准备,包括数据抽取、数据清洗、数据探索、数据转换。http://wenku.baidu.com/link?url=Zfoc5Eutj0EQUAnNb7MOJRHNwkAAIJEGU4NuGRIsMbj1-7vAlsRlqnZEUr_SBMbeEFZKrifUdx_P_cvRl7l7SPLBz7kVsbABWHM4u57gjBKhttp://wenku.baidu.com/link?url=UqrifDxdP4Ceh3U3tREeins5xXbyzwzfgt1vhGflXmrnSHM3JKE-pNdFejinDgTTLj2FRYRjJjntaoYZg2rhfCyZLe269IqRRD-R1cBdjtChttp://blog.sina.com.cn/s/blog_764288790100oxur.htmlhttp://book.51cto.com/art/200704/44916.htm1.数据清洗现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。(1)缺失值处理①忽略元组:当缺少类标号时通常这样做。除非元组有多个属性缺少值,否则该方法不是很有效。②人工填写缺失值:一般情况下,该方法很费时。③使用一个全局常量填充缺失值:将缺失值用同一个常数(如Unknown或∞﹣)替换。如果缺失值都用Unknown替换,则挖掘程序可能误认为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”。因此此方法虽然简单但不可靠。④使用属性的均值填充缺失值:例如,假定顾客的平均收入为56000美元,则使用该值替换income中的缺失值。⑤使用与给定元组属同一类的所有样本的属性均值,例如,将顾客按credit_risk分类,则用具有相同信用度给定元组的顾客的平均收入替换income中的缺失值。⑥使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一棵决策树来预测income的缺失值。(2)噪声数据处理噪声(noise)是被测量的变量的随机误差或方差。给定一个数值属性(如price),怎样才能光滑数据,去掉噪声?下面介绍数据光滑技术。①分箱(binning):分箱方法通过考察数据的“近邻”来光滑有序数据的值。有序值分布到一些桶或箱中。由于分箱方法考察近邻的值,因此是对数据进行局部光滑。例如:price排序后数据(美元):4,8,15,21,21,24,25,28,34划分为(等频)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱均值光滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界光滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34②回归:可以用一个函数(如回归函数)拟合数据来光滑数据。③聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。(3)数据不一致的处理作为一位数据分析人员,应当警惕编码使用的不一致问题和数据表示的不一致问题(如日期“2004/12/25”和“25/12/2004”)。字段过载(fieldoverloading)是另一种错误源,通常是由如下原因导致:开发者将新属性的定义挤压到已经定义的属性的未使用(位)部分(例如,使用一个属性未使用的位,该属性取值已经使用了32位中的31位)。清洗工具ETL(Extraction/Transformation/Loading)Potter‘sWheel(http://control.cs.berkeley.edu/abc)2.数据集成数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能匹配?这涉及实体识别问题。例如,数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或null值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用来帮助变换数据(例如,pay_type的数据编码在一个数据...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

尊敬的博途智库用户:

欢迎您使用博途智库的服务。在您准备下载文档时,请您仔细阅读以下注意事项,以确保您的下载行为合法、合规,并避免可能产生的纠纷和损失。

一、版权信息确认

在下载文档前,请务必确认文档中的版权信息。博途智库尊重原作者的版权,所有文档均注明版权归属。如果您需要下载涉及版权的文档,请确保您已获得原作者的授权或许可,或者该文档属于可自由使用的范畴。

二、文档内容审查

在下载文档前,请您自行审查文档内容,确保其符合您的需求和使用场景。博途智库不对文档内容的准确性、完整性或适用性做任何形式的保证。因文档内容引发的任何问题或纠纷,博途智库不承担任何责任。

三、文档下载与使用

  1. 下载文档时,请确保您的设备安全、稳定,避免因网络问题或设备故障导致下载失败或文档损坏。
  2. 下载后的文档,请您妥善保管,不得擅自修改、复制、传播或用于商业用途。如需对文档进行分享或传播,请确保您已获得原作者的明确授权。
  3. 在使用文档时,请遵守国家法律法规和道德规范,不得利用文档从事违法、违规或侵犯他人权益的活动。

四、付费文档说明

对于博途智库中的付费文档,您需要按照页面提示完成支付流程后方可下载。请您确保在支付过程中选择正确的支付方式,并核对支付金额。对于因支付问题导致的下载失败或损失,博途智库将尽力协助您解决,但具体责任需根据支付平台的规则进行判定。

五、纠纷处理

如您在使用博途智库下载文档过程中遇到任何问题或纠纷,请及时与博途智库客服联系,我们将竭诚为您提供帮助和解决方案。同时,也请您保留好相关证据,以便在必要时进行维权。

最后,感谢您对博途智库的支持与信任。我们将继续努力为您提供优质、便捷的文档下载服务。祝您使用愉快!

博途智库团队

云在青山月在天+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

确认删除?
知识变现
客服电话
客服微信
  • 客服微信
客服QQ
  • 客服QQ点击这里给我发消息
发送邮件
回到顶部