现代数据分析是对商务智能的进一步拓展和延伸,随着云计算、大数据、移动分析等新兴技术的出现,以及数据挖掘技术的不断成熟,数据分析将迎来更多的机遇与挑战数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程该过程需要占用大量的精力和时间(约60%)进行数据准备,包括数据抽取、数据清洗、数据探索、数据转换。http://wenku.baidu.com/link?url=Zfoc5Eutj0EQUAnNb7MOJRHNwkAAIJEGU4NuGRIsMbj1-7vAlsRlqnZEUr_SBMbeEFZKrifUdx_P_cvRl7l7SPLBz7kVsbABWHM4u57gjBKhttp://wenku.baidu.com/link?url=UqrifDxdP4Ceh3U3tREeins5xXbyzwzfgt1vhGflXmrnSHM3JKE-pNdFejinDgTTLj2FRYRjJjntaoYZg2rhfCyZLe269IqRRD-R1cBdjtChttp://blog.sina.com.cn/s/blog_764288790100oxur.htmlhttp://book.51cto.com/art/200704/44916.htm1.数据清洗现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。(1)缺失值处理①忽略元组:当缺少类标号时通常这样做。除非元组有多个属性缺少值,否则该方法不是很有效。②人工填写缺失值:一般情况下,该方法很费时。③使用一个全局常量填充缺失值:将缺失值用同一个常数(如Unknown或∞﹣)替换。如果缺失值都用Unknown替换,则挖掘程序可能误认为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”。因此此方法虽然简单但不可靠。④使用属性的均值填充缺失值:例如,假定顾客的平均收入为56000美元,则使用该值替换income中的缺失值。⑤使用与给定元组属同一类的所有样本的属性均值,例如,将顾客按credit_risk分类,则用具有相同信用度给定元组的顾客的平均收入替换income中的缺失值。⑥使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一棵决策树来预测income的缺失值。(2)噪声数据处理噪声(noise)是被测量的变量的随机误差或方差。给定一个数值属性(如price),怎样才能光滑数据,去掉噪声?下面介绍数据光滑技术。①分箱(binning):分箱方法通过考察数据的“近邻”来光滑有序数据的值。有序值分布到一些桶或箱中。由于分箱方法考察近邻的值,因此是对数据进行局部光滑。例如:price排序后数据(美元):4,8,15,21,21,24,25,28,34划分为(等频)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34用箱均值光滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29用箱边界光滑:箱1:4,4,15箱2:21,21,24箱3:25,25,34②回归:可以用一个函数(如回归函数)拟合数据来光滑数据。③聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。(3)数据不一致的处理作为一位数据分析人员,应当警惕编码使用的不一致问题和数据表示的不一致问题(如日期“2004/12/25”和“25/12/2004”)。字段过载(fieldoverloading)是另一种错误源,通常是由如下原因导致:开发者将新属性的定义挤压到已经定义的属性的未使用(位)部分(例如,使用一个属性未使用的位,该属性取值已经使用了32位中的31位)。清洗工具ETL(Extraction/Transformation/Loading)Potter‘sWheel(http://control.cs.berkeley.edu/abc)2.数据集成数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能匹配?这涉及实体识别问题。例如,数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或null值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用来帮助变换数据(例如,pay_type的数据编码在一个数据...