大数据分析的数据预处理.pptx
,大数据分析原理与实践8、大数据分析的数据预处理,数据抽样和过滤数据标准化与归一化数据清洗,1,2,3,数据抽样和过滤数据标准化与归一化数据清洗,1,2,3,随机抽样系统抽样分层抽样加权抽样整群抽样,P=1,P1=1/2,P2=1/2,P1=1/3,P2=2/3,数据1:1(1/2)(2/3)=1/3数据2:(1/2)(2/3)=1/3数据3:(1/3)=1/3,数据抽样和过滤数据标准化与归一化数据清洗,1,2,3,Log函数图像,y=arctan x 函数图像,数据抽样和过滤数据标准化与归一化数据清洗,1,2,3,数据质量概述缺失值填充实体识别与真值发现错误发现与修复,但是上海的区号是21,而北京的区号是10。,数据质量概述缺失值填充实体识别与真值发现错误发现与修复,数据质量概述缺失值填充实体识别与真值发现错误发现与修复,数据质量概述缺失值填充实体识别与真值发现错误发现与修复,谢谢!,Thanks for your attention!,