大数据概述及其数据分析案例.pptx
《大数据概述及其数据分析案例.pptx》由会员分享,可在线阅读,更多相关《大数据概述及其数据分析案例.pptx(34页珍藏版)》请在课桌文档上搜索。
1、大数据概论,目 录,1.,2.,3.,4.,大数据总述,大数据处理框架,大数据分析、挖掘,大数据可视化展示,5.,大数据应用案例,大数据总述,大数据概念,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。,大数据指的是所涉及的数据规模大到无法通过人脑甚至主流软件工具,在合理时间内达到采集、存储、分析、并整理成为帮助企业更好地经营决策的资讯。,“大数据”这一概念的提出。全球知名咨询公司麦肯锡大数据:下一个创新、竞争和生产率前沿提出:数据已经渗透到当今每一个行业和业务领域,成为重要的生产因素。麦肯
2、锡应该是比较早进行研究和应用大数据的公司,但并不是首次提出这个概念的。DT,大数据特点,大容量-Volumn,数据规模大,而且大规模增长,数据来源渠道广泛,类型复杂多变,不仅是采集速度快,而且要求处理速度快,数据的准确度和数据价值密度是否高,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据的重点不在于“大”,而在于数据本身。,人工智能(AI),机器学习(ML),深度学习(DL),大数据(Big Data),几大领域间的图谱关
3、系,大数据处理框架,大数据主流处理框架,Hadoop,分布式文件系统是Hadoop最核心的部件,主管数据存储。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。,MapReduce是一种计算模型,用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。,HBase是一个针对结构化数据的面向列的数据库。提供了对大规模数据的随机、实时读写访问。HB
4、ase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。,Hadoop 程序运行原理,Spark,Spark提供了多种高级工具:Spark SQL应用于即时查询、Spark Streaming应用于流式计算、Mllib应用于机器学习、GraphX应用于图处理。Spark可以基于自带的standalone集群管理器独立运行,也可以部署在Apach Mesos和Hadoop YARN等集群管理器上运行。Spark可以访问存储在HDFS、Hbase、本地文件系统等上的数据,支持文本文件以及任何Hadoop的InputFormat。,Spark 特点,Spark可以
5、与Hadoop无缝结合:使用YARN作为它的资源管理器。并可以读取HDFS、Hbase等一切Hadoop的数据。,Spark基于内存的计算比Hadoop的MR快近100倍。基于硬盘的计算比MR快10倍。,Spark可以提供full-stack的解决方案:Spark的内存计算、基于Spark SQL的交互式查询、基于Spark streaming的流式计算、基于Mllib的机器学习。,Spark提供了大量的数据操作算子,不像Hadoop,只有map和reduce两种操作。Spark支持Java、Scala、Python API。支持交互式的Python和Scala是Shell。,Spark Rd
6、d,RDD-Resilient Distributed Datasets(弹性分布式数据集),意为容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。,RDD是在集群节点上的不可变的、已分区的集合对象。可以通过并行转换的方式来创建如(map,filter 等等),它必须是可序列化的。,RDD提供了两种类型的操作:transformation和action。transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD。action是得到一个值,或者一个结果
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 概述 及其 分析 案例

链接地址:https://www.desk33.com/p-362829.html