数据虚拟化技术手册.docx
《数据虚拟化技术手册.docx》由会员分享,可在线阅读,更多相关《数据虚拟化技术手册.docx(61页珍藏版)》请在课桌文档上搜索。
1、IBMtS术ForDummies,Denodo出版商:妁翰威利父子公司;地址:英国酶眩克斯郡奇切斯特区南门中庭:网址:2021西萨塞克斯郡奇切斯特区约翰威利父子公司版权所有注册地址英国西萨塞克斯郡奇切斯特区南门中庭约翰威利父子公司,邮政编码:PO98SQ保留一购J.辉出版商方先书面椰F,不1崛熔出板物的任何部分,或者将其保存于检索系统,或者以电子.WStL影印、录阖、扫描等形式或方式传输,但是根据(1988年英国版权、外观设计及专利法之规定获得准许的情况除外.关于如何申i再次使用书中版权资料,请杳看我IiJ的网站:http:/商标:城利(Wiky)、傻瓜版(lrDummies).傻瓜版人像标识
2、(DummiesMan).傻瓜版之路(TheDummiesWay).LX.让一切变得更简单(MakingEverythingE欣CT)以及相关商业外观,均为约翰威利父子公司和或其在美国以及其他国家的关联机构所持有的普通商标或注册商标,未注书面许可,不得使用.Den或DenodO标识系DenOd“技术公司的普通商标或注册商标.所有其他商标均归相应所有权人所有.约翰威利父子公司与书中提及的1五吩咂或供应商不存在任何关系.保证责任限制J费任免脓汽明尽管出版商和作者在给马本书过程中尽到最大努力,但对书中内容的准确性或完整性不做任何声明或保证,尤其对于本书的适俏性或对特定用途的适合住,声明免S任何暗示的
3、供证货任.本书的传宾基于以下共识:出版前不提供任何专业服务,并且出版商和作者均不承担任何专业服务所产生的损害赔偿责任.如果您需要获汨专业建议或其他专京协助,应当寻求适格专业人士提供的股务.如果您想了解我们的一股产品和服务信息,或者如何为您的企业或蛆织定制=orDummies系列图书,谓联系我们设在美国的业务开发部,电话:8774O94I77;电子邮件:InfoGdununies.biz;网址:WWWISBN978-l-l19-74813-7(pbk):ISBN978-l-l19-74814-4(cbk)英国印刷10987654321出版商鸣谢我们为本书及其贡献者感到自豪.关于为您的企业或组织定
4、制ForDummies图书的详细内容,请联系:infoduiranies.biz,或者访问:Dcnodo审稿团队:保罗莫克森、帕布鲁 艾瓦莱兹、拉维沙恩克、拉克什米 兰德尔、贝基史密斯、艾米弗利潘Ie为本书上市做出贡献的部分人员如下:项目编辑:马丁V,米纳联合出版人:卡蒂摩尔编辑经理:列夫门格尔业务发展代表:弗雷泽霍萨克制作编辑:塔米尔马尼瓦拉哈拉吉引言断增长的雌量,以及日益增多的雌类型给企业带来了打蛾随着大数据的到来和信息渠道的激增,企业必须存储、发现、访问和共享fi91酶源.同时,只有大量多样化的数据源得到实时或准实时的整合,企业才能实现更多业务机会。在今天复杂的数据环境下,由于数据访问的
5、成本和延迟,要把数据从无数个数据源复制到中央数据库已不再可行.虽然云存储架构有一定帮助,但云存储架构仍然是建立独立的数据孤岛,这种数据孤岛无法与传统数据仓库等系统实现无缝整合.数据虚拟化技术是一种现代化的数据整合方法。它可以根据消费应用程序、流程、分析工具或业务用户的需求,实时或近乎实时地提供受信商业数据的简化、统一和整合视图,从而超越了彳撇技术的局限性关于本书数据虚拟化技术ForDummies,DenOdO专版共分七章,分别探讨以下内容:数据孤岛、数据过载、监管合规等带来的到破(第1章)什么是数据虚拟化技术?数据虚拟化技术对业务有哪些帮助?(第漳)数据虚拟化技术的用例(第3章)数据虚拟化技术
6、如可帮助实现大雌解决方案(第4章)云上的雌虚拟化技术(第5章)如丽启翻网融化技术(第6章)辘虚拟化技术枷识要点(第7章)引言1傻瓜式假设有人说,大部分假设条件都失去了实用价值,尽管如此,我仍然要做一三三!假设您是企业数据的使用者或管理者,例如:数据仓库管理员、数据工程师或数据库管理员,负责快速、安全、经济地向企业提供数据数据分析师或数据科学家,需要快速、可靠地访问大量多样化数据集商业用户,需要定期访问数据,以借助最佳可用数据,做出明智、及时的决策书中使用的符号在书中,我会偶尔使用一些特殊符号来标记重要信息。这些符号如下:伟讣对于该符号指向的信息,您应当把它们牢牢记住口把这些信息与纪念日Cy和生
7、日T牢记!记住偲龄虽然这里没有人类基因图谱那么复杂的知识,但如果您想做一名技术达遗7人,您一定会为其中的内容欣喜不已!该符号解释的是行话中的行话。技术内容彳小诀窍可遇而不可求,我也希望您能欣赏这些真知灼见。该符号指向的,V是有用的、宝贵的信息L提示(i警告符号虽然不由得让人想起老妈的告诫(当然,可能并不是),但这部分内容其实包含实用建议,可以帮您避免那些代价高昂或令人沮丧的鳖告失误。本章提要“消灭企业的数据孤岛“处理不同的数据源和数据类型“理解监管合规需求“学习赚虚拟化技术的鬼蜘识第1章无所不在的甥居本章,您将了解现代数据挑战,其中包括数据孤岛、异类数据来源和类型,以及监管合规.另外,您还将了
8、解数据虚拟化技术是什么一以及不是什么。数据孤岛数据孤岛是一种无法在系统和应用之间轻松共享的数据源,多年来一直困扰着IT和业务领域。企业内部存在数据孤岛的原因多种多样,例如:旧的遗留系统难以兼容现代系究本地系统鹿以兼容云上系统。随着现有系统逐渐耗尽存储能力或由于性能下降,多年来企业部署了多个异类存储系统。有些系统仅能兼容特定应用。有些系统的配置仅允许特定个人或团组访问.企业相互兼并时,各自系统配置不同.数据孤岛使业务用户难以访问和分析企业内部所有可用数据。数据孤岛可能会导致结果或结论的不准确,以及由于数据不完整或不完善而导致决策延迟.由于缺乏单一的真实数据来源,这使得人们对数据的准确性产不疑.管
9、理数据沼泽对今天任何企业而言,管理大量数据都充满挑战。不仅是数据的数量,企业还必须管理多种数据类型口包括结构化数据、非结构化数据及半结构化数据,并且这些数据类型还来自多个数据源。这些不同的数据类型必须经常从数据源抽取出来,转换成不同的格式后,加载到消费应用程序上(这一过程被称为“抽取T换一加载(ETL),然后企业才能使用这些数据类型。ETL流程(在第2章讨论)往往是脚本化流程或手工流程,需要IT部门的协助,以计划分批处理的方式进行,这个过程缺少灵活性,还会带来更多的复杂性和延迟.满足合规要求新的法律法规规定了数据保护要求,这对于各个行业的企业而言是一个持领、高邮威。簿健康保险的转与朗去(HIP
10、AA),美国格拉姆利奇一比雷法(GLBA)、力獐大个人信息彳耕与电子文档法(PIPEDA)等,都针对某些企业和行业,设立了数据隐私、保护及保留要求。最近,欧盟通用数据保护条例(GDPR)于2018年5月25日生效.所有服务欧盟公民的企业,无论企业所在地,都被要求遵守该条例.通用数据保护条例详细说明了企业必须采取的保护个人信息的措施.未能遵守该条例的公司,不仅要面临高额罚款,还要面临法律诉讼和额外审计。为遵守该条例,公司必须证明:个人数据的处理方式合法、公平、透明.个人数据的收集目的特定、明确、合法.个人数据的收集范围仅限于缄处理的必要范围。个人数搞襦准确和最新。在个人数据的保存上,确保数据主体
11、仅在必要时才被识SIL以安全的方式对个人数据进行处理,以确保个人数据不会落入外人之手,或发生丢失、损失或销毁.个人数据得到特意保护.所有新系统的开发都必须要考虑数据隐私.公司需要能够全面了解自己的所有数据,还需要通过一定方式,通过单点对整个基础架构实施安全控制.数据虚拟化技术提供了这种能力,让企业能够快速、方便地满足数据保护法规的要求,同时又不必投资于新的硬件,也不必从零开始重建现有系统.什么毁据虚拟化技术?数据虚拟化技术根据消费应用程序、流程、分析工具或业务用户的需求,实时或近乎实时地提供受信商业数据的简化、统一、整合视图.数据虚拟化技术在不复制数据的情况下,将来自异类数据源、异类位置和异类
12、格式的数据进行整合,从而创建了一个单一的虚拟数据层,这个数据层能够提供统一的数据服务,为多个应用和用户提供支持(参见图1-1).这样就可以更快地访问所有数据,减少复制和成本,墩睡更的敏捷性。MMM巨郦WM.Bio图1-1:数据虚拟化技术将来自异类数据源、异类位置和异类格式喇鼬行整合.为多个应用和用户提供支持.大部分数据整合解决方案都是将数据副本移到新的合并数据源,不过数据虚拟化技术却提供了一种完全不同的方法。数据虚拟技术没有移动数据,而是提供一个数据整合视图,让数据源保留在原来的位置。企业不必支付数据的移动和存放费用,但却可以获得数据整合带来的优势。数据虚拟化技术不仅能够实施与传统数据整合技术
13、相同的许多转换和质保功能例如,ETU数据复制、数据联邦、企业服务总线(ESB)等,而且能够借助现代技术,以较低成本,更加迅速、敏捷地提供实时数据整合。在许多情况下,数据虚拟化技术可以取代传统数据整合技术,并且减少对复制数据集市和数据仓库的需求。另外,数据虚拟化技术还构成一个数据抽象层和数据服务层。从这个意义上讲,无论是在本地部署还是在云上,数据虚拟化技术都能在原始和衍生的数据源、ETLxESB等中间件、应用及设备之间发挥很高的互补作用.数据虚拟化技术提供的主要能力如下:逻辑抽象和解耦:异类数据源、中间件及消费应用程序使用或预期使用的特定平台和接口、格式、图式、安全协议、查询范式等特征,现在能够
14、通过数据虚拟化技术,方便地进行交互.强化数据联邦功能:数据联邦原是数据虚拟化技术的一个子集,但现在有了智能化实时查询优化、缓存、内存及混合策略等能力的加持,能够根据数据源的限制、应用需求及网络意识,自动地(或手动地)僻这些能力.结构化与非结构化数据的语义整合:数据虚拟化技术能够将非结构化Web数据的语义理解对接到结构化数据的图式性理解-数据虚拟化是将非结构化和Web数据的语义理解与基于结构化数据的基于模式的理解联系起来的少数技术之一。敏捷的数据服务开通:数据虚拟化技术提高了应用编程接口(API)的经济性。无论是原始雌源,还是衍、整合或虚拟的数据源,都可通过不同于原始格式或协议的其他格式或协议进
15、行访问,并且能够在几分钟内即可实现受控访问。统一的数据治理和细粒度安全性,具备完衢S核能力:数据虚拟化技术可以通过本地和外部系统之间建立单个统一的访问层,以此对保存在多个系统上的敏感客户信息实现细粒度安全控制.通过单个的数据虚拟化层,可以发现并方便地整合所有数据,从而更快地暴露冗余和数据质量问题.数据虚拟化技术提供了从数据源到输出数据服务的模式性治理和安全能力,保证了数据整合与数据质量规则的一致性。当数据消费者需要访问数据源时,可通过数据虚拟化层进行访问,数据虚拟化层包含每个数据源的元数据,能够实时地为数据消费者返回安全、虚拟的数据视图,这些视图是可追溯和可稽核的,并且仅提供给获得授权缄据消费
16、者。消除不必要的数据移动:有了数据虚拟化层,就无需再为报告目的进行数据复制,也不必再重写抽取、转换和力瞰(ETL)脚本。数据虚拟化层使用企业现有的基础架构进行操作,并且配置方式安全相同。数据虚拟化层仅抽取访问功能,因此用户感觉数据仿佛存在于单个的虚拟数据库.不过,如果出于性能原因必须保留数据,则数据虚拟化工具还提供了简便的保留数据集的方式,只需启用某些模式设置即可。数据复制功能只是另一种选择,而不是必需的。完整的数据沿袭和敏捷的业务规则:在由可时间点,公司都可以了解和报告任何敏感数据集的完整数据沿袭,包括其原始来源,所有视图和所有修改。另外,通过数据虚拟化层,企业还能建立复杂的规则来自动实现合
17、规性,包括在系统运转的情况下设置数据屏蔽,以免相关虢被缺少必要凭证的用户有看.由于这些规则被应用在数据虚拟化层中,因此可以在不同类型的系统之间快速有效地应用它们.保证静态数据和动态数据的安全:数据虚拟化层可以在任1可级别(例如访客,员工或公司)执行基于角色的身份验证;应用特定于数据的权限,包括行级和列级屏蔽;并定义架构范围的权限和基于策略的安全性。虚拟化层通过安全套接层/传输层安全性(SSL/TLS)协议来保护传输中的数据,并通过诸如轻量级目录访问协议(LDAP),KerberOS传递,WindowsSingleSign-On(SSO),开放授权(OAUth)f简单和受保护的GSS-APl协商
18、机制(SPNEGO)即瞬正,C)AUth和SAMLX分9miRJava数据库连接/开放数据库连接(JDBC/ODBC)安全性等业界公认的协议对用户进行身份验证。通过制度设计,保障隐私:此外,数据虚拟化技术还非常适合帮助企业遵守通用数据保护条例规定的制度设计保护要求.根据定义,数据虚拟化层不需要数据源必须是规定的类8IK据图以化技术ForDummies,Denodo专版型,或者必须只能通过某种方式访问.将新源连接到数据虚拟化层,可以轻松地将其添加到基础架构中,无论数据源技术如何,新源都将立即受到与系统上任何其他源相同的安全控制和可审雌数据虚拟化技术将来自异类数据源的信息抽象和整合后,实时提供给多
19、个应用程序和用户。另外,数据虚拟化层也便于搭建、使用和维护。要搭建虚拟数据服务,用户只需遵循以下三个简单步骤(参见图1-2):连接数据源,进行虚拟化。利用系统提供的连接器,快速访问异类的结构化数据源和非结构化数据源.内有其元数据,并在数据虚拟化层上,以标准源视图的形式公开这些元数据。与业务数据视图进行合并和整合。通过图形用户界面(GUI)或文档化脚本,将源视图合并、整合、转换、清理,形成规范的、模型驱动的业务类照视图.连接并保护数据服务.可以保护任何虚拟数据视图并将其发布为SQL视图或许多其他缄月艮务格式。商业视图B1-2:搭建副邀剧6务.数据虚拟化技术不是什么一些供应商会使用当下流行用语,利
20、用数据虚拟化技术的普及,来营销自己非数据虚拟化技术的产品。为消除混乱,请记住数据虚拟化技术并不是下面这些概念:数据可视化:虽然听起来相似,但可视化是指僦据向最终用户展示为图表、图形、图示、报告等图形形式。数据虚拟化技术是一个“中间件,它为其他数据可视化工具和应用程序提供数据服务。虽然对用户和开发人员而言,数据虚拟化技术有部分可视化能力,但这并不是数据触1化技术的主要用途。复制数据的储备库:在正常情况下,数据虚拟化技术不会将源系统的数据保存或复制到数据虚拟化层。数据虚拟化技术仅为虚拟视图和整合逻辑储存元数据。如果启用了缓存,它会将部分数据暂时地保松腰存或内存雌库0如果需要,也可保存颉数据,只需使
21、用ETL,将其作为数据源进行调用即可。因此,数据虚拟化技术是一个功能强大,但又是轻级S雌的解决方案.逻辑数据仓库:逻辑数据仓库是一个架构概念,而不是真正的平台。数据虚拟化技术通过将多个数据源、数据仓库和大数据储备库(例如HadooP)等合并在一起,以创建一个逻辑数据仓库,数据虚拟化技术是创建逻辑数据仓库的核心技术之一。数据联邦:数据虚拟化技术是一个包含高级雌联丰造能力在内的超大集合。虚拟化数据存储:有些企业和产品虽然也使用“黝S颜化技术T司,但指的是虚拟化的数据库软件,或存储硬件的虚拟化解决方案。他们并没有跨异类结构化数据源和非结构化健源,提供实时的娄照整合与雌月躇.战化:虚拟化”一词单独使用
22、时,通常指硬件虚拟化口服务器、存储盘、网络等.10虚拟磁术ForDummies,Denodo专版此为2021JOhnWiIey&Sons,InC蝴.F1播.脓本章提要“ETUESB,嬲酬化的优势和劣势评估“传统数据整合技术与数据虚拟化技术的结合“数据酬I化技术实现业务敏捷性“授权商业用户自助访问实时数据第2章数据虚拟化入门本章,您将了解一些传统的数据整合技术,例如,抽取、转换和加载(ETL)流程和企业服务总线(ESB)架构,还将了解数据虚拟化技术如何补充这些传统的数据整合技术、如何实现业务敏捷性,以及如何让业务用户自助服务变成现实。超越传统的数据整合技术数据孤岛(在第I章讨论过)的问题在于,没
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 虚拟 技术 手册

链接地址:https://www.desk33.com/p-1186001.html