数据仓库和数据挖掘在医院信息系统中的应用.docx
《数据仓库和数据挖掘在医院信息系统中的应用.docx》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘在医院信息系统中的应用.docx(35页珍藏版)》请在课桌文档上搜索。
1、数据仓库和数据挖掘在医院信息系统中的应用随着信息化的迅猛进展,各医院都在建立自己的信息系统,数据库规模不断扩大,复杂程度日益增加,从大量的数据中提取有用的信息供医院的决策服务就显得尤为重要。目前医院信息系统(HlS)的实现,绝大部分使用的是传统数据库技术,数据处理以操作型处理为主,即联机事务处理(OLTP)。尽管产生了大量的业务数据,但真正对决策有用的信息却很少,而且也造成了历史数据与当前数据、操作数据与分析数据的利用与管理的冲突。为熟悉决这一问题,数据仓库技术应运而生。北京肿瘤医院有其自身的特殊性,治疗上不一致于其它医院,因此关于信息统计、分析与管理决策上有其特殊要求。本论文以CF在建设的肿
2、瘤医院数据仓库为例,首先介绍了数据仓库(DW)与数据挖掘(DM)在肿瘤医院应用课题的来源;其次,阐述了数据仓库与数据挖掘的基本概念,数据挖掘的方法、算法,还有数据挖掘、在线分析(OLAP)与决策支持(DSS)的差异。最后,介绍了肿瘤医院数据仓库建立与应用的全过程。包含阐述了医院信息系统(HlS)的基本概念、医院分析数据的历史方法及医院信息管理中存在的问题。肿瘤医院HIS数据库的结构设计,数据仓库建立过程中的数据准备,数据仓库的架构、存储,维度与粒度设计,主题抽取与确定,建立多维数据模型及多维数据分析,数据仓库与数据挖掘的要紧功能及医院实际应用O关犍词:医院信息系统;数据仓库;数据挖掘Abstr
3、actWiththefastdevelopmentofinfrmationtechnology,hospitalshaveestablishedtheirowninformationsystems.Andthescaleofdatabasehasbeencontinuouslyextendingandthecomplexitybeendramaticallyincreasingsincethedaythesystemwasbuilt.Underthiscircumstance,toselecttherightinformationfromamassofdataforIhehospitalSde
4、cisionmakingisofutterimportance.Thesedaysthetraditionaltechnique,namelyOnlineTransactionProcessing(OUTP),istheprimarywaytorealizeIheHospitalInformationSystem(HIS).Althou曲alotofdatacanbeacquiredbythisway,fewofthemareusefulformakingdecisions.What,Smoreintermsofutilizationandmanagement,itcausestheconfu
5、sionbetweenhistoricaldataandcurrentdataandtheconflictbelweenoperationdataandanalysisdata.Tosolvethisproblem,thetechnologyofDataWarehouse(DW)emergesasthetimesrequire.Comparedwithotherhospitals,BeijingCancerHospitalhasitsownparticularity,adoptingdifferentmethodsintreatments.Forthisreason,ithassomespec
6、ificrequirementsonthestatistictanalysisandmanagementofinformation.ThispapertakesthedatawarehouseofBeijingCancerHospital,whichisbeingestablished,asanexampletointroduce:firstly,theoriginofDataWarehouse(DW)andDaUMining(DM)intheapplicationsubjectsofthecancerhospital:Secondly,thefundamentalconceptofDWand
7、DM,themethodandarithmeticofDM,andthedifferenceamongDM,OLAPandDSS;lastly,theentirecourseabouthowthewarehousewasestablishedandused,includingthebasicconceptofHISthehistoricalmethodofanalyzingdata*theproblemsinvolvedinthemanagementOfinfbrmation,thestructuredesignofthewarehouse,datapreparationdudngtheest
8、ablishingperiod,theframeworkandstorageoftheDW,designofdimensionalityandgranularity,abstractingandconfirmingsubjects,buildingmultidimensionaldatamodelandanalyzingmultidimensionaldata,themainfunctionofDWandDMandSomepracticalusesinhospitals.Keywords:HospitalInformationSystem;DataWarehouse;DataMining图2.
9、1多维立方体9图2.2企业中数据仓库结构10图23大肠癌的决策树示意图13图3.1医院信息化的层次20图3.2医院HlS中四个表的关系图25图33数据仓库所需要的4个表的关系27图3.4费用随时间变化的过程图28图3.5医院数据仓库的架构29图3.6星型模型30图3.7肿瘤医院多维立方体的关系图33图3.8多维数据分析33图3.9费用分布图36图3.10胃癌病人外科手术的术前准备天数36图3,1120012004病人数量的分析图38图3.12多维立方体结构图38图3.13所有诊断的费用分布39图3.14树形显示的效果39图3.15饼图显示效果40图3.16病人职业构成40图3.17AnalyS
10、iSSerViCeS中的聚集41图3.18决策树的树形表示方法42图3.19决策树的公式表示方法42图3.20大肠癌术后决策树部分图451.1引言本章要紧是文献综述,并介绍了数据仓库、数据挖掘技术应用于肿瘤医院进行的研究工作,最后给出论文的内容安排。1.1.1文献综述随着计算机应用的网络计算的进展,计算正向两个不一致的方向拓展:一个是广度计算,二是深度计算。广度计算是把计算机的应用范围尽量扩大,同时实现广泛的数据交流。深度计算是人们对以往计算机的简单数据操作。目前,深度操作己提出了更高的要求,希望计算机能够更多的参与数据分析与制定决策的工作。传统的数据库技术是单一的数据库资源,它适合操作型事务
11、处理,但分析型处理(或者信息型处理)能力较弱2o数据仓库(DaIaWarehoUse。DW)的出现,将操作型环境与分析型环境进行了分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原先的以单一数据库为中心的数据环境进展为一种以数据仓库为中心的新的体系化环境(3L近十几年,随着科学技术飞速的进展,社会与经济都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。显然在这些数据中的信息非常的丰富,如何处理这些数据得到有价值的信息,人们进行了有益的探索。4计算机技术的迅速进展使得处理数据成为可能,这就推动了数据库技术的极大进展,但是面对不断增
12、加的如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次的问题:能不能从海量数据中提取信息或者者知识为决策服务。仅就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临着极大的挑战【51。这就急需有新的手段、新的技术来处理这些巨量数据。因此,人们结合统计学、数据库、机器学习等技术,提出数据挖S(DataMining,DM)来解决这一难题6o1.I.1.1国内外现状在国外,数据挖掘已经有很多成功案例。数据挖掘首先在金融、证券、电信、零售业等数据密集型行业实施,由于这些行业信息化程度比较高,数据库中已经保留了大量数据资源。比如,总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛(
13、WalMalI)的”尿布与啤酒”的故事。沃尔玛拥有世界上最大的数据仓库系统,通过数据挖掘工具,得到了一个意外发现:跟尿布一起购买最多的商品竟然是啤酒。进一步的分析,揭示了隐藏在“数据关联”背后的行为模式,”啤酒与尿布”的著名故事,可谓是数据挖掘产生巨大价值的经典案例。当企业拥有大量的数据之后,如何从这些数据中“攥出油水”,才是企业信息化价值表达的最终目的。有数据说明,进入二十世纪90年代,人类积存的数据量以每月高于15%的速度增加,假如不借助强有力的挖掘工具,仅依靠人的能力来懂得这些数据是不可能的。数据挖掘的前景被人们普遍看好。国际知名调查机构GartnerGroup在高级技术调查报告中,将数
14、据挖掘与人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,还将并行处理体系与数据挖掘列为未来五年内投资焦点的十大新兴技术前两位Ganner的调查报告估计:到2010年,数据挖掘在有关市场的应用将从目前少于5%增加到超过80%。美国银行家协会预测数据仓库与数据挖掘技术在美国商业银行的应用增长率是14.9%。与国外相比,国内对知识发现的研究较晚,而且较为分散,没有形成整体力量。90年代,国家自然科学基金曾支持过对该领域项目的研究,但实际应用不多。目前,国内的许多科研单位与高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包含清华大学、中科院计算技术研究所、空军第三研究所、
15、海军装备论证中心等181。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学、北京理工大学等单位开展了对关联规则开采算法的优化与改造;南京大学、四川联合大学与上海交通大学等单位探讨、研究了非结构化数据的知识发现与Web数据挖掘。尽管国内有很多大学与研究机构从事数据仓库技术的研究,但到目前为止,国内基本上没有成熟的数据仓库解决方案。在医疗行业的应用更是少之又少。目前提供数据挖掘产品的厂商非常多,如著名的产品有SASEnterPriSeMinerNCRTerada
16、taWarehouseMinerSPSSClementine7.0、IBMDB2IntelligentMineSQLServer2000数据挖掘组件、Oracle9iDataMiningCACIeverPathPredictiveAnalysisServer、DMiner等。这些产品各有特色:NCR、IBM、ORACLE等数据挖掘工具能够直接在数据库上进行挖掘;SAS提供了数据获取、取样、筛选、转换工具来构造要挖掘的数据集;SPSS针对具体应用领域推出了多个应用模版,以简化应用开发过程。MiCrOSofi将OLAP功能集成到MicrosoftSQLServer7.0中,提供可扩充的基于COM的
17、OLAP接口。它通过一系列服务程序支持数据仓库应用。数据传输服务DTS(DataTransformationSerViCeS)提供数据输入/输出与自动调度功能,在数据传输过程中能够完成数据的验证、清洗与转换等操作,MicrosoftOffice2000套件中的Access与Excel能够作为数据展现工具,另外SOLSerVer还支持第三方数据展现工具。1.2数据仓库与数据挖掘在医院应用的课题来源随着计算机技术的飞速进展与企业不断提出新的需求,传统的数据库技术以单一的数据资源,即数据库为中心,进行事务管理、批处理与各类类型的数据处理工作。不一致类型的数据处理有着不一致的处理特点,以单一的数据组织
18、方式进行组织的数据满足不了数据处理的多样化的要求,因此数据仓库技术应运而生。数据仓库技术以传统的数据库作为存储数据与管理资源的基本手段,以统计分析技术作为分析数据与提取信息的有效方法,它是诸多学科相互结合、综合利用的技术。北京肿瘤医院已经运行了医院管理系统将近5年的时间,积存了大量的数据,还有其他的独立的信息系统的数据,比如(放射科、检验科、医疗保险),而这些数据由于彼此独立同时成为历史,没有得到再利用。目前,有极少的医院能够整合这些数据,充分利用。在此基础上,为了便于领导查询、分析并支持决策,本人在完成硕士论文期间提出了“数据仓库与数据挖掘在肿瘤医院中的应用”这个研究题目,并在医院中也申请了
19、“肿瘤医院数据仓库的建立与应用”研究课题。木论文正是围绕着建立肿瘤医院数据仓库与在此基础上的分析与数据挖掘来讨论数据仓库技术及联机分析技术、数据挖掘技术的。1. 3论文的工作本文研究的要紧内容是首先以一、两个病种为例,从肿瘤医院现有的HIS数据出发,探讨建立管理信息数据仓库(DaIaWarehOUSe)的方法;其次能够在此基础上,开展单病种费用研究,使用新的费用管理指标,应用数据挖掘技术(DataMining)中的粗糙集理论对过度诊断与治疗的识别问题进行试分析。本文要紧工作包含下列几个方面:数据预处理的研究由于数据库系统所获数据量的迅速膨胀(已达G或者T数量级),从而导致了现实世界数据库中常常
20、包含许多含有噪声、不完整、甚至是不一致的数据。显然对数据挖掘所涉及的数据对象务必进行预处理。数据预处理要紧包含:数据清洗(dalacleaning)、数据集成(dataintergratin)数据转换(dataIransformalion)、与数据消减(datareduclin)数据仓库建立过程的多维分析的实现木文介绍了利用微软的AnalysisServices工具在已经进行整理的数据的基础上建立一个数据仓库的过程,包含如何设计主题、维度、粒度,对数据仓库进行钻取、旋转等操作,如何存储数据仓库,与如何用可视化工具进行进一步分析的全过程。数据挖掘的几个算法的尝试在已有数据的基础上,找出一些完整的
21、、有分析价值的数据,利用数据挖掘中的一些算法如(决策树ID3算法、聚集、粗糙集中RSL语言)来对数据进行试探性的数据挖掘。并用微软的AnaIySiSSerViCeS中的数据挖掘模型来实现决策树与聚集方法的数据挖掘,并得到有用的知识。下一步工作的展望由于时间与人力的原因,本文只能做些探讨性的分析与研究,整个工作尚不能成为成熟的可应用于实际的工具。但本人已在医院中申请了这个项目的课题,并已经被批准,并得到了院长、科主任的高度重视。因此会在未来重点地研究,并希望能够得到理想的效果。此项工作与HIS的区别联机分析技术(OLAP)就是对大量信息进行复杂分析操作与决策制定的软件系统。为了提高效率与有效性,
22、务必把分析型数据从事务处理环境中提取出来,按照决策支持系统处理的需要进行重新整合,建立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储与组织技术。与HIS不一致之处在于,数据仓库是对历史数据的批处理操作、按照主题进行分解合并重新组织,是深层次分析利用的基础。HlS要紧作用是使让大量的日常业务(如挂号、划价、收费、结算等等)电子化,以提高医院工作效率与工作质量。HIS的应用是面向联机事务处理(OLTP)。1. 4论文的组织结构全文分为三章各章组织如下:第一章,为引言,要紧内容有研究的技术背景,木篇论文要紧工作、组织结构的介绍。第二章,介绍了数据仓库的概念与体系结构
23、;数据挖掘的方法、算法;多维数据分析与数据挖掘与决策支持的联系与区别。第三章,是对在肿瘤医院建立数据仓库全过程的全面描述,包含医院信息管理系统的介绍与国内外的动态:医院分析数据的历史方法,存在的问题与数据仓库架构、数据存储、粒度与维度的设计、主体的提取与确定、数据仓库实现的功能;数据挖掘的应用实例,有几种算法的演示与说明。最后,为结束语包含了对上述论文的总结,与对下一步工作的展望。第2章数据仓库与数据挖掘2. 1数据仓库的定义2. 1.1数据仓库的定义信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。每同、每时、每刻都有潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 医院 信息系统 中的 应用

链接地址:https://www.desk33.com/p-1027517.html