某智慧公安大数据分析系统建设方案.docx
项目编号:某智慧公安大数据分析系统建设方案第1章项目秘11.1 项目背景11.2 项目必要性11.3 建设目标31.4 铜制依据3第2章项目建设单63夕)(«(«(«(«(«(«(«(73.1 功能及性能甯求73.2 系统集成噩求83.3 数据来源93.4 运行环境93.5 安全需求9第4章总体124.1 总体设计颇则124.2 总体目标134.3 系统总体结构和茂林结构134/14.3.2系统逻辑结构154.4 标准规范建设内容15笫5章详忸设J一方IK”175.1 信息资源规划和数据库设计175.1.1效据模型微述175.1.2数燃建模方法论185.1.3数据建模基本蟆则195.1.1数器库架构设计205.2 数据应用支撑系统设计225.2.1 大数律平台关健技术225.2.2 云平台数据共享功健275.3 数据服务层计345.3.1 模型的应用345.3.2 平台基第应用.385.4 数据处理和存储系统设计415.4.1 大数据处理模心技术415.4.2 数据存储采用MPPIjhggP舱合架构.415.5 终端系统及接口设计425.6 网络系统设计435.7 安全系统设计445.7.1 7.I系畿安全满起梢况445.7.2 家统安全间效管理功能455.7.3 系缁无安全据洞保障485.7.4 软件自身安全S1.5.7.5 性能和可塞性525.8 %份系统设计541 ()S.5(frf5.9 运行维护系统设计575. 9.1服务器管理576. 9.2网络没翁伴醺577. 9.3迸程泞理578. 9.4服务转理579. 9.5数据庠管理5710. 9.6中间管理5711. 9.7维群省理5712. .8战障钟理5813. .9性能代理5814. 9.IO品置文件管理5815. 9.USYS1.OG沟理585.10 其他系统设计585.11 系统配置及软硬件造型原则585.I1.i软IIf件部署585.11.2致据要求595.I1.3技术要求595.12系统软馒件物理部署方案60第6章项目建设iKfi1.W"616.1 项目领导机构616.2 项目管理机构616.3 项目承建机构636.4 运行维护机构636.5 核准的项目招标方窠646.5.2 招标§关说明646.5.3 招标范用.646.5.4 招标筑织形式和方式6S6.6 相关管理制度676.7 项目测试686.7.2 单元/试686.7.3 集成淤试686.7.4 索统派试.696.7.5 性能泄试.696.7.6 验收洒试706.7.7 安装渊试.706.8 安全性测试716.8.2 功度蕤证.716.8.3 漏洞打描716.8.4 慑拟攻击实验716.9 项目验收736.9.2 项H脸收要求73»2ii6.9.3 项目验收的组织和实施746.9.4 项目验收的步骤和程序746.9.5 项目粉收的淘试方案746.9.6 遵目验收的文档消的747.1培训对象和培训目标7S7.2培训内容75第8778.1效益分析778.1风冷分析及对策77第1章项目概述1.1 项目背景党中央、国务院高度重视大数据在经济社会发展中的作用。李克强指出:不管是推动政府的简政放权,放管结合,还是推进新型工业化、城镇化、农业现代化,都要依靠大数据、云计算。所以,它应该是大势所趋,是一个潮流。国务院办公厅在运用大数据加强对市场主体服务和监管的若干意见(国办发(2015)51号)中明确指出:加快推进国家政务信息化工程建设,统筹建立国家信息资源库,加快建设完善国家重要信息系统,提高政务信息化水平。目前,随着警务改革的不断推进,公安网络系统、信息中心、信息安全系统的规模不断扩大,各类信息应用系统日趋兔杂,迫切需要借助云计算平台,实现灵活、高效的软硬件资源分配和管理,从而有效整合公安的各类信息资源,提升公安信息系统的安全性、稔定性、可扩展性.另一方面,随着社会公共安全管理的日趋到杂,公安行业通过大数据应用,把大量的关联信息进行汇总处理,可以重新认知和感知我们的外部环境。不但能快速锁定疑犯,而且还可以预防和打击犯邪.公安云计算+大数据系统,符成为面向各警种的管理和分析利器,通过商效的云计算平台提供强大的大数据应用承载能力,而向件警种提供集中资源、集中管理、集中监控、配套实施的统大数据应用环境,为各警实战应用提供强大支推、服务、保障作用。云计算和大数据是改变未来公安工作发展的新趋势,并且已经实实在绐公安科技管理与创新来了深刻的变革,有力地推动了公安各警种的工作优化和提升。1.2 项目必要性第一,构建“智慧公安”是未来警务形态演进的必然趋势。近年来,随着公安信息化建设的持续推进,我国公安机关的警务改革已开始迈进智能化发展的快车道,警务与人之间的相互感知和联系越来越案密,“公安大数据分析系统”建设已成为当代警务发展的新趋势。第二,构建“智慧公安”是新一轮信息技术变革下的时代潮流.当前,全球正进行物联网、移动互联网'云计算等新一轮信息技术变革.新技术往往孕育者新的重大突破,信息资源成为重要的公安战斗力要素,信息化不仅成为推动公安警务方式变革的重密引擎,也给整个社会管理创新带来深刻变化.“公安大数据分析系统”建设将极大地创新公安管理方式,促进“管制型公安”向“服务型公安”转变。应当说,经过最近十年的发展,以网络化、数字化为载体的信息化警芬特征日益显现,警务活动中人、事、物之间的互动能力显著嫡强,警务工作传载的功能不断增多,智能化程度逐步提高,“公安大数据分析系统”建设已成为现代信息技术变革下的时代潮流。第三,构建“智慧公安”是推动公安故斗力生成模式转变的要途径.公安信息化的“智慧公安”建设是一场新的警务革命,对于整合警务情报资源、改造警情处理流程、创新警情研判模式、降低警务成本、实现警务效能的最优化具仃推动作用.这场新警务革命的实质是推动公安建设和警务工作由数量规模型向质量效战里、由人力密集里向科技密集型转变。它要求把传统的公安战斗力牛.成模式转变到依靠科学技术特别是以信息技术为核心的高新技术上来。在这一转变过程中,大数据将成为公安战斗力生成的核心要素。拥有对海量数据占有、控制、分析、处理的主导权,将大数据优势转化为公安决策优势,继而转化为治安优势,将成为“公安大数据分析系统”的制胜关键。第四,构建“智公安”有利于拓展现代警务功能、促进警务机制改革和提升警务管理精细化水平.一方面,“智慧公安”的建设和实施将促进公安机关由传统的一元化管理职能向管理与服务功能并重、融合转化。另一方面,“智慈公安”的建设和应用符改变传统的“金字塔”型公安管理体制,实现警务领导与指挥机制的扁平化,从而减少中间管理层,加快信息流动,达到精减机构、快速反应、即时联动的F1.的。同时,构建“智道公安”还有助于提高公安机关警芳管理的精细化和科学化水平,提升公安机关的执法水平和服务水平.1.3 建设目标公安部推行的“扁平化指挥模式”,就是最大限度地压缩指挥层级。减少中间环节,优化现有的情报信息管理,建立情报信息主打警务的相关机制,着力拉近指挥与实战,机关与一线的时空距离,缩短响应时间,提高快速反应能力。基于数据中心融合空间采集、电信运营商、交管部门、公安部门、社会公众的移动位置等数据形成大数据环境,建立大数据分析平台,支持警情处理、宏观决策、情报分析等大数据专题应用。智慈公安大数据分析系统项H一期建设主要F1.标为: 建立智慧、高效的情报研判体系: 建立扁平、快速的指挥调度体系 建立打防一体化警务管理体系 建立集约化的信息技术支撑体系. 建立专业化的警务指挥作战队伍. .4编制依据0国务院关于加快推进“互联网+政务服务”工作的指导意见(国发(2016)55号)国家信息化发展战略纲要(2016年)中共中央办公厅、国务院办公厅关于转发国家信息化领导小组关于我国电了政务建设指导意见的通知(中办发200217号文件)中共中央办公厅、国务院办公厅转发国家信息化领导小组关于加强信息安全保障工作的意见的通知(中办发200327号)6国家信息化领导小组关于推进国家电子政务网络建设的意见(中办发2006)18号)2012年12月全国人民代表大会常务委员会关于加强网络信息保护的决定G促进大数据发展行动纲要(国发(2015)50号印发)G关于加快推进网络与信息安全信息通报机制建设的通知(公信安(2015)21号)国家电子政务总体框架3(国信2O62号)£电子政务标准化指南E政务信息标准化指南K信息安全技术网络基础安全技术要求GB/T20270-2006G信息安全技术信息系统安全通用技术要求GB/T20271-2006G信息安全技术信息安全事件分级分类指南3GB/Z20986-2007G信息安全技术信息安全事件管理指谢3GB/Z20985-2007G信息安全技术信息系统安全工程管理要求3GB/T20282-2006G国家电子政务外网安全标准汇编3C计算机软件产品开发文件编制指南(GB/T8S67-1988)计算机软件需求说明编制指南(GB/T9385-2008)£计算机软件测试文件编制规范(GB/T9386-2008)6计算机软件配置管理计划规范(GBT12505-1990)£计算机软件开发规范(GB8566-1988)G信息技术系统间远程通信和信息交换局域网和城域网特定要求(GBZT15629-2003)信息技术互联国际标准(ISO/IEC1180195)£云计克标准研究报告G云安全关键领域技术指南£计算乩系统安全保护等级划分准则(GB178S9-1999)6计算机信息系统安全等级保护管理要求(GA/T391-2002)第2章项目建设单位概况2015年以来,国务院先后出台“互联网+”行动计划、大数据发展行动纲要等政策文件,在全国大力推行“互联网+政务服务”,实现部门间数据共享。面对大数据迅猛发展、引领变革的时代,市委、市政府顺势而为,乘势而上,制定出台关于加快推进“:维数字”及信息化发展改革方案,成立了以市委主要领导为组长的信息化建设管理工作协调推进领导小组,总体安排部署全市大数据工作,在全国率先成立了市政府直属的大数据社会服务管理局。公安系统信息化办公室作为信息化的管理部门,不论从理论、实践及惯例都应承担全市信息方面的IR要工作职责和任务,一并承担统筹大数据平台建设、应用,全市资源整合与共享工作等。第3章需求分析3.1功能及性能需求1 .功能希求作为公安信息化发展到高级阶段的一种警务形态,“智慈公安”主要采用大数据、云计算、等新一代信息技术,聘公安工作IT基础设施与物理设施、人际环境等高度触介,以提供智能化公安决策与服务。其建设目标是充分利用科技创新,以“智祗”引领警务改革与发展,打造公安行政高效、警务指挥扁平、治安管控联动、公安服务便捷的良性公安工作机制。“智慧公安”建设是一项涉及公安机关内外各领域、各部门的品杂系统工程,需要从整体上进行统一规划协调,做好顶U设计。2 .性能需求 软件系统必须保证质量,并在实施前经过完全测试: 系统应具备自动报警功能,以提醒系统管理员避免出现系统崩溃等严重事件: 主服务器宕机时,可实时地切换到备用服务版匕用户的应用应该不受影响: 主备切换时,业务不感知,任务不失败,业务不会中断: 主备切换时间小于1秒: 故障节点重启时间小于2分钟: 系统不得出现数据丢失、切换失败等,影响正常业务运行的故障: 服务器端系统应可长期稳定运行,必须支持负载均衡能力,确保无单点故障: 不会因长期使用或负载过高导致系统故障。系统应具有良好的并行处理机制,对存取冲突的竞争具有有效的仲裁和加锁机制,充分保证事务处理的完整性,并降低系统1/0开销,提高并发用户查询和存取的性能。平台提供自底层硬件到上层处理流程的全面监控体系,帮助运维人员快速定位问题解决问题,使系统持续健康稳定的运行。3.2 系统集成需求软件平台具备集成内外各种运行系统的基本能力.软件平台集成性包括以下几个方面:软件平台具备对不同厂家提供的各类软件产品接入、运营、监控能力:软件平台提供独立的集成平台来提供各种集成手段实现和移动现有业务支掾系统和能力系统的集成,以及对今后有可能存在的各类业务平台进行业务引入的接口能力等。集成手段包括实时调用、批量数据交换等方式,集成接口兼容凿EBSERVICE、FTP、XM1.等方式,可以提供服务的封装能力。集成平台能力包括以下方面: 数据路由:能够对经由应用集成平台的数据进行检查和过滤,根据预定义的规则实现基丁主题或数据内容的动态路由机制,应支持点对点、广播以及发布/订阅方式: 协议转换:具有系统间传输/调用协议转换的能力,这些协议包括但不限于JMS.FTP、CORBA.Socket、HTTP等: 格式转换:具有不同数据格式转换的能力,能够对来自不同应用系统的数据进行识别和解析,能筋以图形化方式定制不同的数据转换逻辑,实现数据格式的转换和数据内容的整理: 消息映射:将来自于源系统的消息结构或业务数据对象映射为目标系统的消息结构或业务数据对象; 事件处理:支持事件驱动的架构技术,支持对系统之间信息交换事件的获取、处理和监控; 集成监控:提供对接入访问、数据传输和集成服务等各种集成处理能力的监控功能,可根据各种日志包询并监控应用集成组件的运行情况。 数据传输:实现各种应用之间的数据交换,数据交换支持基于消息队列和文件传输等模式。集成平台要能保证应用时间数据传输的可帮性,支持交易的完照性,支持数据传输的并行处理,并且支持管理人员对数据传输的过程进行监控和干预, 数据访问:支持但不限于JDBC、ODBC等多种数据库接入模式。3.3 数据来源运营商数据(移动、联通、电信)包含基站资源数据、经分数据、信令数据、上网行为数据、位置信息数据等。交管部门数据:包含铁路部门票务数据包含购票信息、车次出发到站时间数据:民航部门票务数据包含购票信息、航班起始到达时间数据;客运中心票务数据,高速路口收费信息等。公安内部数据:通过接口实现与网综平台、警踪平台、PGIS平台、情报综合平台、治安防控平台、三台合一接处警系统、监所系统、出入境系统、卡口数据库、视频数据库以及其他相关警种部门业务系统的数据汇集。社会外部单位的业务系统数据:如民航铁路订票系统、酒店旅店住宿系统、公路客运系统、工商税务系统、民政司法系统、社交媒体系统、电商系统、教育宗教等系统的外部数据。3.4 运行环境智慈公安大数据分析系统眼务平台需要接收来自公安系统各部门的数据资源,各权属堆位向系统共享、交换业务数据,系统需要提供相应的汇交、接收工具,以及导入、导出工具,业务数据的查询、统计等功能,并可以时外发布.3.5 安全需求智趣公安大数据分析系统,根据2000年1月1日起实施的计免机信息系统国际联网保密管理规定第二章第六条规定:“涉及国家秘密的计算机信息系统,不得直接或间接地与国际互联网或其它公共信息网络连接,必须实行物理隔离”。根据中央办公厅、国务院办公厅转发的国家信息化领导小组关于加强信息安全保障工作的意见(中办发(2003)27号)指出:我国当前对信息系统实施等级化保护和管理的制度即“等级保护制度”,以及信息安全等级保护管理办法(公通字200743号文件)的相关规定和要求,系统安全建设须满足以下要求:1 .物理安全要求物理安全耍求包括但不限F:物理位置的选择、物理访问控制、供电安全保障、防火防潮等。2 .网络及设备安全要求网络安全要求包括但不限于:系统部署所在的网络结构安全、设备入侵防范、设备防护、安全审计等。3 .数据安全性要求包括数据存储的安全性、数据传输的安全性、数据传输的完整性、数据传输的正确性、数据传输的及时性、数据备份及恢狂机制、异常处理机制等。4 .系统安全要求包括数据资源及应用模块的等级访问控制、身份鉴别(不限于数字证书应用)及不可抵赖性、安全审计、系统的容错性等。5,应用安全要求(1)以CA认证系统为基础,实现用户与服务资源的双向认证机制:(2)以基于角色的授权原则,建立与政务信息资源共享平台业务、平台管理人足、部门管理人员微位职责相对应的权限管理机制及统一的安全登陆机制:(3)以密码技术为基础的数据完整与保密机制:(4)对安全事件进行审计机制以及根据政务信息资源共享平台不同的业务、数据应用需求而采用标准的安全协议:(5)对应用进行严格的监控,实时掌握个应用系统资源的消耗、运行的状况,保障服务的连续性和可用性.6 .制度安全7包括项目管理制度、系统巡检及维护制度、数据符份制度、各类紧急应急措施:明确该项目基于该制度卜的职货分工。8,具有丰富安全特性的交换机构或数据中心网络的第一重保护:9 .具有高性能检测引擎的IPS对网络报文深度检测,构成数据中心网络第二地保护;10 .凭借高性能硬件防火墙构成的数据中心网络边界,对数据中心网络做第三重保护。第4章总体设计4.1 总体设计原则遵循相应标准,系统的设计应符合国家、省及有关信息化建设的政策法规、规范和标准,并考虑与正在制定或即聘出台的相关政策法规、规范和标准的衔接。技术先进性:平台作为一个大投资、复杂度高、周期长的网络数据应用系统,必须在开发初期考虑到技术的延展性。作为应用系统建设的首要要求,就是应当保证系统在未来的几年中在软件基础结构和应用形态方面的技术先进性。安全性和可案性:运用先进的访问控制、身份认证等技术防止非法用户入侵:保证系统在异常情况下的正确可拈运行。数据的完整性和一致性:数据在全网各个庖用系统中的采集、存储、传输和处理应当保持完整和一致.易扩展性:所有的产品均考电到应用及系统不断扩展的要求,以形成一个易丁管理、可持续发展的体系结构。未来业务的犷展只须在现有机制、标准的基础上,增加新的应用与服务模块.易用性I用户界面规范统一直观,易于用户掌握;提供方便的软件配置、管理和分发手段,门户网站系统作为信息系统统一架构体系,要求具备保持基本功能统一的前提下,能灵活开发扩展功能,采用统一的接口技术和接口规范.互愫作能力:在不同层次的各个应用系统之间的数据应能充分共享,并通过技术手段实现应用程序之间的互操作。规范性:规范性包括业务规范、开发规范、术语规范和数据规范等方面。可维护性及可扩展性:应用系统要便于维护,并可实现跨平台运行,同时应留有与未来工程的软件接口,确保系统能够扩展、升级。实用性,提供方便的软件工具,便于系统的配置、管理和维护,门户网站系统将针对不同类型的信息访问者提供不同的信息展现内容,使用户根据自身对信息的访问要求,迅速获取相关的信息内容,从而充分发挥门户系统的渠道、桥梁作用。信息兼容性强:系统的建设支持对现有数据库数据的实时抽取,自动转化成统一的XM1.格式并且集成后的数据由本平台统一管理、联合查询、综合分析。另外,对于查询基础业务系统内数据的请求,要能蟾实时的对多个不同的数据库进行联合查询,还包括了对文档,影音文件等内容,因此要求本系统的建设必须能够对非结构化的数据统管理、联合查询。4.2 总体目标基于先进的云服务体系,建立统一的警务大数据平台和数据中心,利用大数据、空间数据采集等技术,通过整合警务指挥体系及电信运营商、交通部门、大数据中心信息挖掘,实现信息最大共享的旗础上,构建警务指挥核心智慧应用方案。4.3 系统总体结构和逻辑结构4.3.1 系统总体结构本项目系统总体架构,是在统一的基础设施支探卜.,依据智念公安大数据中心建设目标,建立统一的大数据资源中心,构建自主可控的统一信息安全保障体系。在统一的技术标准和业务规范支撵K建立数据采集、数据清洗、质量管理、信息安全服务和资源统一调度等系统,并通过内、外网服务支撑其他智慈应用,建设覆蛊全区的公共数据粽合服务体系。平台架构如卜图所示:图4-1智慧公安警务大数据分析系统总体架构示意图IaaS层:利用虚拟化技术将计算、存储和网络等基础硬件资源,以逻辑方式形成基础资源池层,再将资源池提供的虚拟机、虚拟存信或虚拟端口组等经过二次封装与组合、调度使用,形成一个个面向组织用户的虚拟服务器、虚拟桌面或者云存储系统,通过这样的形式为系统的各业务单位提供资源服务:同时提供物理资源和虚拟资源的统一.PaaS层,在IaaS乂基础上,提供开放式公安基础大数据处理平台整合公安内部数据和运营商数据,提供分布式数据库来解决海量结构化数据的管理和数据交互,提供标准SQ1.接口、JDBC技术,能够与前台应用进行无缝对接:同时提供海量流式计算处理CStorm,能终实时处理大规模并发任务的负载均衡和任务分发,做到所有任务实时分发处理,不堆积,做到而度可靠性,任何任务处理过程中不会丢失,保障所有任务都能够处理完。SaaS层:平台能够支探所有电信运营商、公安警务系统数据运行,所有业务数据统管理,根据权限做到绝对安全访问,基于数据中心利用大数据、空间数据采集等技术,通过整合公安部门、电信运营商等多部门采集的移动位置.、舆情信息等,建立宏观决策、警情分析、警务调度管理等分析模型,为警务及公共安全管理提供大数据专题分析及应用。4.3.2系统迎辑结构Ebservice(i翔SQ1.砥S防析O1.AP内白检家鬣地分析人龄识别人际关系.行为分析通话记录.住宿.、交通统计报袤短信.EmaiIAS过滤等其他信息/图4-2公安大数据库嵬辑架构图MPP架构的新型数据库集群,一点面向行业大数据,采用SharedNOthing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PCSerVer,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。4.4 标准规范建设内容1、下列规范性引用文件中的条款通过引用而成为本规范的条款:(1)电子信息系统机房设计规范3GB50174-2008;(2)综合布线系统工程设计规范GB50311-2007;(3)公用计算机Ef.联网工程设计规范YD/T5037-2005:(4) 通信局(站)电源系统总技术要求YD/T1051-2000:(5) 4通信电源设备安装工程设计规范YD/T50402005;(6)电信专用房屋设计规葩YD/T5003-2005;(7)4建筑物电子信息系统防雷技术规范GB50343-2004;(8)&通信局(站)节能设计规范3YD5184-2009;(9)电信设备安装抗震设计规范YD5059-2005;(10)互联网数据中心(IDC)工程设计规范YD5193-2014;(11)互联网数据中心(IDC)工程验收规范YD5194-2014:(12)互联网数据中心技术及分级分类标准YD/T2441-2013;(13)£电信互联网数据中心(IDC)总体技术要求YD/T2512-2013:(14)中国移动通信桀团编制的£通信机房配套标准化建设指导意见:上述规范所引用的国家现行标准应是该被引用标准的最新版本,这些标准玳编或修改后,应自动改用相应的新版标准。2、综合布线系统的工程改计,除应符合本规范外,尚应符合国家现行的相关强制性标准的规定和甘南移动机房相关规范。3、工程技术文件、承包合同文件要求采用国际标准时,应按要求采用适用的国际标准,但不应低于本规范的规定。4、工程设计时,应根据工程项目的性质、功能、环境条件和近、远用户要求、进行综合布线系统设施和管线的设计。工程设计施工必须保证综合布线系统的质量和安全,考虑施工和维护方便,做到技术先进,经济合理。5、工程设计中必须选用符合国家有关技术标准的定型产品。未经国家认可的产品质量监督检验机构鉴定合格的设备及主要材料,不得在工程中使用。第5章详细设计方案5.1 信息资源规划和数据库设计5.1.1 数据模型概述公安大数据模型是采用一种与技术实现无关的方式,对系统内的业务信息,以及各类信息之间关联关系的数据描述。数据模型是数据仓库建设的基础,是建设数据仓库必不可少的一个环节。一个统一、完整、灵活、稳定的数据模型对数据仓库项目的成功起着重要作用,并I1.至少满足以下几点: 统沟通口径数据模型形成对业务定义和术语的统认识,是各部门之间沟通的桥梁,使不同部门、单位的业务人员、应用开发人H和系统管理人员时系统的理解达成一致; 数据整合与管控数据模型是整合多种数据源的重要手段。数据模型为灾杂的数据仓库系统实施提供规范和基础结构,建立起各个业务系统与数据仓库之间的映射关系,实现源数据的有效整合和集中管控: 增强分析能力通过数据建模,可以更全面抽象数据的维度和指标关联信息,全面反映数据本历,使数据反映的业务更加清晰,最大化数据价值: 促进数据标准化通过数据模型的建立,排除数据描述的不一致性。如:同名界义、同物异名等等,更有利于从完整性、及时性、致性等方面对数据质显进行管控。 提升扩展性系统设计应该考虑到系统后续的应用扩展,系统整合,增加接口系统等扩展性,数据建模可以为后续系统在接口层面和应用层面的扩展提供基础;因此,通过构建性能管理系统的统一数据模型,能统一和标准化系统的数据,实现数据一致性,最大化数据价值,辅助提升数据质量,增强系统数据应用能力和系统扩展性。5.1.2数据建模方法论公安数据仓库建模方法从方向和驱动力来分,可以分为“臼顶向下、逐步求精”以及“自底向上、综合集成”两种.图5-1数据仓库建模方法自顶而下的建模方法根据业务需求和业务问题来明确系统边界,划分主题域,再进行逐步细化,建立反映企业业务规则和业务关系的实体和实体关系。在业务需求明确的时候,该方法可以提高分析效率:白底向上的建模方法需要整合各业务系统的源数据,先抽象业务规则,划分主题域,再进行逐步细化,建立反映企业业务规则和业务关系的实体和实体关系。这种方法更关注搭建企业数据框架,建立完整的企业信息视图:在实际系统数据建模过程中通常采用这两种方法相结合,综合运用.5.1. 3数据建模基本原则 标准化、规范化原则数据模型应遵从统一的主题域划分和实体命名规则,保证模里的标准化和规范化: 先进性原则要求逻辑模型在设计上吸收业界、国内外优秀的建模经脸与方法,确保模型的先进性: 一致性原则数据模型的设计要能够询保数据的一致性,消除各数据源的数据不一致性,以保证数据模型内的信息是关于整个企业一致的全局信息: 扩展性原则要求数据模型具备乩好的可扩展性,支持对模型的迭代性演进.当业务需求提出新问题或有新的数据加入模型时,要求数据模型能够确保现有的数据和应用都不发生改变,史不得导致系统崩溃: 自上而下的设计与自下而上的验证原则数据模型是为业务分析服务的,所以在创建模型时,应以业务需求为驱动。根据业务需求采用自上而下的方法设计并实现数据模型,并且采取迭代演进的模式,逐步丰富数据模型,逐步求精。同时,为了验证设计与实现的合理性与正确性,要求以实际数据对模型进行自下而上的脸证: 简单可识别原则实体命名等耍遵循简洁、能直接识别出业务意义的原则. .1.4数据库架构设计本工程采用主流成熟的开发框架和产品组件进行开发,采用多层体系结构来构建符合标准与管理规范体系、安全与运行保障体系的尚可用性系统。综上,本项H开发的整体技术架构如下:Baa发布/”由I松素物第修统计湖第修5、数据服务历史二公安内SMJ1.St三MMMie情做欢U大情报败退IQ星强史政务蚊樵ta行数次互联网数Ia.匚“数据佗三2、数据管控3.数据存储二_原始数搪:过相效携:珞果粒据数据沙盘(SandBox)图5-2智,公安警务大数据分析系统总体技术架构示意图D数据采集层,负货从公安系统内外部系统获取基础数据.包括公安系统内部数据、运营商数据、行业信息数据、互联网数据及手工导入数据,以及移动通信网络的信息数据。外部系统在向本系统输出基础数据之前,需要开发套程序完成原始的格式转换和数据处理。首先要屏蔽用户隐私信息,即用户号码信息全部剔除,输出时采用经过加密的用户数据。其次需要筛选出关键字段,每条记录都是原始数据的几I个字段抽取出几个关键字段,这样能大大减少数据存储量。2)数据管控层,通过数据标准、数据等级、数据安全、数据质量等标准化的规则管理和调度控制,建立各类数据稽核手段、数据质量分析体系,确保平台数据一致性、完抠性、合规性,实现信息共享和数据的高效流转。3)数据存储乂,负责对获取的结构化和非结构化数据进行处理,并准确匹配到上层定义好的各类计算模型。数据管桎层采用了基于开源的Hadoop分布式架构,将传统ET1.的数据提取、数据清洗、数据转化、数据校验工作承载在智越公安大数据云计算平台上,大大降低了大数据的处理成本,提升海量数据处理的及时性。4)数据挖掘层,主要对数据进行建模和分析.模型的主要类型行: 关联分析:是在关系数据中,发现存在于项目集或对象集之间的关联规则,包括关联、相关性、因果结构或频繁出现的模式。常用的关联分析算法有Apriori算法及它的各种改进或扩展算法。 分类分析:分类是实现定义好类别,属于有指导学习范畸。分类分析是根据数据的特征为每个类建立一个模型,根据数据的属性将数据分配到不同的组中。常用分类算法有决策树、神经网络、贝叶斯分类等。 聚类分析:是按照某种相近程度度量方法将数据分成比不相同的一些分组,实现每一聚类内部的相似性很高、各聚类之间的相似性很低.常用的聚类.算怯有K均值、最近邻、神经网络等。 预测模型分析:是从数据库或数据仓库中已知的数据推测位置的数据或对象架中某些属性的值分布建立预测模型的常用方法包括回归分析、线型模型、支持矢量集、决策树预测、遗传算法、随机森林算法等。文本挖掘:文本是无结构或半结构化的数据.文本挖掘是从文本数据中推导出模式,其过程是通过文本分析、特征提取、模式分析的过程来实现“主要技术包括文本结构分析、文本特征提取、文本检索、文本自动分类/聚类、文档自动摘要、话题检测与追踪、文本过灌、文本情感分析等。数据服务层,采用模块化独立封装技术与标潴化应用接口,功能强大且扩展性强,提供数据发布/订阅服务、检索、统计、分析类服务集,并可通过定制服务集平滑扩展其他服务。5.2数据应用支撑系统设计5.2.1 大数据平台关键技术(1)云平台流式计算技术Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库.这是管理队列及工作者集群的另一种方式.StOnn也可被用于“连续计算"(ConIinUoUScomputation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC'',以并行的方式运行昂选的运算。StOrm可以方便地在个计算机集群中编写与扩展史杂的实时计算,Stonn用于实时处理,就好比HadOoP用于批处理.Storm保证每个消息都会得到处理,而且它很快在一个小集群中,每秒可以处理数以百万计的消息。更棒的是你可以使用任意编程语言来做开发。Storm有许多应用领域,包括实时分析、在线机器学习、信息流处理(例如,可以使用StOrIn处理新的数据和快速更新数据库)、连续性的计算(例如,使用Stonn连续查询,然后将结果返回给客户端,如将微博上的热门话题转发给用户)、分布苴RPC(远过程调用协议,通过网络从远程计算机程序上请求服务)、ET1.(ExtractionTransformation1.oading,数据抽取、转换和加载)等。CStOnn集群由一个主节点和多个工作节点组成。主节点运行了一个名为rtCnimbus''的守护进程,用于故障检测。每个工作节点都运行一个名为“csupcrvisor”的守护进程,用于监听工作,开始、并终止工作进程。同时,esupervisor监听分配给它的机器,根据cnimbus的委派,在必要时启动和关闭工作进程。每个工作进程执行topo1.ogy的个子集。个运行中的top。Iogy由很多运行在很多机器上的工作进程组成。cnimbus和CSUPerViSor都能快速失败,而且是无状态的,这样一来它们就变得十分健壮,两者的协谢工作是由APaCheZo。KeePer来完成的。SupervisorWorfcefWofWWOd(OrWorkerSupervisorWorkerWorkerWorfcerWorkerSupervisorWorfcerWorkerWorfcerWorker图5-3部署方式CStonn可保证一个SPOU1.发射出的每个元组都会处理:如果它在超时时间内没有处理,cstorm会从该Spout重放该元组。消息潦是CSUmn里面的最关键的抽象对象。一个消息流是一个没有边界的IUPIe(元组)序列,而这