食品药品监管平台投资信息化项目建议书.docx
目录一、项目的背景和必要性31.1. 项目建设背景31.2. 食品药品监管服务工作存在的问题和差距31.3. 项目建设的必要性41.4. 项目建设的可行性41.5. 项目建设依据4二、项目建设的目标5三、项目的主要内容53.1食品药品监管系统硬件采购53.2应用软件的开发和使用63. 3系统功能介绍83. 3.1企业主体库84. 3.2食药许可信息管理85. 3.3网络主体库96. 3.4网络商品库97. 3.5投诉监管118. 3.6网络抽检119. 3.7网络监测1310. 3.8案源管理1311. 3.9任务管理1312. 3.10系统公告1413. 3.11风险分析1414. 3.12监管APP1715. 3.13标签管理1816. 3.14统计分析1917. 3.15系统设置2018. 3.16监管数据抓取2219. 3.17数据对接23四、项目的技术基础、特点及实施的条件2319.1 目技术特点2319.1.1 品药品监管系统244. 2项目实施条件344. 2.1网络需求34五、效益分析34、项目的背景和必要性1.1. 项目建设背景当前我国食品药品安全问题层出不穷,仅以今年315为例,围绕互联网外卖平台的种种黑幕屡屡被媒体曝光,比如销售过期食品、假冒伪劣药品、商家营业证件不全等等,引起了强烈的社会反响,相关部门也展开了一系列整治行动。食品药品网络交易是运用互联网信息技术产生的新型交易活动和方式,互联网的虚拟性特点,给食品药品稽查管理部门的监管工作增加了难度,因此,要监管食品药品这一新领域必须抓住互联网信息技术这个环节,以互联网信息技术为依托和手段,建立技术功能相对齐全,上下互通,部门互联、资源共享的网络监管信息系统和平台,实现“以网管网”的互联网信息化监管,为促进服务网络经济发展,维护经营者和消费者的合法权益,规范网络市场秩序的打下牢固坚实的基础。1.2. 食品药品监管服务工作存在的问题和差距近年来,食品药品稽查大队虽然加大政务管理信息的信息化建设。但在食品药品网络交易监管信息化建设上,始终是空白,造成对食品药品网络交易各大平台内商家的监管无法实现,随之而来的商家投诉、网购消费纠纷解决以及网购产业发展均无从谈起。可监管工作现状又倒逼我们必须开展上述工作,来解决食品药品网络交易中存在的问题。经过前期的调研、论证,食品药品网络交易监管工作主要在以下方面存在问题和差距:未建立全市统一的食品药品监管系统,缺乏“以网管网”的必要手段,造成监管对象家底数不清。目前,没有一家经济管理部门能够准确统计出食品药品网络交易经营户数、经济规模及税收等情况,尤其是在全国各大第三方交易平台采取严格保密措施保护平台商铺信息的情况下,难以获取这些交易平台上商家的信息,给监管工作带来了极大的难度,致使成千上万的有问题的商家游离在有效监管之外,造成违法行为较多,同时也无法了解和统计出他们的经济情况,更无法为食品药品监管发展规划和政策的出台提供权威科学的数据依据。1.3. 项目建设的必要性食品药品监管系统的建设,将有利于加快推进网络监管工作的步伐,实现“以网络信息技术为依托和手段,以网管网,努力实现网络信息化监管”的工作目标,更好地促进网络市场健康发展。1.4. 项目建设的可行性我局在食品药品监管的建设处于空白状态,通过本项目建设,建立起能满足监管服务工作需求的食品药品监管平台,提升食品药品网络交易的监管和服务能力,遏制食品药品交易的违法行为,营造公平竞争的网络市场环境,维护网络经营者和消费者合法权益,促进本地区网络交易的健康、快速、有序发展。为此,我局在借鉴国内其他类似地区监管系统信息化建设成功经验的基础上,结合本地区食品药品交易监管的实际,按照拟建项目编制、审查的法定程序和要求,经过长时间的调研、论证,认为拟建项目可行。1.5. 项目建设依据食药总局网络食品安全违法行为查出办法(2016年第27号令)国家总局关于整治药品流通领域违法经营行为的公告(2016年第94号令)食品药品稽查执法工作规则的通知二、项目建设的目标本项目旨在开发一套食品药品监管服务系统,食品药品稽查部门对食品药品监管各项工作进行统一管理,建立食品药品监管信息数据库,实现对网络经营主体、客体的搜索、维护、统计、监管等一系列工作,建立有效机制实现协同工作,提高食品药品稽查部门食品药品监管效率。三、项目的主要内容3.1食品药品监管系统硬件采购食品药品监管系统同时具有对内(政务网)提供稽查管理业务,对外(互联网)抓取目标平台数据两方面的职能。为保证内外网安全通信,采取了一些硬件防护手段进行安全防护,保证系统的整体安全性。由于本食品药品监管平台,所有需要监测的网络交易信息数据量,将在千万级的。为了应对如此多的数据量,达到必要的监管力度,就需要使用与该大数据量相匹配的硬件设备。系统将采用7台服务器作为数据存储、分析服务器及WEB服务器。3. 2应用软件的开发和使用结果展ZJX数据呈现分布式爬空分布式爬虫大数据存储食品药品监管系统架构食品药品监管系统,需要包含数据抓取、数据分析、数据存储和数据展示这四大功能。下面将按照这几大功能,分别进行阐述。分布式数据抓取系统系统采用分布式数据抓取技术,可以对淘宝、京东、百度外卖、饿了么、美团、百度糯米平台的数据进行动态抓取。针对各网络交易平台的保护特性,进行真实拟人化的数据抓取。能够完成大量复杂数据的抓取工作。该系统需要实现:1 .智能的抓取、更新和显示网络交易平台上的商家主体信息;2 .智能的抓取、更新和显示网络交易平台上的商品信息;3 .对于交易平台的主体商家和商品进行分类归并存储,节省存储空间;4 .可以针对指定商家主体或者商品的信息进行抓取,用于监管和查证;分布式存储与备份系统面对抓取的大量网络交易数据,我们需要采用分布式存储技术,以便保证数据库在大数据量下的可靠性、可用性和存储效率。另外,对于数据抓取过程中所采集的网页信息,需采用索引数据库的存储方式进行存储,即由索引器对收集来的网页进行分析,提取相关网页信息,根据权值算法得到每一个关键字的权值索引信息,然后根据这些索引信息建立数据库,提高数据抓取系统的抓取效率,避免重复抓取。该系统需要实现:1 .分布式数据库设计,具有大量数据(千万级)存取能力;2 .实现数据安全备份功能;数据分析与数据挖掘系统面对大量的网络交易平台数据,如果只是进行简单的统计分析,显然是不够的。所以本系统将会利用数据挖掘技术,对所抓取的数据进行处理,呈现出隐藏在数据内部的有用信息。该系统需要实现:1.可以针对商家主体和(或)商品信息提供详尽的分类统计和各类销售状况报表显示功能;2 .可以对商家的交易量、交易价格等信息进行有效挖掘;3 .动态页面数据展示部分由于平台所涉及到的网络主体有这数量大,内容复杂,形式多样等特点。为了能够直观的方便的对数据进行展示、分析,系统前端页面的实现应采用动态页面展示技术,使得数据的展示能够采用复杂多变的动态图表、详尽智能的统计分析表格、简单易用的操作模式、实时更新的网络交易数据。4 .实现系统用户管理功能。可以增加、删除用户账户或者修改账户使用权限。系统管理员可以修改用户组权限。方便系统管理员对整个监管平台的管理和操作。5 .业务处理能力,初期基本实现网络主体库、网络商品库、投诉监管、抽检等业务功能,彻底摆脱现有全手工化传统模式。6 .3系统功能介绍3.3.1 企业主体库管理经营者的基本注册信息,实现经营者注册信息的多重条件组合查询。针对经营者的营业范围,对该经营者进行监管,发现经营者是否存在超出经营者经营范围的网站或者网店信息、。企业主体库数据定期从工商局拷贝过来,更新系统内数据。主要功能包括:1、 企业主体信息的检索、详情查看。2、 企业主体库关联网店、网站信息库。可以查看企业相关网店、网站信息。3、 企业信息的导入导出功能。3.3.2 食药许可信息管理对接食品药品生产经营许可证信息系统,将系统数据纳入食品药品监管平台进行数据分析、比对,发现无许可证销售的网店、网站、企业信息。主要功能如下:1、对接食品药品生产经营许可证信息,将数据纳入系统进行管理。2、可以检索食药许可信息。3、系统数据比对,发现无食品药品销售许可证信息的主体。3.3.3 网络主体库网络主体库主要是针对饿了么、美团外卖、百度外卖上存在的商家信息进行统一管理,方便用户能够直观的网上开设的网络主体进行快速检索,快速筛选,得到用户关注的主体信息。主要包括如下功能:2.查询商家的详细信息,包括商家店名,商家地址,出售商品数量,创建时间,0ff度,服务电话i.列取所有商家名称、店铺地址相关信息5.商家分类统计4统计商家商品销量信息7.工商注WS息(需协调对接Ik业注册信息库)3.3.4 网络商品库管理各个平台网络商品信息,可以针对商品信息进行查看、检索、同时可以查看某个网店所有商品信息,可以针对商品进行相关统计分析,具体功能如下:列取所有在售商品的详细信3.3.5 投诉监管对投诉进行管理,并且对投诉处理结果进行展示,为在投诉处理过程中,提供相关投诉处理的数据支撑。同时,投诉以及投诉处理结果的数据保存在系统中,为后期建立经营者信用评价体系,以及信用惩戒,提供有力的数据支撑。(1)投诉信息录入:此模块的功能是管理新增投诉信息。提供手动新增投诉信息和按Excel文件批量导入投诉信息。(2)未处理投诉信息:此模块提供按条件查询未处理投诉信息,当投诉信息被处理时,可以添加该投诉信息的处理结果。(3)已处理投诉信息:此模块的功能是管理已处理投诉信息,提供按报表类型导出Excel文件功能。(4)统计分析:针对投诉需要生成的相关报表,可以在线查看相关统计信息,同时可以导出到Excel中查看详细情况。3.3.6 网络抽检由于需要定期对网上店铺进行抽检,抽检信息具备查询、分类、分析和统计功能。网络抽检基本流程如下:主要功能如下:(1)待抽检商品信息录入:通过实地摸排、网络添加、重点抽检三种方式,实现抽检商品信息入库。(2)商品抽检结果信息录入:选取单个商品,实现商品抽检结果的录入,包含抽检过程中产生的图片和视频以及抽检的结果信息。(3)抽检结果信息详情:方便查看抽检结果信息以及在抽检过程中产生的图片和视频信息。对抽检合格的商品提供信息的管理。对抽检不合格的商品提供复检功能,复检申请书以图片的方式上传。(4)复检结果信息录入:当被抽检的经济户口对抽检的结果不满意时,可以提出复检。当复检完成时,复检结果信息可通过此模块入库,包含复检过程中产生的图片和视频信息。(5)复检结果信息详情:提供复检结果的查看功能。包含商品的基本信息、初检结果信息、复检申请书、复检结果信息。(6)重点抽检对象:在网络抽检过程中,食品药品稽查人员可以将存在严重情况的商品信息和网店信息添加到重点抽检库中,以便以后再次抽检该网店中的相关商品,并且可以对店铺网页进行截图保存。3.3.7 网络监测网络监测模块,主要为用户能够有目标、有针对性的对一批网店、网站信息进行监测。用户通过设置相关关键词、排除词,系统根据用户录入关键词的情况,进行自动化检索目标网店、网站信息。用户可以针对该关键词下的网店、网站信息进行针对性的监测,从而发现案源线索。3.3.8 案源管理在针对网店、网站进行巡查,以及在网店、网站的监测中,针对发现违规店铺,可以加入案源模块进行管理,为后期立案提供数据支持。查询:可以根据经营者名称,以及店铺名称等条件进行筛选,查看待成为案源信息的名单,以及标注的内容。导出:可以针对筛选结果进行导出,为后期立案或者行政指导提供数据支撑。维护:可以针对案源信息进行维护,已经立案或者已经进行指导的经营者可以在系统中进行标注,并且可以进行撤销操作。下发:可以针对不同辖区管理的企业发生的案源线索,食药监局可以针对案源信息进行下发到相应区县所进行处理。区县所处理的情况可以进行及时查看。3.3.9 任务管理食药监局可以针对区县所进行任务的下发,各个区县所可以针对相应任务进行处理,同时反馈处理结果,具体功能如下:1、 任务的新增、修改、删除。2、 任务的分发,可以指定任务的执行单位。3、 任务进度的查看,反馈结果信息的查看。3.3.10 系统公告用户可以在系统内发布相关工作公告,下级单位进入系统可以查看公告的内容,便于工作的通知以及下达,具体功能如下:1、 系统公告的新增、修改、查看。2、 系统公告信息的展示。3.3.11 风险分析风险分析主要包括以下内容:roomJa¼a/(0Ba)mM,6Etroooa>trbWIIBS(Wg)BLM£6E(roooi«>n*w3E三,C中中*)9*WMM68EiroociA>(93W)三HPTSY三W6*»Entw包meV£S0*(BdrY)u<»*BH-*SM>CRttLMVWtfiBI49BUH(和M*gEM4WtsTWN*WS«110u*ra*iw»WtSWftKDMVav¼2MM率WWMTfctlVMMOCIpgeI9.0SM(ft*Iir:n118.6s>BdME(4MK9>8.6Oa>xff(*xn9>-Fb*<8.6MQfiJK(VWS)'T三73ORa<M(王或大8)73*emm*s(ta)em7z.7.0OBK2(9*ms三)8.0O:tA三XA(AKS)em7z8.0。品Waml(铎Fe)em7z8.0产品期IRtO窖(怀宁WS)419个JoOftU9M(«WE)KSJO沙小吃(%>m)369OCWH(*W8GS)320个O乐ICfiK(9BS)305个KO1;东电眄(玉兰大医)Ml*OZWe2Mtfi(ws>243OBft4Mi(*nas)IMO1S2个UO-aw三(怀宁0三)LJO个X3.3.11.1 地址模糊、地址重复分析系统对所有店铺地址信息进行智能筛选分析,检索出地址不明确、模糊、重复的相关店铺,最终在系统界面清晰展示出来,有利于食药品监督工作的顺利开展。3.3.11.2 其他风险分析除了以上列出的风险之外还存在新上商家、发票服务风险、评价较低、月售环比异常、热门商品、电话号码风险等。新上商家风险:系统智能筛选出新注册的商家信息,对无证经营、无实名认证的商家进行分类,方便食品药品监察人员进行督促整改。发票服务风险:系统通过对商家评论智能筛选分析,判断商家是否存在发票问题。评价较低:系统通过对各店铺评价进行智能分析,筛选出差评较低的商家,帮助食品药品监察人员对评价较低的商家进行调查、督促整改。月售环比异常分析:系统通过对平台基本情况分析、平台交易情况分析、以及商家销量排名;通过同比和环比体现电商平台的发展趋势、行业的发展趋势。热门商品分析:系统通过商品销售数量,筛选出热门商品,通过商品评价、店铺信誉等对热门商品进行智能分析,判断热门商品是否存在虚假信息。电话号码风险分析:系统通过对各商家基本信息进行智能分析,筛选出无电话号码的店铺、电话号码重复的店铺,帮助食品药品监察人员对电话号码存在问题的商家进行调查、督促整改。3.3.12 监管APP根据对食品药品稽查大队的工作研究和调研,针对日常食药监管工作的需要我司研发出一款移动终端采集APP软件,食药监管人员可以携带我们的移动终端APP去各商家实体店进行摸排走访。支持自动定位地址(地址可以和系统地址进行比对发现虚假地址)。支持一键拍照上传,这样实现线上线下结合。同时可以快速写入备注(卫生状况不佳、没有营业资质等等之类)。同时可以在线进行相关系统相关业务操作。最终实现线上巡检、线下巡检相结合。使店铺落地。具体功能如下:线下采集功能支持自动定位地址(地址可以和系统地址进行比对发现虚假地址)。支持一键拍照上传,这样实现线上线下结合。同时可以快速写入备注(卫生状况不佳、没有营业资质等等之类)。数据查询企业、网店、商品等网络主体相关数据查询,可以为办公人员外出办公时,调取网监系统数据提供便利。消息推送相关紧急工作,通过APP进行通知,提醒工作人员及时完成工作。统计报表相关报表统计分析,方便工作人员实时掌握系统数据。3.3.13 标签管理多维标签库多维标签库标签继承标签快捷检索标签多维功能由于系统数据量较大,统一的管理不够严谨,容易出现纸漏。通过标签实现系统数据的分类可以很好的管理系统数据,保证每一个数据的准确率。标签还可以实现两种数据之间的关联,通过这种关联,可以及时且准确的找出用户所需要的数据。主要功能如下:1、 用户可以根据自己的想法设置标签,并通过将系统数据加入到此标签中,实现对系统数据的关联和分类。2、 用户可以利用标签进行快速搜索出包含改标签的店铺信息。3.3.14 统计分析统计分析主要包含对平台基本情况分析、平台交易情况分析、以及商家销量排名。实现数值统计和图表统计功能。通过同比和环比体现电商平台的发展趋势、行业的发展趋势。(I)分别统计各个平台的店铺和商品新增以及消亡情况,经过一定的数据沉淀,反映各个电商平台规模发展走向;(2)分别统计各个平台商品销售量以及销售额情况,经过一定的数据沉淀,反映各个电商平台经济发展发展走向;(3)商家销量排名统计,按照月粒度,按照商家销量进行排名。电商店铺数量变化趋势分析(单位:个)3.3.15 系统设置1.权限控制本系统采用的权限控制技术是以角色为基础的访问控制技术。根据登录用户的角色不同,给定不同模块的操作权限。以角色为基础的访问控制原理如下:以角色为基础的访问控制(Rc)Ie-basedaccesscontrol,RBAC),是资讯安全领域中,一种较新且广为使用的访问控制机制,其不同于强制访问控制以及自由选定访问控制直接赋予使用者权限,而是将权限赋予角色。是一套较强制访问控制以及自由选定访问控制更为中性且更具灵活性的访问控制技术。系统角色:为方便系统权限管理,确保数据使用的安全性,系统角色分为系统管理员和系统用户。系统管理员负责设置本级系统用户权限、创建下级单位和添加下一级系统管理员。系统用户权限根据实际工作业务设置,如A用户只需要查看系统数据,不涉及具体业务,那么只需给A用户设置查看权限;B用户只负责投诉业务,则将B用户权限限定在投诉模块,对其他模块数据具有查看、下载权限;C用户涉及多个业务,则根据实际业务需求开通系统功能使用权限。系统角色和组织结构的关系:系统采取角色管理模式,不同角色在系统中有不同的功能,所有角色均由系统管理员设置管理,在水平层级上系统管理员负责设置同级别的其他用户角色,在垂直层级上系统管理员负责设置下一级的系统管理员。系统管理的原则:(1) .系统管理便捷,层级分明(2) .系统权限分配合理,符合实际工作需要(3) .系统权限设置确保数据使用的安全性2 .数据采集管理数据采集管理模块是由操作人员添加系统中不存在的店铺信息,并设置优先等级,数据采集系统会根据这些信息采集相应的数据,添加到数据库中,实现店铺的管理。数据采集服务的状态监测可以看出各个数据采集系统的工作情况以及任务完成情况。主要功能如下:数据采集任务设定:针对系统中手动录入的经济户口地址信息,数据采集系统进行定向采集,将经济户口的详细信息采集到本系统中,同时,实时进行碰撞关联,将店铺信息和经营者信息关联在一起。数据采集任务状态监测:针对数据采集系统集群的采集的内容进行监测,实时查看数据采集系统当前工作状态信息。3 .基础设置通过基础设置模块,可以实现食品药品监管系统的基础信息设置。主要包含:(1)系统名称修改:可以修改食品药品监管系统的名称。(2)安全性验证:可以开启和关闭登录时是否验证IP;登录时是否启用验证码。3.3.16 监管数据抓取爬取百度外卖、饿了么、美团、百度糯米平台:分析百度外卖、饿了么、美团、百度糯米等的页面布局与内容,将百度外卖、饿了么、美团、百度糯米等商城上市辖区内的经济户口信息抓取到本地。爬取淘宝、天猫、京东、苏宁系统平台:分析淘宝、天猫、京东、苏宁系统中的食药品相关的页面布局与内容,将淘宝、京东等商城上市辖区内的经济户口信息抓取到本地。自建网站数据采集:依托企业注册信息数据库,系统自动采集企业相关的网站信息库。数据分类、清洗、分析:针对采集下来的数据进行归类、分析、清洗、并存储。3.3.17 数据对接对接企业注册信息数据:企业注册信息库,定期导入系统,进行和食品药品经营许可信息进行关联碰撞。对接食品药品经营许可信息库:对接食品药品经营许可信息,将食品药品经营许可信息导入数据库。进行和企业主体信息进行关联碰撞。四、项目的技术基础、特点及实施的条件4.1 项目技术特点该系统本着成熟性和先进性的要求,进行技术路线的选择。保证技术的可行性、可持续性和可拓展性,降低项目的风险。本项目为食品药品监管系统,技术路线选择将按照上述部分予以具体阐述。4.1.1 食品药品监管系统食品药品监管系统,主要负责对淘宝、京东、百度外卖、饿了么、美团、百度糯米平台上的网络交易主体信息进行存储、管理、分析和展示,其中的网络交易信息主要指提供网络商品交易的主体信息、日常人工网络巡查信息以及平台监管系统网络数据抓取的数据信息等。食品药品监管系统拟提供以下功能: 规范化自动化的业务工作流:通过系统提供规范化自动化的稽查管理业务相关工作流程,提高食品药品稽查大队的日常巡查监管效率,规范工作流程,减少办公成本,将减少重复劳动。 自动化数据监控:该监管系统还能够通过分布式数据抓取技术,对各大交易平台(本期项目重点针对淘宝、京东、百度外卖、饿了么、美团、百度糯米等平台)上的网络交易进行在线监控,对交易信息进行在线抓取。 智能统计分析:对所获得的数据进行统计分析,对大量的交易数据进行数据分析,进行风险预测和行业调研,提供准确的统计报表,为政策指定提供依据。 动态图形化内容展示:通过动态网页技术,对分析后的数据进行实时、直观的展示。根据上面的功能描述,食品药品监管平台将主要分为以下模块:数据管理模块、数据分析模块、网络交易数据抓取模块、动态数据展示模块,其中涉及到关键技术主要有分布式数据存储技术、数据挖掘技术、分布式数据抓取技术、动态数据展示技术。下面就这四项技术选择进行详细说明。分布式数据抓取技术鉴于当前互联网信息的爆炸性增长,以及本区域网络交易蓬勃发展的现状,采用普通的搜索数据爬虫,将无法满足食品药品稽查大队的监管需求。目前,即使大型的信息采集系统对Web的覆盖率也只有30-40%,刷新一遍采集页面也需要一个多月的时间。为此,我们可以采用分布式网络数据抓取技术。分布式网络数据抓取包含多个数据抓取程序,每个数据抓取程序需要完成的任务和单个的数据抓取程序类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续抓取。由于并行数据抓取程序需要分割下载任务,可能数据抓取程序会将自己抽取的URL发送给其他数据抓取程序。这些数据抓取程序可能分布在同一个局域网之中,或者分散在不同的地理位置。根据数据抓取程序的分散程度不同,可以把分布式数据抓取程序分成以下两大类:1 .基于局域网分布式网络数据抓取:这种分布式抓取器的所有数据抓取在同一个局域网里运行,通过高速的网络连接相互通信。这些数据抓取通过同一个网络去访问外部互联网,下载网页,所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高,数据抓取之间的通信的效率能够得到保证;但是网络出口的总带宽上限是固定的,数据抓取的数量会受到局域网出口带宽的限制。2 .基于广域网分布式网络数据抓取:当并行抓取器的数据抓取分别运行在不同地理位置(或网络位置),我们称这种并行抓取器为分布式抓取器。例如,分布式抓取器的数据抓取可能位于中国,日本,和美国,分别负责下载这三地的网页。分布式抓取器的优势在于可以子在一定程度上分散网络流量,减小网络出口的负载。如果数据抓取分布在不同的地理位置(或网络位置),需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。数据抓取之间的通讯带宽可能是有限的,通常需要通过互联网进行通信,这将会产生网络安全隐患。3 .分布式数据抓取技术是一项较为成熟的数据抓取技术,可以应对大量的数据需求。目前,google,百度等行业巨头也都使用了该项技术。鉴于拟建项目的实际需求和部门内部网络安全问题的考虑,建议采用局域网分布式数据抓取。4 .对于这种局域网分布式数据抓取,可以采用基于Hadoop的分布式系统架构,对其进行分布式搜索引擎的模块划分;并通过Map/Reduce分布式计算加以实现。Hadoop是一个分布式系统基础架构,由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFSoHDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。Map/Reduce是一种编程模式,可用于大规模数据集的并行运算(大于IT)OMap/Reduce来源于函数式编程的Map,Reduce概念,Map是映射,Reduce是规约。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。食品药品监管系统,通过上述方式实现的局域网分布式网络数据抓取,可以对重点网络交易平台和网站的定点监测;可以通过垂直搜索,采集我们所关心的数据;对数据进行整理和过滤;大大提高网络交易数据采集效率。该数据抓取技术还可以通过策略配置,来对数据抓取的各种业务逻辑行为进行定制,修改。可以灵活的增加减少分配数据抓取数据抓取的个数和每个数据数据抓取的任务量。分布式数据存储与备份技术海量网络交易数据的存储,分布式数据库无疑是最好的存储方式。分布式数据库系统是在集中式数据库系统的基础上发展起来的,是计算机技术和网络技术结合的产物。分布式数据库系统适合于单位分散的部门,允许各个部门将其常用的数据存储在本地,实施就地存放本地使用,从而提高响应速度,降低通信费用。基于网络基础上的分布式数据库系统经常对数据库进行数据分片。从数据意义上讲,数据分布的合理与否不仅影响着访问的局部性,而且也制约着数据查询及事务处理的效率。分布式存储用到的关键技术主要有切分数据库,负载均衡,集群,读写分离。切分数据库通常指的是水平切分,它通过一系列的切分规则将数据水平分布到不同的db或table中,再通过相应的db路由或者table路由规则找到需要查询的具体的db或table,以进行query操作。通过切分数据库可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失负载均衡的职责就是定位到一台具体的DB服务器,这种策略会分析当前sql的读写特性,如果是写操作或是要求实时性很强的操作,直接将查询负载分到Master,如果是读操作则通过负载策略分配到一个SIaVe。通过负载均衡策略,可以有效的降低单台机器的访问负载和宕机的可能性。集群是一组相互独立的、通过高速网络互联的计算机,构成了一个组,并以单一系统的模式加以管理。通过集群策略可以解决数据库宕机带来的单点数据库不能访问的问题。读写分离策略把写操作集中在一个节点上,而读操作集中在其他的N个节点上进行,这就从另一个方面有效的提高了读的效率,保证了系统的高可用性,最大限度了提高了应用中读取数据的速度和并发量。目前,谷歌、亚马逊、Facebook,微软和阿里巴巴等国际型大互联网公司都采用了大规模分布式存储系统。例如FaCebOOk的数据仓库Hadoop集群已成为世界上已知规模最大的Hadoop存储集群。已配置存储容量总共超过21PB,大于之前大名鼎鼎的雅虎集群(14PB)o在HadOOP的早期,FaCebOok就与另外几个互联网巨擘,充分利用这种框架来管理其不断发展的业务。由于每月活跃用户超过4亿个,页面浏览量超过5000亿人次,每个月共享的内容多达250亿则,对于自称能够处理大数据问题的任何技术而言,Facebook是再合适不过的应用环境。下面一些统计数字描述了Facebook的数据仓库Hadoop集群的几个特点:每天增加12TB的压缩数据;每天扫描800TB的压缩数据;每天处理25000个映射/化简作业;HDFS里面有6500万个文件;30000个客户机同时访问HDFSNameNde。食品药品监管系统每天在网络交易平台上,抓取的数据经分析处理后也会达到千万级甚至亿万级别的数据。无疑这会给数据库造成了相当高的负载,对于系统的稳定性和扩展性造成了极大的问题。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。数据挖掘与数据分析技术数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(KnoWledgeDiscoveryinDatabase)的关键步骤。数据挖掘的工作主要分为关联分析、聚类分析、分类、预测、时序模式和偏差分析等。各种数据挖掘任务就是通过这些类别的算法来实现的。关联分析(associationanalysis):关联规则挖掘是由RakeShApwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。聚类分析(ChIStering):聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。分类(CIaSSifiCation):分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。预测(PrediCatiOn):预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。目前,很多公司已成功地部署了数据挖掘应用系统。伴随该项技术的逐步成熟,数据挖掘技术已经可以广泛适用于任何想通过业务数据分析,来进行商业决策的公司。数据挖掘成功的两个关键因素是:一个大且完整的数据仓库,和一个可挖掘的定义、理解都明确的商务流程,如客户展望、保持,商业活动管理等等。其中一些成功的应用例子包括:大型制药公司可以分析他最近的销售行动及其结果以改进高职位医师的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果。数据需要包括竞争对手的市场活动信息和当地医疗系统的信息等。其分析结果,可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议。而且,随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品。使用一个小型的测试邮件,就可以确定一个客户对新产品的亲和力属性。最近的项目已经表明,采用超常规的方法对指定目标的邮寄活动,可以节省20倍的费用。拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服务的最好模式。用数据挖掘来分析他自己的客户体验,该公司可建立唯一的分段以确定高位值的预期。每一个这样的例子有一个共同且清晰的基础,他们利用数据挖掘技术找出在数据仓库里隐藏的关于客户笃信的知识,从而在减少销售费用的同时还能改善客户关系,提高公司效益。通过上面这些例子,我们可以看到数据挖掘技术广泛的应用场景。所以,在面对网络交易平台的海量交易数据分析时,我们同样可以采用数据挖掘技术。利用该技术,在分散的、独立的、复杂的交易数据中找出关联性;发现其中隐藏的有用信息。比如:可以通过挖掘算法对从交易平台上采集的交易信息进行分类(classification)处理,来找出可疑的违规商家,规范各网络商家的交易行为;也可以通过对行业交易量、交易价格等数据的预测(PrediCation)分析,来进行行业调研,预测行业发展趋势,引导行业健康有序的发展。B/S架构与动态数据展示技术展示系统采用基于B/S结构的动态网页技术。可以支持跨平台、不需要安装客户端、易用性高等特点,展示的数据生动、直观、具有实时性。B/S结构(BroWSer/Server结构)结构即浏览器和服务器结构。它是随着Internet技术的兴起,对C/S结构的一种变化或者改进的结构。在这种结构下,用户工作界面是通过WWW浏览器来实现,极少部分事务逻辑在前端(BroWSer)实现,但是主要事务逻辑在服务器端(Server)实现,形成所谓三层3-tier结构。这样就大大简化了客户端电脑载荷,减轻了系统维护与升级的成本和工作量,降低了用户的总体成本(TC0)。以目前的技术看,局域网建立B/S结构的网络应用,并通过Internet/Intranet模式下数据库应用,相对易于把握、