CPU MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法.docx
《CPU MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法.docx》由会员分享,可在线阅读,更多相关《CPU MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法.docx(17页珍藏版)》请在课桌文档上搜索。
1、CPU-MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法摘要:频繁子图挖掘是许多实际应用领域中需要解决的重要问题,由于计算密集性、挖掘的图集及其结果容量大,现有的频繁子图挖掘方案无法满足时间需求,其处理效率是目前面临的主要挑战。原创性地提出了并行加速的频繁子图挖掘工具cmFSMocmFSM主要在3个层次上进行并行优化:单节点上的细粒度OpenMP并行化、多节点多进程并行化和CPU-MlC协作并行化。在单节点上cmFSM的处理速度比基于CPU的最佳算法快一倍,在多节点方案中cmFSM提供可扩展性。结果表明,即使只使用一些并行计算资源,cmFSM也明显优于现有的最先进的算法。这充分表明提出
2、的工具在生物信息学领域的有效性。关键词:频繁子图挖掘;生物信息学;并行算法;内存约束;同构;集成众核引言在生物信息学研究中,为帮助在药理学化合物数据库或生物网络的核心功能结构中寻找新药,频繁子图挖掘的解决方案尤为重要。但现有的频繁子图挖掘方案无法有效解决内存消耗与时间需求问题。LinW等人认为频繁子图挖掘问题可分为两个方面:一方面是在一个图的不同区域挖掘子图,适用于社交网络分析领域;另一方面是在大规模图集中挖掘子图,适用于计算药理学和生物信息学领域。两方面都面临共同的问题:大规模挖掘任务产生的大量挖掘结果超过了单台机器的存储器空间,且无法满足时间需求。并行技术是解决这类问题的有效方案。针对第一
3、方面,专家已经提出基于串行CPU技术、并行计算框架(M叩RedUCe、MPI、Spark)及图形处理器(graphicsprocessingunit,GPU)的解决方案。本文意在解决生物信息学领域中频繁子图挖掘的问题。2相关工作现有频繁子图挖掘方案以递归计数为基础,可以挖掘出所有频繁子图,且大部分频繁子图挖掘算法基于广度优先搜索(breadthfirstsearc,BFS)改进生成,例如基于先验的挖掘算法(apriori-basedalgorithmformining,AGM)和频繁子图挖掘(frequentsubgraphdiscovery,FSG)算法工具。但是深度优先搜索(depth-f
4、irst-search,DFS)内存需求更低、性能更优。MeinIT等人对一些典型的DFS算法(如MoFa、FFSMgSanftGaston)进行了定量比较和详细比较,发现遇到大规模挖掘任务时,它们很难满足时间需求。值得注意的是,它们都是单核串行版本。此外,BUehrerG等人提出了多核系统中的并行挖掘策略,并在多个内存处理器间划分挖掘任务。这些解决方案充分利用了单节点上的机器资源实现加速挖掘。然而,这些方案都是基于内存的,并假设内存空间适配于图集和挖掘规模。但是,随着数据量的增加以及支持度的降低,挖掘规模呈指数递增,内存空间不再适配。为解决这个问题,WangC等人和NgUyenSN等人基于磁
5、盘分别提出ADIMine算法和数据分区方法。但是这类方案又面临着访问数据的巨大开销问题。HillS等人基于M即RedUCe框架提出了IFSM算法。该算法首先计算图表集合中的所有频繁子图的支持度。其次,排除未达到设定支持度的频繁子图。与IFSMn0类似,FSM-H和mrFSM也是通过迭代方法在MapReduce框架上开发的,且更加关注每次迭代中的负载平衡。然而M叩RedUCe框架不适合迭代计算,可能会产生大量I/O和序列化开销,因此基于MapReduce的这些方案仍然会产生严重的性能问题。MaPRedUCe框架上性能更为出色的是MRFSM。MRFSM不采用迭代方法,而是根据支持度智能化地过滤频繁
6、子图,再将所有频繁子图分配给所有机器进行挖掘,并整合最终结果。因为没有迭代,所以它能提供比IFSM、FSMH和mrFSM更好的性能。但是MRFSM使用标准I/O和数据间的交互,其性能受到严格限制。此外对于大规模挖掘任务,每台机器上会产生严重的存储压力,MRFSM无法满足时间需求。针对大规模挖掘问题,笔者提出了CmFSM算法。该算法分别在3个方面实现了并行化:单节点上的细粒度OPenMP(共享存储并行编程)并行化、多节点多进程并行化和CPU-MIC协作并行化。3算法介绍CmFSM算法实现了多级别和多粒度的并行性,并以集成众核(manyintegratedcore,MIC)为加速器,使用OPenM
7、P实现多线程,目的是解决药物爰现过程中大规模频繁子图挖掘的时间需求和内存限制等问题。信息传递接口(messagepassinginterface,MPI)基于4种静态任务划分策略和一种基于监管的动态任务划分策略,实现最佳负载平衡。此外,在传输模式下使用MIC仅传输双边频繁子图,并备份复杂数据结构,以避免过度传输造成的瓶颈。通过充分利用MIC的多核计算能力,可以在CPU和MIC协作的情况下达到预期的执行速度。3.1 单节点上的OPenMP并行化3.1.1 并行化策略基于DFS的频繁子图算法难以控制并行粒度,且无法控制递归过程,造成程序一直调用函数的后果,从而产生大量挖掘结果,这必然会导致不同挖掘
8、任务间的负载不平衡。为了解决这个问题,笔者采用基于OPenMP的细粒度并行策略。具体来说,挖掘频繁子图的过程将公共递归挖掘过程转化为BFS循环挖掘过程,从而实现单边增长粒度的并行性。此外,笔者创立了4个新缓冲区:原子区、t子区、1子区和C子区。原子区记录每个级别(从单边到多边的频繁级别)挖掘的子图集,并按照规定级别进行挖掘,其中同一级别的子图具有相同的边数。当原子区没有空间时,将进行下一级挖掘任务。t子区是单线程任务中的局部变量,记录每个子图边挖掘到的子图。1子区也是单线程任务中的局部变量,它记录从t子区并集中获得的每个线程的所有子图挖掘情况。c子区记录从每个级别挖掘得到的子图集。在单线程结束
9、时,1子区被视作关键区域中的C子区。同时C子区和原子区将释放空间,以便进行下一级迭代挖掘。值得注意的是,在并行计算中无法确保每个线程中的所有挖掘任务同时结束,尚未完成任务的线程将继续使用原子区数据。C子区存在的意义在于不能直接将1子区应用于原子区,否则可能导致挖掘失败。新并行算法伪代码如下。算法:新并行算法。Feequent_Subgraph_Mining(GS,S)1-6:samewitholdalgorithml1-6;7:foredgeeinSldo8:initialize1-edgegraphgwithe;9:One_edge_growth(GS,S,g,children);10:Ie
10、n-size(children);11:whileIen0do12:#pragmaompparallel13:#pragmaompparallelfor14:forgraphcinchildren15:One_edge_growth(GS,S,c,tchildren);16:IChiIdren-IchildrenUtchildren;17:clear(tchildren);18:endfor19:#pragmaompcritical20:cchildrenCchildrenU!children;21:#endparallel22:swap(children,cchildren);23:clea
11、r(cchildren);24:Ien-Size(Children);25:endwhile26-29:samewitholdalgorithm10-13;30:endfor总体来说,此操作计算规模大,但因为并行粒度小,在线程调度中不使用大多数CPU资源,而且可以通过OPenMP的动态调度策略轻松实现良好的负载均衡。此外,递归挖掘过程被循环挖掘过程替换,因此不需要系统协助管理堆栈,这会产生额外的加速。3.1.2内存管理深度优化频繁子图挖掘的主要挑战是内存约束。为了实现内存重用和内存空间的有效利用,笔者采用“动态应用和存储指针”的策略。具体来说,程序动态地挖掘子图,并在图代码结构中存储边指针,而
12、不是存储实际边对象,以便挖掘出的频繁子图与其原子图共享大多数边,这将显著节省内存空间。内存重用示意如图1所示。由图1可看出,只有边指针存储在图形代码中,而且每个子图只存储一个实例在存储器中,从而达到内存重用的目的。PlrO(0.LA,a,B)ptrl(1.2,B,a,A)tr2(L3.B,a,A)ptr3d,4,B,b,B)ptr4(3.4,A,c,B)PE) (OJAa,B)图形代码1 条边Iptr2条边IPIiOIPtrT、I7)3 条边IptrItrlptr2|-4 条边IPIrOIPlrIlplr21Pii5 条边Ipi)IPtrIlplr21ptr3ptr41图1内存重用示意6 .2
13、多节点多进程并行加速3.2.1 任务划分策略多节点程序的最大挑战是通信开销。使用粗粒度并行策略可有效地避免大量通信开销。其过程是先通过MPI划分频繁子图,然后每个进程在其节点中保存其挖掘结果,以避免大量输出文件造成单节点内存压力。最后,将所有输出文件整合为最终挖掘结果。此外,结合单节点的多进程可为每个MPI进程创建多个线程完成并行化,以实现良好的性能。但是这种粗粒度策略不利于负载平衡,很容易导致数据倾斜,无法充分利用系统资源实现最佳性能。基于数据集的不同特征,笔者设计并提出了4种静态任务划分(即对等、递增、单任务和循环)策略和一种基于监管的动态任务划分策略,以尽可能地实现负载均衡。具体来说,4
14、种静态任务划分和基于监管的动态划分如下所示。对等策略(静态划分):该策略平均分配挖掘任务,但不绝对,只需保证分配给各节点的任务相等或差值不大于1即可。然而,实验发现负载极不平衡,很容易遇到内存瓶颈。由于频繁子图按降序进行处理,大量挖掘任务集中在前端节点,同时产生大量挖掘结果,且排序越靠前的子图就越频繁,这些子图将被优先挖掘。而排在后面的子图因为瓶颈的出现,就可能不再被挖掘,而是选择一些结果并提前停止挖掘。此外,结果的规模随着顺序呈指数下降。因此,在大多数情况下,这种策略很难实现负载平衡。递增策略(静态划分):该策略给第一个节点分配一个子图,给第二个节点分配两个子图,给第三个节点分配3个子图,依
15、此类推,最后一个节点被分配剩余的所有子图。实施此策略可以提高性能,并实现更好的负载平衡。但是,在大规模挖掘背景下,前端节点被分配太多子图会导致负载不平衡,此策略不再适用。单任务策略(静态划分):该策略给各节点分配一个子图,剩余子图分配给最后一个节点。这种策略有时可以实现很好的性能。循环策略(静态划分):该策略先按照正序给各节点分配一个子图,再按照反序给各节点分配一个子图。按照这种方式一直循环,直到所有频繁子图都被分配为止。当数据集足够大且并行度不是特别高时,循环策略可实现更好的负载平衡。监管策略(动态划分):基于任务队列按照顺序将子图依次分配给各节点,然后将剩余子图分配给最早完成任务的节点。整
16、个过程持续到挖掘结束。理论上,动态划分策略比静态划分策略更能实现负载平衡。为了实现这种动态策略,将PrOCeSS()视为一个“监工”,监管所有任务。当节点完成任务时,它首先向process()询问剩余子图的信息。ProCeSS()将搜索子图任务队列并返回信息。当任务队列不为空时,process。将为此节点分配一个新的子图。否则,它将回复“1”并计数。当计数等于节点数时,process()将结束工作。另外,当节点收到“1”时,也将结束工作。动态策略可以实现比静态策略更好的负载平衡,但由于节点和ProCeSS()需要通信,因此整体性能不一定更优。但是,在大多数情况下建议采用动态策略。5种划分策略的
17、示例如图2所示。iiltttPM3.2.2 删除多节点冗余结果为了避免挖掘原子图产生多余的结果,挖掘后的频繁子图需删除。而在多节点模式中,各节点在挖掘过程中只能处理各自的频繁子图且不会删除其他节点中的子图,从而造成冗余结果。为了解决此问题,笔者将并行算法扩展到多节点模式,且分别处理分配给各节点的频繁子图。这个特性有可能在挖掘过程之前去除先于当前对象的多余频繁子图。3.3CPU-MIC协作并行优化3.3.1 cmFSM的协同并行化CPU-MlC协作采用中粒度的并行策略。总体来说,先在CPU和MIC之间划分频繁子图,并采用传输模式将频繁子图转移到MIC0通过承受一定的通信开销,并充分利用MIC的多
18、核计算能力,可以实现负载平衡和预期的计算速度效果。CPU和MlC之间的协同过程如图3所示。值得注意的是,笔者没有使用粗粒度策略,因为在该策略下难以有效地实现负载平衡。另外,频繁子图不一定能合理地分配给每个进程。例如,有可能遇到一些进程只能负责一个子图。而且CPU和MlC之间存在计算能力差异,负载平衡将是一个巨大的挑战。此外,细粒度策略也不加以考虑,因为它不适配CPU和Mle之间的共享内存,且需要大规模的通信开销才能传输和划分子图。因此,这种策略也不利于提高整体效率。图3CPU-MIC协同并行框架3.3.2 内存重用一张MIC卡的内存大约为5OOOMB,无法与节点内存适配,而且内存分配和释放的速
19、度比CPU慢。实验测试表明,在MlC上分配IOoOMB的内存大约需要5s。因此,必须降低MIC上的内存分配和释放效率,并最大限度地提高内存重用。除了“动态应用和存储指针”策略外,cmFSM可通过内存重用减少MIC上的内存分配时间,具体方法是创建一个计数器JObCoUnt记录工作号。如果count=1,则使用walloc_if(l)free_if(0),为列出的数组和对象分配内存;当countl时,使用吐Ik)CJf(O)fireejf()”重用内存;最后使用a11ocjf(0)fteejf(l)”在操作完成后释放内存。这种方式可最小化MIC上的内存分配和释放的频率。此外,当数据集相对较大且挖掘
20、程度足够深时,仅一个频繁子图的挖掘过程也会耗尽MIC上的内存。在这种情况下,不能先传输所有要挖掘的子图,再挖掘其结果。因此笔者不是一次上传所有的频繁子图,而是采用迭代的方法,一次只上传同一频繁子图挖掘到的部分图,以方便数据压缩节省MIC的存储空间。3.3.3 数据传输优化尽管MIC支持C+STL(standardtemplatelibrary),但ICC(IntelC+compiler)不支持使用OffIoad模式传输频繁子图,它只支持没有指针的基本数据类型和数组。因此,笔者采用“拆除和恢复”的策略传输子图。在迭代中传输的n个频繁子图原理如图4所示。next neone.l首先,拆除频繁子图,
21、并集成它们的元素,以使相同结构的频繁子图存储在同一个连续缓冲区中。然后通过Offload模式将这些缓冲区传输到MlC中,并在MIC上分配内存。最后通过填充这些缓冲区中的相应元素,在MlC中恢复子图。从图4可以发现,在传输过程中使用了7个缓冲区。因为边的代码格式是五元组(ixiyx、ay),所以前5个缓冲区用于传输边。下标为0的元素代表第一个公共边。以下n个元素表示每个子图的第二条边。next缓冲区表示n个子图的节点数。gs缓冲区是数据集中频繁子图的编号列表。因为数字从0开始,笔者使用-1分隔这些列表。总体而言,笔者可以有效地组织和传输CPU和MlC之间的数据。neO11e,1gs,-1gS-I
22、gS,H-1图4双边子图迭代传输格式另外,一些复杂的数据结构将用于整个挖掘过程,例如处理子图集可能产生巨大的传输开销和内存分配开销。因此,复杂的数据结构需要备份,这些数据结构是可重用的,并且难以最大性能化传输。具体来说,将分析参数传递给MIC,协处理器可以根据这些参数读取数据并自行构建子图集,此操作简单,可以在MlC上快速完成。在许多情况下,挖掘结果太大,无法通过。ffload模式进行传输。因此返回结果计数以显示CPU的总体结果,而不是将所有挖掘结果返回给CPUo具体挖掘结果将直接写在MlCo这样可以轻松合并这些文件数据获得整个结果。3.3.4 CPUMlC之间的负载平衡和数据分配根据先前的策
23、略,只有从相同边挖掘的频繁子图才将在迭代中被转移到MICo如果继续挖掘这些频繁子图,挖掘结果将更贴合实际。因为CPU和MIC的计算能力在测试后依然紧密贴合,所以笔者简单地采用一种使用区间划分的静态策略,使具有稍强计算能力的主机设备首先启动,这是因为任务队列前端的频繁子图理论上仍然具有很多充满可能性的挖掘,以此实现CPU和MIC的负载平衡。基于3个MIC的数据划分和CPU-MIC协作挖掘过程如图5所示。虽然每个设备的挖掘深度和计算规模都不确定,但是所有过程都将持续到频繁子图不再挖掘为止。在多节点模式中,为形成不同的任务队列,只为每个节点分配不同的频繁子图。图5数据划分和CPU-MlC协作挖掘过程
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- CPU MIC异构并行架构下基于大规模频繁子图挖掘的药物发现算法 MIC 并行 架构 基于 大规模 频繁 挖掘 药物 发现 算法

链接地址:https://www.desk33.com/p-1163747.html