《基于大数据挖掘技术及工程实践》试题及答案24.docx
海量数据挖掘技术及工程实践题目一、单项选择咫(共80题)D(D)的目的缩小数据的取值葩用,使其更适合于数据挖掘算法的需要,并I1.能够得到和原始数据相同的分析结果。.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研窕销格纪录数据后发现,买啤酒的人很大概率也会购置尿布,这种属下数据挖掘的哪类问题?(八)A.关联规则发现B.聚类C.分类D.自然语言处理3)以卜两种描述分别对应哪两种对分类算法的评价标准?(八)(八)警察抓小偷,描述警察抓的人中有多少个是小偷的标准.(b)描述有多少比例的小偷给警察抓了的标准。.Precision,Reca1.1.B.Reca1.1.,PrecisionA.Precision,ROCI).Reca1.1.,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以卜项个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相别离?.分类B.聚类C.关联分析D.隐马尔可夫链6)建立一个模型,通过这个模型根据的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则7)卜面哪种不属于数据预处理的方法?(D)A.变员代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如卜每种方法将它们划分成四个箱。等频(等深划分时,15在第几个箱子内?(B)A.第一个B.第二个。.第三个D.笫四个9)卜面哪个不属于数据的属性类型:(D)A.标称B.序数C区间D.相异10)只有非零值才重要的二元属性被称作:(C)A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法:(D)A.嵌入B.过渡C.包装D,抽样12)下面不属r创立新属性的相关方法的是:(B).特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属下映射数据到新的空间的方法?(八)A.傅立叶变换B,特征加权C.渐进抽样D.维归约14)假设属性income的最大/小值分别是12000元和98000元。利用最大最小标准化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)A.0.821B.1.224C.1.458D.0.71615) 所大学内的各年纪人数分别为:年级200人,二年级160人,三年级130人,四年级110人“则年级属性的众数是:(八)A. 一年级B.二年级C.三年级D.四年级16)以下哪个不是专门用于可视化时间空间数据的技术:(B)A.等高线图B.饼图C.曲面图D.矢信场图17)在抽样方法中,当适宜的样本容量很难确定时,可以使用的抽样方法是:(D)A.有放回的简单随机抽样B.无放回的简总随机抽样C.分层抽样I)渐进抽样18)数据仓库是随着时间变化的,卜.面的描述不正确的选项是(C).数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容【).数据仓库中包含大量的综合数据,这些综合数据会随若时间的变化不断地进行重新综合19)下面关于数据粒度的描述不正确的选项是:(C).粒度是指数据仓库小数据单元的详细程度和级别B.数据越详细,粒度就越小,级别也就越高C.数据综合度越高,粒度也就越大,级别也就越高【).粒度的具体划分将直接影响数据仓库中的数据量以及查询质量20)有关数据仓库的开发特点,不正确的描述是:(八)A.数据仓库开发要从数据出发B.数据仓库使用的需求在开发出去就要明确C数据仓库的开发是一个不断循环的过程,是启发式的开发D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式21)关于O1.AP的特性,卜面正确的选项是:(D)快速性可分析性多维性信息性(5)共享性.(1)(2)(3)B. (2)(3)(4)C. (1)(2)(3)(4)D. (1)(2)(3)(4)(5)22)关于O1.AP和O1.TP的区别描述,不正确的选项是:(C).O1.AP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B.与O1.AP应用程序不同,O1.TP应用程序包含大量相对简单的事务C.O1.AP的特点在于事务量大,但事务内容比较简单且重复率高I).O1.AP是以数据仓库为基础的,但其最终数据来源与O1.TP一样均来自底层的数据库系统,两者面对的用户是相同的23)关于O1.AP和O1.TP的说法,以卜不正确的选项是:()A. O1.AP事务员大,但事务内容比较简单且重亚率高B. O1.AP的最终数据来源与O1.TP不一样C. O1.TP面对的是决策人员和高层管理人员D. O1.TP以应用为核心,是应用驱动的24)设X=1.,2,3)是频繁期集,则可由X产生(C)个关联规则。A.4B.5C.6D.725)考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,(1,3,5,2,3,4J2,3,5,3,%5假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)A,1,2,3,4B,1,2,3,5C.1,2,4,5D.1,3,4,526)下面选项中t不是s的子序列的是(C)A. s=<4,3,5,6,8>t=<2,3,6,>B. s=<2,4,3,5,6,8>t=<2,8>C. s=<(1.,2),3,4>t=<<1.),2>D.s=<(2,4,2,4>t=<2,4>27)在图集合中发现一组公共子结构,这样的任务称为(B)A.频繁子集挖掘B,频繁子图挖掘C.频繁数据项挖掘D.频繁模武挖掘28)以下度量不具有反演性的是(D)A.系数B.儿率CCohcn度垃D.兴趣因子29)以下(A)不是将主观信息参加到模式发现任务中的方法。A.与同一时期其他数据比照B.可视化C.基于模板的方法D.主观兴趣度是30)下面购物蓝能够提取的3-项集的最大数量是多少(C)项集T1.D1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10啤酒,饼干A. 1B.2C.3D.431)以下哪些算法是分类算法(B)A.DBSCANB.C4.5C.K-MeanD.EM32)以卜.哪些分类方法可以较好地防止样本的不平衡问题(八)A.KNNB.SVMC.BayesD.神经网络33)决策树中不包含一下哪种结点(C)A.根结点(rootnode)B.内部结点(interna1.node)C.外部结点(externa1.node)D.叶结点(1.eafnode)34)以下哪项关于决策树的说法是错误的(C),冗余属性不会对决策树的准确率造成不利的影晌B.子树可能在决策树中重纪屡次C.决策树算法对于噪声的干扰非常极感D.寻找最正确决策树是NP完全问题35)在基于规则分类器的中,依据规则质发的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为(B)A.基于类的排序方案B.基丁规则的排序方案C.基于度量的排序方案D.基于规格的排序方案。36)以下哪些算法是基于规则的分类器(八).C4.5B.KNNC.NaiveBayesD.ANN37)可用作数据挖掘分析中的关联规则竟法有(C)tA决策树、对数回归、关联模式B. K均值法、SOM神经网络C. Apriori算法、FP-Troe算法D. RBF神经网络、K均值法、决策树38)如果对果性值的任组合,R中都存在条规则加以覆盖,则称规则集R中的规则为(B)R.无序规则反穷举规则C.互斥规则D.有序规则39)用于分类与回归应用的主要算法有:(D)A. Apriori算法、HotSPOt算法B. RBF神经网络、K均值法、决策树C. K均值法、SOM神经网络D.决策树、BP神经网络、贝叶斯40)如果允许一条记录触发多条分类规则,把银条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(八)A.无序规则B.穷举规则C.互斥规则D.有序规则41)考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队I取胜的比赛中75%是主场我胜.如果下一场比赛在队1的主场进行队I获胜的概率为(C)A.0.75B.0.35C.0.4678D.0.573842)以下关乎人工神经网络(ANN)的描述错误的有(八).神经网络对训练数据中的噪声非常鲁棒B可以处理冗余特征C.训练ANN是一个很耗时的过程D.至少含有一个隐域层的多层神经网络43)通过聚集多个分类器的预测来提高分类准确率的技术称为(八).组合(ensemb1.e)B.聚集Sggrega1.e)C.合井(CoInbination)D.投票(VOting)44)简堆地将数据对象集划分成不重心的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)A层次聚类B划分聚类C.非互斥聚类D,模糊聚类45)在根本K均值算法里,当邻近度函数采用(A)的时候,适宜的历心是震中各点的中位数.变哈顿距离B.平方欧儿里德距高C.余弦距离D.Bregman散度46) (C)是一个观测值,它与其他观测值的差异如此之大,以至丁疑心它是由不同的机制产生的.A.边界点B.旗心C.离群点D.核心点47) BIReH是一种(B),A.分类潺B.聚类算法C.关联分析算法D.特征选择尊法48)检测一元正态分布中的离群点,屈于异常检测中的基于(A)的离群点检测。A.统计方法B.邻近度C.密度D.聚类技术49) (C)将两个簇的邻近度定义为不同旗的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。A.MIN(单链)B.MAX(全链)C.组平均DJard方法50) (D)将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚乂次聚类技术。AMIN(单链)B.MAX(全链)C.组平均DZard方法51)以卜律法中,不属于外推法的是(B).A.移动平均法B.回归分析法C.指数平滑法D.季节指数法52)关联规则的评价指标是:(C)。A.均方误差、均方根误差B. KaPPa统计、显著性检验C.支持度、取信度D,平均绝对误差、相对误差53)关于K均值和DBSCAN的比较,以下说法不正确的选项是(A1.K均值丢弃被它识别为噪声的时象,而DBSCAN-一般聚类所有对缴。B. K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C. K均值很难处理非球形的簇和不同大小的弑,DBSCAN可以处理不同大小和不同形状的微D. K均值可以发现不是明显别值的簇,即便有或段也可以发现,但是DBSCAN会合并有垂段的簇。54)从研究现状上看,下面不属于云计算特点的是(C)A超大规模B.虚拟化C.私有化D.高可靠;性55)考虑这么种情况:一个对象碰巧与另个对象相对接近,但属于不同的类,因为这两个对象般不会共享许多近邻,所以应该选择(D)的相似度计算方法。A.平方欧几里德距高B.余弦距离C.直接相似度D.共享最近邻56)分析顾客消费行业,以便有针对性的向其推荐感兴趣的效劳,属于()问巡。A关联规则挖掘B.分类与回归C.聚类分析D.时序预测57)以卜哪个聚类算法不是属于基于原型的聚类(D)。A模树C均值B.EM算法C. SOMD.C1.IQUE58)关于混合模型聚类算法的优缺点,卜面说法正确的选项是(B).A.当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理.B.混合模型比K均值或模糊C均值更一般,因为它可以使用各种类型的分布。C.混合模型很难发现不同大小和椭球形状的簇。D.混合模型在有噪声和离群点时不会存在问题.59)以卜哪个聚类算法不属于基于网格的聚类算法(D)。A.STINGB.WaveC1.usterC.MI1D.BJRCII60)一个对象的离群点得分是该对象周围密度的逆。这是基于(C)的离群点定义。A.概率B.邻近度C.密度D.聚类61)舆情研判,信息科学侧重(C),社会和管理科学侧重突发群体事件管理中的群体心理行为及舆论控制研究,新闻传播学侧重对舆论的本体进行规律性的探索和研究。.舆论的本体进行规律性的探索和研究B.舆论控制研究C.联网文本挖掘和分析技术D.用户行为分析62) MUPRedUCe的MaP函数产生很多的(C)A.keyB.va1.ueC.<koy,va1.ue>D.Hash63) Mapreduce适用于(D)A任意应用程序B.任怠可在Win<k>wsSerVet2008上运行的程序C.可以串行处理的应用程序【).可以并行处理的应用程序64) PUgeRank是一个函数,它对Heb中的每个网页赋予一个实数值。它的意图在于网页的PUgeRUnk越高,那么它就(A.相关性越高C.相关性越低Xa.一-对-c.多对多D).B.越不重要D.越重要B.对多D.多对一65)协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,踪合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(D),并将这些用户喜欢的项推荐给有相似兴趣的用户。A.相似B.相同C.推荐D.预测66)大数据指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内到达撷取、管理、处理、并(B)成为希助企业经营决策更积极目的的信息。.收集B.整理C.规划D.聚集67)大数据科学关注大数据网络开展和运营过程中(D)大数据的规律及其与自然和社会活动之间的关系。A.大数据网络开展和运营过程B.规划定设运营管理D.发现和验证C.规律和验证68)大数据的价值是通过数据共享、(D)后获取最大的数据价值.党法共享B.共享应用C.数据交换D.交叉复用69)社交网络产生/海SUH户以及实时和完整的数据,同时社交网络也记录了用户群体的(C),通过深入挖掘这些数据来了解用户,然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。A.地址B.行为C.情绪D.来源70)通过数据收集和展示数据背后的(D),运用丰富的、具有互动性的可视化手段,数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。A.数据收集B.数据挖掘C.真相D.关联与模式71)CRISPDM模型中Eva1.uation表示对建立的模型进行评估,应点具体考虑得出的结果是否符合(C)的商业目的。A.第二步B.第三步C.第一步D.最后一步72)发现关法规则的算法通常要经过以下三个步藤:连接数据,作数据准备:给定最小支持度和(D),利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规.最小兴趣度B,最小置信度C.最大支持度D.最小可信度73)规则1.->j,“有可能°,等于所有包含I的购物篮中同时包含J的购物篮的比例,为(B)。A.置信度B.可信度C.兴趣度D.支持度74)如果个匹配中,任何个节点都不同时是两条或多条边的端点,也称作(C)A.极大匹配B.二分匹配C完美匹配D.极小匹配75)只要具有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力以及(D)的关键要素。A.提高消费B.提高GDPC.提高生活水平D.创造消费者盈余76)个性化推荐系统是建立在海量数据挖掘基础上的种高级商务智能平台,以帮助(D)为其顾客购物提供完全个性化的决策支持和信息效劳。A.公司C.跨国企业77)云计算是对(DA.并行计算C.分布式计算B.各单位D.电子商务网站)技术的开屣与运用B.网格计算D.:个选项都是78)(B)是GOOgIe提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。.GIrSB.MapReduceC.Chubby79)在BigtabIe中,(.GFSD.BitTab1.eA)主要用来存储子表数据以及一些日志文件B.ChubbyC.SSTab1.eD.MapReduce二、判断题(共40题)D分类是预测数据对望的离散类别,预测是用于数据对象的连续取值。(对)2)时序预测回归预测一样,也是用的数据预测未来的值,但这些数据的区别是变量所处时间的不同。(三)3)数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。(对)D对遗漏数据的处理方法主要有:忽略该条记录:手工填补遗漏值:利用默认值填补遗漏值:利用均值埴补遗漏值:利用同类别均值填补遗漏值:利用最可能的值填充遗漏值.,(对)5)神经网络对噪音数据具有高承受能力,并能对未经过训练的数据具有分类能力,但其需要很长的训练时间,因而对于有足够长训练时间的应用更适宜。(对)6)数据分类由两步过程组成:第一步,建立一个聚类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。(错)7)聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。(对)8)决策树方法通常用于关联规则挖掘。(错)9)数据标准化指将数据按比例缩放(如更换大单位),使之落入个特定的区域(如07以提高数据榜据效率的方法。标准化的常用方法有:最大-最小标准化、零-均值标准化、小数定标标准化。(对)10)原始业务数据来自多个数据阵或数据仓库,它们的结构和规则可能是不同的,这招导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为r使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。(对)11)数据取样时,除了要求抽样时严把痂量关外,还要求抽样数据必须在足够范闱内有代表性。(对)12)分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。(对)13)可信度是对关联规则的准确度的衡量。(错)14)孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。(W)15)Apriori算法是一种典型的关联规则挖掘算法。(对)16)用手分类的离散化方法之间的根本区别在于是否使用类信息.(对)17)特征提取技术并不依赖于特定的领域。(错)模型的具体化就是预测公式,公式可以产生与观察值有相似结构的输出,这就是预测值。(对)19)文本挖掘又称信息检索,是从大垃文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。(错)20)定量属性可以是整数值或者是连续值。(对)21)可视化技术对于分析的数据类型通常不是专用性的。(错)22) O1.AP技术IW重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术开展之后迅猛开展起来的一种新技术。(对)23) Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。(错)24)关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则.(错)25)利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。(对)26)先验原理可以表述为:如果个项集是频繁的,那包含它的所有项集也是频繁的。(错)27)回归分析通常用于挖掘关联规则。m)28)具有较高的支持度的项集具有较高的置信度。(错)29)维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。(对)30)聚类(c1.ustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(错)31)对于SW分类算法,待分样本集中的大局部样本不是支持向忌,移去或者减少这些样本对分类结果没有影响。(对)32)Bayes法是一种在后验概率与类条件概率的情况卜的模式分类方法,待分样本的分类结果取决产各类域中样本的全体.(错)33)在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检聆误差开始增大,这是出现了模型拟合缺乏的问题。(错)34)在聚类分析当中,簇内的相似性越大,俄间的差异越大,聚类的效果就越差。(错)35)聚类分析可以看作是一种非监督的分类。(对)36)K均值是种产生划分聚类的基于密度的聚类算法,赧的个数由算法自动地确定。(错37)基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)38)如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)39)大数据的4V特点是Vo1.ume、Ve1.ocity»Variety,Voracity.(对)40)聚类分析的相异度矩阵是用于存储所有对缴两两之间相异度的矩阵,为一个nn维的单模矩阵。(对)三、多项选择题(共30题)D噪声数据的产生原因主要有:(ABCD)A.数据采集设备有问题B,在数据录入过程中发生了人为或计獴机错误C.数据传输过程中发生错误D.由于命名规则或数据代码不同而引起的不一致2)寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某特征的表示,这个过程包括了以下哪些步骤?(ABCD)A.选择一个算法过程使评分函数最优B.决定如何用化和比较不同表示拟合数据的好坏C.决定要使用的表示的特征和结构D.决定用什么样的数据管理原则以高效地实现算法3)数据挖掘的预测建模任务主要包括哪几大类问题?(AB)A.分类B.回归C.聚类D美联规则挖掘4)以下属于不同的有序数据的有:SBCD)A.时序数据B序列数据C.时间序列数据D.事务数据E.空间数据5)卜面属于数据集的一般特性的有:(BCD)A.连续性B维度C,稀疏性D.分辨率E.相异性6)下面属于维归约常用的处理技术的有:(AC)A.主成分分析B.特征提取C.奇异值分解0.特征加权E,离散化7)噪声数据处理的方法主要有:(ABD)A.分箱B,聚类C.关联分析D.回归8)数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及(ABCD)等方面。A.挖掘频祭模式B.分类和预测C.聚类分析D.偏差分析9)以下各项均是针对数据仓库的不同说法,你认为正确的有(BCD.数据仓库就是数据库B.数据仓库是切商业智能系统的基础C.数据仓库是面向业务的,支持联机事务处理(O1.TP)D.数据仓库支持决策而非事务处理10)联机分析处理包括(BCD)根本分析功能。A.聚类B.切片C.转釉D.切块11)利用APriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以卜一的购物篮中产生支持度不小丁3的候选3-项集,在候选2-项集中需要剪枝的是(BD)TID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐A.啤酒、尿布B.啤酒、面包C面包、尿布D.啤酒、牛奶12)下表是一个购物篮,假定支持度阀值为4(其中(AD)是频繁闭期集。ID项集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、鸡蛋4面包、尿布、啤酒、鸡蛋5啤酒、鸡蛋A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、鸡蛋13)APriori兑法的计算更杂度受(ABa)影响。A.支持度阀值B项数(维度)C.事务数D.事务平均宽度14)以下关于非频繁模式说法,正确的选项是(AD)A.其支持度小于闵值B.都是不让人感兴趣的C.包含负模式和负相关模式D.对异常数据项敏感15)以下属于分类器评价或比较尺度的有:(ACD)八.预测准确度B.召回率C模型描述的简洁度D.计算或杂度16)贝叶斯信念网络(BBN)有如下哪些特点。(AB)A构造网络费时费力B对模型的过分问题非常笛棒C.贝叶斯网络不适合处理不完整的数据D.网络结构确定后,添加变量相当麻烦17)如下哪些不是最近邻分类器的特点。(C)A.它使用具体的训练实例进行硕测,不必维护源自数据的模型B.分类一个测试样例开销很大C.最近邻分类泯基于全同信息进行预测【).可以生产任意形状的决策边界18)以下属于聚类算法的是(AB)。A.K-MeansB.DBSCANC.AprioriD.KNN19) (CD)都属于被有效性的监督度量。A轮廓系数B.共性分类相关系数C.炳D.F度量20) (ABCD)这些数据特性都是对聚类分析具有很强影响的.高雄性B.规模C.稀疏性D噪声和离群点21)在聚类分析当中,(AD)等技术可以处理任意形状的微.MIN(单琏)B.MAX(全链)C.组平均D.Chame1.eon22)(AB)都属于分裂的层次聚类算法。A.二分K均值B.MSTC.Chame1.eonD.组平均23)数据挖掘的挖掘方法包括:(ABCD)A.聚类分析B.回归分析C.神经网络D.决策树算法24)Web内容挖掘实现技术(ABCD)A.文本总结B.文本分类C.文本聚类D,关联规则25)基r内容的推荐生成推荐的过程主要依靠(ACD)A.内容分析器B.推荐系统C.文件学习器D,过滤部件26)云计算的效劳方式有(ACD).Ia<SB.RiUisC.PaaSD.SaaS27)文本挖掘的工具有(BCD)八.SPPTextMiningB. IBMDB2inte1.1igentMinerC. SASTextMinerD. SPSSTextMining28)推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、(D),推测客户将来可能的购置行为。.客户的朋友B.客户的个人信息C.客户的兴趣爱好D.客户过去的购置行为和购置记录29)数据预处理方法主要有(ABCD),A数据清洗B.数据集成C.数据变换D.数据归约30)与传统的分布式程序设计相比,Mapreduce封装了(ABCD)等细节,还提供了个简单而强大的接口。,并行处理B.容错处理C.本地化计尊D.负载均衡一、雎项选择题答案:1-5DAACB6-10CDBDC11-15DBADA16-20BDCCA21-25DCACC26-30CBDAC31-35BACCB36-40CBD41-45CAABA46-50CBACD51-55BCACD56-60ADBDC61-65CCDDC66-70DBDI)C71-75DCDBC76-80DDDBA二、判断题答案:12X3456X78×910111213×14X151617X1819×2021X2223X24X2526X27×28X2930X3132X33X34X3536×37383940三、多项选择题答案:1ABCD2ABCD3RB4ABCD5BCD6AC7ABD8ABCD9BCD10BCD11BD12AD13ABCD14AD15ACD16AB17C18AB19CD20ABCD21AD22B23ABCD24ABCD25ACD26ACD27BCD28I)29ABCD30ABCD