Python网络爬虫与数据采集试卷及答案4套.docx

上传人：夺命阿水

文档编号：1072698

上传时间：2024-03-13

格式：DOCX

页数：27

大小：74.60KB

《Python网络爬虫与数据采集试卷及答案4套.docx》由会员分享，可在线阅读，更多相关《Python网络爬虫与数据采集试卷及答案4套.docx（27页珍藏版）》请在课桌文档上搜索。

1、一、选择题（每题2分）1、查看网站所用的技术可以使用以下的哪个模块（）A. WadB. Python-whoisC. RequestD. Urllib2、以下的XPath中用于选取所用N节点的表达式是（）A. NB. /NC./ND.N/N3、正则表达式R0-93,能匹配出以下哪个字符串（）A. R3B. R03C. R09D. R0934、以下数据库中不属于关系数据库的是（）A. MysqlB. RedisC. MongpDBD. PostgreSQL5、以下关于COokie与SeSSic）n说法正确的是（）A. Cookie数据保存在服务器中B. Session数据保存在本地C.浏览器一般

2、将cookie数据保存在http的body中D.Session是指抽象的客户端-服务器交互模式6、以下re方法中用于替换字符串的是（）A. MatchB. SubC. Find_allD. Split7、以下哪一个Python库用于语言处理（）A. NumpyB. NLTKC. SympyD. Scipy8、前端页面向后端发送表单数据通常使用（）A. GetB. PostC. PutD. Delete9、Python的OPen方法中代表追加写内容的模式字符是（）A. rB. wC. aD. w+10、在SCraPy目录下，哪个文件负责存放爬虫文件（）A. spiders文件夹B. Item.p

3、yC. Pipeline.pyD. Setting.py二、判断题（每题2分）1、axios通过同步加载的方式完成对内容的获取与呈现（）2、ReqUeStS比于Urllib库更加简洁实用（）3、SeIeniUm相比于SPlaSh更加的节约资源（）4、DiCtReader可以将CSV的每一行作为一个字典来返回（）5、numpy一般是被认为基于PandaS设计的（）6、APi与网页抓取共用许多概念与技术（）7、破解滑动验证码需要实现图像拼接与匀速滑动（）8、一般情况下ajax返回的数据是以Xml形式封装的（）9、Tag标签为a、img、audio时属性为SrC（）10SeleniUm的Webdri

4、Ver的版本必须和浏览器的版本相对应（）三、填空题（每题2分）1、爬虫前我们应该了解网站的文件信息以被反爬虫封禁的风险。2、CSV文件的分隔值是o3、Python中内置的数据库模块是。4.python中主要使用模块来实现序列化与反序列化。5、常用的中文文本分析工具有。6、BeautifuISoup中，通过tag的content属性可以将tag子节点以方式输出。7、字符串Str可以通过方法来去除左右空格。8、用于re.findall函数中的表达式用于提取http:开始的超链接。9、解释Robots协议：o10、表示匹配空行的正则表达式是o四、简答题（每题4分）1、请简要说明使用Selenium的

5、大致流程。2、是否可以将自己的爬虫的User-agent设置为知名爬虫呢。3、请简要说明点击一个网页链接，会发生的一系列时间。4、请简要说明爬虫时应对图片验证码的主要思路有哪些。5、请简要说明cookie与session的区别。五、应用题（每题10分）1、使用requests模块,将httpsphysicalstoreindexajaxSearchStore7storeCity=5州&storeProvince=江苏，中的参数提取出来单独作为参数并访问这个url.2、使用requests模块访问并通过正则表达式获取标题。二、选择题（每题2分）11、查看网站所用的技术可以使用以下的哪个模块（八）

6、E. WadF. Python-whoisG. RequestH. Urllib12、以下的XPath中用于选取所用N节点的表达式是（C）E. NF. /NG./NH.N/N13、正则表达式R0-93,能匹配出以下哪个字符串（D）E. R3F. R03G. R09H. R09314、以下数据库中不属于关系数据库的是（B）E. MysqlF. RedisG. MongpDBH. PostgreSQL15、以下关于COOkie与SeSSion说法正确的是（D）E. Cookie数据保存在服务器中F. Session数据保存在本地G.浏览器一般将cookie数据保存在http的body中H.Sess

7、ion是指抽象的客户端服务器交互模式16、以下re方法中用于替换字符串的是（B）E. MatchF. SubG. Find_allH. Split17、以下哪一个Python库用于语言处理（B）I. NumpyJ. NLTKK. SympyL. Scipy18、前端页面向后端发送表单数据通常使用（B）E. GetF. PostG. PutH. Delete19、PythOn的OPen方法中代表追加写内容的模式字符是（C）E. rF. wG. aH. w+20、在SCraPy目录下，哪个文件负责存放爬虫文件（八）E. spiders文件夹F. Item.pyG. Pipeline.pyH. Se

8、tting.py六、判断题（每题2分）11、axios通过同步加载的方式完成对内容的获取与呈现（x）12、Requests比于urllib库更加简洁实用（J）13SeleniUm相比于SPIaSh更加的节约资源（）14、DiCtReader可以将CSV的每一行作为一个字典来返回（J）15numpy一般是被认为基于PandaS设计的（x）16、APi与网页抓取共用许多概念与技术（）17、破解滑动验证码需要实现图像拼接与匀速滑动（X）18、一般情况下ajax返回的数据是以Xml形式封装的（）19Tag标签为a、img、audio时属性为src（x）20SeleniUm的WebdriVer的版本必须

9、和浏览器的版本相对应（J）七、填空题（每题2分）11、爬虫前我们应该了解网站的robots.txt文件信息以被反爬虫封禁的风险。12、CSV文件的分隔值是逗号o13、PVthOn中内置的数据库模块是一SqIit。14、python中主要使用PiCkIe模块来实现序列化与反序列化。15、常用的中文文本分析工具有iieba、SnoWNLP。16、BeautifuISoup中，通过tag的content属性可以将tag子节点以列表方式输出。17、字符串Str可以通过一StriP方法来去除左右空格。18用于re.findall函数中的http:Ia-ZA-Zo-表达式用于提取http:开始的超链接。1

10、9、解释Robots协议：网络爬虫排除协议20、表示匹配空行的正则表达式是一八、简答题（每题4分）6、请简要说明使用Selenium的大致流程。（1）创建浏览器对象（2）访问页面（3）定位网页元素（4）网页交互7、是否可以将自己的爬虫的User-agent设置为知名爬虫呢。从代码的角度看，没有人会限制你使用什么样的User-agent,就是上面的例子。实际上，不断变换User-agent的值也是很多不友好爬虫为了躲避服务器的检测的常用做法。但是这种做法是非常不可取的，它扰乱了Web服务器的正常判断，就可能使得某种知名爬虫被检测出来不遵守Robots协议而产生纠纷。8、请简要说明点击一个网页链接

11、，会发生的一系列时间。浏览器响应点击事件，解析url,发起Web请求，建立与服务端的连接，服务端响应请求，服务端返回请示结果，浏览器处理返回的结果。9、请简要说明爬虫时应对图片验证码的主要思路有哪些。通过程序识别图片再转化为文字并输入。手动打码，避开程序破解验证码环节。使用人工打码平台服务。IO、请简要说明CoOkie与SeSSiOn的区别。Cookie数据保存在本地，而session数据保存在服务器。Session是指象的客户端-服务器交互模式，而cookie是session的一个具体实现手段。九、应用题(每题10分)1、使用requests模块,将importrequestsurl=3、使

12、用requests模块访问并通过正则表达式获取标题。importrequests,rer=requests.get(,https).content.decode(,utf-8,)pt=pile(,()(Ss+)(),)print(pt.search(r).group(2)三、选择题（每题2分）21、Python中，可以用来存储数据的文件类型包括（）I. txtJ. CSVjson1.以上所有22、可以用来解析XML文档的库有哪些（）I. BeautifuISoupJ. IxmlK. html.parserI.以上所有23、JUPyterNOteboOk对PythOn开发有什么帮助（）I.插入数

13、学公式J.制作演示文稿K.输入特殊关键字1.以上所有24、PythOn中用于进行自然语言处理的第三方库是（）。A. nltkB. spacyC. gensimD. jieba25、通用网络爬虫主要由哪些机构或者服务商使用（）I.电商平台J搜雪引擎K.金融机构1.媒体平台26、使用Urllib.request.urlopen（）方法请求网页时，如果需要添加请求头信息，应该使用哪个对象（）I. ResquestJ. ResponseK. OpenerL. Handler27、使用SeIenillm库进行动态页面抓取时，需要安装哪个组件（）A.Chrome浏览器B.Chrome插件C.Chrome驱

14、动D.Chrome扩展28、使用SeleniUm库进行动态页面抓取时,可以使用哪个方法模拟鼠标点击（）I. click（）J. press（）K. tap（）L. touch（）29python的爬虫框架包括（）I. scrapyJ. PySpiderPortia1.以上所有30、python与处理图片相关的工具或库不包括（）A. IxmlB. PILC. PillowD. OpenCV十、判断题（每题2分）21解析HTML只能使用BeaUtifUlSOUP库（）22、只能使用Matplotlib库来绘制图表（）23、使用Urllib.request.urlopen（）方法请求网页时，可以直接

15、添加请求头信息（）24、使用用户代理池可以有效地防止被目标网站识别为爬虫（）25、使用APi前，需要在提供APi服务的网站上申请一个接口服务（）26、网络爬虫可以用任何编程语言实现，如PHP、Java.PythOn等（）27、用UrlIib.request库进行浏览器伪装时，需要修改Referer字段（）28、AjaX是一种异步的JaVaSCriPt和XML技术，它可以在不刷新整个页面的情况下，与服务器进行数据交换（）29、IXml库可以解析HTML代码，并提取出所有标签、属性和文本内容（）30、正则表达式中，$表示匹配输入的开始，八表示匹配输入的结束，如果设置了多行标志，则它们也可以匹配换行

16、符前后的位置（）十一、填空题（每题2分）21、发送HTTP请求可以使用模块。22、是Python中用于处理表格数据的标准库，它支持多种格式的数据导入导出，如CSV、ExcekJSON等。23、使用库进行抓包分析，可以查看浏览器与服务器之间的通信过程和数据。24、使用库进行抓包分析，可以查看浏览器与服务器之间的通信过程和数据。25、是指服务器为了一定目的而储存在用户本地的数据。26、避开网站反爬虫机制可以用o27、实现浏览器伪装、代理设置、COOkie处理等可以使用库。28、在XPath语法中，用来表示当前节点的轴名称是o29、网络爬虫需要遵守目标网站的协议，以免造成不必要的麻烦。协议,以免造成

17、不必要的麻烦。30、单元测试除了可以用UnitteSt模块，还可以使用模块。十二、简答题（每题4分）11、请简要说明什么是序列化和反序列化？12如何在Python中使用requests库发送HTTP请求？13、简述SCraPy框架的优势（至少两条）14、请简要说明python相比MATLAB在科学计算和数据分析方面的优势（至少两条）。15、简述XPath表达式的基本规则（至少两条）。十三、应用题（每题10分）1、请写一个PythOn程序，用于从给定的多个CSV文件中读取数据，并将数据合并成一个新的CSV文件。4、使用selenium模拟页面下拉滚动。四、选择题(每题2分)31、Python中，

18、可以用来存储数据的文件类型包括(D)M. txtN. csvO. jsonP.以上所有32、可以用来解析XML文档的库有哪些(B)L. BeautifuISoupM. IxmlN. html.parserJ.以上所有33、JUPyterNOteboOk对PythOn开发有什么帮助(D)M.插入数学公式N.制作演示文稿0.输入特殊关键字P.以上所有34、PythOn中用于进行自然语言处理的第三方库是（八）。A. nltkB. spacyC. gensimD. jieba35、通用网络爬虫主要由哪些机构或者服务商使用(B)M.电商平台N.搜索引擎0.金融机构P.媒体平台36、使用Urllib.re

19、quest.urlopen()方法请求网页时，如果需要添加请求头信息，应该使用哪个对象(C)M. ResquestN. ResponseO. OpenerP. Handler37、使用SeIenillm库进行动态页面抓取时，需要安装哪个组件(C)A.Chrome浏览器B.Chrome插件C.Chrome驱动D.Chrome扩展38、使用SeieniUm库进行动态页面抓取时,可以使用哪个方法模拟鼠标点击（八）M. click()N. press()O. tap()P. touch()39、PythOn后爬虫框架包括(D)M. scrapyN. PySpiderO. PortiaP.以上所有40、

20、PythOn与处理图片相关的工具或库不包括（八）E. IxmlF. PILG. PillowH. OpenCV十四、判断题（每题2分）31、解析HTML只能使用BeaUtifUlSOUP库（x）32、只能使用Matplotlib库来绘制图表（x）33、使用UrlIib.request.urlopen（）方法请求网页时，可以直接添加请求头信息（x）34、使用用户代理池可以有效地防止被目标网站识别为爬虫（J）35、使用APi前，需要在提供APi服务的网站上申请一个接口服务（J）36、网络爬虫可以用任何编程语言实现，如PHP、Java.PythOn等（J）37、用Urllib.request库进行浏

21、览器伪装时,需要修改Referer字段（x）38、AjaX是一种异步的JaVaSeriPt和XML技术，它可以在不刷新整个页面的情况下，与服务器进行数据交换（J）39、IXml库可以解析HTML代码，并提取出所有标签、属性和文本内容（x）40、正则表达式中，$表示匹配输入的开始，八表示匹配输入的结束，如果设置了多行标志，则它们也可以匹配换行符前后的位置（X）十五、填空题（每题2分）31、发送HTTP请求可以使用request模块。32、PandaS是Python中用于处理表格数据的标准库，它支持多种格式的数据导入导出，如CSV、ExcekJSoN等。33、使用FiddIer库进行抓包分析,可以

22、查看浏览器与服务器之间的通信过程和数据。34、使用SeIeniUm库进行抓包分析,可以查看浏览器与服务器之间的通信过程和数据。35、cookies是指服务器为了一定目的而储存在用户本地的数据。36、避开网站反爬虫机制可以用伪装headers/使用代理IP地址/修改访问频率/动态拨号等。37、实现浏览器伪装、代理设置、Cookie处理等可以使用Urllib.request库。38、在XPath语法中，用来表示当前节点的轴名称是self。39、网络爬虫需要遵守目标网站的robots协议,以免造成不必要的麻烦。协议，以免造成不必要的麻烦。40、单元测试除了可以用UnitteSt模块，还可以使用PVt

23、eSt模块。十六、简答题（每题4分）16、请简要说明什么是序列化和反序列化？序列化是将对象转换为可存储或传输的格式的过程。反序列化是将序列化后的数据恢复为原始对象的过程。17如何在Python中使用requests库发送HTTP请求？可以使用requests库的get()或PoSto方法来发送HTTPGET或PoST请求。例如：importrequestsresponse=requests.get(https,)18、简述SCraPy框架的优势(至少两条)支持多种数据输出格式，如JSoN、CSV、XML等提供了一套完整的爬虫功能模块，包括请求管理、数据解析、数据存储、日志记录、异常处理等支持多

24、种中间件和扩展组件，如代理池、CoOkie池、反反爬机制等支持分布式爬取和增量式爬取，提高了爬虫的效率和稳定性19、请简要说明python相比MATLAB在科学计算和数据分析方面的优势(至少两条)。应用广泛有更多程序库简洁，易于编码有可移植性和可扩展性20、简述XPath表达式的基本规则(至少两条)。Nodel选取Nodel下的所有节点nodel分隔号代表到某元素的绝对路径,此处即选择根上的Nodel/nodel选取所有nodel元素,不考虑XML中的位置nodelnode2选取nodel子节点中的所有node2nodelnode2选取nodel所有后辈节点中的所有node2.选取当前节点.选

25、取当前的父节点/href选取XML中的所有href属性十七、应用题(每题10分)2、请写一个PythOn程序，用于从给定的多个CSV文件中读取数据，并将数据合并成一个新的CSV文件。importpandasaspdcsv_files=,filel.csv,file2.csv,zfile3.csvdata=forcsv_fileincsv_files:df=pd.read_csv(csv_file)data.append(df)merged_data=pd.concat(data,axis=O)merged_data.to_csv(merged_data.csvzindex=False)5、使用

26、selenium雇拟页面下i动。fromseleniumimportwebdriverfromselenium,webdriverimportActionChainsfromselenium,webdriver,common,keysimportKeysimporttime#滚动页面browser=webdriver.Chrome(,yourchromediverpath)browser.get(,print(browser.title)#输出:”百度一下,你就知道”foriinrange(20):#browser.execute_script(window.scrollTo(Ozdocume

27、nt.body.scrollHeight)#使用执行JS的方式滚击ActionChainsfbrowser),sendkeys(Keys.PAGEDOWN),perform()#使用模拟键盘输入的方式滚动time,sleep(0.5)browser,quit。#退出Python网络爬虫与数据采集试题五、选择题（每题2分）1、下列哪个选项不属于HTTP协议的请求方法？（）A. GETB. PUSHC. PUTD. POST2、下列哪个HTML标签可以设置超链接？（）A. B. C. D.3、正则表达式“d3d8d4d8能匹配下列哪个字符串？（）A. 010-12345678B. 0432-123

28、4567C. 01012345678D.043212345684、ReqUeStS库中，可以查看响应状态码的方法是（）A. textB. encodingC. cookiesD. status_code5、关于JaVaSCriPt说法不正确的是（）A. JavaScript是一种面向对象、动态类型的解释性语言B. JavaScript主要运行在网站服务器上C.浏览器中的页面是在HTML的基础上经过JaVaSCriPt加工处理后生成的D.JavaScript可以写在HTML的标签中6、下列NUmPy方法中，能够将两个二维数组横向拼接的是（）A. matB. invC. vstackD. hsta

29、ck7、以下不是SCQPy框架组件的是（）A. EngineB. SchedulerC. ProcesserD. Pipeline8、在SCraPy框架中，DownloaderF载页面内容后结果经Engine发送到哪个组件？（）A. SpidersB. PipelineC. SchedulerD.以上均不正确9、SCraPy项目的Settings.py文件中,指定Iog的最低级别的设置项是（）A. BOTNAMEB. DOWNLOAD_DELAYC. 1.OG_LEVELD. USER_AGENT10、ReqUeStHeader中指定是否需要持久连接的是（）A. AcceptB. Refere

30、rC. RangeD. Connection十八、判断题（每题2分）1、PythOn字符串操作中的StriP方法可以去掉字符串左、右侧的空格（）2、PythOn_whois库可以查询网站所有者的相关信息（）3、正则表达式中“$”匹配前面的子表达式。次或1次（）4、SQL是一种小巧易用的轻量型关系数据库系统（）5、PandaS中的SerieS数据类型的特点是相比普通的一维数组能存放更多数据（）6、MatPIotlib可以用于绘制图表。（）7、SeleniUm是一个专门用于开发Python爬虫的浏览器（）8、SeIeniUm中模拟键盘输入的函数是Send_keys（）（）9、PythOn自带的单元

31、测试模块是Unittest（）10、某同学认为自己开发的爬虫对网站的影响很小，可以忽略robots.txt中的内容（）三、填空题（每题2分）1 .旨在让网站访问者（或访问程序）了解该网站的信息抓取限制。2 .HTTP请求中的方法向指定资源提交数据进行处理请求。3 .正则表达式中表示匹配任意数字的是“Lo4 .Chrome开发者工具中的面板主要用来调试JaVaSCript05 .网络API使用约定和格式呈现数据。6 .是一个开源的键值对存储数据库。7 .可以操纵浏览器进行一些类似于普通用户的行为。8 .浏览器一般把COokie数据放在HTTP请求中的数据中。9 .可以类似jQuer的形式解析网页

32、，并支持CSS选择器。10 .验证码的英文名称缩写为。四、简答题（每题4分）1.请使用正则表达式匹配下列字符串（1）只能输入数字。（2）只能输入非零的正整数（3）只能输入长度为3的字符（4）只能输入由26个大写英文字母组成的字符串（5）只能输入由26个英文字母组成的字符串2 .请简述HTTP请求中的GET、HEAD、POST、PUT和DELETE方法（4分）3 .请举例说明5种反爬虫的方式（4分）4 .请简述SCraPy包含的组件及其功能。（至少举出5个组件）（4分）5 .请说明Scrapy爬虫的工作过程？（4分）五、应用题(20分)1.请使用MatPIotlib绘制卜五，五区间内的余弦函数图

33、像，要求曲线颜色为红色。2.请使用SeraPy框架编写Python程序，爬取豆瓣网首页()上所有a标签的文字内容。1.Python爬虫的作用是什么？OA.爬取网页上的图片B.爬取网页上的文本C.爬取网页上的视频D.爬取网页上的音频2 .以下哪个不是Python爬虫常用的库？OA. requestsB. BeautifulSoupC. ScrapyD. Pygame3 .以下哪个不是HnP协议中的请求方法？()A. GETB. POSTC. DELETED. UPDATE4 .以下哪个正则表达式可以匹配所有以数字开头的字符串？OA.%d+*B.、d*$C.、d+$D.dl,)S5 .以下哪个不是

34、BCaUtifUISoUP库中常用的解析器？OA. IxmlB. html.parserC. xmlD. json6 .以下哪个XPath表达式可以选取所有class属性为example”的元素？()A. *class=exampl。”B. /*class=z*cxamplez,C. *CIaSS=cxample”D. *7 .以下哪个不是Python网络爬虫的常用爬取策略？OA.深度优先策略8 .广度优先策略C.贪心策略D.随机策略8 .以下哪个不是PythOn网络爬虫的常用反爬机制？OA. IP代理池B. User-Agent伪装C.验证码识别D.数据加密9 .以下哪个不是Python网络

35、爬虫的常用反反爬机制？()A.动态IP代理池10 随机User-Agent伪装C.模拟登录验证机制D.数据解密10. Python爬虫中常用的数据处理工具有哪些？OA. pandas库B. numpy库C. matplotlib库D.以上所有1 .在字符串前添加r可使字符串不经过转义()2 .可以直接通过BcautifulSoup或tag对象实现BeautifulSoup中find_all()方法的功能()3 .HTTP所有状态码的第一个数字代表了响应的五种状态之一O4 .HTTP状态码中，200表示请求已成功，数据随此响应返回O5 .在XPath中，希望选取此节点的所有子节点，应该使用“O6

36、 .在XPath中，希望选取所有名称为“title”的子节点，应该使用“title”O7 .在XPath中，希望选取所有名称为title且属于bookstore元素的元素，应该使用”bOOkStore/title”()8 .在XPath中，希望选取所有价格大于或等于30且小于40的书应该使用”/bookprice=30andprice40,()9 .正则表达式中，使用“a.*”来匹配任意以字母a开头的字符串O10.BeautifulSoup库可以通过属性名和属性值来查找HTML或XML文件中的元素，比如使用SOUP.find_all(attrs=class:book)来查找所有属性名为book

37、的元素，返回值是一个列表O1. 在浏览器中打开网站后，在网站首页的地址后面添加,如果网站设置了访问许可,按回车就可以看到网站的robots协议，即robots.txt文件内容。2. Web页面它具有一定的结构，即由。3. HTTP状态码是用来表示网页服务器HTTP响应状态的3位数字代码。状态码包含了五种类别，即消息、和服务器错误.4. 404代表rtNOTFOUNDw,认为网页已经失效；_代表rtServiceUnavailablew,认为网页临时不可访问；代表“Forbidden”，认为网页目前禁止访问；代表是“MovedPermanentIyw,认为网页重定向至新URLo5. ReqUeS

38、tS模块中，headers参数的作用是。6. 若想要读写模式打开文件，应该使用一7. Cooike是_端的，数据保存在_端；SeSSiOn是端的，数据保存在。8. 使用InatPlotIib绘制散点图，使用的函数是09. htnl标签从闭合的角度可以分为与。10. 按照链接的存在方式不同，分为和。1 .什么是爬虫？2 .爬虫的流程是什么？3 .Python中常用的爬虫库有哪些？4 .写爬虫是用单线程好还是多线程好？为什么？5 .爬虫中如何处理动态页面？1 .爬取百度(“https:WwW)首页的HTML代码2 .爬取豆瓣电影Top250(wPython网络爬虫与数据采集试题六、选择题（每题2分

39、）1、下列哪个选项不属于HTTP协议的请求方法？（B）E. GETF. PUSHG. PUTH. POST11、下列哪个HTML标签可以设置超链接？（C）E. F. G. H.12、正则表达式“d3d8d4d8“能匹配下列哪个字符串?（八）E.010-12345678F.0432-1234567G.01012345678H.0432123456813、ReqUeStS库中，可以查看响应状态码的方法是（D）E. textF. encodingG. cookiesH. status_code14、关于JaVaSCriPt说法不正确的是（B）E. JavaScript是一种面向对象、动态类型的解释性

40、语言F. JavaScript主要运行在网站服务器上G.浏览器中的页面是在HTML的基础上经过JavaScript加工处理后生成的H.JavaScript可以写在HTML的标签中15、下列NUmPy方法中，能够将两个二维数组横向拼接的是（D）E. matF. invG. vstackH. hstack16、以下不是SCraPy框架组件的是（C）E. EngineF. SchedulerG. ProcesserH. Pipeline17、在SCraPy框架中，DOWnlOader下载页面内容后结果经Engine发送到哪个组件？（八）E. SpidersF. PipelineG. Schedule

41、rH,以上均不正确18、Scrapy项目的settings.py文件中，指定Iog的最低级别的设置项是（C）E.BOTNAMEF.DOWNLOAD_DELAYG.LOG_LEVELH. USERAGENT19、ReqUeStHeader中指定是否需要持久连接的是（D）E. AcceptF. RefererG.RangeH.Connection十九、判断题（每题2分）11、PythOn字符串操作中的StriP方法可以去掉字符串左、右侧的空格（J）12、PythokWhOiS库可以查询网站所有者的相关信息（J）13、正则表达式中“$”匹配前面的子表达式。次或1次（X）14、SQL是一种小巧易用的轻

42、量型关系数据库系统（X）15、PandaS中的SerieS数据类型的特点是相比普通的一维数组能存放更多数据（x）16、MatPIotIib可以用于绘制图表。（V）17、SeleniUm是一个专门用于开发PythOn爬虫的浏览器（x）18、SeieniUm中模拟键盘输入的函数是Send_keysO（J）19、Python自带的单元测试模块是UnitteSt（J）20、某同学认为自己开发的爬虫对网站的影响很小，可以忽略robots.txt中的内容（X）三、填空题（每题2分）11 .RobotS协议旨在让网站访问者（或访问程序）了解该网站的信息抓取限制。12 .HTTP请求中的51方法向指定资源提交

43、数据进行处理请求。13 .正则表达式中表示匹配任意数字的是“91”.14 .Chrome开发者工具中的SoUrCeS面板主要用来调试JaVaSCriDt015 .网络API使用约定XML和JSON格式呈现数据。16 .皿是一个开源的键值对存储数据库。17 .回皿_可以操纵浏览器进行一些类似于普通用户的行为。18 .浏览器一般把Cookie数据放在HTTP请求中的Header数据中。19 .PVQUerV可以类似iQuerv的形式解析网页，并支持CSS选择器。20 .验证码的英文名称缩写为CAPTCHA。四、简答题（每题4分）1.请使用正则表达式匹配下列字符串（1）只能输入数字。（2）只能输入非零的正整数（3）只能输入长度为3的字符（4）只能输入由26个大写英文字母组成的字符串（5）只能输入由26个英文字母组成的字符串（1） A0-9*$（2） A+?l-9