Python网络爬虫与数据采集试卷及答案4套.docx
一、选择题(每题2分)1、查看网站所用的技术可以使用以下的哪个模块()A. WadB. Python-whoisC. RequestD. Urllib2、以下的XPath中用于选取所用N节点的表达式是()A. NB. /NC./ND.N/N3、正则表达式R0-93,能匹配出以下哪个字符串()A. R3B. R03C. R09D. R0934、以下数据库中不属于关系数据库的是()A. MysqlB. RedisC. MongpDBD. PostgreSQL5、以下关于COokie与SeSSic)n说法正确的是()A. Cookie数据保存在服务器中B. Session数据保存在本地C.浏览器一般将cookie数据保存在http的body中D.Session是指抽象的客户端-服务器交互模式6、以下re方法中用于替换字符串的是()A. MatchB. SubC. Find_allD. Split7、以下哪一个Python库用于语言处理()A. NumpyB. NLTKC. SympyD. Scipy8、前端页面向后端发送表单数据通常使用()A. GetB. PostC. PutD. Delete9、Python的OPen方法中代表追加写内容的模式字符是()A. rB. wC. aD. w+10、在SCraPy目录下,哪个文件负责存放爬虫文件()A. spiders文件夹B. Item.pyC. Pipeline.pyD. Setting.py二、判断题(每题2分)1、axios通过同步加载的方式完成对内容的获取与呈现()2、ReqUeStS比于Urllib库更加简洁实用()3、SeIeniUm相比于SPlaSh更加的节约资源()4、DiCtReader可以将CSV的每一行作为一个字典来返回()5、numpy一般是被认为基于PandaS设计的()6、APi与网页抓取共用许多概念与技术()7、破解滑动验证码需要实现图像拼接与匀速滑动()8、一般情况下ajax返回的数据是以Xml形式封装的()9、Tag标签为a、img、audio时属性为SrC()10SeleniUm的WebdriVer的版本必须和浏览器的版本相对应()三、填空题(每题2分)1、爬虫前我们应该了解网站的文件信息以被反爬虫封禁的风险。2、CSV文件的分隔值是o3、Python中内置的数据库模块是。4.python中主要使用模块来实现序列化与反序列化。5、常用的中文文本分析工具有。6、BeautifuISoup中,通过tag的content属性可以将tag子节点以方式输出。7、字符串Str可以通过方法来去除左右空格。8、用于re.findall函数中的表达式用于提取http:开始的超链接。9、解释Robots协议:o10、表示匹配空行的正则表达式是o四、简答题(每题4分)1、请简要说明使用Selenium的大致流程。2、是否可以将自己的爬虫的User-agent设置为知名爬虫呢。3、请简要说明点击一个网页链接,会发生的一系列时间。4、请简要说明爬虫时应对图片验证码的主要思路有哪些。5、请简要说明cookie与session的区别。五、应用题(每题10分)1、使用requests模块,将'httpsphysicalstoreindexajaxSearchStore'7storeCity=5'州&storeProvince=江苏,中的参数提取出来单独作为参数并访问这个url.2、使用requests模块访问并通过正则表达式获取标题。二、选择题(每题2分)11、查看网站所用的技术可以使用以下的哪个模块(八)E. WadF. Python-whoisG. RequestH. Urllib12、以下的XPath中用于选取所用N节点的表达式是(C)E. NF. /NG./NH.N/N13、正则表达式R0-93,能匹配出以下哪个字符串(D)E. R3F. R03G. R09H. R09314、以下数据库中不属于关系数据库的是(B)E. MysqlF. RedisG. MongpDBH. PostgreSQL15、以下关于COOkie与SeSSion说法正确的是(D)E. Cookie数据保存在服务器中F. Session数据保存在本地G.浏览器一般将cookie数据保存在http的body中H.Session是指抽象的客户端服务器交互模式16、以下re方法中用于替换字符串的是(B)E. MatchF. SubG. Find_allH. Split17、以下哪一个Python库用于语言处理(B)I. NumpyJ. NLTKK. SympyL. Scipy18、前端页面向后端发送表单数据通常使用(B)E. GetF. PostG. PutH. Delete19、PythOn的OPen方法中代表追加写内容的模式字符是(C)E. rF. wG. aH. w+20、在SCraPy目录下,哪个文件负责存放爬虫文件(八)E. spiders文件夹F. Item.pyG. Pipeline.pyH. Setting.py六、判断题(每题2分)11、axios通过同步加载的方式完成对内容的获取与呈现(x)12、Requests比于urllib库更加简洁实用(J)13SeleniUm相比于SPIaSh更加的节约资源(×)14、DiCtReader可以将CSV的每一行作为一个字典来返回(J)15>numpy一般是被认为基于PandaS设计的(x)16、APi与网页抓取共用许多概念与技术()17、破解滑动验证码需要实现图像拼接与匀速滑动(X)18、一般情况下ajax返回的数据是以Xml形式封装的()19Tag标签为a、img、audio时属性为src(x)20SeleniUm的WebdriVer的版本必须和浏览器的版本相对应(J)七、填空题(每题2分)11、爬虫前我们应该了解网站的robots.txt文件信息以被反爬虫封禁的风险。12、CSV文件的分隔值是逗号o13、PVthOn中内置的数据库模块是一SqIit。14、python中主要使用PiCkIe模块来实现序列化与反序列化。15、常用的中文文本分析工具有iieba、SnoWNLP。16、BeautifuISoup中,通过tag的content属性可以将tag子节点以列表方式输出。17、字符串Str可以通过一StriP方法来去除左右空格。18>用于re.findall函数中的http:Ia-ZA-Zo-表达式用于提取http:开始的超链接。19、解释Robots协议:网络爬虫排除协议°20、表示匹配空行的正则表达式是一"八、简答题(每题4分)6、请简要说明使用Selenium的大致流程。(1)创建浏览器对象(2)访问页面(3)定位网页元素(4)网页交互7、是否可以将自己的爬虫的User-agent设置为知名爬虫呢。从代码的角度看,没有人会限制你使用什么样的User-agent,就是上面的例子。实际上,不断变换User-agent的值也是很多不友好爬虫为了躲避服务器的检测的常用做法。但是这种做法是非常不可取的,它扰乱了Web服务器的正常判断,就可能使得某种知名爬虫被检测出来不遵守Robots协议而产生纠纷。8、请简要说明点击一个网页链接,会发生的一系列时间。浏览器响应点击事件,解析url,发起Web请求,建立与服务端的连接,服务端响应请求,服务端返回请示结果,浏览器处理返回的结果。9、请简要说明爬虫时应对图片验证码的主要思路有哪些。通过程序识别图片再转化为文字并输入。手动打码,避开程序破解验证码环节。使用人工打码平台服务。IO、请简要说明CoOkie与SeSSiOn的区别。Cookie数据保存在本地,而session数据保存在服务器。Session是指象的客户端-服务器交互模式,而cookie是session的一个具体实现手段。九、应用题(每题10分)1、使用requests模块,将'importrequestsurl='3、使用requests模块访问并通过正则表达式获取标题。importrequests,rer=requests.get(,https').content.decode(,utf-8,)pt=pile(,(<title>)(Ss+)(<title>),)print(pt.search(r).group(2)三、选择题(每题2分)21、Python中,可以用来存储数据的文件类型包括()I. txtJ. CSVjson1.以上所有22、可以用来解析XML文档的库有哪些()I. BeautifuISoupJ. IxmlK. html.parserI.以上所有23、JUPyterNOteboOk对PythOn开发有什么帮助()I.插入数学公式J.制作演示文稿K.输入特殊关键字1.以上所有24、PythOn中用于进行自然语言处理的第三方库是()。A. nltkB. spacyC. gensimD. jieba25、通用网络爬虫主要由哪些机构或者服务商使用()I.电商平台J搜雪引擎K.金融机构1.媒体平台26、使用Urllib.request.urlopen()方法请求网页时,如果需要添加请求头信息,应该使用哪个对象()I. ResquestJ. ResponseK. OpenerL. Handler27、使用SeIenillm库进行动态页面抓取时,需要安装哪个组件()A.Chrome浏览器B.Chrome插件C.Chrome驱动D.Chrome扩展28、使用SeleniUm库进行动态页面抓取时,可以使用哪个方法模拟鼠标点击()I. click()J. press()K. tap()L. touch()29>python的爬虫框架包括()I. scrapyJ. PySpiderPortia1.以上所有30、python与处理图片相关的工具或库不包括()A. IxmlB. PILC. PillowD. OpenCV十、判断题(每题2分)21>解析HTML只能使用BeaUtifUlSOUP库()22、只能使用Matplotlib库来绘制图表()23、使用Urllib.request.urlopen()方法请求网页时,可以直接添加请求头信息()24、使用用户代理池可以有效地防止被目标网站识别为爬虫()25、使用APi前,需要在提供APi服务的网站上申请一个接口服务()26、网络爬虫可以用任何编程语言实现,如PHP、Java.PythOn等()27、用UrlIib.request库进行浏览器伪装时,需要修改Referer字段()28、AjaX是一种异步的JaVaSCriPt和XML技术,它可以在不刷新整个页面的情况下,与服务器进行数据交换()29、IXml库可以解析HTML代码,并提取出所有标签、属性和文本内容()30、正则表达式中,$表示匹配输入的开始,八表示匹配输入的结束,如果设置了多行标志,则它们也可以匹配换行符前后的位置()十一、填空题(每题2分)21、发送HTTP请求可以使用模块。22、是Python中用于处理表格数据的标准库,它支持多种格式的数据导入导出,如CSV、ExcekJSON等。23、使用库进行抓包分析,可以查看浏览器与服务器之间的通信过程和数据。24、使用库进行抓包分析,可以查看浏览器与服务器之间的通信过程和数据。25、是指服务器为了一定目的而储存在用户本地的数据。26、避开网站反爬虫机制可以用o27、实现浏览器伪装、代理设置、COOkie处理等可以使用库。28、在XPath语法中,用来表示当前节点的轴名称是o29、网络爬虫需要遵守目标网站的协议,以免造成不必要的麻烦。协议,以免造成不必要的麻烦。30、单元测试除了可以用UnitteSt模块,还可以使用模块。十二、简答题(每题4分)11、请简要说明什么是序列化和反序列化?12>如何在Python中使用requests库发送HTTP请求?13、简述SCraPy框架的优势(至少两条)14、请简要说明python相比MATLAB在科学计算和数据分析方面的优势(至少两条)。15、简述XPath表达式的基本规则(至少两条)。十三、应用题(每题10分)1、请写一个PythOn程序,用于从给定的多个CSV文件中读取数据,并将数据合并成一个新的CSV文件。4、使用selenium模拟页面下拉滚动。四、选择题(每题2分)31、Python中,可以用来存储数据的文件类型包括(D)M. txtN. csvO. jsonP.以上所有32、可以用来解析XML文档的库有哪些(B)L. BeautifuISoupM. IxmlN. html.parserJ.以上所有33、JUPyterNOteboOk对PythOn开发有什么帮助(D)M.插入数学公式N.制作演示文稿0.输入特殊关键字P.以上所有34、PythOn中用于进行自然语言处理的第三方库是(八)。A. nltkB. spacyC. gensimD. jieba35、通用网络爬虫主要由哪些机构或者服务商使用(B)M.电商平台N.搜索引擎0.金融机构P.媒体平台36、使用Urllib.request.urlopen()方法请求网页时,如果需要添加请求头信息,应该使用哪个对象(C)M. ResquestN. ResponseO. OpenerP. Handler37、使用SeIenillm库进行动态页面抓取时,需要安装哪个组件(C)A.Chrome浏览器B.Chrome插件C.Chrome驱动D.Chrome扩展38、使用SeieniUm库进行动态页面抓取时,可以使用哪个方法模拟鼠标点击(八)M. click()N. press()O. tap()P. touch()39、PythOn后爬虫框架包括(D)M. scrapyN. PySpiderO. PortiaP.以上所有40、PythOn与处理图片相关的工具或库不包括(八)E. IxmlF. PILG. PillowH. OpenCV十四、判断题(每题2分)31、解析HTML只能使用BeaUtifUlSOUP库(x)32、只能使用Matplotlib库来绘制图表(x)33、使用UrlIib.request.urlopen()方法请求网页时,可以直接添加请求头信息(x)34、使用用户代理池可以有效地防止被目标网站识别为爬虫(J)35、使用APi前,需要在提供APi服务的网站上申请一个接口服务(J)36、网络爬虫可以用任何编程语言实现,如PHP、Java.PythOn等(J)37、用Urllib.request库进行浏览器伪装时,需要修改Referer字段(x)38、AjaX是一种异步的JaVaSeriPt和XML技术,它可以在不刷新整个页面的情况下,与服务器进行数据交换(J)39、IXml库可以解析HTML代码,并提取出所有标签、属性和文本内容(x)40、正则表达式中,$表示匹配输入的开始,八表示匹配输入的结束,如果设置了多行标志,则它们也可以匹配换行符前后的位置(X)十五、填空题(每题2分)31、发送HTTP请求可以使用request模块。32、PandaS是Python中用于处理表格数据的标准库,它支持多种格式的数据导入导出,如CSV、ExcekJSoN等。33、使用FiddIer库进行抓包分析,可以查看浏览器与服务器之间的通信过程和数据。34、使用SeIeniUm库进行抓包分析,可以查看浏览器与服务器之间的通信过程和数据。35、cookies是指服务器为了一定目的而储存在用户本地的数据。36、避开网站反爬虫机制可以用伪装headers/使用代理IP地址/修改访问频率/动态拨号等。37、实现浏览器伪装、代理设置、Cookie处理等可以使用Urllib.request库。38、在XPath语法中,用来表示当前节点的轴名称是self。39、网络爬虫需要遵守目标网站的robots协议,以免造成不必要的麻烦。协议,以免造成不必要的麻烦。40、单元测试除了可以用UnitteSt模块,还可以使用PVteSt模块。十六、简答题(每题4分)16、请简要说明什么是序列化和反序列化?序列化是将对象转换为可存储或传输的格式的过程。反序列化是将序列化后的数据恢复为原始对象的过程。17如何在Python中使用requests库发送HTTP请求?可以使用requests库的get()或PoSto方法来发送HTTPGET或PoST请求。例如:importrequestsresponse=requests.get('https,)18、简述SCraPy框架的优势(至少两条)支持多种数据输出格式,如JSoN、CSV、XML等提供了一套完整的爬虫功能模块,包括请求管理、数据解析、数据存储、日志记录、异常处理等支持多种中间件和扩展组件,如代理池、CoOkie池、反反爬机制等支持分布式爬取和增量式爬取,提高了爬虫的效率和稳定性19、请简要说明python相比MATLAB在科学计算和数据分析方面的优势(至少两条)。应用广泛有更多程序库简洁,易于编码有可移植性和可扩展性20、简述XPath表达式的基本规则(至少两条)。Nodel选取Nodel下的所有节点nodel分隔号代表到某元素的绝对路径,此处即选择根上的Nodel/nodel选取所有nodel元素,不考虑XML中的位置nodelnode2选取nodel子节点中的所有node2nodelnode2选取nodel所有后辈节点中的所有node2.选取当前节点.选取当前的父节点/href选取XML中的所有href属性十七、应用题(每题10分)2、请写一个PythOn程序,用于从给定的多个CSV文件中读取数据,并将数据合并成一个新的CSV文件。importpandasaspdcsv_files=,filel.csv,file2.csv,z'file3.csv'data=forcsv_fileincsv_files:df=pd.read_csv(csv_file)data.append(df)merged_data=pd.concat(data,axis=O)merged_data.to_csv('merged_data.csv'zindex=False)5、使用selenium雇拟页面下i动。fromseleniumimportwebdriverfromselenium,webdriverimportActionChainsfromselenium,webdriver,common,keysimportKeysimporttime#滚动页面browser=webdriver.Chrome(,yourchromediverpath')browser.get(,print(browser.title)#输出:”百度一下,你就知道”foriinrange(20):#browser.execute_script("window.scrollTo(Ozdocument.body.scrollHeight)")#使用执行JS的方式滚击ActionChainsfbrowser),sendkeys(Keys.PAGEDOWN),perform()#使用模拟键盘输入的方式滚动time,sleep(0.5)browser,quit。#退出Python网络爬虫与数据采集试题五、选择题(每题2分)1、下列哪个选项不属于HTTP协议的请求方法?()A. GETB. PUSHC. PUTD. POST2、下列哪个HTML标签可以设置超链接?()A. <p>B. <div>C. <a>D.<hl>3、正则表达式“d3d8d4d8"能匹配下列哪个字符串?()A. 010-12345678B. 0432-1234567C. 01012345678D.043212345684、ReqUeStS库中,可以查看响应状态码的方法是()A. textB. encodingC. cookiesD. status_code5、关于JaVaSCriPt说法不正确的是()A. JavaScript是一种面向对象、动态类型的解释性语言B. JavaScript主要运行在网站服务器上C.浏览器中的页面是在HTML的基础上经过JaVaSCriPt加工处理后生成的D.JavaScript可以写在HTML的<script>标签中6、下列NUmPy方法中,能够将两个二维数组横向拼接的是()A. matB. invC. vstackD. hstack7、以下不是SCQPy框架组件的是()A. EngineB. SchedulerC. ProcesserD. Pipeline8、在SCraPy框架中,DownloaderF载页面内容后结果经Engine发送到哪个组件?()A. SpidersB. PipelineC. SchedulerD.以上均不正确9、SCraPy项目的Settings.py文件中,指定Iog的最低级别的设置项是()A. BOTNAMEB. DOWNLOAD_DELAYC. 1.OG_LEVELD. USER_AGENT10、ReqUeStHeader中指定是否需要持久连接的是()A. AcceptB. RefererC. RangeD. Connection十八、判断题(每题2分)1、PythOn字符串操作中的StriP方法可以去掉字符串左、右侧的空格()2、PythOn_whois库可以查询网站所有者的相关信息()3、正则表达式中“$”匹配前面的子表达式。次或1次()4、SQL是一种小巧易用的轻量型关系数据库系统()5、PandaS中的SerieS数据类型的特点是相比普通的一维数组能存放更多数据()6、MatPIotlib可以用于绘制图表。()7、SeleniUm是一个专门用于开发Python爬虫的浏览器()8、SeIeniUm中模拟键盘输入的函数是Send_keys()()9、PythOn自带的单元测试模块是Unittest()10、某同学认为自己开发的爬虫对网站的影响很小,可以忽略robots.txt中的内容()三、填空题(每题2分)1 .旨在让网站访问者(或访问程序)了解该网站的信息抓取限制。2 .HTTP请求中的方法向指定资源提交数据进行处理请求。3 .正则表达式中表示匹配任意数字的是“Lo4 .Chrome开发者工具中的面板主要用来调试JaVaSCript05 .网络API使用约定和格式呈现数据。6 .是一个开源的键值对存储数据库。7 .可以操纵浏览器进行一些类似于普通用户的行为。8 .浏览器一般把COokie数据放在HTTP请求中的数据中。9 .可以类似jQuer的形式解析网页,并支持CSS选择器。10 .验证码的英文名称缩写为。四、简答题(每题4分)1.请使用正则表达式匹配下列字符串(1)只能输入数字。(2)只能输入非零的正整数(3)只能输入长度为3的字符(4)只能输入由26个大写英文字母组成的字符串(5)只能输入由26个英文字母组成的字符串2 .请简述HTTP请求中的GET、HEAD、POST、PUT和DELETE方法(4分)3 .请举例说明5种反爬虫的方式(4分)4 .请简述SCraPy包含的组件及其功能。(至少举出5个组件)(4分)5 .请说明Scrapy爬虫的工作过程?(4分)五、应用题(20分)1.请使用MatPIotlib绘制卜五,五区间内的余弦函数图像,要求曲线颜色为红色。2.请使用SeraPy框架编写Python程序,爬取豆瓣网首页()上所有a标签的文字内容。1.Python爬虫的作用是什么?OA.爬取网页上的图片B.爬取网页上的文本C.爬取网页上的视频D.爬取网页上的音频2 .以下哪个不是Python爬虫常用的库?OA. requestsB. BeautifulSoupC. ScrapyD. Pygame3 .以下哪个不是HnP协议中的请求方法?()A. GETB. POSTC. DELETED. UPDATE4 .以下哪个正则表达式可以匹配所有以数字开头的字符串?OA.%d+*B.、d*$C.、d+$D.dl,)S5 .以下哪个不是BCaUtifUISoUP库中常用的解析器?OA. IxmlB. html.parserC. xmlD. json6 .以下哪个XPath表达式可以选取所有class属性为"example”的元素?()A. *class="exampl。”B. /*class=z*cxamplez,C. *CIaSS="cxample”D. *7 .以下哪个不是Python网络爬虫的常用爬取策略?OA.深度优先策略8 .广度优先策略C.贪心策略D.随机策略8 .以下哪个不是PythOn网络爬虫的常用反爬机制?OA. IP代理池B. User-Agent伪装C.验证码识别D.数据加密9 .以下哪个不是Python网络爬虫的常用反反爬机制?()A.动态IP代理池10 随机User-Agent伪装C.模拟登录验证机制D.数据解密10. Python爬虫中常用的数据处理工具有哪些?OA. pandas库B. numpy库C. matplotlib库D.以上所有1 .在字符串前添加r可使字符串不经过转义()2 .可以直接通过BcautifulSoup或tag对象实现BeautifulSoup中find_all()方法的功能()3 .HTTP所有状态码的第一个数字代表了响应的五种状态之一O4 .HTTP状态码中,200表示请求已成功,数据随此响应返回O5 .在XPath中,希望选取此节点的所有子节点,应该使用“"O6 .在XPath中,希望选取所有名称为“title”的子节点,应该使用“title”O7 .在XPath中,希望选取所有名称为title且属于bookstore元素的元素,应该使用”bOOkStore/title”()8 .在XPath中,希望选取所有价格大于或等于30且小于40的书应该使用”/bookprice>=30andprice<40,()9 .正则表达式中,使用“a.*”来匹配任意以字母a开头的字符串O10.BeautifulSoup库可以通过属性名和属性值来查找HTML或XML文件中的元素,比如使用SOUP.find_all(attrs="class":"book")来查找所有属性名为book的元素,返回值是一个列表O1. 在浏览器中打开网站后,在网站首页的地址后面添加,如果网站设置了访问许可,按回车就可以看到网站的robots协议,即robots.txt文件内容。2. Web页面它具有一定的结构,即由。3. HTTP状态码是用来表示网页服务器HTTP响应状态的3位数字代码。状态码包含了五种类别,即消息、和服务器错误.4. 404代表rtNOTFOUNDw,认为网页已经失效;_代表rtServiceUnavailablew,认为网页临时不可访问;代表“Forbidden”,认为网页目前禁止访问;代表是“MovedPermanentIyw,认为网页重定向至新URLo5. ReqUeStS模块中,headers参数的作用是。6. 若想要读写模式打开文件,应该使用一7. Cooike是_端的,数据保存在_端;SeSSiOn是端的,数据保存在。8. 使用InatPlotIib绘制散点图,使用的函数是09. htnl标签从闭合的角度可以分为与。10. 按照链接的存在方式不同,分为和。1 .什么是爬虫?2 .爬虫的流程是什么?3 .Python中常用的爬虫库有哪些?4 .写爬虫是用单线程好还是多线程好?为什么?5 .爬虫中如何处理动态页面?1 .爬取百度(“https:WwW")首页的HTML代码2 .爬取豆瓣电影Top250(wPython网络爬虫与数据采集试题六、选择题(每题2分)1、下列哪个选项不属于HTTP协议的请求方法?(B)E. GETF. PUSHG. PUTH. POST11、下列哪个HTML标签可以设置超链接?(C)E. <p>F. <div>G. <a>H.<hl>12、正则表达式“d3d8d4d8“能匹配下列哪个字符串?(八)E.010-12345678F.0432-1234567G.01012345678H.0432123456813、ReqUeStS库中,可以查看响应状态码的方法是(D)E. textF. encodingG. cookiesH. status_code14、关于JaVaSCriPt说法不正确的是(B)E. JavaScript是一种面向对象、动态类型的解释性语言F. JavaScript主要运行在网站服务器上G.浏览器中的页面是在HTML的基础上经过JavaScript加工处理后生成的H.JavaScript可以写在HTML的<script>标签中15、下列NUmPy方法中,能够将两个二维数组横向拼接的是(D)E. matF. invG. vstackH. hstack16、以下不是SCraPy框架组件的是(C)E. EngineF. SchedulerG. ProcesserH. Pipeline17、在SCraPy框架中,DOWnlOader下载页面内容后结果经Engine发送到哪个组件?(八)E. SpidersF. PipelineG. SchedulerH,以上均不正确18、Scrapy项目的settings.py文件中,指定Iog的最低级别的设置项是(C)E.BOTNAMEF.DOWNLOAD_DELAYG.LOG_LEVELH. USERAGENT19、ReqUeStHeader中指定是否需要持久连接的是(D)E. AcceptF. RefererG.RangeH.Connection十九、判断题(每题2分)11、PythOn字符串操作中的StriP方法可以去掉字符串左、右侧的空格(J)12、PythokWhOiS库可以查询网站所有者的相关信息(J)13、正则表达式中“$”匹配前面的子表达式。次或1次(X)14、SQL是一种小巧易用的轻量型关系数据库系统(X)15、PandaS中的SerieS数据类型的特点是相比普通的一维数组能存放更多数据(x)16、MatPIotIib可以用于绘制图表。(V)17、SeleniUm是一个专门用于开发PythOn爬虫的浏览器(x)18、SeieniUm中模拟键盘输入的函数是Send_keysO(J)19、Python自带的单元测试模块是UnitteSt(J)20、某同学认为自己开发的爬虫对网站的影响很小,可以忽略robots.txt中的内容(X)三、填空题(每题2分)11 .RobotS协议旨在让网站访问者(或访问程序)了解该网站的信息抓取限制。12 .HTTP请求中的£51方法向指定资源提交数据进行处理请求。13 .正则表达式中表示匹配任意数字的是“91”.14 .Chrome开发者工具中的SoUrCeS面板主要用来调试JaVaSCriDt015 .网络API使用约定XML和JSON格式呈现数据。16 .皿是一个开源的键值对存储数据库。17 .回皿_可以操纵浏览器进行一些类似于普通用户的行为。18 .浏览器一般把Cookie数据放在HTTP请求中的Header数据中。19 .PVQUerV可以类似iQuerv的形式解析网页,并支持CSS选择器。20 .验证码的英文名称缩写为CAPTCHA。四、简答题(每题4分)1.请使用正则表达式匹配下列字符串(1)只能输入数字。(2)只能输入非零的正整数(3)只能输入长度为3的字符(4)只能输入由26个大写英文字母组成的字符串(5)只能输入由26个英文字母组成的字符串(1) A0-9*$(2) A"+?l-9