python爬虫常见面试问题（内附答案）

前言

又到一年一度的“金三银四”求职高峰期。对于爬虫工程师来说，面试前做好充足准备，才能事半功倍。今天给小伙伴们分享5道Python爬虫面试提及回答。

问题1：你写爬虫的时候都遇到过什么反爬虫措施，你最终是怎样解决的？

通过headers反爬虫：解决策略，伪造headers，基于用户行为反爬虫：动态变化去爬取数据，模拟普通用户的行为，使用IP代理池爬取或者降低抓取频率，或通过动态更改代理ip来反爬虫，基于动态页面的反爬虫：跟踪服务器发送的ajax请求，模拟ajax请求,selnium，和phtamjs。或使用selenium + phantomjs 进行抓取抓取动态数据，或者找到动态数据加载的json页面。

验证码：使用打码平台识别验证码

数据加密：对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。

问题2：你写爬虫的时候使用的什么框架选择这个框架的原因是什么？

scrapy。

优势:可以实现高并发的爬取数据, 注意使用代理，提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务，代码简洁

劣势:1.可扩展性不强。2.整体上来说: 一些结构性很强的, 定制性不高, 不需要太多自定义功能时用pyspider即可, 一些定制性高的,需要自定义一些功能时则使用Scrapy。

问题3：请简要介绍下scrapy框架，为什么要使用scrapy框架？scrapy框架有哪些优点？scrapy框架有哪几个组件/模块？简单说一下工作流程。

scrapy的去重原理（指纹去重到底是什么原理）
scrapy中间件有几种类，你用过哪些中间件*
scrapy中间件再哪里起的作用
scrapy实现分布式抓取简单点来说
分布式的去重原理
海量数据的去重原理

问题5：为什么会用到代理？

一些网站会有相应的反爬虫措施，例如很多网站会检测某一段时间某个IP的访问次数，如果访问频率太快以至于看起来不像正常访客，它可能就会会禁止这个IP的访问。所以我们需要设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。

问题6：验证码处理

1. 登陆验证码处理

图片验证码：先将验证码图片下载到本地，然后使用云打码识别；

滑动验证码：使用selenium模拟人工拖动，对比验证图片的像素差异，

2. 爬取速度过快出现的验证码处理

设置setting.py中的DOWNLOAD_DELAY，降低爬取速度；

用xpath获取验证码关键字，当出现验证码时，识别验证码后再继续运行。

3. 如何用机器识别验证码**

对接打码平台

对携带验证码的页面数据进行抓取

将页面中的验证码进行解析, 将验证码图片下载到本地

将验证码图片提交给打码平台进行识别, 返回识别后的结果

总结

希望大家在以上回答的基础上，尽可能的做到举一反三。除此之外，你在面试时还遇到过什么问题呢？欢迎在评论留言。未来，小编将不定时为大家整理爬虫面试题。最后，大家一定要在合法合规的情况下进行数据采集。

云立方网产品导航: 动态拨号vps 服务器租用拨号服务器

上一篇：为国家网络安全建设作贡献丨“网安警务室”在云立方网正式挂牌

问题分类

当前栏目点击排行

热门点击

python爬虫常见面试问题（内附答案）

相关文章