在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。经常遇到IP被目标网站封禁的问题,这个时候就需要http代理IP了。那么,我们应该如何选择http代理IP,才能保证数据采集的高效和稳定呢?
首先,我们根据http代理的匿名性可以分为以下几种:
一、透明代理(Transparent Proxies):目标服务器能够检测到真实的源IP。
目标服务器根据HTTP请求头进行检测,判断依据:
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)
HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)
PS:该类型代理不适合用于数据采集。
二、(普通)匿名代理(Anonymous Proxies):目标服务器无法检测到真实的源IP,但能够检测到使用了代理。
检测依据:
REMOTE_ADDR = 代理服务器 IP
HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)
HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP)
PS:该类型代理可以用于数据采集,但有被检测到的风险。
三. 高匿名代理(High Anonymity Proxies -Elite proxies) 目标服务器无法检测到你在是使用代理。
检测依据:
REMOTE_ADDR = 代理服务器 IP HTTP_VIA = 值为空或无此头
HTTP_X_FORWARDED_FOR = 没数值或无此头
PS:该类型的代理非常适合用户数据采集。
另外,不使用代理时发出的头: REMOTE_ADDR =真实源 IP ,HTTP_VIA = 值为空或无此头, HTTP_X_FORWARDED_FOR = 没数值或无此头。
不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。
所以,在我们选择爬虫代理ip时,最好选择安全稳定的高匿的http代理。
限制爬虫的方法都有哪些?虽然说现在的代理ip让爬虫不会像以前那样慢吞吞,很多种的反爬机制我们都可以利用代理ip绕开,但是反爬虫的方法不单单只有一个,我们要了解其他的反爬虫机制
如何选择安全高效的代理ip?http代理ip是一个安全高效的选择 对于用户来说,无论选择什么样的代理服务,其首要考虑的因素都是安全高效。但是如今代理形式众多,即使用户每一次做出的选
很多人不了解代理服务器是什么东西,但是都多少听说过IP加速器,这是因为我国的具体国情决定的,简单来说,就是很多人需要通过IP加速器来实现加速上网,浏览外部网站。那么,从概念
在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。
QQ资讯
上班时间