您的位置:首页 >文章内容
数据采集一般用哪种代理比较好
来源: 作者:admin 时间:2019-07-15 11:22:17

在 Web 数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于 Web 数据采集。


 数据采集一般用哪种代理比较好


根据HTTP代理的匿名性可以将其分为以下几种:

 

1. 透明代理(Transparent Proxies)

目标服务器能够检测到真实的源IP。

 

目标服务器根据HTTP请求头进行检测,判断依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)

PS:该类型代理不适合用于Web数据采集。

 

2. (普通)匿名代理(Anonymous Proxies)

目标服务器无法检测到真实的源IP,但能够检测到使用了代理。

 

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP)

PS:该类型代理可以用于Web数据采集,但有被检测到的风险。

 

3. 高匿名代理(High Anonymity Proxies -Elite proxies)

目标服务器无法检测到你在是使用代理。

 

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

PS:该类型的代理非常适合用户Web数据采集。迅速软件的付费代理方案提供的全部为高匿名类型的代理。

 

另外,不使用代理时发出的头:

REMOTE_ADDR =真实源 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

 

不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。


按字母排序文章
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
相关文章内容简介更多>>
最新标签
推荐阅读
  • 19 2018-11
    使用代理IP效率高

    近几年,网络通信方面发展很快,网络兼职不再是一个稀罕词儿,不仅工作时间灵活,有的甚至只需一台电脑,在哪都能上班,非常自由。听起来虽然简单

  • 31 2018-10
    HTTP代理IP和socks5代理IP可以互换使用吗

    很多朋友分不清什么是HTTP代理IP,什么是socks5代理IP,经常将两者搞混,结果买错了产品,甚至有些朋友问HTTP代理IP能不能当成socks5代理IP用

  • 24 2018-10
  • 23 2019-03
    爬虫代理哪家比较好

    ​很多人使用爬虫IP来收集一些工作上需要的数据是一种很方便的事情,但是很多爬虫IP总是会被一些网站封锁,所以下面我们就来说一下一些比较好的爬虫IP吧。

在线客服

QQ资讯

上班时间