您的位置:首页 >文章内容
数据采集一般用哪种代理比较好
来源: 作者:admin 时间:2019-07-15 11:22:17

在 Web 数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于 Web 数据采集。


 数据采集一般用哪种代理比较好


根据HTTP代理的匿名性可以将其分为以下几种:

 

1. 透明代理(Transparent Proxies)

目标服务器能够检测到真实的源IP。

 

目标服务器根据HTTP请求头进行检测,判断依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)

PS:该类型代理不适合用于Web数据采集。

 

2. (普通)匿名代理(Anonymous Proxies)

目标服务器无法检测到真实的源IP,但能够检测到使用了代理。

 

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP)

PS:该类型代理可以用于Web数据采集,但有被检测到的风险。

 

3. 高匿名代理(High Anonymity Proxies -Elite proxies)

目标服务器无法检测到你在是使用代理。

 

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

PS:该类型的代理非常适合用户Web数据采集。迅速软件的付费代理方案提供的全部为高匿名类型的代理。

 

另外,不使用代理时发出的头:

REMOTE_ADDR =真实源 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

 

不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。


按字母排序文章
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
相关文章内容简介更多>>
最新标签
推荐阅读
  • 06 2019-05
    迅速软件的代理ip质量怎么样

    ​我们判断代理ip的优质与否一般都是根据他的真人度和上网速度、稳定的时间来判断的,不同的人对代理ip的要求各不相同,有些人只需要很少的网络流速就可以满足他们的要求

  • 18 2020-06
    动态ip代理换ip的好处

    碰到换IP的的时候,许多客户都清楚通过电脑设置能够改动IP,直接路由器重启同样也可以。但这样的方式很浪费时间,并且中途会断开连接。因此,可以用代理IP秒换IP。

  • 27 2018-11
    ip被封如何突破限制?

    生活和工作中,我们可能会经常遇到ip被封的情况,那么我们如何解决呢?请看下面的分享。

  • 05 2018-12
    哪里有python代理IP?

    相信许多做分布式深网爬虫的开发者对代理IP都不陌生。面对网站千变万化的反爬虫策略,代理IP对python爬虫可谓是必不可少。

在线客服

QQ资讯

上班时间