您的位置:首页 >文章内容
爬虫用户应该怎样选择http代理IP
来源: 作者:admin 时间:2019-04-01 18:00:07

在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。经常遇到IP被目标网站封禁的问题,这个时候就需要http代理IP了。那么,我们应该如何选择http代理IP,才能保证数据采集的高效和稳定呢? 

http代理

首先,我们根据http代理的匿名性可以分为以下几种: 

  

一、透明代理(Transparent Proxies):目标服务器能够检测到真实的源IP。   


目标服务器根据HTTP请求头进行检测,判断依据: 


REMOTE_ADDR = 代理服务器 IP  

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头) 

HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)


PS:该类型代理不适合用于数据采集。

   

二、(普通)匿名代理(Anonymous Proxies):目标服务器无法检测到真实的源IP,但能够检测到使用了代理。   


检测依据:  


REMOTE_ADDR = 代理服务器 IP  

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)  

HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP) 


PS:该类型代理可以用于数据采集,但有被检测到的风险。 

  

三. 高匿名代理(High Anonymity Proxies -Elite proxies) 目标服务器无法检测到你在是使用代理。   


检测依据:


REMOTE_ADDR = 代理服务器 IP HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头  


PS:该类型的代理非常适合用户数据采集。


另外,不使用代理时发出的头: REMOTE_ADDR =真实源 IP ,HTTP_VIA = 值为空或无此头, HTTP_X_FORWARDED_FOR = 没数值或无此头。 


不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。   


所以,在我们选择爬虫代理ip时,最好选择安全稳定的高匿的http代理。


按字母排序文章
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
相关文章内容简介更多>>
最新标签
推荐阅读
  • 04 2019-11
    免费代理IP​有哪些缺点呢?

    免费代理IP​有哪些缺点呢?市面上的免费代理IP有很多,甚至要一些抓取工具都可以很容易的爬取一大堆,很多网络工作者都不建议我们使用免费代理IP,因为它有着许多缺点,这些缺点很可能

  • 01 2019-04
    浅析http与https以及客户端HTTP请求

    ​HTTP: 一种发布和接受HTML页面方法,端口号为80;HTTPS: HTTP的安全版,在HTTP上加入了SSL层,端口号为443;SSL: 用于Web的安全传输协议,在传输层对网络连接进行加密,

  • 21 2019-12
    你知道HTTP代理IP有什么用吗?

    你知道HTTP代理IP有什么用吗?对于经常接触网络的小伙伴来说,IP想必是大家十分熟悉的一个词汇。但是你真的对HTTP代理IP了解吗? 今天小编来简单普及一下关于HTTP代理IP的相关小常识,让大家更

  • 08 2019-07
    迅速软件的http代理ip怎么样

    如今http代理ip已经被应用的非常广泛,有时候浏览一些网站会需要用到http代理ip,比如注册投票的时候需要用到多个IP来进行访问,以此来隐藏自己的真实ip,达到业务的效果。在这个时候,我

在线客服

QQ资讯

上班时间