您的位置:首页 >文章内容
网络爬虫与代理ip的关系
来源: 作者:admin 时间:2018-11-16 17:13:31


互联网时代,反爬虫应运而生,并且不断进化,爬虫工作举步维艰,若不能调整好,只能被淘汰。那么,到底是什么行为触发了目标网站的反爬机制呢,请看下面的介绍。

 

1、单一的访问频次过高,反人类:普通人10秒访问一个网页, 爬虫一秒获取10个网页。
2、单一的ip出现非常规的流量,某个IP流量反差巨大。
3、大量的重复简单的网页浏览行为,有规律的访问相同网页。
4、只下载html文档, 不下载js。
5、在页面设置陷阱, 用户看不懂, 爬虫是可以的, 比如 hidden。
6、在页面写一段js代码, 浏览器直接执行, 程序不会执行。
7、判断请求头: 什么都变了,user-agent 万古不变。

 

原因已经总结出来了,接下来要做的事就是找出相关的解决办法,请看下面。
1、多主机的策略, 解决单一ip的问题, 分布式爬取。
2、调整访问频次, 设置随机休眠时间,爬一会休息一下。
3、通过不断切换代理ip, 或者直接使用ip代理的形式。
4、频繁的修改user-agent头。
5、Header中的Cache-Control修改为no-cache。
6、当返回状态码是403(服务器资源禁止访问),改变Header和IP。

 

这个就是小编给大家带来的总结分享了,朋友们如果有做爬虫工作的,一定要注意这些点啊,期待大家都能够以高效率完成自己的工作。

 

 


按字母排序文章
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
相关文章内容简介更多>>
最新标签
推荐阅读
  • 05 2019-08
    用了代理IP之后的上网速度很慢的原因

    ​对于一些专业的网络营销人员来说,代理IP是他们经常使用上网的方式,代理IP资源是专业网络营销人员必不可少的工具之一。在试用代理IP的时候,除了稳定性和安全性以外,IP代理的速度也

  • 12 2018-09
    代理IP的透明、匿名和高匿的区别

    高度匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。

  • 20 2018-11
    IP和代理IP分别是什么?

    在如今这个网络发达的社会,上网的朋友越来越多,不论年龄大小、男女老少都慢慢加入了网络大军,在上网的时候,我们经常会遇到IP地址这个概念

  • 09 2019-08
    选对代理IP有多重要

    代理IP是换IP的软件,有很多选择。但代理IP不是随便挑一个就可以,代理IP也有好有坏,想要使用好效果的,自然要好好挑选。例如是爬虫使用,代理IP平台选好,才能让爬虫工作快速进行,如

在线客服

QQ资讯

上班时间