您的位置:首页 >文章内容
scrapy 代理ip池结构简介
来源: 作者:admin 时间:2018-11-21 17:05:48


互联网时代,从事爬虫工作的人非常多,经常使用爬虫的网络用户应该听过scrapy ,它是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。它最吸引人的地方在于它是一个框架,可以根据个人需求修改,这里主要介绍一下代理IP池结构,请看下面。


代理池是由四部分组成:

  ProxyGetter:

  代理获取接口每调用一次就会抓取这个网站的最新代理放入DB,可自行添加额外的代理获取接口;

  DB:

  用于存放代理IP,现在暂时只支持SSDB。如果你没有用过SSDB,安装起来也很简单;

  Schedule:

  计划任务用户定时去检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理放入DB;

  ProxyApi:

代理池的外部接口,功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。


这个就是scrapy 代理ip池结构的简单介绍了,大家明白了吗?


按字母排序文章
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
相关文章内容简介更多>>
最新标签
推荐阅读
  • 14 2019-08
    为什么电商要使用代理ip?

    ​随着电商行业发展势头迅猛,现在有越来越多的人已经或者想要加入电商的队伍中,如今电商也已经成为更多人创业的选择。

  • 18 2018-12
    如何获取到大量代理IP?

    ​在互联网中,有很多行业比如:网络推广、注册、流量、投票、跑号、游戏或者大数据爬取等其他业务,都需要用到大量IP,不是几十几百个,而是几十万、甚至上百万的IP数量。

  • 29 2020-07
    代理IP使用起来安全吗

    在使用爬虫多次爬取同一同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决禁封IP的问题,我们通常会使用代理IP。

  • 13 2019-07
    如何建代理ip服务器

    ​随着网络的发展,人们对网络资源和服务的需求日益增加。越来越多的计算机连接到网络上。我们的生活随着网络而改变,网络的快速发展伴随着一些问题,如IP地址耗尽、大量主机同时争用

在线客服

QQ资讯

上班时间