您的位置:首页 >文章内容
scrapy 代理ip池结构简介
来源: 作者:admin 时间:2018-11-21 17:05:48


互联网时代,从事爬虫工作的人非常多,经常使用爬虫的网络用户应该听过scrapy ,它是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。它最吸引人的地方在于它是一个框架,可以根据个人需求修改,这里主要介绍一下代理IP池结构,请看下面。


代理池是由四部分组成:

  ProxyGetter:

  代理获取接口每调用一次就会抓取这个网站的最新代理放入DB,可自行添加额外的代理获取接口;

  DB:

  用于存放代理IP,现在暂时只支持SSDB。如果你没有用过SSDB,安装起来也很简单;

  Schedule:

  计划任务用户定时去检测DB中的代理可用性,删除不可用的代理。同时也会主动通过ProxyGetter去获取最新代理放入DB;

  ProxyApi:

代理池的外部接口,功能是给爬虫提供get/delete/refresh等接口,方便爬虫直接使用。


这个就是scrapy 代理ip池结构的简单介绍了,大家明白了吗?


按字母排序文章
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
相关文章内容简介更多>>
最新标签
推荐阅读
  • 18 2019-02
    使用代理IP后可以实现指定host吗

    ​当我们在浏览器输入一个域名访问网站时,本机设置的DNS服务器会先将域名解析,若本机网络中没有设置DNS,则是由路由器的DNS服务器解析。

  • 21 2018-11
    scrapy 代理ip池结构简介

    互联网时代,从事爬虫工作的人非常多,经常使用爬虫的网络用户应该听过scrapy ,它是一个快速,高层次的屏幕抓取和web抓取框架,

  • 28 2020-02
    获取动态ip代理的途径

    代理ip能够给我们的许多业务带来非常好的效果,但是怎么获取最新的代理ip就成为了许多人头疼的一个问题,代理ip的获取是一件十分简单的事情,下面精灵ip就为大家介绍几个快速获取最新代

  • 18 2019-08
    做爬虫采集怎么才能找到合适的代理IP

    ​大数据时代来临,大数据从何而来?大数据来自爬虫辛勤的爬取网站信息,帮助搜索引擎成为一个辅助人们检索信息的工具。

在线客服

QQ资讯

上班时间