在Scrapy中，获取HTTP403后如何继续决议方法-编程知识-白鹭情

在Scrapy中，获取HTTP403后如何继续决议方法

白鹭 - 2022-03-25 2112 0 0

如果未启用 JavaScript，我正在尝试抓取一个回传 HTTP403 的网站。

我试图实作的方法是， 在 parse 方法中，Selenium 驱动程序从中获取 urlresponse.requets.url并获取页面

但我面临的问题是 selenium 在获取 HTTP403 后自动关闭请求并且不进入 parse 方法。

这是我的代码：

class SampleSpider(scrapy.Spider):

    name = "sample_spider"
    start_urls = ["https://website_that_returning_403.com"]

    def parse(self, response):
        bot = webdriver.Chrome()
        bot.get(response.request.url)

uj5u.com热心网友回复：

要处理200-300范围以外的状态，请使用以下handle_httpstatus_list蜘蛛属性

class SampleSpider(scrapy.Spider):

    name = "sample_spider"
    handle_httpstatus_list = [403]
    start_urls = ["https://website_that_returning_403.com"]

    def parse(self, response):
        bot = webdriver.Chrome()
        bot.get(response.request.url)