拨开荷叶行,寻梦已然成。仙女莲花里,翩翩白鹭情。
IMG-LOGO
主页 文章列表 在Scrapy中,获取HTTP403后如何继续决议方法

在Scrapy中,获取HTTP403后如何继续决议方法

白鹭 - 2022-03-25 2112 0 0

如果未启用 JavaScript,我正在尝试抓取一个回传 HTTP403 的网站。

我试图实作的方法是, 在 parse 方法中,Selenium 驱动程序从中获取 urlresponse.requets.url并获取页面

但我面临的问题是 selenium 在获取 HTTP403 后自动关闭请求并且不进入 parse 方法。

这是我的代码:

class SampleSpider(scrapy.Spider):

    name = "sample_spider"
    start_urls = ["https://website_that_returning_403.com"]

    def parse(self, response):
        bot = webdriver.Chrome()
        bot.get(response.request.url)

uj5u.com热心网友回复:

要处理200-300范围以外的状态,请使用以下handle_httpstatus_list蜘蛛属性

class SampleSpider(scrapy.Spider):

    name = "sample_spider"
    handle_httpstatus_list = [403]
    start_urls = ["https://website_that_returning_403.com"]

    def parse(self, response):
        bot = webdriver.Chrome()
        bot.get(response.request.url)

档案中了解更多信息

标签:

0 评论

发表评论

您的电子邮件地址不会被公开。 必填的字段已做标记 *