如果未启用 JavaScript,我正在尝试抓取一个回传 HTTP403 的网站。
我试图实作的方法是,
在 parse 方法中,Selenium 驱动程序从中获取 urlresponse.requets.url
并获取页面
但我面临的问题是 selenium 在获取 HTTP403 后自动关闭请求并且不进入 parse 方法。
这是我的代码:
class SampleSpider(scrapy.Spider):
name = "sample_spider"
start_urls = ["https://website_that_returning_403.com"]
def parse(self, response):
bot = webdriver.Chrome()
bot.get(response.request.url)
uj5u.com热心网友回复:
要处理200-300
范围以外的状态,请使用以下handle_httpstatus_list
蜘蛛属性
class SampleSpider(scrapy.Spider):
name = "sample_spider"
handle_httpstatus_list = [403]
start_urls = ["https://website_that_returning_403.com"]
def parse(self, response):
bot = webdriver.Chrome()
bot.get(response.request.url)
从档案中了解更多信息
0 评论