第一种方式

Question

0 0

如何自动让scrapy爬虫重启?

我们现在使用的是scarpy的爬虫框架，但是，由于各种各样的问题，爬虫在执行的过程中，会非正常停止。请问有什么办法可以让这些停止的爬虫再自动重新运行。

经验 scrapy 爬虫

8 years, 2 months ago

magican

share

magican 8 years, 2 months ago

Answer 1

0

对于这种问题，通常有几种方案

第一种方式

通过scrapy的error handle机制，即，当spider遇到错误或关闭时，让spider重新执行。参考代码如下：

    import time

    class mySpider(scrapy.Spider):
        name = "myspider"
        allowed_domains = ["google.com"]
        start_urls = [
            "http://www.google.com",
        ]

        def handle_error(self, failure):
            self.log("Error Handle: %s" % failure.request)
            self.log("Sleeping 60 seconds")
            time.sleep(60)
            url = 'http://www.google.com'
            yield scrapy.Request(url, self.parse, errback=self.handle_error, dont_filter=True)

        def start_requests(self):
            url = 'http://www.google.com'
            yield scrapy.Request(url, self.parse, errback=self.handle_error)

注意， 1. 需要使用 dont_filter=True 来保证，只有当遇到错误时，spider可以复制一个请求 2. errback=self.handle_error 来确保spider可以调用handle_error函数

第二种方式

使用supervisor来监控 spider 的运行。具体请参考相关文档。

answered 8 years, 2 months ago

我不是侧田

share

我不是侧田 answered 8 years, 2 months ago

如何自动让scrapy爬虫重启?

magican

Answers

第一种方式

第二种方式

我不是侧田

Your Answer