scrapy+redis+mongodb爬虫,内容没爬完就结束了?


scrapy+redis+mongodb弄的爬虫,
有大约70个列表页,每页10个url指向详情页,要爬取所有详情页的内容,也就是总数应该有大约700条,但爬到400多条就不行了,并且,尝试了多次,每次都是这么多条上下,是什么缓存之类东西需要设置大一些还是有其他什么原因?显示信息如下:


 2015-10-14 22:28:13 [scrapy] INFO: Crawled 1192 pages (at 76 pages/min), scraped 443 items (at 35 items/min)
2015-10-14 22:29:13 [scrapy] INFO: Crawled 1192 pages (at 0 pages/min), scraped 443 items (at 0 items/min)

说明:Crawled 1192 pages这个是因为有一些ajax页面,发送的单独请求,所以这个页数超过了700页。

scrapy python-爬虫

糟糕三蜀黍 8 years, 10 months ago

Your Answer