爬虫设计要点和心得:
1.设置代理,上文中已经有讲诉如何设置代理
2.重写start_urls指定爬取页面的范围
def start_requests(self):
print("网速较慢,耐心等待!")
for iin range(1,4):
self.url ='https://tw.video.appledaily.com/actionnews/ajaxmore/appledaily/entertainment/20190317/1532811/{}'.format(i)
#print(self.url)
yield scrapy.Request(url=self.url,callback=self.parse)
3.防反爬虫机制处理:
(1)禁止cookies
(2)设置user-agent
结果展示:
网友评论