1创建项目
打开dos命令窗口,这里选择D:\pythonSpider。输入命令:
scrapy startproject dangle
D:\pythonSpider目录下会创建dangle文件夹,进入该文件加结构如下:
进入dangle文件夹
2分析网页
用chrome浏览器打开网址http://ng.d.cn/xiaomiqiangzhan/
按F12分析网页的结构
通过分析网页,我们知道要抓取的版本号的路径为
3编写代码
Pycharm打开项目dangle
Spider目录下新建dangle.py
# coding:utf-8
import scrapy
from ..items import DangleItem
class DangleSpider(scrapy.Spider):
name = "dangle"
start_urls = ['http://ng.d.cn/xiaomiqiangzhan/']
def parse(self, response):
print(response)
zf = DangleItem()
title_list = response.xpath(".//div[@class='rigame fl']/text()").extract()
#print(title_list .replace('\r','').replace('\n','').replace('\t','').strip())
pass #自行添加
4执行结果
Dos命令行下,在dangle的目录,执行
scrapy crawl dangle
版本号抓取到了
网友评论