当我们用scrapy startproject创建了一个项目之后会有很多文件
打开这个项目(我用的是pycharm项目写python,用anaconda管理不同版本真心好用,强推anaconda),
在jianshu文件夹下面的spiders子目录里面装的全是爬虫(这个状态下我还没有安排新的爬虫进去),一般一个文件对应一个爬虫。
items中有的是数据实体,当我们抓取到数据的时候通常生成一个items对象,然后把数据装到item中去。
middlewares是中间件文件,主要功能是,在其中可以帮助我们下载起来不被网站察觉
pipeline是管道文件,处理数据的文件。
settings中有很多参数,比如我们想启动某一个管道文件就得先去里面注册。
这些文件以后会一个个详解。
网友评论