接上面掌握开发轻量级爬虫0
一、VS Code上跑爬百度百科前10页的案例
1.开vscode使用CTRL+`或者点击查看到集成终端打开控制终端
2.在终端中cd到存放文件夹下面,然后git clone 地址就可以将项目拉取下来
3.一开始在主函数里总是出现这个问题,在调通期间要崩溃。
最终找到解决办法是:在导包前加入加入前两行,目的是扩大搜索范围。
下面学习一下具体编写代码
4 编写总调度程序文件spider_main.py
4.1第一步主函数
4.2 第二步爬虫总调度程序的编写:
5.编写管理器程序文件url_manager.py
6.编写管理器程序文件html_downloader.py
7.编写解析器程序文件html_parser.py
8.编写输出程序文件html_outputer.py
9.结果
10.总结
这只是最简单的爬虫
还有如下方面的爬虫需要深入研究
网友评论