1.Selenium是什么?
Web自动化测试框架,能模拟网页点击操作
http://seleniumhq.org/
2.PhantomJS
是一个而基于WebKit的服务端JavaScript API,支持Web而不需要浏览器支持,其快速、原生支持各种Web标准:Dom处理,CSS选择器,JSON等等。PhantomJS可以用用于页面自动化、网页截屏,以及无界面测试
3.BeautifulSoup是什么?
用于解析xml
BeautifulSoup 对象表示的是一个文档的全部内容
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
网页爬虫工具实现思路:
1.调用Selenium接口点击网页元素,进入需要爬取数据的页面。
2.BeautifulSoup解析页面,获取下载地址
3.执行aria2下载命令
网友评论