美文网首页通过python看世界
Python+Selenium+BeautifulSoup网页爬

Python+Selenium+BeautifulSoup网页爬

作者: Mixqum | 来源:发表于2019-07-04 18:35 被阅读0次

1.Selenium是什么?
Web自动化测试框架,能模拟网页点击操作
http://seleniumhq.org/

2.PhantomJS
是一个而基于WebKit的服务端JavaScript API,支持Web而不需要浏览器支持,其快速、原生支持各种Web标准:Dom处理,CSS选择器,JSON等等。PhantomJS可以用用于页面自动化、网页截屏,以及无界面测试

3.BeautifulSoup是什么?
用于解析xml
BeautifulSoup 对象表示的是一个文档的全部内容
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

  1. Aria2下载器
    https://www.jianshu.com/p/7c030484ac90

网页爬虫工具实现思路:
1.调用Selenium接口点击网页元素,进入需要爬取数据的页面。
2.BeautifulSoup解析页面,获取下载地址
3.执行aria2下载命令

相关文章

网友评论

    本文标题:Python+Selenium+BeautifulSoup网页爬

    本文链接:https://www.haomeiwen.com/subject/cxiljftx.html