使用pyppeteer爬取动态加载的网站！

作者: 14e61d025165 | 来源:发表于2019-04-29 15:30 被阅读1次

使用pyppeteer爬取动态加载的网站！
爬取通过ajax动态加载的页面（实时监控华尔街见闻资讯与快讯）
JS动态加载以及JavaScript void(0)的爬虫解决方
Python scrapy中selenium的应用
Python 爬虫 | 爬取动态加载的网站
jsoup+okhttp实现网页搜索表单的爬取
Pyppeteer入门及中文教程
Python爬取整个网站
爬取动态网页python+Web kit
python爬虫框架：Scrapy框架基本使用

pyppeteer 类似selenium，可以操作Chrome浏览器

文档：https://miyakogi.github.io/pyppeteer/index.html
github: https://github.com/miyakogi/pyppeteer
安装

环境要求：
python 3.6+

pip install pyppeteer

代码示例
Python学习交流群：1004391443，有大牛答疑，有资源共享！有想学习python编程的，想提升自己能力的，欢迎加入讨论学习。

-- coding: utf-8 --

import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq

最好指定一下自己浏览器的位置，如果不指定会自动下载，太慢了...

executable_path = "/Applications/Google Chrome.app/Contents/MacOS/Google Chrome"

示例一：渲染页面

async def crawl_page():
# 打开浏览器
browser = await launch(executablePath=executable_path)

# 打开tab
page = await browser.newPage()

# 输入网址回车
await page.goto('http://quotes.toscrape.com/js/')

# 获取内容并解析
doc = pq(await page.content())
print('Quotes:', doc('.quote').length)

# 关闭浏览器
await browser.close()

示例二：截图，保存pdf，执行js

async def save_pdf():
browser = await launch(executablePath=executable_path)
page = await browser.newPage()
await page.goto('http://quotes.toscrape.com/js/')

# 网页截图保存
await page.screenshot(path='example.png')

# 网页导出 PDF 保存
await page.pdf(path='example.pdf')

# 执行 JavaScript
dimensions = await page.evaluate('''() => {
        return {
            width: document.documentElement.clientWidth,
            height: document.documentElement.clientHeight,
            deviceScaleFactor: window.devicePixelRatio,
        }
    }''')

print(dimensions)

await browser.close()

if name == 'main':
asyncio.get_event_loop().run_until_complete(crawl_page())
# asyncio.get_event_loop().run_until_complete(save_pdf())

异步编程，这个关键字太多了，看的眼花缭乱

网友评论

本文标题：使用pyppeteer爬取动态加载的网站！

本文链接：https://www.haomeiwen.com/subject/nbwynqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用pyppeteer爬取动态加载的网站！

-- coding: utf-8 --

最好指定一下自己浏览器的位置，如果不指定会自动下载，太慢了...

示例一：渲染页面

示例二：截图，保存pdf，执行js

相关文章

使用pyppeteer爬取动态加载的网站！

爬取通过ajax动态加载的页面（实时监控华尔街见闻资讯与快讯）

JS动态加载以及JavaScript void(0)的爬虫解决方

Python scrapy中selenium的应用

Python 爬虫 | 爬取动态加载的网站

jsoup+okhttp实现网页搜索表单的爬取

Pyppeteer入门及中文教程

Python爬取整个网站

爬取动态网页python+Web kit

python爬虫框架：Scrapy框架基本使用

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据爬虫Python AI Sql

Python小哥哥

使用pyppeteer爬取动态加载的网站！

-- coding: utf-8 --

最好指定一下自己浏览器的位置，如果不指定会自动下载，太慢了...

示例一： 渲染页面

示例二：截图，保存pdf，执行js

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

示例一：渲染页面