from pyquery import PyQuery as p

作者: 木下瞳 | 来源:发表于2019-07-25 18:11 被阅读0次

from pyquery import PyQuery as p
一个简单的爬虫保存百度、360 搜索内容到数据库
Python 淘宝爬虫selenium 模拟浏览器
pyQuery/python3基本使用
利用requests+pyquery爬取猫眼电影Top100
Python爬虫-PyQuery库详解
PyQuery
[Python] pyquery使用
网络爬虫：pyquery
实战：requests和pyquery爬取美女图片

了解更多关注微信公众号“木下学Python”吧~

1.爬取知乎-发现-热门话题的问答：

import requests
from pyquery import PyQuery as pq
 
url = 'https://www.zhihu.com/explore'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi\
            t/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'}
 
html = requests.get(url,headers = headers).text
 
doc = pq(html) #初始化PyQuery类对象
items = doc('.explore-tab .feed-item').items() #抓取 .explore-tab 结点下的所有 .feed-item 子节点 .items() 把他们组成列表
for item in items:
    question = item.find('h2').text() #抓问题，不为 .h2 理由是 h2 是标签，不是属性
    author = item.find('.author-link-line').text() #抓作者
    answer = pq(item.find('.content').html()).text() #抓取一条回答，列表里面返回的是标签名称，.html()还原成 html 代码
    file = open('explore.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,answer]))
    file.write('\n' + '=' * 50 + '\n')
    file.close()

2..find()

查找子孙结点

3.,attr()

可以理解为这个标签的对应值，是以字典形式返回，所以 attr() 返回键的值；例如 attr('alt') 得到的是 ‘炉石传说石英元素

女巫森林新卡'

提取 scr 的值：.attr('lz_src') 加一个 lz_


doc = pq(html)
items = doc('#dq_list > li').items()

原文：https://blog.csdn.net/zjkpy_5/article/details/82730426

网友评论

本文标题：from pyquery import PyQuery as p

本文链接：https://www.haomeiwen.com/subject/mhlkrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

from pyquery import PyQuery as p

相关文章

from pyquery import PyQuery as p

一个简单的爬虫保存百度、360 搜索内容到数据库

Python 淘宝爬虫selenium 模拟浏览器

pyQuery/python3基本使用

利用requests+pyquery爬取猫眼电影Top100

Python爬虫-PyQuery库详解

PyQuery

[Python] pyquery使用

网络爬虫：pyquery

实战：requests和pyquery爬取美女图片

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读