美文网首页
from pyquery import PyQuery as p

from pyquery import PyQuery as p

作者: 木下瞳 | 来源:发表于2019-07-25 18:11 被阅读0次

    了解更多关注微信公众号“木下学Python”吧~

    1.爬取知乎-发现-热门话题的问答:

    import requests
    from pyquery import PyQuery as pq
     
    url = 'https://www.zhihu.com/explore'
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi\
                t/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'}
     
    html = requests.get(url,headers = headers).text
     
    doc = pq(html) #初始化PyQuery类对象
    items = doc('.explore-tab .feed-item').items() #抓取 .explore-tab 结点下的所有 .feed-item 子节点 .items() 把他们组成列表
    for item in items:
        question = item.find('h2').text() #抓问题,不为 .h2 理由是 h2 是标签,不是属性
        author = item.find('.author-link-line').text() #抓作者
        answer = pq(item.find('.content').html()).text() #抓取一条回答,列表里面返回的是标签名称,.html()还原成 html 代码
        file = open('explore.txt','a',encoding='utf-8')
        file.write('\n'.join([question,author,answer]))
        file.write('\n' + '=' * 50 + '\n')
        file.close()
    

    2..find()

    查找子孙结点

    3.,attr()

    <img alt="炉石传说石英元素 女巫森林新卡" src="http://newsimg.5054399.com/uploads/litimg/180410/1606441M5F5.jpg">

    可以理解为这个标签的对应值,是以字典形式返回,所以 attr() 返回键的值;例如 attr('alt') 得到的是 ‘炉石传说石英元素

    女巫森林新卡'

    提取 scr 的值:.attr('lz_src') 加一个 lz_

    
    doc = pq(html)
    items = doc('#dq_list > li').items()
    

    原文:https://blog.csdn.net/zjkpy_5/article/details/82730426

    相关文章

      网友评论

          本文标题:from pyquery import PyQuery as p

          本文链接:https://www.haomeiwen.com/subject/mhlkrctx.html