美文网首页
Python爬虫获取简书文章名称和链接

Python爬虫获取简书文章名称和链接

作者: 黑猫编程 | 来源:发表于2019-10-02 21:13 被阅读0次

    使用requests库获取网页源码,再用lxml进行解析。时间匆忙,连滚带爬查文档,本来想一次性都遍历下来,结果中间字符转字符串过程出了一点小问题,遂卒,等会儿出去跑个步清醒下回来再搞,毕竟任务是每天一篇区块链输出。

    look!这是专题的页面,今天先获取第一篇文章的名字和网址。

    本来是用Chrome的Xpath插件比较好用,只是近期我的”科学上网“工具全部挂掉,有一个工具我充了两年期会员,心塞。

    先用Firefox的插件对付用着,我们看到下方的箭头,指向我们标的信息的位置。

    显然,ul[1]代表第一篇文章,那么一共35篇文章,数据就是ul[i],1 <= i <= 35。一看这情况,总觉着for循环直接解决,奈何出现一点问题,先解决第一篇文章的名称和链接。

    # -*- coding: utf-8 -*-
    # @Time    : 2019/10/2 12:32
    # @Author  : 币行者
    # @Email   : xypip@qq.com
    # @File    : test1.py
    
    import requests
    from lxml import etree
    
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
    
    response = requests.get("https://www.jianshu.com/u/4d19f75c94c3", headers=headers)
    
    text = response.content.decode()
    # print(response.request.headers)
    #
    # print(response.content.decode())
    
    html = etree.HTML(text)
    
    # # 按字符串序列化HTML文档
    # result = etree.tostring(html).decode()
    #
    # print(result)
    result = etree.tostring(html)
    
    
    article_name = html.xpath("//ul[@class='note-list']/li[1]/div/a/text()")
    print("article_name = ", article_name)
    
    
    article_url = html.xpath("//ul[@class='note-list']/li[1]/div/a/@href")
    article_url[0] = "https://www.jianshu.com" + article_url[0]
    print("article_url = ", article_url)
    

    运行结果:
    article_name = ['央行数字货币,意在辅人民币出海']
    article_url = ['https://www.jianshu.com/p/ac1c68afb873']

    相关文章

      网友评论

          本文标题:Python爬虫获取简书文章名称和链接

          本文链接:https://www.haomeiwen.com/subject/rxurpctx.html