美文网首页程序员
5分钟上手Python爬虫

5分钟上手Python爬虫

作者: 胡写八写 | 来源:发表于2017-03-11 13:43 被阅读64次

    准备

    1. Python基础语法(学会列表即可)
    2. 浏览器
    3. Python库
    • pyquery

    分析目标

    1. 打开浏览器,进入目标网站(此处以百度百家·人物为例)
    2. 打开开发者模式(F12)
    3. 通过浏览器自带的工具查看页面html结构
    4. 工具:


    5. 结果:


    6. 发现标题在h3标签下的a标签中

    开始抓取

    完整代码

    from pyquery import PyQuery
    
    url = 'http://baijia.baidu.com/?tn=listarticle&labelid=101'
    html = PyQuery(url, encoding='utf8')
    tags_a = html('h3').find('a')
    for a in tags_a.items():
        print(a.text())
    

    部分说明

    # 使用encoding来制定编码方式,不指定可能导致中文乱码
    html = PyQuery(url, encoding='utf8')
    
    # tags_a 不是列表对象而是htmlEelment集合对象,
    # 所以需要使用.items()获取里面单独的a标签对象
    for a in tags_a.items():
    

    结束

    以上就是一个简单的用来获取网络信息的爬虫,但是一只完备的爬虫往往会考虑更多的东西。相信大家在学习的过程中也发现了,代码是非常简单的(Java、.NET等也是如此),所以爬虫难度往往来自对网页请求的分析(包括反爬措施)和项目的结构组织。

    相关文章

      网友评论

        本文标题:5分钟上手Python爬虫

        本文链接:https://www.haomeiwen.com/subject/pqiagttx.html