美文网首页
爬虫入门(一)

爬虫入门(一)

作者: inna1021 | 来源:发表于2017-08-21 08:54 被阅读9次

    一、爬前准备

    1、安装pip安装套件

    pip install requests

    pip install BeautifulSoup4

    2、Chrome用户内建开发人员工具

    检查—>Network—>Doc

    3、编辑视窗

    pip install jupyter

    #  进行编辑:jupyter notebook

    二、使用requests.get取得页面内容:

    import requests

    res = requests.get("http://finance.ifeng.com/" )  # 调用网页链接

    res.encoding = "utf-8"     # 汉显

    print(res.text)

    三、使用BeautifulSoup将页面内容剖析出来('html.parser'—剖析器)

    1、范例提取页面相关内容:

    调用BeautifulSoup包,爬取页面全部内容 提取<h1></h1>内容 提取<a></a>内容

    2、取得特定css属性元素:

    3、在网页的连接上,取得所有a标签内的链接

    例:

    3、确定元素抓取位置:

    三、根据不同HTML标签取得对应内容

    根据HTML标签爬取内容

    相关文章

      网友评论

          本文标题:爬虫入门(一)

          本文链接:https://www.haomeiwen.com/subject/daxqdxtx.html