4.爬虫

作者: info_gu | 来源:发表于2020-09-07 17:56 被阅读0次

1.网页数据的采集与urllib库

image.png

urllib自带标准库

#coding=utf-8
from  urllib import request
url="http://www.baidu.com"
response=request.urlopen(url,timeout=1)
print(response.read().decode('utf-8'))

库bs4

from bs4 import BeautifulSoup

html_doc = """
    <html>
<head>
<meta charset="utf-8">

<title>呵呵</title>

</head>

<body>
<!--  网页控件元素,类似按钮/图片/文章什么的都写在这里  -->
</body>

</html>

"""

soup = BeautifulSoup(html_doc, 'lxml')
print(soup.prettify())

#获取网页title
print(soup.title)
#获取title的内容
print(soup.title.string)

print(soup.body)

相关文章

  • 4.爬虫

    1.网页数据的采集与urllib库 urllib自带标准库 库bs4

  • 爬虫——Web Scraper

    1.认识爬虫 2.利用Excel抓取数据 3.爬虫入门 4.爬虫进阶 5.反爬虫及高阶玩法 6.制作新爬虫步骤 7...

  • python爬虫之scrapy 入门案例

    1.创建爬虫项目 2.新建爬虫文件 3.item.py文件 4.打开 jobboleproject/spider目...

  • 网络爬虫源码分享

    1.淘宝网商品爬虫源码 2.豌豆荚游戏排行榜爬虫源码 3.尚妆网爬虫源码 4.糗事百科爬虫源码 5.京东商品信息和...

  • 4.爬虫基础3

    1.bs4 BeaufulSoup 和lxml一样都是用于解析html的框架,对数据的分析和提取。 和lxml相比...

  • 爬虫:4. 消息队列

    消息队列 在构建一个松耦合或是异步的系统时,消息队列是最常用的方法。在爬虫中使用消息队列有哪些好处呢? 通过消息队...

  • (五)"股票数据定向爬虫"(学习笔记)|Py

    1."股票数据定向爬虫"实例介绍2."股票数据定向爬虫"代码及显示结果3."股票数据定向爬虫"实例编写4."股票数...

  • 4.爬虫-PyQuery库详解

    初始化 字符串初始化 URL初始化 文件初始化 基本CSS选择器 ** 如果是class加点,如果是id加#,如果...

  • 1.初识scrapy框架

    scrapy框架的使用 1.创建爬虫项目 2.在爬虫文件中如何提取文本内容 3.实例 ,爬取美剧网站的电影 4.具体代码

  • KNN讲解

    1.基本思想 2.图像分类 3.数据分类 爬虫爬取数据 4.总结

网友评论

      本文标题:4.爬虫

      本文链接:https://www.haomeiwen.com/subject/yytlektx.html