爬虫-urllib

作者: 看三小 | 来源:发表于2018-12-21 16:55 被阅读0次

Python爬虫学习（十六）初窥Scrapy
tenliu的爬虫-抓包分析
tenliu的爬虫-python的urllib库
tenliu的爬虫-python库urllib、urllib2、
tenliu的爬虫-urllib2学习
tenliu的爬虫-requests学习
Java面试题：Python中爬虫框架或模块的区别
Python爬虫基础之urllib与requests
(二)urllib和urllib3+爬虫一般开发流程？pytho
python网络爬虫基础模块安装

1、导入urllib模块

import urllib.request
import urllib.parse

2、获取url

url = 'https://www.baidu.com/'

3、获取请求头header

header = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4094.1 Safari/537.36',
}

4、加载页面时发送请求（三部曲）

request = urllib.request.Request(url=url,headers=self.header)
response = urllib.request.urlopen(request)
content = response.read().decode()

5、解析提取内容的正则

1----导入正则 import re
2----写提取正则内容
pattern = re.compile(r'<dd>.?board-index.?>(\d+).?data-src="(.?)".?name"><a'
+ '.?>(.?)</a>.?star">(.?).?releasetime">(.?)'
+ '.?integer">(.?).?fraction">(.?).?</dd>',re.S)

网友评论

本文标题：爬虫-urllib

本文链接：https://www.haomeiwen.com/subject/ahkvkqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫-urllib

1、导入urllib模块

2、获取url

3、获取请求头header

4、加载页面时发送请求（三部曲）

5、解析提取内容的正则

相关文章

Python爬虫学习（十六）初窥Scrapy

tenliu的爬虫-抓包分析

tenliu的爬虫-python的urllib库

tenliu的爬虫-python库urllib、urllib2、

tenliu的爬虫-urllib2学习

tenliu的爬虫-requests学习

Java面试题：Python中爬虫框架或模块的区别

Python爬虫基础之urllib与requests

(二)urllib和urllib3+爬虫一般开发流程？pytho

python网络爬虫基础模块安装

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读