爬虫脚本学习简单总结

作者: 阳光十度暖 | 来源:发表于2020-07-09 22:11 被阅读0次

边学边模拟，来做个笔记总结一下，爬虫一般可分为三个步骤:

1. 访问url 获取数据

有的网页有反爬虫机制，在写脚本的时候可以添加上header 模拟用户操作浏览器

headers= {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'

}

response= requests.get(url_first,headers=headers)

2. 解析数据

用python的bs4模块里的BeautifulSoup

find有好的方法，可找单个find()，可找多个find_many(), 可找所以find_all()

find后面跟get_text()是获取匹配的标签的内容

mysoup= BeautifulSoup(html,'lxml')

content= mysoup.find('div',id='content').get_text()

find的标签是以字典格式存储的，获取它的属性，可以直接用key获取也可以用get获取

for a_tagin ahrefList:

newUrl= a_tag['href']# 这里把结果当做了字典，有两种方法

#newUrl = a_tag.get('href')

urlList.append(newUrl)

3. 处理存储数据

def save_data(content):

with open("xxxtxt",'w',encoding='utf-8') as f:

f.write(content)

f.close()

网友评论

本文标题：爬虫脚本学习简单总结

本文链接：https://www.haomeiwen.com/subject/ojsecktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫脚本学习简单总结

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读