美文网首页
爬虫脚本学习简单总结

爬虫脚本学习简单总结

作者: 阳光十度暖 | 来源:发表于2020-07-09 22:11 被阅读0次

    边学边模拟,来做个笔记总结一下,爬虫一般可分为三个步骤:

    1. 访问url 获取数据

        有的网页有反爬虫机制,在写脚本的时候可以添加上header 模拟用户操作浏览器

    headers= {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'

    }

    response= requests.get(url_first,headers=headers)

    2. 解析数据

    用python的bs4模块里的BeautifulSoup

    find有好的方法,可找单个find(),可找多个find_many(), 可找所以find_all()

    find后面跟get_text()是获取匹配的标签的内容

    mysoup= BeautifulSoup(html,'lxml')

    content= mysoup.find('div',id='content').get_text()

    find的标签是以字典格式存储的,获取它的属性,可以直接用key获取也可以用get获取

    for a_tagin ahrefList:

        newUrl= a_tag['href']# 这里把结果当做了字典,有两种方法

        #newUrl = a_tag.get('href')

        urlList.append(newUrl)

    3. 处理存储数据

    def save_data(content):

        with open("xxxtxt",'w',encoding='utf-8') as f:

            f.write(content)

    f.close()

    相关文章

      网友评论

          本文标题:爬虫脚本学习简单总结

          本文链接:https://www.haomeiwen.com/subject/ojsecktx.html