爬虫学习进度小结

作者: 夜希辰 | 来源:发表于2019-01-13 09:16 被阅读3次
第一个自己理解并实操的爬虫代码 网页信息

本周学习内容爬虫,已理解标签的选择。

目前问题:

1对python函数不熟练

2解析索引页获取详情页url,解析详情页获取目标内容

3Ajax请求,翻页请求

4beautifulsoup,正则表达式(以后学)

5存取数据库

学完后在进行全面总结

```

《爬取58招聘信息》

import requests

from bs4 import BeautifulSoup

from requests.exceptions import RequestException

headers = {'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}

def get_page_index(url):

    try:

        respones = requests.get(url,headers = headers)

        respones.encoding = 'utf-8'

        if respones.status_code == 200:

            return respones.text

        return None

    except RequestException:

        return('请求错误')

    return None

def parse_page_index(html):

    soup = BeautifulSoup(html,'lxml')

    list_li = soup.find_all('ul',id = 'list_con' )[0].find_all('li',class_ = 'job_item clearfix')#返回一个列表需要用循环

   

    for link in list_li:

        #list_a = link.find_all('div',class_ = 'job_name clearfix')[0].find_all('a')[0]

        #list_a = link.find_all('div',class_ = 'job_name clearfix')[0].find_all('a')[0]#筛选出所有的a标签

        address = link.find_all('div',class_ = 'job_name clearfix')[0].find_all('a')[0].find_all('span',class_ = 'address')[0].text

        name = link.find_all('div',class_ = 'job_name clearfix')[0].find_all('a')[0].find_all('span',class_ = 'name')[0].text

        print([address,name])

def main():

    url = 'https://cd.58.com/jiazhengbaojiexin/?key=月嫂'

    html = get_page_index(url)

    parse_page_index(html)

if __name__=="__main__":

    main()

```

相关文章

  • 爬虫学习进度小结

    本周学习内容爬虫,已理解标签的选择。 目前问题: 1对python函数不熟练 2解析索引页获取详情页url,解析详...

  • 山东大学-VirtualJudge-总结1

    在这个周根据小组进度安排,我主要学习了Python爬虫的编写,学习主要参考:python实现简单爬虫功能 根据博客...

  • 11.14爬虫学习小结

    1. HTTP基本原理 相关概念 URI URL HTTPS 2. http请求过程 get和post请求的区别 ...

  • 学Python的009天

    原创:XIAO油菜花学习进度记录:《零基础入门学习Python》P17:序列!序列!《Python开发入门与爬虫项...

  • 2017年4月25日 第二轮考核第一天学习情况

    开始使用 haroopad 编辑markdown,用来记录自己每天的考核学习情况和进度。 看了python爬虫的简...

  • 学Python的020天

    原创:XIAO油菜花学习进度记录:《零基础入门学习Python》P30:文件:一个任务《Python开发入门与爬虫...

  • 学Python的011天

    原创:XIAO油菜花学习进度记录:《零基础入门学习Python》P20:我的地盘听我的《Python开发入门与爬虫...

  • 爬虫小结

    大数库时代:数据如何产生: 1.大的公司大的企业:通过用户产生的用户2.大的数据平台:通过收集或者和其他企业或者公...

  • 爬虫小结

    爬虫是一段自动获取网络数据的程序,用于做搜索引擎等,想做爬虫得实现如下三部 (1).找到目标URL (2).根据U...

  • 爬虫小结

    爬虫:网络爬虫机器人,从互联网自动抓取数据的程序 理论上:通过浏览器看到的数据,我们一般都是可以获取到的 爬虫的作...

网友评论

    本文标题:爬虫学习进度小结

    本文链接:https://www.haomeiwen.com/subject/eidkdqtx.html