美文网首页程序员just py
用python爬取招聘信息

用python爬取招聘信息

作者: 李明轩Matthew | 来源:发表于2018-07-10 21:40 被阅读39次

    今天模仿完成了一个小实验,通过python脚本爬取应届生招聘网招聘信息的标题和链接(模仿自https://blog.csdn.net/yaojingdedaogao/article/details/53175458),结果大致如下:

    应届生重庆

    1.源代码

    jupyter notebook

    2.解释:

    • 第二段代码通过调用request库,使代码模仿浏览器(header)对目标网站发起访问,获取后续的网页内容content。(chrome浏览器->network->任意name->headers)
    • 第三段代码调用os库,类似linux命令生成JD文件夹
    • 第四段代码调用BeautifulSoup库,提取页面中的HTML元素,比如td、class、a、href等

    3.收获:

    1 浏览器获取headers,也是从同样位置得知网页编码格式
    2 find_all()返回的是列表,fain返回的是搜索的结果
    3 os.getcwd()获取当前工作路径,os.path.join()拼接路径
    4 request.get()返回的是结构体content,print不出来,需要print(content.text)

    4.TBD:

    1 举一反三,换boss直聘网站试试(之前试过一次,中文会变成乱码,不知是不是和应届生的页面编码不同导致的)

    乱码是因为第二段代码中的内容编码格式设置,应届生中无编码格式,因此可以转换,但是boss直聘页面有编码格式utf-8,这是再设置转为gbk就变成乱码了,因此在举一反三中删除了对内容编码格式设置的语句,文字恢复正常

    举一反三 抓取boss直聘信息 举一反三 boss直聘抓取源码

    相关文章

      网友评论

        本文标题:用python爬取招聘信息

        本文链接:https://www.haomeiwen.com/subject/pmgqpftx.html