应届生重庆今天模仿完成了一个小实验,通过python脚本爬取应届生招聘网招聘信息的标题和链接(模仿自https://blog.csdn.net/yaojingdedaogao/article/details/53175458),结果大致如下:
1.源代码
jupyter notebook2.解释:
- 第二段代码通过调用request库,使代码模仿浏览器(header)对目标网站发起访问,获取后续的网页内容content。(chrome浏览器->network->任意name->headers)
- 第三段代码调用os库,类似linux命令生成JD文件夹
- 第四段代码调用BeautifulSoup库,提取页面中的HTML元素,比如td、class、a、href等
3.收获:
1 浏览器获取headers,也是从同样位置得知网页编码格式
2 find_all()返回的是列表,fain返回的是搜索的结果
3 os.getcwd()获取当前工作路径,os.path.join()拼接路径
4 request.get()返回的是结构体content,print不出来,需要print(content.text)
4.TBD:
1 举一反三,换boss直聘网站试试(之前试过一次,中文会变成乱码,不知是不是和应届生的页面编码不同导致的)
举一反三 抓取boss直聘信息 举一反三 boss直聘抓取源码乱码是因为第二段代码中的内容编码格式设置,应届生中无编码格式,因此可以转换,但是boss直聘页面有编码格式utf-8,这是再设置转为gbk就变成乱码了,因此在举一反三中删除了对内容编码格式设置的语句,文字恢复正常
网友评论