美文网首页程序员
抓取智联招聘

抓取智联招聘

作者: 去角落里种蘑菇 | 来源:发表于2018-11-21 20:08 被阅读0次

网页屏蔽,服务器屏蔽

模拟用户进行数据抓取

基于selenium库和selenium.webdriver

抓取数据和网络速度等有关

视频链接 https://www.bilibili.com/video/av31369828/?p=6

主要代码如下

import selenium #测试框架
import selennium.webdriver #模拟浏览器
import re

mystr = """<span class \"search_yx_t j\">
  共<em>5830</em>个职位满足条件
  <span>"""

restr = "<em>(\\d+)</em>"#d+表示和数字有关;():只要里面的对象
regex = re.compile(restr, re. IGNORECASE)
mylist = regex.findall(pagesource)
def getnumberbyname(searchname):
  url = "https://sou.zhaopin.com/?jl=613&kw=" + searchname + "&kt=3"
  driver = selenium.webdriver.Firefox() #调用火狐浏览器
  driver.get(url) #访问链接
  pagesource = driver.page_source #抓取网页源代码
  driver.close()#关闭
  return mylist[0]

# print getnumberbyname("python") 这是测试函数

pythonlist = ["python", "python 运维", "python 测试", "python 数据", "python web"]
for oystr in pythonlist:
  print pystr, getnumberbyname(pystr)

相关文章

网友评论

    本文标题:抓取智联招聘

    本文链接:https://www.haomeiwen.com/subject/michqqtx.html