美文网首页数据分析实践
智联招聘爬虫(简易版本……)

智联招聘爬虫(简易版本……)

作者: 贾老板MC | 来源:发表于2018-06-08 17:00 被阅读0次

1.主要工具

——————————————————————————————————————
语言使用python3.来实现,主要使用的库(sqlite3、lxml、requests)

2.网页解析部分

——————————————————————————————————————
示例代码用来简单提取智联招聘中职位、公司以及薪资数据,如下图~

image.png [链接][(https://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%9D%AD%E5%B7%9E&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&sm=0&p=1),由于时间不是很充裕,这篇文章中将略过文本爬取的介绍,本次示例使用lxml进行网页解析,不是很熟悉的同学可以去看看崔大大的教程,或者到lxml官网去看示例代码。

3.代码

—————————————————————————————————————

import requests 
from lxml import etree

#定义获得html并使用etree加工的函数
def get_html_page(url):
  r = requests.get(url)
  page = etree.HTML(r.text.encode('utf-8').decode('utf-8','ignore'))
  return page
#获得上图中职位信息的函数
def jobs(page):
  jobs_reg = u'//table[@cellpadding="0"]//a[@style="font-weight: bold"]'
  jobs_s = page.xpath(jobs_reg)
  s = [value.xpath('string()') for value in jobs_s]
  return s
#获得公司信息的函数
def companies(page):
  companies_reg = u'//table[@cellpadding="0"]//td[@class="gsmc"]'
  companies_s = page.xpath(companies_reg)
  s = [value.xpath('string()') for value in  companies_s]
  return s
#获得薪水信息的函数
def salary(page):
  salary_reg =u'//table[@cellpadding="0"]//tr/td[@class="zwyx"]' 
  salary_s = page.xpath(salary_reg)
  s = [value.xpath('string()') for value in salary_s ]
  return s

这一段代码主要用来实现网页数据获取以及提取目标数值,因为只是一个简单的示例,所以爬取网页部分不涉及请求分析、header构造以及有可能出现的乱码问题。OK,做一些简单的赋值之后,很容易拿到我们需要的三列数据(实际上是三个列表,ps:最初我尝试过直接使用s = [value.xpath('string()') for value in page.xpath(jobs_reg)]做列表生成式,但是最后得出s不是一个列表,而是一个func,不知是什么原因,希望大家帮忙解决一下)。

OK,拿到数据之后,下一步要进行存储的工作,最简单的方法是使用csv或者pandas这两个包生成CSV文件,进阶的存到数据库里面,这样你后期处理会方便很多,本次示例将使用sqlite3做数据存储。

import sqlite3

global conn
global cursor 
conn = sqlite3.connect('zhilian.db')
cursor = conn.cursor()           
cursor.execute('create table job (id integer PRIMARY KEY autoincrement, jobs varchar(20) ,company varchar(30),salary varchar(15) )')
#运行函数
url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%9D%AD%E5%B7%9E&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&sm=0&p=1'   
page = get_html_page(url)

jobs = jobs(page) 
companies = companies(page)
salary = salary(page)
#数一下生成的列表有多少数
count_num = len(jobs)
#下边就开始保存到数据库 
global i
i = 0
for i in range(count_num):    
    sql = 'insert into job(id ,jobs,company,salary) values(?,?,?,?)'   
    cursor.execute(sql,(i,jobs[i],companies[i],salary[i]))
    i=i+1
conn.commit()

最后找个图形化的数据库处理软件(我用的是DB Browser for sqlite),查一下刚才保存成功的数据~


image.png

后续我会写一个复杂的版本———————待————————填——————————坑————————

相关文章

网友评论

    本文标题:智联招聘爬虫(简易版本……)

    本文链接:https://www.haomeiwen.com/subject/sswgsftx.html