Python爬虫作业 | 爬取拉勾职位信息

作者: JaeGwen | 来源:发表于2017-04-26 17:55 被阅读215次

Python爬虫作业 | 爬取拉勾职位信息
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
拉勾爬虫实战
Python爬虫-拉勾网职位爬取
Python、Java 薪资最高，C# 垫底：分析什么编程语言最
Python爬虫：爬取拉勾网职位信息存入excel
Python爬虫-爬拉勾网
Python urllib爬取拉勾网职位信息
拉勾网职位列表爬取
拉勾网职位信息爬取

主要爬了以下几个字段：

岗位名称
公司名称
要求的工作经验
薪资
工作地点。

感谢罗攀攀和向右奔跑以及朋友wiliiwin的指导

#coding:utf-8

import json
import requests


class LagoupositionSpider():
    name = "LagouPosition"
    totalPageCount = 1
    curpage = 1
    city = '杭州'
    myurl = 'https://www.lagou.com/jobs/positionAjax.json?px=default&city={}&needAddtionalResult=false'.format(city)

    header = {
         'Cookie': 'JSESSIONID=2FC28971BBE032152E26B3EDC53E5856; user_trace_token=20170426193638-4a8fe6d996f3492492303a4d78b079b4; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGUID=20170426193639-9caaa97f-2a74-11e7-8138-525400f775ce; index_location_city=%E6%9D%AD%E5%B7%9E; TG-TRACK-CODE=index_search; _gat=1; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493206604; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1493206703; _ga=GA1.2.736962990.1493206603; LGSID=20170426193639-9caaa76a-2a74-11e7-8138-525400f775ce; LGRID=20170426193818-d7ae7795-2a74-11e7-b3b0-5254005c3644; SEARCH_ID=88bbbc48ca4448218bea2cd41926b5c6'，'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
    }

    kds = ['Python工程师', '大数据', '云计算', 'docker', '中间件', 'Node.js', '数据挖掘', \
           '自然语言处理', '搜索算法', '精准推荐', '全栈工程师', '图像处理','机器学习', '语音识别']
    kd = kds[0]

    def start_requests(self,cur):
        post_data = {'first': 'false', 'pn': str(cur), 'kd': self.kd}
        html = requests.post(myurl, data=post_data, headers=self.header)
        html_text = html.text
        return html_text

    def get_result(self):
        result = self.start_requests(self.curpage)
        jdict = json.loads(result)
        jcontent = jdict['content']
        jposresult = jcontent['positionResult']
        jresult = jposresult['result']
        self.totalPageCount = jposresult['totalCount'] / 15 + 1
        for each in jresult:
            positionName = each['positionName'].encode('gbk')
            companyFullName = each['companyFullName'].encode('gbk')
            workYear = each['workYear'].encode('gbk')
            salary = each['salary'].encode('gbk')
            district = self.city.decode('utf-8').encode('gbk')
            with open('F:\python.csv', 'ab+') as f:
                f.write('{},{},{},{},{},{}'.format(positionName, district, companyFullName, workYear, salary, '\n'))
        if self.curpage <=  self.totalPageCount:
            self.curpage += 1
            self.start_requests(self.curpage)
            self.get_result()

if __name__ == '__main__':
    lagouspider = LagoupositionSpider()
    lagouspider.get_result()

编写过程碰到的问题

requests的post请求加个header和cookie
requests 的post请求的方法

在开始的时候用了json.dumps()给post请求传了一编码为JSON格式的post_data，导致返回的html始终不是想要的数据

Requsets 快速上手
通常，你想要发送一些编码为表单形式的数据——非常像一个 HTML 表单。要实现这个，只需简单地传递一个字典给 data 参数。你的数据字典在发出请求时会自动编码为表单形式：

image.png

很多时候你想要发送的数据并非编码为表单形式的。如果你传递一个 string 而不是一个 dict，那么数据会被直接发布出去。

例如，Github API v3 接受编码为 JSON 的 POST/PATCH 数据：

image.png

此处除了可以自行对 dict 进行编码，你还可以使用 json 参数直接传递，然后它就会被自动编码。这是 2.4.2 版的新加功能：

image.png

爬取结果

爬取结果.png

Python爬虫作业 | 爬取拉勾职位信息
主要爬了以下几个字段：岗位名称公司名称要求的工作经验薪资工作地点。感谢罗攀攀和向右奔跑以及朋友wili...
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
由于说到Python爬虫一定绕不过Scrapy框架，所以这次也就尝试将之前的爬虫用Scrapy框架爬取拉勾网,这个...
拉勾爬虫实战
0 引言一次简单的 Python 爬虫练习：输入目标城市和目标职位，从拉勾网爬取相关的职位列表数据...
Python爬虫-拉勾网职位爬取
感觉好久没写python了哈哈，最近都在忙工作，所以也是没有学习python。刚好凑巧朋友正在找工作，也是java...
Python、Java 薪资最高，C# 垫底：分析什么编程语言最
本文主要用Python爬取拉勾网不同编程语言职位信息，包括Python岗、Java岗、C++岗、PHP岗、C#岗位...
Python爬虫：爬取拉勾网职位信息存入excel
校招进入火热状态，学人力资源管理的我想了解当前全国HR职位情况的相关数据，所以将近期爬虫目标瞄准了拉勾网 [...
Python爬虫-爬拉勾网
本周的爬虫作业是爬拉勾网，这次作业跟上周不同的地方在于拉勾有查询的接口，可以直接模拟网页调用拉勾职位查询接口，直接...
Python urllib爬取拉勾网职位信息
为了获取拉勾网的招聘信息，对数据分析岗位的基本信息进行爬取。之所以选择拉勾网作为本项目的数据源，主要是因为相对于其...
拉勾网职位列表爬取
三个小爬虫的最后一个是对拉勾网职位列表的爬取，当然这里没有考虑增量爬取，也没有考虑多线程爬取，仅仅是简单的把职位列...
拉勾网职位信息爬取
分析网页通过浏览器查看网页源代码，未能找到职位信息，因此需要打开F12开发者工具抓包分析职位数据使怎样被加载到网...