美文网首页
Python爬虫练手

Python爬虫练手

作者: Lamb_Yang | 来源:发表于2018-08-30 15:41 被阅读14次

最近互金行业问题不断,基本每天都有问题平台爆出,为了能够实时跟进相应的平台数据进行汇总,于是就想到了使用爬虫进行相关数据的爬取。通过chrome的开发工具找到数据的接口地址,接口返回的数据格式是类似json的格式。json格式的数据可以通过网上的相关工具进行csv格式的转换,目前的任务就是需要将该数据保存下来即可。初步的思路如下,接口数据是分页的,每次请求回来的数据是json格式,将抓取回来的json数据转换为csv,再使用excel处理。

爬取工具

  • Requests库
  • Lazyspider库

之前学过一些Python的基础,刚好苦于没有实际案例可以进行练手,这次抓取工作就使用Python爬虫进行爬取。第一次上手爬取数据,数据抓取使用requests库,对比了各种爬虫库工具,感觉这个上手简单一些。数据接口做了一定的处理需要构建一个正常的请求头和cookies。直接使用本机上的cookies,为了方便构建headers和cookies使用Lazyspider库。

爬取过程

Lazyspider库的使用比较简单,直接通过本机的curl解析出需要的headrs和cookies。

curl=“……”
lh=LazyHeaders(curl)
headers=lh.getHeaders()
cookies=lh.getCookies()

接下来就是构建爬取地址,原数据接口是分页发送数据的,开始的想法是将每一页的数据都保存下来,尝试了一下,虽然这样的方式比较简单,但是在后续数据处理的时候文件数太多,格式转换比较麻烦,于是准备将数据保存为一个数据文件。每页返回的数据格式如下:

image

实际只需要data的值,刚好这个值是一个list,刚好比较方便多页数据的拼接。测试了一下网站的数据量,大概有200多页左右,每页数据20条。因为不需要太早的数据,就暂定抓了50页的数据,接下来就是构建抓取地址。

#接口地址
url='……'
#拼接请求地址
get_url=''
for page in range(50):
    page=page+1
    get_url=url+str(page)
    r=requests.post(get_url,headers=headers,cookies=cookies)

接下的操作就简单一些了,把抓取回来的数据提取出data的值放入一个list中,然后保存为一个txt文件就可以了,为了方便观察进度和记录,把文件名按照抓取时间和页数进行设置。

image

最后将获得的数据通过一些在线转换工具转换为csv就可以通过Excel来进行处理了。高级点的操作就是把抓取回来的数据保存到自己的数据库,然后通过echart等可视化工具进行处理,这部分还需要再研究一下。

image

相关文章

  • Python实战爬虫:练手爬虫用urllib模块获取

    练手爬虫用urllib模块获取 修改后python3的代码

  • Python爬虫练手

    最近互金行业问题不断,基本每天都有问题平台爆出,为了能够实时跟进相应的平台数据进行汇总,于是就想到了使用爬虫进行相...

  • Python3爬虫(妹子图)

    前言 最近在学习python爬虫,这是一个练手的小项目。参考资料: 深入Python3 Python官方文档 正则...

  • Python爬取煎蛋妹子图

    准备工作:Python3.5+Requests+BeautifulSoup这是个爬虫练手项目,只做到了爬取图片,没...

  • 爬取朋友圈,Get年度关键词

    人生苦短,我用Python && C#。 1.引言 最近初学Python,写爬虫上瘾。爬了豆瓣练手,又爬了公司的论...

  • Python写爬虫爬妹子

    最近学完Python,写了几个爬虫练练手,网上的教程有很多,但是有的已经不能爬了,主要是网站经常改,可是爬虫还是有...

  • 用python爬一下淘宝的小姐姐们

    最近学完Python,写了几个爬虫练练手,网上的教程有很多,但是有的已经不能爬了,主要是网站经常改,可是爬虫还是有...

  • Urllib库的使用

    背景 在学习了Python的基本语法后,我们急需找个项目练练手。首先,我们自然地想到了爬虫。宏观地看,爬虫主要是为...

  • 一大波妹子图向你来袭,用Python爬取妹子图全站图片

    大家好,我是DannyWu,刚学习python爬虫不久,最近在网上查找有趣的爬虫来练手,其中就看到了有爬取妹子图的...

  • Scrapy初体验

    学了python之后一直在给自己找点儿什么需求练练手,爬虫是学python最快的途径,就想着爬点豆瓣电影的数据吧,...

网友评论

      本文标题:Python爬虫练手

      本文链接:https://www.haomeiwen.com/subject/jjqdwftx.html