美文网首页
2019-04-30

2019-04-30

作者: Levi__s | 来源:发表于2019-04-30 13:39 被阅读0次

    pthon爬虫--天眼查实战-嗷嗷嗷~~~

    1. 步骤

    要知道https://guangzhou.tianyancha.com/search/p1这100个公司的id信息:先抓包,信息在返回的html文档中,不是我们喜闻乐见的json文件,好吧,只能暴力抓了。

    在自定义Spider的parse函数调用response.xpath('xxxxxxx').extract_first()可以很轻松的获得这100家公司的URL,从中获取id及其它信息,再把item传给Pipeline。

    在自定义的Pipeline中可以调用数据库保存相关的信息,注意信息的去重,我在新建表的SQL函数是这样写的:


    天眼查机智的将几个字段的数字映射调换了一下位置,比如: 

    再比如: 

    怎么找到规律呢?抓包!找字体文件(Chrome按F12,选中‘Font’,刷新一下页面就有了)。 

    怎么样,映射关系出来了吧,uni30就是0 

    写个映射函数转换一下:


     总结

    其实这次爬虫整体没有爬到很多数据量,因为天眼查有100的限制,后续的重点是怎么充分利用天眼查的search功能,爬到更多的公司id,其实或者穷举也行,像某不知名的B站那样…

    这期就给大家分享到这里, 点个小红心吧, 留下大佬们的建议, 嗷嗷嗷~~~

    相关文章

      网友评论

          本文标题:2019-04-30

          本文链接:https://www.haomeiwen.com/subject/yramnqtx.html