2019-04-30

作者: Levi__s | 来源:发表于2019-04-30 13:39 被阅读0次

pthon爬虫--天眼查实战-嗷嗷嗷~~~

要知道https://guangzhou.tianyancha.com/search/p1这100个公司的id信息：先抓包，信息在返回的html文档中，不是我们喜闻乐见的json文件，好吧，只能暴力抓了。

在自定义Spider的parse函数调用response.xpath('xxxxxxx').extract_first()可以很轻松的获得这100家公司的URL，从中获取id及其它信息，再把item传给Pipeline。

在自定义的Pipeline中可以调用数据库保存相关的信息，注意信息的去重，我在新建表的SQL函数是这样写的：

天眼查机智的将几个字段的数字映射调换了一下位置，比如：

再比如：

怎么找到规律呢？抓包！找字体文件（Chrome按F12，选中‘Font’，刷新一下页面就有了）。

怎么样，映射关系出来了吧，uni30就是0

写个映射函数转换一下：

其实这次爬虫整体没有爬到很多数据量，因为天眼查有100的限制，后续的重点是怎么充分利用天眼查的search功能，爬到更多的公司id，其实或者穷举也行，像某不知名的B站那样…

这期就给大家分享到这里, 点个小红心吧, 留下大佬们的建议, 嗷嗷嗷~~~

本文标题：2019-04-30

本文链接：https://www.haomeiwen.com/subject/yramnqtx.html