pthon爬虫--天眼查实战-嗷嗷嗷~~~
1. 步骤
要知道https://guangzhou.tianyancha.com/search/p1这100个公司的id信息:先抓包,信息在返回的html文档中,不是我们喜闻乐见的json文件,好吧,只能暴力抓了。
在自定义Spider的parse函数调用response.xpath('xxxxxxx').extract_first()可以很轻松的获得这100家公司的URL,从中获取id及其它信息,再把item传给Pipeline。
在自定义的Pipeline中可以调用数据库保存相关的信息,注意信息的去重,我在新建表的SQL函数是这样写的:
天眼查机智的将几个字段的数字映射调换了一下位置,比如:
再比如:
怎么找到规律呢?抓包!找字体文件(Chrome按F12,选中‘Font’,刷新一下页面就有了)。
怎么样,映射关系出来了吧,uni30就是0
写个映射函数转换一下:
总结
其实这次爬虫整体没有爬到很多数据量,因为天眼查有100的限制,后续的重点是怎么充分利用天眼查的search功能,爬到更多的公司id,其实或者穷举也行,像某不知名的B站那样…
网友评论