根据知乎专栏:爬虫从入门到精通中的相关内容,经过个人学习与改良,得到如下爬虫系列。
环境:python 3.6.4
系统:win 7
相关包:见程序
我个人觉得,BB半天不如有个程序来的实在,有了程序自己看,不懂得谷谷大佬,这是最好的学习方式,所以。
载入包、函数获取url、函数获取高德地图相关url 函数page加载、摩拜定位(这个没用到,本文中无视) 运行&结果(注释为摩拜定位运行程序,因为缺少数据库,所以无法得到结果)这里稍微注释几句以便大家理解起来更容易(毕竟谁都觉得谁写的程序思维都很清奇):
1.缺少的库自己下,cmd下pip install +库名(前提是你装了pip,建议直接安装Anaconda3,省事不少)
2.load_url函数就是普通的requests.get的调用,pois是高德的一个字段名,具体的可以去高德API文档自己查看,截个图方便大家快速理解pois,这里如果直接print(z.text)会出来pois的所有属性和值,没必要,我们就看个学校名字就行了,所以选中z[‘name’]字段的内容打印即可
pois内容(不全)3.ThreadPoolExecutor是多线程使用,加快获取url的速度嘛,max_workers不设置的话默认是“ cpu核数 * 5 ”,关于这个部分可以去最开始说的知乎专栏里去查看(异步加载),用两次就会了,python不就是一个入门简单的语言吗
4.需要着重说明一下 :param中的‘key’字的内容是需要自己创建的(你可不可以用我的我没试过,我不建议这么做,学一个东西就慢慢地刨根问底,这样才能挖的深学的多),创建很简单,给个链接自己看获取高德开发key
5.param中的page初始为空,配合merge_dicts函数一起使用即可得到所需page的url,这里page取1~50,是我随便取的,我也没看到底高德有多少页数据,你可以自己查看一下然后更改
6.packle保存数据
7.[239]的mobai直接忽视就行了,因为缺少数据库资源,这里的数据库用的mongo的,但现在mongo都变成云数据库了,参考的资料爬的时候还是下载的客户端版本,so这里,以后再说吧?
爬虫部分是做数据挖掘的基础,爬虫工程师、数据分析师、大数据工程师这一个个进阶就不多说了,一下触碰不到的香唇,那就从脚舔起来。
网友评论