小奈:其实你们写的代码好像有不同派系的?
大仁:你是说编程语言?我来介绍下吧,我们来看下GitHub(程序员同城交友、代码协作平台)的数据,看下各种编程语言 Pull Requst的数据, Javascript的提交量最高,前端的鼎盛时期,python则处于飞速上升中,很有潜力。Java一直很稳,常年占据了后端主流编程语言第一。

python热度为何持续上涨?

python可以用来干什么呢?
- 后端开发语言,常见开发架构django;
- 数据分析,常用库,pandas;
- 爬虫,scrapy;
- 人工智能,tensorflow。
人工智能和数据分析,近年来需求持续攀升,这方面人才待遇也是水涨船高,既然python那么能干,热度自然飞速上涨。
爬虫
说到数据分析,我们不得不说下数据来源,一般是内部数据,也有外部数据,外部数据的获取有很多种,最常见的方式就是爬虫了。
爬虫基于robots协议可以公开爬去网络上的信息。
python的工作原理

python中有成熟的爬虫框架(scrapy、bs4),只要你给爬虫一个网址,它就可以去爬取,和输入url类似却又不同,不同的是爬虫会把这些html文件里有用的信息抓取回来,而且爬虫可以爬取该网站相关的其它链接,像是daquan里的abc、123、456等。
小奈:爬取别人的信息会不会违法?
大仁:看你怎么爬取,其实有个爬虫协议(robots),每个网站都可以声明,其实就是声明那些文件可以、那些不可以,下面以淘宝网的robots.txt为例:
User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Disallow: /product/
Disallow: /

遵循robots协议后,爬取的数据不用于商用,基本上没事,商用的话目前还是灰色地带,混沌蛮荒阶段。
淘宝对百度的屏蔽
当年还可以在百度里搜索到淘宝商品信息,后来淘宝决定对搜索引擎实施不同程度的屏蔽,那时候淘宝体量还没那么大,屏蔽百度,会少了很多站外流量。但是这个关键性的决定,让用户心智统一(淘宝里才可以搜索商品),后面现金流般的淘宝广告就更不说了,站在当时,很考验产品决策人。
搜索引擎
爬虫似乎和搜索引擎密切相关,是的,是时候来科普下,搜索引擎的工作原理。

假如你在“JackSearch”,这个搜索引擎里,输入“产品经理”,那么当你点击搜索时,服务器就会去数据库查找,返回相关的文件信息,那么你就会问,这些文件是哪来的?
是爬虫们去网页世界里爬取的。
当然,搜索引擎远比这个复杂,爬虫抓取回来的信息,还需要存储,建立索引,这个推荐一本书,luence.

ide


爬虫框架scrapy
Scrapy: Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

数据存储

网友评论