美文网首页
第一步梳理_190515

第一步梳理_190515

作者: ppzbreeze | 来源:发表于2019-05-15 23:49 被阅读0次

初步总结

  • 虽然以后可能不一定走这个方向,不过作为搜集数据的一种方式,而且是强有力的方式,爬虫还是值得入门一下的,毕竟大数据的时代嘛,很多基础的思想也是需要了解的

主要实现方式

  • 通常来说爬虫是抓取数据的一种方式,这个思路很像卷福扮演图灵研究第一台计算机破解密码的思路,就是通过页面的表象,直接获取数据,再整理成我们想要的形式,对网站怎么表述没什么考量,也不用研究

几个主要构成

  • 获取页面信息
    将庞大的json格式数据全部抓取
  • 正则筛选
    在庞大的数据中,找出我们想要的数据
  • 定向下载/爬取
    将通过筛选出来的数据/url进行定向获取,并整理成我们需要的格式

主流工具使用

这里其实有个原则,各种花里胡哨的架构原则上是有用的,不过也要建立在合适的需求之上,如果只是想针对性的获取某些小量数据,完全没必要将很多大的架构研究清楚,作为高级语言,py很大概率能够几行代码就能实现基础功能

裸奔

最简单粗暴的方法,最基础的四个环节

urlopen()        #获取整个页面数据
read()           #将获取的数据保存起来
re.findall()     #匹配正则表达式
urlretrieve()    #将匹配到的数据进行定向爬取

scrapy

慢慢研究中。。。

相关文章

  • 第一步梳理_190515

    初步总结 虽然以后可能不一定走这个方向,不过作为搜集数据的一种方式,而且是强有力的方式,爬虫还是值得入门一下的,毕...

  • 【190515】体检

    2019年5月15日星期三晴☀ 原定4月20日的体检,一推一推居然整整推迟了一个月左右的时间,这大概是大家都始料不...

  • 给你190515

    今天跟小朋友在聊天,就问他们的爸爸妈妈在做什么职业。只有一小部分的小朋友很清晰的去讲述他的爸爸妈妈是做什么的。其他...

  • 感恩日记190515

    感恩今天早上被林先生赞美了。送完大宝去幼儿园然后再回家的他,看到我和小宝煮了几根玉米,脱口而出“太棒了”。只是煮了...

  • 日精进打卡190515

    姓名:陈萍 公司:宁波谊久国际物流有限公司 【日精进打卡第17天】 【知~学习】 《六项精进》0遍 共16遍 《大...

  • 新媒体矩阵搭建

    第一步:梳理阶段 第一步需要梳理学校新媒媒体体的的发发展展阶阶段段。公众号矩阵并非一开始就得搭建,不同阶段的重心不...

  • 自律挑战day117

    190515日结day117 【晨/午练】2小时 【英语】英语流利说20min 【阅读】没有阅读纸质书,因为下班后...

  • 写作文

    基础第一步:先帮助孩子梳理头绪,写出简单的作文 对待完全不会写作文的孩子,爸爸妈妈应当先做好第一步:帮孩子梳理头绪...

  • 数据平台从0到1搭建流程

    一、业务梳理 业务梳理应该是所有需求开始的第一步了。 首先,明确公司的战略目标,结合用户/业务的痛点分别梳理出几个...

  • 筱麦心情记190515

    一味的抱怨不能解决事情。 凡事要有最坏的打算,同时要有应对的方案。 领导只关注结果,以及你需要解决的问题。 不要一...

网友评论

      本文标题:第一步梳理_190515

      本文链接:https://www.haomeiwen.com/subject/npmvaqtx.html