美文网首页
噢!这是一篇关于Python 爬虫的技术文

噢!这是一篇关于Python 爬虫的技术文

作者: lulu007 | 来源:发表于2017-05-23 10:36 被阅读0次

    今天实验室又双叕断网了,我能有什么办法呢。。我也很无奈啊……正好借此机会总结下最近学习的相关东西。

    1.先检查实验室的网络环境,顺便了解下计算机软硬件相关知识以及网络相关的知识。实验室有服务器,交换机,路由器,学生pc机,学生手机。学生pc机如何上网呢,先通过学校的信心中心把网络连接到服务器,如果这步没问题,服务器就可以成功连上网。然后,通过服务器个交换机的配置已经交换机和pc端的连接,最后ping通网络。而学生手机上网,只是在交换机之外又连接了个无线路由器,然后手机就可以无线上网了。当然各个设备都是需要网线来互联的。对于网线的水晶头如何做?上次也体验了下,网线里面有各种各样颜色的线,按顺序将其排列在水晶头中就可以了。anyway ,说了这么多,只要学校断网,信息中心网络除了问题,也就只能跪了。。。

    2.Linux 相关。虽说一直都知道linux 属于开源的操作系统,大多数服务器都是用linux,是开着所必须掌握的操作环境。但是自己接触的真的太少太少,以前本科的时候有进入过Linux 的操作系统体验过,当时的自己只是觉得很新奇再加一脸懵逼,并没有好好学习。。。突然无比后悔自己本科时候为什么不好好学点扎实的技术呢。。现在的自己还得慢慢地再学习这些。现在我学习的目的主要是想了解下基本的环境和操作。至于Linux 的知识体系之类的,刚刚报了个学习班(老徐讲的,崇尚分享互助。嗯……),等明天听过了之后再来补充。

    抱着只是了解下Linux 的心态,就装了个VM ware 的虚拟机,然后在其中导入Ubuntu kylin的iso文件,这样就创造了一个虚拟的linux操作系统。登录进入,按CTR Alt f1可进入命令行模式。然后就有关于Linux 的各种常用命令,比如ls,vim ,sudo,等等,自己也就学到这个级别。另外,用CTR Alt 可以让鼠标移动到你的Windows 桌面。确实学得很浅,有待明天的补充。。

    3.python 相关。最开始学python 的原因是因为自己想重新捡起代码编程这些东西,无奈之前学过的c和java 都没学好,就想开始一门新的语言,重点是她简单啊啊啊。。嗯,然后就觉得开始了。主要需求是学习爬虫和数据分析相关,毕竟科研有需求。然而,从上学期就开始学的我,似乎什么都没学到,就学了一些基本语法。主要是因为当时的自己并没有好好认真学,遇到一点困难就呼天喊地。。安装个开发环境都很为难,不是这里报错就是那里有问题,遇到问题又不知道怎么解决。好在现在这些问题都已经解决了。。。虽说有很多小细节还没把握,但是查查相关文档也就知道了。算是已经入门了吧。。现在自己的环境是python 3.5(竟然是32位的,我也是服了我自己,毕竟我的操作系统是64位哇。。)写代码主要用pychram ,偶尔用IDLE 调试下,当然还需要用到命令提示符。。关于操作系统系统变量的配置啊等也知道一些,算是搭好了个基础框架吧。。当然需要学习的东西还很多。

    4.python爬虫相关。除了了解爬虫的基本原理之外,也知道如何使用requests 和beautiful soup 模块来进行网页下载以及网页数据的提取。还有http相关的请求头,代理,cookies 等相关内容。但是不知道如何翻页爬取,这也是一个很重要的问题。嗯,据说有很好的爬虫框架……那我们就来看看scrapy 。

    5.scrapy 相关。scrapy startproject …scrapy crawl …scrapy shell …创建scrapy 项目后,就会有个文件夹,里面包含很多文件都有其对应的解释。爬虫程序的主体是写在spiders 里面。。如何写?这里又涉及到了,正则表达式,css,xpath 等。。。路还很长,需要慢慢学习。加油哦~

    6.MySQL 和mongodb 相关。也只是初步了解了下,查询等简单语句。还有python 如何与数据库连接。。对于python爬取出来的数据如何存储,以哪种格式存储也是个需要好好探讨的问题。txt?json?存储之后又要进行什么样的处理呢?……

    总之,路还很长,需要静下心来慢慢学习。

    相关文章

      网友评论

          本文标题:噢!这是一篇关于Python 爬虫的技术文

          本文链接:https://www.haomeiwen.com/subject/vqpwxxtx.html