美文网首页Python 运维
Python-抓个包就跑

Python-抓个包就跑

作者: Cshare | 来源:发表于2017-11-17 22:35 被阅读0次

            学习过程就是不断练习,总结的过程,既然手持利器,自然要多多练习(搞点事情)。在网上浏览网页的时候看到一个有意思的网站,里面的很多动图挺有趣的,就像下面这个大叔一样有趣,于是本着自己动手,丰衣足食的原则,写下了这个爬虫,一是用于娱乐,二也是实践知识。下面将介绍裸奔版和穿衣版,两个版本对应不同的需求。

    裸奔版:

    何谓之裸奔版,顾名思义,不给程序穿上任何防护衣,程序要么撞坑死,要么电脑停电,或者极少数情况下,完成任务,功成身退。

    天将将大任于斯人也,必先劳其筋骨,饿其体肤,使其裸奔,故我用裸奔版。

    首先引入我们需要的模块:

    裸奔版有三大函数

    get_html函数:

            该函数用于获取网页源码,在其他函数中会多次调用,函数伪装了头部,会以google浏览器的马甲发起请求

    download_html函数:

            该函数通过正则表达式分析指定的页面,获取我们所需要用于下载的url

    downpage函数:

            该函数接受download_html函数产生的url,函数主要包含两个方面:获取网页并解析出jpg和gif链接,下载jpg和gif文件。

    启动:

            不用解释,跑起来

    使用说明:

            程序仅仅调用了随安装python时一起配置的模块,使用特别简单,只需要将代码复制到你的电脑上运行即可,或者直接从我的github上下载文件。我的Github>>>点这里<<<欢迎来star,随手点个赞。

            裸奔版适合短时间抓取,方便省事。缺点就是跑到中途断电了,你会抓瞎。

    穿衣版:

            该版本以上面的版本为核心,加入了mysql数据库用于记录jpg和gif链接,一是预防断网断电的情况,二是可以存储所有链接,三是可以随时更新你的图片库而不用重复下载(由于我很酷,这个功能我没做),基于以上种种的好处,加入了mysql的穿衣版就诞生了。穿衣版有3个文件

    get_url_toMysql.py文件用于将图片链接保存到mysql数据库中,首先运行这个文件。

    down_from_mysql.py文件用于读取数据库获取链接并下载,等get_url_tomysql.py运行完毕就可以运行这个文件

    create.sql用于在数据库中创建相应的表

    准备好这些工具:

            1.安装好mysql数据库,设置成自启动

            2.通过pip下载好pymysql模块

    使用说明:

    1.导入create.sql文件,在你的数据库中创建urls表

    2.将down_from_mysql.py第14行和get_url_tomysql.py第58行改成你自己的数据库账户,只需修改user,password,db,db为你创建urls表的数据库名称

    所有的文件均来自我的Github,传送门如下:

    https://github.com/Csharing/spider/tree/master/fuliba/use_mysql

    最后送上傲娇女神一枚,欢迎到我的Github点赞(star)

    ------------------------------------------------如果遇到不理解的部分欢迎私信我

    相关文章

      网友评论

        本文标题:Python-抓个包就跑

        本文链接:https://www.haomeiwen.com/subject/yaqsvxtx.html