Python爬虫-Android手写爬虫

作者: 2h0n9 | 来源:发表于2017-07-04 11:17 被阅读448次

    我以我自己的想法来分析用Python爬网页的步骤以及注意点~

    首先我个人认为一个小爬虫的步骤很简单,无非就是“找网站-分析网页源码-请求-分析-匹配-输出”,就这样,这是我个人理解

    那么手机爬虫也就是和PC端一毛一样,除了工具以外

    那么开始吧~

    我这里推荐三个手机app:packet capture(抓包工具,网上有汉化版)、termux(手机终端)、pydroid(网络上比较少,但是可以到Google play下载,只支持Python2,我这里有自己汉化了的,有需求的可以找我)

    这篇文章只用两个软件:termux和chrome浏览器即可

    我们要爬取的网站是著名的老司机网站:i.jandan.net,我们只抓取100页的图片(60-160)

    网址在这:http://i.jandan.net/ooxx/page-60,没瞎的人都知道page-60是指的页码。。。我没鄙视那些没看懂的人;但是我们还不知道它网页的构造,在浏览器的网址栏上加上“view-source”,加在网址的最前面,也就成了这样

    Python爬虫-Android手写爬虫

    OK,现在该网页的源码已经呈现在我们眼前了,可能看着有点费劲,但还好有高亮,不算太坑爹

    Python爬虫-Android手写爬虫

    一般情况下:我们找到图片的链接关键字,比如href、jpg、png之类的

    但是这,我们只需要找“查看原图”这四个字就可以了,找到之后,我们可以看到它的一个图片都是用一个div给包裹着,每个都是

    Python爬虫-Android手写爬虫

    这个就好办了,可以开始写代码来

    那么开始把,打开termux,新建一个crawler.py文件,我这里是这个,你们随意

    Python爬虫-Android手写爬虫

    然后导入我们那需要的包

    import requests
    import re

    只需要这两个包即可

    然后分享一下我的代码:

    Python爬虫-Android手写爬虫 Python爬虫-Android手写爬虫

    接下来,我们就只需要下载就可以完成了,看代码吧:

    Python爬虫-Android手写爬虫

    下载过程:

    Python爬虫-Android手写爬虫

    完成:

    Python爬虫-Android手写爬虫

    简单,代码量很少,有用的代码最多20行

    感谢观看,有错的地方别喷,指出来,我学习。

    相关文章

      网友评论

      • 69c600613d1b:老哥,你有丶东西的。
        69c600613d1b:夸你厉害。。。
        2h0n9:@小菜包子 什么
      • 简书用户9527:小伙子,高手呀
        2h0n9: @徐代龙 图片这种下载程序shell就可以很简单实现,Android也有许多好用的终端
      • 开悦:termux 里的vim 如何解决中文乱码,
        或者写一篇如何在termux里安装python,和安装模块的教程,谢谢!期待中……
        开悦: @zckun 谢谢
        2h0n9: @O开悦O 模块安装基本和Linux一样,只是有些包Android没有导致无法安装
        2h0n9: @O开悦O 解决中文乱码很简单,在vimrc添加“set encoding=utf-8“就可以了

      本文标题:Python爬虫-Android手写爬虫

      本文链接:https://www.haomeiwen.com/subject/tmithxtx.html