爬虫(三)－客户端爬取Android SDK发布

作者: lazydu | 来源:发表于2017-03-23 19:20 被阅读762次

客户端爬虫ios sdk发布了！
爬虫(三)－客户端爬取Android SDK发布
值得看的iOS- 收藏集 - 掘金
python-爬虫学习（文字、图片、视频）
python爬虫学习（文字、图片、视频）
Go基础编程---web编程
go http服务器/客户端
Python·爬取当当网图书信息
用Java实现网络爬虫三之开始爬取
爬虫很难？最适合新人上手的3个Python项目,即学即用！

通过前两篇文章，我们深入论述了后台爬取的痛点，同时提出了对客户端方案可行性的思考。今天我们就来介绍一下全球第一个客户端爬取平台，今天我们来揭开它的神秘面纱！

前两篇文章：

一篇文章了解爬虫技术现状
 爬虫技术(二)－客户端爬虫
DSpider平台
DSpider是客户端爬取平台台,官网地址：https://dspider.dtworkroom.com/，如官网说述， DSpider主要由云管理平台、sdk、爬虫商店三部分组成，我们简单说明一下这三者的各自职责：
云管理平台
dSpider的爬取脚本是动态下发的，云管理平台主要用于配置脚本参数、更新脚本、统计脚本爬取状态、错误分析等。如果你是开发者，那么云管理平台同时也是发布、管理自己脚本的地方。

SDK

sdk负责从云端请求脚本然后执行，最后将爬取结果传给第三方APP. （官方提供了ios和android的sdk,但目前只开放了android sdk）。

爬虫商店

类似于应用商店，是一个爬虫仓库，开发者可以在里面挑选所需的脚本，也可以将自己的脚本发布到爬虫商店

集成到APP

我们以android为例,官方提供了完整的文档及demo:
Android集成文档：https://dspider.dtworkroom.com/document/android
Android demo:https://github.com/wendux/DSpiderDemo-Android
我们先来看看官方demo的运行效果：

demo

显式爬取

爬取简书主页所有文章标题和链接：

爬取进度

爬取结果

隐式爬取（静默）

隐式爬取没有进度条，demo中弹出了一个loading窗作为指示：

隐式爬取

爬取脚本

爬取脚本非常简单，我们看看爬取简书的脚本：

/**
 * Created by du on 16/11/21.
 */
dSpider("jianshu", function(session,env,$){
    session.showProgress();
    var $items=$("div.title");
    var count=$items.length;
    session.log("共"+count+"条");
    session.setProgressMax(count)
    session.setProgressMsg("正在初始化");
    var i=0;
   //模拟进度，每隔200ms向端上传递一次数据
    var timer=setInterval(function(){
      session.setProgress(i+1);
      var title=$items.eq(i).text();
      session.setProgressMsg(title);
      session.push({title:title, url:$items.eq(i).parent().attr("href")});
      if(++i>=count){
       clearInterval(timer);
       session.finish();
      }
    },200);
})

可见爬取脚本非常简单：用jquery解析网页，然后再通过session对象和native 进行交互。详细的API文档请移步dSpider Javascript API文档。

注意事项

集成前需要去官网注册，登录后要先创建应用
创建应用成功后会得到appid, sdk中需要。
应用创建之后需要给应用手动添加所需的爬虫；系统默认会给每个新建的应用添加sid为1的测试爬虫，该爬虫信息：https://dspider.dtworkroom.com/spider/1；
sid为每一个爬虫的id, 在后台创建爬虫后会得到sid. 你也可以去脚本商店选择。

客户端爬虫ios sdk发布了！
客户端爬虫平台(dSpider)提供了Android／ios sdk, 同时支持显式爬取和静默爬取. dSpid...
爬虫(三)－客户端爬取Android SDK发布
通过前两篇文章，我们深入论述了后台爬取的痛点，同时提出了对客户端方案可行性的思考。今天我们就来介绍一下全球第一个客...
值得看的iOS- 收藏集 - 掘金
客户端爬虫 ios sdk 发布了！ - 掘金客户端爬虫平台(dSpider)提供了Android／ios sdk...
python-爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
python爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
Go基础编程---web编程
简单web服务器代码简单客户端代码并发爬取百度贴吧的页面并发爬虫爬取段子
go http服务器/客户端
服务器端简单例子: 客户端简单例子贴吧单线程爬取例子贴吧多线程爬虫简单例子多线程爬取多个页面例子
Python·爬取当当网图书信息
爬虫实践爬取当当网图书信息爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3）批量命名图片
用Java实现网络爬虫三之开始爬取
title: 用Java实现网络爬虫三之开始爬取tags: Java 网络爬虫 Spider Crawlercat...
爬虫很难？最适合新人上手的3个Python项目,即学即用！
今天给大家分享三个极实用的Python爬虫案例。 1、爬取网站美图爬取图片是最常见的爬虫入门项目，不复杂却能很好...