美文网首页
火车采集器 采集邮箱 步骤

火车采集器 采集邮箱 步骤

作者: WTIFS | 来源:发表于2016-02-26 19:15 被阅读442次
    1. 注册
      http://www.locoy.com/user/register

    2. 安装火车采集器

    3. 安装完成后,打开火车采集器,登陆进入主界面

    4. 单击菜单栏上方的新建任务

      QQ截图20160226104055.jpg
    5. 起始网址处填入要抓取的网址,这里以 http://www.douban.com/group/topic/10478214 为例。点击右侧的起始网址就是内容网址?点击设置

      QQ20160226104356.jpg
    6. 填好后单击上方的2.内容采集规则标签页

      QQ20160226105520.jpg
    7. 单击左侧标签列表栏的内容

      QQ20160226105655.jpg
    8. 在右侧数据获取栏中,提取方式选正则提取,勾选右侧的循环匹配,在匹配内容区域粘贴以下表达式:
      (?<content>\b[a-zA-z0-9_\-\.]+@[\w\-\.]+\.[cno][oner][mtg]?\b)

      QQ20160226111740.jpg
    9. 在右侧数据处理栏中,单击内容过滤,勾选采集数据不得为空采集结果不得重复

      QQ20160226113659.jpg
    10. 左侧循环设置里,"用分隔符连接在上条记录后"改为"添加为新记录"

    11. 切换至内容发布规则标签,左侧栏选择保存为本地文件,在右侧,本地文件保存选择启用,然后选取保存文件格式和保存位置。在底部输入任务规则名,然后保存

      QQ20160226112244.jpg
    12. 回到主界面,在左侧任务列表中,点选刚刚创建的任务,把三个选项框都打上勾,然后右击刚刚创建的任务,单击开始。

      QQ20160226114551.jpg
    13. 火车采集器下载地址:
      http://www.locoy.com/

    相关文章

      网友评论

          本文标题:火车采集器 采集邮箱 步骤

          本文链接:https://www.haomeiwen.com/subject/gtcwkttx.html