美文网首页
如何采集360问答论坛的数据?采集论坛数据

如何采集360问答论坛的数据?采集论坛数据

作者: 前嗅大数据 | 来源:发表于2019-12-10 12:01 被阅读0次

    本篇教程我们以采集【360问答】为例,该教程适用于采集论坛数据、需要登陆的网站数据、网页中表格数据,多方向使用。话不多说,赶紧和我一起想学习吧:

    目标网站:360问答 

    一. 网站结构

    网站截图说明

    某些网站需要登陆后才可进行内容的采集,登陆时需先对登陆信息输入位置进行定位,便于后续采集

    网站登陆页 采集列表页

    2. 采集结果截图

    检索列表链接 检索结果数据


    二. 配置模板

    1. 新建任务

    新建任务

    2.  新建采集任务

    新建采集任务

    本次采集列表下的正文数据,所以本次需要抽取内容选择【链接列表】,为了将每一页的内容都成功采集选择【普通翻页】

    3. 配置登陆

    网站登录界面

    ①内置浏览器找到登录按钮,弹出登录框

    网站登录顺序

    ②先点击【用户名】

    输入框定位

    ③如上图,对【用户名输入框】进行定位,crtl+左键点击【用户名输入框】的位置,直至被绿色框住代表定位成功,并按此方式完成

    的位置定位。

    定位成功界面

    ④【用户名】和【密码】定位完成后,点击

    ,cookie配置框中出现数据,按Ctrl+鼠标左键单击“登录按钮”,内置浏览器页面登录成功,配置完成。

    4.配置模板

    采集预览

    ①点击采集预览,在采集预览中有于目标链接相似的其他链接,可通过地址过滤得到列表链接。找到所需要的列表链接,观察得出所需要的目标链接都包含“thread-”

    地址过滤

    ②勾选地址过滤,过滤规则选择包含,填入“thread-”

    标题过滤

    ③勾选标题过滤,过滤规则选择包含,填入"下一页"

    采集预览

    ④点击采集预览,下一页和包含"thread-"的内容都被成功过滤,如下图:

    5. 模板关联

    模板关联1 模板关联2

    根据网页跳转规律,将【链接列表】关联【链接列表:02】, 【普通翻页】关联【默认模板:01】,此处软件已自动进行了关联,如果配置时发现关联有问题,可自行进行更改。

    6. 数据抽取

    数据抽取

    将模板一过滤得到的任意一条链接,作为链接列表模板的示例地址。如:https://bbs.360.cn/thread-15646770-1-1.html

    7. 新建数据抽取

    新建数据抽取

    新建数据抽取。直接点击链接列表,点击上面“新建数据抽取” 按钮,得到数据抽取,如下图:

    8. 创建/选择表单

    ① 创建表单

    创建表单

    ② 配置表单

    配置表单

    根据所需内容,配置表单字段(即表头),此处配置了包括网页主键、发布时间、正文内,网页标题以及网页地址五个字段,以配置发布时间(pubtime)为例。

    ③ 数据抽取链接关联表单

    关联表单

    选择刚才新创建的表单"360问答"

    9. 字段定位

    字段定位

    主键字段自动生成无需定位,以pubtime字段为例进行定位,如下图所示,将各字段依次定位

    10. 采集预览

    采集预览

    字段定位完成后,进行模板预览,查看是否所需内容都被采集进来

    四. 数据采集

    1. 连接数据库

    连接数据库

    2. 关联数据表

    关联数据表

    3. 选中数据表

    选中数据表

    4. 开始采集

    开始采集

    按照上述操作就可以完成对【360问答】的采集啦,是不是很简单呢,可视化操作也适合小白哦。

    俗话说的好:“实践是检验真理的唯一道理”,赶快下载ForeSpider数据采集器亲身上手体验一下吧,下载地址:

    前嗅ForeSpider数据采集引擎

    在学习的过程中有任何疑问都可以在评论区留言或私信我哦~

    欢迎加入前嗅大数据社群一起学习,一起成长,2020我们一起加油!

    相关文章

      网友评论

          本文标题:如何采集360问答论坛的数据?采集论坛数据

          本文链接:https://www.haomeiwen.com/subject/zqzwgctx.html