美文网首页
五天早中晚进展<信息采集及获取>

五天早中晚进展<信息采集及获取>

作者: 猿猴星 | 来源:发表于2017-06-06 00:41 被阅读0次

    信息采集

    需要登录 cookies+jsoup
    不需要登录 cookies

    cookies来源

    通过webview获取

    jsoup使用

    爬取规则
    标签内部属性爬取 例如 <a class="test" type="v"> 目的:爬取type
    标签直接爬取 例如<a>文字</a> 目的:爬取文字
    标签内到标签内 例如 <a>我是文字<br>干扰信息文字</a> 目的:爬取我是文字
    爬取数量统计
    size()函数

    1)、Android Studio使用已经顺手,alt+enter是一个很不错的选择

    2)、解决的难点问题

    1、使用webview登录后获取cookies,利用cookies再通过jsoup自动登录采集信息

    ps:还可以通过chrome浏览器F12开发人员工具直接读取cookies

    2、Jsoup抓取相关的问题

    抓取一个标签内部的属性值方法:

    attr[shuxing]

    统计item个数:

    size()函数

    相关文章

      网友评论

          本文标题:五天早中晚进展<信息采集及获取>

          本文链接:https://www.haomeiwen.com/subject/faawfxtx.html