美文网首页
iOS 爬虫,抓取 HTML ,CSS XPath 解析数据

iOS 爬虫,抓取 HTML ,CSS XPath 解析数据

作者: alpha_feng | 来源:发表于2017-04-13 15:27 被阅读0次

    在做项目中发现一个问题,Android的渠道太多了,每次版本更新,都要去每个渠道查看版本是否更新完毕,很麻烦。

    那么问题来了,是否可以通过爬虫,把所有的渠道中关心的数据都爬下来,然后再整理呈现,这样子就可以方便运营和产品查看每个渠道的信息了。

    爬虫的方法和介绍的文章有很多了,一般都是通过服务器爬数据再整理,具体这个问题不需要做数据的记录和计算,所有尝试了用iOS做一个简单的网页解析,然后再整理数据做呈现。
    在简书上已经有一篇不错的文章只是把FireFox换成了Chrome,Chrome也有提取网页XPath的功能。

    Chrome 获取XPath Chrome 复制XPath

    然后根据这个具体的需求,增加了一些本地读取渠道信息和解析网页信息的逻辑。

    channelInfo.plist的内容结构
    特别说明一下,channelUpdateTimeXPathAttributeKey因为有些XPath拿到的数据是一个json串,需要通过一个key,才可以得到真正需要的内容。

    channelInfo.plist

    解析html中的更新时间,先判断是否可以解析为字符串,不行再通过key在字典中读取。


    解析html中的更新时间

    具体问题具体分析吧,每个网页的结构可能都不一样,代码可以看这里:传送门

    相关文章

      网友评论

          本文标题:iOS 爬虫,抓取 HTML ,CSS XPath 解析数据

          本文链接:https://www.haomeiwen.com/subject/yeomattx.html