美文网首页post系列
网页采集工具

网页采集工具

作者: 半数的年 | 来源:发表于2018-03-20 20:29 被阅读0次

    第一课、简单讲解正则表达式截取

    正则     (.*?)    任意字符

                \d+      数字

    tips:

    1、调试输出(网页源码)后,把易语言里面输出的网页源码放在精易编程助手进行正则匹配,降低误差性

    2、正则表达式匹配失败时,要注意要转义字符    \

    第二课、获取网页指定内容到列表框

    超级列表框的使用    还需要学习

    正则类的书写

     #常量1 为正则匹配表达式  ==  <li><a href="http://www.yxgxz.com/(.*?)/">(.*?)</a></li>

    .版本 2

    .支持库 spec

    .子程序 _按钮1_被单击

    .局部变量 临时文本, 文本型

    .局部变量 i, 整数型

    .局部变量 正则, 正则表达式类

    临时文本 = 到文本 (网页_访问S (“http://www.yxgxz.com/xsdq/”))

    ' 调试输出 (临时文本)

    正则.创建 (#常量1, 临时文本, )

    .计次循环首 (正则.取匹配数量 (), i)

        正则.取子匹配文本 (i, 1)

        调试输出 (“ID:” + 正则.取子匹配文本 (i, 1) + “  书名:” + 正则.取子匹配文本 (i, 2))  ' i为匹配的第几条,1、2为匹配的子文本

        处理事件 ()

    .计次循环尾 ()


    第三课、取网页其他分页的数据到列表框

    讲了分页实现,主要是根据网页地址page=页数,最后加上一些按钮、下拉框控件组合成的。

    由于我找的网页地址没有page分页功能,这次实现代码就没写了

    第四课、简单抓包制作搜索功能

    介绍抓包、代码实现,因为还是有超级列表框的使用,所以我还是调试输出而已

    教程感觉讲得越来越差,就里面一些控件命名都什么1、2、3,现在看的很累,以后看起来更累的那种,不吐槽了

    .版本 2

    .支持库 spec

    .子程序 _按钮_搜索_被单击

    .局部变量 临时文本, 文本型

    .局部变量 i, 整数型

    .局部变量 正则, 正则表达式类

    .如果真 (编辑框_搜索.内容 ≠ “”)

        临时文本 = 到文本 (网页_访问 (“http://www.yxgxz.com/modules/article/search.php ”, 1, “searchkey=” + 编码_URL编码 (编辑框_搜索.内容) + “&ct=++&si=&sts=+”))

        ' 调试输出 (临时文本)

        正则.创建 (#常量2, 临时文本, )

        .计次循环首 (正则.取匹配数量 (), i)

            正则.取子匹配文本 (i, 1)

            调试输出 (“ID:” + 正则.取子匹配文本 (i, 1) + “  书名:” + 正则.取子匹配文本 (i, 2))  ' i为匹配的第几条,1、2为匹配的子文本

            处理事件 ()

        .计次循环尾 ()

    .如果真结束

    第五课、分析网页中的下载地址压缩

    主要讲了下载功能看了图就知道了,由于下载链接没找到,因为一点txt下载,就要用户注册登录

    代码看图

    上图是之前超级列表框填数据的相关代码

    最后,这个云轩阁小说网页采集课程也完结了,基础的东西,有时候讲的没那么很有科学或者规范吧,但也比较通俗易懂,适合零基础。

    相关文章

      网友评论

        本文标题:网页采集工具

        本文链接:https://www.haomeiwen.com/subject/apnbqftx.html