美文网首页post系列
网页采集工具

网页采集工具

作者: 半数的年 | 来源:发表于2018-03-20 20:29 被阅读0次

第一课、简单讲解正则表达式截取

正则     (.*?)    任意字符

            \d+      数字

tips:

1、调试输出(网页源码)后,把易语言里面输出的网页源码放在精易编程助手进行正则匹配,降低误差性

2、正则表达式匹配失败时,要注意要转义字符    \

第二课、获取网页指定内容到列表框

超级列表框的使用    还需要学习

正则类的书写

 #常量1 为正则匹配表达式  ==  <li><a href="http://www.yxgxz.com/(.*?)/">(.*?)</a></li>

.版本 2

.支持库 spec

.子程序 _按钮1_被单击

.局部变量 临时文本, 文本型

.局部变量 i, 整数型

.局部变量 正则, 正则表达式类

临时文本 = 到文本 (网页_访问S (“http://www.yxgxz.com/xsdq/”))

' 调试输出 (临时文本)

正则.创建 (#常量1, 临时文本, )

.计次循环首 (正则.取匹配数量 (), i)

    正则.取子匹配文本 (i, 1)

    调试输出 (“ID:” + 正则.取子匹配文本 (i, 1) + “  书名:” + 正则.取子匹配文本 (i, 2))  ' i为匹配的第几条,1、2为匹配的子文本

    处理事件 ()

.计次循环尾 ()


第三课、取网页其他分页的数据到列表框

讲了分页实现,主要是根据网页地址page=页数,最后加上一些按钮、下拉框控件组合成的。

由于我找的网页地址没有page分页功能,这次实现代码就没写了

第四课、简单抓包制作搜索功能

介绍抓包、代码实现,因为还是有超级列表框的使用,所以我还是调试输出而已

教程感觉讲得越来越差,就里面一些控件命名都什么1、2、3,现在看的很累,以后看起来更累的那种,不吐槽了

.版本 2

.支持库 spec

.子程序 _按钮_搜索_被单击

.局部变量 临时文本, 文本型

.局部变量 i, 整数型

.局部变量 正则, 正则表达式类

.如果真 (编辑框_搜索.内容 ≠ “”)

    临时文本 = 到文本 (网页_访问 (“http://www.yxgxz.com/modules/article/search.php ”, 1, “searchkey=” + 编码_URL编码 (编辑框_搜索.内容) + “&ct=++&si=&sts=+”))

    ' 调试输出 (临时文本)

    正则.创建 (#常量2, 临时文本, )

    .计次循环首 (正则.取匹配数量 (), i)

        正则.取子匹配文本 (i, 1)

        调试输出 (“ID:” + 正则.取子匹配文本 (i, 1) + “  书名:” + 正则.取子匹配文本 (i, 2))  ' i为匹配的第几条,1、2为匹配的子文本

        处理事件 ()

    .计次循环尾 ()

.如果真结束

第五课、分析网页中的下载地址压缩

主要讲了下载功能看了图就知道了,由于下载链接没找到,因为一点txt下载,就要用户注册登录

代码看图

上图是之前超级列表框填数据的相关代码

最后,这个云轩阁小说网页采集课程也完结了,基础的东西,有时候讲的没那么很有科学或者规范吧,但也比较通俗易懂,适合零基础。

相关文章

网友评论

    本文标题:网页采集工具

    本文链接:https://www.haomeiwen.com/subject/apnbqftx.html