网页采集工具

作者: 半数的年 | 来源:发表于2018-03-20 20:29 被阅读0次

网页采集工具
网络爬虫轻松入门笔记
网页采集工具选择分析-数据采集
常见网页采集工具对比
spider(爬虫)
kol研究室‖如何用工具在知乎中找到有价值的问答
Web Scraper教程（一）安装和操作流程
Python学习笔记(7)定位标志精确采集范围——以安居客租房采
图片素材收集神器
01 webscraper介绍

第一课、简单讲解正则表达式截取

正则 (.*?) 任意字符

\d+ 数字

tips:

1、调试输出(网页源码)后，把易语言里面输出的网页源码放在精易编程助手进行正则匹配，降低误差性

2、正则表达式匹配失败时，要注意要转义字符 \

第二课、获取网页指定内容到列表框

超级列表框的使用还需要学习

正则类的书写

#常量1 为正则匹配表达式 == <li><a href="http://www.yxgxz.com/(.*?)/">(.*?)</a></li>

.版本 2

.支持库 spec

.子程序 _按钮1_被单击

.局部变量临时文本, 文本型

.局部变量 i, 整数型

.局部变量正则, 正则表达式类

临时文本＝到文本 (网页_访问S (“http://www.yxgxz.com/xsdq/”))

' 调试输出 (临时文本)

正则.创建 (#常量1, 临时文本, )

.计次循环首 (正则.取匹配数量 (), i)

正则.取子匹配文本 (i, 1)

调试输出 (“ID：” ＋正则.取子匹配文本 (i, 1) ＋ “ 书名：” ＋正则.取子匹配文本 (i, 2)) ' i为匹配的第几条，1、2为匹配的子文本

处理事件 ()

.计次循环尾 ()

第三课、取网页其他分页的数据到列表框

讲了分页实现，主要是根据网页地址page=页数，最后加上一些按钮、下拉框控件组合成的。

由于我找的网页地址没有page分页功能，这次实现代码就没写了

第四课、简单抓包制作搜索功能

介绍抓包、代码实现，因为还是有超级列表框的使用，所以我还是调试输出而已

教程感觉讲得越来越差，就里面一些控件命名都什么1、2、3，现在看的很累，以后看起来更累的那种，不吐槽了

.版本 2

.支持库 spec

.子程序 _按钮_搜索_被单击

.局部变量临时文本, 文本型

.局部变量 i, 整数型

.局部变量正则, 正则表达式类

.如果真 (编辑框_搜索.内容 ≠ “”)

临时文本＝到文本 (网页_访问 (“http://www.yxgxz.com/modules/article/search.php ”, 1, “searchkey=” ＋编码_URL编码 (编辑框_搜索.内容) ＋ “&ct=++&si=&sts=+”))

' 调试输出 (临时文本)

正则.创建 (#常量2, 临时文本, )

.计次循环首 (正则.取匹配数量 (), i)

正则.取子匹配文本 (i, 1)

调试输出 (“ID：” ＋正则.取子匹配文本 (i, 1) ＋ “ 书名：” ＋正则.取子匹配文本 (i, 2)) ' i为匹配的第几条，1、2为匹配的子文本

处理事件 ()

.计次循环尾 ()

.如果真结束

第五课、分析网页中的下载地址压缩

主要讲了下载功能看了图就知道了，由于下载链接没找到，因为一点txt下载，就要用户注册登录

代码看图

上图是之前超级列表框填数据的相关代码

最后，这个云轩阁小说网页采集课程也完结了，基础的东西，有时候讲的没那么很有科学或者规范吧，但也比较通俗易懂，适合零基础。

网友评论

post系列

本文标题：网页采集工具

本文链接：https://www.haomeiwen.com/subject/apnbqftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

网页采集工具

第一课、简单讲解正则表达式截取

第二课、获取网页指定内容到列表框

第三课、取网页其他分页的数据到列表框

第四课、简单抓包制作搜索功能

第五课、分析网页中的下载地址压缩

最后，这个云轩阁小说网页采集课程也完结了，基础的东西，有时候讲的没那么很有科学或者规范吧，但也比较通俗易懂，适合零基础。

相关文章

网页采集工具

网络爬虫轻松入门笔记

网页采集工具选择分析-数据采集

常见网页采集工具对比

spider(爬虫)

kol研究室‖如何用工具在知乎中找到有价值的问答

Web Scraper教程（一）安装和操作流程

Python学习笔记(7)定位标志精确采集范围——以安居客租房采

图片素材收集神器

01 webscraper介绍

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

post系列