自己开发的WMCMS采集程序分享

作者: AI视客 | 来源:发表于2018-04-04 16:05 被阅读739次

WMCMS官网：http://www.weimengcms.com/index.html

本采集程序采用.net core编写，可以在linux上运行。

首先在centos上安装.net core运行环境，方法看这篇文章：https://blog.csdn.net/hiliqi/article/details/79788755

然后将程序目录上传到centos服务器任意目录。

进入目录，使用命令dotnet WmBookListBot.dll就能运行了。

说说采集程序的运作原理：程序运行会首先读取config.json这个文件，根据相应的配置来运行程序。这里对各个配置字段做一下说明：

crawlSite：要爬取的目标网站

pubSite：要发布的目标网站

cookie：要发布的网站的登录cookie，可以利用F12获取

novelTypeId：对应的分类ID，可以在wmcms的后台看到

crawlModel：两个值->list和book，值为List的时候，会爬取网站的书籍列表页，值为book的时候，会爬取书籍详情页

crawlListPageUrl：要爬取的列表页Url，crawlModel值为List时使用

"crawlStartListPage": 2, 书籍列表起始页，会自动替换crawlUrl里的变量i

"crawlEndListPage": 39 //书籍列表最终页，会自动替换crawlUrl里的变量i

在程序爬取书籍列表时，会同时向1.log文件写入爬取的书籍详情页url地址，后面可以根据这些url来爬取对应的书籍详情。

要爬取书籍详情页，只需要将crawlModel的值改为book，程序便会读取1.log文件，来根据里面的url来爬取书籍详情页。可以手动配置1.log这个文件。

采集程序下载地址：链接：https://pan.baidu.com/s/1pvwejZ2-NVy-Z-17N9ubqQ 密码：vq2w

网友评论

本文标题：自己开发的WMCMS采集程序分享

本文链接：https://www.haomeiwen.com/subject/rvnkhftx.html

自己开发的WMCMS采集程序分享