美文网首页
自己开发的WMCMS采集程序分享

自己开发的WMCMS采集程序分享

作者: AI视客 | 来源:发表于2018-04-04 16:05 被阅读739次

    WMCMS官网:http://www.weimengcms.com/index.html

    本采集程序采用.net core编写,可以在linux上运行。

    首先在centos上安装.net core运行环境,方法看这篇文章:https://blog.csdn.net/hiliqi/article/details/79788755

    然后将程序目录上传到centos服务器任意目录。

    进入目录,使用命令dotnet WmBookListBot.dll就能运行了。

    说说采集程序的运作原理:程序运行会首先读取config.json这个文件,根据相应的配置来运行程序。这里对各个配置字段做一下说明:

    crawlSite:要爬取的目标网站

    pubSite:要发布的目标网站

    cookie:要发布的网站的登录cookie,可以利用F12获取

    novelTypeId:对应的分类ID,可以在wmcms的后台看到

    crawlModel:两个值->list和book,值为List的时候,会爬取网站的书籍列表页,值为book的时候,会爬取书籍详情页

    crawlListPageUrl:要爬取的列表页Url,crawlModel值为List时使用

    "crawlStartListPage": 2, 书籍列表起始页,会自动替换crawlUrl里的变量i

      "crawlEndListPage": 39 //书籍列表最终页,会自动替换crawlUrl里的变量i

    在程序爬取书籍列表时,会同时向1.log文件写入爬取的书籍详情页url地址,后面可以根据这些url来爬取对应的书籍详情。

    要爬取书籍详情页,只需要将crawlModel的值改为book,程序便会读取1.log文件,来根据里面的url来爬取书籍详情页。可以手动配置1.log这个文件。

    采集程序下载地址:链接:https://pan.baidu.com/s/1pvwejZ2-NVy-Z-17N9ubqQ 密码:vq2w

    相关文章

      网友评论

          本文标题:自己开发的WMCMS采集程序分享

          本文链接:https://www.haomeiwen.com/subject/rvnkhftx.html