公众号采集软件

作者: 明白1 | 来源:发表于2019-02-03 20:21 被阅读92次

    《不用写代码的爬虫课》发布后,我经常被用户询问,web scraper 能不能抓公众号标题,于是,我研究出了 ——

    如何生成公众号标题的词云图

    后来,又有用户问,web scraper 能不能抓取公众号的文章内容,我当时觉得肯定不行,因为电脑上公众号的文章链接不是常规的 a 标签,我说抓不了。随着对 web scraper 的研究,我发现了 Element attribute selector,于是找到了解决方法,就有了 ——

    制作公众号内容词云图

    再后来,又有用户问 ——

    • 可不可以抓取公众号文章导出 PDF?
    • 可不可以抓取知乎文章导出 PDF?
    • 可不可以抓取公众号阅读、点赞数?
    • 可不可以统计出文章的高频词?
    • 可不可以……

    《不用写代码的爬虫课》使用的是 web scraper,它擅长抓取网页端的文字数据,保存到 excel 里面。如果还需要排版:加粗,标题、图片等,那 web scraper 确实实现不了,这种高级功能需要写代码,才能实现。

    我已经很久不写代码了,只能尴尬的说 —— 做不了。

    这个事情也就一直搁置,期间我在 github 上也找过一些库,拼凑拼凑也实现了一些功能,但是过程太复杂,需要安装 python,安装第三方库,自己运行,对于不懂技术的朋友,操作起来不够友好。

    自从做了《不用写代码的爬虫课》后,我做其他事情,都会拿这个课程作为标准,最基本的 2 点 ——

    1 跨平台:windows 和 mac 都能使用。

    由于这点,我现在做产品,要么是可以线上运行,不受操作系统限制;要么是研究 2 种方案,让 mac 和 windows 的用户都能使用。

    2 操作简单:不需要技术背景,不用写代码。

    因为做过技术,我知道如果单纯为了使用一个工具,专门学编程。那么一段时间不用,肯定忘得一干二净。从成本收益角度考虑,对用户不友好。他花费的时间精力,大于这个功能实现的收益。

    因此,如果做的产品使用时,对用户的友好度不如 web scraper,我就会觉得太烂,没脸拿出来。

    有段时间,我在做知识星球的网站,就整天搜索一些 WordPress 相关的文章,看到一个 WordPress 插件,可以将公众号的文章同步到网站上。

    我就想,要把公众号文章同步都网站上,需要先把文章抓下来,这个开发者肯定也研究过这个,于是就加了他微信,果然,插件是和一个软件搭配使用的,这个软件的功能,就是之前 web scraper 解决不了的问题。

    更惊喜的是,这个软件支持 windows 和 mac 2 种操作系统,而且功能全部封装好,就和使用 QQ 一样,不需要懂一些技术知识。

    后来,我就经常和这个开发者聊天,他的水平很厉害,而且属于全栈类型,擅长敏捷开发。我有时给软件提一些改进需求,他很快就能更新完成。

    之前的一篇文章:分析了10个公众号2000w字,原来这些公众号用这个词最多!,就是用他的软件抓取的数据。

    昨天,我翻知乎的时候,看到一篇文章,发现这个作者很厉害,就想着把他的文章全部抓下来,方便查看。

    我想到软件新开发的一个功能 —— 网页转 PDF,这是我之前给开发者提的需求,于是就试了一下,没想到非常好用,一篇文章一个 PDF,样式和网页一模一样。

    这个功能和 web scraper 结合到一起,就是绝配哇!

    web scraper 可以轻批量抓取到所有文章链接,然后复制到这个软件里,批量转换成 PDF。

    也就是,如果你想查看某个人的知乎所有文章,可以先用 web scraper 将所有文章链接抓取下来,然后用软件转换成 PDF,打印出来,方便查看。

    同样的,这种方式也可以用在头条号,简书等等,只要是能在网页上显示的信息,都可以用这个功能。

    这个软件,以前我只在知识星球和朋友圈宣传过,因为觉得功能不够成熟,昨天使用了网页转换 PDF 功能后,我觉得,可以放心的向大家介绍了。

    下面我正式介绍一下软件功能:

    1 导出公众号文章为 PDF

    将公众号所有文章,全部导出为 PDF 格式,可以打印出来,方便查看。

    PDF 样式例子,大家可以查看:

    2 抓取公众号文章标题、时间、链接、阅读、点赞、评论等。

    样例:


    3 导出文章格式有几种:PDF、excel、html、纯链接

    样例:


    4 同步公众号文章到 wordpress

    5 网页 转 PDF

    由于不同网站加载方式不同,不保证全部网站都能导出成功,但后续会不断更新。

    6 词频统计

    可以统计出一篇内容,用的最多的词语,用的最少的词语

    其他问题

    1、对网速和电脑配置有要求吗?

    没有。

    2、需要切换 IP 吗

    不用

    3、爬一个号要多久?

    (1)抓历史文章很快,但是导出比较慢,一篇文章 5 - 10 秒。

    (2)抓阅读点赞数,一篇文章 5 - 10 秒。

    可以根据文章数大概计算一下。

    4、一天能爬多少个?

    一天抓 5 个公众号就可以,如果抓的多了,会被禁止访问,隔天恢复正常。

    5、使用复杂吗?

    软件代码已经封装,有很好的界面。

    当然,操作过程不可能是完全自动化,这块不同产品都相同。需要在手机配置代理,不过这也很简单,我们写好了详细的教程,之前很多不是技术背景的朋友,都能轻松完成。

    6、可以安装多台电脑吗?

    不可以,每个软件会有一个专属码,安装后需要激活,激活后会绑定到安装的电脑上,所以请慎重选择电脑。

    重装系统不会影响,可以继续使用。

    三胖哥之前分享过,互联网做产品,如何打造自己的核心竞争力,主要是 3 点:

    1、人无我有

    提供公众号抓取的产品,市面上有好几家,所以这点,软件优势不大。

    2、人有我强

    如果大家都提供这个功能,但是我的产品做的比他强,那这就是我的优势。

    这个软件有 3 个优势:
    1、同时支持 mac 和 windows 系统
    2、不需要技术背景,普通人也能轻松使用
    3、后期视情况还会更新新功能

    这点,几乎已经打败所有人了。

    3、人强我贱

    「贱」的意思是,如果产品不相上下,那就比别人便宜。

    市面上类似产品的价格比较:

    • 公众号 PDF 导出的服务,一般是 30 – 40 元一个公众号。

    • 抓取点赞评论,新榜的回采功能。拿 「caoz 的梦呓」举例,285 元一个公众号。

    我们这个软件,不是年费制,不是按次数收费,一次收费,终身有效。

    价格:299。

    如果您感兴趣,可以联系我,微信 mingbai62

    相关文章

      网友评论

        本文标题:公众号采集软件

        本文链接:https://www.haomeiwen.com/subject/ggtssqtx.html