美文网首页
每天一个小程序之提取文章正文

每天一个小程序之提取文章正文

作者: 安好每个你 | 来源:发表于2017-03-11 15:42 被阅读187次

    goose

    goose是提取网页的好方法

    Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。


    Python-goose可提取的信息包括:

    文章主体内容

    文章主要图片

    文章中嵌入的任何Youtube/Vimeo视频

    元描述

    元标签

    Python-goose许可为Apache 2.0。

    相关文章

      网友评论

          本文标题:每天一个小程序之提取文章正文

          本文链接:https://www.haomeiwen.com/subject/gdaagttx.html