美文网首页
每天一个小程序之提取文章正文

每天一个小程序之提取文章正文

作者: 安好每个你 | 来源:发表于2017-03-11 15:42 被阅读187次

goose

goose是提取网页的好方法

Python-goose项目是用Python重写的Goose,Goose原来是用Java写的文章提取工具。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。


Python-goose可提取的信息包括:

文章主体内容

文章主要图片

文章中嵌入的任何Youtube/Vimeo视频

元描述

元标签

Python-goose许可为Apache 2.0。

相关文章

网友评论

      本文标题:每天一个小程序之提取文章正文

      本文链接:https://www.haomeiwen.com/subject/gdaagttx.html