美文网首页
新闻内容抽取总结

新闻内容抽取总结

作者: 重构生活 | 来源:发表于2019-04-19 10:16 被阅读0次

    一、目前现状

    目前对新闻内容的抽取主要有两个方向,

    1.基于网页规则的抽取,使用xpath进行抽取,准确性更高,但每次添加新的数据源都要添加配置;

    2.自动抽取技术,抽象出所有新闻网站的共同特征,去掉无用的标签,基本能够提取出来,但有时候会抽取出多余的内容;目前还有基于机器学习来抽取的,也算是自动抽取,但准确度都没有第一种方法高。

    二、目前使用的工具

    1.boilerpipe,Google的工具,使用很方便,准确性不够,两年没有更新了。https://github.com/kohlschutter/boilerpipe

    2.WebCollector,网上找的一个工具,简单测试了一下,效果还可以。https://github.com/CrawlScript/WebCollector

    三、原理分析

    正在进行中......

    学习交流,wx,aha314159

    相关文章

      网友评论

          本文标题:新闻内容抽取总结

          本文链接:https://www.haomeiwen.com/subject/tqofgqtx.html