美文网首页
《自己动手写网络爬虫》第二篇笔记

《自己动手写网络爬虫》第二篇笔记

作者: ve_故食 | 来源:发表于2017-05-30 12:21 被阅读63次

    第二篇:自己动手抽取Web内容

    1. 正则表达式
    2. HtmlParser:文本抽取,链接抽取,资源抽取,链接检查,站点检查,URL重写,广告清除,将HTML转化为XML,HTML页面清理。
    3. 抽取正文:驱除杂质,JavaScript抽取方案。
    4. 提取PDF内容 |————|
    5. 提取Office内容 | 各种库 |
    6. 抽取RTF |————|
    7. 抽取视频:关键帧(基于镜头边界系数),镜头,情节,节目
    8. 抽取音频,MP3格式分为三个部分
    9. 网页中的噪声:与主要内容无关的文本、链接、图片、Flash等等。可以人工提取组织模式,一般用统计的方法实现网页去噪。

    相关文章

      网友评论

          本文标题:《自己动手写网络爬虫》第二篇笔记

          本文链接:https://www.haomeiwen.com/subject/uyhrfxtx.html