HTMLParser爬虫新闻内容

作者: huashen_9126 | 来源:发表于2020-04-18 22:24 被阅读0次

HTMLParser爬虫新闻内容
python爬虫
python之HTMLParser解析HTML文档
html解析-HTMLParser
【Python】python爬虫获取腾讯新闻正文标题内容-源码
机器学习入门-分群实例-新闻分类
Python新闻爬虫
Swift 最简单的方式来解析HTML
《自己动手写网络爬虫》第二篇笔记
python HtmlParser

from html.parser import HTMLParser
from html.entities import name2codepoint

class MyHTMLParser(HTMLParser):

    # def handle_starttag(self, tag, attrs):
    #     print('<%s>' % tag)

    # def handle_endtag(self, tag):
    #     print('</%s>' % tag)

    # def handle_startendtag(self, tag, attrs):
    #     print('<%s/>' % tag)

    def handle_data(self, data):
        print(data.strip())

    # def handle_comment(self, data):
    #     print('<!--', data, '-->')

    # def handle_entityref(self, name):
    #     print('&%s;' % name)

    # def handle_charref(self, name):
    #     print('&#%s;' % name)

parser = MyHTMLParser()

import requests
import re

url = 'https://new.qq.com/omn/20200418/20200418A0QEEO00.html'
rep = requests.get(url)
#rep.encoding = rep.encoding
data = rep.text
x = re.search(r'<div class="LEFT">([\s\S]*)<div id="RIGHT" class="RIGHT">', data, re.M)
parser.feed(x.group(1))

输出：新闻的文本内容

网友评论

本文标题：HTMLParser爬虫新闻内容

本文链接：https://www.haomeiwen.com/subject/sluzvhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

HTMLParser爬虫新闻内容

相关文章

HTMLParser爬虫新闻内容

python爬虫

python之HTMLParser解析HTML文档

html解析-HTMLParser

【Python】python爬虫获取腾讯新闻正文标题内容-源码

机器学习入门-分群实例-新闻分类

Python新闻爬虫

Swift 最简单的方式来解析HTML

《自己动手写网络爬虫》第二篇笔记

python HtmlParser

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读