美文网首页
去除html中的标签

去除html中的标签

作者: 隐墨留白 | 来源:发表于2021-05-12 18:28 被阅读0次

    去除html中的标签

    方法一

    # 去除链接、图片、表格的标签
    import html2text
    item['html'] = content
    html_txt = html2text.HTML2Text()
    html_txt.ignore_links = True
    html_txt.ignore_images = True
    html_txt.ignore_tables = True
    item['content'] = html_txt.handle(content)
    

    方法二

    # 去除js代码段 然后替换所有标签为空
    from lxml.html.clean import Cleaner
    cleaner = Cleaner()
    cleaner.javascript = True
    cleaner.style = True
    content = cleaner.clean_html(bytes.decode(etree.tostring(content, encoding="utf-8")))
    item['ontent'] = re.sub('<.*?>', '', content)

    相关文章

      网友评论

          本文标题:去除html中的标签

          本文链接:https://www.haomeiwen.com/subject/ujzadltx.html