Python爬虫html转markdown

作者: 无聊的CairBin | 来源:发表于2022-05-03 15:07 被阅读0次

Python爬虫html转markdown
Python爬虫学习系列教程
Python与数据库-网络爬虫存储
HTML tutorial
Python爬虫入门
Markdown转HTML
Python 爬虫：把廖雪峰的教程转换成 PDF 电子书
python爬虫入门
Python第二天（爬虫相关）
Python网络数据采集之图像识别与文字处理

Python爬虫html转markdown

说明

动态博客转静态博客(例如typecho转hexo)，在上传静态博客文章时往往需要md文件

通过这个程序我我们可以很方便地以爬虫的方式获取markdown文档

代码

下面给出代码框架，根据需要进行修改即可运行

import requests
from bs4 import BeautifulSoup
import html2text as ht

url = '' #此处写你要爬虫的url

#爬虫
res = requests.get(url)
data = res.content
cont = BeautifulSoup(data, 'html.parser')
#获取包含文章内容的标签 attrs后跟的是最外层标签属性，根据爬取网站的实际情况进行修改
data = cont.find('div',attrs={'id':'post'}).text

#对上述字符串data进行处理，去除不能转换成markdown的标签，比如div等
#该部分代码根据需要自行添加，此处不给出

#转换
text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
text = text_maker.handle(data)

#对获取的md格式的文本进行操作，比如写入到一个文件中，此处作为演示直接输出
print(text)

网友评论

本文标题：Python爬虫html转markdown

本文链接：https://www.haomeiwen.com/subject/xpzbyrtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬虫html转markdown

Python爬虫html转markdown

说明

代码

相关文章

Python爬虫html转markdown

Python爬虫学习系列教程

Python与数据库-网络爬虫存储

HTML tutorial

Python爬虫入门

Markdown转HTML

Python 爬虫：把廖雪峰的教程转换成 PDF 电子书

python爬虫入门

Python第二天（爬虫相关）

Python网络数据采集之图像识别与文字处理

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读