美文网首页
Python文档工具

Python文档工具

作者: 不若此间一壶酒 | 来源:发表于2021-05-22 21:05 被阅读0次

前言:本方法需要手动得到某文档的单篇文件,而不是基于爬虫的,具体原因正文会讲。因此,如果是想学爬虫的话,本文就没有必要再看下去了。另外,本文主要是扒中文的,如果原文是非中文,则需要自己写正则表达式。


一、使用条件

1、必需安装Python

2、要会写正则

二、过程分析

1、ba qu网页,最先想到的肯定是爬虫,那么肯定就想用requests方法,我们不妨试试。

import requests

from bs4 import BeautifulSoup as bs

url = 'https://wenku.baidu.com/link?url=iki4lWxb0vMNHUlIxZECH3ldyCOhsioFIQpQcoauVB6kLb1O_lm8AldXh3gjniyRQVqhxzeiuA-U7iRqlZWSugsbOrRjNUy5iB3lp6TJ1HwMLf3Ks5KgsskdijPQTsLX'

r = requests.get(url)

soup = bs(r.text, 'lxml')

text = soup.find_all('p')

for line in text:

    print(line.string)

原网页

上述代码得到的结果如下所示(中间部分省略)

读后感

读《伊索寓言》有感

伟大的文学家钱钟书先生(或者称作钱爷爷要中

听点,但我又担心别人笑话我是故意向名人套近乎,

管别人怎么说呢,不是常说走自己的路让别人去说

吗?我是我,他是他,这八竿子打不着的事。如果有

人吃撑了,非要乱嚼舌头,那我也没办法,总不能把

别人的嘴密封起来吧,有的人就算你把嘴给他密封住

他也会用鼻子发音来诋毁你,

…………

还念着说:

“好香的屎啊!

我们不

关于作者

                    柳含露

                    文库新人

文档

粉丝

等级

对比原文档可以发现,用requests方法只能得到文档第一页的内容。

原文

经过笔者的多种尝试,不仅requests方法没有用,而且就算是用Webdriver模拟登录,某文档设置的反爬虫也会把人搞死。当然,如果有大神能用requests就可以搞定,那么还请救救孩子!

2、既然requests神器用不了,那我们就自力更生,用最原始的方法,F12。

第一步,在Elements中逐层打开 第二步,在“reader-container”这一行右击,再点击“编辑网页”选项 第三步,按Ctrl+A全选框中的内容,复制到txt文档中保存

下面就可以用Python正则表达式来解决了。

import re

from docx import Document

# 正则,一般的中文文档都可以用此模式

re_pattern = re.compile(

    u">([《》,、。-;\'\"\”\“]*[\u4e00-\u9fa5]+[《》,、。-;\'\"\”\“]*)<|>(\d+)<")

                                      # 加粗斜体内容代表中文字符

# 打开用“编辑网页”得到的内容所保存的文档

f = open(r'ori.txt', encoding='utf-8')

s = f.read()

# 匹配,返回元组

res = re.findall(re_pattern, s)

txt = list()

for tup in res:

    # 把元组转为字符串

    s = ''.join(tup)

    txt.append(s)

# 连接所有字符串组成文档

new_txt = ''.join(txt)

# 保存到word当中

doc = Document()

doc.add_paragraph(new_txt)

doc.save(r'out.docx')

f.close()

最后保存的文本

三、总结

本文用的方法没什么难的,适用范围也不是很大,仅作为一种平时能用到的小工具的代码参考,如果有更好更智能的baipiao方法,希望各路大神不吝指教!

相关文章

  • Day8 Python系列之基础入门与工具 2019-05-31

    官方参考文档 Python官方参考文档 编程工具 初学者安装Anaconda完全入门指南 Python包管理工具p...

  • Python文档工具

    前言:本方法需要手动得到某文档的单篇文件,而不是基于爬虫的,具体原因正文会讲。因此,如果是想学爬虫的话,本文就没有...

  • Python分词,情感分析工具 SnowNLP

    Python:Python分词,情感分析工具 SnowNLP 官方源码文档 GitHub:https://gith...

  • Android 自动化测试(Python)

    1). 工具 Python3.7 Python3.7官方文档 uiautomator2:获取界面对应控件 wedi...

  • 自动生成Python项目文档

    Python有个自带的工具可以生成Python的项目文档叫pydoc,但是我觉得最好用的还是Python-Sphi...

  • Python学习笔记

    开发工具:Anaconda Navigator -Spyder(Python 3.7) numpy中文文档:htt...

  • SQL格式化利器

    工具列表 SQL格式化 Python 包 sqlparse,文档地址 在线的 SQL 格式化工具:http://s...

  • python 工具文档集锦

    正常工作时间会搜到各种用到的文档 【持续更新 ... 】。 做记录,标签,个别也会整理下(文档搬运工,尽量给链接不...

  • Python文档生成工具pydoc

    在Python中有很多很好的工具来生成字符串文档(docstring),比如说: epydoc、doxygen、s...

  • sphinx入门指南【1】快速入门

    简介 sphinx是一个用于快速生成文档的工具,非常适合生成Python文档。 它具有以下优点: 支持多种输出格式...

网友评论

      本文标题:Python文档工具

      本文链接:https://www.haomeiwen.com/subject/lvunjltx.html