python获取pdf中的所有超链接url

作者: 沫明 | 来源:发表于2021-01-12 18:42 被阅读0次

python获取pdf中的所有超链接url
Python 问题记录
android 展示pdfView加载并下载
PDF中怎么插入超链接？PDF中超链接教程
【【python实战】根据DOI号批量下载参考文献
五年Python爬虫程序员整理的全栈爬虫知识点
Linux下Python爬虫实现方案
vue基础（五）- 项目开发笔记
document下的集合
JavaScript 获取url，html文件名，参数值

import PyPDF2
PDFFile = open("status.pdf",'rb')

PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'
url_list = []
for page in range(pages):
    print("Current Page: {}".format(page))
    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()
    if key in pageObject.keys():
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            if uri in u[ank].keys():
                print(u[ank][uri])
                url_list.append(u[ank][uri])

    print(len(url_list),url_list)

python获取pdf中的所有超链接url
Python 问题记录
python 问题 Python获取URL中参数的方法 pip install urllibfrom urllib...
android 展示pdfView加载并下载
1.展示pdf首先你要获取你的url 2.添加pdf依赖 3.在布局中添加pdf的控件 4.在Activity中找...
PDF中怎么插入超链接？PDF中超链接教程
PDF中怎么插入超链接？PDF中超链接教程刚入职场的朋友，想必对PDF中如何添加内容一类的操作头疼不已。比如老板叫...
【【python实战】根据DOI号批量下载参考文献
在上一篇中，写了如何获取某篇英文文献pdf的参考文献信息。【python实战】获取英文文献pdf中参考文献信息[h...
五年Python爬虫程序员整理的全栈爬虫知识点
1 最简单的单页面抓取思路：获取页面所有url 对获取的所有url进行分类 A 获取属于本域名下的url B ...
Linux下Python爬虫实现方案
demo 此demo用于实现获取指定页面的所有超链接说明: python正则表达式模块re:这里有介绍https...
vue基础（五）- 项目开发笔记
Vue2x 如何给超链接的href属性，动态拼接参数? Vue2x 获取 url 参数？
document下的集合
document下的集合 1，获取所有超链接 document.links 改变超链接样式 (存在兼容性) ...
JavaScript 获取url，html文件名，参数值
1、获取url： 2、获取url中的文件名： 3、获取url中的指定参数的值：jquery从html路径中获取参数...