python爬取pdf

作者: 肥宅_Sean | 来源:发表于2018-02-13 16:46 被阅读80次

    哈哈哈练习爬虫技术,去到了lxml的官网去看那个document
    看到那个可以pdf的标准就点开了。
    想到res.content可以得到二进制文件信息,大概所有的数据都是可以爬的(图片也是可以的)。pdf类似,估计也是可以这么爬的。于是我就写了下面的这么一段代码。

    还算不错,成功了~

    代码也很简单~
    import requests
    res = requests.get('http://lxml.de/lxmldoc-4.1.1.pdf')
    res.encoding = res.apparent_encoding
    with open('./a.pdf', 'wb') as f:
        f.write(res.content)
    

    相关文章

      网友评论

        本文标题:python爬取pdf

        本文链接:https://www.haomeiwen.com/subject/fynjtftx.html