美文网首页爬虫斯高一
爬虫学习(4)——专利下载实战

爬虫学习(4)——专利下载实战

作者: 龙鹰图腾223 | 来源:发表于2019-08-03 01:10 被阅读0次

    1、美国专利局专利批量下载

    美国专利及商标局这个网站 https://www.uspto.gov/
    搜索页面:http://patft.uspto.gov/netahtml/PTO/index.html

    image.png

    这里的关键是如何通过一次次的跳转获得pdf的下载链接,整个流程是这样的:
    1、先根据关键字搜索获得相关专利名称,根据专利名称可以获得检索号
    2、从检索号可以找到对应的单页预览pdf链接
    3、从单页pdf网页可以获得完整pdf的链接
    美国专利局里1.pdf为单页的预览,0.pdf为完整版本的pdf文件

    过程的实现可以参阅参考资料【1】
    原作者代码的问题在于没有进行headers的设置,导致无法获取跳转数据

    一个可以跑通的代码可见git地址:
    美国专利局下载

    附:
    国内外论文、专利下载网站资源收集(不断更新中):
    https://www.jianshu.com/p/cec9576a72b2

    参考资料
    【1】https://blog.csdn.net/u010256153/article/details/53082008 批量下载指定公司专利信息
    【2】https://www.jianshu.com/p/0136fd926b41 爬虫学习之浏览器伪装技术

    相关文章

      网友评论

        本文标题:爬虫学习(4)——专利下载实战

        本文链接:https://www.haomeiwen.com/subject/zdihkctx.html