美文网首页python_爬虫自学编程Python日更成长营
自学Python:Scrapeasy库一行代码搞定整个网页

自学Python:Scrapeasy库一行代码搞定整个网页

作者: 小强聊成长 | 来源:发表于2022-11-23 13:37 被阅读0次

    Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

    Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

    Scrapeay 是Python的一个第三方库,主要功能:可以抓取网页数据,从单网页提取数据,多网页提取数据。还可以从PDF和HTML表格中提取数据。

    下面直接上代码:

    ########################

    from scrapeasy import Website,Page

    #创建网站对象

    webs = Website("https://www.163.com/dy/article/HM4QURSN0552CPDK.html")

    #获取所有子链接

    urls = webs.getSubpagesLinks()

    #输出信息

    print(f'打印所有链接信息:{urls}')

    #查找图片

    images = webs.getImages()

    print(f'打印所有的图片信息:{images}')

    #下载图片

    webs.download('img','./data')

    #下载pdf

    webs.download('pdf','./data')

    #获取链接

    main_urls = webs.getLinks(intern=False,extern=False,domain=True)

    #获取链接域

    domain = webs.getLinks(intern=False,extern=True,domain=False)

    # 下载其他类型的文件

    cal_urls = webs.get("php")

    ########################

    ________________END______________

    相关文章

      网友评论

        本文标题:自学Python:Scrapeasy库一行代码搞定整个网页

        本文链接:https://www.haomeiwen.com/subject/bhynertx.html