美文网首页商业智能BI那点事儿Power BI干货大数据
Power BI爬虫技巧:如何获取网页中的链接?

Power BI爬虫技巧:如何获取网页中的链接?

作者: PowerBI星球 | 来源:发表于2020-04-23 22:12 被阅读0次

    ​关于Power BI从网页提取数据的技巧,之前的文章中已分享过一些,你可以看看这些内容:

    如何用PowerBI批量爬取网页数据?

    Power BI抓取猫眼数据告诉你,哪部电影更受欢迎?

    对于网页中可见的规范化数据,提取很简单,但对于网页中可以再次点击的链接,怎么提取呢?

    其实同样很简单,本文以豆瓣读书中的TOP250 为例:

    https://book.douban.com/top250?icn=index-book250-all

    在这个网页中,不仅显示书名、评分、作者等信息列表,还可以通过点击封面或者书名,进入该书的详情页,下面看看如何提取这个链接。

    在PowerBI Desktop中,选择用web获取数据,会看到这个导航器,

    在表视图中你看不到可以提取的数据,没有关系,你可以点击左下角的“使用示例添加表”,然后你就能看到这个网页了,

    在这里,只要手动输入前两条信息,PowerBI就会判断你要提取的字段,并自动把该网页中剩余的同类数据添加进来,比如输入前两个书名,

    同样的方式,你也可以提取评分、作者、出版社等信息。

    网址在这个网页是不可见的,你没法直接输入前两个网址,这种情况下就没有示例,难道要一个一个手工复制粘贴吗?

    当然不用,虽然这里看不见,但可以把链接打开,不就知道网址是什么了吗?

    依次打开把前两名的链接,并分别将网址复制粘贴到示例的前两行中,

    这样就得到了链接,是不是很简单。

    上面的步骤只是提取一页25条信息,你还可以根据前面文章中介绍的方法,利用Power Query自定义函数批量提取Top250条的图书信息。

    提取后简单处理,就可以在PowerBI Desktop中使用了,记得将链接的数据类型设置为“Web URL",才可以点击哦。

    关于PowerBI获取web数据的技巧仅供学习交流,不可用于不正当目的。

    -精彩推荐-

    PDF转Excel,这个秘籍推荐给你

    利用PowerBI移动平均来进行准确预测

    体验PowerBI:零基础制作一个可视化报表

    如果你刚开始学习Power BI,可在微信公众号后台回复"PowerBI",获取《七天入门PowerBI》电子书,轻松上手。

    采悟 @ PowerBI星球

    相关文章

      网友评论

        本文标题:Power BI爬虫技巧:如何获取网页中的链接?

        本文链接:https://www.haomeiwen.com/subject/nuozihtx.html