关于Power BI从网页提取数据的技巧,之前的文章中已分享过一些,你可以看看这些内容:
对于网页中可见的规范化数据,提取很简单,但对于网页中可以再次点击的链接,怎么提取呢?
其实同样很简单,本文以豆瓣读书中的TOP250 为例:
https://book.douban.com/top250?icn=index-book250-all
在这个网页中,不仅显示书名、评分、作者等信息列表,还可以通过点击封面或者书名,进入该书的详情页,下面看看如何提取这个链接。
在PowerBI Desktop中,选择用web获取数据,会看到这个导航器,
在表视图中你看不到可以提取的数据,没有关系,你可以点击左下角的“使用示例添加表”,然后你就能看到这个网页了,
在这里,只要手动输入前两条信息,PowerBI就会判断你要提取的字段,并自动把该网页中剩余的同类数据添加进来,比如输入前两个书名,
同样的方式,你也可以提取评分、作者、出版社等信息。
网址在这个网页是不可见的,你没法直接输入前两个网址,这种情况下就没有示例,难道要一个一个手工复制粘贴吗?
当然不用,虽然这里看不见,但可以把链接打开,不就知道网址是什么了吗?
依次打开把前两名的链接,并分别将网址复制粘贴到示例的前两行中,
这样就得到了链接,是不是很简单。
上面的步骤只是提取一页25条信息,你还可以根据前面文章中介绍的方法,利用Power Query自定义函数批量提取Top250条的图书信息。
提取后简单处理,就可以在PowerBI Desktop中使用了,记得将链接的数据类型设置为“Web URL",才可以点击哦。
关于PowerBI获取web数据的技巧仅供学习交流,不可用于不正当目的。
-精彩推荐-
如果你刚开始学习Power BI,可在微信公众号后台回复"PowerBI",获取《七天入门PowerBI》电子书,轻松上手。
采悟 @ PowerBI星球
网友评论