美文网首页PowerQueryPower BI干货PowerBI专栏
利用Power BI轻松爬取豆瓣电影数据

利用Power BI轻松爬取豆瓣电影数据

作者: PowerBI星球 | 来源:发表于2020-12-17 21:51 被阅读0次

    这篇文章就来看看如何用PowerBI批量抓取豆瓣电影的数据。以最近正在上映的电影为例,豆瓣网址为:https://movie.douban.com/

    利用从web获取数据的功能,将这个网址放进去,就可以轻松获取这些影片的评分:

    这种方式抓取的只有一个评分数据,其实在每部电影的详情页,有更丰富的数据,比如电影的导演、主演、评分人数、影评条数等。

    比如最近最热门的电影《姜子牙》的豆瓣详情页:

    如何能批量抓取每一部电影详情页中的这些数据呢?下面就来看看操作步骤。

    1、批量获取电影的详情页网址。

    要想获得详情页的数据,首先就需要先得到每部电影的详情页网址,批量获取网址的方法,之前也介绍过。

    先打开前两部电影的详情页并将网址复制下来,然后利用"使用示例添加表"的功能,将前两行数据粘贴到前两行,系统就可以自动识别并补全剩余的信息。

    或许是豆瓣电影网页的数据结构不够规范,所以提取出来的数据,与网站实际看到的略有出入,将重复的、以及不正确的数据删除即可。

    need-to-insert-img

    2、提取某一部电影详情页需要的数据。

    选择某一个电影,进入详情页,比如提取出《姜子牙》的导演、主演、评分人数等数据,依然"使用示例添加表",将这些数据提取成一行,

    然后将这一行数据清洗成规范的数据。

    3、利用第2步的查询建立自定义函数。

    右键该查询>创建函数,

    命名为movieinfo,并修改前两行代码,定义网址为参数:

    自定义函数制作完成。

    4、调用自定义函数。

    在第1步查询的基础上,调用创建好的自定义函数:

    然后展开数据即可获得每一部电影的详细数据:

    将抓取到的数据上载到数据模型中就可以进行分析了,

    不得不说,之前备受瞩目的《花木兰》评分真的好低,不推荐观看。

    以上就是PowerBI批量抓取链接网页中数据的步骤,具体细节,可能不同的网站需要不同的处理,但整体思路基本如此。

    -精彩推荐-

    Power BI商业数据分析模型:RFM客户价值分析

    如何用PowerBI 打造高大上的财务报表分析报告?

    Power BI应用技巧:动态显示最近N天的数据

    PowerBI数据分析和可视化实战案例

    采悟  Power BI星球

    相关文章

      网友评论

        本文标题:利用Power BI轻松爬取豆瓣电影数据

        本文链接:https://www.haomeiwen.com/subject/xodtnktx.html