除规范的表格数据,网上的数据绝大部分是非结构化的,那么我们在抓去后,总要采用一些方法将这些数据清洗成我们能用的结构化表格数据。
分析网页结构
第二页https://movie.douban.com/top250?start=25&filter=
第三页https://movie.douban.com/top250?start=50&filter=
第四页https://movie.douban.com/top250?start=75&filter=
由此我们可以推断网页呈现一定的等差数列的规律:25 50 75
创建爬虫
我们通过pbi web示例功能自定义抓取数据。
GIF 2022-9-15 星期四 17-00-47.gif
image.png
将单页的内容补充完整。
创建页码表
我们想要抓取10页内容,上面的操作已经抓取了1页,那么我们构造页码表,来抓取多页内容。
在POWER QUERY中用List.Numbers()函数构造。
image.png 转换成表格
自定义函数语法 :
函数名=(参数名 as 数据类型,……)=> 处理代码
常见数据类型:
text(文本),number(数字),date(日期),time(时间),list(列表),record(记录),table(表格)
image.png image.png
展开后,我们添加一个索引列作为排名。
image.png
关闭并应用进入POWER PIVOT界面
添加两个用于分组的列
排名区间 = SWITCH(true(),[排名]<=50,"1-50",
[排名]<=100,"1-50",
[排名]<=150,"50-100",
[排名]<=200,"150-200",
"200-250")
评分区间 = SWITCH(TRUE(),'页码表'[网页表.评分]>=9.5,"9.5-10",
'页码表'[网页表.评分]>=9,"9-9.5",
'页码表'[网页表.评分]>=8.5,"8.5-9",
'页码表'[网页表.评分]>=8,"8-8.5",
"<8"
)
image.png
字段排序
在可视化界面发现字段排序有问题
image.png
创建一个排名区间顺序表
image.png
在关系视图建立关系
image.png
新增列将排名顺序加入到页面表
image.png
采用按列排序将排名区间的顺序调整过来
image.png
放入可视化部分
image.png
网友评论