一、数据准备
爬虫爬取美团网广州市地区美食商家信息 1025条,爬虫工具是八爪鱼采集器,主要字段包括:店铺名称、店铺网址、评分、消费评分、消费人数、类型、店铺地址、人均价格、所在城市、关键字。
二、分析目标
针对美团网广州市地区美食商家
1、不同区域商家的商家数量、评论数量、种类分布、价格和评价如何?
2、不同种类商家的商家数量、评论数量、区域分布、价格和评价如何?
3、连锁店的门店数量、种类分布、区域分布、评论数量和价格如何?
4、评论人数最多的10家店?价格最高的10家店?
三、数据清洗与处理
下图为原数据
原数据.JPG
数据处理
- 删除44条重复记录
- 删除字段店铺网址、所在城市、关键字
- 连锁店店铺名称中括号内容删除
- 字段名消费评论数改为消费评分,变量值转换为数值型
- 从店铺地址中截取出区域名,区域名缺失值根据地址填充为南沙或从化
- 人均价格截取价格,并转换为数值类型
清洗数据结果见下图
清洗结果数据.JPG
四、分析内容
区域
区域数量
SELECT COUNT(DISTINCT area)
FROM food;
区域数量.JPG
目前广州市辖有11个市辖区,数据中有11个区域,符合广州实际情况。
店铺数量
SELECT COUNT(*), COUNT(DISTINCT res)
FROM food;
店铺总数量.JPG
一共有980条记录,但店名去重后的数量是823,判断有部分店铺是连锁店。
各区域商家数量
SELECT area, COUNT(area)
FROM food
GROUP BY area
ORDER BY COUNT(area) DESC;
各区域商家数量.JPG
天河区的美食商家数量远大于其他区域,其次是番禺、白云、海珠和越秀,可能是这些区域人流量比较大,因此商家也比较多。
各区域评论数量
SELECT area, SUM(`comment`)
FROM food
GROUP BY area
ORDER BY SUM(`comment`) DESC;
区域评价总人数.JPG
这里用各区域评论总数量粗略代表人流量,可以看到各区域按评论数量排序的顺序跟按商家数量排序的顺序基本一致,人越多越繁华的地方,商家就越多。
结合广州各行政区常住人口数据(数据来源:维基百科)
广州各行政区常住人口.JPG
这里按常住人口数量排序跟上面两个排序有出入,但是前5名依然是白云、海珠、天河、番禺和越秀区。
各区域商家种类数量
SELECT area, COUNT(DISTINCT kind)
FROM food
GROUP BY area
ORDER BY COUNT(DISTINCT kind) DESC;
各区域商家种类数量.JPG
美食种类最多的仍然是天河、白云、海珠、番禺和越秀,商家越多,种类就越多,选择也就更多样了。
各区域平均价格
SELECT area, ROUND(AVG(price))
FROM food
GROUP BY area
ORDER BY ROUND(AVG(price)) DESC;
区域平均价格.JPG
天河区平均价格最高,毕竟是广州CBD,紧随其后的是越秀和海珠区,白云和番禺区平均价格处在中等水平,比较实惠。
各区域平均评分
SELECT area, ROUND(AVG(score),2)
FROM food
GROUP BY area
ORDER BY ROUND(AVG(score),2) DESC;
区域商家平均评分.JPG
每个区域商家评价比较好,平均评分都在4以上。
种类
种类数量
SELECT COUNT(DISTINCT kind)
FROM food;
商家种类数量.JPG
美食种类一共有122种,可供选择的类型和口味挺多的,但是可能有一些种类是从一个大类种拆分出来的。
不同种类商家数量
SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind) DESC;
不同种类商家数量最高部分.JPG
- 奶茶/果汁、粤菜和蛋糕商家数量是其他种类商家数量两倍以上,这些类型可能有连锁店,特别是奶茶/果汁。
- 湘菜、川菜和火锅商家数量挺多,这些菜基本上是辣的,看来挺多人喜欢吃辣的。
- 一些外国菜,日本寿司、披萨、西餐的商家数量也挺多的。
SELECT kind, COUNT(kind)
FROM food
GROUP BY kind
ORDER BY COUNT(kind);
不同种类商家数量最低部分.JPG
商家数量最少的种类是一些小类,再次验证了我们的想法,有些类型其实属于同一大类。
不同种类商家区域分布情况
SELECT kind, COUNT(DISTINCT area)
FROM food
GROUP BY kind
ORDER BY COUNT(DISTINCT area) DESC;
不同种类区域分布数量.JPG
与之前的不同种类商家数量对比,商家数量越多,覆盖的区域越广。
不同种类商家平均价格
SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price)) DESC;
不同种类商家价格最高部分.JPG
SELECT kind, ROUND(AVG(price))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(price));
不同种类商家价格最低部分.JPG
自助餐和外国菜普遍比较贵,新疆菜、杭帮菜、云南菜和重庆火锅价格也比较高,但小吃类普遍比较便宜,比如豆腐花、地方小吃、麻辣烫等等。
不同种类商家平均评分
SELECT kind, ROUND(AVG(score))
FROM food
GROUP BY kind
ORDER BY ROUND(AVG(score));
不同种类商家评分最低部分.JPG
商家平均评分还是挺高的,基本都大于3。
连锁店
CREATE VIEW chain_stores AS (
SELECT *
FROM food
GROUP BY res
HAVING COUNT(res)>1);
连锁店数量
SELECT COUNT(DISTINCT res)
FROM food
WHERE res IN (SELECT res
FROM food
GROUP BY res
HAVING COUNT(res)>1);
连锁店数量.JPG
爬取数据种有65家门店是连锁店。
连锁店种类分布
SELECT kind, COUNT(kind)
FROM chain_stores
GROUP BY kind
ORDER BY COUNT(kind) DESC;
连锁店种类数量.JPG
奶茶/果汁和蛋糕店连锁店数量最多,这两种类型的连锁店可能比较容易开设。
连锁店门店数量分布
SELECT res, COUNT(res)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY COUNT(res) DESC;
连锁店门店数量最高部分.JPG
快餐店华莱士门店数量最多,奶茶店的门店数量也挺多的。
连锁店区域分布
SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) DESC;
连锁店区域分布最高部分.JPG
SELECT res, COUNT(DISTINCT area)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY COUNT(area) ;
连锁店区域分布最低部分.JPG
通过与连锁店门店数量对比,连锁店门店数量越多,所覆盖的区域也就越大。
连锁店评论数量
SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`) DESC;
连锁店评论数量最高部分.JPG
SELECT res, SUM(`comment`)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY SUM(`comment`);
连锁店评论数量最低部分.JPG
连锁店之间的评论数量相差蛮大的,有的评论数量上万,一部分连锁店本身门店数量多,一部分连锁店吸引的顾客量大,有的评论数量只有几百。
连锁店平均评分
SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY AVG(score) DESC;
连锁店平均评分最高部分.JPG
SELECT res, AVG(score)
FROM food
WHERE res IN (SELECT res
FROM chain_stores)
GROUP BY res
ORDER BY AVG(score);
连锁店平均评分最低部分.JPG
连锁店平均评分大于3,总体评价不错,毕竟口碑不好,也很难开连锁店。
Top商家
评论数量最多的10家店
SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY `comment` DESC
LIMIT 10;
最受欢迎前10商家.JPG
最受欢迎的商家9家都分布在商家数量最多的区域,种类不一,价格没有明显的趋势。
价格最高的10家店
SELECT res, score, `comment`, kind, area, price
FROM food
ORDER BY price DESC
LIMIT 10;
最贵10家商家.JPG
平均消费价格最高的10家店有4家都在天河区,有7家都是自助餐类型的,集中在最贵的地区和类型,平均消费价格都大于200。
五、总结与不足
总结:
- 人口比较大的五个区——天河、番禺、白云、海珠和越秀的商家数量最多,可选择的种类也很多,作为CBD的天河区平均消费价格是最贵的,商家总体评价比较好。
- 奶茶/果汁、粤菜、蛋糕、湘菜、快餐等商家数量比其他种类多,不同种类商家数越多所覆盖的区域越广,自助餐和外国菜价格较高,而小吃类比较便宜。
- 奶茶/果汁、蛋糕、小吃快餐和粤菜的连锁店较多,连锁店门店数量越多,覆盖区域越大,评论数量也会比较多,连锁店总体评分还是不错的。
- 将评论数量作为简单评判商家受欢迎的标准,最受欢迎的10家店集中在商家数量最多的区域,但种类和价格没有明显的趋势;平均消费价格最贵的10家店有4家都在天河,7家都是自助餐,平均消费在200以上。
不足:
美团广州地区美食最多只有32页,因此只爬取了32页的数据,数据与真实数据相比存在偏差。
网友评论