美文网首页python机器学习爬虫Python中文社区数据挖掘
美团网数据分析——到底有多少人知道这些餐厅?!

美团网数据分析——到底有多少人知道这些餐厅?!

作者: 我叫钱小钱 | 来源:发表于2018-04-09 01:18 被阅读562次

    特别声明:本文仅兴趣交流,需要数据的简友也可以在下面留言,代码在GitHub上需要自取,转载请联系作者。

    • 前言

    本文使用Python、Mysql作为获取数据以及存储清洗的工具,其他还会涉及制作图表(Echarts)、编辑图片(大众点评网)、文案编写(mark down语法)、gif录制(ScreenToGif)、百度地图SDK、排版及润句等。边想边做边学,哪里不会学哪里,看在那么多道工序的份上请不要吝啬您手中赞,点穿屏幕的底下留言给你换个IphonX~

    就是出于好奇心皮一下,也没那么多精力做同行业的数据整合,只是想了解有哪些餐厅一辈子都吃不起、哪些店是当下热门、上海餐饮地理分布情况是怎样的、本文也就围绕着以上几个大点,开始美团数据探索之旅。


    • 分析过程

    • 整个过程一共分为三个步骤:
    1. 数据来源(细节部分不做展开,代码已公开在GitHub上)
    2. 基础分析(可以跳过,一些基本的数据分析方法、流程)
    3. 进阶分析(分析价值,空间数据20180414已更新,代金券分析 )
    • 1. 数据来源
    • 利用爬虫技术获取了餐饮全分类、地域一级二级分类


    • 在获取每个分类下面的标题、分数、评论、地址、人均、所有代金券数据


    • 然后要把数据存入MySql数据库中
    • 2. 基础分析
    • 先max,min看下异常数据,这些极值会影响最后统计结果,人均价格和评分有0的情况,对最后统计没有意义将这些数据进行剔除
    • 对数据总量和剔除无效后的数据做一个占比展示,那么最后可以使用的数据26793条,占总量89%
    from pyecharts import Liquid
    
    liquid = Liquid(title="样本数",subtitle='样本总量29876 剔除均价和评分为0的数据所剩的数量26793')
    liquid.add("Liquid", [0.89, 0.7, 0.5, 0.3], is_liquid_outline_show=False)
    liquid
    
    • 好,接下来我们再来看下在这89%的数据中,我们按人均价格降序排解,到底哪几家会脱颖而出~
    from pyecharts import Bar,Grid
    
    df = df.head(10)
    title = df['title']
    avg_price =  df['avg_price']
    avg_score = df['avg_score']
    comment_num = df['comment_num']
    
    bar = Bar(title="餐饮商家前十排行",subtitle='数据来源神秘组织:*团',width=800,height=400)
    bar.add("人均", title, avg_price, mark_point=["min", "max"],mark_line=["average"])
    bar.add("评论数", title, comment_num,mark_point=["max"],is_label_show=True, xaxis_rotate=30)
    
    grid = Grid(height=500)
    grid.add(bar, grid_bottom="30%")
    
    • 榜单前10的平均人均消费也达到了1126.4 RMB,其中,最贵的是“黄公子”人均 2665 RMB,不由得让我们对前10的商家起了兴趣,于是上了百度查看了一下

    • 【黄公子】 人均 2665 RMB
      隐藏在老式洋房里的一家人均千元的定制私房菜,仪式感十足,每天只接受10位顾客的预定,简友们谁家宽裕的可以带我去遛遛 =。=


    • 【洋房火锅】人均 901 RMB
      火锅中的劳斯莱斯...A级和牛600~800,涮一片牛肉小两百...我的天...贫穷真的限制我了我的想象 =。=

    • 看完最贵的,那么我们看下最热的,也就是评论数最多的


    • 从数据表中可以看出,整个评论排行榜的前十均被 小吃快餐、自助餐 2类霸榜(其中还剔除了各种xxx分店),有趣的是前十店铺的地址大多都在 嘉定、奉贤、松江、曹路 这些地区都在上海外环以外,离市区是相当远,想实地考察下都难。最后这两类分类到底是否真的是客量大,还是存在刷榜,或是神秘组织*团商铺分类关系,个人就不深度去研究了...太花费时间,但我真的很好奇~知道的简友们请留言...

    from pyecharts import Bar,Grid
    
    sql3 = '''#sql3
    select distinct a.sub_id,a.sub_name,
    b.poi_id,b.title,b.avg_price,b.avg_score,b.comment_num,b.address from meituan_classify_info as a
    inner join meituan_shop_info as b on a.sub_id = b.sub_id and a.class_type = b.class_type
    where a.class_type = 1 and a.sub_id not in(24,393,395) and b.avg_price <> 0 and b.avg_score <> 0 
    and CONCAT(b.sub_id,b.poi_id) not in ('6342030772','4050576755','6350576755','4052163162','2006068147006','5452800270','4087812358','6387812358','543311762')
    order by b.comment_num desc limit 10;
    '''
    df3 = pd.read_sql(sql3,conn)
    data = sorted(df3[['title','comment_num']].values ,key=lambda x: x[1],reverse=True)
    attr = [i[0] for i in data]
    val = [i[1] for i in data]
    
    bar = Bar()
    bar.add('comment_num', attr, val,is_label_show=True,xaxis_rotate=30)
    grid3 = Grid(height=500)
    grid3.add(bar, grid_bottom="30%")
    

    【燕烤猪蹄店】人均 10 RMB

    • 评论数量第一的竟然是家烤猪蹄店...!! 但为何以如此高的评论数位居榜首?是否存在刷榜行为? 对这块了解的请留言告知~(图3是本尊,喜欢的请点赞!)
    • 对以上几家餐厅感兴趣的可以点餐厅链接↑↑↑

    • 好了,言归正传,分类不同,价格会相差很大,所以不能对所有类别进行全量统计(例如日料和小吃的价格就是天壤之别)下面的箱线图就很好的表达了这些分类的数据分布情况:
    from pyecharts import Boxplot
    
    sql = '''select distinct sub_id,sub_name from meituan_classify_info where class_type = 1 and sub_id not in(24,393,395)'''
    df = pd.read_sql(sql,conn)
    
    sql2 = '''select distinct poi_id,avg_price,sub_id from meituan_shop_info where class_type = 1 and avg_price <> 0 and avg_score <> 0'''
    df2 = pd.read_sql(sql2,conn)
    
    x_axis = []
    y_axis = []
    for i in df.index:
        sub_id = df.loc[i].values[0]
        sub_name = df.loc[i].values[1]  
        avg_price = df2[df2['sub_id'] == sub_id ]['avg_price'].values
        x_axis.append(sub_name)
        y_axis.append(avg_price)
        
    boxplot = Boxplot("菜系数据分布情况")
    _yaxis = boxplot.prepare_data(y_axis)   # 转换数据
    tp_dict = {k:v for k,v in zip(x_axis,_yaxis)}
    idx_tp = sorted([(max(v),k) for k,v in zip(x_axis,_yaxis)])
    
    # 根据max排序
    x_ax = []
    y_ax = []
    for i in idx_tp:
        x_ax.append(i[1])
        y_ax.append(tp_dict[i[1]])
    boxplot.add('boxplot', x_ax,y_ax,is_datazoom_show=True, datazoom_type='both',xaxis_rotate=30)
    
    grid = Grid()
    grid.add(boxplot, grid_bottom="20%")
    
    • 分类有很多种,要把菜系和食品的类别区分开(火锅可以是川菜也可以是日料,日料可以是自助也可以是海鲜)所以我们要把分类再细化,这里剔除食品分类,筛选出菜系类别(如:日料、川菜、粤菜、浙江菜、西北菜等)
    from pyecharts import Pie
    
    sorted_df = sorted(df4[['sub_name','cnt']].values, key=lambda x:x[1],reverse=True)
    attr = [i[0] for i in sorted_df]
    val = [i[1] for i in sorted_df]
        
    pie = Pie("*团各大菜系店铺数", title_pos='center', width=800)
    
    pie.add("菜系", attr, val, center=[50, 50], is_random=True,
            radius=[35,65], rosetype='radius',legend_orient='vertical',legend_pos='left',
            is_legend_show=True, is_label_show=True)
    
    • 川湘菜、浙江菜、日料、粤菜、韩料 位居前5,可以说统计结果跟现实中完全吻合,继续对数据进行下钻,接下来就来专门研究下日料的情况。

    • 3. 进阶分析

    • 在做日料店分布之前先来,上海市餐饮整体的一个分布情况,将数据库所有店铺的地址做清洗处理,然后百度地理经纬度坐标

    • 将区域的每个坐标进行分组聚类,然后嵌入百度地图中(具体怎么嵌,请搜索百度地图SDK平台),就生成了下图 :

    # 这里有几个知识点,地理坐标系一共分为几类
    # 1.GPS设备获取的角度坐标,wgs84坐标
    # 2.国测局坐标,gcj02坐标
    # 3.百度经纬度坐标,bd09ll坐标
    # 由于坐标信息都是经过加密处理,需要统一坐标才能够使用
    
    sql = '''select round(lng,4),round(lat,4),count(*) * 10 from meituan_shop_map
            group by round(lng,4),round(lat,4);'''
    cur.execute(sql)
    result = cur.fetchall()
    # 将坐标聚类,清洗
    hotmap = [{"lng": float(i[0]), "lat": float(i[1]), "count": int(i[2])} for i in result]
    

    • 15层级图中可以获取到很多信息,人口密集程度,商业繁华程度侧面就不说了,主要一下三点: 当前层级:15级
    1. 明显的两大区域,分别是以静安寺为中心向南京西路延伸段、人民广场至南京路延申段,两大商业区餐饮商铺成均匀及延续分布,说明不仅店多而且分布广。

    2. 次级区域分别有,上海火车站(不夜城)、中山公园、八佰伴、长寿路
      说明这些地区也有相当部分市场。

    3. 高热集中区域有,陆家嘴、环球港、中山公园、华东大学、马当路地铁站,铜川路等,这些高热特征他们都分布在地铁枢纽区域,地域小店铺分布密集。


    • 12层级图中环以外区域,从10点方向逆时针主要有几个明显区域:
      当前层级:12级
      安亭镇、南翔镇、华漕镇、九亭镇、莘庄镇、曹行镇、周浦镇、张江镇、川沙镇、金桥镇、曹路镇,都是以人口较密区域成散点式分布


    • 10层级图上海餐饮分布总览:
      当前层级:10级
      左下3个大片红色区域由外向内分别是:金山、奉贤、松江
      右下大红色是:惠南
      上面岛屿是:崇明


    • 终于到了上海日料分布情况的环节 当前层级:12级
      热力图呈现大面积黄色区域为古北、天山地区,那边日本企业较多,所以日料店也相对较多,其次就是静安寺、人名广场、徐家汇、八佰伴等商圈


    • 好了,地理坐标系的分析就到此告一段落,接下来尝试找出最好吃的日料店,由于评论,价格,评分的数值不在一个维度中,那么我们先要对这些数值进行收敛处理,处理步骤如下:
    1. 点评极值差异相当大,那么用log10去对评论进行收敛
    2. 价格虽越贵越好吃的概率较大,但为了找到性价比最高的店,这里将价格作为降权处理
    3. 评分最大5分最小0分,将0分提出,也同样对其进行收敛处理
    4. 对3个指标的线性加权,再用算法进行归一化处理(var - min) / (max - min) 就得到了最后的评分
    select
        poi_id, title
        ,(result - min_rst) / (max_rst - min_rst) as convergence
        ,comment_num ,comnt ,avg_price ,price ,avg_score ,score, result , max_rst , min_rst
    from(
        select 
            poi_id, title
            ,comment_num
            ,ifnull(log(20,comment_num),0) as comnt
            ,avg_price
            ,log10(avg_price) as price
            ,avg_score
            ,ifnull(log2(avg_score),0) as score
            ,ifnull(log(20,comment_num),0) - log10(avg_price) + ifnull(log2(avg_score),0) as result
            ,1 as inner_col
        from meituan_shop_info
        where sub_id = 20059 and avg_price <> 0
    ) as x 
    left join 
    (
        select 
        max(ifnull(log(20,comment_num),0) - log10(avg_price) + ifnull(log2(avg_score),0)) as max_rst
        ,min(ifnull(log(20,comment_num),0) - log10(avg_price) + ifnull(log2(avg_score),0)) as min_rst
        ,1 as inner_col
        from meituan_shop_info
        where sub_id = 20059 and avg_price <> 0
    ) as y on x.inner_col = y.inner_col
    order by convergence desc
    

    • 所有的日料店的加权计算后评分,吃货们自己去百度搜下吧,就不逐个介绍了


      性价比高的日料

    • 再来,对日料店再细分,小弟知道一般日料店价格在300RMB以上,加上筛选
    # 300 - 600价位之间
    where x.avg_price between 300 and 600
    
    300-500日料推荐
    唉~ 我肯定是吃不起了,虽然我吃不起,但是!!也要满足看客老爷们,千万别问我是谁,大家都叫我雷锋!!!

    上面有没有你吃过的店呢?接下来我们看下上面排第一的"舞泽"这家店~


    • 【舞泽】人均 313 RMB
      很多料理都是采用蒸的方法来烹饪的,「生冻雪蟹」「蒸海鲜」「帝王蟹」「茶泡饭」都是特色,这些我都是听说的,等赚到钱了一定要去吃一下~

    舞泽

    • 插句题外话,提到日本我会联想到四个字"工匠精神",并不说一件事干一辈子就是"工匠精神",不断改善自己的工艺,追求完美和极致,有着执着的坚持和追求,把品质从0提高到1,我认为这是极高的职业素养的体现。是值得我们一辈子去学习的一种精神。
    • ps:科普科普个小知识,IPad研磨工艺就是出自5个人小作坊——小林研业
      小林研业
    • 这家为苹果研磨iPod的企业,就是位于日本新潟县燕市的“小林研业”,正是在这间其貌不扬的厂房里5名研磨技师花费了大约4年时间,为广受全球顾客欢迎的超过100万个“iPod”进行了背板的镜面加工。

    • 数据提取的一些简单脚本,初学者可以看下



    相关文章

      网友评论

      • 6a4f92c20dfa:数据来源(细节部分不做展开,代码已公开在GitHub上)—— 您好博主,请问对应的Github地址可否了解一下,如何可以看到?非常感谢!~
      • 1e0776cc04a7:楼主,求源代码
      • 佐佐吧:膜拜大佬:pray:
        请问有完整的代码吗?你的GitHub链接是什么~
      • 羽恒:厉害了 我的哥
        羽恒:@我叫丶钱小钱 点赞
        我叫钱小钱:@羽恒 不厉害不厉害:joy:
      • 飞翼_U:厉害了钱哥。:+1:
        我叫钱小钱:@飞翼_U 天热了有时间找你出来撸串👌
        飞翼_U:@我叫丶钱小钱 是啊,还在老地方。:grin:
        我叫钱小钱:@飞翼_U 最近咋样?还在老地方工作嘛?
      • 安sir君:加油~
        我叫钱小钱:加油~

      本文标题:美团网数据分析——到底有多少人知道这些餐厅?!

      本文链接:https://www.haomeiwen.com/subject/dgbuhftx.html