作业
爬取了赶集的二手商品数据,为了更好地了解二手市场行情,可以利用这些数据做哪些分析?
问题
各个类目的二手商品数量,是相对集中在几个区域,还是在各个区域各有高低,为什么?
数据论证
数据源为爬取的赶集网二手商品数据
区域间对比:
- 每个类目在所有区域中的发布数量
- 区域的小区数量、住户人群、人口数量和职业
- 区域的性质,行政?住宅?商品?工业?
解读数据
需要注意样本偏差,二手交易市场不仅赶集网有,还要考虑与其他二手市场的用户群体的差异
如果能够综合其他网上二手交易市场的数据,会客观、准确一些
课程笔记
麦当劳一开始有25种产品,通过制作财务利润表,发现汉堡包占80%销量,于是只留汉堡包并降价
为什么要让数据说话?
数据是科学的衡量指标,能帮助我们做正确的日常决策
如何让数据说话:
第一步:提出正确的问题
第二步:通过数据论证,寻找答案
第三步:解读数据,回答问题
提出正确的问题
黄豆罐头厂商调查有多少家庭主妇购买黄豆罐头。重新定位客户。
《科学的广告,我的广告生涯》
汽车厂商对潜在客户的调研,主题零散,比如:调制鸡尾酒的能力。
《商业冒险》
正确的提问能解释现象
错误的提问却强行关联无关的事物
对比两种页面哪个效果更好,A/B test,对比多种方案,选择效果最好的
论证为什么新版本的效果更好
正确的提问是验证假设
错误的提问是证明自己是对的
豌豆荚的机型分布数据,于是专注于安卓机
P2P羊毛党数据
正确的提问是通过数据探索方向
错误的提问是没有提出问题,有了数据却不知道应该做什么
如何提出正确的问题:
- 解释现象,而不是强行关联
- 验证假设,而不是证明自己是对的
- 探索方向,而不是有了数据却不知道能做什么
通过数据论证,寻找答案
- 对比
单个数据没有意义
横向对比,与别人比较;纵向对比,和自己的时间轴比
- 细分
从不同的维度看
提出的问题可能是一个大的目标,需要将目标细分为一个个小的问题
电商领域:
销售额 = 日活跃 * 购买转化率 * 客单价
- 溯源
定位到问题后,找到源日志,再现用户使用场景,排查哪里出了问题
理解用户的场景,流量日志、行为记录
解读数据,回答问题
数据会说话 VS 数据会说谎
数据不会错,都是人错
- 样本问题
样本存在偏差
沉默的大多数
-
因果关联错误/忽略关键因素
-
忽略前提
案例
2015年有一个观点:互联网的融资泡沫来了
从数据的角度衡量,是否正确
提出正确的问题:
2015年的互联网融资情况怎么样
数据论证:
找数据源,IT 桔子,互联网的融资情况
对比,2015 VS 2014
思维导图
细分问题:
- 有多少公司获得了融资,是什么样的公司
- 融资公司的数量对比
- 融资公司的地域、行业对比
- 新成立公司获得融资的比例
- 融资了多少金额
- 融资公司阶段及金额对比
- 哪些行业、地域的公司获得融资金额最多
- 谁投的
- 投资机构的投资数量分布
- 哪些公司死掉了
- 死亡公司的行业、地域分布
- 成立时间分布
- 融资状态分布
根据这些细分的数据统计项,整理成数据统计表格
将统计好的数据填入表格,并生成数据可视化图表
溯源
获得数据后进行溯源
解读数据
需要注意样本偏差
工信部的注册公司名录
IT 桔子倾向于收录知名的互联网创业公司,反应的情况会比实际情况好一些
网友评论