美文网首页
四、4.1数据分析基础--数据分析问题的分类

四、4.1数据分析基础--数据分析问题的分类

作者: 数据与风控 | 来源:发表于2019-09-30 15:13 被阅读0次

PS:本章的内容非常初级(和我的水平相当),大神们可以忽略,小白可以参考

数据分析问题,简单来说就是根据已有的数据集,通过数学,概率学,统计学等方式进行科学合理的判断和分析,从而对未知的数据集进行预测的过程。

举个例子(后面争取每个知识点都能举个例子,尽量通俗易懂,这也是我的id命名的来源,也是对自己的挑战):

我要判断一个人是男人还是女人,那我可以拿到一些信息(比如这个人的身高体重,头发的长度,穿什么鞋,是否涂口红,是否染发,是否带耳环,是否抽烟等),然后基于这些信息,结合我这30年来对成千上万人的认知,就会给出一个最终的结论:如果一个人身高1米6,体重100斤,涂口红,穿高跟鞋,带耳环,那么这个人很大概率是女性。这个例子其实就是一个很好的数据分析过程,属于数据分析里的有监督问题里面的分类问题。我拿到一个人的这些信息,辅助我对这个人的性别做出判断。

再比如:

我要预测一个房子的房价,我可以拿到的信息有(小区位置,房屋建成年限,房屋面积大小,是否靠近地铁,是否靠近学校等),那我根据这些信息,也可以对该房屋的价格做一个大致的判断。这也是一个数据分析问题,具体属于监督问题里的回归问题。

下面我会对一些数据分析常用的概念和基础知识做一下总结:

1)一个数据集,通常可以分为两个大的部分,一个是特征(feature),一个是标签(label).(当然在进行模型训练时每一部分还可以再细分成训练集,验证集和测试集,后面用到再说)

比如上面的第一例子中,我们需要判断的内容(男/女)就是标签,其他的信息(比如身高体重,是否带耳环等)就是特征,特征也可以叫做字段。

根据是否有标签,可以把数据分析问题分为两大类:有监督问题(有标签)和无监督问题(无标签),(其实另外还有一个半监督问题,我们用到再说)

这里的标签,即事实上这个人的真实性别(groudtruth)。在进行模型训练的时候,需要事先对数据的label进行人工标注,也就是在训练的时候有这个标注结果对模型进行监督,也即有监督的来源(模型的效果很大程度上需要依赖标注的准确率,所以标注工作其实是非常重要的)。

根据label的类别,又可以把有监督问题分为分类问题(label为离散值,比如性别)和回归问题(label为连续值,比如房价),无监督问题一般是指聚类问题。

大体的关系如下图:

相关文章

  • 四、4.1数据分析基础--数据分析问题的分类

    PS:本章的内容非常初级(和我的水平相当),大神们可以忽略,小白可以参考 数据分析问题,简单来说就是根据已有的数据...

  • 谁说菜鸟不懂数据分析-读书整理

    数据分析简述: 数据分析分类及作用: 分类:描述性分析,探索性分析,验证性分析 作用:现状分析,原因分析,...

  • 英国零售商销售分析

    目录一. 项目背景二. 数据探索三. 数据清洗四. 数据分析1. 消费趋势分析2. 用户行为分析3. 用户分类 (...

  • 公众号数据分析

    数据分析定义:有目的的收集数据,是确保数据分析过程有效的基础 微信订阅公众号数据分析主要分析四项 A:用户分析类别...

  • 谁说菜鸟不会数据分析-读书笔记

    第一章:数据分析是神马 数据分析分类: 1、数据分析分类: 描述性数据分析:常见方法:对比分析法、平均分析法、交叉...

  • 数据分析-Excel

    1.数据分析的定义与分类 (1).定义 (2).分类 描述性数据分析(初级数据分析:常见分析方法)对比分析法平均分...

  • 精准广告投放——SQL

    目录一.项目背景二.分析思路三.数据3.1 数据来源3.2 数据理解四.数据处理4.1 导入数据4.2 选择子集4...

  • 数据分析方法

    一、数据分析分类:描述性数据分析、探索性数据分析、验证性数据分析。 1、描述性数据分析:1)对比分析;2)平均分析...

  • 数据分析基础—4.1 数据抽样

    在数据收集过程中,利用数据的全体进行分析,还是采集其中的一部分作为样本进行分析,要根据业务需求来判断,采集特...

  • 数据分析基础—4.1 数据抽样

    在数据收集过程中,利用数据的全体进行分析,还是采集其中的一部分作为样本进行分析,要根据业务需求来判断,采集特...

网友评论

      本文标题:四、4.1数据分析基础--数据分析问题的分类

      本文链接:https://www.haomeiwen.com/subject/wgthpctx.html