数据分析

作者: 胡同中 | 来源:发表于2019-03-11 14:15 被阅读0次

目的

抽取不易推断的信息

理解信息

研究产生该数据的系统的生成机制

对系统可能的响应和演变作出预测

将所研究的系统变成数学模式，后对系统响应进行不同精度的预测。数据分析不止于建模，还在于其预测能力。

理解数据最好的方法就是就将其做成可视化图形，从图形中传达信息

用已知的结果和模型所产生的结果进行对比，来判断模型是否能重复出已知结果，从而掌握模型误差，了解其有效性和误差。

常见的数据存储格式 XML、JSON、XLS、CSV

数据分析常用的统计技术：贝叶斯方法、回归、藻类

机器学习：把一系列步骤和算法结合，分析数据，识别数据中存在的模式，找出不同的簇，发现趋势，从数据中抽取有用信息，并实现整个过程自动化

数据类别：

类别型：定类变量没有内在顺序、定序变量有预先指定的顺序

数值型：离散型个数是可数的，每个值与其他值区别开、连续型产生于结果属于某一确定范围的测量或观察

数据分析过程：

1、问题定义

2、数据抽取

3、数据清洗

4、数据转换

5、数据探索：从图形或统计数字中搜寻数据，发现数据中的模式、联系和关系

6、预测模型：（1）回归模型，预测系统产生的值（2）为新数据分类，分类或聚类模型，生成这些模型的简单方法包括线性回归、逻辑回归、分类、回归树、K-近邻算法，每种方法都可以生成特定模型，应根据模型的特点选取算法

7、模型评估/测试：训练集、验证集。预测结果在一定范围内有效，预测值和有效性之间存在不同层级的对应关系

8、结果可视化和阐述

9、解决方案部署

定性分析：把数据用自然语言来描述，结构不明显，适合用于分析文本、视频、音频

定量分析：分析有着严格的数值型或类别型结构，可以得出更加客观的结论

导入math库：import math；就可以用math.sin(a)计算

字典：每个元素都有一个key与其对应，没有先后顺序，只是一一对应

例如：dict = {'name' : 'Peter' , 'age' : ‘25’ , 'city' :'London'} (花括号，每个元素要用引号）

dict['name'] = Peter

列表：有明确顺序的元素组成的一个序列，支持新增或删除元素的的操作，每个元素有自己的index

list = [1,2,3,4]

list[2] = 3

list[1:3] = 2,3

list[-1] = 4

for item in list:

item+1

函数式编程：避免使用显式循环，functional programming 即expression-oriented programming面向表达式的编程

map（function,list)映射函数

filter(function,list)过滤函数

reduce(function,list)规约函数

lambda函数

列表生成式

网友评论

本文标题：数据分析

本文链接：https://www.haomeiwen.com/subject/jtdvpqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

数据分析

目的

字典：每个元素都有一个key与其对应，没有先后顺序，只是一一对应

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读