美文网首页
Python学习笔记-3群18组-杜杜狼-2017.7.17

Python学习笔记-3群18组-杜杜狼-2017.7.17

作者: 渡笃狼 | 来源:发表于2017-07-18 00:20 被阅读50次

完成相关视频章节学习:

2. 数据分析概况

是什么:用适当的分析方法,对收集的数据进行分析,总结规律,提取有价值的信息,形成有效结论的过程

企业中的作用:现状分析(过去:日报,周报,月报),原因分析(现在:现状为什么会发生 专题),预测分析(未来:预测下一年的销售量目标  制定季报,年报)

流程:明确目的和思路 -> 数据收集准备 -> 数据处理 ->数据分析 -> 数据展现 -> 报告撰写

数据一般来源:企业内部数据仓库,公开的出版物,互联网,市场调查报告

基础分析方法:对比分析,分组分析,结构分析,分布分析,交叉分析,矩阵分析

高级分析方法:回归分析,聚类分析,决策树,神经网络,因子分析,时间序列分析


3.Python概况

因自己非常熟悉,所以只看了视频,未做笔记

Why Python: 高效,开发包齐全

数据处理:pandas

数据挖掘:sklearn

数据可视化:matplotlib


4. 安装Anaconda

5. 使用Anaconda

6. 数据类型

变量命名规则:a-z, A-Z, digits, case sensitive, 

no _ , no digit at beginnnig

数据类型:

 1. Logical:True False 运算规则:&, |, not

 2. Numeric 

取整 //

求余 %

乘方 **

浮点数越界问题 Decimal('4,2') + Decimal('2.1') 对浮点数进行封装

 3. Character

单引号,双引号,或三引号把字符串包起来

转义字符:\ or (r'xxxxxx')

表示换行: s = "abc \

efg" or 使用三引号:换行符等均会保留


7. 数据结构

数据结构是指相互之间存在一种或多种数据关系的数据集合

Pandas:

Series: 存储一行或一列的数据,以及与之相关的index的集合

DataFrame: 用于存储多行多列

默认索引都是从0开始的

切片:>=第一个索引,<第二个索引


8. 向量化运算

特殊的并行计算方式,同一时间进行多次操作

Pandas的基本数据结构:序列和数据框

等差数列:numpy.arange(start, end, step)

numpy.power(r, 5)

lambda匿名函数

四则运算:相同位置进行函数计算,函数返回结果保留在相同位置

向量化运算原则:1. 极可能避免for循环;2.过早的优化是魔鬼


9. 数据导入

数据存在形式:

1. 文件:pandas

CSV: 列与列之间用逗号分隔

read_csv(file, encoding), 

TXT:没有列名,不需要分隔符,默认第一行作为表头

read_table(file, names=[列名1,列名2.。。], sep="", encoding="utf-8")

Excel:默认文件第一行作为列名

read_excel(fileName, sheetName, names)

2.数据库:MySQL, Access, SQL Server etc


10.数据导出

default:

to_csv(filePath, sep=",", index=TRUE, header=TRUE)

相关文章

网友评论

      本文标题:Python学习笔记-3群18组-杜杜狼-2017.7.17

      本文链接:https://www.haomeiwen.com/subject/uotzxttx.html