美文网首页
Python学习笔记-3群18组-杜杜狼-2017.7.17

Python学习笔记-3群18组-杜杜狼-2017.7.17

作者: 渡笃狼 | 来源:发表于2017-07-18 00:20 被阅读50次

    完成相关视频章节学习:

    2. 数据分析概况

    是什么:用适当的分析方法,对收集的数据进行分析,总结规律,提取有价值的信息,形成有效结论的过程

    企业中的作用:现状分析(过去:日报,周报,月报),原因分析(现在:现状为什么会发生 专题),预测分析(未来:预测下一年的销售量目标  制定季报,年报)

    流程:明确目的和思路 -> 数据收集准备 -> 数据处理 ->数据分析 -> 数据展现 -> 报告撰写

    数据一般来源:企业内部数据仓库,公开的出版物,互联网,市场调查报告

    基础分析方法:对比分析,分组分析,结构分析,分布分析,交叉分析,矩阵分析

    高级分析方法:回归分析,聚类分析,决策树,神经网络,因子分析,时间序列分析


    3.Python概况

    因自己非常熟悉,所以只看了视频,未做笔记

    Why Python: 高效,开发包齐全

    数据处理:pandas

    数据挖掘:sklearn

    数据可视化:matplotlib


    4. 安装Anaconda

    5. 使用Anaconda

    6. 数据类型

    变量命名规则:a-z, A-Z, digits, case sensitive, 

    no _ , no digit at beginnnig

    数据类型:

     1. Logical:True False 运算规则:&, |, not

     2. Numeric 

    取整 //

    求余 %

    乘方 **

    浮点数越界问题 Decimal('4,2') + Decimal('2.1') 对浮点数进行封装

     3. Character

    单引号,双引号,或三引号把字符串包起来

    转义字符:\ or (r'xxxxxx')

    表示换行: s = "abc \

    efg" or 使用三引号:换行符等均会保留


    7. 数据结构

    数据结构是指相互之间存在一种或多种数据关系的数据集合

    Pandas:

    Series: 存储一行或一列的数据,以及与之相关的index的集合

    DataFrame: 用于存储多行多列

    默认索引都是从0开始的

    切片:>=第一个索引,<第二个索引


    8. 向量化运算

    特殊的并行计算方式,同一时间进行多次操作

    Pandas的基本数据结构:序列和数据框

    等差数列:numpy.arange(start, end, step)

    numpy.power(r, 5)

    lambda匿名函数

    四则运算:相同位置进行函数计算,函数返回结果保留在相同位置

    向量化运算原则:1. 极可能避免for循环;2.过早的优化是魔鬼


    9. 数据导入

    数据存在形式:

    1. 文件:pandas

    CSV: 列与列之间用逗号分隔

    read_csv(file, encoding), 

    TXT:没有列名,不需要分隔符,默认第一行作为表头

    read_table(file, names=[列名1,列名2.。。], sep="", encoding="utf-8")

    Excel:默认文件第一行作为列名

    read_excel(fileName, sheetName, names)

    2.数据库:MySQL, Access, SQL Server etc


    10.数据导出

    default:

    to_csv(filePath, sep=",", index=TRUE, header=TRUE)

    相关文章

      网友评论

          本文标题:Python学习笔记-3群18组-杜杜狼-2017.7.17

          本文链接:https://www.haomeiwen.com/subject/uotzxttx.html