Python 语言精要
一、前言
1. 数据处理从结构化和非结构化数据处理的角度介绍
2. 能够处理大数据集的高性能数组计算工具
二、Python语言概要
1. 是一种解释型语言,通过“一次执行一条语句”
2. 退出:exit()和Ctrl-D
3. 在终端上运行.py的文件
4. 科学计算程序员趋向于使用IPython(一种加强对交互式Python解释器)
5. IPython:通过使用%run,会在同意进程中执行指定文件代码,是编号的风格(如:In[2]:)
三、基础知识
1. 语言语义
2. 缩进,而不是大括号:建议4个空格作为默认缩进量
3. Python语句能不以分号结束,不建议一行放多个语句
4. 万物皆对象:对象模型一致性
5. 注释:#
6. 函数调用和对象方法调用:圆括号,0个或者多个参数
7. 变量和按引用传递,变量传递的是引用,指向同一个对象的两个引用
8. 动态引用:对象引用没有与之关联的类型信息,变量其实就是对象在待定命名空间中的名称而已,保存在它自己内部。
9. 强类型: 所有对象都有个特定的类型,转换需要很明显的情况:insinstance,检查类型
10. 对象既有属性又有方法:obj.attribute_name 和getattr查询
11. “鸭子”类型:一般不会关心对象的类型,只是关心有没有某些方法或行为(例如具有迭代器协议,知道可以迭代)
12. 引入模块(module):一个含有函数和变量定义以及其他.py文件的引入,import some_module ;from some_module import f,g,PI; import some_module as sm ;from some_module import PI as pi……
13. 大部分Python对象是可变的,对象或者值是可以修改,而字符串和元组是不可变的,需要注重不可变(有强烈的副作用)
14. 标量类型:None/str/Unicode/float/bool/int/long
15. 3/2=1.5(保留一个浮点数)3//2=1(圆整)
16. 字符串既可以’’也可以“”,换行字符串用三重引号,字符串是不可变,要修改必须创建新的。
17. 字符串是一串字符序列,可以当做序列处理,字符串可以相加。%表示带插入值的目标
18. None不是一个保留关键字,他只是NoneType的一个实例而已
19. datetime/date/time;strtime用于将datetime格式化为字符串,字符串可以通过strptime函数解析为datetime
20. for循环用于对集合(比如列表或元组)或迭代器进行迭代:for value in collection/continue/break
21. pass是“空操作”语句
22. 异常处理: try/except/finally
23. range/xrange(非常长的范围),产生一组间隔平均的整数
24. 三元表达式:value=true-expr if condition else false-expr
数据结构和序列:
1, 元组
? 一维的,定长的不可变的Python对象序列,复杂的元组用圆括号,元组组成的元组
? 调用tuple,任何序列或迭代器都可以转换成元组。
? 访问元组通过[],访问
? 元组虽不可变,但是可以:tup[1].append(3)
? 可以用+连接元组,可以*4,相当于生成4个连接在一起的元组副本
? 元组拆包:元组型变量表达式赋值:tup=(4,5,6);a,b,c=tup;b=5
? 元组拆包可以交换变量名,可以用于元组或类别组成的序列进行迭代
? 元组:Count:指定值出现的次数
2, 列表
? 列表是变长的,可修改的,用[]或list函数表示:b_list[1]=‘peekaboo’,将b的列表第二个元素修改成制定字符串
? append:将元素添加到列表的末尾;insert将元素插入到列表的制定的位置;pop:移除指定位置元素;remove:按值删除元素;in:判断是否含有某个值
? +:合并列表,extend:添加多个元素
? sort(可选关键字:key=len):排序
? bisect:二分查找以及对有序列表的插入。bisect.bisect:找出新元素插入的位置并保持原有序列的有序性,bisect.insort:插入到具体的位置
? 切片:通过索引运算符[start:stop],[:5],[::2],[::-1],[-4:],[-6:-2]
? 内置的序列函数
1) enumerate:跟踪当前项的索引。for i,value in emumerate(colleciton)
2) sorted:可以返回一个新的有序列表
3) zip:将对各序列(列表,元组等)中的元素‘配对’,产生一个新的元组列表
4) reversed:逆序
3, 字典(dict):最重要的内置数据结构-hashmap/associative array
? 大小可变的键值对集,其中键(key)和(value)都是python对象,字典的方式:使用{}并用冒号分割键和值。例子:{'a’:’some value’,’b’:[1,2,3,4]}
? 使用del关键字或pop方法可以删除值
? 使用keys和values方法分布获取键和值的列表:d1.keys()
? Update方法:一个字典可以被合并到另一个字典去
? 从序列类型创建字典:maping=dict(zip(range(5)),reversed(range(5)))
? 默认值:value=some_dict.get(key,defalult_value); by_letter.setdefalult(letter,[]).append(word);内置collections模块中有defalutdict类,
? 字典键的有效类型,键必须是不可变对象,如标量类型(整数、浮点数、字符串)或元组(元组中的所有对象也必须是不可变的),术语:可哈希性(hashability),hash函数
4, 集合
? 集合是由唯一元素组成的无序集,创建用set函数或用大括号包起来的集合字面量
? 集合支持各种数学集合预算,如并、交、差以及对称差等
5, 列表、集合以及字典的推倒式
? 列表推导式:[expr for val in collection if condition]
? 字典的推导式:dict_comp={key-expr:value-expr for value in collection if condition}
? 集合推导式:set_comp={ expr for val in collection if condition }
? 嵌套列表推导式:多个for循环在一行
6, 函数
? 重要的代码组织和复用手段,def关键字声明的,并使用return关键字返回
? 位置参数(positional)和关键字参数(keyword):通常制定默认值或可选参数,位于位置参数之后
? 局部命名空间,函数都是某个作用域的局部函数,可以返回多个值。函数也是对象
? 匿名函数(lambda)
? 闭包:返回函数的函数,在一个外函数中定义了一个内函数,内函数里运用了外函数的临时变量,并且外函数的返回值是内函数的引用,外函数的临时变量将来会在内函数中用到,这个临时变量绑定给了内部函数。
? Func(a,b,c,d=some,e=value),函数接收的是一个元组args和一个字典kwargs,内部:a,b,c=args;d=kwargs.get(‘d’,d_default_value); e=kwargs.get(‘e’,e_default_value)
? Currying,部分参数应用:从现有函数派生出新函数的技术
? 生成器:能以一种一致的方式对序列进行迭代(比如列表中的对象或文件中的行)是它重要的特定,这是通过一种叫做迭代器协议(iterator protocol它是一种使对象可迭代的通用方式)的方式实现。要创建生成器,只需将函数中的return替换为yeild.
? 生成器表达式:也有一个类似于列表、字典、集合推导式的东西,其创建方式为,把列表推导式两端的方括号改成圆括号:gen=(x**2 for x in xrange(100))
? Itertools模块:其中有许多常见数据算法的生成器。例如:groupby可以接受任何序列和一个函数,根据函数的返回值对序列中的连续元素进行分组。
7, 文件和操作系统
? Pandas.read.csv读取数据文件
? Open
? Write/writelines
网友评论