美文网首页
python基本常识

python基本常识

作者: ferdinand_hx | 来源:发表于2017-12-20 17:41 被阅读0次

    Python的语法格式

    Python是一种计算机编程语言,有着自己的一套语法格式。Python的语法格式非常简单,采用缩进的方式:

    # print absolute value of an integer:
    a = 100
    if a >= 0:
        print(a)
    else:
        print(-a)
    
    • #开头的语句是注释,解释器会自动忽略。
    • 当语句以结束时,缩进的语句视为代码块。

    缩进有利有弊,好处是强迫你写出格式化的代码,但没有规定缩进是几个空格还是tab。按照约定俗成的习惯,应该使用4个空格的缩进。
    缩进的另一个好处是强迫你写出缩进较少的代码,你会倾向于把很长的一段代码拆分成若干函数,从而得到缩进较少的代码。
    缩进的坏处就是“复制-粘贴”功能失效了,当我们重构代码时,粘贴过去的代码必须重新检查缩进是否正确。此外,IDE很难像Java代码那样格式化Python代码。

    • Python程序是大小写敏感的,如果写错了大小写,程序会报错。

    Python的数据类型

    在Python中,能够直接处理的数据类型有以下几种:

    整数

    Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如:1100-80800,等等。

    计算机由于使用二进制,所以,有时候用十六进制表示整数比较方便,十六进制用0x前缀和0-9a-f表示,例如:0xff000xa5b4c3d2,等等。

    浮点数

    浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时,一个浮点数的小数点位置是可变的,比如,1.23x109和12.3x108是完全相等的。浮点数可以用数学写法,如1.233.14-9.01,等等。但是对于很大或很小的浮点数,就必须用科学计数法表示,把10e替代,1.23x109就是1.23e9,或者12.3e80.000012可以写成1.2e-5,等等。

    整数和浮点数在计算机内部存储的方式是不同的,整数运算永远是精确的(除法难道也是精确的?是的!),而浮点数运算则可能会有四舍五入的误差。

    字符串

    字符串是以单引号'或双引号"括起来的任意文本,比如'abc'"xyz"等等。请注意,''""本身只是一种表示方式,不是字符串的一部分,因此,字符串'abc'只有a,b,c这3个字符。如果'本身也是一个字符,那就可以用""括起来,比如"I'm OK"包含的字符是I,',m,空格,O,K这6个字符。

    如果字符串内部既包含'又包含"怎么办?可以用转义字符\来标识,比如:

    'I\'m \"OK\"!'
    

    表示的字符串内容是:

    I'm "OK"!
    

    转义字符\可以转义很多字符,比如\n表示换行,\t表示制表符,字符\本身也要转义,所以\\表示的字符就是\,可以在Python的交互式命令行用print()打印字符串看看:

    >>> print('I\'m ok.')
    I'm ok.
    >>> print('I\'m learning\nPython.')
    I'm learning
    Python.
    >>> print('\\\n\\')
    \
    \
    

    如果字符串里面有很多字符都需要转义,就需要加很多\,为了简化,Python还允许用r''表示''内部的字符串默认不转义,可以自己试试:

    >>> print('\\\t\\')
    \       \
    >>> print(r'\\\t\\')
    \\\t\\
    

    如果字符串内部有很多换行,用\n写在一行里不好阅读,为了简化,Python允许用'''...'''的格式表示多行内容,可以自己试试:

    >>> print('''line1
    ... line2
    ... line3''')
    line1
    line2
    line3
    

    上面是在交互式命令行内输入,注意在输入多行内容时,提示符由>>>变为...,提示你可以接着上一行输入。如果写成程序,就是:

    print('''line1
    line2
    line3''')
    

    多行字符串'''...'''还可以在前面加上r使用,请自行测试。

    布尔值

    布尔值和布尔代数的表示完全一致,一个布尔值只有True、False两种值,要么是True,要么是False,在Python中,可以直接用True、False表示布尔值(请注意大小写),也可以通过布尔运算计算出来:

    >>> True
    True
    >>> False
    False
    >>> 3 > 2
    True
    >>> 3 > 5
    False
    

    布尔值可以用and、or和not运算。

    and运算是与运算,只有所有都为True,and运算结果才是True:

    >>> True and True
    True
    >>> True and False
    False
    >>> False and False
    False
    >>> 5 > 3 and 3 > 1
    True
    

    or运算是或运算,只要其中有一个为True,or运算结果就是True:

    >>> True or True
    True
    >>> True or False
    True
    >>> False or False
    False
    >>> 5 > 3 or 1 > 3
    True
    

    not运算是非运算,它是一个单目运算符,把True变成False,False变成True:

    >>> not True
    False
    >>> not False
    True
    >>> not 1 > 2
    True
    

    布尔值经常用在条件判断中,比如:

    if age >= 18:
        print('adult')
    else:
        print('teenager')
    

    空值

    空值是Python里一个特殊的值,用None表示。None不能理解为0,因为0是有意义的,而None是一个特殊的空值。

    此外,Python还提供了列表、字典等多种数据类型,还允许创建自定义数据类型,我们后面会继续讲到。

    变量

    变量的概念基本上和初中代数的方程变量是一致的,只是在计算机程序中,变量不仅可以是数字,还可以是任意数据类型。

    变量在程序中就是用一个变量名表示了,变量名必须是大小写英文、数字和_的组合,且不能用数字开头,比如:

    a = 1
    

    变量a是一个整数。

    t_007 = 'T007'
    

    变量t_007是一个字符串。

    Answer = True
    

    变量Answer是一个布尔值True。

    在Python中,等号=是赋值语句,可以把任意数据类型赋值给变量,同一个变量可以反复赋值,而且可以是不同类型的变量,例如:

    a = 123 # a是整数
    print(a)
    a = 'ABC' # a变为字符串
    print(a)
    

    这种变量本身类型不固定的语言称之为动态语言,与之对应的是静态语言。静态语言在定义变量时必须指定变量类型,如果赋值的时候类型不匹配,就会报错。例如Java是静态语言,赋值语句如下(// 表示注释):

    int a = 123; // a是整数类型变量
    a = "ABC"; // 错误:不能把字符串赋给整型变量
    

    和静态语言相比,动态语言更灵活,就是这个原因。

    请不要把赋值语句的等号等同于数学的等号。比如下面的代码:

    x = 10
    x = x + 2
    

    如果从数学上理解x = x + 2那无论如何是不成立的,在程序中,赋值语句先计算右侧的表达式x + 2,得到结果12,再赋给变量x。由于x之前的值是10,重新赋值后,x的值变成12。

    最后,理解变量在计算机内存中的表示也非常重要。当我们写:

    a = 'ABC'
    

    时,Python解释器干了两件事情:

    在内存中创建了一个'ABC'的字符串;

    在内存中创建了一个名为a的变量,并把它指向'ABC'。

    也可以把一个变量a赋值给另一个变量b,这个操作实际上是把变量b指向变量a所指向的数据,例如下面的代码:

    a = 'ABC'
    b = a
    a = 'XYZ'
    print(b)
    

    常量

    所谓常量就是不能变的变量,比如常用的数学常数π就是一个常量。在Python中,通常用全部大写的变量名表示常量:

    PI = 3.14159265359
    

    但事实上PI仍然是一个变量,Python根本没有任何机制保证PI不会被改变,所以,用全部大写的变量名表示常量只是一个习惯上的用法,如果你一定要改变变量PI的值,也没人能拦住你。

    最后解释一下整数的除法为什么也是精确的。在Python中,有两种除法,一种除法是/:

    >>> 10 / 3
    3.3333333333333335
    

    /除法计算结果是浮点数,即使是两个整数恰好整除,结果也是浮点数:

    >>> 9 / 3
    3.0
    

    还有一种除法是//,称为地板除,两个整数的除法仍然是整数:

    >>> 10 // 3
    3
    

    你没有看错,整数的地板除//永远是整数,即使除不尽。要做精确的除法,使用/就可以。

    因为//除法只取结果的整数部分,所以Python还提供一个余数运算,可以得到两个整数相除的余数:

    >>> 10 % 3
    1
    

    无论整数做//除法还是取余数,结果永远是整数,所以,整数运算结果永远是精确的。

    字符串和编码

    在最新的Python 3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言,例如:

    >>> print('包含中文的str')
    包含中文的str
    

    对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

    >>> ord('A')
    65
    >>> ord('中')
    20013
    >>> chr(66)
    'B'
    >>> chr(25991)
    '文'
    

    如果知道字符的整数编码,还可以用十六进制这么写str:

    >>> '\u4e2d\u6587'
    '中文'
    

    两种写法完全是等价的。

    由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes。

    Python对bytes类型的数据用带b前缀的单引号或双引号表示:

    x = b'ABC'
    

    要注意区分'ABC'和b'ABC',前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节。

    以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如:

    >>> 'ABC'.encode('ascii')
    b'ABC'
    >>> '中文'.encode('utf-8')
    b'\xe4\xb8\xad\xe6\x96\x87'
    >>> '中文'.encode('ascii')
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
    UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)
    

    纯英文的str可以用ASCII编码为bytes,内容是一样的,含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错。

    在bytes中,无法显示为ASCII字符的字节,用\x##显示。

    反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:

    >>> b'ABC'.decode('ascii')
    'ABC'
    >>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
    '中文'
    

    要计算str包含多少个字符,可以用len()函数:

    >>> len('ABC')
    3
    >>> len('中文')
    2
    

    len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数:

    >>> len(b'ABC')
    3
    >>> len(b'\xe4\xb8\xad\xe6\x96\x87')
    6
    >>> len('中文'.encode('utf-8'))
    6
    

    可见,1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节。

    在操作字符串时,我们经常遇到str和bytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换。

    由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:

    #!/usr/bin/env python3
    # -*- coding: utf-8 -*-
    

    第一行注释是为了告诉Linux/OS X系统,这是一个Python可执行程序,Windows系统会忽略这个注释;

    第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。

    申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的,必须并且要确保文本编辑器正在使用UTF-8 without BOM编码.
    如果.py文件本身使用UTF-8编码,并且也申明了# -- coding: utf-8 --,打开命令提示符测试就可以正常显示中文。

    格式化

    最后一个常见的问题是如何输出格式化的字符串。我们经常会输出类似'亲爱的xxx你好!你xx月的话费是xx,余额是xx'之类的字符串,而xxx的内容都是根据变量变化的,所以,需要一种简便的格式化字符串的方式。

    py-str-format
    

    在Python中,采用的格式化方式和C语言是一致的,用%实现,举例如下:

    >>> 'Hello, %s' % 'world'
    'Hello, world'
    >>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)
    'Hi, Michael, you have $1000000.'
    

    你可能猜到了,%运算符就是用来格式化字符串的。在字符串内部,%s表示用字符串替换,%d表示用整数替换,有几个%?占位符,后面就跟几个变量或者值,顺序要对应好。如果只有一个%?,括号可以省略。

    常见的占位符有:

    %d  整数
    %f  浮点数
    %s  字符串
    %x  十六进制整数
    

    其中,格式化整数和浮点数还可以指定是否补0和整数与小数的位数:

    >>> '%2d-%02d' % (3, 1)
    ' 3-01'
    >>> '%.2f' % 3.1415926
    '3.14'
    

    如果你不太确定应该用什么,%s永远起作用,它会把任何数据类型转换为字符串:

    >>> 'Age: %s. Gender: %s' % (25, True)
    'Age: 25. Gender: True'
    

    有些时候,字符串里面的%是一个普通字符怎么办?这个时候就需要转义,用%%来表示一个%:

    >>> 'growth rate: %d %%' % 7
    'growth rate: 7 %'
    

    相关文章

      网友评论

          本文标题:python基本常识

          本文链接:https://www.haomeiwen.com/subject/arfnwxtx.html