Python和R的异同(一)

作者: xuzhougeng | 来源:发表于2017-07-01 11:03 被阅读0次

    <- 对应R, = 对应Python

    1. R语言基本数据结构是向量,支持向量化操作。Python不支持向量化
    2. R和Python都是面向对象编程的语言。所以不同的类都各自的方法

    R的向量矩阵数组与Python的列表

    R语言的核心是向量,向量内的数据类型必须相同,也就是mode只会输出一个结果,如果向量里存在不同数据类型,那么R会以数据损失最小的转换方法让最后结果保持一致。
    比如说:

    a <- c(1,2,3,4,5)
    b <- c(1,2,'3',4, True)
    

    a和b的mode肯定是不同,mode(a)的结果是numeric, mode(b)结果会是character.

    R语言里的所有函数就支持向量化操作, 比如说数学运算符和各类函数

    a + 1
    [1] 2 3 4 5
    

    R语言里面是没有标量的,标量被R当作一个元素的向量。Python里面的数据类型是可以单个存放的。所以从输出结果长的像角度上,Python和R语言的向量看起来相同的数据结构应该是列表(list)。list在Python里面序列类型,同类型的还有元祖(tuple)和范围(range)

    a = [1,2,3,4,'b']
    

    不过只是在结构上看起来相似,Python不支持向量化操作,所以企图直接a+1是会出错的,即便里面都是数值型数据

    a = [1,2,3,4,5]
    a + 1
    # TypeError: can only concatenate list (not "int") to list
    a + ['b','c']
    # [1, 2, 3, 4, 5, 'b', 'c']
    

    就我目前的眼界,能想到实现R语言那样的整体运算,在Python里面就是列表推导式了。

    [i + 2 for i in a]
    

    既然长的像,所以就要看看有哪些运算是共同的。

    取值

    虽然Python和R都可以用[]从数据结构中提取数据,但还是有很大区别。最最要的一个区别就是Python从0开始下标, R从1开始下标。

    一维数据

    提取一元数据时,如果只提取一个数据两者差不多是相同的;

    # 提取第一个元素
    ## R
    a <- c(1,2,3,4,5,6)
    a[1]
    ## Python
    a = [1,2,3,4,5,6]
    a[0]
    
    

    如果要提取多个数据就存在差异了。比如说Python就只能选取连续的几个值,要么分别取值。R语言可以在[]中提供一组包含位置信息的向量。R语言的[]可以存放Boolean向量,Python里面就需要用列表推导式,循环进行逻辑比较。

    # R
    a[c(1,3)]
    a[which(a > 2)]
    a[ a > 1 & a < 4]
    
    # Python
    a[1];a[3]
    [i for i in a if i >1 and i <4]
    

    但是一般而言,我们也不会专门选择几个数值,基本都是根据逻辑判断结果选择一组符合要求的数据。

    多维数据

    R语言的矩阵和数组结构有专门的结构,matrix和array,但是基础还是向量。在Python里则是通过列表嵌套的方式实现。

    # R matrix 看作三个向量按列排
    mdat <- matrix(c(1,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE,
                   dimnames = list(c("row1", "row2"),
                                   c("C.1", "C.2", "C.3")))
    
    # Python matrix
     a= [[1,2,3],[4,5,6]]
    
    # R 三维数组
    d3 <- array(1:24, c(2,3,4))
    # Python三维数组
    d3 = [[[1,3,5],[2,4,6]],[[7,9,11],[8,10,12]],[[19,21,23],[20,22,24]]]
    

    多维数据的提取和赋值也是有不大不小的区别,一个是[x,y,z],一个是[z][y][x]。R从里到外,Python从外到里(我是这样理解的)。尝试分别从Pyhon和R里面提取同一个数据

    # R
    d3[1,2,2]
    d3[1,2,2] <- 0
    # Python
    d3[1][0][1]
    d3[1][0][1] <- 0
    

    如果想提取全部第二维度的数据

    # R
    d3[,,2]
    # Python
    d3[1]
    

    函数

    在函数用法上,两者的差异就真的是很大了。结果就是有段时间只用R,然后按照R的习惯用Python,基本上都出error。比如说对刚才的三维数据求和

    # R
    sum(d3)
    # Ptyhon
    sum(d3)
    TypeError: unsupported operand type(s) for +: 'int' and 'list'
    

    原因是R里面是向量化操作,直接对所有元素进行运算。在Python里面,sum函数会对list里面的各个元素进行求和, 而d3的内一层还是一个列表,所以就会出错了。
    最直观的方法就是看看R和Python的多维数组的元素数量:

    # R
    length(d3) 
    24
    # Python
    len(d3); d3.__len__()
    3
    

    因此R和Python的函数只能在一维上存在相似性,超过一维基本用一个错一个。

    Python作为一门面向对象编程语言,对于每一种列都有专门的方法,这个方法可以用dir()进行查看。

    在R里面dir()是用来查看当前目录下的文件。

    dir(list)
    ['__add__', '__class__','__contains__',
     '__delattr__', '__delitem__', '__dir__', '__doc__',
     '__eq__', '__format__',  '__ge__', '__getattribute__',
     '__getitem__', '__gt__', '__hash__', '__iadd__',
     '__imul__', '__init__',  '__init_subclass__',
     '__iter__', '__le__',  '__len__', '__lt__',
     '__mul__', '__ne__',  '__new__', '__reduce__',
     '__reduce_ex__', '__repr__',  '__reversed__', '__rmul__',
     '__setattr__', '__setitem__',  '__sizeof__', '__str__',
     '__subclasshook__',  'append', 'clear',
     'copy',  'count', 'extend',
     'index', 'insert', 'pop', 'remove', 'reverse', 'sort']
    

    所以Python里面经常会遇到d3.pop()这种调用类方法的形式。在R语言里则是函数的多态性,prin是其中一个多态性函数,它提供了一个接口,根据输入数据类型调用相应的函数

    # R
    print
    # function (x, ...) 
    # UseMethod("print")
    # <bytecode: 0x000000001456fbf0>
    # <environment: namespace:base>
    

    可以用methods(print)看具体有那些具体函数。

    相关文章

      网友评论

        本文标题:Python和R的异同(一)

        本文链接:https://www.haomeiwen.com/subject/fomwcxtx.html