美文网首页xarrayPython与大气科学
Python气象数据处理进阶之Xarray(6):数据重组与换形

Python气象数据处理进阶之Xarray(6):数据重组与换形

作者: 摸鱼咯 | 来源:发表于2020-04-24 11:07 被阅读0次

    这一部分涉及到了常用的操作,比如调换维度的位置,给数据重新reshape换形等等,建议大家可以认真阅读这部分。
    老样子,先新建一个数组

    ds = xr.Dataset({'wind': (('time', 'lat', 'lon'), [[[42]]]), 'temperature': (('lat', 'lon'), [[24]])})
    print(ds)
    #<xarray.Dataset>
    #Dimensions:      (lat: 1, lon: 1, time: 1)
    #Dimensions without coordinates: lat, lon, time
    #Data variables:
    #    wind         (time, lat, lon) int64 42
    #    temperature  (lat, lon) int64 24
    

    ex1调换维度顺序

    比如说在求某个东西时需要将时间维放在最后一维,但是数据本身的时间在第一维,那么便可以用到这个操作。
    第一种是精准换位,指定每个维度的位置

    print(ds.transpose('lat', 'lon', 'time'))
    #<xarray.Dataset>
    #Dimensions:      (lat: 1, lon: 1, time: 1)
    #Dimensions without coordinates: lat, lon, time
    #Data variables:
    #    wind         (lat, lon, time) int64 42
    #    temperature  (lat, lon) int64 24
    

    第二种是单独换位,只对指定维度换位,将time放在最后,其余不变

    print(ds.transpose(..., 'time'))
    

    第三种为全部换位,相当于数组转置

    print(ds.transpose())
    

    ex2数组扩展与压缩

    扩展指增加一个维度,压缩指将一个维度挤压掉

    expanded  = ds.expand_dims('level')
    print(expanded)
    #<xarray.Dataset>
    #Dimensions:      (lat: 1, level: 1, lon: 1, time: 1)
    #Dimensions without coordinates: lat, level, lon, time
    #Data variables:
    #    wind         (level, time, lat, lon) int64 42
    #    temperature  (level, lat, lon) int64 24
    
    print(expanded.squeeze('level'))
    #<xarray.Dataset>
    #Dimensions:      (lat: 1, lon: 1, time: 1)
    #Dimensions without coordinates: lat, lon, time
    #Data variables:
    #    wind         (time, lat, lon) int64 42
    #    temperature  (lat, lon) int64 24
    

    官方文档中接下来有一段是关于DataArray向DataSet转换的,个人感觉放在这一章节并不合理,我后边会整理放进Python气象数据处理进阶之Xarray(1)中(我觉得两种基础数据结构以及互相转换应该最开始介绍的)。所以接下来跳过这部分。

    ex3堆叠与拆分

    个人感觉可能处理站点数据会用到这个方法
    换一个数组演示

    dr = xr.DataArray(np.random.randn(2, 3),coords=[('country', ['a', 'b']), ('lat', [10, 20, 30])])
    print(dr)
    #<xarray.DataArray (country: 2, lat: 3)>
    #array([[ 0.29837508,  0.27556996,  0.51204495],
    #       [-0.15700884,  0.72290308, -1.63887609]])
    #Coordinates:
    #  * country  (country) <U1 'a' 'b'
    #  * lat      (lat) int64 10 20 30
    

    现在将这个2维数组堆叠成1维

    print(dr.stack(z=('country', 'lat')))
    #<xarray.DataArray (z: 6)>
    #array([ 0.29837508,  0.27556996,  0.51204495, -0.15700884,  0.72290308,
    #       -1.63887609])
    #Coordinates:
    #  * z        (z) MultiIndex
    #  - country  (z) object 'a' 'a' 'a' 'b' 'b' 'b'
    #  - lat      (z) int64 10 20 30 10 20 30
    

    也可以拆分,其实就是反堆叠

    stacked = dr.stack(z=('country', 'lat'))
    print(stacked.unstack('z'))
    #<xarray.DataArray (country: 2, lat: 3)>
    #array([[ 0.29837508,  0.27556996,  0.51204495],
    #       [-0.15700884,  0.72290308, -1.63887609]])
    #Coordinates:
    #  * country  (country) object 'a' 'b'
    #  * lat      (lat) int64 10 20 30
    

    最重要的是不同于Pandas,Xarray的stack不缺自动丢失缺测值!!!
    Xarray还提供了将不同变量stack的例子,有兴趣的可以去看看。这个用法感觉比较鸡肋

    ex4 设置与重设索引

    da = xr.DataArray(np.random.rand(4),
                      coords={'band': ('x', ['a', 'a', 'b', 'b']), 'wavenumber': ('x', np.linspace(200, 300, 4))},dims='x')
    print(da)
    #<xarray.DataArray (x: 4)>
    #array([0.37036232, 0.34338772, 0.49457694, 0.50916783])
    #Coordinates:
    #    band        (x) <U1 'a' 'a' 'b' 'b'
    #    wavenumber  (x) float64 200.0 233.3 266.7 300.0
    #Dimensions without coordinates: x
    mda = da.set_index(x=['band', 'wavenumber'])
    print(mda)
    #<xarray.DataArray (x: 4)>
    #array([0.15970166, 0.89733114, 0.25545876, 0.27371103])
    #Coordinates:
    #  * x           (x) MultiIndex
    #  - band        (x) object 'a' 'a' 'b' 'b'
    #  - wavenumber  (x) float64 200.0 233.3 266.7 300.0
    

    这块比较难理解,建议还是先读第一篇文章,弄清数据结构,da数组显示Dimensions without coordinates: x,而通过da.set_index函数,将X设置为混合索引号。
    之后便可以实线自由索引:

    print(mda.sel(band='a'))
    #<xarray.DataArray (wavenumber: 2)>
    #array([0.15970166, 0.89733114])
    #Coordinates:
    #  * wavenumber  (wavenumber) float64 200.0 233.3
    

    通过mda.reset_index('x')重置。
    reorder_levels()函数允许调换索引顺序(个人感觉比较鸡肋)

    mda.reorder_levels(x=['wavenumber', 'band'])
    

    ex5数组滑动

    这小节应该是这篇文章和数组换形换维同等重要的。

    array = xr.DataArray([1, 2, 3, 4], dims='x')
    print(array)
    #<xarray.DataArray (x: 4)>
    #array([1, 2, 3, 4])
    #Dimensions without coordinates: x
    print(array.shift(x=2))
    #<xarray.DataArray (x: 4)>
    #array([nan, nan,  1.,  2.])
    #Dimensions without coordinates: x
    print(array.roll(x=2, roll_coords=True))
    #<xarray.DataArray (x: 4)>
    #array([3, 4, 1, 2])
    #Dimensions without coordinates: x
    

    这就是对数组进行滚动。这个的作用主要在于做差分计算。虽然前边讲过Xarray提供了中央差计算函数,但是仍需要更灵活的操作,滚动函数就实现了这个目的。

    相关文章

      网友评论

        本文标题:Python气象数据处理进阶之Xarray(6):数据重组与换形

        本文链接:https://www.haomeiwen.com/subject/malxwhtx.html