是不是总是因为Pandas严格的数据结构要求让你感受到很苦恼?是不是实现一个简单的操作也要查阅很多的文档而头疼?
DaPy来解放你啦!你可以用DaPy流利地实现脑子早已思索好的想法,不要再因为找不到API或者数据格式报错而打断你的思路!
DaPy是一个从设计开始就非常关注易用性的数据分析框架,它专为数据分析师而设计,而不是程序员。对于数据分析师而言,你的价值是解决问题思路!而不是害得你996的几百行代码!
DaPy有多友好?
1. 多种在CMD中呈现数据的方式
不要小看浏览数据的方式!对于数据分析师而言,感知数据是非常重要的!



2. 符合人们习惯的二维数据表结构
按行处理数据是符合我们每一个人想法的,因此几乎所有的数据库设计都是按照按行存储的。由于Pandas最早是为了处理时间序列数据而开发的,所以他的数据是以列进行的存储。即使这种存储方式表现出了不错的性能,但相对的是在没优化情况下行操作的低效性。由于没有什么更好的替代品,人们不得不花很多时间去适应Pandas的编程思维。比如,Pandas不支持对于DataFrame.iterrows()迭代出来的行进行赋值操作。这个功能非常常用而且有效,在NumPy中也是原生支持的功能在Pandas里却是被禁止的。
针对这类由行操作引发的问题,DaPy通过引入“视图”的概念重新优化了按行操作这个符合人们习惯的方式。

3. 对了,听说有人喜欢链式表达?
让我们来做一个稍微有趣点的链式表达! 我希望对于经典的鸢尾花数据集在一行代码中完成下面的6个操作。
(1)对于每一列数据分别进行标准化操作;
(2)然后找到在标准化以后满足sepal length小于petal length的记录;
(3)对于筛选出来的数据集按照鸢尾花的类别class进行分组;
(4)对于每个分组都按照petal width进行升序排序;
(5)对于排好序后的分组选取前10行记录;
(6)对于每个由前十行记录构成的子数据集进行描述性统计;




4. 一些numpy和pandas优良的特性他也保留了

除了语法特性上的优化,还有没有其他的硬家伙?
1. 超级NB的、鲁棒性极强的I/O工具!
我们都会遇到过一个问题,怎么把csv转换成Excel;或者反过来,Excel转回csv?

你以为read函数就这点水平吗?让我们来看看更骚的!

2. 支持超级多的数据预处理或者特征工程的操作
先来一些数据预处理的

再来一些特征工程的

3. 最最后,重中之重,机器学习模块!
在DaPy里面,已经内置了四个模型,分别是线性回归、逻辑回归、多层感知机和C4.5决策树。在模型这一块的话,DaPy的开发团队认为sklearn和tensorflow已经做得很好了。出于开发团队主要成员是统计系学生的关系,他们的思路是增加更多的统计学检验报告~我们先看看一个demo级别的样例好了

网友评论