关于拉格朗日插值法,参考:
数据集
加载我们的数据集
data_path = r'D:\OneDrive\python\datasets\python_data_analysis_and_mining_action-master\chapter4\data\catering_sale.xls'
df = pd.read_excel(data_path)
data:image/s3,"s3://crabby-images/f2596/f259676a09dd472122b8498a5d359d76d022c2ea" alt=""
这个是每天的销量数据
缺失值
前面我们知道,对于缺失值的处理,我们可以使用插值法来填补数据
我们得先看看有多少缺失值
df.isna().sum()
data:image/s3,"s3://crabby-images/3fb22/3fb223ec5146c476eb01173b2292a5a8d76a783d" alt=""
这里只有1条缺失值数据
df[df['销量'].isna()]
data:image/s3,"s3://crabby-images/87f8d/87f8d83f69a1837a3ff7194f4b3b274d82766cf1" alt=""
拉格朗日插值法
我们找到缺失值了,下面就该调用函数使用了
先回顾一下,怎么使用,首先我们要知道变量X和变量Y
因为我们的缺失值是销量,所以变量Y就是已知的销量
X的话,可以是索引
前面提过,元素个数不要太多,因为这个scipy中的lagrange函数并不稳定
至于到底选取几个,我暂时没有什么概念,书中取的是10,我这里也取10吧,前面取5个,后面取5个,共10个值
df2 = df.query('9<=index<14 or 15<=index<19')['销量']
data:image/s3,"s3://crabby-images/b3f6b/b3f6bfc48a11095822be986f30b71534f76c4158" alt=""
这里我其实有一个疑问,就是X的值如何取?
书中是使用的下标,也就是index的值
x = df2.index.values
y = df2.values
data:image/s3,"s3://crabby-images/e7857/e78576678fa1dc3a5a0f11e63aa9b9309fdfea00" alt=""
调用拉格朗日函数
rs = lagrange(x,y)
print(rs)
data:image/s3,"s3://crabby-images/778c3/778c3e4120658b6eb0c23cc207d2b653cfe0ef52" alt=""
最后,看看我们的缺失值是多少呢?
rs(14)
data:image/s3,"s3://crabby-images/24edd/24edda8397a9860a44ba5dadcc6d0805cb5f619d" alt=""
这里得出来是3831,这个数据靠不靠谱呢?
先从我们的区间中看看:
data:image/s3,"s3://crabby-images/f16b1/f16b1930617ca42ae73d05374a90b5126eb03ca2" alt=""
3831看上去还可以,而且呢,因为我们还有一个日期字段,也可以结合星期看看
df['星期几'] = df['日期'].dt.weekday_name
df.query('星期几=="Saturday"')
data:image/s3,"s3://crabby-images/98cb7/98cb7fcabe1d50a85462d766898b6ab60b921d22" alt=""
好像也可以接受呢
最后呢,我们要回顾一下,我们都做了些什么,我们是一步一步处理的,但是实际情况下,我们不会手工的去看缺失值在哪里,我们需要用代码去筛选出缺失值,并且将最后的值插回数据集中,思考一下,如何自动化?
网友评论