异常值

大家可能看过体操或者跳水比赛，当计算运动员得分时，我们要去掉所有评分者打分的最高分和最低分，这是为了减少异常值对分数整体的干扰。比如，之前学习均值的时候，我们知道一组数据的均值会受异常值影响——异常值往往会大幅度拉高或者降低均值的水平。在此基础上，方差和标准差也受异常值影响。因此，为了使数据分析的结果更为稳定，我们有时需要去除数据集中的异常值。对于异常值的定义，并没有统一的标准，要具体情况具体分析。一般来说，我们会引入一个叫做 IQR 的概念（Interquartile Range），它是一组数据集中75分位数值减去25分位数值的差。我们一般认为在一组数据集中，小于（25分位值 - IQR1.5）或大于（75分位 + IQR 1.5）的数值为异常值。

来看具体的例子：

# 我们在之前 score 的列表里加入一个新的元素 2
score = [96,80,85,79,92,42,84,72,93,77,2]
# 求n分位函数
def find_nperc(numbers,n):
    """
    返回numbers中，n分位对应的数值是多少
    """
    # 先将数值排序 
    sorted_numbers = sorted(numbers)
    
    # 找到n分位对应数值的索引位置
    n_index = int(n/100 * len(sorted_numbers))
    
    return sorted_numbers[n_index]

# 25分位数值为 q1_num
q1_num = find_nperc(score,25)
print(q1_num)
# 输出：72

# 75分位数值为 q3_num
q3_num = find_nperc(score,75)
print(q3_num)
# 输出：92

# 计算 IQR
iqr = q3_num - q1_num
print(iqr)
# 输出：20

# 如果 score 中有元素小于 [25分位 - iqr *1.5] 
# 或者大于 [75分位 + iqr * 1.5]
# 则将该元素视作异常值，输出该元素

for s in score:
    if s < (q1_num - iqr * 1.5) or s > (q3_num + iqr * 1.5):
        print("{}是异常值".format(s))
# 输出：2是异常值

空值

有时因为数据源的问题，我们获得的数据集是有瑕疵的。最常见的问题就是有部分“漏掉”的数据，也就是空值。一般来说，在数据分析领域有两种常见的解决方案：一是删除空值，二是将数据集非空值的均值赋予空值。两种方法各有优劣，但此处我们不是讨论的重点。我们在这里需要掌握的，是如何用 Python 对空值数据做上述两种处理：

# score 中存储两次学生的 python 考试成绩 
score = {    
    "老王" : [96,77],
    "阿强" : [80,93],
    "小宝" : [85,72],
    "" : [79,84],
    "萌仔" : [],
    "张小明" : [76,42]
    }
# 我们发现，其中有两处空值：一处本应该是学生的姓名，结果是空字符串，我们打算将该条数据删除；
# 一处是萌仔的成绩为空列表，我们打算将第一次、第二次考试成绩的均值作用萌仔的成绩添加进列表

# 先删除学生名为空字符串的数据
score.pop("","没有空字符串")
print(score)
# 输出：{'老王': [96, 77], '阿强': [80, 93], '小宝': [85, 72], '萌仔': [], '张小明': [76, 42]}

# 接着将第一、二次的考试均分添加至萌仔的成绩列表里：
exam_1 = 0
exam_2 = 0
count = 0
for value in score.values():
    if value == []:
        count += 1
    else:
        exam_1 += value[0]
        exam_2 += value[1]
# mean_1，mean_2 为两次考试非空值均分
mean_1 = exam_1 / (len(score) - count)
mean_2 = exam_2 / (len(score) -count)
for value in score.values():
    # 如果分数列表为空
    if value == []:
        value.append(mean_1)
        value.append(mean_2)
print(score)

数据调整

最后一种常见的清洗数据方式是将已有数据调整成我们需要的类型或单位。比如，有时我们获得了记录时间的数据是字符串 "1小时3分12秒"，我们需要将它改变成以秒为单位的整数类型数据。又有时，我们获得的是以美元为单位的价格数据，我们需要结合汇率比例，将其转换成以人民币为单位的价格。这些都属于数据调整的范畴：

# score 中记录了学生的 python 考试成绩
score = [96,80,85,79,92,42,84,72,93,77]

"""
我们按照以下标准，将其中的整数数据转化成字符串：

90分及以上，转换成："A"；
80~89分，转换成："B"；
70~79分，转换成："C"；
60~69分，转换成："D"；
60分以下，转换成："F"
"""

update_score = []
for s in score:
    if s >= 90:
        update_score.append("A")
    elif s >= 80:
        update_score.append("B")
    elif s >= 70:
        update_score.append("C")
    elif s >= 60:
        update_score.append("D")
    elif s < 60:
        update_score.append("F")
print(update_score)
# 输出：['A', 'B', 'B', 'C', 'A', 'F', 'B', 'C', 'A', 'C']