一. 数据源介绍
1.1 数据源特征介绍
Time: 交易时间
V1-V28: 28个特征值,考虑信息安全,都进行了处理
Amout: 交易金额
class : 0代表正常,1代表异常
image.png
image.png
1.2 数据源分布情况概述
代码:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
data = pd.read_csv("E:/file/creditcard.csv")
# 直接使用pandas进行画图
count_classes = pd.value_counts(data['Class'], sort = True).sort_index()
count_classes.plot(kind = 'bar')
plt.title("Fraud class histogram")
plt.xlabel("Class")
plt.ylabel("Frequency")
print(count_classes)
plt.show()
测试记录:
0 284315
1 492
结论:
我们可以看到 正常的交易数据有2.8w左右数据,异常的交易数据有492,与真实情况类似。
二. 目标
我们需要通过分析样例数据,通过逻辑回归构建一个模型,对新增的交易数据进行预测,如果觉得是可疑的数据,则进行提醒。
网友评论