美文网首页
数据挖掘实践任务1

数据挖掘实践任务1

作者: 乌和兔 | 来源:发表于2019-08-06 17:25 被阅读0次

任务1 - 数据分析(2天)

说明:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 "status" 是结果标签:0表示未逾期,1表示逾期。

要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置2018

任务1:对数据进行探索和分析。时间:2天

  • 数据类型的分析
  • 无关特征删除
  • 数据类型转换
  • 缺失值处理
  • ……以及你能想到和借鉴的数据分析处理

我的结果

主要步骤
1.删除重复行;
2.无关特征删除: 删除无关信息列,删除值全一致的列;
3.数据类型转换:利用pandas实现one hot encode的方式,转换枚举类型的object为int;
4.缺失值处理:有特殊含义填0或1,没有特殊含义填众数;
5.切分数据:测试集30%,训练集70%,随机种子设置2018;

#!/usr/bin/python
# -*- coding:utf-8 -*-
from sklearn.model_selection import train_test_split
import pandas as pd
data = pd.read_csv('data.csv', encoding='gbk')


# 1.删除重复行;
data_clean = data.drop_duplicates()

# 2.无关特征删除: 删除无关信息列,删除值全一致的列;
drop_columns = ['Unnamed: 0', 'trade_no', 'id_name', 'bank_card_no',
             'query_org_count', 'query_finance_count', 'query_cash_count', 'latest_query_time', ]

for data_col in data.columns:
    if len(data[data_col].unique()) == 1 and data_col not in drop_columns:
        drop_columns.append(data_col)

data_clean = data_clean.drop(drop_columns, axis=1)

# 3.数据类型转换:利用pandas实现one hot encode的方式,转换枚举类型的object为int;
data_clean = pd.get_dummies(data_clean, columns=['reg_preference_for_trad'])

# 4.缺失值处理:有特殊含义填0或1,没有特殊含义填众数;
data_clean['student_feature'].fillna(0, inplace=True)

data_cols = data_clean.columns.values

for data_col in data_cols:
    fill_value = data_clean[data_col].value_counts().index[0]
    data_clean[data_col].fillna(fill_value, inplace=True)

# 5.切分数据:测试集30%,训练集70%,随机种子设置2018
train_data, test_data = train_test_split(data_clean, test_size=0.3, random_state=2018)
train_data.to_csv('training.csv', index=False, header=True)
test_data.to_csv('testing.csv', index=False, header=True)

相关文章

  • 数据挖掘实践任务1

    任务1 - 数据分析(2天) 说明:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否...

  • 数据挖掘实践任务3

    任务3 - 建模(2天) 用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率...

  • 数据挖掘实践任务2

    任务2: 特征工程(2天) 特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理 结...

  • 数据挖掘实践任务4

    任务4: 记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precisio...

  • 数据挖掘任务

    预测建模 分类:离散 回归:连续 关联分析 聚类分析 异常检测仪 练习题: 1.以下是否是数据挖掘任务。 a.根据...

  • 第一章 数据挖掘基础

    数据挖掘的基本任务:分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐数据挖掘建模过程:1)定义挖掘目标...

  • 零售业的数据挖掘

    数据挖掘的任务和方法 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘 的任务主要是关联分析、...

  • 数据时代技能书单

    大数据时代,掌握处理数据的技能是必要的,书单包括数据清洗+数据挖掘+数据分析...... 1、数据清洗入门与实践 ...

  • Python数据挖掘与机器学习_通信信用风险评估实战(2)——数

    系列目录: Python数据挖掘与机器学习_通信信用风险评估实战(1)——读数据 数据说明 通过对读取数据的实践,...

  • Shared memory parallelization of

    1. Abstract focus on 数据挖掘任务的并行共享内存 贡献1:并行策略(full replicat...

网友评论

      本文标题:数据挖掘实践任务1

      本文链接:https://www.haomeiwen.com/subject/mimwdctx.html