KDD99CupDataSet-SVM

作者: 盐焗酒酿丸子 | 来源:发表于2018-04-12 13:59 被阅读4次

    KDD99CupDataSet-SVM

    clean data ,feature selection , svm based kdd99

    数据清洗

    数据集来源:KDD99入侵检测数据集 http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html

    • 筛选出发生在TCP层的Dos流量和normal流量 get_train_data.py
      其中Dos流量的标签'back.', 'land.', 'neptune.','smurf.', 'teardrop.', 'pod.'
      normal流量的标签'normal.'
      生成文件dos.kddcup.data.corrected.csv
      最后标签类别如下
      normal -> 1 attack -> -1
    normal attack
    768670 1074241
    • 通过统计特征进行数据筛选 wrap_up.py

    • 随机森林对特征重要性进行排序

     [(0.9824, 'same_srv_rate'), (0.0106, 'dst_host_serror_rate'), (0.0011, 'count'), (0.0009, 'srv_count'), (0.0009, 'dst_host_same_src_port_rate'), (0.0008, 'dst_host_count'), (0.0007, 'dst_host_srv_count'), (0.0005, 'dst_host_srv_rerror_rate'), (0.0005, 'dst_host_diff_srv_rate'), (0.0003, 'dst_host_srv_serror_rate'), (0.0003, 'dst_host_rerror_rate'), (0.0002, 'srv_rerror_rate'), (0.0002, 'dst_host_srv_diff_host_rate'), (0.0001, 'srv_serror_rate'), (0.0001, 'srv_diff_host_rate'), (0.0001, 'serror_rate'), (0.0001, 'dst_host_same_srv_rate'), (0.0, 'rerror_rate'), (0.0, 'diff_srv_rate')]
    
    label rate text
    same_srv_rate 0.9824 过去两秒内,与当前连接具有相同目标主机的连接中,与当前连接具有相同服务的百分比
    dst_host_serror_rate 0.0106 前100个连接中,与当前连接具有相同目标主机的连接中,出现SYN错误的连接所占的百分比
    count 0.0011 过去两秒内,与当前连接具有相同的目标主机的连接数
    srv_count 0.0009 过去两秒内,与当前连接具有相同服务的连接数
    dst_host_same_src_port_rate 0.0009 前100个连接中,与当前连接具有相同目标主机相同源端口的连接所占的百分比
    dst_host_count 0.0008 前100个连接中,与当前连接具有相同目标主机的连接数
    dst_host_srv_count 0.0007 前100个连接中,与当前连接具有相同目标主机相同服务的连接数
    dst_host_srv_rerror_rate 0.0005 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现REJ错误的连接所占的百分比
    dst_host_diff_srv_rate 0.0005 前100个连接中,与当前连接具有相同目标主机不同服务的连接所占的百分比
    dst_host_srv_serror_rate 0.0003 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,出现SYN错误的连接所占的百分比
    dst_host_rerror_rate 0.0003 前100个连接中,与当前连接具有相同目标主机的连接中,出现REJ错误的连接所占的百分比
    srv_rerror_rate 0.0002 过去两秒内,在与当前连接具有相同服务的连接中,出现“REJ” 错误的连接的百分比
    dst_host_srv_diff_host_rate 0.0002 前100个连接中,与当前连接具有相同目标主机相同服务的连接中,与当前连接具有不同源主机的连接所占的百分比
    srv_serror_rate 0.0001 过去两秒内,在与当前连接具有相同服务的连接中,出现“SYN” 错误的连接的百分比
    srv_diff_host_rate 0.0001 过去两秒内,在与当前连接具有相同服务的连接中,与当前连接具有不同目标主机的连接的百分比
    serror_rate 0.0001 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“SYN” 错误的连接的百分比
    dst_host_same_srv_rate 0.0001 前100个连接中,与当前连接具有相同目标主机相同服务的连接所占的百分比
    rerror_rate 0.0 过去两秒内,在与当前连接具有相同目标主机的连接中,出现“REJ” 错误的连接的百分比
    diff_srv_rate 0.0 过去两秒内,在与当前连接具有相同目标主机的连接中,与当前连接具有不同服务的连接的百分比

    5折交叉验证结果

    [0.99440018 0.99969071 0.99905041 0.99903956 0.99788378]
    

    代码

    源码地址

    • get_train_data.py 第一步
    • get_train_data2.py 第二步
    • get_train_data3.py 第三步
    • wrap_up.py 统计特征信息
    • crossvalidation.py 交叉验证

    相关文章

      网友评论

        本文标题:KDD99CupDataSet-SVM

        本文链接:https://www.haomeiwen.com/subject/ocixkftx.html