访问日志的异常请求检测

作者: VChao | 来源:发表于2020-04-01 09:22 被阅读0次

访问日志的异常请求检测
nginx配置显示源IP并拒绝恶意IP请求笔记！
[转]Web应用上线之前程序员应该了解的技术细节
初探 Java Https
基于PowerShell的windows安全基线检查开发——事件
C#技术大牛玩Python web框架也这么6？手把手打造后台管
简单的ELK搭建
从零搭建项目开发框架-21登录与权限校验拦截器及操作日志
第八章：使用拦截器记录你的SpringBoot的请求日志
源码分析 Android 9.0 http请求适配原理

2020/04/01 -
本文是对文章[1]的阅读，具体细节请参考原文。

本文是对文章[1]的阅读理解，本文是对访问日志的聚类分析，出发是利用HMM对URL进行泛化过程中，因为需要对每个URL都进行泛化，所以他提出另一种泛化的方式，直接全部都进行替换的形式。
然后利用了一种聚类的算法。是可以检测到不少攻击的，但是实际效果并不是非常好。

文章[2]是文章[1]发表在先知社区的版本，下面有人的评论中提到了一些其他的内容。文章[1]的主要思路就是url参数泛化 > tfidf词袋 > dbscan聚类 > tsne降维可视。对于词袋方面，是不是可以还有其他的方式。
我觉得这是一个比较好的思路，就是说是不是还有其他内容再来统计呢？
或者说，有没有在hadoop下的实现算法，就是大数据量的情况下。（在github上搜索了一下，发现已经有这方面的代码了，不过还是要思考，是不是后续的机器学习算法也有分布式的版本，感觉这个问题我之前思考过，好像spark也不能非常高性能的支持，这个后续可以了解了解。）
这个可以后面来调研调研。

基于机器学习的WEB异常检测
这个文章中提到了多种检测方式，然后还有一个github上提供了数据，这个可以后续做一做。还有提到了阿里在知乎上专栏的文章，这个可以好好坐一坐，不用想着弄多好的东西，就把这个内容给浮现出来。
我看了一下github上的这个程序，他的数据就直接是请求，应该是直接从请求的url里面抽出来的。
对于分类，他使用了3-gram，然后利用tf-idf来url的预处理。这个方法应用于URL的话，感觉还像那么回事；然后使用了逻辑回归的方式进行分类。
但是我现在的一个想法就是，是不是可以提取出更有意义的特征呢？这个问题感觉就更有意义。
操作过程中，对所有的数据进行了相关的文本转换，可能造成数据的泄露，这个在文章中也提到了。整体的准确率是99.8%，感觉太高了。但是，在实际操作中，这种异常请求的分析又有什么问题呢？