美文网首页
实践:SSDEEP相似度比较

实践:SSDEEP相似度比较

作者: VChao | 来源:发表于2020-07-10 09:52 被阅读0次

    2020/06/03 -

    其实一开始的时候,我是想看看,他们都是使用什么特征来进行比较。。。

    今天下午就想找一些相关的相似度比较的文章,看看有没有相关的实践,然后发现谷歌出来的大量结果都是论文,我是想找一些实际的代码。
    不过,通过调整关键词到medium上,发现了有人使用了ssdeep来进行比较。


    首先是工具的安装,然后通过自己编写的几个c源码,编译之后进行比较。
    他的结果说明,能够有相似度出来;然后又对比了这个图像的相似度,发现这个工具并不支持。我估计是因为他是使用线性滑动窗口来进行比较的吧。
    ssdeep的使用过程,
    ssdeep -s * > sample.ssd这个是生成每个文件的哈希数值
    ssdeep -m sig_file -s * 这个是将要比对的文件匹配之前的指纹。
    -s是屏蔽错误。


    下面来说一下,我的实践结果。
    主要测试是当时在github上找到的ioc列表。
    然后有一个样本.i,数量比较多,就拿他做例子。
    通过上面的命令,的却能发现有很大的相似程度,也说明了这种方法的有效性。

    但是我再测试其他的内容的时候,发现了一个问题,很多样本他们都不匹配。大部分都不能匹配上。
    这个结果可能,真的是因为这些样本不相似吧,当然也能找到一些相似的。但是比较少。
    而且,他的结果输出过程是这样的,如果他们不相似,就不输出结果。


    这里呢,产生了一些疑问。

    1. 这种相似度的可解释性有多少高,在我这里就是说,这东西是哪里相似呢?
    2. 对于系统代码的部分,是不是也会被认定为相似,这种应该会有干扰吧。

    对于这个聚类的结果,我不是清楚怎么聚类这个过程。。这里github上有几个相关的。、https://github.com/bwall/ssdc

    文章

    [1]fuzzy-hashing-ssdeep

    相关文章

      网友评论

          本文标题:实践:SSDEEP相似度比较

          本文链接:https://www.haomeiwen.com/subject/kuebzhtx.html