2020/05/29 -
针对自己研究的过程,来说明几个问题。
当时的时候,也没有思考那么多,就按照他网页中给出的步骤,就直接直接实践了, 效果也还算不错;不过这里的话,我突然感觉有些不对劲。其实一直都是不对劲的状态。
它使用的方法呢,是将这个php文件按照文本一样的内容进行处理,然后利用n-gram进行特征化,其实这里的时候,我就有些不明白了,这种形式,当然哈,最后的工作的确是效果还行,但是实际上,我就是感觉我不理解,为什么这样就可以。
加上之前我针对powershell思考的内容,我算是明白了, 我其实就是在思考,这个东西到底是不是能进行相关的操作。
就是说能不能获取到比较好解释性。
我仿佛有点明白了,我差的这个过程,其实是说,我应该在看见某个现象之后,我才去思考,我是不是要使用这种模型。
而不是这种直接使用了这种模型,这样就导致中间过程我根本不理解。
就导致了我现在这个状况。
昨天的时候,搜索了一下相关的语言模型,我发现这个东西好像是处理这些数据的关键。
2020/05/30 -
我感觉出来,这种学习过程是一个完全非线性的系统,所以你很难去理解这个东西到底是什么发挥了作用。
然后,我前面的想法,我就是思考不出来,为什么这些特征能够协调起来发挥这样的作用。
比如说,简单的一些内容,你看到这个字符,就能决定这个东西是异常的。
或者说,你看到了两个东西同时出现,你就能决定另外一个东西是异常的。
这种好像属于那种比较简单的基于规则的方法。
那么如果从这个角度来理解,就是等于说,你根本不需要理解这些特征是什么?!
这就有点感觉说不过去了,不该是这样的一个过程。
2020/05/30 -
我去简单学习了一下这个语言模型,我个人感觉得去看看一些比较权威的书,来看看简答的完整的内容。
比如说,那种one-hot最后到word2vec,就感觉他们说的不像是一回事一样,或者说可能是一回事,但是我还没有建立完整的映射。
最后的word2vec是基于上下文的环境下, 在此基础上来进行相关的研究;
那么,你看,你这里真的是这种情况吗。
就是说,你需要上下文吗?
我觉得,就从one-hot编码入手来解释,就是说,我是用反汇编作为相应的数据源,然后利用这个数据源来建立一个One-hot模型。,不过我我个人觉得,这种可能不是很有效,毕竟汇编语言的编程单元就那些,没有什么东西。(这个就是后话了)
还是真是webshell的交互,利用one-hot的方式,帮助我从抽象的句子到了具体的数值向量。我需要做的是,训练某个模型,不管什么什么模型都好,他们会帮助我来学习这个,从这些数据中到达异常或者正常的关系映射。
其实说白了,正式因为这中间的这个映射关系非常复杂,属于非线性的东西,才会让我们没有办法简答理解。
那么其他的一些方法呢,如果是不更换具体的模型,也就是学习映射的过程的话,那么前面的一些操作就是特征工程的内容。
其实说白了,就是喂给模型的数据是不是好的。
我来说一下上面的某种理解:在二进制的世界中,如果你丝毫不去考虑其他的事情,你所要做的就是,将原始数据转化为数值类型,这种类型的数据可以输入到具体的模型中,模型会完成从数据到最后结果的映射。但是这种方法的话,你不是很好找到,为什么误分类了。
当然,前面,最开始的内容,也就是说,那个具体的从实际解释层面上到达最后结果,这个映射过程,可能还是需要进一步的理解吧。
我仿佛有了一些感觉,就是我不理解的是说,为什么要使用这种方式。
这里来具体思考一下,首先,看你怎么来处理数据。你得到的是什么,那么在这样的结果之下,就必须通过一定的方法把数据传递到模型中。、
感觉有些那种感觉了。
2020/06/03 -
经过了这几天的思考,或者说疑惑过程 。
我算是明白了,一方面是对这种自然语言处理的过程不理解,语义不清淅;另一方面就是本身,我不知道他们到底是处理的什么特征。特别是今天看了一篇卡内基梅隆大学的论文,我也不清楚他这个特征到底是什么。
网友评论