美文网首页数据挖掘与机器学习
使用信息熵来确定文本相似度

使用信息熵来确定文本相似度

作者: yunpiao | 来源:发表于2018-07-21 17:29 被阅读9次

    使用场景 web请求日志

    对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。

    方法:
    针对请求源ip进行聚合, 对聚合结果进行相似度度量
    可以使用udaf 也可以使用udf 然后统计样本标准差

    首先 计算聚合文本中每条的字符信息熵
    使用udf函数计算信息熵的标准差\ 样本标准

    计算方差和样本无偏方差区别
    一个除以n 一个除以n-1

    相关文章

      网友评论

        本文标题:使用信息熵来确定文本相似度

        本文链接:https://www.haomeiwen.com/subject/lmrylftx.html