美文网首页
2009KDD-Time Series Shapelets: A

2009KDD-Time Series Shapelets: A

作者: Caucher | 来源:发表于2022-05-06 12:16 被阅读0次

    标题:时间序列“小形状”:数据挖掘的新原型

    ABSTRACT

    • 本文解决的是时间序列分类问题;
    • 之前的方法主要是基于KNN的(欧式/DTW)距离分类,有三个问题:
      • 可解释性差;
      • 需要存储、搜索整个数据集。
      • 考虑整体特征,易受噪声影响。

    1. INTRODUCTION

    • 基本做法:shapelet是数据集中某个序列的一个子序列。分类是让数据集中所有序列和这个子序列计算距离,再设定一个阈值,小于这个阈值的是一类,大于这个阈值的是一类。
    • 优化目标:分类的优化目标是信息增益。
    • 挑战:如何找到一个最优的shapelet

    2. RELATED WORK AND BACKGROUND

    • 不等长序列距离度量:遍历所有长序列的子序列,找到距离最小的即为距离
    • 熵:一个数据集D分成A,B两个类,其熵值为
      I(D) = -p(A)logp(A) - p(B)logp(B)
      p(A),p(B)为A,B所占比例
    • 信息增益:将一个数据集D分类后,熵值的变化。
      • 选择信息增益的一个原因是可以轻易扩展成多分类问题。
    • 最优分割点:给定一个子序列做shapelet,选择哪个分类阈值可以获得最高的分类信息增益。
    • shapelet:最优子序列+最优分割点就是shapelet

    3. FINDING THE SHAPELET

    3.1 Brute-Force Algorithm

    最简单的寻找shapelet的方法就是暴力遍历:

    1. 找出数据集中序列的所有子序列;
    2. 每个子序列依次作为shapelet候选子序列进行检验;
    3. 检验时首先计算Candidate和数据集中所有序列的距离,获得距离直方图;
    4. 根据这个距离直方图找一个最优分割点,返回该情况下的信息增益。

    3.2 Subsequence Distance Early Abandon

    距离计算可以剪枝,即如果当前的部分欧式距离已经超过BSF,那么直接放弃掉。

    3.3 Admissible Entropy Pruning

    candidate检验也可以利用上界来进行剪枝。假设现在根据某个candidate做了一半的距离直方图,那么信息增益的上界就是把剩下的一半,一半(总量的1/4)放给距离0,一半放给距离最大值+1,此时信息增益是理论最大的。
    如果这个上界的信息增益也不如BSF,那么直接进入下一个candidate。

    相关文章

      网友评论

          本文标题:2009KDD-Time Series Shapelets: A

          本文链接:https://www.haomeiwen.com/subject/ncwayrtx.html