MineAuth-基于频繁模式挖掘的持续认证方法

作者: 贺超333 | 来源:发表于2020-12-31 15:50 被阅读0次

MineAuth-基于频繁模式挖掘的持续认证方法
频繁模式挖掘
频繁模式挖掘（关联规则挖掘）-Apriori方法
图匹配问题系列（五）图上的频繁集挖掘
2020-02-27-ModelCode
数据挖掘算法之关联规则挖掘
第10章关联分析和序列挖掘
频繁模式挖掘-DHP算法详解
用FP-growth算法发现频繁项集（二）
基于数据的服务挖掘模式

姓名：胡娟

学号：20021110092

转自：https://mp.weixin.qq.com/s/Mf8MDlA8wpbGDQTkCpcwOA

【嵌牛导读】随着移动互联网、人工智能等新技术的发展，如何安全、高效地对用户身份进行认证变得日益重要。现有的移动终端身份认证方法，如基于口令，指纹和人脸的身份认证，均属于一次身份验证方法，这些认证方法只在登录时认证一次用户身份，无法在用户后续访问期间提供连续认证。持续认证方法能够对用户的身份进行连续地认证，可以有效地解决上述问题。

【嵌牛鼻子】MineAuth，WeMine，单分类技术

【嵌牛正文】

MineAuth架构

MineAuth通过挖掘用户行为习惯，并计算用户当前行为与行为习惯的离异程度，根据离异程度来判断当前用户的身份。MineAuth的架构如图1所示，主要包含四个模块，分别为：交互数据采集模块，行为构造模块，行为习惯挖掘模块和身份认证模块。如果当前用户被判定为合法用户，则用户可以继续访问智能手机上的数据，并且用户行为被添加到交互行为数据集中。但是，如果当前用户未通过验证，MineAuth会锁定智能手机并要求用户使用强认证的方法（如基于口令的认证方法）进行身份验证。

图 1.MineAuth的架构

MineAuth方法介绍

一、相关定义

在阐述MineAuth技术原理前，我们首先给出了MineAuth方法涉及到的相关数据定义。具体定义如下：

1.交互动作(Interactive Action)：Interactive Action是指用户使用智能手机时产生界面操作的行为，主要包含接打电话CALL，发送编辑短信SMS和使用应用程序APP三种行为。

2.上下文(Context)：Context是指用户产生交互动作时，智能手机所处的环境，主要包含Wi-Fi连接信息，蓝牙连接信息，地理位置信息以及手机运动状态等四个属性。设 $F=\left\{ f_{1}, f_{2},\cdot \cdot \cdot ,f_{m} \right\}$ 为所有上下文属性集合， $C_{j} =\left\{x_{1} ,x_{2},\cdot \cdot \cdot ,x_{k} \right\}$ 表示上下文集合，其中 $x_{j} \in F$ ， $j\in [1,k]$ ， $k>0$ 。

3.交互行为(Interactive Behavior)：Interactive Behavior是用户交互动作发生的时间、上下文和交互动作的统称。使用三元组 $B_{i}= <T_{i}, C_{i},A_{i}>$ 来表示交互行为。其中， $T_{i}$ 表示交互动作发生的时间， $C_{i}$ 表示上下文， $A_{i}$ 表示交互动作。一组按时间排序的交互行为集合 $R=\left\{ B_{1} , B_{2},\cdot \cdot \cdot B_{n} \right\}$ 被称为交互行为集。

4.支持度(Support)：Support是度量项集频繁程度的单位。交互行为集R中某一项集P的支持度定义为：

$support(P)=\frac{\sum\nolimits_{i-1}^ncount(P\subseteq B _{i} ) }{\vert \vert R\vert \vert }$

$count(P\subseteq B_{i} )=\left\{ 1,P\subseteq B_{i} \vert 0,otherwise \right\}$

其中，||R||表示交互行为集R中交互行为数。如果某一项集P的支持度小于最小支持度阈值minisupport，则该项集被称为频繁项集，代表用户的一个行为习惯。

5.行为模板(Behavior Template)：Behavior Template是行为习惯的集合。使用 $BP=\left\{P_{i}\vert support(P_{i}) \geq minisupport \right\}$ 表示行为模板。

6.模仿能力(Imitation Ability): Imitation Ability指在一次攻击过程中，攻击者能够模仿合法用户行为的能力，定义为：

$IA=\frac{\vert NormalData\cap AttackData\vert }{AttackData}$

其中，NormalData表示合法用户数据集，AttackData表示攻击者的数据。

二、MineAuth方法

1.交互数据采集

交互数据采集模块能够持续透明地采集用户使用手机过程中产生的交互数据。交互数据主要由七种模式数据构成，分别是Wi-Fi连接数据，蓝牙连接数据，GPS数据，用户运动状态数据，应用程序数据，接打电话数据和发送编辑短信。为了叙述方便，我们用Wi-Fi、BLUETOOTH、LOCATION、ACTIVITY、APP、CALL和SMS来表示上述七种模式数据。MineAuth同时学习行为特征，可以弥补某些行为特征容易被伪造的弱点。而且，同时伪造七种行为特征比伪造单个行为特征要困难得多。

2.行为构建

行为构造模块主要的目的是，通过对用户交互数据进行分析，构建出能够表征用户身份的交互行为。交互行为主要由三部分构成：交互行为发生的时间，上下文和交互动作。其中，交互动作由APP、CALL和SMS三种模式数据构成，上下文主要由Wi-Fi、BLUETOOTH、LOCATION和ACTIVITY等模式数据构成。我们这样定义交互行为的原因在于，用户交互动作与其所处场景以及时间之间具有很强的关联性，如果不考虑三者之间的关联，往往得不到正确的用户行为习惯，从而无法区分合法用户和非法用户。

3.行为习惯挖掘

我们将行为集分为训练集和校验集两部分，其中利用训练集来挖掘用户行为习惯，利用校验构建认证器。用户习惯是指用户频繁产生的行为，交互行为出现的频率越高，就说明该行为成为用户习惯的可能性就越大。最后，整合挖掘出的用户各个时段的习惯，形成用户行为模板。图2展示了某用户交互行为中重复行为的分布情况。

图 2. 某用户重复行为分布情况

4.身份认证

身份认证模块主要分为行为认证器和身份决策器两部分。行为分类器判断某一用户交互行为是否合法，身份决策器根据一段时间内多个交互行为的合法性来判断用户的身份。

系统评估

MineAuth完全运行在移动端。本实验中，我们选择的移动终端设备为Nokia7 plus，硬件设置为CPU 2.2GHz，RAM 4GB，ROM 64GB，搭载Android操作系统，系统版本为8.0.1。

我们将精确率、召回率和F1分数作为评测指标。其中，精确率是指检测出非授权访问的行为中真正的非授权访问行为的比例；召回率是指真正的非授权行为被检测为授权行为的比例；F1分数是精确率和召回率的调和平均值。

一、数据集

我们采集了30位用户连续30天的交互数据。图3可视化地展示了两个用户连续两天交互行为的差异性，我们明显地观察到：不同用户的交互数据分布差异明显，而同一个用户在连续几天内的交互行为数据相似。这个结果说明我们采集的7种类型的交互数据能够有效地表征用户身份。

图 3. 用户1和用户2连续两天交互数据分布

二、参数分析

最小支持度阈值和观察窗口大小是MineAuth方法的两个重要参数，他们对MineAuth的分类性能影响较大。最小支持阈值决定了挖掘出的用户行为习惯的质量。在习惯挖掘算法挖掘用户习惯的过程中，最小支持度阈值过大很可能会过滤掉用户特有的行为特征；最小支持度阈值过小会导致挖掘出的行为习惯不具备一般化特征。观察窗口的大小决定了身份决策器需要依据多少行为来判断用户身份。图4结果显示，当最小支持度阈值为0.1，观察窗口为90时，MineAuth方法性能最佳。

图 4. 不同最小支持度阈值和观察窗口对MineAuth性能的影响

三、算法对比分析

分类算法对持续认证方法性能的影响很大。我们选择了三种主流的单分类算法作为对比算法：1）局部异常因子算法LOF(Local Outlier Factor)；2)孤独森林iForest(Isolation Forest)；3）单类支持向量机OneClassSVM(One Class Support Vector Machine)。从图5的比较来看，MineAuth的性能最好。

图 5. iForest、OneClassSVM、LOF和MineAuth准确率的比较

四、敌手攻击分析

敌手可以通过模仿合法用户的交互行为假冒合法用户，入侵合法用户智能手机。假设敌手非常熟悉合法用户，能够长期近距离地观察并模仿合法用户交互行为，而且还能私自使用合法用户的手机。这种情况下，敌手很可能通过模仿合法用户来欺骗MineAuth，从而实现对合法用户手机的非授权访问。从图6可以看出，认证准确率随着敌手模仿能力的增大而下降，当敌手模仿能力为0.4时，MineAuth可以保证85%的精确率，很好地证明了MineAuth能抵御敌手模仿行为攻击。

图 6.抵御模拟行为攻击能力

论文出处：X.Pang, L. Yang, M. Liu, and J. Ma, “Mineauth: Mining behavioural habits forcontinuous authentication on a smartphone,” in Australasian Conference onInformation Security and Privacy. Springer, 2019, pp. 533–551.

MineAuth-基于频繁模式挖掘的持续认证方法
姓名：胡娟学号：20021110092 转自：https://mp.weixin.qq.com/s/Mf8MDl...
频繁模式挖掘
简介关于频繁模式挖掘的一个经典例子应该就是"啤酒和尿布"了，虽然看到很多人都说这个是编造的，但是也不妨碍用它来说...
频繁模式挖掘（关联规则挖掘）-Apriori方法
一句话总结：通过算概率，层层挖掘出的商品（元素）组合。内容关联规则基础 Apriori方法 1. 关联规则基础...
图匹配问题系列（五）图上的频繁集挖掘
频繁模式挖掘（Frequent Pattern Mining ）最早在挖掘关联规则时被提出，后来被拓展用于挖掘频繁...
2020-02-27-ModelCode
召回策略：热度，LBS，user tag，itemcf，频繁模式挖掘，二部图挖掘，embedding（word2v...
数据挖掘算法之关联规则挖掘
关联规则挖掘的概念在事务，关系数据库中的项集和对象中发现频繁模式，关联规则，相关性或者因果结构。频繁模式：频繁...
第10章关联分析和序列挖掘
关联分析是发现交易数据内有趣联系的一种方法，比如著名的“啤酒-尿布”。频繁序列模式挖掘，可以预测购买行为，生物序列...
频繁模式挖掘-DHP算法详解
原文写于个人博客，欢迎关注www.xiaolewei.com 前言数据挖掘领域的频繁模式中，Apriori算法算...
用FP-growth算法发现频繁项集（二）
从FP树中挖掘频繁项集从FP树中抽取频繁项集的三个基本步骤如下：从FP树中获得条件模式基利用条件模式基，构建...
基于数据的服务挖掘模式
今天在讨论业务需求的时候突然有一个想法，我觉得不同的人在相同的场景下，有同样的行为模式，所以可以先做人员行为的聚类...