Acoustic-based sensing and appli

作者: TSING1 | 来源:发表于2020-09-19 20:09 被阅读0次

Acoustic-based sensing and applications

A general structure for acoustic-based sensing and applications.png

1 Hardware infrastructure

microphones(record)
speakers(generate)
audio chips(process) acoustic signals

2 Techniques for acoustic-based sensing and applications

signal strength variation(通过一段距离之后，声学信号的信号强度会逐渐减弱，the measurements can be greatly impacted by ambient noises. 为了解决这个问题，一些研究将信号强度与ToA或者phase change结合起来)

signal strength.png
phase change【Early studies show the feasibility of using phase changes modulated by Orthogonal Frequency-Division Multiplexing (OFDM) and Continuous Wave (CW) to carry out fine-grained finger movement tracking，由于正弦波的周期性，当移动距离超过声学信号的波长时，会产生相同的相位变化，所以仅仅使用phase changes 无法达到精确的追踪效果】

phase change.png
Doppler shift （多普勒频移是指当移动台以恒定的速率沿某一方向移动时，由于传播路程差的原因，会造成相位和频率的变化。Researchers utilize Doppler shifts to recognize hand gestures ,monitor driving behavior and track hand movements.）

3 Doppler shifts.png
示例图如下：
Doppler shift示例图.png

Time-of-Arrival(ToA是指信号在发送者和接收者之间的传播时间，这种方法需要发射者与接收者精确同步以避免测量误差) // Frequency Modulated Continuous Wave(FMCW将时差映射到频移，以便在没有同步要求的情况下测量到ToA，应用于monitoring sleep quality ,heartbeats and constructing floor map)
4 ToA.png
示例图如下：
FMCW示例图.png

Time-Diffrence-of-Arrival(TDoA 与FMCW一样不需要同步，测量一对接收机接收信号的到达时间差，定位目标在双曲线或双曲面的交叉点，在一对的每个固定接收器产生焦点。)
示例图如下：

5 TDoA.png
Channel Impulse Response(CIR 表示声信号的传播响应于发射信号的散射、衰落和功率衰减的综合效应)

6 CIR.png

3 Acoustic-based applications

Recognition and Tracking
1.Daily activity recognition
使用两种方式实现日常活动识别：两者的第一步都是数据预处理（消除环境的干扰并对数据规范化以供以后使用）
  1. machine-learning 对于传统的机器学习，需要手动提取特征以进行模型训练，特赠提取依赖于人类的知识和经验:
    Bodyscope是基于商业耳机的可穿戴活动识别器来监测嘴巴运动，这项工作是从捕获的声音提取声学特征（即Mel-Frequency Cepstrum Coeffient(MFCC)）并将其输送到Support Vector Machine（SVM），MFCC是短期功率频谱的表示。
     SoundSense使用当前移动设备监测日常活动（例如走路，喝水，骑车），这项工作从捕获的声音提取声学特征（即相位，信号强度，频率以及带宽）并且使用决策树或者Markovmodels将其分类。
  2.Deep learning往往解决了这些限制，可以通过网络模型训练自动学得特征
    EI利用周围物体反射的声学信号来实现与环境无关的活动识别方法，这项工作建立了对手的网络以提取接收信号的表示，可以去除不同环境与个体在看不见的环境下预测活动的独特性。另一项工作是使用声学和加速作为输入并使用基于长短期记忆（LSTM）的递归神经网络（RNN）进行人类的活动分类。
daily activity recognition work.png

daily activity recognition.png
2.Human health and behavioral monitoring
    Health Monitoring：FMCW被用于从人体中提取声波反射来捕获细微的运动（Nandakumar等人检测睡眠呼吸停止事件；Qian等人设计心跳监测系统，声心电图，它提取FMCW信号的信号相位来捕获由心跳导致的细微运动），接着一系列的研究都结合机器学习技术来将不同的活动进行分类（Ren等人提取声学特征（即MFCC）并使用SVM区别睡眠事件；呼吸监听器提取声幅的能谱密度，并利用卷积神经网络（Convolutional Neural Network (CNN)）恢复驾驶环境中的精细呼吸波形）。
    Driving Behavior Monitoring：Yang等人利用车内的扬声器检测驾驶员的手机使用，为了实现这个，两个研究测量TDoA并协助计算两个蜂鸣值之间声学样本数以检测车内手机的位置。ER揭示车内的一些不良活动可以通过声学信号的多普勒频移捕获而得，ER建立梯度模型森林（包含多个分类器识别不同的驾驶行为，并在他们完成50%之前完成以尽早提出警告）。
3.Hand gesture recognition
    Hand gesture recognition：多普勒频移是最自然直接的一种手势识别方式，其中有四个步骤：1）data preprocessing; 2）Doppler extraction; 3）physical features exhibition; 4）gesture recognition。Point & Connect(P&C)使用线性调频脉冲信号（chirp signals）实现装置配对系统，其中用户仅仅需要朝着目标配对装备做出简单的手势，P&C通过同步时钟估计声学信号的 ToAs来测量用户与候选设备的距离变化。然而P&C需要初始无线通信通道来使源设备与目标设备连通，为了解决这个限制，Spartacus利用Doppler shift来初始化连接，当用户直接向目标设备做出手势时，可以观测到最大频移。
    Finger gesture recognition：近距离以及更细粒度的手指动作在人机交互中越来越受欢迎，从收到的信号中，从声学信号频率领域内提取的与模式相关的信息（即幅度谱密度），通过比较提取的特征与轮廓的幅度谱密度欧几里得距离可识别出手指手势。利用CIR结合深度学习方法（CNN）可以达到毫米级的手势识别，其性能优于基于多普勒和FMCW的方法。

hand gesture recognition.png

recent study of hand gesture recognition.png
4.Hand movement tracking
手的移动追踪给人机交互应用提供更加灵活的能力

Acoustic-based hand movement tracking systems.png
Echoloc使用带有立体扬声器的智能手机产生两个信道线性调频脉冲信号来估计手与两个扬声器之间的ToAs，通过这种方式，手的位置就可以确定。
EchoTrack在不需要特殊硬件的情况下，通过计算智能手机的两个麦克风接收到的声信号的ToAs来估计手的轨迹（trajectory），者需要结合多普勒频移和ToAs来优化追踪的准确性，通过计算等式Eq3，手的位置就可以准确估计出来。
AAMouse通过声信号的多普勒频移来实时追踪手的移动，为了提高稳健性，系统结合来自不同频率的估计来执行离群点移除。
CAT通过分析FMCW以及声信号的多普勒频移来更一步巩固追踪的准确性，在不需要准确的同步的情况下，FMCW将时差映射到频移。
LLAP不需要传统的设备以及同步时钟，仅仅使用商业现成的智能手机实现毫米级的移动追踪。LLAP通过计算收到声信号的相位变化来追踪手移动。

LLAP.png
FingerIO使用OFDM技术来实现细粒度的手指追踪。

OFDM echo profiles at two time points.png
Strata使用CIR技术代替原始的接收信号来考虑多径传播，由于音频设备的布局不同，上述大多系统都不能直接部署到传统的手提电脑。
VPad使用能量特征追踪水平方向的手运动，多普勒频移追踪垂直方向的手运动，并且可以达到实时以及高准确追踪。
Vernier介绍了一种基于少量样本的相位变化计算方法并提高了实时追踪能力，并非使用FFT，而是使用一种小的信号窗口来计算相位变化，并且局部最大数目对应于相位变化的周期数。
5.Speech recognition
语音识别的主要步骤包括：信号处理、特征提取、识别。首先信号处理主要包括采样（混叠aliasing、滤波filtering）以及频谱分析（分帧framing、加窗windowing）；此后提取常用特征，主要有线性预测倒谱系数（Linear Predictive Cepstral Coeffiecients(LPCC)）,MFCC,感知线性预测（Perceptual Linear Prediction(PLP)）；最后识别步骤是将语音信号的观察特征与假设句的预期语音联合。
主要的识别方法有高斯混合模型隐马尔可夫模型（Gauusian Mixture Model-Hidden Markv Model (GMM-HMM)）以及深度神经网络隐马尔可夫模型（Deep Nerual Network-Hidden Markov Model (DNN-HMM)）
HMM是马尔可夫链的扩展，它可以提供潜在结果的概率函数。 GMM表示为高斯概率密度函数(PDFS)的加权和，用于确定HMM的每个状态与语音输入的对应程度。一些研究不使用GMM，而是使用DNN在HMM状态上产生后验概率作为输出。一些研究证实DNN-HMM模型优于GMM-HMM模型。

Localization and Navigation
Localization and Navigation application.png

1.Ranging and direction finding
这是定位和导航的基本技术。
Ranging早期研究使用ToA与TDoA技术，但需要精确的时钟同步，测距分辨率受到很大的限制（15cm，40cm），在不需要时钟同步和特殊硬件的情况下，BeepBeep设计了一个叫做两个时间到达的经过时间的算法（ETOA）来准确测量设备之间的距离， ETOAS由两个设备单独计算，设备之间的距离可以通过将时间持续时间信息与其对等点交换来导出，由于两个设备不同步，所以BeepBeep的更新速率较低，因此需要分配小窗口来分隔来自不同设备的声信号。RF-Beep利用RF和声学信号来测量TDoA用以测距。仅仅实现了半毫米的测距分辨率，这对室内定位远远不满足。

Direction Finding早期研究使用声信号的多普勒频移执行方向查找，平均误差为18°，并不满意。Swadloon通过从多普勒频移和惯性传感器（accelerometer and gyroscope）捕获的速度相结合，将误差降到2.1°。

Swadloon.png

direction finding.png

2.Indoor and outdoor localization

Localization work.png

Passive Indoor Localization许多研究采用额外的传感器传输移动设备接收的声学信号，以便将基于声学的定位富有成效，这种基于声学信号的定位称为被动定位。早期两篇研究捕获背景光谱的声学指纹来决定室内的定位，然而这些方法受噪声的影响很大并且肯能出现高能量代价，为解决这一问题，使用声学信号的ToA成为精确室内定位的选择。Guoguo通过计算声学信号的ToA来定位目标位置，先进的信号处理技术为此工作提供了充足的覆盖面积，并通过符号交织信号结构来提高声学信号的传输速率以提升定位的更新速率。SUTE结合声学信号的多普勒频移和基于视觉技术来进行室内定位，其定位中位值为0.42m，SITE使用角度差异来计算一组位置，并且基于视觉的技术得到最终的定位。尽管这些研究得到很好的定位性能，但受限于额外的基础设施（RF,onboard vision sensor,LED light and specialized sonar）。WalkieLokie通过测量智能手机和安装在目标对象中的声学扬声器之间的相对位置来定位目标，以便用专门的设定的脉冲信号来估计ToA，此方法大大降低了部署成本（仅需智能手机和顶成本的扬声器），但是其平均测距误差为0.63m，落后于基于基础设施的方法。
Active Indoor Localization
通过在智能设备中主动发送扬声器的声学信号来定位用户位置，称为主动定位。

active indoor localization.png

active indoor.png
许多研究使用主动定位技术进行基于声学的室内定位：Beep使用一组分布的声学传感器来定位配备了WiFi同步漫游设备的用户，用户使用配备漫游的设备来传输声学信号，声学传感器接收信号并运用处理单位来估计ToAs，通过这些传感器的距离就能确定漫游设备的位置，这项工作在超过97%的案例中的准确性为0.6m。Qiu等人使用ToA和信号强度测量来实现手机对手机场景高速3D持续定位，由于每一个手机都有两个麦克风，每一对麦克风-扬声器的结合体的四个距离可通过ToAs计算，并且通过余弦定律可以导出两个智能手机之间的角度，在90%的案例中定位分辨率在0.14之内。Liu等人开发一个对等协助的室内定位系统，这个系统结合了基于声学定位与基于WiFi的方法来提高准确性。由于发送和接收声学信号的代价，这三个系统受限于手持移动设备的电量。 EchoTag借助智能手机先前位置解决了这一问题，这项工作首先通过WiFi SSID和tilt确定coarse-grained位置，如果信息匹配。系统将在频域内捕获声学特征来估计fine-grained的位置。上述四个研究都专注于自我定位，即使用其硬件确定智能手机的位置。 AMIL则允许智能手机定位临近的智能手机。 有一些研究则将主动定位和被动定位相结合，两台特定的麦克风预部署，一台智能手机从两个麦克风测量TDoA来定位智能手机的位置，构造了被动定位；此后智能手机传输chirp sigal，并测量ToAs来估计隔墙的距离，这执行了主动室内定位；这两个的结果相结合提高了定位性能。
Outdoor Localization
一些系统将声学传感扩展到室外定位，例如ENSBox是一个室外环境的分布式并且自我校验的定位系统，包括4-麦克风阵列的每一个结点的定制硬件，然而安装大量室外传感器不太实际。Auto++利用TDoA定位周围汽车以及使用多普勒频移测量声源的运动。Pinna等人使用声学传感器定位枪炮位置，当发射时，声源与声学传感的ToAs被估计来测量他们之间的距离。
3.Floor map construction
现有的研究通过测量声学信号的ToA以及到达角（Angle-of-Arrival (AoA)）来探测感兴趣的区域内的障碍以及构建地图，这些方法需要基础的设备，使得在一些应用场景中不适用，为了设计低成本的地图构建方法，随后的研究利用智能手机作为信号的传输体和接收体，例如Kashimoto等人将超声波小装置整合到智能手机中以此实现地图构建，这项工作首先通过测量声学信号的ToAs估计房间的大小和形状，然后使用智能手机的移动传感器来详细描述地图。BatMapper在没有用户补充设备的情况下，实现了多模态解决方案（即使用惯性传感器和声学信号）来构建地图，具体地，BatMapper采用惯性传感器测量智能手机的弧度，之后，系统使用商业智能手机的扬声器和麦克风接收和传送chirp signals，通过分析声学信号，BatMapper推导出振幅和ToAs来检测室内不同的空间结构（如杂乱的空间、角落、大开放空间）。

different kind of indoor areas.png
其中图13(a)中表示惯性传感器检测的航线方向改变，当检测到航向改变时，系统会激活基于声学的传感器。图13(b)中不同的方向和功率变化展示了不同的区域（如杂乱区域、广角、楼梯出口）。图13(c)中接收的声音强度的峰值表示窄角，而降落表示大开放空间，然而这些需要很大的训练努力来估计参数。为了不训练，SAMS通过让一个人带着智能手机移动来估计室内轮廓。这项工作使用FMCW来测量关键以及结构化的信息（角落、群体），需要的训练努力少于BatMapper，具体地，通过探索其设计参数（即带宽、chirp duration），在不同环境下研究其灵敏度，并从其模型中提取FFT特征来定制FMCW模块，并测量距离与构建地图。

Security and Privacy
1.User authentication
user authentication.png

Voiceprint- and Acoustic Emanation-based User Authentication
在过去的几十年里，使用语音生物识别技术进行认证已经得到了很好的探索，为了实现基于声纹的用户身份验证，产生了一些方法，包括Gauusian Mixture Model-Universal Background Model (GMM-UBM),GMM-supervector,i-vector model ,Deep Neural Network (DNN)-based models等，GMM-UBM的基本思想是利用高斯概率密度函数（PDF）的组合来描述语音特征，以模拟个体的唯一性。现有的研究使用来自人类特定行为的可听声发散来进行用户身份验证。周等人使用按键动力学的声学发散来识别用户身份，这项工作提取某些声学特征（即声学信号的信号强度，MFCC）并进一步使用机器学习方法（即SVM）进行认证。由于按键声发射和呼吸声都在可听到的频率范围内，这些方法很容易受到环境噪声的干扰。

Ultrasonic-based User Authenitication
有一些研究使用不可听的声学信号来感知人类行为以进行用户身份验证。Zhang等人测量接收到的声学信号的TDoA来区分人的声音与机器的声音。回声指纹使用智能手机和正向摄像头的音频设备来提取脸部轮廓以进行用户身份验证，具体来说，使用FMCW收集脸部回声，提取声学特征应用CNN来允许手持手机姿势的改变，同时，使用摄像机探测脸部地标，结合特征，声学特征和脸部地标被传送到啊SVM分类器进行训练分类。
2.Two-factor authentication
基于声学的传感被应用于双因素验证领域，在一个系统中，用户只有通过了两个类型的检测才能授权进入，这些因素可以是知识（如密码）、财产（如智能卡）、或者内在的（如指纹）。一些研究专注于新的基于声学的方法来检测移动设备和浏览器之间的接近作为第二因素。Sound-Proof使用环境的噪声在认证中作为第二因素来加强智能设备的安全和隐私，它测量用户的智能手机中接收的环境噪声和浏览器的相关性。智能手机上的应用程序触发的通知或者警告声音被误认为环境噪声而使第二因素认证失效。

two factor authentication.png
Home Alone and Listening Watch使用随机选择声学信号作为认证，Home Alone使用用户智能手机产生的主动通知声音来测量浏览器的邻近，而Listening Watch使用人声作为第二因素检测智能手表与浏览器的邻近。Proximity-Proof抵抗了man-in-the-middle and co-located的攻击，通过OFDM调制声学信号而不是WiFi或者其他网络联接来传输双因素认证的的响应到浏览器，在传输过程中，独特的音频指纹被提取出来以此验证传输信号的智能手机，一种双向测距的方法测量两个设备之间的的距离可以抵制co-located攻击，因此坐在用户旁边的攻击者不能非法登录。
3.Keystroke snooping attacks
Keyboard Keystroke Snooping Attacks
提取键盘的声波发散的信号处理原语（即FFT、倒谱）以及使用机器学习技术（即神经网络、线性分类）进行按键窥探。Berger等人结合字典和发散声波设计了一个更加实际的按键窥探攻击，并且不需要进行任何训练。Zhu等人在不需要字典的情况下执行了与上下文无关的按键窥探攻击，这项工作在需要三台协作智能手机下，测量声学信号的TDoA来定位潜在的按键位置。Liu等人只把一部智能手机靠近键盘以捕获按键声音。

KeyStroke snooping attacks.png

Touch-Screen Patterns and Keystroke Eavesdropping Attacks
触屏操作例如绘画打字等很少产生可听见的声音，模式和按键窥探攻击仅仅在主动发送不可听的声波信号下才可能实现。PatternListener利用这些信号的相位变化来追踪手指移动，以此窃听安卓智能手机未解锁模式，但是这项工作需要受害手机提供基于声学信号的传感，在现实攻击场景中不太实际。相反，KeyListener通过分析反馈的信号主动发送不可听声学信号以及入侵人的按键。本工作利用声信号的能量衰减来确定粗粒度的击键区域，并结合两个击键之间的手指运动，开发了一种基于几何的方法以提高识别性能。
4.Audio adversrial attacks
可以产生针对基于DNN语音识别模型的对抗样本，这些对抗对于人类而言是无法观察的，但是语音助手系统可以被隐藏地卡住、错误识别命令或者秘密控制，例如CommanderSong在受害者无意识的情况下将语音命令嵌入到一些音乐中以此攻击语音助手系统。Adversarial Music通过不可观察的对抗性音乐阻塞语音助手，这项工作目标是攻击尾音检测系统以及创建可以在空中物理发射的实时拒绝服务（Denaial-of-Service（DoS））攻击。没有考虑在空中传播的影响（如设备失真、信道效应、环境噪声）Li等人首先测量CIR并将其集成到针对实际音频示例的对抗性示例训练过程中，这样可以使生成的对抗性示例在物理世界中播放时保持有效。Metamorph从一些小扰动测量中捕获核心失真影响，如何使用域自适应算法精华扰动来提高攻击准确性和范围。
5.Acoustic vibration attacks
Accelword使用移动设备内置的加速器来提取人们语音中的热词，使用高采样率，Pitchln在物联网设备中使用运动传感器来窃听语音，作者采用一组与时间平行的传感器来进一步提高采样率，称为时间交错模拟数字转换（Time Interleaved Analog-Digital-Conversion（TI-ADC））。与先前的研究不同，Spearphone探索使用手机内置的运动传感器来揭示智能手机扬声器的声音的可能性，Spearphone可以执行性别分类、用户验证以及语音识别甚至重构。
6.Voice assistant privacy protection

voice assistant system.png
两个隐私问题：其一是声音记录上传到云端而不是保存在本地；其二是系统可能验证错误导致敏感信息泄露。
随着移动边缘计算的进步，相关研究创建了分散声音处理系统以减少对云端的依赖，而不必向云端上传敏感语音，You Talk Too Much and Spreech在他们向云端传送要处理的输入语音之前，在本地净化语音输入，其他研究使用机器学习技术来检测与语音助手系统交谈的恶意命令来帮助用户配置第三方的授权。Vauth使用可穿戴设备收集用户表面的振动并与语音助手系统收到的语音控制进行比较。另一些工作结合多因素（包括声音、视频、头部以及身体运动）来保障认证。Blue等人提出了使用移动设备与物联网设备的双因素认证系统（besides of voice biometrics），他们使用移动设备与物联网设备的麦克风来测量到达方向（Direction-of-Arrival(DoA)）以此来定位命令的声源，只有声源靠近移动设备时，语音助手系统才接收声音。

Short-range Communication
communication work.png

short range communication.png

1.Audible Communication
Dhwani使用现成的手机实现了短距离通信并利用全可听频带达到了2.4kps的数据率，这个系统使用以OFDM以及键位频移来减少环境噪声以及振幅的影响。Priwhiper使用8-10kHz可听频带来实现1kps吞吐量的短程通信，其采用频移键位来调制信号并估计环境噪声的电平来协助传输机决定信号强度。Dhwani and PriWhisper应用友好的阻塞技术来执行安全通信，具体而言，当发射机传输数据信号时，接收机传输随机干扰信号，由于只有接收机才知道阻塞信号，合法的接收机可以解码信号而攻击者不能，但是，通信中的可听声在人类感知的频率范围内，引起不良好的用户体验。
2.Comunication Through Embedding Message in Common Audio
为了提高用户体验，一些研究使用信息隐藏技术来进行听觉声学通信，早期两个系统使用OFDM调制数据并将信号嵌入到常规音频信息中实现不可察觉的声学通信。Dolphin利用人类声觉系统不掩藏效应在人类不可察觉的情况下同时传输数据携带信号以及日常声音，然而这些研究仅能实现低于1kps的吞吐量，并且通信过程也会产生可听见的声音。然而，与其他基于机器学习的方法类似，这项工作需要额外的培训工作，这阻碍了它的广泛应用。从声传感模式中消除位置和方位信息仍然是一个有待解决的问题。
3.Near-Ultrasonic Communication
Chirp使用近超声带宽chirp信号来支持长距离的通信（25m），这项工作使用chirp信号的预期自结合特性（即chirp二进正交键）来消除频率和时间选择的衰退和提高声波信号的传输质量。开发新的同步和携带传感算法来区分chirp信号和环境噪声并进行通信。U-Wear在可穿戴医疗设备中实现超声通信，包括物理层、数据链路层、网络层，这项工作采用高斯最小频移键控和正交频分复用（OFDM）技术分别实现窄带和宽带信号传输，在2 kHz的带宽范围内可以实现2.7kbps的吞吐量。由于频带较窄，所以这种方法的吞吐量受到限制。
4.Ultrasonic Communication
两项研究发现麦克风的非线性特性，这可以在声波信号的超声波频带上进行无线通信。具体而言，Backdoor使用FM调制在超声信号的数据，以达到非语音性，吞吐量达到4kps。Dolphin Attack通过AM调制超声波携带信号上的语音命令，发出无声的语音命令攻击。最近的一项研究创新性地将OFDM复用技术与非线性模型和AM一起用于在超声频带中的多个窄带信道上传输数据，以便同时实现高吞吐量（即47.49kbps）和不可听性。
5.Water-based Medium Acoustic Communication
最近一项研究设计了与正交相移键控调制相结合的专用硬件，以进一步实现矿物油通信的250kbps的吞吐量。也有研究在人体组织中传输非常短的超声脉冲，其占空比自适应可调，并遵循伪随机自适应跳时模式来实现通信。

4 Limitations and discussions

Interference of Environmental Noises
当模型中参入环境噪音时，系统的性能会有所下降，另一方面，由于普遍存在的声学噪声，声学通信系统必须缩小其操作带宽，以减轻噪声的不利影响，这将影响通信的吞吐量。在未来的研究中，需要更多的努力，如多声信号的智能剖面校准和先进的数据滤波/机器学习技术，以提高基于声学信号对噪声的抵制力。
Impact of Location and Orientation
除了环境变化之外，用户的定位和方向对基于声学的系统性能至关重要，早起的研究使用声学信号的多普勒频移效应，来识别驾驶行为，这要求用户每次在同一位置和方向以保持识别性能。此外，对于大多数涉及人类的活动，不同的位置和方位会导致声波信号感知的ToA/TDoA模式发生不同的变化
Impact of Multi-user in the Sensing Area
大部分的基于声学的传感方法只能关注单个用户，为了解决这一问题，系统将除了目标用户之外的周围的用户的运动视为干扰，并使用不同的方法（如查分CIR，信号梯度等）来减弱它们，然而这些研究并不能从本质上解决多用户传感问题，因此未来的潜在方向可能在于融合其他传感器(例如相机、WiFi)，而不仅仅是使用声学信号。
Concern of Security and Privacy
最近的研究表明使用声学信号对流行的语音助手系统（如Apple siri and Google Now）发射语音对抗攻击的可能性，有一些研究表明智能手机的惯性传感器的读数可以被用来揭示语音信息（如说话者的性别和语音内容）。为了对抗策略，一些研究建议用户提高和控制麦克风来抵抗按键窥探攻击和声学振幅攻击，另一项研究使用机器学习技术来对抗恶意的隐藏语音命令，利用运动传感器对语音诱发振动攻击的防御策略仍然是一个有待解决的问题。

Acoustic-based sensing and appli