作者:王泰辉
近年来,因为行人走路时戴着耳机而发生的交通事故越来越多。
走在熙熙攘攘的街道上,你会发现戴着耳机走路的人越来越多,在TWS流行之后,行人佩戴耳机甚至形成了一种新的时尚。但是随之而来的安全问题也越来越严重,据华盛顿日报报导,在车祸中丧命的行人数量连年上升。根据GHSA(Governors Highway Safety Association)的估计,2018年美国有6227名行人在街道上失去生命。
图1 戴着耳机过马路的行人戴着耳机的行人如何才能在不危及自身安全的情况下,屏蔽周围混乱的世界,沉浸在自己的音乐世界中?
哥伦比亚大学(Columbia University)电气工程助理教授、数据科学研究所(Data Science Institute)成员Jiang表示: “有时候,新型车辆的传感器可以判断是否有行人,但行人通常无法判断车辆是否处于安全范围。”。因此,一种可能的方案就是开发一种行人可穿戴的车辆警报系统。他第一次想到这个方案,是因为他注意到在上班的路上,佩戴降噪耳机会分散他的注意力。这种洞察力促使Jiang和同事们开发出 PAWS(Pedestrian Audio Wearable System),并于近日在 IEEE 物联网杂志上发表了他们的研究成果(原文请点击左下角“阅读原文”获取)。
论文摘要:
随着智能手机的普及,当今的行人和慢跑者经常在走路或跑步时听音乐。由于行人被耳机剥夺了会给危险提供重要线索的听觉能力,因此他们遭受汽车或其他车辆撞击的风险要大得多。在本文中,我们构建了一个可穿戴系统,该系统使用头戴式耳机中嵌入的多通道音频传感器来帮助检测和定位汽车的鸣叫声、引擎噪声和轮胎噪声,并警告行人即将有驶近汽车的危险。我们证明了使用由耳机安装的音频传感器,执行信号处理和特征提取的前端硬件平台以及在智能手机上基于机器学习的分类组成的分段架构,能够实时提供早期危险检测,并且最远距离可以达到 60m,低延迟和高精度地提醒用户。为了进一步降低电池供电的可穿戴式耳机的功耗,我们实现了定制设计的集成电路,该集成电路能够以nW的功耗计算多个音频通道之间的延迟。本文也提出了一种基于回归的声源定位方法,即通过多边形回归实现定位,并与IC结合使用,以提高定位的精度和鲁棒性。
PAWS系统简介
PAWS系统集成了头戴式耳机和智能手机,它使用五个麦克风和一组机器学习分类器来实时检测、识别和定位即将到来的汽车,并使用智能手机上的音频/视频反馈信号向用户发出警报。
该系统由三个主要部分组成:
1)传感器及其驱动等前端硬件;
2)用于多声道音频特征提取的前端信号处理;
3)智能手机;
基于机器学习的车辆检测和定位系统,如图2所示。四个MEMS麦克风(标记为MIC1至MIC4)分布在用户的左右两侧(用户的左耳,右耳,后脑和胸部),以提供有关声源位置的相关信息。前端硬件从这些麦克风同步获取模拟信号,并在本地提取供智能手机应用程序使用的声学特征。PAWS在前端硬件内部执行信号处理的操作,因此仅需要将提取到的特征通过BLE无线模块传输到智能手机,而无需传输大量原始音频数据。前端硬件是电池供电的嵌入式平台,位于耳机内部,耳机使用自己的一组麦克风进行声音处理。它不会影响耳机固有的扬声器和麦克风。这样,用户就不会感觉耳机的音质或麦克风质量有任何下降。
图2 PAWS分块图耳机的标准麦克风(第五个麦克风,MIC5)是3.5毫米音频输入。智能手机直接获取第五个麦克风的数据。来自智能手机/耳机麦克风的音频的获取方式与常见的使用方式相同,并且不会影响麦克风的质量或用户体验。使用前端硬件计算的特征和来自头戴式耳机麦克风的音频流作为输入,在PAWS应用程序内部运行的机器学习分类器可检测到正在接近的车辆并估计其相对于用户的位置。PAWS架构在前端使用单个低功耗微控制器,并依靠智能手机运行机器学习分类器以得到较低的延迟。
前端硬件
前端硬件负责PAWS信号流上的三个模块:
1)4个麦克风通道的同步ADC;
2)嵌入式信号处理;
3)与智能手机的无线通信;
将这些模块集成到可穿戴资源受限的系统中是一项艰巨的任务,并且诸如内存和数据传输速率之类的计算瓶颈需要仔细分配资源。
为了演示PAWS的系统架构和算法,作者使用了现成的组件来构建系统。如图2所示,四个MEMS麦克风连接到MCU。MCU同步收集信号,计算声源的时空特征,然后通过UART将结果发送到BLE模块。智能手机通过BLE模块与前端硬件连接。前端硬件由标准AAA电池供电,并设计为安装在商用耳机的左耳罩内部,如图3左图所示。
图3 前端硬件图前端信号处理
在本节中,我们讨论前端硬件中的信号处理。MCU必须同步采样来自四个MEMS麦克风的数据并提取声源的特征,而BLE模块负责将计算出的特征传输到智能手机。由于汽车可能会高速行驶,因此快速响应时间和低延迟至关重要。PAWS使用Cortex-M4 MCU实时执行数据采集和处理。
采样数据
通过一个8位逐次逼近型ADC和一个运行在微控制器中的四通道模拟多路复用器,以32 k的采样率从四个麦克风获取音频数据。选择该采样率进行采样,是在频谱内容所需的最低速率与低时间延迟估计性能之间的一个折中。
特征提取
由于在四个通道上所需的计算复杂性和数量众多,因此在Cortex-M4中实时运行特征提取算法具有一定的挑战性。为了提供连续的输入数据流,必须在接收下一个数据窗口之前完成特征提取。为了实现低延迟,作者简化特征提取的计算步骤,避免了复杂的乘法和除法。以100 ms为一个时间窗口(窗口重叠为50%),在获取的四个数据通道上计算出以下特征:每个通道相对于MIC1的相对功率,相对于MIC1的相对延迟以及每个通道的过零率。
数据发送
BLE模块收集生成的10个元素的特征值,并按照自定义协议将它们发送到智能手机(40字节数据包)。该协议包括一个验证头(3个字节),后跟一组硬件配置标志(1个字节),有效载荷大小(1个字节)和功能值(1×3个字节,用于MIC {2,3 ,4},8×3个字节用于MIC {2,3,4}的相对功率,而2×4字节用于所有四个麦克风的ZC)。
后端智能手机数据处理
PAWS系统中智能手机应用程序模块通过标准麦克风插孔从耳机接收44.1 kHz单通道音频流,从前端通过BLE获得声学特征,并进行实时处理。该应用程序带有一个图形用户界面,用于启动/停止服务,配置警报以及显示接近时间的时间表、汽车及其距离和方向。
图4显示了PAWS智能手机应用程序的数据处理Pipeline。该应用程序实现了一个两级Pipeline,分别用于检测和定位汽车。
图4 PAWS系统中后端智能手机中的数据处理Pipeline车辆检测
在此阶段,使用了两个经过离线训练的分类器来检测汽车的鸣叫声和发动机/轮胎的声音。第一分类器使用标准MFCC特征来检测汽车鸣笛。对于其他类型的汽车噪音,作者提出了一种新的声学特征NBIP,该特征不均等地划分了频率范围,以便捕获频谱低端能量的变化,该变化表征了来自汽车噪音中的的摩擦声。NBIP的详细计算步骤这里就不再介绍,感兴趣的读者可以参考原文。
引入的NBIP特征仅用于检测接近的汽车引擎和轮胎噪音。由于喇叭声在窄带中表现出很强的频率并且不像噪声,因此我们无法使用NBIP来准确检测喇叭声。因此,我们使用标准MFCC特征进行喇叭声检测。对于这两种分类(鸣叫声与引擎噪声/轮胎噪声),作者训练了单独的随机森林分类器,其效果明显优于应用于数据集的其他分类器(例如支持向量机)。
车辆定位
如果检测到汽车的存在,则执行Pipeline的第二个阶段。在此阶段,智能手机获取并使用从嵌入式前端系统接收到的四通道声学特征来估算汽车的距离和方向。四个多类随机森林分类器分别用于根据鸣笛声和引擎/轮胎摩擦声对八个方向和三个距离级别进行分类。由于特征向量仅为10维,因此我们将所有特征都送入两个分类器中,让整个实现过程变得简单。但是,主成分分析(PCA)表明,相对延迟和相对功率是与方向分类更相关的特征,而相对延迟与ZC和相对功率相结合是距离估计的相关特征。相对延迟与声源的方向有关,因为距离声源较近的麦克风将比其他麦克风更快地接收音频信号。除了确定三个距离级别之外,当在最近的级别(30 m以内)检测到汽车时,PAWS还会运行基于线性回归的fine-grained距离估计器。此步骤包括计算倒谱系数,然后将最大值拟合到以米为单位的实际距离。此步骤不会增加太多的计算成本,因为在汽车检测阶段已经获得了倒谱系数。
警报机制
该应用程序通过音频/视频反馈提醒用户。如果在用户配置的距离范围内(例如40 m)检测到汽车,则手机会振动、降低音量并发出蜂鸣声。还可以将其配置为播放自定义消息,例如,“您的{方向:左/右}上有一辆汽车在{接近,鸣叫}”。如图5所示。
图5 PAWS应用程序的交互截屏PAWS系统展望
目前,PAWS 能够定位60米以外的车辆,根据迎面而来的车辆的速度,至少可以提供几秒钟的警报。但是一个真正实用的警告系统也应该能够跟踪附近车辆的轨迹,并且只在它可能撞上行人时才提供警告。这可能需要研究人员找出更好的方法来跟踪行人的位置和轨迹,同时提供相应的车辆信息。
“如果你想象一个人在街上行走,许多汽车可能会经过,但没有一辆会撞到那个人”Jiang解释说, “我们必须考虑其他信息,使这个碰撞检测更加实用。”
另一方面,PAWS系统将如何利用噪音或其他信号来提醒耳机佩戴者还有更多的工作要做。巴纳德学院的行为心理学家约书亚 · 纽计划进行一些实验,看看什么样的警告信号能最好地提醒人们。目前,研究小组倾向于在立体声耳机的一侧提供警告声,或者可能模拟3D 警告声以提供更多的空间相关信息。
除了普通的行人,在繁忙的道路上执行交通检查的警察或戴着耳罩的建筑工人也可能受益于这种技术。PAWS 项目已经从美国国家科学基金会获得了130万美元的资金,该团队正在考虑最终将这项技术的一个更精细的版本交给一家公司进行商业化。
这或许也是耳机继TWS之后迎来的另一波浪潮,Who Knows?
- End -
网友评论