9月15日,由即构科技ZEGO主办的2018音视频技术嘉年华在来到上海。这次,我们邀请到了即构科技、TutorABC、咪咕视讯、触宝科技、Intel的5位音视频技术专家,就音视频圈热议的WebRTC、Qos、AI、4K,以及新一代视频技术,和现场70多名技术爱好者共同交流讨论。
考虑到有些朋友没有到现场,小极狗特摘取了部分精彩内容,和大家分享。
《AI技术在实时语音通信的探索》
分享嘉宾:吴威麒,触宝科技staff data scientist
现场,吴威麒老师跟大家介绍了VOIP语音技术,以及语音处理与机器学习之间的关系,重点从三个技术方向介绍了AI技术如何跟传统的语音技术结合。
一是回声消除,VOIP技术是比较传统的技术,首当其冲的就是回声消除。我们可以把回声消除的非线性处理和AI技术结合,尝试解决多极值点、收敛速度和回声路径的问题,由于数据量问题,并不能直接套用DNN(深层神经网络)方法,所以采用局部模块结合机器学习,能产生一定的作用,但不能完全解决。
二是语音降噪,吴威麒提出了深度学习降噪的新思路,除了常用的mapping方法,像GF-TPS、MASK和RDAE(去噪编码器)都是值得学习的。而基于深度学习的降噪方法,在非平稳情况下效果突出,但仍需改进增强方法的稳定性。
三是端点检测,传统的信号分析法需要遍历全部数据,而结合AI技术的VAD更加适合分类学习的方法,或者将语音信号看作图像使用CNN(卷积神经网络)进行学习,在性能上比传统方法有显著提高。
最后,吴威麒老师表示,在语音通信领域中,传统的信号处理方法依然存在且有效,而结合AI技术的语音处理也有其优势,在实时语音的降噪和VAD处理上有更好的效果。
《Zego WebRTC网关服务器实践与Qos策略》
分享嘉宾:黄开宁,即构科技音视频资深架构师
黄开宁老师和大家分享了音视频圈的热点技术——WebRTC技术,结合即构WebRTC网关服务器的实践,介绍了WebRTC架构的设计和网关实现以及Qos策略。主要包含了四方面内容。
第一部分,黄开宁老师给大家介绍了WebRTC的发展历程,并从教育、医疗、直播等不同应用场景介绍了WebRTC的接入使用。
第二部分是WebRTC网关架构的设计,作为平台商,他表示需要根据用户实际需求选择合适的网关架构,因为网关的作用是将现有系统和WebRTC进行打通。黄开宁老师还和大家分享了不同的拓扑方案,并详细地介绍了Mesh、SFU、MCU方案的优缺点和即构WebRTC网关架构。在即构的架构中,由于考虑转码和混流对于服务器的要求比较高,所以即构的架构是分布式的,通过架构性调整输出以保证质量。
第三部分是WebRTC网关的实现方式,一般可以选择现有的开源项目、自主研发或者第三方SDK。作为技术主导型的公司,即构的方案是自主研发的,他表示在自研WebRTC网关过程中遇到了不少的困难,首先是WebRTC的连通性,由于WebRTC 的连通性能是有问题的,所以需要自行打通,另外是RTT计算,在传输过程中RTT是重要的指标,即构的方案中是通过ICE协议的标准特点更准确地获取RTT数据,最后是关键帧的请求,由于WebRTC协议特点,需要增加对关键帧的获取。
第四部分是有关Qos策略,其中包括丢包重传和码率控制,具体策略有ARQ、FEC、GCC等。
最后,黄开宁老师总结到,目前在WebRTC标准下,实现程度不一,我们仍需解决的不同平台的兼容性问题,以及不断优化Qos策略。
《支持复杂交付的实时互动云课堂》
分享嘉宾:董海冰,TutorABC研发总监
与前两位老师演讲的角度不一样,董海冰老师给我们分享的是如何通过自主研发获得实时音视频互动的能力。
首先,他给大家介绍了WebRTC的相关知识,包括WebRTC的架构、浏览器支持的情况、WebRTC协议栈和连通性等,在连通性的介绍中着重分享了SDP协议、SFU、MCU的优缺点,另外还介绍了几个WebRTC的开源项目。
接着,他分享了TutorMeet+的概况,这个项目是使用Go语言进行开发,目前已经是2.0版本,底层的路由器也是自主研发的。在自主研发的过程中面临了不少的挑战:
一是前端布局、设备获取等交互设计随着业务模块的增多变得复杂,加上前端技术也是蓬勃发展,导致版本快速更新迭代;
二是不同网络情况下的控制算法需要灵活选择,因为网络情况是很复杂的,相应的控制算法也不少,重点是如何选择合适的控制算法进行匹配;
三是数据和服务上怎样排查故障,他表示Tutor是采取半自动化系统进行检测,绝大部分故障能够通过AI方式判断然后做相应的处理,其他故障则由人工分析解决;
四是灰度和分区策略,他表示为了避免出现故障,在区域内先进行测试,没问题才进行区域扩张。
最后,董海冰老师表示,未来,在在线教育领域,像互动编程交互、电子笔支持、AI技术、AR/VR技术和IoT产品等都是值得期待的。
《Intel CS for WebRTC媒体服务器架构设计与实践》
分享嘉宾:戴建辉,英特尔多媒体架构师
戴建辉老师从产品的角度给大家介绍的是基于WebRTC的通讯架构套件——英特尔CS,但是在原有的基础上,加入了其他转码服务、AI服务和流媒体服务,所以说这已经不仅是局限于WebRTC的产品。
英特尔CS主要包含三大模块的内容:客户端、服务端和云上的分布式部署。客户端通过SDK接入,支持多终端平台;服务端主要基于底层硬件加速服务对视频处理、编解码、图像增强等进行加速;云上的英特尔CS分布式架构支持多种WebRTC部署方式。
服务端中对音视频主要有四种处理方式:转发、转码、混流和视频分析。在视频分析中,主要根据在客户端接到的视频流分发到不同设备而选择不同的方式,其中有直接转发、经过转码后再转发,或者是经过混流后转发。
在传统的视频会议中,英特尔CS的混流支持多种定制化模式,可以根据设备能力选择合适的视频帧率,接入媒体服务端后还可以进行视频分析。他表示,目前英特尔CS支持软硬件加速。转码相对比较简单,都是基于英特尔的Media SDK 进行硬件加速。
在新加入的视频分析功能中,通过识别的人像推导边界信息,加上试点通知,可以推测出当前画面的人数,这个是通过openVINO对于神经网络进行加速得到。目前,英特尔CS的加速主要通过DNN对CPU进行加速和通过实现架构对CPU进行加速。
最后,戴建辉老师表示,目前英特尔CS的媒体处理部分是开源的,WebRTC产品也是逐渐实现开源,欢迎大家下载试用。
《4K实践及下一代视频技术探讨》
分享嘉宾:王琦,咪咕视讯技术总监
王琦老师给我们带来的是《4K实践及下一代视频技术探讨》的主题演讲,首先他给我们介绍了今年世界杯直播中,中国移动咪咕熟悉使用了4K技术进行直播,将传统直播中的25帧提升到50帧,加上多视角多机位,给大家带来了全新的直播新体验。
他表示,目前4K技术依然是通信领域关注的热点所在,随着4K技术的逐渐普及,中国也有了第一个4K频道,而未来视频产业在4K技术方面,对于分辨率、交互性、多终端的提高也是有所要求,他也期待在VR、医疗诊断、教育培训等多种应用场景中能更好地融入4K技术。
接下来,王琦老师给我们从分辨率、动态范围、色度、帧率和色深5个方面简单地介绍了HDR的相关知识,另外还介绍了目前移动网络的现状。随着5G网络的提出,其突出的下载速度、连接密度和时延数据,吸引了不少关注,目前各大运营商也在积极地准备,预计2020年能够投入使用。在5G网络新场景下,随着组网架构和业务要求的变化,在基础资源、架构、带宽、时延、同步等需求会有所不同,相关标准也需要进行重构。
他表示,在超高清技术和网络状况良好发展的大环境下,对于视频转码也提出了新的要求。目前使用的HEVC和H.265在标准专利收费上尚不明确,而随着5G网络的发展,大家可以关注我们国家自己定制的AVS标准。从数据上看,AVS标准的编码效率和质量等都是优于HAVC的,而AVS2也逐渐被国际组织所接受,大家也可以持续关注。
活动留影关注“即构科技ZEGO”公众号,回复“zego”即可获取嘉宾演讲PPT。
继深圳、北京、上海举办音视频技术嘉年华,后续我们还将在杭州、广州等地举办。
想参加的朋友,可随时关注公众号发出的活动消息哦。
网友评论