广告

一文带你走进在线会议、智慧教育背后的支撑点

2021-01-07 09:42 来源:智安物联网 作者:缙霄

受疫情影响,当下视频会议与智慧教育领域市场激增。

据统计,2018年智慧教育市场规模为5320亿元,而到2019年,该数据猛增至6200亿元,并有望于2020年达到7320亿元,其年均行业复合增长率近16%。

而据宇博智库数据,视频会议市场规模由2014年的52.3亿元,增长至2018年的160.2亿元,4年间增长了两倍多,实现了32.3%的年均复合增长。另一方面,智慧城市的发展使得视频会议与其他数据驱动发展的经济模式快速融合,视频会议市场将于2019年至2023年间实现高达26.2%的年均复合增长,于2023年达到535.3亿元的规模。

无论是视频会议还是智慧教育,其背后的发展都离不开AI的加持。对此,美国兰德公司高级政策研究员、斯坦福国际咨询研究所(SRI)研究评估中心主任罗伯特·墨菲(Robert F. Murphy)评价道:“相对于人工智能在其他领域的颠覆性潜力,疫情对教育的冲击并未改变他此前的观点,但也要重视远程教学所引发的公众对人工智能教育的高度关注。远程学习支持自适应教学,广泛运用人工智能技术,为学生自主学习提供自动反馈和支持等,将会助力人工智能在教育中的应用与发展。”

微信图片_20210107094406.jpg

一文带你走进在线会议、智慧教育背后的支撑点

这也就是说,面对市场端的需求,如何更加合理地发挥AI技术的长处,将会是切入市场的重要因素之一。

RTC实时音视频技术

事实上,对于这些实时互动的音视频系统而言,RTC实时音视频是他们的支撑点之一。

实时音视频技术,英文全称Real-time Conmunicaiton,简称RTC,主要负责实时音视频通讯的稳定性和流畅性,关键词在“实时”和“流畅”,所以在互动直播、视频会议、在线教育等应用场景发挥着至关重要的作用。

但不同场景对于RTC实时音视频的诉求是不一样的,比如在线教育对实时音视频的稳定性、流畅度要求很高,因为一旦与实时的互动中出现音视频不可用,直接影响到学生的学习效果的,所以要求保障学生在上课的时候不能出现卡顿、高延迟的情况。而视频会议则要求RTC的技术实时性要达到一定的要求,一般来说实时互动的延时要小于400甚至300毫秒以内,与会人员才能顺畅、无障碍沟通。

但这个技术还有一个比较尴尬的问题,数据在互联网上的传输是以数据包为单位进行传输的,因为互联网、无线网的基本特征就是不稳定、抖动频繁,传输过程中会有一定的损失,互联网平均全天的丢包率在 4% ~ 6%左右,高峰期丢包率将高达10%以上。

丢包可能造成流媒体技术、VoIP、在线游戏和视频会议的抖动(jittering),并会一定程度上影响到其他的网上应用。要特别注意的是,丢包不一定表示有问题,在某种程度上是有可能被传输双方所接受的。

那么如何在丢包的情况下保障视频的稳定性,就显得尤为重要。

超分辨技术的发展历程

超分辨这一概念最早是在20世纪60年代由Harris和Goodman提出的,是指从低分辨率图像,通过某种算法或模型生成高分辨图像的技术,并且尽可能地恢复出更多细节信息,也称为频谱外推法。但是在研究初期,频谱外推法只是用于一些假设条件下的仿真,并没有得到广泛的认可;直到单张图像的超分辨方法提出后,超分辨技术才开始得到广泛的研究和应用。目前,它已经成为图像增强乃至计算机视觉领域的重要研究方向。

超分辨技术发展的总体趋势,基本上可以概括为从传统方法,到深度学习方法,从简单的卷积网络方法到深度残差网络方法。在这个过程中,超分辨模型结构越来越复杂,网络层次越来越深,单张图像的超分辨效果也越来越好。

用一句话来说,伴随超分辨技术的发展,人们能用更少的数据传输更清晰的画面,从而达成“又让马儿跑,又不给马吃草”的目的。

超分辨技术应用于RTC领域的收益与难点

在RTC领域,对于视频处理任务来说,大多是直播和会议等即时通信场景,对算法的实时性要求比较高,故而视频处理算法的实时性是需要优先考虑的。然后是算法的实用性,由于用户在使用直播或会议时,摄像头采集到的视频质量有时比较低下,可能包含很多噪点;另外视频在编码传输时会先进行压缩,压缩的过程也会导致图像画质退化,所以RTC实际应用场景比较复杂,而很多视频处理方法,比如超分辨算法在研究中的是比较理想的场景。

但值得注意的是,深度学习是超分辨算法的主流。对于这些需求,目前的超分辨方法尤其是基于深度学习的超分辨方法还存在不少问题。

当前学术界关于超分辨的研究大多还是局限在理论阶段,图像超分,尤其是视频超分如果要大规模落地的话,必须要去解决一些实际问题。首先是网络模型的问题,目前很多深度学习方法为了追求更好的超分辨效果,采用的模型规模比较庞大,参数量越来越多,会耗费大量的计算资源,在很多实际场景无法实时处理。其次是深度学习模型的泛化能力问题,对于各种深度学习模型来说,都会存在训练集适配的问题,在训练的时候所使用的训练集不同,在不同场景上的表现也不同,用公开数据集训练的模型,在实际应用场景中未必会有同样良好的表现。最后是真实场景下超分效果的问题,目前学术界的超分方法,大都是关于比较理想的场景,完成从下采样图像到高分辨图像的重建,但在真实场景中,图像退化不仅包括下采样因素,还会有很多其他因素,比如图像压缩、噪点、模糊等。

不过伴随着一些轻量级网络的出现,深度学习方法将来在落地应用方面可能会有更大的突破,这些问题也将会有望得以解决,未来超分辨技术也将会更加实用,进而为在线会议、智能教育以稳定、持续的赋能。

责任编辑:潘一大