迎接AI革新!安防行业需求如何与技术浪潮共舞?

2024-01-02 01:12 来源:中国安防协会

在ChatGpt之后,AI大模型成为各行业竞相追逐的新方向,安防行业也不例外。AI大模型作为新风口,为企业带来了新的业绩增长机会。然而,面对大模型时代的到来,安防行业是否已经做好了准备?

一、AI加速迭代行业大模型不断涌现

去年年底以ChatGPT为代表的生成式人工智能技术在全球掀起一轮AI热潮,随之国内互联网大厂、人工智能企业纷纷紧跟,各类AI大模型层出不穷;李彦宏、张勇等互联网大佬也一致断言大模型将颠覆整个行业。

时至今年下半年,随着类似ChatGPT等基础大模型喧嚣过后,AI行业化大模型逐渐占上科技创新的浪尖,无论是今年7月份上海的2023世界人工智能大会,还是此次厦门投洽会重要展区警安法务科技展,“行业大模型”成为活动的“顶流”与谈论的高频词,下半年不断涌现的垂直行业大模型也有力证明了这一事实。

相关业内专家也表示,通用大模型研发基本是互联网大厂们的专属战场,强有力的计算能力、大量有效的数据资源,以及高成本的长期训练和推理正是这些巨头具备的优势。然而通用大模型对于更关注碎片化场景下的行业用户而言,无法满足他们具体业务的需求。因此,强人工智能真正要落地应用、赋能行业,还需要依赖行业大模型。这也是为何今年在6月份召开的第十六届(2023)中国国际社会公共安全产品博览会上,相关企业行业大模型应用Demo纷纷亮相。比如宇视首度推出行业大模型梧桐系列云端应用、商汤科技带来日日新SenseNova大模型、联汇科技的视觉语言大模型OmModel以及熵基科技自主研发的BioCVLLM大语言模型等,展现出行业化可喜表现。

此次警安法务科技展上,行业大模型在警务及司法领域又展现出新的技术变革,美亚柏科推出了国内首个公共安全大模型一体化装备——“天擎”。“天擎”拥有丰富的公共安全行业知识,具备强大的警务意图识别、警务情报分析、案情推理等业务理解和推理能力,能够从海量数据中持续自我进化,实现行业知识、业务问题,解决反馈的全流程闭环进化,大大提升办案效率,大幅降低业务成本;在人工智能论坛上,清华大学互联网司法研究院带来了面向司法领域的大语言模型构建探索与实践,为司法大语言模型落地提供了很好的路径与思考;苏州科达基于公安实战业务提出KD多模态大模型,推动大模型在安防行业生根发芽。

二、安防市场的需求与技术浪潮撞了个满怀

如果用一句话总结,可以说是:安防市场的需求与技术浪潮撞了个满怀。

在这一轮新的AI风口上,四小龙都纷纷赶考多模态大模型:商汤发布了“日日新大模型”,云从发布了“从容大模型”,旷视也发布了轻量级LLM模型推理框架...今天,依图的“天问”多模态大模型虽正式发布较晚,但事实上已经得到了客户的积极认可,目前在已在30多个项目中部署应用,落地进程更进一步。

这些AI的老玩家们,从上一轮厮杀中,顽强活了下来,如今藉由此前积累的数据和行业认知,从视觉切入多模态大模型,是一次水到渠成的向外拓展。

近两年,安防行业发展进入瓶颈期,增长乏力,放眼安防行业的主要参与者们,无人不渴望变化,纷纷在广度、深度两个方向寻求破局之道。

广度上,狭义上的安防市场,从以抓逃布控为主体的公共安全业务,走向更综合的城市治理类业务;与此同时,泛安防市场借助视觉智能化技术,向前进入更大的ToB企业市场,同时增加非视频投入,通过扩充产品线,寻求更大的增长空间。

深度上,企业仍以视频为核心,在智能技术上进一步投入感知智能、认知智能,部署大模型能力。

这两个方向的开掘,都与视频的智能化紧密结合。

从早期“看得见",到“看得清",再到今天大模型赋能下的“看得懂",视频智能化经历了L1-L5五个阶段的进化:

从图片的结构化标签到视频的语义理解;

从众多的判别式任务模型到视觉为基础的多模态大模型;

从端侧摄像头AI算力到云边侧集中式服务器AI算力;

从人、车的识别到长尾物体的识别;

从标签式筛选交互到基于语义的人机多模态交互。

在L5阶段,大家基本达成一个重要共识:以Transformer为基础的大模型统一了视频和大数据的底层框架,也开启了视频智能化情境理解的新时代。

意味着面对同一个指令,整个流程将从割裂的两个步骤简化成一个步骤,并且由于省略了中间过程,预测准确性将极大提升。

以统计A路口过去十天的拥堵状况为例,以往的做法是,先通过摄像头做解析产生大量结构化数据,再到数据库环节匹配结果;而视觉和大数据的融合,将非结构化的视频和结构化的数据库做了融合,变成用一个模型统一解决,具体到操作,只需语音指挥即可,“过去10天A路口特别拥堵,请将该路口的摄像头调取出来”。

换言之,大模型时代,当数据从一端流入,结果就会从另一端直接流出。

三、公安行业案例

于公安行业,将是一场警务信息化系统的大改造。

首先,大模型将带来视频智能化建设的重大转变。

视频智能化建设分两种模式:一是图片流,前端相机直接做智能化,然后把图片回传后端做进一步分析,缺点是大量信息被丢失;一是视频流,前端摄像头负责捕捉,后端进行视频分析,虽然保留了视频中的所有语义,行为能被完整刻画,但由于没有大模型的加持,视频完整语义的价值并没有被完全挖掘和使用。

走视频流的智能化路线,是对客户更加负责的选择,“图片流只能做人脸识别,随着业务需求增长,图片流建设模式就会变成断头路,只能换新相机;而视频流对前端建设有利于保护,只需后端升级算法即可。”

考虑到大模型只能部署在后端,未来视频流智能化或将成为主流。

其次,是IT基础设施的重大变化。

前面已经提到,传统的信息化技术,通过前端摄像机会产生大量结构化数据,结构化数据存在数据库里,数据库则存在硬盘里。

大模型时代,所有数据经过模型处理,会生成蕴含对视频语义完整理解的特征向量,特征向量存在向量数据库里,向量数据库存在显存里。

在从传统数据库变到向量数据库的过程中,基础设施层面,也将从过去建CPU为主的数据库系统,到建设GPU为主的向量搜索系统。

再者,从生产过程讲,有了预训练大模型,用户需求端到端的时间以及成本会被极大压缩。

一方面,用大模型技术替代过去小模型,可以极大压缩生产过程周期,降低算法研发成本,让客户更快享受到技术的红利。

比如,当用户要做一个“骑电瓶车不戴头盔”的需求时,AI公司需要先收集数据做训练,需求提出到满足,至少一到两个月。

有了预训练大模型后,只需输入“骑电瓶车不戴头盔”的指令,就能生成算法,一周时间即可达到之前一两个月才有的效果,并且时间越长,模型精度越高。

另一方面,通过算法和算力的端到端的整合,也会带来成本最小化。

最后,从业务层面讲,传统的指挥中心、移动警务、侦查破案等都会发生重大变化。

比如指挥中心可以直接通过语音调取摄像头,如“帮我调取所有公园的视频”、“帮我调取所有现在拥堵路段的视频”;移动警务也将变成,民警在路上巡逻上时,不再需要在执法仪上打字,而可以高效率地通过语音输入指令,如“请查询前方戴黑色帽子的人的身份。”

责任编辑:石旭