广告

云测数据攻破行业天花板之后 AI数据的边界在哪?

2020-10-10 17:53 来源:cnBeta

在AI大行其道的当下,算法、算力与数据这驱动AI崛起的三大因素,谁将成为检验其能否产业化的试金石?答案必然是数据。

众所周知,深度学习作为当前AI技术的研究前沿,其成功与否背后直接与产品落地直接挂钩。从学术角度来讲,深度学习的原理是将标注的数据特征反向输送给机器,以实现机器智能这一目标。然巧妇难为无米之炊,没有AI数据便无法应用更复杂的模型,亦无法得出效果更优的算法。

尤其随着AI技术在行业内的落地应用,原有通用AI数据集很难对算法准确率与鲁棒性能力实现进步一提升,因此破局之道全部寄希望在了场景化的高质量AI数据之上。

数据难求?高质量AI数据更可遇不可求

回归本质来看,以近年来炒得最热的CV+AI为例,其不仅可实现人脸识别,也可应用于养殖领域。而这套模式之所以能在其他领域跑通,原理在于技术本身是有共性的,差异取决于所训练的AI数据样本。

在这其中算法仅是一小部分,核心依旧离不开AI数据。谁能够拥有高质量的还原落地场景的AI数据,谁便能快人一步实现产业化落地。

因此对于人工智能企业来说,优质AI数据的必要性毋庸置疑。企业深知AI数据的真正价值已不在数据本身之上,而在于背后所反映出的真实性与科学性。但数据难求,高质量的AI数据更是可遇而不可求,也正是基于这样一个背景,数据标注行业开始出现在视野中。

然目前来看,早期的数据标注发展仿佛让人们看到了十年前IT外包行业的缩影。层层众包与转包的服务模式,致使数据交付精度层次不齐、数据隐私无法保障等现象频发,直接拉低了AI数据行业整体服务质量。

3cb360be540e1730b14f9baa313895f6.jpeg

云测数据攻破行业天花板之后 AI数据的边界在哪?

此外,过于依赖人力的标注方式,也让各个环节暴露了大量弊端。如在语音转写类标注时,人类标注员很难在长时间下保持时刻专注。再比如机器视觉类项目中,一套项目至少涉及数以万计的图片标注工作,常会引发标注任务不够细化、缺乏定制化标注能力等问题。而此时若投入大量人力,则又会产生极大成本负荷,外加中间商等各项因素的影响,久而久之让行业进入了一个恶性循环当中。

云测数据服务成果发布?引领数据标注跨入高质量时代

反观整个数据标注市场,虽有公开数据集、标注工具、以及半监督学习一类技术的存在,但对于现阶段AI产品面临落地的产业环境,没有高质量还原场景的AI数据的支撑,想要产业落地无疑是空中楼阁。

正如行业流行的那句话所言——“前面有多少智能?后面就有多少人工”。因此如何将人类经验与学习规则充分结合以获取符合算法需求的高质量标注数据,如何制定标准审核流程和控制标注质检成本等问题,既是挡在AI产业化前方的拦路虎,也是摆在高质量AI数据获取面前的难题。

为解决行业存在的现实问题,助力企业占领未来发展高地。在9月6日的北京服贸会上,Testin云测旗下AI数据服务品牌——云测数据的服务成果正式发布,并向外界展示了最高交付精准度达99.99%这一傲人成果。

区别于传统模式,云测数据以自建形式搭建了数据场景实验室与数据标注基地来对相应AI数据进行生产。以标准化服务为抓手,在前期帮助客户梳理更贴合实际情况的需求,试标验收合格后开始大规模作业。作业提交后,还有三层质检环节和抽检环节来确保AI数据的高质量输出,并有项目经理全程跟踪数据交付的流程。通过这种服务模式来解决AI数据质量参差不齐这一诟病。

再者,过往数据标注人员常以单台电脑部署软件形式为主,这种工作模式基本毫无协同性可言,极大程度拖慢了人员效率与项目周期。而云测数据在AI数据生产中,设计了从创建任务、分配任务、标注流转、到质检/抽检环节和最后的验收等更完善的管理流程,每个环节有相应专业人员来把控数据标注的质量和时间节点,进行好上下游工作环节衔接,得以在保证质量的前提现下将效率最大化。

另一方面,与多数开源与在线标注工具相比,后者存在着极高的部署门槛与学习成本,如不同版本间的不同编译与配置部署、标签设置繁琐、数据导出限制过多等问题。这对于技术驱动型的AI企业而言,将成为业务最致命的死穴。

而云测数据这套模式,全方位支持企业在文本、语音、图像、视频等各类AI数据处理需求,且已完成对智慧城市、智能家居、智能驾驶、智慧金融等不同行业的覆盖。这种服务体验,将企业精力重新聚焦在业务自身之上,从长远来看也更符合当前降本增效的业务需求。

Testin云测总裁徐琨在采访中指出:“为客户降本增效,不断为客户创造价值,帮助客户在这个充满不确定性的时代,或保持优势,或突围而出,依然是我们的初衷。”

此外,考虑到不同业务类型不同敏感级别的数据隐私需求,云测数据亦设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当AI数据合格交付后绝不留底。其二便是所有与云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的AI数据合法合规。并通过内部设定的数据隔离、质量保障等一系列数据安全流程和技术,从多个维度破解潜在的数据泄露风险。

高质量数据攻破AI行业天花板

复盘近年来AI发展,这个时代标志性技术,已然从学术界逐步走进了产业界中。虽然其催生出的大量新业态被看好,但真正能够支撑落地的应用仍属凤毛麟角。

如近几年炒的异常火热的无人驾驶,之所以很难脱离测试道路,原因便在于机器对复杂道路的理解不尽人意,而究其根源依旧是高质量AI数据的稀缺。再如近期发表在《欧洲心脏杂志》上的一项AI看诊新技术,之所以对其的描述仍为‘深度学习工具迈出的新一步’,问题本质仍出在精确度远未达到推广到临床环境中所需水平方面。

不可置否,高质量AI数据已是AI能否实现产业化的关键。尤其在当前5G商用落地加速以及“新基建”的双重带动下,产业与经济结构的调整升级、新旧动能稳步转换推进已是大势所趋。因此,云测数据最高交付精准度达99.99%的这一成果,必将成为AI产业打破自身天花板的一个全新变量。

正如Testin云测总裁徐琨所说:“效率的提升最终都是通过技术来实现的,新技术孕育着新机会。人工智能是划时代的技术,我相信,在不久的未来,人工智能将成为像互联网一样的通用型技术,云测数据作为人工智能技术的AI数据服务提供商,将成为AI创新的土壤和支撑。”

责任编辑:潘一大