声音堪比DNA 在AI加持下妙用无限

2019-06-12 09:47 来源:智能制造网

如果让你单纯听一个人的声音,你能听出哪些信息?年龄?性别?还是家乡?对于AI来说,这些都太没难度了。近期,一项由美国麻省理工学院给出的研究表明,经过训练的AI不仅能从声音中获取人们的性别、种族、年龄等信息,甚至连你长什么样它都能听出来!

据了解,这一能完成“听声辨人”操作的AI,主要依赖一个叫Speech2Face的神经网络模型来完成训练。该模型分为两部分,一个是语音编码器,负责对输入的语音进行面部特征分析和预测;另一个是面部解码器,对输入的面部特征进行整合与生成。

timg.jpg

声音堪比DNA 在AI加持下妙用无限 

在实际操作中,研究人员通过将一个百万视频剪辑而成的数据集放入模型,然后让AI进行一段时间的自我训练,之后只需凭借6秒钟左右的语音,AI就能实现对人脸特征的采集和还原,并且呈现出效果不错的图像。

从MIT研究团队给出的部分训练成果,我们可以发现:Speech2Face能较好地识别出性别,对白种人和亚洲人也能较好地分辨出来,另外对30-40岁和70岁的年龄段声音命中率稍微高一些。不过,由于AI的“听觉”不是100%可靠,并且训练素材不够丰富,其也会产生不少的识别错误,同时对黑人声音的辨别能力也偏弱。

虽然该技术还不是很完善,但满足MIT最初的设想已经绰绰有余。研究团队指出,他们训练AI这项功能并不是为了准确还原说话者模样,而只是单纯为了研究语音与相貌之间的关系,并以此来用语音生成各种可爱的卡通用户头像。

可能你会觉得这样一个技术用作头像生成有点大材小用,别担心!因为其实类似的技术,目前其他研究机构也在积极开展中,并且有的已经投入到了一些有意义的应用场景。

比如卡内基梅隆大学曾发表过相似的研究,能够从声音猜测说话者的年龄、身高、体重、所处空间和环境信息。该大学研究人员认为声音就像是人类的DNA一样,蕴藏着丰富而独特的信息,在各行各业中能够获得妙用。

他们在该技术识别和还原准确度超过60%的时候,开始正式投入社会进行应用测试。目前,美国海岸警卫队仍在利用这项技术来识别恶意报警者,这项技术帮他们分辨出了报警者是否为恶作剧,同时缩小了调查的范围,这让他们每年减少了近150个恶作剧电话,节约了大量警力资源。

而据了解,卡内基梅隆大学的研究团队最终的设想,是用AI这项“听音识人”技术来远程确诊帕金森等疾病。希望这项技术能够打开现代医疗的创新大门,为疑难杂症和一些绝症提供解决思路与办法。

除了将类似技术用于刑侦和医疗之外,现实中,相同的技术还被应用到了银行、保险、客服、招聘等众多场景与领域。其中,汇丰、摩根等银行采用声纹识别的方式来保障用户账户安全;大都会人手保险公司利用AI系统来识别客户的情绪与感受;一些保险公司用这项技术来判断来电者的意图;还有一些公司则将该技术用于招聘......

此外,2017年丰田汽车还曾在CES大会上,将该技术应用到了驾驶当中。AI被加载在摄像头、传感器、车载语音系统之上,协助判断司机是否处于疲劳驾驶状态,并及时作出提醒。这项技术让司机的驾驶有更加了智能化的保障。

总而言之,不管是何种应用,AI“听音辨人”的功能无疑是价值重大的,我们有理由相信,这项技术最终会越来越多的出现在往后的生活与生产之中。不过,AI未来如果想真正成为人们的好帮手和好伙伴,眼下还需要进一步的升级与突破,发展之路还需期待!

责任编辑:潘一大