广告

当机器学习被爆种族歧视,看美式问题对安防的影响

2020-06-28 10:00 来源:智安物联网 作者:缙霄

奥巴马,美国历史上第一位黑人总统,其肤色背后的意义,想必不用多说。近日,在一次 AI 生成的图像中,将奥巴马低分辨率的照片输入后,输出的却是一位白人图片。

微信图片_20200628103530.jpg

恰逢美国近期种族主义兴起,一时间掀起了轩然大波。不仅仅是奥巴马,通过同样的算法输入低分辨率的女演员 Lucy Liu 的照片或女议员 Alexandria Ocasio-Cortez 的照片生成的图像面孔看起来明显是白色的。国外社交网站一则推文引用了奥巴马的例子说:“这张图片充分说明了人工智能存在偏见的危险。”

AI也有种族偏见?

首先,我们需要对这里使用的技术有所了解。 生成这些图像的程序是一种叫做 PULSE 的算法,该算法使用一种称为“升级”的技术来处理视觉数据。

这种技术就像你在电视和电影中看到的画面,通过“放大和增强”使视觉效果更强。但是,不像好莱坞大片中的特效画面,软件不能无中生有地产生新的数据。 为了将低分辨率图像转换为高分辨率图像,软件必须使用机器学习来填补空白。

PULSE 所做的是使用 StyleGAN 来“想象”高分辨率的像素化输入。 它不是通过“增强”原来的低分辨率图像,而是通过生成一个全新的高分辨率的脸,当像素化时,看起来和用户输入的一样。

这意味着每张去像素化的图片都可以通过多种方式进行高倍放大,就像同一套食材可以做出不同的菜肴一样。这也是为什么你可以使用 PULSE 看到游戏、动画甚至表情符号生成高分辨率的人像图。算法通过寻找图像中的细节创造新的面孔还原到输入数据中。

但PULSE 的创建人表示,当使用该算法放大像素化图像时,该算法更经常生成具有白人特征的脸部,这一趋势很明显。他在 Github 上写道: “ 看起来 PULSE 生成白人面孔的频率要比生成有色人种面孔的频率高得多。这种偏见很可能是从 StyleGAN 所训练的数据集中继承而来的,尽管可能还有其他我们不知道的因素。”

换句话说,当前美国人种依旧以白色人种为主,黑人仅占总人口数的17%,这一客观现象反映到 StyleGAN 所接受的数据训练上,就带来了 当它试图想出一张看起来像像素化输入图像的脸时,它默认为白色特征这一结果。

争论不休,科学家看法不一

除了上文所述“数据基数影响表现”的说辞外,人工智能学者马里奥 · 克林格曼认为,是 PULSE 选择算法本身,而不是数据,造成了这一切。克林格曼指出,他能够使用 StyleGAN 从同一张像素化的奥巴马图像中生成更多非白色输出,如下所示。

微信图片_20200628103603.png

素化的奥巴马图像中生成的更多非白色输出

克林格曼表示,这些人脸是使用“相同的概念和相同的 StyleGAN 模型”生成的,但使用的是 PULSE 的不同搜索方法。他表示,我们不能仅仅从几个样本来判断算法。他说:“可能有数百万张可能的脸都会归结为同样的像素模式,所有的脸都同样‘正确’。” 

顺便说一句,这也是为什么像这样的工具不太可能被用于监视目的的原因。这些过程创建的面孔是想象的,并且,如上文所述,与输入的基本事实没有什么关系。然而,这并不是说过去巨大的技术缺陷阻止了警察采用技术。

美国的特色问题,之于中国安防意味着什么?

实际上,种族歧视这种在美国大过天的东西,实质上在我国并不存在。因为一切一切的前提是只有在数据存在偏见时,机器学习系统才会有偏见。且不说这种在美国人看来“致命的错漏”在美国本土出现的次数都是极少数,就说我国自古以来就并非移民国家,华夏血脉一脉相承,皆为黑发黑眸黄皮肤的炎黄子孙,这种数据的偏见又从何而来?

虽然机器学习的这种错漏,对于我国民众而言可能只是茶余饭后的谈笑之资,但对于立志于走出国门,面向海外的安防企业来说,则是一颗需要时刻注意,随时都有可能爆雷的定时炸弹。

当下我国头部的安防企业如海康威视、大华股份皆于海外有相当的市场,虽然种族歧视问题在欧洲并没有美国一般严重,但依旧属于“雷区”,区别可能只是“传统反步兵地雷”与“核地雷”的区别。

需要格外注意的是,即便是“公平”的数据集通常也可以是非公平的。例如在一个准确反映英国人口统计特征的人脸数据集将以白人为主(英国主要是白人)。根据这些数据训练的算法在白人脸上比在非白人脸上表现更好。换句话说,“公平”的数据集仍然可以创建有偏差的系统。

加之当前许多商业人工智能系统都是直接根据研究数据和算法构建的,没有对种族或性别差异进行任何调整。如果在研究阶段不能解决偏见问题,那只会使现有的问题永久化。

结语

科技本无善恶之分,科技向善,重要始终是人。从某种意义上来说,奥巴马形象的价值不在于它暴露了单一算法中的一个缺陷,而在于它在直觉层面上传达了人工智能偏见的普遍本质。这颗雷的提前爆发,是对现象的责问,也是对众安企的提醒。“橘生淮南则为橘,生于淮北则为枳 ”不外乎此。

责任编辑:潘一大