一、人工智能背后的操控者是谁
“9·11是犹太人干的,把他们都送进毒气室!种族战争现在开始!”
2016年3月23日,一个人设为19岁女性,昵称为 Tay的聊天机器人在推特上线。这个微软开发的机器人能够通过抓取和用户互动的数据模仿人类的对话,像人一样用笑话、段子和表情包聊天。但是上线不到一天,Tay就被“调教”成了一个满口叫嚣着种族清洗的极端分子,微软只好以系统升级为由将其下架。
这样的口号并不是聊天机器人的发明,而在社交网络上大量存在着。美国大选期间,一些所谓的“政治新媒体”账号发出的掺杂阴谋论、种族主义的内容,在Facebook上进行了病毒式传播。这有赖于人工智能协助下的“精准定位”:谁最容易相信阴谋论,谁对现实最不满?相应的政治广告和假新闻能精准地投放到这群人中,使人对自己的看法更加深信不疑。
因为设计缺陷而“暴走”的聊天机器人,和精心策划的线上政治行为,看起来仿佛是两回事。但这种我们似乎从未见过的景象,却指向了同一个“凶器”——大数据驱动下的人工智能。
人工智能会“作恶”吗?面对智能的崛起,许多人抱有忧虑和不安:拥有感情和偏见的人会作恶,而仅凭理性计算进行判定的计算机似乎也会“作恶”,且作起来易如反掌。这让许多人(特别是非技术领域的人)对人工智能的发展持悲观态度。
这种忧虑并不是最近才有的。人工智能这个词诞生于上世纪50年代,指可体现出思维行动的计算机硬件或者软件,而对机器“拥有思维”之后的伦理探讨,早至阿西莫夫开始就在科幻作品里出现。
14年前,威尔·史密斯主演的电影《机械公敌》里就有这样一个场景:2035年的人类社会,超高级的人工智能承担大量工作,并与人类和谐相处。这些原本完全符合阿西莫夫“三定律”的人工智能,在一次关键升级之后对人类发起了进攻。这些机器人拥有了思维进化的能力,在它们的推算下,要达到“不伤害人类”的目的,就必须先消灭“彼此伤害”的人类。
十分高产的科幻作家阿西莫夫(1920-1992)。
看起来,人工智能并不像人类一样拥有所谓“人性”,并不与我们共享一个道德伦理体系。然而将智能的“作恶”简单理解为“人性缺乏”,未免把这个问题看得太过简单。
一方面,机器似乎还不够“智能”。南京大学计算机科学与技术系副教授、人工智能专家俞扬认为,“人性”对于人工智能来说是一个非常“高层次”的东西。“描述一张图片上,有草原,有狮子,机器可以做到,”俞扬举了个例子,“而要归纳它是‘非洲’,就要更高级一些,对机器来说更困难。”他说,判断一件事情在道德上好不好,意义上怎么样,目前来讲并不是机器的能力范围。
而正视人工智能的“恶”,或许应该首先找出作恶之源——为什么人工智能忽然变得可怕起来?
另一方面,机器似乎已经太过“智能”,某些方面几乎要超越人类的理解。近 10年,人工智能领域迎来了爆发,这要得益于“机器学习”的发展:拥有强大运算能力的计算机程序能够对大量数据进行自动挖掘和分析,并学习各种行为模式。输入和输出不再是人工赋予的几个变量掌控,而是让机器在大量数据中自己分析特征,决定变量权重。
目前最火的领域“深度学习”就是这样——行业者有时会将其戏谑地称为“当代炼金术”:输入各类数据训练 AI,“炼”出一堆我们也不知道为啥会成这样的玩意儿。处理数据的神经网络,通常由数十个或者上百个(或者更多)神经元组成,然后用数层逻辑结构组织起来,运算过程及其复杂。智能程序自己给自己设定算法和权重,而最后为什么输出了某个决策,人类并不能完全理解。
这看起来就仿佛一种本能一样——蒙特利尔大学的计算机科学家约书亚·本奇奥将其称为“人工直觉”(artificial intuition)。
我们会信任一个我们“无法理解”的决策对象吗?当它出错的时候,我们能够察觉、能够纠正吗?
“我们必须清楚地知道人工智能会做出什么样的决策。对人工智能的应用范围,以及应用结果的预期,一定要有约束。”俞扬认为,“黑箱”的现实应用,一定要慎之又慎。环境是否可控,是否经过了可理解性的测试,决定了它是否可以用在关键的场所,否则就是产品的重大缺陷。
今天的人工智能之所以危险,不仅是因为它已经具备了一定的能力和“权力”,还因为人类生活的大规模网络化、数字化,为机器的“学习”提供了足够多的数据“食粮”。
今天的人工智能与其说是拥有“思维”,不如说是对于人类世界中现存数据的反映和理解。与其说“没有人性”,会不会是“太有人性”?机器是否也继承了我们既有的偏见、无常和贪婪?
人工智能在判断上失误的一个指责,是它经常会“歧视”。使用最先进图像识别技术的谷歌曾经陷入“种族歧视”的指责,只因它的搜索引擎会将黑人打上“猩猩”的标签;而搜索“不职业的发型”,里面绝大多数是黑人的大辫子。哈佛大学数据隐私实验室教授拉谭雅·斯维尼发现,在谷歌上搜索有“黑人特征”的名字,很可能弹出与犯罪记录相关的广告——来自谷歌智能广告工具 Adsense给出的结果。
而这种危险并不仅仅是“另眼相看”本身——毕竟将一张黑人的照片打上“猩猩”的标签,只是有点冒犯罢了。而人工智能的决策正走入更多与个人命运切实相关的领域,切实影响着就业、福利以及个人信用,我们很难对这些领域的“不公平”视而不见。
人工智能会加剧人类社会的不公平吗?
对每个毕业季都会收到数以万计简历的大公司人力部门而言,用机器筛简历并不是什么新鲜的事情,百分之七十以上的简历甚至都到不了 HR的眼皮底下。筛简历的 AI(业界用语“雇佣前评估”)因此而获得了大约30亿美元左右的市场。有些关键词,例如性别、地域,或者出身阶层,至少在明面上,是不宜成为筛选标准的——这个时候,HR就会以“并不适合”为由,推掉不喜欢的性别、籍贯乃至星座。那么,彻底排除 HR或者项目经理个人偏见的人工智能会解决这个问题吗?答案可能会更糟。
最新的人工智能雇佣辅助技术,并不需要人为设置关键词,而全靠“过往的优秀员工数据”对机器的训练,决策权重也并不是加或者减去一个过滤的变量就能解决的,看起来似乎十分公平。然而人工智能的检视,却让少数族裔、女性、或者有心理疾病史的人更难找到工作。
美国 IT作家、数学家凯西·奥尼尔曾经调查到,人力资源解决方案公司 Kronos提供的智能筛选服务会用“个性测试”把有心理疾病史的申请者挡在门外;而施乐在招聘的时候发现,人工智能大量过滤掉了有色人种的申请,因为这些申请者提供的地址位于市内某黑人聚居区。
金融领域也不例外。位于美国洛杉矶的科技金融公司 Zest开发了一个人工智能信用评估平台 ZAML,使用用户网络行为,而不是实际的信用记录,来判定用户的信用值。
百度作为搜索引擎合作商,向他们提供了大量可以数据用于归纳出用户可能的财务状况。它声称有近十万个数据点,没有所谓“决定因素”,因为美国法律禁止金融机构以性别、种族或宗教等决定一个人的信用。然而在现实应用中,对于不同人群的“另眼相看”却体现得非常明显——比如,它会“研读用户的申请”,检查申请中是否有语法和拼写错误等,来判定一个人“守规矩”的倾向;然而这导致并不能熟练使用英语的移民群体在信用问题上被抹黑。
歧视的来源是哪里?是打标签者的别有用心,是数据拟合的偏差,还是程序设计哪里出了 bug?机器所计算出的结果,能为歧视、不公、残酷提供理由吗?这些都是值得商榷的问题。
我们训练机器的“过往数据”,实际上是人类自身偏见和行为的产物。《MIT商业评论》的分析者认为,类似于 ZAML的智能采用的“贴标签”策略,很难排除相关性(而非因果性)带来的偏见。少数族裔常常会因某种特定行为被打上标签(比如访问某个网络社区等),即使他/她有良好的信誉和稳定的工作,只要出现这样的行为,就可能会被人工智能判定为低信用,需要为他/她的借贷支付更高的利息,或者干脆没有资格。
机器能解决处理效率的问题,却不能避免“过往数据”本身造成的缺陷。一个公司过去10年男员工工资比女员工高,有可能源自某个高层的性别歧视;智能筛选却能把对于此群体的偏见刻印在对于个体的判断上,这跟人类的刻板印象如出一辙。问题在于,机器的抉择往往被包装上“科学”“客观”的外衣,此类解决方案往往能够因为其科技噱头而卖出高价,殊不知只是用“科学结果”对现有的偏见进行的“大数据洗白”。
如果说“过往数据”的积累是机器作恶的基础的话,那么资本力量的驱动则是更深层次的原因。
如同开篇提到的那样,2016年美国大选期间,一家叫剑桥分析(Cambridge Analytica)的公司使用人工智能技术,针对任意一个潜在选民的“心理特征”投放付费政治广告;而投什么样的广告,取决于一个人的政治倾向、情绪特征、以及易受影响的程度。很多虚假的消息在特定人群中能够迅速传播、增加曝光,并潜移默化地影响人们的价值判断。技术主使克里斯托弗·威利最近向媒体揭发了这个人工智能技术的“食粮”来源——以学术研究为名,有意攫取的 5000多万用户数据。
剑桥分析CEO亚历山大·尼克斯(Alexander Nix)。
剑桥分析并不是一个孤例。澳洲一个 Facebook的广告客户透露,Facebook的人工智能会分析其用户特征和所发的内容,给出诸如“有不安全感的年轻人”“抑郁、压力大”等标签,然后有针对性地投放游戏、瘾品和甚至虚假交友网站的广告,从中获取巨大利益。
即使不存在数据泄露问题,对用户数据的所谓“智能挖掘”也很容易游走在“合规”但“有违公平”的边缘。例如,电商能够根据一个人的消费习惯和消费能力的计算,对某个人进行针对的、精密的价格歧视。购买同样的商品,用 iPhone X手机的用户很可能会比用安卓“千元机”的用户付更多的价钱,因为他们“倾向于对价格不敏感”。而我们所经常谈论的“大数据杀熟”——比如携程老用户订旅馆的价格会更高——也建立在用户行为数据的基础上。
数据的收集本身也值得商榷。前百度人工智能首席科学家吴恩达(Andrew Ng)就曾公开表示,大公司的产品常常不是为了收入而做,而是为了用户的数据而做;在某一个产品上收集的数据,会用于在另一个产品上获利。在智能面前,没有所谓的个人隐私和行踪,也很难确定数据收集的边界在哪里,尤其是个人隐私与公共信息、主动提供与被动提供的边界。
总而言之,在以商业利益为目标的人工智能眼里,并没有“人”或者“用户”的概念,一切都是可以利用的数据。剑桥大学互联网与社会研究中心教授朔沙娜·祖博夫将这种人工智能和资本“合体”的现状,称之为“监控资本主义”(Surveillance Capitalism)——在大数据和人工智能的协助下,通过对每个人的监控和信息的榨取,实现资本的最大化。
业界对此的态度很暧昧。AI作为当下最热门、来钱最快的行当之一,这些动辄年薪50万美元的工程师很少得闲来思考“形而上”的问题。一位不愿具名的研究人员在与我的微信私聊中表达了他的“个人看法”:“现在的技术离‘通用人工智能’还很远,对社会伦理方面的影响没有那么大,更多还是从繁琐的重复劳动中解脱出来。”
作者试图找到行业内人士对此评论,谷歌(中国)和百度自动驾驶部门的人工智能相关人员均表示,探讨 AI的社会问题,牵涉到公司利益和形象,比较敏感,不便评论。
“人工智能作为一个工具,如何使用,目前来看决定权依然在人。”俞扬说道,“系统的设计者和商业(应用)的提供人员需要对此负责。”
如何负责?这或许需要我们正视人工智能对整个社会关系的挑战。
2018年3月 19日,一辆自动驾驶的优步(Uber)在美国亚利桑那州惹上了麻烦。面对路中出现的一个推着自行车的女性,这辆车速 38 mph(约61km/h)的沃尔沃在昏暗的光线条件下并没有减速,径直撞了上去,受害者被送往医院之后不治身亡。这是自动驾驶第一例行人致死的事故。
电视台对自动驾驶优步车祸的报道。
事故发生之后,有不少人将矛头指向了自动驾驶的人工智能是否足够安全上,或者呼吁优步禁止自动驾驶。然而更关键的问题在于,亚利桑那有着全美国几乎最开放的自动驾驶政策,事故发生地坦佩市(Tempe)是实行自动驾驶最火的“试验田”之一;事故所在的街区早已做过路线测试,并被自动驾驶的智能采纳。但是在事故发生之后,对于责任的认定依然遇到了困难。
因为人的疏忽造成的车祸数不胜数,人们早已习惯了如何处理、怎样追责;然而机器出错了之后,人们忽然手足无措。人工智能会出错吗?当然会。只是我们在这个问题上一直缺乏认知。就如同上文提到的“隐性歧视”,深度学习的“黑箱”,现有的法律法规很难对这些错误进行追究,因为不要说普通人,就连技术人员也很难找出出错的源头。
当人工智能的决策在人类社会中越来越重要时,我们也不得不考虑,智能为什么会犯错,犯错了怎么办;若要让智能摆脱被商业或者政治目的支使的工具,真正成为人类的“伙伴”,需要怎么监管、如何教育,才能让人工智能“不作恶”。
对此,现有的法律框架内很难有清晰的、可操作的实施方案。欧盟率先在数据和算法安全领域做出了立法的尝试,2018年5月即将生效的新法规规定,商业公司有责任公开“影响个人的重大决策”是否由机器自动做出,且做出的决策必须要“可以解释”(explainable)。但法条并没有规定怎么解释,以及细到什么程度的解释是可以接受的。
另外一个重要的问题是,让机器求真求善,需要人类自己直面决策中的黑暗角落。在 Atari游戏智能的测试中,游戏中的人工智能 bot可以用最快的速度找到漏洞开始作弊,而游戏玩家又何尝不是呢?不管是带有歧视的语义分析,针对少数族裔进行的“智能监视”和跟踪,或者把已婚未育女性的简历扔掉的智能简历筛选,都长期以各种形式存在于人类社会中。
人工智能不是一个可预测的、完美的理性机器,它会拥有人类可能拥有的道德缺陷,受制于人们使用的目标和评估体系。至少目前,机器依然是人类实然世界的反应,而不是“应然世界”的指导和先驱。对机器的训练同样少不了对人性和社会本身的审视——谁在使用,为了什么而使用,在我们的世界中扮演着怎样的角色?数据是谁给的,训练的目标是谁定的?我们期望中的机器,会继承我们自己的善恶吗?
谷歌中国人工智慧和机器学习首席科学家李飞飞认为,要让机器“不作恶”,人工智能的开发需要有人本关怀。“AI需要反映我们人类智能中更深层的部分,”李飞飞在《纽约时报》的专栏中写道,“要让机器能全面地感知人类思维……知道人类需要什么。”她认为,这已经超越了单纯计算机科学的领域,而需要心理学、认知科学乃至社会学的参与。
未来,人工智能进入更多的领域、发挥更强的功能,是无可争辩的事实。然而,我们的生产关系能否适应人工智能带来的生产力,这句马克思政治经济学的基本原则值得我们认真思考一番。我们并不想看到未来的“机器暴政”将我们的社会绑在既有的偏见、秩序和资本操纵中。
人工智能之所以会作恶,可能就是因为太像人类了吧。