Google Brain新成果:一个能够理解机器思维方式的AI翻译器

  • 时间:
  • 浏览:0

以前 一名医生告知要进行手术,亲戚朋友肯定首先希望了解为那此——即便对方不具备任何专业的医学知识,医生明确解释诊断理由仍然极其必要。而人工智能也一样。

众所周知,神经网络是出了名的难理解——计算机着实 可以提出一项处置方案,但却无法就产生的结论做出解释。现在,来自Google Brain团队的一名研究科学家Been Kim,正在开发一套“人类翻译器”希望构建可以向任何人做出解释的AI软件。

约十年前,人工智能头上的神经网络技术现在结束了了快速发展,影响了从电子邮件到药物造出的故事等各个领域,同時 表现出不到 强大的学习与数据模式识别能力。然而,你类式 力量一种还带来了一种不容忽视的警告:一方面,现代深度图学习网络自主學會怎么可以驾驶汽车以及发现保险欺诈活动具备极高复杂,同時 ,也由于其内部人员运作法律法律依据 几乎无法被理解——没错,就连AI专家也无法破解个中奥秘。我希望,以前 亲戚朋友通过训练神经网络来识别以前 居于肝癌、精神分裂症等疾病风险的患者(类式 2015年纽约西奈山医院开发的「Deep Patient」深度图病患系统),不到 结果所以我,亲戚朋友根本无法准确辨别神经网络实际关注的是数据中的那此型态。你类式 “知识”全面分布在神经网络的各个层,其中每一层都居于数百甚至成千上万个连接。

随着不要 行业试图通过人工智能技术实现自身决策,你类式 类式 于“黑匣子”的那此的难题以前 不再是一种技术层面的偏执,而成为实着实 在的基础性匮乏。美国国防部高级研究计划局(简称DARPA)的“XAI”项目(即可解释AI)正在积极研究你类式 那此的难题,这由于,可解释性以前 由机器学习的边缘化研究转化为新的探索核心。Kim指出,“人工智能正居于发展的关键时刻,人类正在试图弄清这项技术算是真能为亲戚朋友带来助益。以前 亲戚朋友无法处置你类式 可解释性那此的难题,亲戚朋友将不想继续推进这项技术,甚至有以前 将其放弃。”

Kim和谷歌Brain团队的同事们以前 开发出一套名为“概念激活矢量测试(Testing with Concept Activation Vectors,简称TCAV)”的系统,她将其描述为一种“人类翻译器”,允许用户向黑匣子AI询问类式 特定高级概念,从而了解神经网络的推理过程。举例来说,以前 机器学习系统经过训练學會了怎么可以发现图像当中的斑马,不到 亲戚朋友就可以利用TCASV来选取这套系统在做出决策都要赋予“条纹”你类式 概念怎么可以的权重。

TCAV系统最初是在一套经过训练、拥有图像识别能力的机器学习模型上进行测试的,不过这套系统同時 也适用于训练为文本识别以及对某类数据进行可视化处置的模型——类式 EEG波形。Kim解释称,“这是一套通用而简单的系统,你要 将其接入多种不同的模型当中。”

亲戚朋友与Kim谈到了可解释性的具体含义、其用途以及重要意义所在。以下为经过编辑与提炼的访谈内容。

图:Google Brain团队研究科学家Been Kim

问:您的职业生涯老是专注于机器学习的“可解释性”。我希望,可解释性究竟由于那此呢?

Been Kim:可解释性拥有两大分支。第一大分支是对科学的可解释性:以前 你将神经网络视为研究对象,不到 就可以通过科学实验以真正理解关于模型的一切细节——类式 其怎么可以做出反应,诸不到 类。

可解释性的第二大分支,也所以我我老是主要关注的方向——对负责任人工智能的解释能力。亲戚朋友不都要了解模型中的所有细节,但都要通过理解来选取亲戚朋友可以以安全的法律法律依据 使用你类式 工具,这也正是亲戚朋友设定的目标。

问:不到 您要怎么可以对一套不完整版了解其运作法律法律依据 的系统建立信心?

Been Kim:这里我都要打个比方。假设我的后院有一棵树,我都要把它砍掉,让院子看起来清爽类式 。我以前 拥有一把可以玩转信用卡 这项工作的链锯。目前,我还不完整版了解链锯的工作原理,但产品手册上提到:“请注意以下事项,以防用户削到手指。”我希望根据这本手册的说明,我更倾向于使用电钮而非手锯,以前 虽我希望者上手难度更低,但我以前 得花上3个小时可以完成砍树任务。

也所以我说,你要 理解“砍树”是那此意思;不到 一来,即使你不想说很明白链锯的工作原理,也可以利用它实现你类式 目标。

没错,可解释性中第二大分支的目标所以我:亲戚朋友算是可以充分理解一种工具,从而以安全的法律法律依据 加以使用?亲戚朋友可以将选取有效的人类知识反映到工具当中,进而建立起你类式 理解。

问:不到 ,“反映人类知识”的法律法律依据 是怎么可以让黑匣子AI类式 系统具备可理解性的?

Been Kim:下面我都要列举原先例子。以前 医生使用机器学习模型进行癌症诊断,不到 医生另一方肯定希望确保模型当中不居于那此来自亲戚朋友不希望使用的数据的类式 随机相关性。要保障原先的要求,一种可行的法律法律依据 所以我,选取机器学习模型正在以与人类医生类式 的法律法律依据 执行诊断流程。换句话说,也所以我将医生另一方的诊断知识反映在这套机器学习模型当中。

我希望,以前 医生们会研究细胞样本以诊断癌症,亲戚朋友以前 会在样本当中寻找一种被称为“融合腺体”的东西。此外,亲戚朋友以前 也会考虑到患者的年龄,以及患者过去算是拥有过化疗经历等等。那此因素正是医生在尝试诊断癌症时所关心的因素以前 概念。以前 亲戚朋友可以证明机器学习模型也在关注那此因素,不到 该模型的可理解性将显著提升,以前 其着实 反映出与医生相符的人类知识运用行为。

问:不到 ,TCAV的起效法律法律依据 算是也正是不到 ——即揭示机器学习模型正在使用那此高级概念来做出决策?

Been Kim:没错。首先我都要说明类式 ,可解释性法律法律依据 所以我解释了神经网络在“输入型态”方面做出的实际操作。以前 我知道你得还匮乏确切。以前 你拥有图像,不到 其中的每有4个 像素都属于输入型态。事实上,Yann LeCun(深度图学习的早期先驱,Facebook公司AI研究主管)以前 表示,他坚信那此模型具备可解释性。以前 亲戚朋友可以查看神经网络中的每有4个 节点,并查看每一项输入型态的数值。那此输入型态对于计算机来说是很好的素材,但人类却无法从中直接看出具体意义。毕竟计算机的思维法律法律依据 类式 于“哦,快看,像素数量在1150到150之间,RGB值是0,2与0.3。”相比之下,人类会选取完整版不同的概念沟通法律法律依据 ,类式 “这是一张小狗的图片,我希望这只狗的毛非常蓬松。”

问:不到 ,TCAV是怎么可以在输入型态与概念之间进行你类式 转换的?

Been Kim:我都要们回到医生的例子,医生还是使用机器学习模型,而这套模型以前 完成训练从而通过对细胞样本图像的分类诊断潜在癌症。作为医生,你以前 希望了解在对癌症做出主动预测时,机器学习模型对于“融合腺体”的具体重视程度。首先,你要 分类分类整理类式 图像——比如说20张图像,其中包饱含融合腺体次要。现在,你要 将那此饱含标记的示例插入到模型当中。

接下来,TCAV在内部人员会进行一项所谓“敏感度测试。”当亲戚朋友上加那此饱含融合腺体的标记图像时,癌症阳性预测的以前 性增加了几个?你要 将结果输出为0到1之间的数字。所以我原先,你类式 结果所以我您得到的TCAV分数。以前 概率增加,则由于融合腺体对于机器学习模型而言着实 是一项重要的概念。反之,以前 概率不到 增加,则代表模型不到 将其视为一项重要概念。

问:“概念”是一种模糊的表达。算是居于类式 不适用于TCAV的场景?

Been Kim:以前 亲戚朋友无法使用(数据集)载体中的类式 子集来表达另一方的概念,不到 这套判断系统就不到 律法律依据 起效。以前 您的机器学习模型是以图像为基础进行训练的,不到 你类式 概念都要拥有视觉层面的可表达性。举例来说,亲戚朋友可以想象要怎么可以以视觉法律法律依据 表达“感情的句子的说说”你类式 概念。这真的是一项很困难的任务。

亲戚朋友也认真验证了你类式 概念。亲戚朋友拥有有4个 统计测试线程,以前 某个概念矢量对于模型的影响与随机矢量相同,不到 其就会拒绝该概念矢量。以前 你提交的概念不到 通过测试,不到 TCAV会说:“他他不知道。你类式 概念看起来似乎对于模型没那此重要影响。”

问:TCAV的主要作用是在AI当中建立信任,而非真正理解AI模型,是吗?

Been Kim:对,接下来我会解释其中的由于,以前 建立信任与理解模型着实 居于着重要的区别。

亲戚朋友从认知科学与心理学的反复研究当中认识到,人类非常容易上当受骗。这由于,欺骗有4个 人对类式 东西产生信任实际非常容易。但机器学习的可解释性目标恰恰与此相反,它会他不知道们对系统的使用算是安全。换言之,这是在揭示一种真相。所以,我着实 “信任”你类式 词用在这里不想说准确。

问:也所以我说,可解释性的核心在于揭示AI推理当中居于的潜在匮乏?

Been Kim:没错,所以我不到 回事。

问:不到 它是怎么可以揭露那此匮乏的?

Been Kim:你可以利用TCAV向经过训练的模型询问类式 非相关概念。亲戚朋友还是以使用AI工具进行癌症诊断的医生为例子,医生以前 会老是想到,“看起来机器倾向于把深蓝色色彩比例较高的图像视为癌症高发指标。亲戚朋友认为不应该通过你类式 法律法律依据 的考虑那此的难题。”我希望,以前 亲戚朋友发现“深蓝色”你类式 输入型态着实 拥有更高的TCAV分数,就代表着亲戚朋友在诊断机器学习模型当中找到了有4个 那此的难题。

问:TCAV的设计初衷在于处置那此不具备可解释性的现有AI系统。不到 ,为那此不从开发之初就实现系统的可解释性,而要继续构建那此无法解释的黑匣子型AI?

Been Kim:可解释性研究的一大分支,侧重于构建出可以反映人类推理法律法律依据 的固有可解释模型。但我的看法是:现在亲戚朋友以前 在几乎各个领域构建起AI模型,那此成果也以前 被用于种种重要目标——它们在设计之初并不到 考虑到可解释性这项要求。这是事实,亲戚朋友无法回避。亲戚朋友在谷歌也拥有血块原先的模型!您当然可以说,“可解释性非常重要,亲戚朋友应该构建新的模型来取代目前正在使用的原有模型。”道理着实 没错,但可行性真的不太高。

我希望,面对原先的情况亲戚朋友该做些那此?亲戚朋友仍然都要想法律法律依据 顺利度过目前的关键时刻,即判断人工智能技术到底可以给亲戚朋友带来助益。出于原先的考量,我才倾向于使用“训练后”解释法律法律依据 。以前 您拥有一套由他人提供的模型,我希望以前 无法对模型一种做出改变,不到 该怎么可以对其行为生成解释,从而确保整个使用过程安全而可靠?这正是TCAV系统的核心意义所在。

问:TCAV允许亲戚朋友向AI发问,借此了解类式 特定概念在决策过程中的重要性水平。然而,以前 亲戚朋友不清楚该怎么可以发问——怎么可以亲戚朋友希望AI系统可以自我解释,又该怎么可以实现?

Been Kim:亲戚朋友目前正在构建新的方案,旨在自动为模型使用者发现概念。亲戚朋友将其称为DTCAV,也所以我“发现TCAV”。但实际上,我认为你要 类进入整个循环,从而实现机器与人之间的对话才是实现可解释性的关键。

对于大多数高风险应用场景而言,相关领域的专家以前 拥有了另一方关注的一整套概念清单。亲戚朋友在谷歌Brain团队的医疗应用当中以前 一次又一次意识到你类式 情况的真实性。实际上,使用者不想说都要从他处获取那此相关概念——亲戚朋友以前 拥有重要的概念储备,并希望把另一方的关注点提交给模型。亲戚朋友与一位治疗糖尿病视网膜病变(一种眼科疾病)的医生同時 工作,当亲戚朋友向她介绍TCAV系统的以前 ,她感到非常兴奋。以前 她另一方以前 拥有血块关于这套模型诊断法律法律依据 的假设,现在她可以借助这套系统测试那此猜想算是正确。这实际上代表着一种巨大的优势,也是一种强调以用户为中心的机器学习战略战略合作法律法律依据 。

问:您坚信以前 无法实现可解释性,人类最终我知道你要 放弃人工智能技术。但考虑到人工智能不到 强大,您真的认为人类会我希望将你类式 切扔进垃圾堆吗?

Been Kim:是的,我坚信你类式 点。实际上,专家系统就原先经历过同样的情况。上世纪八十年代,亲戚朋友认为专家系统可以以远低于人类操作人员的成本高效执行类式 任务。我希望现在,还有谁在使用专家系统?完整版不到 。我希望在那以前 ,亲戚朋友现在结束了了进入AI技术的寒冬。

就目前来看,彻底放弃的以前 性不大,以前 人工智能以前 成为宣传炒作与投资押注的重要领域。但从长远深度图来看,我认为人类最终我知道你要 做出原先的决定。以前 是出于对可靠性证明缺失的担忧甚至恐惧,人类将认定人工智能技术不想说适合亲戚朋友。是的,着实 居于你类式 以前 性。