在教育评价、信贷、就业、医疗保健和刑事司法等高风险应用中,决策越来越倚重数据驱动和机器学习模型。机器学习模型也广泛应用于自动驾驶、手术机器人等关键信息物理系统。社交媒体平台上的内容和联系人推荐都依赖机器学习系统。
近年来,机器学习领域取得了惊人进步。尽管这些技术日渐融入人们的生活,但记者、活动家和学者揭示了一些系统在可信度方面的缺陷。例如,支持法官做出预审羁押决定的机器学习模型被报道存在对黑人嫌疑人的偏见。类似地,一个支持大型科技公司进行简历筛选的模型被报道存在对女性的偏见。一个用于计算机辅助胸部X光诊断的机器学习模型,被发现仅关注图像中包含的标记,而非病人的实际解剖细节。机器学习算法应用于汽车自动驾驶中,未覆盖异常条件的训练会引发致命事故;社交媒体平台会在知情的情况下,暗中推广有害内容。总之,尽管每天都会有机器学习算法在某些任务上取得超人类表现的新故事,但这些令人惊叹的结果只在一般情况下存在。要使算法在各种情况下保持高可靠性、安全性、可审计性和透明性,仍然面临重大挑战。因此,越来越多的人希望在这些系统中实现更高的公平性、鲁棒性、可解释性和透明性。
人们说: “历史不会重演,但总是惊人的相似。”我们在新时代的技术中已多次看到这种状况。2016年出版的《算法霸权: 数学杀伤性武器的威胁与不公》,记录了许多机器学习算法失控的例子。在结论中,作者凯西·奥尼尔(Cathy ONeil)将自己的工作与进步时代的揭露者相提并论,如阿普顿·辛克莱尔(Upton Sinclair)和艾达·塔尔贝尔(Ida Tarbell)。辛克莱尔1906年的经典之作《丛林》(The Jungle)探讨了食品加工工业。该书帮助催生了《联邦肉类检验法》和《纯净食品药物法》的出台,这两项法律共同规定,所有食品必须在干净的环境下制备,并且不能掺假。
在19世纪70年代,亨利·约翰·亨氏(Henry J. Heinz)创立了当今世界上较大的食品公司之一。在那个食品公司使用木纤维和其他填料掺假产品的时代,亨氏开始销售由天然和有机成分制作的辣根酱、腌菜和调味酱。当其他公司使用深色容器时,亨氏选择将这些产品装在透明的玻璃容器中。亨氏公司创新了食品卫生的制作工艺,并成为首家向公众开放工厂参观的公司。公司通过游说使得《纯净食品药物法》得以通过。该法律成为食品标签和防篡改包装法规的前身。这些做法提升了产品的公信力和市场认可度。它们为亨氏带来了竞争优势,同时也推进了行业标准,并造福了社会。
那我们来看看当前状况与历史的相似之处。机器学习的现状如何?应该如何提高其可信度?机器学习在哪些方面与天然成分、卫生制作和防篡改包装相似?机器学习中的透明容器、开放参观和食品标签又分别对应什么?机器学习在造福社会方面又有什么作用?
本书的目的就是回答这些问题,并从一个统一的视角展示可信机器学习。目前有很多从不同角度介绍机器学习的优秀书籍,也开始有一些关于可信机器学习的单一主题优秀教材,如公平性Solon Barocas, Moritz Hardt, Arvind Narayanan. Fairness and Machine Learning: Limitations and Opportunities. 2020.和可解释性Christoph Molnar. Interpretable Machine Learning: A Guide for Making Black Box Models Explainable. 2019.。然而据我所知,暂没有独立且自成体系的资源来定义可信机器学习,并带领读者领略其所涉及的不同方面。
如果我是一个在高风险领域工作的高级技术人员,对涉及一些应用数学不感到畏惧,我试图编写一本自己想阅读的书,目标是传授一种构建可信机器学习系统的思维方式,将安全性、开放性和包容性视为核心关注点。我们将建立一个可靠的概念基础,以增强读者的信心,作为深入研究所涉及主题的起点。“许多人认为计算机科学家是建筑师,是工程师,但我认为在更深层次上,许多计算机科学家将计算视为思考世界的一种隐喻,这蕴含着共同的智识视角。”
——苏雷什·文卡塔苏布拉曼尼安(Suresh Venkatasubramanian),
布朗大学计算机科学家
我们将不会在任何一个主题上深入探讨,也不会通过软件代码示例进行学习,而是为如何进行实际开发奠定基础。因此,每个章节都包含一个现实但虚构的场景,而这些来自我多年经验的场景,可能是你已经面临过的或将要面临的。本书以叙述和数学相结合的方式,阐明机器学习日益增长的社会技术性质及其与社会的融合。充分理解书中的内容需要一定的本科数学和初级统计学的知识有关数学背景的参考书: Marc Peter Deisenroth, A. Aldo Faisal and Cheng Soon Ong. Mathematics for Machine Learning. Cambridge University Press, 2020.。“如果你想改变世界,你必须学会在不完美的系统中运作。仅依靠破坏很难奏效,它可能只为个人带来方便。而如果你想让系统为更多人服务,就必须从内部去做。”
——娜迪娅·布利丝(Nadya Bliss),亚利桑那州立大学计算机科学家
本书的主题与社会正义和激进主义密切相关,但我主要采用亨利·海因茨(开发者)的观点,而不是Upton Sinclair(激进主义者)的观点。这并不意味着忽视或贬低激进主义的重要视角,而是代表笔者乐观地认为可以从内部改革和技术进步来解决问题。此外,本书描述的大部分理论和方法只是解决如何让机器学习值得社会信任的整体难题的一小部分。在社会技术系统中,程序、体制和政策层面的干预也十分重要。
本书源于我长达十年的职业生涯。作为一名学者,我的研究专注于人力资源、医疗保健和可持续发展方面高风险的机器学习应用,也在机器学习和决策理论的公平性、可解释性和安全性等方面做出了技术贡献。
书中汇集了多年来我与大量人员互动交流的想法,反映了我个人的观点。我对所有的错误、遗漏和错误表述承担责任。我也希望这本书能对你的工作和生活有所裨益。