定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《CIDEG:2024人工智能算法影响评价体系构建与应用实践报告(77页).pdf》由会员分享,可在线阅读,更多相关《CIDEG:2024人工智能算法影响评价体系构建与应用实践报告(77页).pdf(77页珍藏版)》请在三个皮匠报告上搜索。
1、 清华大学清华大学CIDEG研究研究项目项目 研究报告(结题)人工智能算法影响评价 体系构建与应用实践 20202424 年年 3 3 月月 委托方:委托方:清华大学产业发展与环境治理研究中心 课题负责人:课题负责人:贾开 上海交通大学国际与公共事务学院长聘副教授 课题组成员:课题组成员:赵静、傅宏宇、陈少威、元圣平、杨欣宇、朱韵涵 清华大学产业发展与环境治理研究中心清华大学产业发展与环境治理研究中心 地址:北京市海淀区清华大学公共管理学院615 邮编:100084 电话:(86-10)6277 2497 传真:(86-10)6277 2497 邮箱: 主页:http:/ 目录目录 1.人工智
2、能算法影响评价的背景:界定治理问题.4 1.1.算法歧视治理风险.5 1.2.算法公平治理风险.8 1.3.算法安全治理风险.10 1.4.本章总结.12 2.人工智能算法影响评价的内涵:描述治理实践.13 2.1.人工智能算法影响评价的制度内涵及其治理定位.13 2.1.1.算法影响评价的制度内涵.13 2.1.2.算法审计的制度内涵.15 2.1.3.算法影响评价与算法审计的共性与差异.16 2.2.人工智能算法影响评价的三种模式:环境影响评价、数据保护影响评估、列表清单 17 2.2.1.环境影响评价视角下的算法影响评价.17 2.2.2.数据保护影响评估视角下的算法影响评价.20 2.
3、2.3.问题列表清单评估视角下的算法影响评估.22 2.2.4.不同模式的对比分析.26 2.3.人工智能算法影响评价的国别特征:欧盟、美国、英国、加拿大与中国.26 2.3.1.欧盟.26 2.3.2.加拿大.31 2.3.3.美国.35 2.3.4.英国.41 2.3.5.中国.47 3.人工智能算法影响评价的治理逻辑:监管者与被监管者的合作.51 3.1.协同治理(Collaborative Governance)视角下的人工智能算法影响评价.52 3.2.管理主义(Managerialism)视角下的人工智能算法影响评价.55 3.3.制度同化(Institutional Isomor
4、phism)视角下的人工智能算法影响评价.60 4.人工智能算法影响评价的未来改革:形成政策建议.61 4.1.人工智能算法影响评价的制度要求:开放性、合作性、责任性.62 4.1.1.开放性.62 4.1.2.合作性.63 4.1.3.责任性.64 4.2.通用人工智能算法影响评价的体系框架:理论基础、层次结构、流程指标.65 4.2.1.理论基础:心理计量学与机器行为学的理论融合创新.65 4.2.2.层次结构:技术、组织、社会.71 4.3.通用人工智能算法影响评价的政策建议.错误!未定义书签。人工智能算法影响评价(algorithm impact assessment,AIA)作为一种
5、治理机制已经被普遍性地纳入各国算法治理的框架体系之下,但其本身的制度定位与制度逻辑却尚未得到充分讨论。较为典型的反思性问题例如:人工智能算法治理的何种关键特征,使得我们需要纳入人工智能算法影响评价(即人工智能算法影响评价的必要性问题)?与往往被视为其前身的环境影响评估、数据隐私影响评估相比,人工智能算法影响评价体现了更多的继承和连续性,还是差异性(即人工智能算法影响评价的特殊性问题)?人工智能算法影响评价治理绩效的发挥,受到何种因素的影响(即人工智能算法影响评价的局限性问题)?对于这些问题的探索性回答,构成了本报告的主要内容。1.人工智能算法影响评价的人工智能算法影响评价的背景背景:界定治理问
6、题界定治理问题 人工智能算法治理的特殊性,是开启人工智能算法影响评价制度建设的起点。从基本内涵来讲,人工智能算法影响评价是指技术研发者、部署者、应用者需要预期、测试、评估技术创新和应用过程中所可能带来的多维度影响,并对结果进行记录、公开或向监管者汇报,进而在积累算法治理经验与知识的同时,对其研发应用过程进行调整以避免负面伤害。作为一种监管手段,人工智能算法影响评价事实上将监管环节延伸至企业内部,要求企业基于评价结果以改变其技术创新和应用过程,而这一思路在很大程度上与传统的监管思路存在本质不同。在经典监管理论看来,监管的目的旨在对市场失灵现象作出回应,以避免出现权益侵害风险。换言之,监管是直接面
7、向可能出现的风险而展开,其针对的是风险结果而并不特别在意导致风险产生的过程。但影响评价制度却“反其道而行之”,即其更关注过程,并要求作为一线主体的技术创新者、应用者基于评价结果而对其内部的技术生产、应用过程作出调整。如果说传统监管仍然建立在较为明确的“市场-政府”边界基础上,那么影响评价制度则打破了这一“二分法”,而直接切入进企业内部生产管理过程,以求对风险作出回应。由此带来的关键问题便在于,为什么我们需要跳出经典监管理论范畴而将监管为什么我们需要跳出经典监管理论范畴而将监管“触手触手”延伸至企业延伸至企业内部内部,为什么需要为什么需要施行影响评价制度施行影响评价制度?对以上问题的一个简洁回答
8、是,在多类型的市场行为中,存在大量的“未知风险”:这既包括因监管者与被监管者之间存在信息不对称而导致前者“未知”的风险,也包括监管者、被监管者都不知道的“未知”风险(即“共同无知”)。环境影响评估、隐私影响评估都属典型案例。接下来本报告通过三个算法治理的典型案例对此问题作出更详细的回答。1.1.1.1.算法歧视算法歧视治理治理风险风险 算法歧视风险可能是最被频繁提及的算法治理风险之一,这不仅是因为其可能是最容易被观察到(或感知到),也源于算法(特别是人工智能算法)的基本技术与应用逻辑所致。换言之,算法正在被大规模应用于各个领域的决策场景(例如招聘简历筛选、信用评分评级、公共服务审核批准、犯罪风
9、险评估、警力资源部署等等),而这些决策场景往往都跟人们的切身利益紧密相关,并尤其与一般意义的社会公平以及具体意义上的少数或弱势群体的特殊属性紧密相关,后者又表现为性别、种族、肤色、身体、收入、地域、行为偏好等具体指标。在此背景下,当人们普遍关心决策歧视问题时,算法作为决策功能的应用便自然与此紧密关联了起来。一般而言,从算法作为决策功能的基本逻辑和流程来看,引致算法歧视风险的原因可被主要总结为三点。第一,因算法决策目标选择的主观性而带来的偏差与歧视。考虑到决策目标往往都较为宽泛,因而在具体算法设计时往往需要将其转化为更具体指标,而这一转化过程依赖算法设计者、部署应用者的主观性,由此便可能因人为主
10、观意图而导致歧视结果。例如招聘决策的目标是寻找到“优秀”人才,但“优秀”这一决策目标过于宽泛,其不得不转化为学历、资历、外表等维度的具体指标,而究竟选择何种指标来测度、衡量“优秀”(或者是不同指标相对权重大小的设置)便将体现算法设计者或部署应用者的主观性。即使算法设计者或部署应用者并没有“人为、故意”的设置歧视性变量,主观性选择本身始终都会面临是否“公平”的质疑与拷问。第二,在具体指标既定的前提下,采纳何种数据集以对该指标进行测度将是引入歧视的第二个关键环节。数据集往往需要人为标注、整理、清洗以最终服务于算法模型的训练与优化,但在每一个环节都将可能引入主观性偏差或歧视。即使基于“大数定律”可能
11、削弱或消解个别数据标注、整理、清洗时的人为偏差,但数据集作为对现实复杂性的“抽样”,其是否能够完全“表征”现实仍然存疑,而数据集相对于现实的任何偏差都将自然导致“歧视”结果。第三,在指标既定、数据集既定的前提下,究竟采用何种模型架构也同样存在引入“歧视”的可能性。尽管可以通过特定技术指标来比较不同模型的公平性程度,但算法永远都可能存在“漏洞”的本质属性仍然使得我们不可能在绝对意义上精确比较不同算法架构的公平性强弱水平,这也使得任何选择都仍然是具有主观性的,并因此可能是“歧视”的。值得注意的是,上述三点原因的总结还只是聚焦在技术层面,即指出人工智能算法技术实现过程中可能引入的歧视因素,但这明显还
12、是不完整的,上述分析尚没有对人工智能算法歧视问题的特殊性作出概括,而后者还需要结合算法应用的制度环境、社会环境才能得到更充分的解释。也正是在此基础上,我们才能更清楚地理解算法影响评估制度的必要性。具体而言,这又体现在以下两个方面。一方面,以“过错原则”为基础而建立的现行“反歧视”法律框架,不仅要求明确权益侵害的现实,还要求明确导致权益侵害“过错”的因果链条,而这二者在算法决策的应用环境下都将面临新的不确定挑战。就前者而言,与非算法决策环境相比,基于概率计算的人工智能算法决策结果具有更高不确定性,导致人们事实上很难提前预知每一次特定算法决策结果是否会产生歧视性结果,并因此增加了确认权益侵害现实的
13、难度。在非算法决策环境下,导致歧视结果的原因往往是可解释的、制度性的,并因此可在合理范畴内预期每一次以及一般性的决策结果;相比之下,算法决策逻辑是反过来,尽管决策结果的一般性特征是可预期的,但每一次决策结果却是不确定的,由此使得歧视结果的追踪、确认必须建立在不断且大量的测试、记录、统计基础上,这也自然增加了歧视性权益侵害确认的成本和难度。不过这还不是算法决策带来的唯一挑战,歧视性权益侵害“过错”因果链条的追寻还将面临更大的不确定性困境。1歧视问题的分析视角大致可被划分为两种:基于受害者视角以确认导致歧视的客观(例如肤色、种族、收入、出生地等)或主观条件(例如机会、认知、偏好等)并加以解决,基于
14、过错者视角以分析决策者行为的中立性程度从而确保其不会加剧不平等结构。考虑到导致歧视性结果(或不平等结构)的原因是复杂而综合的,单靠法律规则本身难以对此作出全面 1 Freeman,A.D.(1977).Legitimizing racial discrimination through antidiscrimination law:A critical review of Supreme Court doctrine.Minn.L.Rev.,62,1049.应对,因此现行的反歧视法律框架主要采取了过错者视角而非受害者视角,其制度关键在于确保决策者行为的“中立性”而非直接面对、解决导致歧视问题的
15、具体因素。在执行逻辑上,反歧视法律框架要求将决策者行为与被决策对象所处社会环境相独立,并通过比较可能的不同决策方案以判断决策者实际行为在影响受保护权益属性方面是否“中立”。当面对算法决策的新现象时,这一制度设计逻辑将至少面临算法决策的嵌入性与不可穷尽性这两种不确定性挑战:就嵌入性而言,与非算法决策相比,算法决策与社会环境的相互影响关系更为复杂,其基于数据训练的技术逻辑导致其很难被独立于社会环境而展开“中立性”分析;就不可穷尽性而言,算法决策技术方案的多样性使得我们很难证明某一特定决策算法的歧视性是最低的(或“中立性”是最强的),这也使得在算法歧视问题的治理中我们往往只能比较算法决策与非算法决策
16、,而不能比较不同算法决策方案之间的结果差异,由此司法责任的界定标准也只能演化为判断算法决策者是否尽到了比较义务而非是否采用了“最中立”算法2。另一方面,除了制度环境的讨论之外,产生歧视的社会环境在算法决策普及的情况下也将体现出新的治理复杂性。事实上,诸多研究已经揭示,歧视更多表现为社会建构问题而非生命特征属性问题,即歧视性结果并非源于不同个体生命特征属性的差异,而是社会生产生活进程的演化结果。3举例而言,对于黑色族裔人群而言,导致歧视性结果(或分化性结构)的真正原因是其成长、学习、工作的整个社会生产过程,而非种族或肤色这些表面的生命特征因素;换言之,在反事实假设情况下,即使将白色族裔人群置于当
17、前黑色族裔人群的生存环境,其同样可能面临类似的歧视性结果。在将歧视视为社会建构问题的视角下,算法决策普及带来的新复杂性在于其将陷入或者简化,或者复杂化的“悖论”:对于不是建立在机器学习基础上的非人工智能算法而言,其要求将复杂现实抽象为具体变量的基本逻辑,极大简化了歧视作为社会建构问题的复杂性,将产生“缘木求鱼”的治理错位结果,即针对具体变量的歧视风险治理措施可能错误定位问题内涵而起不到救济作用;与之相对,建立在海量数据学习、训练基础上的人工智能算法,其可能把握住了导致歧视结果的社会过程的复合性、综合性影响,但却受限于可 2 Oppenheimer,D.B.(1992).Negligent di
18、scrimination.U.Pa.L.Rev.,141,899.3 Kohler-Hausmann,I.(2018).Eddie Murphy and the dangers of counterfactual causal thinking about detecting racial discrimination.Nw.UL Rev.,113,1163.解释问题而不能以简单变量的形式表达出来,从而也将影响歧视问题的追责与救济。换言之,歧视作为社会建构问题的治理复杂性在算法决策普及的背景下才真正表现了出来。以上从制度、社会两个视角对歧视现象的分析解释了该问题的真正复杂性,而这也意味着仅聚焦
19、结果并试图厘清过错因果链条的传统治理逻辑并不能对此复杂性作出充分回应。在此背景下,向决策过程的治理延伸必不可少:算法决策要解决的什么功能性问题,而衡量是否实现该功能的具体指标是什么,为什么选择该指标而非其他指标?测度该指标的具体数据集是按照何种标准选取的,其收集、维护、清洗过程是什么,其是否体现了现实决策环境的完整性?该算法决策方案与其他方案相比,在涉及利益相关方歧视性影响方面是否是“中立”的,这一结论是否经过测试和验证?诸如此类的问题事实上就构成了算法风险评估的基本制度内涵,而这也反过来说明了算法风险评估作为一种制度创新,在回应算法歧视治理问题方面的必要性和重要性。1.2.1.2.算法公平算
20、法公平治理治理风险风险 算法公平与算法歧视治理问题紧密关联,但也存在一定差别。算法歧视治理侧重问题的发现与权益侵害的救济,而算法公平治理则更重视如何利用算法决策优势以改变社会分化结构。换言之,算法歧视治理是针对问题的回应,其目标在于实现算法决策影响的“中立”性;相比之下,算法公平治理则聚焦赋能受保护群体的积极行动,其目标是在差异化对待的基础上,利用算法来推动社会结构朝着更公平的方向演化。基于算法公平治理目标的这一界定,算法公平治理风险便可定义为对该目标的偏离,其既可能表现为算法决策应用没有达到优化社会结构的目的,也可能表现为算法决策的应用甚至恶化了当前已分化的社会结构。与算法歧视治理类似,算法
21、公平治理同样具有内在复杂性,而这又尤其体现在“公平”作为治理目标的内涵多样性,以及不同内涵之间的竞争性乃至冲突性。具体而言,这又表现为以下三点。第一,第一,算法公平作为治理目标在不同算法技术和应用环境下具有异质性,且伴随技术和业态演化而具有不断发展的动态性。在不同行业、不同领域,对于不同利益相关方而言,算法公平的治理内涵都有所不同(例如就业信息推荐算法与新闻推荐算法的“公平”性要求是不同的);同时,在技术发展应用的不同阶段,算法公平的治理内涵可能也有所不同(例如对于不同规模大小的电商平台,对其商品推荐算法的“公平”性要求也是不同的)。第二,第二,算法公平作为治理目标与不同群体发展历史及其所处环
22、境紧密相关,但算法设计者和部署者往往难以覆盖全过程并因此存在结构性缺失。“公平”概念在政治上可区分为“形式公平”和“实质公平”两类。相对于前者而言,后者更关心因历史及环境因素而造成的不同群体在事实上的差异地位,并因此要求“公平”体现为对这种差异地位的校准,此时“公平”治理要求也同时发展为“正义”要求;但对于算法设计者和部署者而言,其往往难以将历史情况、环境因素考虑在内,并因此不能达到“实质公平”(或“正义”)的治理要求。第三,第三,算法公平作为治理目标既需要平衡“公平”与其他价值目标的内在张力,也需要平衡不同类型“公平”目标之间的内在张力。一方面,算法公平并非绝对意义上的一致性,否则便会丧失包
23、括个性化服务在内的其他技术进步价值;另一方面,在算法技术实现层面,算法公平至少包含三层内涵:针对不同群体的算法计算结果应是一致(一致性要求)、不同群体被正确识别的概率应是一致的(正平衡性要求)、不同群体被错误识别的概率是一致的(负平衡性要求)。技术层面的不同内涵往往反映了差异化的价值目标,而它们在大多数情况下互斥并因此难以同时实现的困境也在事实上体现了不同“公平”目标之间的内在张力。面对算法公平作为治理目标在上述三点所表现出的复杂性,一个有效的算法公平治理方案需要首先对治理目标本身的内涵进行两个层面的解构:第一层次需要讨论“公平”的来源,即“公平”来源于实质意义的要求(例如法律界定的规则,或者
24、社会所公认、接受的准则),还是来源于结果效用的评估(例如让所有人的福利都不下降,或者让弱势群体得到改善),前者体现了“本体论”的公平,而后者是“结果论”公平;第二层次则需要讨论实现“公平”的过程,即“公平”是通过特定组织过程、流程来实现,还是通过外部干涉来实现,前者倾向于程序公平,而后者侧重分配公平。在这两个层次解构的基础上,算法公平治理在具体执行时便要求与算法设计、应用实践紧密结合,这又大致包括三个步骤:选择属性特征对对象分类、优化该特征以实现拟合、基于优化结果来作出决策或配置资源。在这三个环节中,“公平”内涵的争议、选择都将在不同层面涌现,而算法设计、应用者也需要在类型化细分中进行选择,并
25、对自己的选择作出辩护性解释。无论是两个层面的解构,还是在算法应用三个步骤环节贯穿始终的“公平性”分析,其事实上都体现了算法影响评估的具体制度内涵,而这也证明了算法影响评估在回应算法公平治理要求方面的必要性和重要性。1.3.1.3.算法算法安全安全治理治理风险风险 此处要讨论的算法安全治理应被理解为“Safety”而非“Security”,其主要是指算法系统能否按照预期机制正常运转,因未意料到情况而影响系统并导致权益损害的风险治理问题。算法安全治理同样是算法治理领域被普遍讨论的重要议题,其甚至是先于算法歧视、算法公平等其他治理议题而需要考虑的首要问题,因其可被定义为算法技术服务或产品投入应用的先
26、决条件与前提,典型案例例如自动驾驶算法、医疗识别与诊断算法等。围绕算法安全治理议题而展开讨论的关键有两点:算法安全治理是否具有不同于传统服务或产品安全治理的特殊性与新颖性?如果算法安全治理具有本质意义上的变革性特征,这种特征是否可以被纳入现有法律框架之下得到回应?从算法技术逻辑及其应用于具体环境下的制度逻辑、社会逻辑来看,这两个问题的答案可能都是具有挑战性的。具体而言,传统法律制度框架对于服务或产品安全治理的回应主要体现在侵权法和产品责任法这两大体系,但它们都很可能难以对算法安全治理的新变化、新需求作出有效回应。侵权法的制度逻辑与反歧视法律框架有近似之处,其都建立在“过错原则”基础上,并通过寻
27、找导致过错的因果链条而实现责任救济。以医疗诊断为例,诊断错误的医生(或医院)将承担救济责任。但这一“过错原则”在应对算法安全治理风险方面却不得不面临新的挑战。基于概率计算的算法技术逻辑,使得算法决策结果并不能被提前预测,但算法本质上一定会存在“漏洞(Bug)”的属性又使其不可能绝对正确,这些技术规律都决定了算法决策结果的正确与否只能体现为整体上的统计水平,而非针对具体案例的精准预测。仍然以医疗诊断场景为例,假设某类癌症影响的正确诊断率为 80%,那么在医生诊断场景下,20%的诊断错误将仍然可以通过医生或医院得到责任救济;与之相比,基于海量历史数据训练的医疗诊断算法往往能提高正确诊断率(例如提升
28、到 90%),因而医院采纳该算法有利于提升疾病治疗的整体福利水平,并因此不能被视为侵权法意义上的“玩忽职守(Negligence)”,但对于仍然存在的 10%错误诊断,却由于算法的不可解释“黑箱”问题而可能难以得到有效的责任救济。在此背景下,算法安全治理在侵权法框架下便不能得到很好回应:一方面算法诊断相比于人为决策正确率的提升满足了勤勉要求(并因此不能被视为医生或医院的“失职”),另一方面算法诊断必然存在的错误率又因算法“黑箱”问题而使权益受损者难以确定因果链条并因此不能得到有效的责任救济。那么我们是否可以将 10%的错误率定义为产品缺陷,将其归于产品责任法的管辖范围以追究算法设计者、部署应用
29、者的责任呢?从算法实现的技术逻辑来看,产品责任法框架恐也难以对此做出有效应对。产品责任法的制度设计是围绕产品缺陷问题的发现与救济而展开,但这一逻辑却并不适用于算法产品或服务。正如前文分析所指出,算法产品或服务质量的判断标准是基于统计意义而非针对具体个案。换言之,人工智能算法(例如人脸识别、智能推送等各种类型算法)一般以一定范围内的错误率为优化目标,而并不追求绝对准确。前文提及的 10%错误率(例如识别错误或推送错误)不仅不能证明算法产品或服务缺陷,反而是算法安全的实际证明,因其说明该系统的确按照预期错误率在运行。事实上,如果导致 10%错误率的原因被发现,这一错误本身也将被及时修正,但之所以该
30、错误率始终都将存在,还是因为算法设计和应用过程中永远都不可能根除“未知的未知风险”(Unknown unknown risks)。基于上述分析不难发现,算法安全治理风险难以在侵权法和产品责任法框架下得到很好回应的根本原因,仍然可归结于仅聚焦结果并试图基于结果来回溯责任的治理逻辑的失效。正是在此意义上,算法风险评估再次体现出其必要性和重要性:一方面,尽管我们并不能完全杜绝风险,但算法风险评估作为算法产品或服务投入应用的前置条件,仍然有助于作为事后责任追溯的参考标准;另一方面,更为关键的是,通过记录算法研发、应用过程信息可以积累治理经验,从而能以实验主义的方式敏捷地、渐进地对算法安全治理风险作出回
31、应。这一逻辑便不同于传统的侵权法或产品责任法逻辑,而将主要的治理重心从算法应用的结果转移到了算法设计、开发、应用的过程。1.4.1.4.本章总结本章总结 基于算法歧视治理、算法公平治理、算法安全治理三个案例的分析我们不难发现,算法技术研发与应用的特殊逻辑使之难以被完全纳入到现行法律制度框架之下,这也意味着以“市场-政府”的严格划分为边界、聚焦风险结果而忽视风险产生过程的传统监管逻辑难以回应算法治理所提出的新挑战和新要求。具体而言,这又可以总结为三点。第一第一,算法不能被视为独立的产品或服务而被引入人类生产生活的各个场景,其功能效用的发挥及其治理影响的释放都根植于所处环境,正是在与环境中其他要素
32、的相互关联、相互影响过程中算法才体现其价值。这一技术应用逻辑带来了两方面的治理后果:一方面,算法在其应用过程中需要简化现实复杂性,以单一变量代替现实中多重因素的综合影响,而这便会导致算法模型与现实世界的不一致;另一方面,基于海量数据训练的算法模型也可能体现出现实复杂性,将原本隐藏在表面现象背后的社会分化结构外化出来,从而暴露出不得不作出回应的治理风险。算法与环境的这两种关系都导致建立在“过错原则”基础上的现有侵权法或责任法框架可能失效,因试图追溯因果链条的基本原则在算法与环境的相互混杂中难以被充分满足。第二第二,算法技术方案难以被解释、难以被穷尽的基本逻辑使得算法治理将始终处于动态演化过程之中
33、,而不能被静态的绝对原则所束缚或框定。一方面,人工智能算法模型在技术层面的“黑箱性”,以及算法应用过程中与环境要素相互影响的复杂性,都决定了试图追溯从结果倒推责任因果链条的可解释努力面临重重挑战;另一方面,试图实现相同功能的算法技术方案存在多重可能性,以及算法优化标准可能具有多重内涵的模糊性,都使得试图追求“最优算法”的技术努力幻化为“乌托邦”。这两方面因素都要求算法治理呈现出敏捷性与实验性,即任何试图提前界定而不做调适的治理思路都难以真正回应算法治理需求,治理与技术开发、应用伴随而生、伴随而变需要成为新的主导性理念。第三第三,算法应用风险往往以统计意义而非具体个案形式出现的基本规律,使得算法
34、治理不得不陷入集体效用改善与个体权益侵害同时发生的公平性“悖论”之中,而这一治理风险并非传统治理框架的关注重点。以概率计算为基本科学基础的人工智能算法,其效用提升主要体现为统计意义上的指标优化,但算法本身将始终存在“漏洞”的技术特点又决定了个体权益侵害现象必然发生,而前述算法难解释、难穷尽的基本逻辑又使得此种个体权益侵害不能再明确的责任因果链条下得到救济。如何破解这一公平性“悖论”便成为隐藏在算法治理不同案例下的共性要求。正是基于上述三方面的新特征、新要求,算法影响评价制度的引入才不仅是必要的,也是重要的,其价值主要体现在两个方面:对对算法治理的过程进行记录算法治理的过程进行记录以累积治理经验
35、与知识以累积治理经验与知识(由此回应实验性的治理要求)(由此回应实验性的治理要求),在风险评价的基础上要在风险评价的基础上要求算法设计与应用者及时修改生产流程以作出敏捷回应求算法设计与应用者及时修改生产流程以作出敏捷回应(由此回应动态性的治(由此回应动态性的治理要求)理要求)。接下来本报告的第二部分将基于对人工智能算法影响评价的制度实践进行梳理,并在此基础上对其制度内涵作出界定,以具体回答“算法影响评价是什么”这一基本问题。2.人工智能算法影响评价的内涵:人工智能算法影响评价的内涵:描述治理实践描述治理实践 2.1.2.1.人工智能算法影响评价的制度内涵人工智能算法影响评价的制度内涵及其治理定
36、位及其治理定位 本报告第一部分的论述指出,就制度缘起而言,人工智能算法影响评价的必要性和重要性在于其将治理重心从结果转向了过程,在淡化追溯直接责任因果链条的同时,强调治理信息的记录、共享、监督,以此积累治理经验并为算法设计者、应用者的及时调整提供参考。就现有的治理实践来看,能够完成此功能的制度工具并不只有算法影响评价,与此相关并在实践中被广泛应用的制度工具还包括算法审计(algorithm audit)。本小节将在比较二者异同点的基础上,进一步明确人工智能算法影响评价的制度内涵。2.1.1.2.1.1.算法影响评价的制度内涵算法影响评价的制度内涵 从制度沿袭视角来看,算法影响评价与财政影响评价
37、(Fiscal Impact Assessment)4、环境影响评价(Environmental Impact Assessment)5等具有紧密关联,其本质上都可被视为在政府决策过程中引入专业知识以辅助决策,提供决策的科学化和民主化水平。从作用上讲,影响评价制度可能贯穿决策始终,既可能在决策事前作为项目立项或应用的准入条件,也可以作为决策事后作为项目改进或评价的结果参考。但无论其作用和方式如何,影响评价从制度内涵上讲,都可被视为对项目不同方案的社会影响(广泛涉及个人、群体、环境等不同对象)进行比较,以一定原则(例如最优原则、满意原则、底线原则)为标准选择特定方案或提出改革建议的过程。就算法影
38、响评价而言,其分析单位是算法系统的设计与应用过程,而分析对象则是该过程对社会各个维度(个体、集体或环境)的多类型影响,从而反过来促使算法设计、应用者调整其行为方式以避免/最小化有害影响。考虑到社会影响的宽泛性(包含不同主体、不同维度)、关联性(算法影响与其他社会因素的影响可能互相交织)、动态性(算法影响将伴随社会环境的变迁而变化)等多重复杂因素特征,算法影响评价的过程往往要求是开放式的、连续性的,即算法影响评价并不是在一个预先限定好边界的范畴中展开评价,而是需要充分考虑相关主体、具体场景、环境变迁等本地化知识以形成一个良性互动、持续推进的评价过程。在此意义上,算法影响评价是需要被嵌入到算法设计
39、、应用的全生命周期过程,而这也意味着传统视角下往往被视为私主体自主决策、封闭决策权力范畴的技术开发、应用过程也需要向利益相关方开放,以使得影响评价的结果能够被及时吸纳并服务于算法设计、应用决策的调整与修正。此时的利益相关方可以是政府监管部门、社会第三方乃至是全体公众,而根据开放程度的差异,算法影响评价在制度实践过程中也将形成不同模式。4 主要基于成本-效益分析方法对公共资金的投入进行影响评价,参见 Kotval,Zenia,and John Mullin.2006.“Fiscal Impact Analysis:Methods,Cases,and Intellectual Debate.”Li
40、ncoln Institute of Land Policy Working Paper.Lincoln Institute of Land Policy.5 主要对建筑工程的环境影响进行评价,参见 Taylor,Serge.1984.Making Bureaucracies Think:The Environmental Impact Statement Strategy of Administrative Reform.Stanford,CA:Stanford University Press.2.1.2.2.1.2.算法审计的制度内涵算法审计的制度内涵 从制度沿袭来看,算法审计与财务审计
41、、劳动保护审计等已经被各个领域广泛应用的审计监管实践紧密相关,其目的在于通过技术方法对算法系统是否按照预期既定要求运行而进行观察、监督,其关键内容包括两部分:确定一个明确的审计标准或要求,判断算法系统的运行过程与结果是否与这个审计标准或要求保持一致。简而言之,算法审计的主要目的在于判断算法系统是否按照其所“声称”的方式在运行。从这一定义来看,包括算法审计在内的各类型审计制度,其都包含“名义值(nominal information)”和“实际值(actual information)”这两个部分,而审计的目的就在于判断实际值是否与名义值保持一致,并在不一致的时候为执行者的修改与矫正提供参考。因
42、此,算法审计的对象是算法系统本身,而算法审计的主体同样可以是政府监管部门或者第三方主体,乃至是具有技术能力的社会公众。算法审计从定义上讲,是一个封闭系统,因其需要在确定的“名义值”指导下来展开审计,而考虑到“实际值”需要在应用后才能被收集和对比,因此算法审计往往又体现为事后监督行为而非事前准入条件。从算法审计的基本内涵来讲,其同样打破了私主体的决策范畴和决策权力边界,而要求外部主体(监管者或其他相关方)进入至算法设计、应用的全流程。根据外部主体参与程度的不同,算法审计可以进一步细化为内部审计和外部审计。从当前的政策实践来看,考虑到私主体可以以商业秘密保护、私有产权保护等名义拒绝开放,内部审计仍
43、然是更主要的审计方式;但另一方面,在各国算法治理法律制度建构过程中,我们也越来越多的看到包括监管者审计在内的外部审计影响力的逐渐提升,各国正在通过制度性立法要求算法设计、应用者开放算法生命周期过程的相关信息,以使得外部审计成为可能。同时值得注意的是,尽管算法审计是近年来才成为各国制度建设的重要组成部分,但在学术界,算法审计已经存在了很长时间。针对搜索引擎算法的偏差歧视问题、针对社交媒体算法的隐私保护问题、针对犯罪风险评估算法的种族歧视问题等,已经涌现出了非常丰富的研究文献。从研究方法来看,这些文献大都是外部审计,其都是在算法设计者、应用者没有开放全过程,而仅将算法视为“黑箱”并通过输入、输出测
44、试来判断、比较其是否按照既定要求运行的外部监管过程,它们主要扮演了社会公众监督的积极作用。但另一方面,考虑到算法设计、应用过程的封闭性,这种算法审计的信度、效度始终存疑,而近年来算法审计制度的改革也是针对此问题的制度性调整,试图将分散的、自下而上的算法审计过程,上升为体系性的制度改革。2.1.3.2.1.3.算法影响评价与算法审计的共性与差异算法影响评价与算法审计的共性与差异 基于以上两小节的分析不难发现,算法影响评价与算法审计既具有共性,也存在较大差异。从共性来讲,二者都要求打开私主体的决策权力边界,并将公共性考量融入到算法设计、应用过程之中。在此意义上,二者都不同于传统的建立在“公-私”边
45、界划分基础上的监管逻辑,其目的都在于通过对算法设计、应用过程的观察与监督以发现消极或负面的治理影响,从而反过来要求算法设计、应用过程的调整与修正,以最小化或规避治理风险。然而另一方面,二者的区别则更为明显。首先,二者的分析对象存在差异:算法影响评价的分析对象是受影响者(因变量),而算法系统是产生影响的自变量;相比之下,算法审计的对象就是算法系统本身,其要评估的是系统“名义值”与“实际值”的一致性程度。其次,二者的分析过程存在差异:算法影响评价要求开放性,即影响评价需要在不断对话的持续过程中迭代演化,具有动态性;相比之下,算法审计需要在明确的“名义值”引导下展开,并因此是封闭性的。第三,二者的制
46、度局限存在差异:算法影响评价在很大程度上受限于其宽泛而模糊的分析对象范畴(即因为算法应用范围的广泛性和应用种类的多样性,算法影响评价所要覆盖的治理目标往往较为多元,且其内涵也较为丰富),并因此可能难以有效执行;相比之下,算法审计的“名义值”往往是确定的,并因此可以得到有效执行,但算法设计、应用者也可能按照“名义值”来优化系统进而规避真正的治理要求,这也构成了“监管规避”的不良后果。也正是因为二者差异的存在,算法影响评价和算法审计并非相互替代关系,而是相互补充以最终回应算法治理的新要求和新挑战。本报告主要聚焦算法影响评价,接下来的实践梳理与理论分析也主要围绕此而展开。2.2.2.2.人工智能算法
47、影响评价的三种模式:人工智能算法影响评价的三种模式:环境影响环境影响评价评价、数据、数据保护保护影响评估影响评估、列表清单列表清单 人工智能算法影响评价作为一种新兴制度,其必然从相关制度中吸取经验,并在此基础上作出改革完善。也正因为此,在当前制度实践中,根据其与不同过往制度的关联度,可对人工智能算法影响评价制度的实践模式进行分类,而这又大致包括环境影响评价模式、数据风险评价模式、列表清单模式这三类。2.2.1.2.2.1.环境影响环境影响评价评价视角下的视角下的算法影响评价算法影响评价 自上个世纪六七十年代在全球各国逐步建立之后,环境影响评价几乎可被视为影响评价领域最为典型、最具代表意义的制度
48、典范。以 1969 年美国通过国家环境政策法(National Environmental Policy Act,NEPA)为标志,环境影响评价已被大多数国家所采纳,并被认为在保护、改善环境方面起到了重要作用。出于不同的治理环境和治理需要,各国形成的环境影响评价制度体系存在一定差异,但基于跨国制度对比以及制度演化历史的梳理分析,我们仍然可以认为环境影响评价的制度框架大致需要包含以下三个重要组成部分,而这也可被视为环境影响评价作为一种影响评价模式的关键特征。第一,环境影响评价往往建立在环境影响级别分类基础上,并根据不同级别的环境影响而在程序上对应提出差异化的治理要求。以美国为例,尽管 NEPA
49、宽泛地将对人类环境质量具有重大影响的“所有立法建议、主要联邦行动,以及这些建议或行动的合理的替代方案”都纳入要求进行环境影响评价的适用范畴,但根据对环境质量影响大小的不同,它们所要满足的评价要求却呈现出较大差异性。NEPA 在程序上规定了四个判断节点6,每一个节点所对应的评价要求逐次升高,6 NEPA 规定的四个判断节点包括以下内容:第一,首先判断该项目是否需要进行环境影响评价,特别对于在其他“功能近似(Functional Equivalent)”规制框架下已经被要求进行环境分析的项目可被免于 NEPA的评价要求;第二,其次判断该项目是否可被归类进免于环境影响评价的范畴之中,该审批主要由联邦
50、监管机构作出以说明该项目的环境影响有限,并通过公开程序征求公众意见;第三,如果不能被归类于豁免范畴,则接下来需进一步判断该项目的环境影响是否“重大”,而联邦监管机构将出具环境评估报告以对此作出判断,并公开征求公众意见,绝大部分项目都将停步于此;第四,如果联邦监管机构认为环境影响重大,则该项目便需要准备详细的环境影响陈述,其包括可能影响、关联人群、替代方案等诸多内容。相关分析参见 Froomkin,A.M.(2015).Regulating mass surveillance as privacy pollution:Learning from environemntal impact stat
51、ements.U.Ill.L.Rev.,1713.直到最后一个节点才被要求出具完整的环境影响陈述(Environmental Impact Statement,EIS),而 EIS 的内容极为详细、全面并往往包含成百上千页的评估报告。在具体执行中,事实上只有较小部分的被评价对象会进入第四节点,大部分都在前三个节点完成,并因此只承担较轻的评价成本和负担。第二,环境影响评价需要广泛纳入公众参与,并在公开、通知、反馈、修改、诉讼的迭代过程中充分反映公众意见,以确保环境影响评价的完整性与有效性。环境影响评价的公众参与固然体现了决策民主性要求,但更为重要的制度设计逻辑还在于应对环境影响评价本身的不确定性
52、。因为人类行为的环境影响往往需要很长时间才能表现出来,而导致这种环境影响的因素又往往多元且复杂,公众参与由此扮演了缓解信息困境的重要功能。前述 NEPA 框架下的四个判断节点都被要求向公众公开征求意见,评价主体在对意见进行回复后才能进入下一阶段,而若公众仍然有不同意见则还可以提起诉讼并通过司法机构来判断环境影响评价结论的适当与否。第三,环境影响评价要求进行替代方案的对比分析,从而“倒逼”一线主体在决策过程中考虑环境影响,从而寻找最小化影响的“最优”方案。环境影响评价的目的在于督促被评价对象改变行为方式以降低对环境的不利影响,但评价者又难以预知解决方案内容,因此在环境影响评价过程中纳入替代方案比
53、较的要求才可能实质性推动方案的改进和优化。需要指出的是,以上三个特征并非同等程度地反映在各国环境影响评价的制度体系之中,各国根据社会发展阶段、治理需求的差异,而可能在这三项特征上存在差异。7但无论差异如何,环境影响评价作为一项影响评价制度范式的基本逻辑是一致的,而这三点特征也自然影响了算法影响评价制度的探索与建构,并反映在已有研究与政策实践之中。举例而言,纽约大学智库 AI Now 在 2018 年提出的公共部门算法影响评价框架即是以环境影响评价为蓝本,要求公共部门在采购或使用算法时应展开影响 7 例如中国在 2003 年施行环境影响评价法之前对公众参与的要求并不高,且在该法施行之后公众参与的
54、角色也主要体现为评议而非审批或行政诉讼。参见王曦、郭祥,中美环评制度功能比较:督政抑或规制?,北京理工大学学报(社会科学版),2023 年 1 月 评价。8该框架在流程上包括五个环节:采购前评估(Pre-Acquisition Review)、初步公开(Initial Agency Disclosure Requirement)、评议(Comment Period)、正当程序诉讼(Due Process Challenge Period)、影响评价方案更新(Renewing AIAs),而它们都明显体现出了环境影响评价制度所包含的公众评议特征。同时,该框架在评价内容上还提出了五项主要要求:基于
55、影响大小合理界定评价对象范畴(Establishing Scope and Define Appropriate Boundary Around Automated Decision System)、告知公众现有及提出的算法系统方案(Public Notice of Existing and Proposed Automated Decision System)、内部自评估各个维度的算法影响(Internal Agency Self-Assessments on Fairness and other Dimensions)、为利益相关方参与提供实质意义的准入帮助(Meaningful Acce
56、ss),而它们同样体现了环境影响评价中的影响级别分类、公众参与、替代方案比较这三项关键特征。在 AI Now 方案的基础上,欧洲议会研究服务中心(European Parliamentary Research Service,EPRS)在 2019 年的研究报告中进一步将算法影响评价方案细化为 8 个环节,具体包括界定算法系统范畴、初步公开算法系统信息或关于不进行算法影响评价的决定、自评估、公开系统部署后的信息获取方案、公众参与、公开算法影响评价报告、更新算法影响评价报告、公众参与阶段的质询与起诉等。由此也不难看出,EPRS 方案更是全面沿袭了环境影响评估的制度框架与主要内容。9 尽管环境影响
57、评价作为一种制度创新已经被广泛使用,但这并不代表该项制度就已经“完美无缺”。事实上,在环境政策领域围绕环境影响评价制度的争议和质疑始终都存在:环境影响评价报告过于冗长以致于模糊了重点、公众深度参与会牺牲效率并严重影响项目进程、环境影响评价对私主体决策过程的干涉将侵害商业秘密等其他权益,都是其中的代表性观点。这些反思也自然会延伸到算法 8 https:/openresearch.amsterdam/image/2018/6/12/aiareport2018.pdf 9 https:/www.europarl.europa.eu/RegData/etudes/STUD/2019/624262/EP
58、RS_STU(2019)624262_EN.pdf 影响评价领域,例如 AI Now 和 EPRS 所提出的算法影响评价框架针对的主要是公共机构的算法应用,这也是为了规避评价结果公开可能侵害私主体机构商业秘密权益的争议。但也正因为此,算法影响评价制度体系并不能被等同于环境影响评价,其他模式的探索同样必不可少。2.2.2.2.2.2.数据数据保护影响保护影响评估视角下的算法影响评价评估视角下的算法影响评价 数据保护影响评估的制度框架基本上来源于欧盟一般通用数据规定(General Data Protection Regulation,GDPR)第 35 款,其要求“可能对自然人权益与自由造成高风
59、险的(数据处理者)”都需要执行数据保护影响评估(Data Protection Impact Assessment,DPIA)。DPIA 与算法影响评估(AIA)的关联性在于,无论是欧盟第 29 工作组关于 GDPR 执行指南的说明10,还是欧盟各成员国在落地 GDPR 时的具体实践11,以及理论界的法理分析12,都普遍对第 35 款做了宽泛性解释,即认为任何数据驱动技术事实上都会被纳入管辖范围内并因此要求执行 DPIA,而这便涵盖了所有基于大数据训练的机器学习算法。由此,为避免法律制度的重复叠加,算法影响评估完全可能被纳入并等同于 DPIA 而并不一定成为独立的制度性要求。那么接下来的问题便
60、在于,DPIA 的制度特征是什么,其是否可以满足算法影响评估的制度要求并回应算法治理的诸多挑战?从流程要求来讲,DPIA 包括审查基本信息以判断是否需要进行数据保护影响评估、围绕各目标展开影响评估以确定风险、向监管者报告并分析降低风险的可能措施、在全过程咨询利益相关方、复审以在必要时重启影响评估。13从表面 10 Working Party on the Protection of Personal Data 95/46/EC,Guidelines on Data Protection Impact Assessment(DPIA)and Determining Whether Process
61、ing is“Likely to Result in a High Risk”for the Purposes of Regulation 2016/679,art.29,WP 248(Apr.4,2017)11 Kaminski,M.E.,&Malgieri,G.(2020).Algorithmic impact assessments under the GDPR:producing multi-layered explanations.International data privacy law,19-28.12 Casey,B.,Farhangi,A.,&Vogl,R.Rethinki
62、ng Explainable Machines:The GDPRs“Right to Explanation”Debate and the Rise of Algorithmic Audits in Enterprise(2019).Berkeley Technology Law Journal,34,143.13 肖冬梅、谭礼格,欧盟数据保护影响评估制度及其启示,中国图书馆学报,2018 年 9 月 上看,DPIA 流程与环境影响评估流程类似,但其在实质内容上存在两点重大差异。一方面,与环境影响评估要求寻找替代方案并进行对比分析不同,GDPR 并没有对 DPIA 提出类似要求。尽管第 35
63、款第 7 条指出,数据处理者应“展望”(measures envisaged)能够控制数据权益风险的可能措施,但这并不完全等同于环境影响评估中的替代方案比较。另一方面,更重要的差异还在于影响评估过程的公开程度以及公众参与程度方面。尽管 DPIA 仍然建议将评估过程及结果公开,但正如第 29 工作组关于 GDPR 执行指南的说明中所指出,“公开并非一项法律责任的要求而取决于数据处理者的决定”,即使 DPIA 显示出可能存在高风险时并要求数据处理者寻求监管方建议时,关于评估结果是否公开的决定依然取决于各成员国。14 这一制度逻辑的关键在于,DPIA 是建立在“回应性监管(Responsive Re
64、gulation)”15、“协同性监管(Collaborative Regulation)”16等新型监管理论基础上,其强调监管者与被监管者的合作而非对抗,数据处理者作为被监管方的利益(例如商业秘密)需要得到承认以激励其寻找数据保护方案的积极性。此意义上,完全的公开不仅会与数据处理者权益相冲突,也会使数据处理者直接面临社会公众的监督压力,而 DPIA 放松对公开的要求事实上在公众、监管者、被监管者(数据处理者)之间构成了一种“委托-代理”关系,即监管者作为公众的委托者来监督被监管者行为,而考虑到数据保护风险的不确定性,监管者又进一步与被监管者形成合作关系以共同探索应对风险的积极措施。将 DPI
65、A 延伸以作为算法影响评估的制度基础,在 GDPR 框架下看似是可能的,但其有效性却同样受到了诸多质疑。部分研究者认为 DPIA 并不能有效回应 14 https:/ec.europa.eu/newsroom/article29/items/611236/en,P.18 15 McGeveran,W.(2016).Friending the privacy regulators.Ariz.L.Rev.,58,959.16 Kaminski,M.E.(2018).Binary governance:Lessons from the GDPRs approach to algorithmic ac
66、countability.S.Cal.L.Rev.,92,1529.人工智能算法引起的伦理和社会风险17,而另外一些研究则更细致的指出了 DPIA与 AIA 的差别,即前者考虑的仍然是“知识交流(Knowledge Communication)”问题,而后者的治理重点已经演变为“知识生产(Knowledge Production)”问题,二者的差异使得 DPIA 并不能完全覆盖 AIA 的治理需求。18当然,对于 DPIA更本质的质疑仍然可从“监管俘获”理论视角得到解释,在缺少充分公开与监督的环境下,DPIA 试图构建的监管者与被监管者“合作”愿景能否真的实现,始终是利益相关方担心的重要问题;
67、而相比于 DPIA,AIA 将覆盖更多治理主体、涉及更多治理目标,在此框架下监管者与被监管者的“合作”究竟是更为容易还是更为困难实现,同样是值得进一步探究的问题,而非已经形成确定答案的结果。2.2.3.2.2.3.问题问题列表清单评估视角下的列表清单评估视角下的算法影响算法影响评估评估 开展算法影响评估的第三种模式是采取问题列表清单的方式,而代表性实践便是加拿大政府在 2019 年 4 月出台施行的“自动决策指令”(Directive on Automated Decision-making),其要求所有被用于行政决策领域的自动决策系统都需要在采购或使用前,按照问题列表清单进行算法影响评估,而
68、该清单每两年都将被重新评估并更新。加拿大“自动决策指令”制度框架的主要内容是以算法影响评估为基础,将评估结果作为风险分级的判断标准并对不同级别风险匹配以差异化的监管要求。从指令内容来看,风险分级主要围绕五个维度(具体包括个体或集体权益,个体平等、尊严、隐私与自主性,个体健康或集体福利,个体、实体或集体的经济利益,系统的可持续发展)展开,而这五个维度也构成了算法影响评估的分析对象。按照无影响(little to no impact)、有限影响(moderate impact)、高影响(high impact)、超高影响(very high impact)这四个级别,指令从同行评议(Peer re
69、view)、17 Mantelero,A.(2018).AI and Big Data:A blueprint for a human rights,social and ethical impact assessment.Computer Law&Security Review,34(4),754-772.18 Gellert,R.(2022).Comparing definitions of data and information in data protection law and machine learning:A useful way forward to meaningfull
70、y regulate algorithms?.Regulation&governance,16(1),156-176.性别等个体特征分析(Gender-based Analysis Plus)、通知(Notice)、人在环路(Human-in-the-loop for decisions)、可解释(Explanation)、记录与测试(Documentation and Training)、连续性管理(Continuity Management)、准入要求(Approval for the system to operate)等八个方面提出了不同程度的治理要求。例如对于最低级别的“无影响”风险
71、,指令仅在可解释这一点上对自动决策系统提出监管约束,要求其对共性决策结果(common decision results)提供有意义的解释;而对于最高级别的“超高影响”风险,则包含前述所有八个方面的治理要求。在明确算法影响评估的对象及作用之后,接下来的问题就在于加拿大政府将如何展开算法影响评估?指令对此采取了列表清单问题的方式作出回应。具体而言,指令形成了涉及商业流程、所用数据、模型逻辑等多个方面的 60 余个具体问题,要求被评估主体对这些问题作出回答,然后基于答案来对被评估系统的风险进行评分,并按照评分将之相应归类到上述 1-4 个风险级别之中。问题列表共包含风险以及风险预防这两个部分,而针
72、对两个部分问题的答案也将分别形成风险评分(raw impact score)、风险预防评分(mitigation score)。该系统的影响评估总得分是按照以下两条原则来计算:如果风险预防评分小于80%的最高可能得分,那么总得分就等于风险评分;如果风险预防评大于或等于80%的最高可能得分,那么总得分就等于风险评分的 85%。评分越高,则该系统的风险评级也将越高。19 风险部分共包含 48 个问题,最高可能得分是 107。在要求对系统作出一般性描述后,问卷又进一步细分为“影响(impact)”和“数据(data)”两个子部分。一般性描述主要涉及该项目性质(属于哪个领域、为什么需要自动化决策、决策
73、对象是否高敏感人群、自动化决策扮演的作用和功能是什么等)、所用算法性质(是否受到商业秘密的保护、是否可解释等)等问题。在此之后,问卷将进 19 https:/aia.guide/一步对该自动决策系统的影响提出问题,具体问题例如该自动化决策是否存在自由裁量空间、该决策及其影响是否可矫正、该决策影响的持续时间有多长、该决策对于个体权益或自由的影响有多大、该决策对于个体健康安全的影响有多大、该决策对于个体经济利益的影响有多大等等;在数据部分,问卷的具体问题包括该自动决策系统是否使用个人数据作为输入、谁控制所使用数据、该系统是否会使用来自不同来源的数据、该决策系统是否会与其他 IT 系统相交互、谁在收
74、集该系统所使用的输入数据等等。值得注意的是,上述问题绝大部分都是选择题,即该评估系统已经预设好相关答案,被评估人只需要在答案中选择而不需要自主回答。风险预防部分共包含 33 个问题,最高可能得分是 45,并进一步细分为“咨询(consultation)”和“去风险与预防措施(de-risking and mitigation measures)”两个子部分,其中绝大部分问题(31 个)都在后一个子部分中。在咨询部分,问卷问题主要包括该系统设计和应用过程中主要征求意见的内部利益相关方是谁、主要征集意见的外部利益相关方是谁等。在去风险与预防措施部分,又进一步细分为数据质量、流程公平、隐私保护这三个
75、子部分,并分别关注各个子部分的相关措施。举例而言,数据质量部分的具体问题例如是否有测试记录、该记录是否可公开、是否对数据集进行了性别等敏感属性测试(Gender Based Analysis Plus)、组织内部是否有相关责任分配等;流程公平部分的具体问题例如该决策算法系统是否对应法理意义上权力主体、算法审计(audit trail)是否可以确认所有关键决策点、所有关键决策点是否都可以被关联至相关的法律规定、是否保存有系统调整的全部过程数据、该系统能否听取使用者反馈、该系统是否允许人为替代等;隐私保护部分的具体问题例如该系统是否开展了隐私影响评估、该系统在设计初始阶段是否考虑安全和隐私问题、该
76、系统使用的信息是否闭环、该系统在与其他系统交互共享个人信息时是否取得了用户同意、该系统是否对数据做了匿名化处理等。20 不难发现,该列表清单基本上涵盖了当前算法影响评估利益相关方关心的主 20 https:/open.canada.ca/data/en/dataset/aafdfbcd-1cdb-4913-84d5-a03df727680c 要问题,而评估结果的公开也进一步促进并提升了自动化决策系统的可解释性、可被监督性,并因而提升了算法治理水平。但同样值得反思的是,列表清单模式究竟能否以及在多大程度上可被视为算法影响评估的理想模式?针对此问题的回答可大致总结为以下两方面。一方面,算法影响评估
77、的理想模式应更倾向于开放模式而非封闭模式,自上而下试图框定评估过程的制度逻辑始终都将面临算法治理风险信息不对称以及不确定性的深刻挑战。在第一章“界定问题”的分析中,本报告已经指出积累治理过程经验(而非仅仅是解决治理问题)作为算法影响评估核心目标之一的重要性,而列表清单预先设定好的治理问题及答案都可能淡化这一目标。虽然两年一度的更新要求仍然可能使列表清单动态演化,但问题结构及答案本身的固定性,仍然约束了算法系统开发者、应用者作为一线主体的自主性,特别是其寻找可能解决方案的积极性。特别考虑到算法应用场景的多样性和复杂性,既定问题与答案究竟能在多大程度上反映现实,仍然是值得反思的深刻问题。21 另一
78、方面,列表清单模式的制度逻辑仍然可能是不完整的,以致于主要体现了问卷设计者的主观判断而可能导致“南辕北辙”的治理错位问题。列表清单最终是以评分结果来界定治理风险级别,而这可能是对算法治理这一复杂问题的过度简化。这种简化又具体体现在两个层面:对于每一个算法治理问题而言,其答案之间是否可比(每个答案究竟应该被匹配以多少分数);对于不同不同算法治理问题而言,其答案是否可比(针对不同问题的答案都被以相同分数加以对比)。举例而言,上述列表清单问题中包含“该决策系统是使用在哪个行政决策领域?”这一问题,而答案选项中,“健康相关决策”与“公共服务辅助决策(例如就业保险、残疾认证)”的得分都是 1 分,但我们
79、是否可以接受这一问卷设计逻辑,健康决策与公共服务辅助决策是否等同,健康决策内部的所有场景是否都可以被视为与公共服务辅助决策等同?同时,该部分的另一问题是“该自动化决策的对象主体是否是敏感群体(vulnerable)?”,而如果选择“是”,那该答案的风险 21 一个典型案例例如加拿大列表清单在数据部分的问题是“谁收集了训练该系统所需要的输入数据?”,该问题的可选答案列表包括“机构自身、另外的联邦机构、另外层级的政府、国外政府或第三方”。对此问题及答案的质疑在于,这四个答案选项能否概括所有数据收集主体,且国外政府或第三方在考虑数据收集治理风险时是可以等同的吗?而在一个开放模式下,评估问题就会被开放
80、性地转化为“请列举训练该系统时所使用输入数据的来源?”得分是 3 分,由此引发的反思在于:是否敏感群体的风险得分三倍于该决策所应用的场景领域得分,这一假设是否成立、其又是建立在何种合理性论证基础上,都是列表清单模式所不能回答的关键问题。2.2.4.2.2.4.不同模式的对比分析不同模式的对比分析 2.3.2.3.人工智能算法影响评价的国别特征:欧盟、美国、英国、加拿大与中国人工智能算法影响评价的国别特征:欧盟、美国、英国、加拿大与中国 2.2 节对于人工智能算法影响评价模式的分析是从理论上对治理实践现状的总结,但这并不意味着每个国家的政策实践都可以或仅可以归类于一种,现实的复杂性总是使得不同国
81、家的政策实践往往都体现了对于不同模式的混合采纳。但即使如此,不同国家出于差异化的制度文化背景、产业发展阶段与治理需求,在算法影响评价的制度选择方面仍然体现了一定的侧重,并具有差异化特点。因此,在 2.2 节模式对比分析基础上,进一步对代表性国家的算法影响评价制度进行梳理,对于我们理解算法影响评价的治理实践,仍然具有重要意义。考虑到代表性问题,本节选择欧盟、美国、英国、加拿大与中国作为分析对象,并对其具有示范意义的人工智能算法影响评价制度、政策、方案进行描述,以体现其治理特征以及差异化的治理逻辑。同时,考虑到算法影响评估是作为人工智能治理框架的重要组成部分而出现,因而本节分析也将关注各国人工智能
82、治理框架的主要特征,并在此基础上概括各国在算法影响评估方面采取的差异化治理模式。2.3.1.2.3.1.欧盟欧盟 在当前围绕新一代人工智能治理而形成的政策浪潮中,欧盟无疑是影响力最大的区域之一,其试图沿袭在数据治理领域的成功经验,通过先发效应以将欧盟政策范式向他国输出,在规则维度体现话语权和影响力。算法影响评估作为人工智能治理政策体系中的关键环节,同样受到欧盟决策者的高度重视,并成为了欧盟人工智能治理框架的基石。本小节将聚焦欧盟人工智能治理框架下算法影响评估的制度定位及政策内涵,以勾勒出其治理特征与治理逻辑。(1)欧盟人工智能治理的基本框架)欧盟人工智能治理的基本框架 与数据治理框架(Gene
83、ral Data Protection Act,GPDR)类似,欧盟人工智能治理同样采取了整体性法律规制的基本思路,试图通过制定具有约束力的一般性法律规则,以为人工智能创新和应用活动提供制度确定性,从而兼顾防控风险和促进创新的双重目标。在此思路指引下,欧盟形成了以 人工智能法案(Artificial Intelligence Act)为主干的治理框架,该法案一方面将在此之前所提出的不具有约束力的人工智能伦理治理原则转化为了具有约束力的法律规则22,另一方面也调和了垂直领域的人工智能法律规则从而在制度层面实现了协同统一23。从立法思路来讲,人工智能法案采取了基于风险分类的规制框架,将人工智能系统
84、区分为不可接受风险、高风险和低风险三个大类别,针对不同风险匹配以差异化的规制措施并尤其对高风险人工智能系统应用提出了详细而明确的规制要求。24正因为此,该法案的关键要素之一在于对人工智能系统进行风险分类,而法案本身采取了一般性特征和垂直领域特征相结合的方式来进行风险类别划分。高风险人工智能主要涉及该系统执行的功能或扮演的作用(例如生物识别、关键基础设施、教育或职业培训、司法等),以及该系统被使用的方式或特征(例如算法系统的使用频率,潜在危害性,结果的可逆转性等)。与风险分类紧密相关的是针对不同类别风险而提出差异化的治理要求,而人工智能法案的关键在于针对高风险人工智能的规制要求,这又具体涵盖风险
85、管理、数据治理、过程记录、透明度和信息公开、人为监管、鲁棒性、准确性、22 这主要体现为对欧盟高级别专家委员会(High Level Expert Group,HLEG)提出的“可信赖人工智能伦理原则(Ethics Guidelines for Trustworthy AI)”,以及欧盟发布的“人工智能白皮书(White Paper on AI)”、“欧盟人工智能战略(European AI Strategy)”等伦理治理原则、主张、战略的法律转化,将其中本不具有约束力、主要体现倡议功能的治理条款转化为需要严格执行的法律条款。23 这主要体现为对分布在不同垂直领域法律规范中涉及人工智能法律条款
86、的调和与统一,涉及民事责任领域的产品和人工智能责任框架(Product and AI Liability Rules),安全规制领域的机器规制(Machinery Regulation)、通用产品安全指令(General Product Safety Directive),数据保护领域的通用数据保护指令(General Data Protection Directive),以及新近制定的数字市场法案(Digital Markets Act)和数字服务法案(Digital Services Act)等。24 被归类为不可接受风险的人工智能系统将被禁止使用,而低风险人工智能系统往往被免于规制要求,
87、因而主要的规制措施都是针对高风险系统及其应用。安全性等多个维度。例如风险管理要求是指高风险人工智能系统应持续性开展风险评估措施并不断迭代,过程记录是指高风险人工智能系统的开发、应用过程需要被记录下来,而透明度和信息公开要求则涉及针对用户的可解释性等。在该法案框架下,上述规制要求被分别置于不同治理主体身上,其中又尤其针对人工智能系统的提供者,要求其在市场准入(或系统上线提供服务)之前开展“合规性评估(conformity assessment)”,并发布“合规性报告(declaration of conformity)”。为监督治理规则的执行和落地情况,人工智能法案规定在欧盟层面将建立“人工智能
88、委员会或办公室(AI Board or AI Office)”以为欧盟及成员国的国内监管机构提供规则落地的政策建议,并通过下设的两个子委员会来促进各成员国治理经验的交流与评议。在成员国层面,各国需指定特定监管机构来落实法案内容。而在涉及人工智能治理责任救济方面,与法案同步推进的人工智能责任指令(AI Liability Directive)引入了“过错原则”,即当被发现存在权益侵害时,各成员国司法机构有权要求高风险人工智能系统开发或部署者提供合规证据。(2)欧盟人工智能)欧盟人工智能算法影响评估的制度逻辑算法影响评估的制度逻辑 人工智能法案主要通过两种方式引入了算法影响评估,并奠定了其在该法案
89、中作为制度基础的重要作用。一方面,法案要求高风险人工智能系统在投入使用前应执行“合规性评估(Conformity Assessments)”,即需要按照现行法律规则来评估该系统是否满足各项法律要求。同时,合规性评估结果要求向公众公开,而欧盟也将成立一个专门的数据库来支撑这一公开要求。根据这一规定不难发现,合规性评估在很大程度上类似于“事前”算法审计工作,即在明确界定标准的前提下判断算法系统的设计与应用是否符合该标准要求。25 另一方面,人工智能法案更全面体现算法影响评估的机制设计是在其2023 年欧盟委员会发布的修正案中,26这便主要体现为在法案中明确加入了基本 25 https:/www.p
90、roject-sherpa.eu/conformity-assessment-or-impact-assessment-what-do-we-need-for-ai/26 https:/ Rights Impact Assessments,FRIA)的新机制。根据修订后的第 29 款,基本权利影响评估是指高风险人工智能系统在应用之前同时还需要围绕其对“基本权利”的影响进行评估,具体内容包括以下 9 项:(a)针对该系统使用目的的明确说明;(b)该系统使用空间和时间范围的明确说明;(c)因该系统使用而受到影响的自然人或群体范围;(d)该系统与欧盟或成员国规定的基本权利相一致的证明;(e)该系统使
91、用后对于基本权利的可预见影响;(f)对边缘人群、敏感人群可能出现的特定风险;(g)对环境产生的可预见的负面风险;(h)削弱或消除对基本权利风险的详细方案;(j)该系统部署者所采取的治理方案,包括人为监管、责任救济等。尽管不要求完全公开,但基本权利影响评估的结果要求向监管机构以及利益相关方汇报或分享。考虑到新一代人工智能系统与数据的紧密关联性,基本权利影响评估也可能与通用数据保护指令(GDPR)中规定的“数据保护影响评估(DPIA)”产生交叠。为避免增加合规负担,修正后的人工智能法案同样在 29 款规定了FRIA 和 DPIA 的关系问题。法案指出,如果 GDPR 要求人工智能系统提供者开展DP
92、IA,那么在 FRIA 中也应包括 DPIA 的摘要说明(特别是关于在该系统特定的使用目标和使用背景下)。基于上述梳理不难发现欧盟人工智能法案在设计算法影响评估制度方面的一些特征。首先,欧盟明确将人工智能算法影响评估作为单独的监管内容独立于其他影响评估(特别是 DPIA),这体现了欧盟已经认识到人工智能治理的特殊性以致于不能仅仅以 DPIA 来代替算法影响评估。其次,欧盟范畴下的人工智能算法影响评估涵盖范围较广,不仅涉及个体权益或集体权益,同时还将环境权益纳入其中,明确要求将人工智能系统的环境影响评估(包括但不限于人工智能系统的能源消耗问题)纳入其中,而这也明显反映了法案针对当前大模型快速发展
93、这一时代背景的敏捷反应。最后,欧盟框架下的算法影响评估在很大程度上类似于算法审计,即其试图以较为明确的标准(具体是指法律规则)来指引算法影响评估,在此意义上影响评估也与合规评估紧密联系起来。基于这种制度设计逻辑,我们便不难发现欧盟试图兼顾风险治理和保护创新这双重目标的基本思路。(3)欧盟人工智能)欧盟人工智能算法影响评估算法影响评估的的总结总结与反思与反思 尽管欧盟人工智能法案高度重视算法影响评估,并在极为精巧的法律设计中建立了算法影响评估的主要框架,但这并不代表其已基本完善。无论是合规性评估(Conformity Assessment)还是基本权利影响评估(FRIA),都存在不可忽视的缺陷与
94、短板,并因此引起了诸多反思与批评。对于合规性评估而言,一个主要批评在于其可能只能解决形式合规问题而难以促进实质治理目标的实现。27一方面,考虑到人工智能治理法律制度尚在发展进程中,现行法律规则事实上难以为合规性评估提供明确的审计标准和目标;另一方面,即使存在明确的法律规则,考虑到法律本身作为风险底线的制度定位,且其要求提供明确权益侵害证明以及责任因果链条的制度逻辑,使得大量因人工智能系统应用而产生负面影响的治理风险难以被框定在内。在此意义上,合规性评估很可能只能关注是否建立了数据管理制度、是否存在报告流程、是否存在风险预警和解决措施等程序上的形式要求,而难以切中环境影响、基本权利影响等实质性目
95、标的实现与否。在此意义上,基本权利影响评估能够作出补充,但其仍然存在不足之处。对于基本权利影响评估而言,普遍性的质疑和反思是认为其可能加重被规制对象的合规成本,同时也可能因为存在“例外豁免”情况而沦为摆设。一方面,批评者认为基本权利影响评估存在执行层面的困难与挑战,其与其他垂直领域已经提出的法律要求相重合并可能导致多重合规成本,而且将人工智能法案管辖范畴延伸至司法、环境等领域也可能模糊其聚焦隐私、安全等基本权益保护的立法初衷。正因为此,批评者往往提出建议,认为应删除基本影响评估条款。28另一方面,批评者同样指出人工智能法案的制度设计存在漏洞,以致于大型数字平台企业或高风险人工智能应用可能通过“
96、例外豁免”条款来有效规避基本 27 https:/www.project-sherpa.eu/conformity-assessment-or-impact-assessment-what-do-we-need-for-ai/28 https:/www.digitaleurope.org/resources/ai-act-trilogues-a-vision-for-future-proofing-governance-and-innovation-in-europe/权利影响评估的规制要求。法案中规定,在应急状况或对于中小企业等缺少进行评估的资源和能力情况下,可以在未展开基本权利影响评估的前
97、提下应用人工智能。29在批评者看来,这一规定可能产生制度漏洞,例如大型数字平台企业可以通过设立新的创业公司以成为法律意义上的“中小企业”,从而同样能够在不展开基本权利影响评估的前提下测试、应用高风险人工智能。30 2.3.2.2.3.2.加拿大加拿大 在人工智能治理方面,加拿大采取了与欧盟类似的制度设计逻辑,即通过制定一般性法律规范来兼顾风险规制和促进创新的双重目标,而其代表性法律是正在制定过程中的 人工智能与数据法案(Artificial Intelligence and Data Act,AIDA)以及已经施行的自动决策指令(Directive on Automated Decision-
98、Making,DADM)。但与欧盟试图在人工智能治理领域复制“布鲁塞尔效应”的立法理念不同,加拿大明确表达了与欧盟、美国、英国保持制度“对齐性”(align approaches)的观点,以确保加拿大公民能够在全球市场受到保护而加拿大公司能满足各国治理要求。31在此目标指引下,加拿大人工智能治理同样采取了基于风险分类的规制思路,并形成了一系列的制度设计。(1)加拿大加拿大人工智能治理人工智能治理的基本框架的基本框架 加拿大人工智能治理框架以 AIDA 和 DADM 两部法律为主要支柱。AIDA 是由信息、科学和产业部(Minister of Innovation,Science,and Ind
99、ustry,MISI)在2022 年 6 月作为数字宪章实施法案(Digital Charter Implementation Act,DCIA)的一部分而提出,而 DCIA 的初衷及目的是改革加拿大的数据隐私保护制度、落实数字宪章要求,以确保加拿大公民能够信任数字化转型进程中的技术创 29 https:/artificialintelligenceact.eu/wp-content/uploads/2023/08/AI-Mandates-20-June-2023.pdf 30 https:/www.socialeurope.eu/the-ai-act-deregulation-in-disg
100、uise,388d 31 https:/ised-isde.canada.ca/site/innovation-better-canada/en/artificial-intelligence-and-data-act-aida-companion-document 新与产业应用。考虑到人工智能与数据的紧密关联,AIDA 便作为重要组成部分纳入到了 DCIA 框架下,其主要对私人部门的人工智能研发与应用行为作出规范。32与之相比,DADM 主要聚焦公共部门中的自动决策算法应用规范,其在 2019 年4 月正式开始实施,试图通过完善制度规范来提升公共部门的算法应用与自动化决策水平。从制度内容来讲
101、,AIDA 的基本逻辑与欧盟人工智能法案一致,其都建立在风险分类框架之上,并重点关注“高影响”(high impact)人工智能应用的规制问题。但与欧盟不同,AIDA 并没有对“高影响”人工智能给出明确定义,而只是宽泛提出通过利益相关方咨询的方式决定高影响人工智能的范畴。不过即使如此,AIDA 也给出了判断高影响人工智能的参考建议,这又具体体现在以下几个维度:对健康、安全以及基本人权会造成风险的证据,潜在风险的严重程度,人工智能应用规模,已出现风险的性质,退出人工智能系统的难度,人工智能应用环境的分化结构,以及在现有法律框架下能够被有效规制的程度等。33围绕这几个维度,AIDA 明确提出,其所
102、关注的治理风险主要体现在两方面:对于公民个体权益的侵害(Harms to individuals),以及存在偏差或歧视的输出结果(biased output)。基于此也不难发现,相比于欧盟人工智能法案在基本权利影响评估中较为宽泛地将环境、财产权、人权等包括在内的立法思路,AIDA 所针对的问题集合显得更为聚焦和狭窄。不过根据加拿大信息、科学和产业部的规划,AIDA 不会早于 2025 年出台,34而这也意味着该框架下的“高影响”人工智能范畴究竟将包括哪些内容仍然还存在较大不确定性。DADM 同样沿袭了风险分类的治理框架,但其并不仅仅针对“高影响”自动 32 https:/ised-isde.c
103、anada.ca/site/innovation-better-canada/en/artificial-intelligence-and-data-act-aida-companion-document 33 https:/ised-isde.canada.ca/site/innovation-better-canada/en/artificial-intelligence-and-data-act-aida-companion-document 34 https:/ised-isde.canada.ca/site/innovation-better-canada/en/artificial
104、-intelligence-and-data-act-aida-companion-document 决策系统提出规制要求,而是一般性地覆盖多个风险类别。在 DADM 框架下,风险分类的维度主要沿两个方向展开:一方面,以跨领域的横向视角为指导,考虑是否可逆、持续时间长短等自动决策系统的共性特征;另一方面,以基于领域的纵向视角为指导,考虑健康福利、经济权益、可持续发展等不同领域权益。二者结合起来以作为风险判断和分类的基本标准。作为结果,自动决策系统被划分为无影响(little to no impact)、有限影响(moderate impact)、高影响(high impact)、超高影响(ve
105、ry high impact)这四个类别,而每个类别也相应匹配以差异化的规制要求和措施。从规制要求的角度来看,AIDA 和 DADM 与欧盟人工智能法案还存在一定差异。加拿大决策者采取了公、私分立的监管态度,AIDA 主要针对私主体的人工智能开发、应用活动,因此尽管 AIDA 要求“高影响(High Impact)”人工智能系统开发、应用者需要向监管者汇报,但其并不像欧盟人工智能法案般要求“合规性评估(Conformity Assessment)”以作为市场准入前提条件。对于公共部门而言,DADM 则明确要求自动决策系统在落地应用之前需要进行算法影响评估,并根据评估结果来匹配相应的规制措施。(
106、2)加拿大加拿大人工智能人工智能算法影响评估的制度逻辑算法影响评估的制度逻辑 与欧盟类似,算法影响评估是加拿大人工智能治理制度框架的基础,AIDA 和DADM 都将其纳入制度范畴,并扮演了基础性作用。在 AIDA 框架下,算法影响评估是确定“高风险”人工智能的前提,而这也是基于此展开后续治理活动、提出后续规制要求的基础。但考虑到 AIDA 仍然处于制定过程中,究竟如何评定“高风险”还存在立法不确定性:谁来评定、如何评定、经历何种程序来评定、评定结果应如何更新等问题还需要立法的进一步探索与回答。相比之下,DADM 框架下的算法影响评估已经较为成熟和体系化,其事实上构成了 2.2.3 节所描述的“
107、问题列表清单评估”的特色模式。考虑到 2.2.3 节已对此做了较为充分的分析,本节不再赘述。(3)加拿大加拿大人工智能人工智能算法影响评估的算法影响评估的总结总结与反思与反思 基于上述分析,不难发现加拿大人工智能算法影响评估制度的三个主要特征。第一,第一,加拿大是以公、私分立的态度推进人工智能治理,而针对不同主体开展人工智能算法开发、应用活动的影响评估,形成了不同的关注重点。对于公共部门而言,DADM 形成了较为完善的“问题列表清单评估”模式,以形成四种类型的风险评估结果;对于私人部门而言,AIDA 仅要求区分“高影响”人工智能,而不对其他类型作出区分。第二第二,相比于欧盟,加拿大更为明显地体
108、现出了试图平衡风险监管与创新激励的双目标视角,并更加侧重于后者。与欧盟对私人部门施加较多的影响评估压力(例如基本权利影响评估制度)相比,加拿大在很大程度上削弱了私人部门的影响评估责任。AIDA 仅对“高影响”人工智能提出规制要求,而“高影响”的判断标准又要求征求人工智能开发者、应用者意见,由此可能形成较为宽松的监管环境。第三,第三,加拿大较为明显地体现出了将国内治理与全球治理紧密联系在一起的立法态度。AIDA 明确提出与欧盟、美国、英国的人工智能监管框架保持一致,其目的则在于为加拿大国内的人工智能产业提供协同化的国际监管环境,降低合规负担。正是基于上述三点总结,我们也不难发现加拿大人工智能治理
109、,以及更具体的人工智能算法影响评估制度框架的不足,这又具体体现在以下两方面。一方面,批评者认为加拿大人工智能立法(主要针对 AIDA)过于保护人工智能产业或企业而轻视了基本权益保护。AIDA 所提出的针对“高影响”人工智能开发者、应用者的规制要求,可能在宽泛的指导原则下沦于形式,而不能真正实现以算法影响评估来“倒逼”产业或企业提升治理水平的立法目的。同时,更有批评者直接提出,信息、科学和产业部作为产业发展部门,其作为人工智能规制立法提出者的身份是不合适的,强调发展的部门逻辑将自然忽视基本权益保护,因而应由其他部门代替。35 另一方面,批评者同样认为 DADM 所形成的“问题列表清单”评估模式可
110、能并不能有效应对人工智能风险治理要求。“问题列表清单”评估模式的封闭性、自上而下特征,很可能难以应对人工智能技术创新和产业应用本身的动态演化逻辑,且其内在制度逻辑的一致性同样遭受颇多质疑。在此背景下,AIDA 究竟是否会采纳、模仿 DADM 的算法影响评估模式,仍然具有不确定性,而这事实上也为加拿大人工智能治理制度带来了不确定性,反而不利于产业发展。2.3.3.2.3.3.美国美国 作为人工智能技术创新与应用大国,美国在人工智能治理领域的政策选择始终是其他国家关注的对象。但与欧盟、加拿大、中国等已经出台立法的国家和地区相比,美国人工智能治理政策仍然尚未上升到法律层面,而主要采取了两种路径以回应
111、人工智能治理的迫切需要:一方面,在联邦层面发布一般性的治理原则或准则,通过行政命令或规则标准的方式来约束、引导公共部门或私人部门在人工智能领域的开发与应用行为;另一方面,垂直领域的法律规制机构正在关注人工智能发展与应用背景下所出现的新的治理需求和治理挑战,并试图通过各垂直领域的法律更新来作出回应。在人工智能治理领域,美国当前的模式特征是否有效,及其未来的动态更新是我们需要关注的重点内容。(1)美国美国人工智能治理的基本框架人工智能治理的基本框架 美国人工智能治理框架主要围绕前述两条路径展开,并分别形成了一些代表性的治理规则文本或治理行动。就联邦层面的治理进展而言,类似于加拿大,美国人工智能治理
112、同样采取了公共部门、私人部门分开推进的模式特征,但也同时明确提出了以公共部门应用人工智能的治理规范来引导私人部门治理进程的内在影响机制。对于公共部门的人工智能治理而言,主要以特朗普、拜登政府连续发布的行 35 https:/ 政命令为主,并以此为基础进一步延伸至联邦管理与预算办公室(Office of Management and Budget,OMB)发布的更为系统的“促进联邦机构推动人工智能治理、创新、风险管理的备忘录”(Proposed Memorandum for the Heads of Executive Departments and Agencies on Advancing
113、Governance,Innovation,and Risk Management for Agency Use of Artificial Intelligence)(以下简称“备忘录”)。2019 年特朗普政府连续发布的行政命令 13859:维持美国在人工智能领域的领先地位(Executive Order 13859:Maintaining American Leadership in Artificial Intelligence)和 行政命令 13960:促进联邦政府应用可信赖人工智能(Executive Order 13960:Promoting the Use of Trustwo
114、rthy AI in the Federal Government),都明确提出要为联邦机构应用人工智能确立治理规范,从而在提升人工智能在联邦机构应用水平的同时促进公众信任。特朗普政府发布的行政命令在拜登政府时期得到了延续,后者主要采取了两项具有影响力的政策策略。一方面,拜登政府在 2022 年发布了人工智能权利法案路线图(Blueprint for an AI Bill of Rights,BOR),确定了在人工智能应用时代保护美国公众权利与自由的五项基础性原则。36从在整个治理框架中的定位来看,BOR 类似于欧盟框架下的“可信赖人工智能的伦理指导意见”(Ethics Guidelines
115、for Trustworthy AI),其主要表达了政府在人工智能治理方面的基本理念和原则,并为后续更进一步、更实际的规则制定奠定基础。另一方面,拜登政府在 2023 年 10 月发布了安全与可信赖人工智能的发展与使用行政命令(Executive Order on Safe,Secure,and Trustworthy Development and Use of Artificial Intelligence),而在该行政命令发布后的两天,白宫 OMB 办公室即发布了“备忘录”草案以征求公众意见。36 具体包括安全与有效系统(Safe and Effective System)、算法歧视保护
116、(Algorithmic Discrimination Protection)、数据隐私(Data Privacy)、通知与可解释(Notice and Explanation)、人为决策作为可选项(Human Alternatives,Consideration and Fallback)等五项。对于私人部门的人工智能治理而言,美国的代表性治理行动主要体现在被反复提出(2019、2022、2023 三次被提案)但尚未通过国会立法的算法责任法案(Algorithm Accountability Act,AAA),以及由国家标准和技术研究所(National Institute of Stand
117、ards and Technology,NIST)提出的“人工智能风险管理框架”(AI Risk Management Framework,AI RMF)。这两个文本都是针对一般性人工智能应用而形成的治理文本,但在 AAA 立法通过之前,二者都不具有约束力,而只是作为鼓励私人部门采用的自愿性、引导性文本。从内容上讲,AAA 关注的规制对象是“能够辅助或支撑具有法律或现实影响的决策系统”(augmented critical decision process),其广泛覆盖教育、工作、健康、司法、金融等多个领域。值得注意的是,在规制对象范畴框定的过程中,AAA 同样明确了“技术中立”原则,即仅仅只
118、是作为决策系统支撑的“消极计算基础设施”(passive computing infrastructure)并不被包括在内,典型案例例如支撑算法运行的云计算基础设施。而就部署、使用算法的组织实体而言,AAA 将联邦贸易委员会(Federal Trade Commission,FTC)作为监管机构而非单独设立,在 FTC 的监管框架下,其主要将年收入超过一定限额或处理公民个体信息的数量超过一定限额的大型企业作为监管标的,由此为中小企业创新提供了法律保护。37值得注意的是,AAA 的这一措施与欧盟人工智能法案存在差异,后者并没有将中小企业作为例外而豁免在监管之外,而是强调为中小企业提供相匹配的合规
119、资源。38究竟哪种模式是更好的模式,仍然需要在实践中观察。同样重要的问题还在于 AAA 所提出的规制要求,其主要涵盖算法影响评估和年度报告这两项,本报告将在下一节做更详细的描述。上述分析都体现了美国试图在人工智能治理方面构建跨领域一般性规制框架的努力,但这并非美国决策者的唯一特征,特别是考虑到上述框架都尚未被上 37 https:/ 38 https:/ 到底能否被通过立法仍然具有未知数,这也反映了立法部门(国会)对是否将一般性立法作为人工智能治理框架的思路存在质疑。与这两方面担忧并行的,是美国各垂直领域监管者对人工智能创新应用而引发新挑战的回应。例如,FTC 在 2021 年即发布了政策指引
120、,对不同法律在人工智能系统应用方面的适用性进行了解释,其主要关注了三点。39第一,FTC 法案(FTC Act)第五款禁止不公平或欺诈性商业措施,因此售卖或使用种族歧视算法自然将被涵盖在该法案范畴内;第二,公平信用报告法案(Fair Credit Reporting Act,FCRA)旨在规范消费者信用报告(评级)产业,以确保消费者得到公平对待,而当算法被应用于公众在就业、住房、信用、保险或其他福利申请的评估时,其自然被纳入到该法案的管辖范畴;第三,平等信用机会法案(Equal Credit Opportunity Act)要求向消费者提供贷款或消费信用的政府机构、企业或个人,在作出授信决定时
121、不能由于申请人的性别、婚姻状态、种族、宗教信仰、年龄等因素做出歧视性的授信决策,因此当算法被用于授信决策或公共福利申请决策时,自然也将被纳入该法案范畴。FTC 作为监管机构对上述法律在人工智能时代的适用性解读,充分体现了美国试图强化在垂直领域解决人工智能治理问题的努力。换言之,无论AAA 等跨领域的一般性法律规范通过与否,FTC 作为监管机构都将利用现有法律框架推进人工智能治理工作。(2)美国美国人工智能人工智能算法影响评估的制度逻辑算法影响评估的制度逻辑 在上述对于美国人工智能治理框架的梳理中不难发现,算法影响评估在美国框架下尚没有凸显出其基础性地位。事实上,对于垂直领域的监管努力而言,算法
122、影响评估并不是最核心内容,因无论算法影响如何,一旦其落入已有法律的监管框架,其都会面临需要满足合规性要求的责任。只有对于跨领域的一般性治理 39 https:/www.ftc.gov/business-guidance/blog/2021/04/aiming-truth-fairness-equity-your-companys-use-ai 规则而言,算法影响评估的重要性才凸显出来,而这又分别体现在针对公共部门和私人部门的治理框架之中。一方面,拜登政府 OMB 办公室在 2023 年 10 月发布的“备忘录”基本上可被视为对联邦机构应用人工智能确立了较全面和完善的治理框架,其中也明确提出了算
123、法影响评估的关键地位。40该备忘录提出了强化人工智能治理体系(Strengthening AI Governance)、促进负责任人工智能创新(Advancing Responsible AI Innovation)、管理人工智能应用风险(Managing Risks from the Use of AI)这三项主要目标,并在每项目标下都提出了较为具体的改革行动建议。其中,与本报告关注的人工智能算法影响评估紧密相关的部分在第三项目标,即管理人工智能应用风险。“备忘录”在该环节体现了与他国不一样的治理思路。第一,“备忘录”将人工智能应用区分为“安全影响”(Safety Impacting)和“权
124、益影响”(Rights Impacting)两种类型,前者是指可能在人员生命或福利、气候或环节、关键基础设施、战略性资源等方面产生影响的人工智能应用,而后者是指可能会作为决策基础以对公民权利与自由、平等机会、关键资源获取等产生影响的人工智能应用。第二,基于这两类区分,“备忘录”提出了两类规制要求:一是要求联邦部门在决定应用人工智能时需要采取“成本-收益”分析,在证明收益大于成本后才能应用;二是对不同类型人工智能应用提出了一系列最低规制要求。第三,最低规制要求包括人工智能影响评估、在真实环境下测试人工智能、独立评估人工智能、持续监督并设置人为审查“门槛线”、移除或减轻风险的措施、确保适当的人力资
125、源训练和评估、对于高影响情况的人为介入、通过人工智能应用库来实现公众告知与解释等系列措施。特别的,对于“权益影响”的人工智能应用,“备忘录”还进一步提出了确保人工智能促进公平、纳入受影响群体反馈、持续监督并减轻因人工智能而产生的歧视结果、通知受到负面影响个人、维系人为干涉和救济流程、在可能情况下提供退出渠道等新的最低规制要求。由此不难看出,“备忘录”仍然采取了基于风险的规制框架,但在风险类型的划分、40 https:/www.whitehouse.gov/wp-content/uploads/2023/11/AI-in-Government-Memo-draft-for-public-revi
126、ew.pdf 规制要求的提出(以列表清单式)等方面仍然体现了差异化特点。另一方面,对于私人部门监管而言,AAA 所提出的主要规制要求都围绕影响评估展开,涵盖算法影响评估和年度报告这两项。AAA 规定,被监管者需要开展算法影响评估,并主要涵盖以下 11 项基本要求:流程评估(Process Evaluation)、利益相关方咨询(Stakeholder Consultation)、隐私评估(Privacy Assessment)、绩效评估(Performance Evaluation)、(对使用者的)训练与教育(Training and Education)、防护与使用限制(Guardrails
127、 and Limitations)、数据记录(Data Documentation)、用户权利评估及透明和可解释要求(Rights,Transparency and Explainability)、负面影响评估(Negative Impact Assessment)、关键节点的文本记录(Documentation and Milestones)、优化决策的资源储备(Resource Identification)。41与欧盟和加拿大所提出的算法影响评估要求相比,其特点是比较具体的集中在公民权益方面,而并未将环境影响等更广泛内容纳入其中;同时,AAA 的算法影响评估又更具体地列举了缓解风险措施,