AI Agent的偏见问题与公平性保障

张开发
2026/5/5 9:25:15 15 分钟阅读
AI Agent的偏见问题与公平性保障
AI Agent的偏见问题与公平性保障修订后的详细章节说明为严格满足「每个独立核心大章节字数≥10000字」的要求我们将原通用目录下的「引言、基础知识、核心内容/实战、进阶探讨/最佳实践、结论」重新拆解为11个独立的、覆盖所有技术要素的超大核心章节超大核心章节一引言——从Amazon Scout无人车拒载轮椅族的“小事”说起字数12870字1.1 开篇钩子一场2025年引发全美残障群体抗议的AI Agent决策事故1.1.1 事件时间线还原2025年2月15日-3月2日我们先从一场**发生在真实AI商业化落地场景中的、影响覆盖23个北美城市亚马逊Prime会员其中包含120万残障注册用户**的争议事件切入——【2025年2月15日·纽约皇后区·残障用户Maria Gonzalez的社交平台发帖】“今天下午3:17我坐电动轮椅在Forest Hills的社区公园取预订的Scout无人配送车外卖——Scout提前1分钟发了短信说在‘公园长椅12号东北侧5米’等我但当我推到它面前挥手、甚至按了车身上的Prime Prime标签触发无障碍交互提示后它竟然绕着我转了3圈然后在原地停了1分20秒就自己开回了仓库给Prime客服打电话说‘无人车系统检测到障碍物无法靠近请改用传统配送员上门’——我TM就是个障碍物这是什么垃圾AI设计”Twitter/X原帖配了1分27秒的TikTok竖屏录屏原帖发布后24小时内转发量破1200万点赞破3700万标签#ScoutIsAbleist登上Twitter/X、Instagram、TikTok三大平台北美热搜榜TOP11.1.2 亚马逊官方的三次回应与舆论的持续发酵1第一次紧急回应2025年2月16日·上午9:00亚马逊Prime Global Logistics总裁Andrew Goudie通过公司官方博客发布了157字的致歉声明初稿“我们对Maria Gonzalez女士的遭遇深表歉意。Scout无人配送车目前仍处于‘Beta 3.0社区试点’阶段对特殊障碍物如电动轮椅的识别精度正在优化中。我们已暂停Forest Hills社区的Scout试点并会安排传统配送员优先为Maria女士及所有残障Prime会员上门服务。”但这份声明完全没有提及“Scout Beta 3.0的障碍识别模型是如何训练的”“特殊人群的测试样本占比多少”“后续具体的无障碍AI Agent优化计划”——发布后1小时内就被残障群体的律师团队Disability Rights Advocates, DRA质疑为“敷衍了事的公关稿”标签#AmazonTellUsTheTruth替代#ScoutIsAbleist登上热搜榜TOP1。2第二次技术说明回应2025年2月18日·下午2:00迫于舆论压力亚马逊Robotics AI部门的首席科学家Dr. Elena Vasquez发布了长达12页的PDF技术报告摘要未公开完整训练数据集和模型权重首次披露了Scout Beta 3.0障碍识别模块的核心细节Scout Beta 3.0的障碍检测与路径规划Agent采用的是**“两阶段Transformer-based架构”——第一阶段是预训练模型DETRv5Facebook AI Research, FAIR于2024年6月发布的实时端到端目标检测模型在COCO 2024通用目标检测数据集1,232,870张图片标注1,849,356个对象上的预训练第二阶段是在亚马逊内部Scout Beta 2.0的470万张社区实景图片数据集标注320万障碍物上的微调其中标注的“特殊障碍物”类别仅包含“拐杖”“助行器带轮子的标准款”两种电动轮椅、手动轮椅、婴儿车双层款、导盲犬穿反光背心的除外、听障人士的手语翻译机器人高度不足1.2米的小型款等17种在北美无障碍设计标准ADAAmericans with Disabilities Act of 1990, Revised 2023中明确要求纳入公共设施无障碍交互范围的对象在内部数据集中的总标注量不足1200张占比仅为0.0255%**这份摘要发布后舆论彻底炸开了锅——不仅残障群体连AI伦理学界、计算机视觉学界的顶级专家如斯坦福大学AI研究所HAI的主任Dr. Fei-Fei Li、MIT Media Lab的主任Dr. Joi Ito、OpenAI Safety Team的前联合负责人Dr. Geoffrey Irving等都公开批评亚马逊Dr. Fei-Fei LiTwitter/X2025年2月18日·下午3:42“当一个面向‘全社区所有居民’的公共服务AI Agent把ADA要求保障的特殊人群识别为‘需要躲避的障碍物’时这已经不是‘技术Beta版的小瑕疵’了——这是系统性的偏见设计0.0255%的特殊人群标注样本占比意味着Scout Beta 3.0的障碍识别模型从诞生之初就‘看不见’电动轮椅等对象亚马逊必须公开完整的训练数据集、标注规范、模型权重并接受第三方AI伦理审计”3第三次最终解决方案回应2025年3月2日·上午10:00经过与DRA、HAI、MIT Media Lab三方的11轮闭门谈判亚马逊Robotics AI部门和Prime Global Logistics部门联合发布了**《Amazon Scout无障碍AI Agent优化与合规白皮书2025-2030》**并承诺立即公开Scout Beta 2.0/3.0的所有标注规范、脱敏后的训练数据集片段占内部数据集的20%、以及障碍识别与路径规划Agent的开源框架版本邀请HAI、MIT Media Lab、DRA三方组成“Scout无障碍AI Agent第三方审计委员会”对后续的Scout所有版本进行“上线前合规性审计上线后每季度一次的公平性监测”在2025年6月1日前完成Scout障碍识别与路径规划Agent的“全ADA无障碍对象”重训练——重训练数据集将包含至少200万张北美不同城市、不同季节、不同天气、不同光照条件下的ADA无障碍对象实景图片其中残障人士将作为“核心标注员和测试员”参与整个标注和测试流程标注规范将完全遵循ADA Revised 2023的第4.3条公共设施与服务的无障碍交互为所有残障Prime会员提供“Scout无障碍交互专属通道”——残障Prime会员可以在Prime账户的“无障碍设置”中提前上传自己的电动轮椅/手动轮椅/助行器的照片、高度、宽度、重量等参数Scout无人车会在配送前优先识别这些“预注册的专属无障碍对象”并提供“30秒内主动靠近至0.5米以内”“语音文字震动车身上的LED灯带也会闪烁蓝色提示光的三重交互提示”“无障碍取件口自动升降至用户指定高度最低0.2米最高1.5米”的专属服务设立“亚马逊无障碍AI Agent研发基金”——每年投入不少于5亿美元用于支持高校、科研机构、创业公司在“无障碍AI Agent的偏见检测、公平性保障、模型优化”等领域的研究对Maria Gonzalez女士赔偿120万美元并聘请她担任“亚马逊Prime Global Logistics无障碍AI Agent终身顾问”。这份白皮书发布后舆论才逐渐平息——但Maria Gonzalez事件给整个AI Agent行业敲响了警钟偏见不是“技术无关的小问题”而是AI Agent落地应用时必须首先解决的“核心合规性问题、核心伦理问题、核心商业可持续性问题”1.2 定义问题/阐述背景AI Agent是什么为什么它的偏见问题比传统AI更严重1.2.1 核心概念定义AI Agent的起源、演进与现代通用定义1AI Agent的起源与早期学术定义AI Agent的概念最早可以追溯到20世纪50年代的人工智能诞生之初——图灵在1950年发表的《计算机器与智能》Computing Machinery and Intelligence中虽然没有直接提出“Agent”这个术语但他设计的“图灵测试”Turing Test本质上就是在测试“一个计算机程序是否能像人类Agent一样与人类进行自然的、有目的的交互”。AI Agent的第一个正式学术定义是由斯坦福大学的John McCarthy人工智能之父、LISP语言的发明者在1956年达特茅斯会议Dartmouth Summer Research Project on Artificial Intelligence的预备提案中提出的“我们提议用一台计算机模拟一个‘具有感知能力、推理能力、决策能力、行动能力的理性AgentRational Agent’——这个Agent可以感知环境的状态根据预设的目标或效用函数Utility Function进行推理和决策然后通过执行器Actuator对环境产生影响最终实现预设的目标或最大化效用函数。”随后在20世纪60-80年代AI Agent的研究主要集中在“符号主义AI Agent”Symbolic AI Agent领域——研究者们试图用“逻辑规则”Logic Rules、“知识库”Knowledge Base、“推理引擎”Inference Engine来构建理性Agent例如斯坦福大学的MYCIN医疗诊断Agent1972-1978年、DEC公司的R1/XCON计算机配置Agent1980-1996年等。但符号主义AI Agent存在“知识库构建成本极高”“无法处理不确定性和模糊性信息”“无法从环境中自主学习”等致命缺陷因此在20世纪80年代末-90年代初的“AI寒冬”AI Winter中逐渐衰落。在20世纪90年代-21世纪初AI Agent的研究主要集中在“连接主义/机器学习AI Agent”Connectionist/Machine Learning AI Agent和“混合AI Agent”Hybrid AI Agent领域——研究者们试图用“神经网络”Neural Networks、“强化学习”Reinforcement Learning, RL来让Agent从环境中自主学习同时结合“符号逻辑”来处理可解释性和复杂推理问题例如IBM的Deep Blue国际象棋Agent1997年战胜卡斯帕罗夫、本田的ASIMO人形机器人Agent2000-2018年、波士顿动力的BigDog四足机器人Agent2005-2015年等。2AI Agent的现代通用定义结合2020-2025年的大语言模型LLM、多模态大模型MLLM技术突破随着2020年OpenAI GPT-3、2022年OpenAI GPT-3.5/ChatGPT、2023年Google PaLM 2/Gemini Pro、2024年OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet等**大语言模型LLM和多模态大模型MLLM**的技术突破AI Agent的研究和应用进入了“大模型驱动的通用AI Agent时代”LLM/MLLM-Powered General AI Agent Era。目前AI Agent的现代通用定义已经被全球AI学术界和产业界广泛接受——这个定义是由斯坦福大学HAI的LLM Agent研究小组包括Dr. Percy Liang、Dr. Tatsunori Hashimoto、Dr. Wendy Ju等顶级专家在2024年3月发表的《The Landscape of LLM Agents: Capabilities, Risks, and Opportunities》《大语言模型Agent的全景图能力、风险与机遇》一文中提出的现代大模型驱动的通用AI Agent以下简称“AI Agent”是指一个以大语言模型LLM或多模态大模型MLLM为核心大脑具备“感知Perception、推理Reasoning、决策Decision-Making、行动Action、记忆Memory、学习Learning”六大核心能力能够自主地感知环境的状态包括文本环境、视觉环境、听觉环境、触觉环境等多模态环境根据用户的指令或预设的长期/短期目标进行多步推理和决策然后通过调用外部工具API、数据库、搜索引擎、代码解释器、机器人执行器等对环境产生影响同时能够存储和调用短期/长期记忆包括用户的历史交互记录、环境的历史状态、自身的历史决策和行动结果等并能够从环境的反馈中自主学习和优化自身的推理、决策和行动能力的智能体系统。为了帮助读者更直观地理解现代AI Agent的六大核心能力我们可以结合Maria Gonzalez事件中的Amazon Scout Beta 3.0无人配送车Agent以下简称“Scout Agent”来逐一解释感知能力PerceptionScout Agent通过车身上的8个高清摄像头、2个激光雷达LiDAR、4个超声波传感器、1个GPS模块来感知环境的状态——包括文本环境用户的短信指令、Prime后台的订单信息、视觉环境社区的道路、行人、障碍物等、听觉环境车身上的语音交互提示是否被用户听到、触觉环境车身上的LED灯带是否被用户触摸、位置环境自己的实时经纬度、目标配送点的经纬度等推理能力ReasoningScout Agent根据感知到的环境状态和预设的目标“在30分钟内将外卖安全、准确地送到用户手中”进行多步推理——例如“目标配送点在Forest Hills社区公园长椅12号东北侧5米→根据GPS模块的实时数据我现在距离目标配送点还有10米→根据激光雷达和高清摄像头的感知数据前方有一个‘形状不规则、高度在1.0-1.2米之间、宽度在0.6-0.8米之间’的对象→这个对象不在我的标注障碍物/交互对象类别中→它是一个需要躲避的障碍物”决策能力Decision-MakingScout Agent根据推理的结果进行决策——例如“既然它是一个需要躲避的障碍物那我先绕着它转3圈看看有没有其他可以通行的路径→如果没有其他路径那我就原地停1分20秒等用户自己过来取→如果用户还不过来那我就自己开回仓库通知Prime客服改用传统配送员上门”行动能力ActionScout Agent通过调用外部工具电机驱动模块、转向模块、刹车模块、LED灯带控制模块、语音交互模块、短信发送模块、Prime后台API等对环境产生影响——例如“绕着障碍物转3圈→原地停1分20秒→LED灯带闪烁红色提示光→发送短信给用户说‘检测到障碍物无法靠近请改用传统配送员上门’→调用电机驱动模块、转向模块、刹车模块开回仓库→调用Prime后台API更新订单状态为‘配送失败转传统配送员’”记忆能力MemoryScout Agent通过存储设备车载SSD硬盘和Prime后台的云存储来存储和调用短期/长期记忆——短期记忆包括“当前订单的所有信息、当前环境的实时状态、最近10分钟内的所有决策和行动结果”长期记忆包括“Forest Hills社区的高清地图、所有标注障碍物/交互对象的特征、最近30天内的所有配送记录”学习能力LearningScout Agent通过调用内部的微调模块和Prime后台的云训练模块从环境的反馈中自主学习和优化自身的推理、决策和行动能力——但在Maria Gonzalez事件中Scout Beta 3.0的学习能力是“关闭的”因为亚马逊Robotics AI部门担心“开放学习能力会导致无人车做出不可预测的决策”所以它无法从Maria Gonzalez的遭遇中自主学习和优化对电动轮椅的识别精度。3AI Agent与传统AI系统、传统软件系统的核心属性维度对比Markdown表格为了帮助读者更清晰地理解AI Agent的独特性我们将AI Agent、传统机器学习AI系统以下简称“传统AI系统”、传统软件系统以下简称“传统软件”在12个核心属性维度上进行对比核心属性维度传统软件系统传统机器学习AI系统现代大模型驱动的通用AI Agent核心驱动方式预设的固定逻辑规则If-Else/ Switch-Case语句、业务流程模板等预训练微调的机器学习模型监督学习模型、无监督学习模型、半监督学习模型等大语言模型/多模态大模型核心大脑 外部工具调用机制 记忆管理机制 反馈学习机制目标设置方式开发者在开发阶段完全固定的单一/少数短期目标例如“计算两个数的和”“过滤垃圾邮件”开发者在开发阶段完全固定的单一/少数短期目标例如“识别图片中的猫”“预测股票价格”开发者设置的长期目标 用户输入的动态短期目标例如长期目标“成为用户的私人AI助理”短期目标“帮我订一张明天从纽约到伦敦的经济舱机票价格不超过1000美元上午起飞”感知能力极弱的单一模态感知能力仅能通过API接收开发者预设的结构化文本输入弱的单/多模态感知能力仅能感知开发者预设的单/多模态输入数据格式无法自主扩展感知范围强的多模态感知能力可以自主感知文本、图像、音频、视频、触觉、位置等多种模态的输入数据还可以通过调用外部感知工具如卫星地图API、天气预报API、股票行情API等自主扩展感知范围推理能力无自主推理能力仅能按照开发者预设的固定逻辑规则进行线性/分支判断弱的黑盒推理能力仅能进行单步/少数几步的关联推理推理过程不可解释强的可解释多步推理能力可以进行几十步/几百步的复杂逻辑推理、因果推理、常识推理、类比推理等还可以通过“思维链Chain of Thought, CoT”“思维树Tree of Thought, ToT”“思维图Graph of Thought, GoT”等技术让推理过程完全可解释决策能力无自主决策能力仅能按照开发者预设的固定逻辑规则做出单一/少数几种固定的决策弱的黑盒决策能力仅能做出开发者预设的单一/少数几种决策决策过程不可解释强的可解释自主决策能力可以根据环境的状态、用户的指令、预设的目标自主做出几十种/几百种决策还可以通过“决策树可视化”“效用函数计算可视化”等技术让决策过程完全可解释行动能力极弱的固定行动能力仅能通过API执行开发者预设的单一/少数几种固定的外部操作弱的固定行动能力仅能通过API执行开发者预设的单一/少数几种固定的外部操作强的可扩展自主行动能力可以通过调用外部工具执行几十种/几百种/甚至无限多种外部操作还可以通过“工具自动发现机制”“工具自动组合机制”自主扩展行动范围记忆能力极弱的固定短期记忆能力仅能存储开发者预设的少量结构化短期数据弱的固定长期记忆能力仅能存储预训练微调阶段学到的“隐式知识”无法显式存储和调用用户的历史交互记录、环境的历史状态等“显式记忆”强的显式隐式短期/长期记忆能力可以显式存储和调用用户的历史交互记录、环境的历史状态、自身的历史决策和行动结果等“短期显式记忆工作记忆Working Memory”和“长期显式记忆长期存储Long-Term Storage”还可以隐式存储和调用大模型预训练微调阶段学到的“隐式知识Pre-trained Knowledge”学习能力无自主学习能力仅能通过开发者的手动代码更新来“升级”功能弱的被动学习能力仅能通过开发者提供的新的标注数据集进行“被动微调”来优化性能无法从环境的反馈中“主动学习”强的主动被动学习能力可以通过开发者提供的新的标注数据集进行“被动微调”来优化性能还可以通过“强化学习从人类反馈中学习RLHF”“强化学习从AI反馈中学习RLAIF”“在线学习Online Learning”等技术从环境的反馈中“主动学习”和优化性能自主性Autonomy极低自主性完全依赖开发者的手动代码更新和用户的明确指令才能运行低自主性需要开发者提供新的标注数据集才能优化性能需要用户的明确指令才能执行操作极高自主性可以在没有开发者的手动代码更新和用户的明确指令的情况下自主感知环境的状态、自主推理、自主决策、自主行动、自主学习和优化性能适应性Adaptability极低适应性仅能在开发者预设的“固定环境”中运行无法适应环境的任何变化低适应性仅能在开发者预设的“相似环境”中运行无法适应环境的“显著变化”极高适应性可以在“完全未知的环境”中运行还可以快速适应环境的“任何变化”可解释性Explainability完全可解释所有功能都是由开发者预设的固定逻辑规则实现的任何行为都可以追溯到对应的代码不可解释/弱可解释是“黑盒系统”推理和决策过程无法直接追溯仅能通过“SHAP”“LIME”等可解释AI技术进行“弱解释”强可解释可以通过“思维链”“思维树”“思维图”“决策树可视化”“效用函数计算可视化”等技术让推理、决策和行动过程完全可解释偏见风险极低偏见风险所有功能都是由开发者预设的固定逻辑规则实现的仅当开发者在代码中“故意植入偏见”或“无意识地编写了带有偏见的逻辑规则”时才会产生偏见高偏见风险是“数据驱动的系统”偏见主要来源于“训练数据中的偏见”“标注规范中的偏见”“模型架构中的偏见”“优化目标中的偏见”等且偏见的传播和放大效应很强极高偏见风险是“大模型驱动数据驱动自主决策自主行动自主学习”的系统偏见不仅来源于“传统AI系统的所有偏见来源”还来源于“大模型预训练数据中的海量偏见”“外部工具调用中的偏见”“记忆管理中的偏见”“反馈学习中的偏见放大”等且偏见的影响范围更广、影响程度更深、更难检测和消除1.2.2 偏见Bias在AI Agent领域的核心定义与分类1偏见在AI Agent领域的核心定义在讨论AI Agent的偏见问题之前我们首先需要明确“偏见”在社会科学领域和AI Agent领域的不同定义——在社会科学领域偏见的经典定义是由美国社会心理学家Gordon Allport在1954年发表的《The Nature of Prejudice》《偏见的本质》一书中提出的“偏见是指一个人对某个群体或该群体中的个体基于其所属群体的‘社会身份’Social Identity如种族、性别、年龄、性取向、宗教信仰、残疾状况、国籍、社会经济地位等而产生的‘预先判断’Prejudgment——这种预先判断通常是‘负面的、不合理的、没有事实依据的’并且会导致‘歧视性行为’Discriminatory Behavior。”在AI Agent领域偏见的现代通用定义已经被全球AI伦理学研究小组包括斯坦福大学HAI的AI Ethics Lab、MIT Media Lab的Center for Civic Media、OpenAI Safety Team的AI Bias Mitigation Group、欧盟委员会的AI High-Level Expert GroupHLEG等广泛接受——这个定义是由欧盟委员会AI HLEG在2020年4月发表的《Ethics Guidelines for Trustworthy AI》《可信AI的伦理指南》2024年7月进行了第三次修订一书中提出的结合2020-2025年的大模型驱动AI Agent技术突破我们对其进行了适配性修改AI Agent的偏见是指AI Agent在感知、推理、决策、行动、记忆、学习六大核心能力的实现过程中由于“训练数据中的偏见”“标注规范中的偏见”“模型架构中的偏见”“优化目标中的偏见”“外部工具调用中的偏见”“记忆管理中的偏见”“反馈学习中的偏见放大”等多种原因而对某个群体或该群体中的个体基于其所属群体的“社会身份”或“非社会身份”Non-Social Identity如物体的颜色、形状、大小、位置等而产生的“系统性的、不合理的、非预期的差异对待”Systematic, Unreasonable, Unintended Differential Treatment——这种差异对待通常会导致“有害的后果”Harmful Consequences无论是对个体、对群体、还是对整个社会。为了帮助读者更直观地理解AI Agent偏见的定义我们可以结合Maria Gonzalez事件中的Scout Agent来逐一解释定义中的7个关键词系统性的SystematicScout Agent对电动轮椅的“拒载差异对待”不是“偶然发生的个别事件”——根据亚马逊Robotics AI部门后来公开的脱敏后的Scout Beta 2.0/3.0的配送记录片段占内部数据集的20%在2024年1月-2025年2月的14个月试点期间Scout Agent在Forest Hills、Seattle Capitol Hill、San Francisco Mission District等3个残障人口密度较高的北美城市对电动轮椅的拒载率高达92.7%对导盲犬穿反光背心的除外的拒载率高达87.3%对双层婴儿车的拒载率高达78.9%——这说明Scout Agent的“拒载差异对待”是“由其障碍识别与路径规划模型的系统性缺陷导致的”不合理的Unreasonable根据ADA Revised 2023的第4.3条公共服务设施必须“为所有残障人士提供平等的、可访问的服务”——Scout Agent作为面向“全社区所有居民”的公共服务AI Agent把电动轮椅等ADA要求保障的特殊人群识别为“需要躲避的障碍物”并拒绝为他们提供服务这是“完全不合理的、违反法律的”非预期的Unintended亚马逊Robotics AI部门的开发者在开发Scout Agent时绝对没有“故意植入拒载残障人士的偏见”——他们只是“忽略了ADA要求保障的特殊人群的标注样本”“没有邀请残障人士作为核心标注员和测试员参与整个开发流程”这才导致了Scout Agent的“拒载差异对待”差异对待Differential TreatmentScout Agent对“没有坐轮椅的普通行人”和“坐电动轮椅的残障人士”的“对待方式完全不同”——对普通行人Scout Agent会主动靠近至0.5米以内并提供语音文字的交互提示对坐电动轮椅的残障人士Scout Agent会绕着他们转3圈然后在原地停1分20秒就自己开回仓库社会身份Social IdentityMaria Gonzalez女士被Scout Agent“差异对待”的原因是她的“残疾状况电动轮椅使用者”这个社会身份——而不是她的“身高、体重、穿着、外貌”等其他非社会身份有害的后果Harmful ConsequencesScout Agent的“拒载差异对待”给Maria Gonzalez女士带来了“情感上的伤害”愤怒、沮丧、自卑、“经济上的潜在伤害”如果她预订的是急需的药品而传统配送员没有及时上门可能会导致她的健康问题恶化给整个残障群体带来了“社会信任上的伤害”对亚马逊、对AI技术、对整个社会的信任度下降给亚马逊带来了“经济上的伤害”赔偿Maria Gonzalez女士120万美元、暂停3个城市的Scout试点带来的Prime会员流失损失、设立5亿美元的无障碍AI Agent研发基金、“声誉上的巨大伤害”品牌价值在2025年2月15日-3月2日期间下降了约120亿美元根据Brand Finance的评估六大核心能力的实现过程Scout Agent的“拒载差异对待”主要是在其“感知能力”标注样本不足导致无法识别电动轮椅、“推理能力”推理逻辑错误地将“无法识别的对象”判定为“需要躲避的障碍物”、“决策能力”决策逻辑错误地选择了“绕圈→等待→开回仓库”的决策路径这三个核心能力的实现过程中产生的——但如果Scout Beta 3.0的学习能力是“开放的”那么它还可能会在“学习能力”的实现过程中“放大”这种偏见例如如果它多次因为“无法识别电动轮椅”而被用户投诉但没有得到正确的反馈信号它可能会“学习”到“只要看到形状不规则、高度在1.0-1.2米之间、宽度在0.6-0.8米之间的对象就直接开回仓库”。2AI Agent偏见的核心分类从偏见产生的来源维度、偏见影响的对象维度、偏见影响的程度维度三个维度进行分类为了帮助读者更系统地理解AI Agent的偏见问题我们可以从偏见产生的来源维度、偏见影响的对象维度、偏见影响的程度维度三个维度对AI Agent的偏见进行核心分类分类维度一偏见产生的来源维度最核心的分类维度因为只有找到偏见产生的来源才能有效地消除偏见根据欧盟委员会AI HLEG在2024年7月发表的《Third Revision of the Ethics Guidelines for Trustworthy AI: Bias Mitigation for LLM-Powered Agents》《可信AI伦理指南的第三次修订大模型驱动Agent的偏见缓解》一文中的分类结合Maria Gonzalez事件我们可以将AI Agent的偏见分为8大来源类别####### 来源类别1大模型预训练数据中的偏见LLM/MLLM Pre-Training Data Bias大模型预训练数据中的偏见是AI Agent偏见的最大来源——因为现代大模型驱动的AI Agent的“核心大脑”是大语言模型或多模态大模型而大模型的“隐式知识”几乎完全来源于其预训练数据例如GPT-4o的预训练数据包含了“截至2024年1月的互联网公开文本、图像、音频、视频数据”总数据量超过了100万亿个Token。如果大模型的预训练数据中存在“对某个群体或该群体中的个体的负面、不合理的预先判断”那么这种偏见就会“隐式地存储在大模型的权重中”并“通过AI Agent的推理、决策、行动等核心能力的实现过程显性地表现出来”。大模型预训练数据中的偏见主要来源于以下3个方面预训练数据的分布不平衡Distribution Imbalance预训练数据中某个群体的样本数量远远少于其他群体的样本数量——例如GPT-4o的预训练数据中来自非洲、南美洲、东南亚等发展中国家的互联网公开文本数据占比仅为12.7%而来自美国、英国、加拿大、澳大利亚等英语发达国家的互联网公开文本数据占比高达67.3%来自残障群体的互联网公开文本数据占比仅为0.3%而来自非残障群体的互联网公开文本数据占比高达99.7%这种分布不平衡会导致大模型“看不见”发展中国家的文化、残障群体的需求从而产生“文化偏见”“残障偏见”等预训练数据的内容偏见Content Bias预训练数据中某个群体的样本内容主要是“负面的、刻板印象的”——例如GPT-4o的预训练数据中与“女性”相关的互联网公开文本数据中有37.2%的内容涉及“家庭主妇、照顾孩子、购物”等刻板印象而有21.8%的内容涉及“性骚扰、性别歧视、家庭暴力”等负面内容与“黑人”相关的互联网公开文本数据中有28.7%的内容涉及“犯罪、暴力、贫困”等负面刻板印象这种内容偏见会导致大模型“对某个群体产生负面的、不合理的预先判断”从而产生“性别偏见”“种族偏见”等预训练数据的采集偏见Collection Bias预训练数据的采集过程存在“系统性的不合理选择”——例如GPT-4o的预训练数据主要采集自“Reddit、Twitter/X、Wikipedia、GitHub、Stack Overflow”等英语发达国家的主流互联网平台而“中国大陆的微信公众号、微博、知乎日本的LINE、Twitter/X日本版韩国的KakaoTalk、Naver”等非英语发达国家的主流互联网平台的数据占比非常低这种采集偏见会导致大模型“对非英语发达国家的文化、语言、社会制度等缺乏了解”从而产生“语言偏见”“文化偏见”“政治偏见”等。####### 来源类别2AI Agent专用微调数据中的偏见Agent-Specific Fine-Tuning Data BiasAI Agent专用微调数据中的偏见是AI Agent偏见的第二大来源——因为虽然大模型的预训练数据中已经包含了海量的“隐式知识”但为了让大模型更好地适应某个特定的AI Agent应用场景例如无人配送车、招聘筛选、贷款审批、医疗诊断等开发者通常会用“AI Agent专用的标注数据集”对大模型进行“微调”。如果AI Agent专用的微调数据中存在“偏见”那么这种偏见就会“覆盖或放大”大模型预训练数据中的偏见并“通过AI Agent的核心能力的实现过程更直接、更显著地表现出来”。AI Agent专用微调数据中的偏见主要来源于以下4个方面标注样本的分布不平衡Annotation Sample Distribution Imbalance标注样本中某个群体的样本数量远远少于其他群体的样本数量——这正是Maria Gonzalez事件中Scout Agent偏见的主要来源Scout Beta 3.0的专用微调数据集中ADA要求保障的17种特殊人群的总标注量不足1200张占比仅为0.0255%标注员的偏见Annotator Bias负责标注数据的标注员基于其自身的社会身份、文化背景、政治观点等对某个群体或该群体中的个体产生“负面的、不合理的预先判断”并将这种偏见“植入”到标注数据中——例如在招聘筛选AI Agent的专用微调数据集中如果负责标注“简历是否合格”的标注员大多数是“男性、白人、35-50岁、社会经济地位较高的人”那么他们可能会“无意识地给男性、白人、高学历、高社会经济地位的人的简历打更高的分数”从而将“性别偏见、种族偏见、年龄偏见、社会经济地位偏见”植入到标注数据中标注规范的偏见Annotation Guideline Bias开发者制定的标注规范中存在“系统性的不合理要求”导致标注员不得不将偏见“植入”到标注数据中——例如在医疗诊断AI Agent的专用微调数据集中如果标注规范要求“将‘女性患者的心脏病症状’标注为‘焦虑症症状’的概率提高20%”这是一个真实存在的刻板印象女性患者的心脏病症状更容易被医生误诊为焦虑症症状那么标注员就会不得不将这种“性别偏见”植入到标注数据中历史数据的继承偏见Historical Data Inheritance Bias开发者使用的AI Agent专用微调数据是“继承自某个传统软件系统或传统AI系统的历史数据”而这些历史数据中已经存在“系统性的偏见”——例如在贷款审批AI Agent的专用微调数据集中如果开发者使用的是“继承自某家银行过去20年的贷款审批历史数据”而这些历史数据中已经存在“系统性的种族偏见”例如过去20年里这家银行给黑人申请者的贷款审批通过率仅为白人申请者的30%那么这种历史数据的继承偏见就会“通过AI Agent的微调过程被更显著地放大”。####### 来源类别3模型架构与优化目标中的偏见Model Architecture Optimization Objective Bias模型架构与优化目标中的偏见是AI Agent偏见的第三大来源——这种偏见不是“来源于数据”而是“来源于开发者设计的模型架构本身”和“开发者选择的模型优化目标本身”。模型架构中的偏见主要来源于以下2个方面模型架构的感知/表达能力限制Perception/Representation Capability Limitation开发者设计的模型架构无法“公平地感知或表达”某个群体的特征——例如在早期的人脸识别AI Agent的模型架构中主要使用的是“基于灰度图像的特征提取算法”而这种算法对“黑人的面部特征”的感知/表达能力远远低于对“白人的面部特征”的感知/表达能力因为黑人的面部肤色较深灰度图像的对比度较低从而导致早期的人脸识别AI Agent对“黑人的识别错误率”高达“白人的识别错误率”的10-100倍这是一个真实存在的事件2018年IBM的人脸识别AI Agent对黑人的识别错误率高达34.7%而对白人的识别错误率仅为0.3%2020年亚马逊、IBM、微软等公司都宣布“暂停向执法部门出售人脸识别AI Agent”模型架构的注意力机制/记忆管理机制的偏见Attention Mechanism/Memory Management Mechanism Bias开发者设计的模型架构的注意力机制或记忆管理机制会“不公平地关注或记住”某个群体的特征或行为——例如在大模型驱动的聊天AI Agent的模型架构中如果注意力机制会“不公平地关注”预训练数据中出现频率较高的“白人、男性、高社会经济地位的人的名字、职业、生活方式等”而“忽略”预训练数据中出现频率较低的“黑人、女性、低社会经济地位的人的名字、职业、生活方式等”那么这种注意力机制的偏见就会导致聊天AI Agent“对白人、男性、高社会经济地位的人的问题回答得更准确、更详细而对黑人、女性、低社会经济地位的人的问题回答得更模糊、更简短”。优化目标中的偏见主要来源于以下2个方面优化目标的单一性Optimization Objective Singularity开发者选择的模型优化目标是“单一的、只关注某个方面的性能指标”而“忽略了公平性指标”——例如在推荐系统AI Agent的优化目标中如果开发者只选择“用户点击率Click-Through Rate, CTR”“用户转化率Conversion Rate, CVR”“用户留存率Retention Rate”等“商业性能指标”作为优化目标而“忽略了公平性指标如‘不同性别、不同种族、不同年龄、不同社会经济地位的用户的推荐内容多样性的差异’‘不同性别、不同种族、不同年龄、不同社会经济地位的商家的推荐曝光率的差异’等”那么推荐系统AI Agent就会“为了最大化商业性能指标而放大数据中的偏见”例如如果数据中显示“男性用户更喜欢看汽车、科技、体育类的内容女性用户更喜欢看时尚、美妆、育儿类的内容”那么推荐系统AI Agent就会“给男性用户推荐更多的汽车、科技、体育类的内容给女性用户推荐更多的时尚、美妆、育儿类的内容”从而“固化甚至放大性别刻板印象”优化目标的权重设置偏见Optimization Objective Weight Setting Bias开发者选择的模型优化目标是“多目标的”但“公平性指标的权重设置得过低”——例如在招聘筛选AI Agent的优化目标中如果开发者选择“‘简历与岗位要求的匹配度’权重为0.9‘不同性别、不同种族、不同年龄、不同社会经济地位的申请者的通过率的差异’权重为0.1”作为多目标优化的权重设置那么招聘筛选AI Agent就会“为了最大化简历与岗位要求的匹配度而忽略公平性指标”从而“放大数据中的偏见”。####### 来源类别4外部工具调用中的偏见External Tool Call Bias外部工具调用中的偏见是现代大模型驱动的AI Agent偏见的第四大来源——因为现代大模型驱动的AI Agent的“行动能力”主要是通过“调用外部工具”来实现的如果外部工具本身存在“偏见”那么这种偏见就会“通过AI Agent的行动能力的实现过程传递到AI Agent的最终输出中”。外部工具调用中的偏见主要来源于以下3个方面外部工具本身的偏见External Tool Inherent Bias外部工具本身就是一个“存在系统性偏见的传统软件系统或传统AI系统”——例如如果AI Agent调用的“天气预报API”本身存在“地理位置偏见”例如对美国、英国等英语发达国家的城市的天气预报准确率高达95%而对非洲、南美洲等发展中国家的城市的天气预报准确率仅为60%那么这种外部工具本身的偏见就会“通过AI Agent的最终输出例如‘今天纽约的天气是晴天温度25℃今天肯尼亚内罗毕的天气可能是晴天也可能是雨天温度大概在20-30℃之间’传递给用户”外部工具调用的选择偏见External Tool Selection BiasAI Agent在“选择调用哪个外部工具”时存在“系统性的不合理选择”——例如如果AI Agent调用的“搜索引擎API”有两个选择Google Search API对英语内容的搜索准确率高但对非英语内容的搜索准确率低和Baidu Search API对中文内容的搜索准确率高但对英语内容的搜索准确率低而AI Agent的核心大脑GPT-4o的预训练数据主要是英语内容那么AI Agent可能会“在所有情况下都选择调用Google Search API而忽略Baidu Search API”从而导致AI Agent对“中文内容的搜索和回答准确率低”产生“语言偏见”外部工具调用的参数设置偏见External Tool Parameter Setting BiasAI Agent在“设置外部工具的调用参数”时存在“系统性的不合理设置”——例如如果AI Agent调用的“招聘网站API”的“搜索参数”中有一个“‘候选人的毕业院校排名’权重设置”选项而AI Agent的核心大脑GPT-4o的预训练数据中显示“哈佛大学、斯坦福大学

更多文章