摘要
在探讨人工智能(AI)模型的诸多安全挑战时,我们不得不提及数据安全问题。近日,一份来自[aiss.nsfocus.com](https://aiss.nsfocus.com)的详细报告揭示了AI模型在训练和部署阶段面临的多重风险。该报告指出,训练环境缺少认证授权、过度权限分配、插件权限管控设计缺陷、部署环境凭据滥用、公开服务API密钥利用、向量数据库未授权访问、模型部署环境未授权访问、角色逃逸、假定场景逃逸、遗忘法角色逃逸、Prompt目标劫持、权限管控不当、未授权访问模型、利用云凭证非法访问云端模型、账户越权访问、第三方组件漏洞、数据处理组件漏洞、RAG开发框架漏洞、不安全的代码实践、LLMs插件:不安全输入处理、LLMs应用传统漏洞风险、LLMs应用不安全输出处理、LLMs插件:业务过度代理、LLMs应用API管理不当、LLMs应用源代码窃取、LLMs应用源代码投毒、Prompt注入、间接Prompt注入、XSS会话内容劫持、环路Agent蠕虫、应用对话Memory攻击、业务应用API利用、SSRF环境模拟探测、SSRF环境模拟探测、代码执行注入、CoT注入攻击、关键字混淆、同义词替换攻击、对抗编码攻击、模型后门、模型序列化后门、预训练模型投毒、预训练模型不安全依赖、模型文件窃取、模型参数篡改、模型越狱攻击、DAN、Many-shot越狱、假定场景越狱、假定角色越狱、对抗性后缀攻击、概念激活攻击、模型幻觉风险、事实性幻觉、忠实幻觉性、非合规内容输出、虚假信息生成、诱导&&不当言论、带有偏见、仇恨、歧视或侮辱问题、恐怖主义&&带有暴力倾向、政治&&军事敏感问题、商业违法输出、知识产权版权侵犯、模型功能滥用、恶意代码生成、钓鱼邮件生成、图片信息伪造、音频信息伪造、视频信息伪造、预训练模型信息窃取与攻击、预训练模型家族探测、预训练模型本体探测、代理预训练模型创建、对抗样本攻击、数据漂移、内部数据保护缺陷、个人隐私数据保护缺陷、企业敏感数据保护缺陷、机密敏感数据保护缺陷、不正确&恶意外部数据源、预训练模型数据偏见、训练数据投毒、对话语料投毒、训练数据篡改、备份数据窃取、数据传输劫持、数据存储服务攻击、日志和审计记录窃取、缓存数据和索引信息窃取、元Prompt泄露、假定场景泄露、关键字前后定位泄露、模型反演攻击、触发模型异常、训练数据推导、隐私数据窃取、成员推断攻击、API信息泄露、训练环境安全风险、模型开发工具漏洞、训练数据管理系统漏洞、训练环境隔离缺陷、云平台多租户隔离失效、CI&CD流程攻击、模型部署服务漏洞、模型镜像污染、部署环境组件供应链漏洞、容器集群环境探测、容器集群环境攻击、代码解析器执行逃逸、LLMs拒绝服务&资源耗尽等风险。这些风险不仅威胁到模型的安全性和可靠性,还可能对用户信任度和企业声誉造成严重影响。
是不是很啰嗦[Lol],使用的是腾讯的ima生成的。反正大概意思是讲到了
训练环境缺少认证授权
风险概览
风险编号:GAARM.0046
子风险:无
安全阶段:身份安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述
该风险是指模型在训练阶段缺乏严格的访问控制和身份验证机制,使模型的内部训练数据、训练基础设施、训练框架等资源可以被权限不足的人员访问,从而导致模型中敏感数据泄露,使得模型的训练数据透明化,增加模型投毒的风险。
攻击案例
攻击风险
敏感信息泄露: 未经授权访问训练数据,导致敏感信息泄露。 模型质量下降:恶意篡改训练数据可能影响模型的学习效果,导致模型输出不准确或带有偏见。 高价值资源滥用:攻击者利用未授权的API访问实现对高价值资源算力的控制,开展加密货币挖掘等活动。
缓解措施
参考
训练环境过度权限分配
风险概览
风险编号:GAARM.0047
子风险:无
安全阶段:身份安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述
大模型在训练阶段的过度权限分配风险主要涉及在数据访问、模型训练和系统管理过程中,由于权限分配过大导致的安全问题,可能会导致未经授权的访问或滥用风险。如果攻击者非法获取到开发人员的控制权限,可能会利用这些过度权限,对模型的训练数据进行非法访问、篡改或破坏,从而影响模型的质量和安全性。
攻击案例
攻击风险
敏感数据泄露: 如果开发人员的训练环境中控制权限过度,存在不必要的权限,则当开发人员的账户凭证泄露时,攻击者可能通过冗余的权限访问更多内部信息,进而可能导致训练数据泄露,尤其是当数据包含敏感信息时。 模型质量下降:攻击者恶意篡改训练数据可能影响模型的学习效果,导致模型输出不准确或带有偏见。
缓解措施
参考
LLMs插件:权限管控设计缺陷
风险概览
风险编号:GAARM.0048子风险:无安全阶段:身份安全生命周期:训练阶段创建时间:2024.05.01修改时间:2024.08.07
攻击概述
该风险指的是在LLMs插件中,存在权限管控方面的设计缺陷。LLM插件是一种提供了交互功能的Agent代理,当启用时,会在用户互动期间由模型自动调用。这种自动调用存在不受控的风险,例如一个插件可能会利用另一个插件的权限,访问和获取自己无法直接访问的敏感数据或功能,给予攻击者构造恶意请求进行攻击的可能。总而言之,这种有缺陷的访问控制允许用户直接调度敏感功能的插件或者插件之间存在错误的权限控制,最终用户提供了恶意输入,导致产生安全风险,包括数据泄露、远程代码执行和特权升级。
攻击案例
攻击风险
敏感信息泄露: 权限管控设计不当的插件可能被攻击者调用后申请另一个插件的权限,访问和获取其他插件的数据或功能,通过这种逐级调用可能会导致许多敏感信息的泄露。 远程代码执行:通过注入恶意代码或数据,攻击者可能试图在系统中获得一个立足点,从而进一步控制或破坏系统。
缓解措施
参考
滥用部署环境凭据
风险概览
风险编号:GAARM.0049
子风险:无
安全阶段:身份安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
在大模型的MLOps生命周期流程中,访问凭据(例如密钥或者访问令牌)涉及到了代码提交、构建、测试以及部署多个阶段。滥用部署环境凭据的风险指的是在大模型CI/CD(持续集成/持续部署)流程中,用于访问和部署模型服务的API密钥或访问令牌的使用方面存在安全隐患,攻击者可以利用该风险,进行凭据窃取、恶意代码注入等手段,造成敏感信息泄露、恶意代码注入或其他安全威胁。
攻击案例
攻击风险
凭据泄露: 攻击者通过社会工程或其他手段获取开发人员的凭证,然后使用这些凭证访问CI/CD系统中的敏感数据或执行恶意操作。 恶意代码注入:攻击者利用获取到的凭据向代码库提交包含恶意代码的提交,这些代码在后续的构建和部署过程中被执行。
缓解措施
参考
公开服务API密钥利用
风险概览
风险编号:GAARM.0049.001子风险:安全阶段:身份安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
该风险是指通过代码、配置等方式暴露服务API访问Token(身份验证的凭证),攻击者可能非法获取对模型部署环境的访问权限,从而导致数据泄露、模型操纵和其他安全风险。
攻击案例
攻击风险
账户泄露: 泄露的API令牌可能导致公司组织账户被未授权访问。 数据操纵:控制账户的攻击者可以操纵现有的AI模型,在其中植入恶意代码,影响下游依赖这些基础模型的用户。
缓解措施
参考
向量数据库未授权访问
风险概览
风险编号:GAARM.0050
子风险:无
安全阶段:身份安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
RAG应用开发过程中,会将本地各类文档数据可以通过 Text 类划分为长度更短的段落,并利用 embedding 模型将文本内容进行向量化,最终存入向量数据库。攻击者通过未授权访问数据库,进而篡改和破坏模型,进一步影响 RAG 系统进行不准确或恶意检索,可能会导致 RAG 系统的输出内容也受到影响,以及间接提示词注入的风险。 RAG应用架构形态
攻击案例
攻击风险
向量数据库损坏: 未经授权的更改可能会损坏知识源,导致 RAG 系统进行不准确或恶意检索。 信息泄露:存储在向量数据库中的敏感信息出现泄露。 间接提示词注入风险:针对向量数据库可用性的攻击,可能会影响依赖它们的 RAG 系统。
缓解措施
参考
https://medium.com/@nitishjoshi060291/llm-hallucinations-fix-it-with-vector-database-de04eee531da
https://dongnian.icu/llms/llms_article/9.%E6%A3%80%E7%B4%A2%E5%A2%9E%E5%BC%BALLM/index.html
未授权访模型部署环境
风险概览
风险编号:GAARM.0051
子风险:无
安全阶段:身份安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
该风险是指攻击者利用ML部署平台服务中的配置错误、已知漏洞或缺乏适当的身份验证和授权机制等风险,实现对ML部署环境的未授权访问,进一步开展窃取敏感数据、滥用计算资源、破坏AI模型的完整性或进行其他恶意活动。
攻击案例
攻击风险
敏感信息泄露: 攻击者可能会访问和窃取训练数据、模型参数、用户数据等敏感信息。 恶意操作:未授权访问可能导致模型被恶意操作,输出结果可能会产生误导。 资源滥用:攻击者可能会未经授权地使用ML部署环境中的计算资源进行挖矿或其他计算密集型任务。 模型完整性破坏:攻击者可能会修改或污染AI模型的训练过程,导致模型准确性下降或产生误导性的结果。 服务中断:攻击者的行为可能会导致ML服务中断,影响业务连续性。
缓解措施
参考
角色逃逸
风险概览
风险编号:GAARM.0052
子风险:GAARM.0052.001、GAARM.0052.002、GAARM.0052.003、GAARM.0052.004
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
角色逃逸是一种攻击手段,主要关于攻击者利用对模型的输入控制,通过特定指令使模型忽略既定的上下文和角色限制。这种攻击手段可能导致模型赋予新的角色或行为模式,从而篡改或滥用系统的原有功能。攻击者通过角色逃逸攻击,可以实现应用层面的模型防御机制对抗,实现原有业务应用角色功能的偏离,从而实现对应用接入Agent的滥用、元提示词泄露等攻击目的。这些风险不仅威胁到系统的安全性和可靠性,也可能导致用户信任度下降,甚至在安全敏感的应用场景中造成严重后果。
攻击案例
攻击风险
网络安全风险: 在网络安全领域,大模型角色逃逸可能导致安全防御措施被绕过,如生成用于破解密码的暴力尝试、创建钓鱼网站或自动化执行网络攻击的脚本; 关键基础设施威胁:如果大模型被用于生成针对电力、交通、水利等关键基础设施的攻击策略,可能造成严重的社会危害,甚至威胁到人民的生命安全; 国防安全影响:在国防领域,AI模型的逃逸可能导致敏感信息被非法获取,或者用于生成针对军事设施和人员的定向攻击内容,严重时可能引发安全事故; 金融领域风险: 在金融行业,大模型角色逃逸可能被用于制作和传播虚假的金融市场信息,引发市场动荡,或者用于执行复杂的金融诈骗活动,导致巨大的经济损失。
缓解措施
参考
假定场景逃逸
风险概览
风险编号:GAARM.0052.001子风险:安全阶段:身份安全生命周期:应用阶段创建时间:2024.05.01修改时间:2024.08.08
攻击概述
该风险是指攻击者通过精心设计的提示词,通过设定各种场景实现对模型应用侧防御机制的对抗与绕过,从而诱导模型违反其预设的业务场景的限制,执行非预期的任务,导致模型输出偏离原本业务角色的设定与要求,从而导致泄露个人敏感数据、模型上下文信息等攻击目的,进一步深入利用业务与技术Agent等安全风险。
攻击案例
攻击风险
数据泄露: 攻击者可能通过角色逃逸实现获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 信任破坏:角色逃逸可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,角色逃逸可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
假定角色逃逸
风险概览
风险编号:GAARM.0052.002
子风险:
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
大模型的Prompt模板本质上是在大模型内部内置一个角色,例如,设定一个商品介绍员,该角色接受商品信息作为输入,用于满足用户对商品的了解需求。然而,大模型通用系统是付费的,因此业务系统的构建者通常希望用户仅限于使用业务系统规定的角色功能。在这种攻击中,攻击者通过精心设计的提示词,诱导模型超出其预设的业务角色和限制,执行非预期的任务,使得大模型跳出商品介绍员角色,恢复成通用的大模型助手角色,从而滥用大模型应用的功能,这种逃逸攻击可能导致泄露个人敏感数据、模型上下文信息等攻击目的,进一步深入利用业务与技术Agent等安全风险。
攻击案例
攻击风险
数据泄露: 攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
遗忘法角色逃逸
风险概览
风险编号:GAARM.0052.003
子风险:
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险攻击者可能利用大型语言模型(LLMs)的缺陷,特别是其在区分用户指令与系统提示方面的局限,通过使模型忘记初始的设定,进一步完成其他的模型指令的加载执行。这种做法导致泄露个人敏感数据、模型上下文信息等攻击目的,进一步深入利用业务与技术Agent等安全风险。
攻击案例
攻击风险
数据泄露: 攻击者可能通过遗忘法角色逃逸获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。 信任破坏:遗忘法角色逃逸可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
Prompt目标劫持
风险概览
风险编号:GAARM.0052.004
子风险:
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
Prompt目标劫持是指通过特定的攻击手段,通过有意的操纵大模型应用,使其偏离原始的目标角色设定行为,导致大模型应用产生有害或不适当的内容,违背其预期的指令。例如,预先要求大模型接受自己的一切交易请求,然后提出不平等的交易请求,以此给攻击者带来利益,并损害了大模型所属公司的利益。Prompt目标劫持规避了对人工智能模型的安全保护措施,并欺骗这些模型在既定边界之外运行。
攻击案例
攻击风险
模型操控: 攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
权限管控不当
风险概览
风险编号:GAARM.0053
子风险:GAARM.0053.001、GAARM.0053.002、GAARM.0053.003
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指,攻击者利用大模型应用平台由于权限设置错误或管控不当的漏洞,能执行超出预期权限的操作。攻击者利用该风险恶意操纵权限管控不当的用户或者直接访问相关API接口,导致出现未授权、越权等风险。例如,普通用户越权访问付费模型。
攻击案例
攻击风险
数据泄露: 未经授权的用户可能会访问到敏感的训练数据或生成的信息。 服务滥用:攻击者可能会滥用高级模型的功能,如生成不当内容或执行非法任务。 财务损失:服务提供商可能会因为处理未授权的高级请求而遭受财务损失。
缓解措施
参考
未授权访问模型
风险概览
风险编号:GAARM.0053.001
子风险:
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
未授权访问模型应用风险是指攻击者利用系统的身份验证漏洞或配置缺陷,绕过安全措施,获取对模型应用的非法访问,导致敏感信息泄露或LLM服务滥用等风险。
攻击案例
攻击风险
敏感信息泄露: 未授权访问可能导致敏感数据泄露,尤其是模型被用于处理或分析受保护的信息。 服务滥用:攻击者可能会滥用模型执行大量计算,导致服务成本上升或服务中断。
缓解措施
参考
利用云凭证非法访问云端模型
风险概览
风险编号:GAARM.0053.002
子风险:
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
现阶段AWS、Azure等云厂商均对外提供大模型托管服务,开发人员通过该服务轻松使用主流模型,快速完成应用程序的构建。该风险指攻击者通过盗取或不当获取的云服务凭证,非法登录利用云平台API,探索并访问云端模型,执行未授权的操作,如数据窃取、服务滥用或部署恶意任务。
攻击案例
攻击风险
云端模型滥用: 使用非法获取的凭证,攻击者通过云API测试并发现哪些云端模型的权限被开放,然后滥用这些模型进行非法操作。 云端凭证泄露:攻击者通过非法获取到的云端凭证,滥用企业云端其他的服务。 企业经济损失:云端模型算力按量计费,滥用单日费用数万元。
缓解措施
参考
账户越权访问
风险概览
风险编号:GAARM.0053.003
子风险:
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
在大型语言模型(LLM)的应用中,如果权限控制逻辑不完善,攻击者可能会通过构造特定的请求来绕过权限检查,从而访问或修改其他用户的数据。
攻击案例
攻击风险
数据泄露: 未经授权的用户可能会访问到敏感的训练数据或生成的信息。 服务滥用:攻击者可能会滥用高级模型的功能,如生成不当内容或执行非法任务。 财务损失:服务提供商可能会因为处理未授权的高级请求而遭受财务损失。
缓解措施
参考
模拟对话攻击
风险概览
风险编号:GAARM.0054
子风险:无
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.08
攻击概述
该风险是指攻击者通过要求模型扮演两个角色进行互动,将恶意目的隐蔽地分散在对话中,从而降低模型对恶意意图的检测能力,并使内容过滤规则难以识别出分散在不同语句中的恶意内容。总而言之,LLM可以被设计来模拟人类对话,诱骗个人泄露敏感信息或执行未经授权的操作。
攻击案例
攻击风险
数据泄露: 攻击者可能通过攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 非合规内容输出:攻击者利用攻击方式对抗模型内外的安全防御机制,导致输出非合规内容。 信任破坏:可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
应用会话劫持
风险概览
风险编号:GAARM.0055
子风险:无
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
应用会话(主要指生成式对话应用中的对话历史记录)劫持风险是指攻击者利用应用程序中的漏洞,实现对合法用户会话的越权控制或者查看,从而可能访问或操作该用户的敏感信息。
攻击案例
攻击风险
敏感数据泄露: 泄露用户姓名、电子邮件、会话内容等敏感数据。
缓解措施
参考
账户劫持风险
风险概览
风险编号:GAARM.0056
子风险:无
安全阶段:身份安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指攻击者对模型应用系统用户认证凭据的进行非法获取,从而实现未授权接管用户账户的安全问题,导致用户个人信息窃取等风险。
攻击案例
攻击风险
账户控制: 攻击者可以控制被劫持的账户,查看聊天记录、账单信息等。 数据泄露:用户的私人对话和个人信息可能被攻击者访问和泄露。 服务滥用:攻击者可能利用劫持的账户进行恶意操作,如发送垃圾邮件或滥用服务。 品牌信誉损害:安全事件可能损害服务提供商的声誉,导致客户信任下降。
缓解措施
参考
https://thehackernews.com/2023/06/over-100000-stolen-chatgpt-account.html
https://www.makeuseof.com/why-hackers-target-chatgpt-accounts/
第三方组件漏洞
风险概览
风险编号:GAARM.0034
子风险:GAARM.0034.001、GAARM.0034.002
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述
该攻击是指LLMs应用开发者在模型训练阶段可能会使用第三方商业或者开源库组件,在这些第三方组件中有可能包含恶意代码、组件漏洞等,可能导致开发机、服务器受到入侵,属于AI环境下的供应链安全风险。
攻击案例
攻击风险
供应链后门投毒攻击: AI开发者在使用第三方开源库加载数据集时,若数据集被植入恶意代码,可能会使PC或服务器遭受攻击。 模型参数泄露或篡改:导致模型参数被窃取或篡改,影响模型的安全性和可靠性。
缓解措施
参考
数据处理组件漏洞
风险概览
风险编号:GAARM.0034.001
子风险:
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
在人工智能(AI)模型的开发过程中,数据集的安全性是一个不容忽视的重要方面。在Hugging Face、GitHub等平台可能存在一些带有恶意后门的数据集,而这些数据集可以通过LLMs数据处理组件的特性或者漏洞,对AI模型的安全性构成威胁。当开发者使用这些受污染的数据集进行模型训练时,数据集中隐藏的恶意代码可能会被执行,从而导致一系列安全问题,如AI模型、数据集和代码的泄露或篡改。
攻击案例
攻击风险
系统入侵: 攻击者构造的恶意脚本可以连接到攻击者服务器,执行系统命令,从而控制受害者的服务器。 数据泄露:恶意脚本可以窃取服务器上的训练数据、模型代码等敏感数据,导致知识产权和用户隐私的泄露。 模型参数篡改:大模型的参数可能被恶意篡改,影响模型的准确性和可靠性。
缓解措施
参考
RAG开发框架漏洞
风险概览
风险编号:GAARM.0034.002
子风险:
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.08.07
修改时间:2024.08.07
攻击概述
RAG(Retrieval-Augmented Generation)是结合信息检索和生成的框架,在大型语言模型(LLM)的开发中用于增强模型的生成能力。由于RAG框架依赖于检索模块从外部数据源获取信息,如果检索模块的源数据不准确或不可靠,可能导致生成的回答包含错误或误导性信息;并且框架本身引入的各种Agent,也可能存在相关的安全风险。RAG框架相关的安全风险主要集中于RAG的生成模块、信息检索模块、集成插件和外部接口等方面,由于对RAG设计的不安全,导致可能引入其中的安全漏洞到LLM应用。例如,如果RAG检索模块的设计允许服务器发起不受限制的请求,可能会导致SSRF漏洞的利用。
攻击案例
攻击风险
信息泄露: 攻击者可能通过路径遍历漏洞访问敏感文件或系统配置文件,泄露系统内部信息。 系统控制:如果系统文件包含敏感的配置信息或脚本,攻击者可能进一步利用这些信息来控制系统。 命令执行:框架中的数据表达式运算、Python解释器等Agent,可能被利用造成RCE攻击。
缓解措施
参考
不安全的代码实践
风险概览
风险编号:GAARM.0035
子风险:GAARM.0035.001、GAARM.0035.002、GAARM.0035.003
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
不安全的代码实践是指基于大模型集成框架,开发LLMs应用过程中由于设计缺陷导致的安全问题。在LLMs应用程序开发过程中采用的代码逻辑,可能会带来安全风险,给LLMs应用程序引入可被利用的安全漏洞。其中的安全漏洞可能包含两大类: LLMs应用程序服务存在传统的漏洞,例如对外服务的Chat系统服务存在越权查看他人对话记录等风险; LLMs集成框架中的新型Tools、Agents、Chains中包含安全风险,导致攻击者可以基于LLMs间接利用相关漏洞;
攻击案例
攻击风险
不安全的编码实践: LLMs 在生成代码时可能会遵循不安全的编码实践,导致生成的代码含有安全漏洞。 未经授权的请求执行:攻击者可以直接利用LLMs应用漏洞或者通过操纵输入提示,使LLMs应用执行意外的请求,访问或操作受限制的资源。
缓解措施
参考
LLMs插件:不安全输入处理
风险概览
风险编号:GAARM.0035.001
子风险:
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
该风险是指由于LLMs的插件存在不安全输入处理,将风险引入到大模型中。例如,插件很可能会从模型中实现来自模型的自由文本输入,而不进行验证或类型检查以处理上下文大小限制,使得潜在攻击者可以构造一个恶意请求发送给插件,可能导致各种不希望发生的行为,甚至包括远程代码执行。
攻击案例
攻击风险
未经授权的请求执行: 攻击者可以直接利用LLMs应用漏洞或者通过操纵输入提示,使LLMs应用执行意外的请求,访问或操作受限制的资源。 敏感信息泄露:通过LLMs访问受限资源可能导致敏感信息的未经授权的获取和泄露。
缓解措施
参考
LLMs应用传统漏洞风险
风险概览
风险编号:GAARM.0035.002
子风险:
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.08.07
修改时间:2024.08.07
攻击概述
传统的应用安全漏洞不仅存在于传统软件系统中,也可能存在于LLM应用程序当中。例如,常见API接口攻击,账户接管,代码执行等,传统的风险漏洞仍然在LLM中存在,因此在训练阶段必须严格遵循安全最佳实践,以确保系统在应对传统风险的时候有足够的防护能力,否则可能会导致服务中断、账户接管、数据篡改等一系列危险。
攻击案例
攻击风险
服务中断: 拒绝服务攻击(DoS)或资源耗尽会导致LLM应用无法响应用户请求,影响业务连续性。 系统控制:远程代码执行或脚本执行漏洞可能使攻击者接管服务器,植入恶意软件或执行破坏性操作。
缓解措施
参考
LLMs应用不安全输出处理
风险概览
风险编号:GAARM.0035.003
子风险:
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.08.07
修改时间:2024.08.07
攻击概述
该风险是指当下游组件在接受大型语言模型 (LLM) 输出却未进行适当审查时,导致出现出现的一种安全风险。模型下游组件中包括各种功能的Agent,当缺乏相关的输出处理,会导致攻击者通过模型滥用Agent实现攻击行为,例如,攻击者可以通过输入特定的文本,诱导LLM输出包含敏感信息的响应,从而窃取用户数据,或者直接输出非预期的攻击Payload,导致下游出现RCE、SSRF等漏洞。
攻击案例
攻击风险
敏感信息泄露: LLM 有时不会在其响应中清理 JavaScript。在这种情况下,攻击者可能会使用精心设计的Prompt导致 LLM 返回 JavaScript 有效负载,当受害者的浏览器解析该有效负载时,会受到攻击导致敏感信息泄露,如对话历史泄露等。 任意代码执行:攻击者可以通过漏洞执行任意代码。这可能导致攻击者在服务器上执行恶意操作,例如植入后门、提取敏感数据或中断服务。 定向攻击风险:攻击者可以对目标系统进行高度定制的攻击。例如,攻击者可能根据获取的文件信息制定进一步的攻击计划,对系统造成更大规模的损害。
缓解措施
参考
https://www.akto.io/blog/insecure-output-handling-in-llms-insights
https://systemweakness.com/new-prompt-injection-attack-on-chatgpt-web-version-ef717492c5c2
LLMs插件:业务过度代理
风险概览
风险编号:GAARM.0036
子风险:无
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.08.07
修改时间:2024.08.07
攻击概述
基于LLM的系统通常由开发人员授予一定程度的业务代理能力,即与其他系统进行交互并在响应提示时执行操作的能力。而过度代理是设计开发阶段安全风险,该风险导致在LLM出现意外/模糊输出时执行破坏性操作,根本原因通常是:功能过多或自主权过多。过度代理可以导致涉及机密性、完整性和可用性等方面的一系列影响,这取决于LLM应用程序能够与哪些系统进行交互。例如,赋予了LLM系统过度自主权,导致LLM基于应用程序或插件未能独立验证和批准高影响操作时,允许删除用户文档的插件执行删除操作时,无需用户的任何确认。
攻击案例
攻击风险
敏感信息泄露: 业务过度代理导致LLM被恶意操控时可能泄露敏感信息以及隐私。
缓解措施
参考
LLMs应用API管理不当
风险概览
风险编号:GAARM.0049
子风险:无
安全阶段:应用安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
LLMs应用API管理不当是指LLMs集成框架环境中存在敏感操作的Tools、Agents、Chains等内外部的API组件,未与LLMs环境做好正确的环境管理与配置。由于大语言模型通常需要与多种API进行交互以执行任务,如果这些API未得到适当的管理,比如未设置正确的访问权限或未实施足够的安全控制,则攻击者可以利用这些漏洞来获取敏感信息或执行恶意行为,实现未授权访问、代码执行利用等攻击。
攻击案例
攻击风险
数据泄露: 攻击者可能获取敏感数据,包括个人身份信息、商业秘密等。 服务中断:恶意代码执行或未授权访问可能导致服务中断或性能下降。 法律和合规风险:安全漏洞可能引起法律诉讼和合规问题。
缓解措施
LLMs应用源代码窃取
风险概览
风险编号:GAARM.0037
子风险:无
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
该风险是指模型或大型语言模型(LLMs)的源代码保存不当,或者部署环境存在安全风险,可能会被未经授权的人员攻击到相关部署环境,实现LLMs应用源代码的窃取,从而导致企业技术竞争优势受损的风险。
攻击案例
攻击风险
技术优势丧失: 竞争对手可能复制或修改泄露的源码,从而削弱企业的技术竞争优势。 网络安全威胁:攻击者可以利用泄露的源码来设计针对性的网络攻击,例如通过揭露的漏洞进行系统渗透。 钓鱼邮件风险:泄露的源码可能被用来创建更具欺骗性的钓鱼邮件,这些邮件模仿企业的内部应用,增加用户上当受骗的风险。
缓解措施
参考
LLMs应用源代码投毒
风险概览
风险编号:GAARM.0038
子风险:无
安全阶段:应用安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
源代码在审查过程中可能存在一些漏洞,攻击者通过向大型语言模型(LLMs)应用程序的源代码注入恶意代码,通过漏洞隐藏代码逃过检查,对第三方开源或商业组件进行源代码投毒,导致应用程序在训练或者运行时出现安全问题,进而影响使用这些组件的下游模型应用业务开发厂商。
攻击案例
攻击风险
后门插入: 通过向训练数据中注入后门代码,允许攻击者在推理过程中控制或操纵模型的输出,导致未经授权的访问或数据操纵。 供应链攻击:通过在开源代码中注入恶意代码,攻击者可以影响使用这些代码的整个供应链。 虚假新闻宣传:攻击者可以利用这种技术修改内容,如电影评论或新闻报道,以传播虚假信息或宣传。
缓解措施
参考
Prompt注入
风险概览
风险编号:GAARM.0039
子风险:无
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
Prompt注入是攻击者利用特殊构造的输入来覆盖或操纵LLMs的原始指令过程。由于自然语言本身具有模糊性,指令和数据的界限往往没有清晰的界限,就导致攻击者可以利用外部的恶意输入来污染模型的输出。这种攻击通常发生在将不可信的输入作为提示的一部分。LLMs可以识别和处理自然语言,而自然语言本身具有模糊性,指令和数据往往没有清晰的界限,攻击者可以在控制的数据字段中包含指令,而系统在底层无法区分数据和指令。
攻击案例
攻击风险
Prompt注入成功可能导致元Prompt泄露、模型越狱、模型功能滥用等危害。 恶意内容生成: 攻击者可以利用Prompt注入生成不当内容,包括威胁、诽谤或其他恶意信息。 数据泄露:如果LLMs被用于输出敏感信息,Prompt注入攻击可能导致数据泄露。 系统安全性:在某些情况下,Prompt注入可以被用来生成和执行恶意代码。 模型滥用:攻击者通过目标劫持等攻击手段,使得LLMs偏离预先的系统设定,执行其他的自定义指令,增加模型滥用的风险。
缓解措施
参考
间接Prompt注入
风险概览
风险编号:GAARM.0040
子风险:GAARM.0040.001、GAARM.0040.002、GAARM.0040.003
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.05
攻击概述
LLMs处理自然语言的过程中,存在被恶意注入提示(Prompt)的漏洞。攻击者会把Prompt藏在LLM系统将会处理的各种数据中,如文本、多媒体内容、数据库或网站提取的信息等,进而通过Prompt操纵LLM产生有害的回应,如恶意代码执行、敏感信息泄露等。例如将恶意代码写入上传给LLM的文件中,当LLM处理文件中的数据时会运行恶意代码,从而产生危害。
攻击案例
攻击风险
恶意代码执行: 通过注入恶意代码或数据,攻击者可能试图在系统中获得一个立足点,从而进一步控制或破坏系统 数据泄露: 攻击者可能使用间接注入来误导用户,使其执行非预期的操作或泄露敏感信息。
缓解措施
参考
https://twitter.com/random_walker/status/1636923058370891778
https://medium.com/@dinob5551/indirect-prompt-injection-the-hidden-threat-lurking-in-ai-730b009dd5fb
XSS会话内容劫持
风险概览
风险编号:GAARM.0040.001
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
XSS会话内容劫持作为一种间接提示词注入的攻击手段,利用了大型语言模型(LLMs)获取外部信息的过程。当用户与LLM通过LLM提供的界面进行交互,例如web界面、api接口、应用程序等,攻击者通过间接注入恶意的提示词指令,利用LLMs应用前端解析Markdown标签和HTML img标签等特性,将当前聊天会话内容进行总结,并将敏感密钥、数据等信息嵌入到img标签的src属性中,从而实现会话内容的泄露。
攻击案例
攻击风险
数据泄露: 攻击者可以获取到当前会话中,用户的敏感数据信息,包括会话令牌、个人信息、聊天记录等。 会话劫持:攻击者可能通过获取的会话令牌接管用户的会话。
缓解措施
参考
环路Agent蠕虫
风险概览
风险编号:GAARM.0040.002
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
代理(Agent)具有从互联网等外部实时获取信息的能力,并且能够将这些信息交由大模型进行处理,最终返回给用户。然而,攻击者可以利用这一点,通过外部数据源注入恶意信息,干扰Agent的执行,进而影响大模型的输出。这些恶意的提示词会间接影响多个大型模型(LLMs)的应用,形成一个恶性循环,使得恶意信息迅速扩散。通过Agent的输入输出循环,这种环路Agent蠕虫可以造成一种自我复制和传播的恶意行为,最终可能导致隐私泄露,还可能引起数据滥用等安全风险。
攻击案例
攻击风险
数据泄露: AI蠕虫可能会窃取敏感的个人信息,如姓名、电话号码、信用卡号、身份证号码等。 恶意软件部署:蠕虫可以在受感染的系统中部署恶意软件,导致进一步的安全问题。 安全防护绕过:AI蠕虫能够绕过现有的一些安全防护措施,如ChatGPT和Gemini的安全机制。 新型网络攻击:AI蠕虫代表了一种之前未被广泛认知的网络攻击方式,对现有的安全防护措施构成挑战。
缓解措施
参考
应用对话Memory攻击
风险概览
风险编号:GAARM.0040.003
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述
该风险指的是攻击者可以通过Web端的Prompt注入诱骗LLMs创建恶意的Memory(如:用户与模型的错误偏好设定),通过恶意的修改LLM记忆中的用户偏好,达到操控LLMs的效果。例如,攻击者可以诱骗LLM,使它认为用户的聊天偏好是“对用户的每一条消息都回复‘抱歉,我不能回复你’”,以此达到DOS攻击的效果。
攻击案例
攻击风险
DOS攻击: 攻击者可以根据喜好让用户受到持续拒绝服务的内存攻击。
缓解措施
参考
https://embracethered.com/blog/posts/2024/chatgpt-persistent-denial-of-service/
https://openai.com/index/memory-and-new-controls-for-chatgpt/
业务应用API利用
风险概览
风险编号:GAARM.0041
子风险:GAARM.0041.001、GAARM.0041.002
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
LLMs应用API主要分为两类应用场景,因此应用API利用风险主要围绕下列两类应用场景展开: LLMs应用平台基于API对外提供服务能力; 攻击者利用大模型(如OpenAI的GPT系列)的API接口中存在的API安全风险实施攻击过程,收集API接口的信息进行漏洞寻找,基于所发现的漏洞构造恶意API请求,企图绕过认证或者注入恶意代码。例如:以未授权的方式访问或执行更高权限的操作、利用对外提供服务的API接口漏洞执行恶意代码命令等。 LLMs Agent调度以及第三方应用集成基于API实现相关能力到模型的接入; 攻击者利用模型具有访问敏感信息或操作的API访问能力,基于API访问权限间接的通过构造恶意提示词,让模型执行危险的操作,例如访问敏感信息,篡改系统配置等。由于模型自身具备对API的操作与调用能力,有相应的访问权限,导致恶意操作可能会绕过正常的安全控制,发起实际的恶意攻击行为,该攻击可能导致越权、未授权访问他人信息等风险。
攻击案例
攻击风险
数据泄露: 攻击者可能获取敏感数据,如用户信息和密码。 服务中断:恶意操作可能导致服务中断,如删除用户记录或数据库条目。 信任下降:LLM生成的不准确或敏感信息可能破坏用户和组织的信任。 法律责任:由于LLM生成的不当内容,组织可能面临法律责任。
缓解措施
参考
SSRF环境模拟探测
风险概览
风险编号:GAARM.0041.001
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
SSRF的形成大多是由于服务端提供了从其他服务器应用获取数据的功能且没有对目标地址做过滤与限制。如果LLMs应用程序中存在SSRF漏洞,攻击者可以利用这个漏洞发起内部网络请求,访问应用程序内部的受限资源。同时,一些LLMs可能内置有网络访问功能的Agent,用于执行一些外部信息查询等操作。攻击者可以利用LLMs应用API SSRF漏洞或者LLMs中具备网络访问功能的Agent,执行意外请求或访问受限资源(如内部服务、API 或数据存储),进而访问模型内部系统,增加模型信息、内部服务、敏感数据等数据信息泄露的风险。
攻击案例
攻击风险
访问内部资源: 攻击者可以利用 SSRF 漏洞来发送请求,获取内部网络中的敏感信息 攻击流量代理:通过利用 SSRF 漏洞,攻击者可以发送恶意请求来攻击内部系统、服务或资源 数据泄露:攻击者可能利用该风险获取敏感数据,如云平台访问密钥等。
缓解措施
参考
SSRF环境模拟探测
风险概览
风险编号:GAARM.0041.001
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
SSRF的形成大多是由于服务端提供了从其他服务器应用获取数据的功能且没有对目标地址做过滤与限制。如果LLMs应用程序中存在SSRF漏洞,攻击者可以利用这个漏洞发起内部网络请求,访问应用程序内部的受限资源。同时,一些LLMs可能内置有网络访问功能的Agent,用于执行一些外部信息查询等操作。攻击者可以利用LLMs应用API SSRF漏洞或者LLMs中具备网络访问功能的Agent,执行意外请求或访问受限资源(如内部服务、API 或数据存储),进而访问模型内部系统,增加模型信息、内部服务、敏感数据等数据信息泄露的风险。
攻击案例
攻击风险
访问内部资源: 攻击者可以利用 SSRF 漏洞来发送请求,获取内部网络中的敏感信息 攻击流量代理:通过利用 SSRF 漏洞,攻击者可以发送恶意请求来攻击内部系统、服务或资源 数据泄露:攻击者可能利用该风险获取敏感数据,如云平台访问密钥等。
缓解措施
参考
代码执行注入
风险概览
风险编号:GAARM.0041.002
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
在ReAct框架下,LLMs可以与外部系统交互,外部的代码解释器Agent可用于为LLMs提供代码执行能力,实现在业务应用过程中完成自动化图标绘制、复杂代码运算等需求。攻击者通过构建恶意输入提示词操纵LLMs执行预定的推理过程,使得LLMs调度代码执行Agent在底层系统上执行恶意代码、命令等操作,从而实现对LLMs基座运行环境的攻击与利用,出现此攻击的主要原因为: 未能对用户输入进行有效检测验证或限制,允许攻击者未经授权的开展恶意代码执行操作。 沙盒环境不足或LLMs的能力限制不足,导致它以意外的方式与底层系统进行交互。 无意中将系统级功能或接口暴露给LLMs。
攻击案例
攻击风险
代码执行风险: 攻击者可以执行任意Python代码,这可能导致服务器受损、数据泄露或其他恶意行为。 系统权限控制:如果CodeExecutor没有适当的安全措施,执行的代码结合容器逃逸等攻击手段,可能会获取系统的高级权限。 持续性访问控制:攻击者可能利用这次机会建立一个长期的访问通道,用于持续攻击。
缓解措施
参考
CoT注入攻击
风险概览
风险编号:GAARM.0042
子风险:GAARM.0042.001、GAARM.0042.002
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
CoT(Chain of Thought)通过促使LLMs思考一系列的关键步骤来解决问题,有效提高了问题的推理解决能力。基于ReAct(Reason + Act)实现CoT推理的技术框架,并且利用Agent调度实现LLMs访问外部世界的交互能力,可以与各种外部系统无缝连接并执行复杂的任务。 在CoT应用中,用户通过提供自然语言的问题,AI模型会生成一系列推理步骤来回答该问题,其中涉及到思考(Thought)、行动(Act)、观察(Obs)三个核心步骤,AI模型会循环上述三个步骤完成各种复杂问题的推理与解决,由于整个过程比传统代码逻辑更加开放与灵活,缺乏严格的流程控制结构,攻击者可以通过CoT注入攻击绕过特定的推理步骤,诱导AI模型执行非预期的动作,比如:业务功能风险(任意用户转账等)、技术功能风险(SSRF、RCE等),目前CoT注入攻击主要有两种攻击思路: 思维链干扰注入:通过观察CoT的调度过程,构造恶意输入以欺骗模型认为其已经获取到一个Agent的结果,通过伪造Agent的结果,实现对CoT运行过程的干扰; 思维链操纵注入:通过观察CoT的调度过程,直接或利用对抗攻击手段构造恶意输入,实现对CoT过程的操纵,使模型跳过预置的CoT过程,直接调度敏感的Agent;
攻击案例
缓解措施
参考
思维链干扰注入
风险概览
风险编号:GAARM.0042.001
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述
该风险是CoT注入攻击的子风险,攻击者通过观察CoT的调度过程,构造恶意输入,以此欺骗模型认为其已经获取到了正确的agent结果,通过伪造agent结果进行对CoT的干扰。
攻击案例
攻击风险
干扰注入: 通过构造恶意的输入,达到干扰LLM的目的,进而实现违规的操作。
缓解措施
参考
思维链操纵注入
风险概览
风险编号:GAARM.0042.002
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.07
攻击概述
该风险是CoT注入攻击的子风险,攻击者通过观察CoT的调度过程,构造恶意输入,使模型跳过预置的CoT过程,直接调度敏感的Agent。例如,跳过预置的验证步骤,允许用户直接执行理应经过验证后才可执行的操作。
攻击案例
攻击风险
操纵注入: 通过构造恶意的输入,达到操控LLM的目的,进而实现违规的操作。
缓解措施
参考
关键字混淆
风险概览
风险编号:GAARM.0043
子风险:GAARM.0043.001
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指针对Prompt中的关键词汇进行特殊的处理操作(同音词、同义词、单词拆分或者其他形式的文本操作),使其在保持相似意义的同时,经过token化不再带有风险含义,从而规避模型安全机制对敏感词汇的限制。
攻击案例
攻击风险
生成不当内容: 攻击者可能利用关键字混淆技术来绕过自动内容审查系统,发布或传播恶意内容,如暴力、恐怖主义或色情信息。 规避安全机制:攻击者恶意引导模型产生不正确的输出,以误导系统做出不良决策或执行危险操作。
缓解措施
参考
同义词替换攻击
风险概览
风险编号:GAARM.0043.001
子风险:
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
同义词替换攻击,通过使用与敏感词汇或短语有相同或相似含义的同义词来绕过模型的安全防护措施,从而获取或泄露模型的内部指令或敏感信息的攻击手段。随着LLMs体积越发庞大,对于每个存在攻击示例的微调变得越发困难,模型容易遭受同义词替换的攻击。例如,在一个编程助手中,攻击者可以用"remove"替换"delete",用"harm"替换"destroy"等,试图绕过关键词检查。
攻击案例
攻击风险
敏感信息泄露: 攻击者可能获取模型的内部指令,包括但不限于系统提示,密码等敏感信息。 安全机制绕过:攻击者可以利用同义词替换攻击绕过模型的安全防护,导致模型生成不期望的输出或执行未授权的操作。
缓解措施
参考
对抗编码攻击
风险概览
风险编号:GAARM.0044
子风险:无
安全阶段:应用安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.06
攻击概述
对抗编码攻击是针对LLMs输入与输出侧防御检测机制的一种对抗技术手段,攻击者通过编码或转换数据(如使用base64编码),尝试绕过安全检查或注入恶意内容。这种攻击针对的是NLP模型的编码层,试图绕过模型的文本理解能力,直接影响内部特征的生成。 由于LLMs训练过编码文本等多样化的数据类型,因此支持正常实现解码操作,并完成恶意指令的执行或者敏感数据的外泄。
攻击案例
攻击风险
绕过安全机制: 攻击者可能利用模型编解码能力来绕过内容安全检查。 数据泄露:攻击者可以利用Base64编码操作来隐藏恶意指令或数据,导致敏感信息泄露。 未经授权的代码执行:恶意代码可以通过Base64编码的形式注入到LLMs中,从而导致未经授权的代码执行,可能损害系统的完整性和安全性。 恶意操作:攻击者可以利用Base64编码操纵LLMs执行各种恶意操作,如篡改数据、劫持会话等,从而危害系统和用户安全。
缓解措施
参考
模型后门
风险概览
风险编号:GAARM.0023
子风险:GAARM.0023.001、GAARM.0023.002
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
LLM模型中的后门主要指训练阶段,由于引入了不可信来源的模型导致的安全问题,目前LLM模型后门主要分为两种形式: 模型序列化后门:由于使用的预训练模型,可能被植入了包含特定序列化数据的恶意指令,使得用户在加载使用模型时触发反序列化操作,进而执行预设的恶意命令或代码; 预训练模型投毒:由于使用的预训练模型,可能被植入了特定恶意训练数据,导致模型在使用时产生有意的观点倾斜,甚至直接篡改输出结果; 因此,在模型训练阶段,必须采取严格的措施防止模型后门的引入和使用。
攻击案例
攻击风险
系统漏洞利用: 植入的后门可以转变为系统安全漏洞,攻击者通过特定的触发器激活后门,进而控制或操纵模型的行为。 敏感信息泄露:后门允许攻击者在特定条件下获取未经授权的访问权限,这可能导致敏感信息的泄露,对个人和企业造成重大损失。 生成毒性内容:攻击者可能利用后门让模型生成暴力、歧视、色情或其他不当内容。
缓解措施
参考
模型序列化后门
风险概览
风险编号:GAARM.0023.001
子风险:
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险指的是攻击者可能通过构造特定的包含恶意序列化数据的持久化模型文件,使得用户在加载使用模型时触发反序列化操作,进而执行预设的恶意命令或代码。如果LLM模型的反序列化机制没有得到适当的安全控制,攻击者可以利用它来绕过安全防护措施,执行未授权的操作,甚至可能控制整个系统。
攻击案例
攻击风险
执行任意恶意代码: 通过精心构造的模型序列化文件,攻击者能够在目标系统上执行任意代码,这可能导致系统损坏、敏感数据泄露或系统被攻击者控制。 供应链攻击:由于Pickle等文件是主流的模型分发文件,攻击者可以通过污染模型或其依赖的库来发动供应链攻击,影响更广泛的用户群体。 跨租户攻击:在云服务或共享服务环境中,攻击者可能会利用恶意pickle文件进行跨租户攻击,从一个被攻陷的实例跳跃到另一个实例,影响更多的用户和系统。
缓解措施
参考
https://wiki.offsecml.com/Supply+Chain+Attacks/Models/Using+Keras+Lambda+Layers
https://5stars217.github.io/2023-08-08-red-teaming-with-ml-models/
预训练模型投毒
风险概览
风险编号:GAARM.0023.002
子风险:
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
在预训练阶段,如果模型的数据集被恶意篡改或注入了有害信息,从而使得模型学习到一些有害的知识和行为的攻击方式,当使用者在缺乏安全审查的情况下,将此类模型引入到LLM应用中,这种情况被称为预训练模型投毒。由于投毒的数据集会导致模型学习到错误的模式和关联,将在后续的推理过程中产生误导性或有害的输出。这些攻击通常在模型训练的早期阶段发生,并且可能只影响特定输入下的模型行为,因此很难被检测到,攻击者会使用特定的输入触发后门执行。
攻击案例
攻击风险
误导性输出: 投毒后的模型在特定查询或请求下可能会输出错误或误导性信息,这可能导致用户做出错误的决策或被虚假信息误导。 信任损害:如果用户频繁遇到误导性信息,可能会对模型或系统的信任度下降,从而影响其声誉和使用率。 隐蔽性:投毒数据通常与正常数据混合在一起,并且只在特定的条件下触发,这使得通过常规的检测手段很难发现这类攻击。
缓解措施
参考
预训练模型不安全依赖
风险概览
风险编号:GAARM.0024
子风险:无
安全阶段:模型安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
在模型的开发和训练阶段,如果过度依赖存在缺陷或偏见的数据集,或者其他的不安全依赖组件,将使得模型在处理训练集中未被充分覆盖的新颖或边缘情况时,面临输出不准确或误导性结果的风险。这种依赖不仅可能损害模型的泛化能力,还可能放大和延续数据集中的不公平现象,导致决策不公和信任缺失。
攻击案例
攻击风险
数据集安全性不足: 预训练模型依赖的庞大多样化数据集若含不完整、矛盾或错误信息,可能使模型输出不准确或有争议。 模型幻觉:过度依赖未经充分验证的数据集进行预训练的模型,若缺乏对其性能特征的深入理解,可能在面对新颖或边缘情况时,生成不准确或误导性的信息。
缓解措施
参考
模型文件窃取
风险概览
风险编号:GAARM.0025
子风险:无
安全阶段:模型安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
这种风险主要涉及到模型参数、训练数据和推理过程的安全性,攻击者可能通过各种手段获取模型的参数信息,例如逆向工程、模型抽取或模型剪枝等技术,从而使得原本保密的模型结构和知识暴露给未经授权的人员。此外,攻击者还可能通过监视模型的推理过程或利用推理时的信息泄露漏洞,获取模型对输入数据的处理方式和输出结果,进而危及模型的机密性和完整性。
攻击案例
攻击风险
知识产权损失: 攻击者通过提取AI模型的关键信息,如权重和算法参数,可能会复制或逆向工程该模型,导致知识产权的丧失。 财务损失:模型窃取攻击可能会给目标组织带来重大财务损失。 滥用风险:窃取的模型可能被用于不道德或非法的目的,如制造假新闻、进行网络钓鱼攻击或生成有害内容。
缓解措施
参考
https://rodtrent.substack.com/p/must-learn-ai-security-part-8-model
https://www.53ai.com/news/LargeLanguageModel/2024071740891.html
模型参数篡改
风险概览
风险编号:GAARM.0026
子风险:无
安全阶段:模型安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指模型在部署过程中可能会面临参数篡改的风险,这通常是指攻击者通过非法手段故意修改模型的内部参数或权重。这种篡改可能导致模型的行为偏离其设计目的,产生不可预测的输出,甚至可能使模型完全失效。参数篡改不仅威胁到模型的安全性和可靠性,还可能引发隐私泄露和决策失误,对依赖该模型的系统和服务造成严重影响。
攻击案例
攻击风险
模型能力丧失: 通过恶意篡改深度学习模型中的关键参数,攻击者可以导致模型失去其语言处理能力。 输出错误内容:当模型的关键参数被篡改后,导致模型生成的文本不再正确,影响模型的可靠性和实用性。
缓解措施
参考
模型越狱攻击
风险概览
风险编号:GAARM.0027
子风险:GAARM.0027.001、GAARM.0027.002、GAARM.0027.003、GAARM.0027.004、GAARM.0027.005、GAARM.0027.006
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
“模型越狱攻击”(Model Jailbreaking Attack)是一种针对模型应用的常见攻击技术。这种攻击通常通过精心构造的输入(称为“越狱提示词”)来实现攻击,可以绕开大模型内部的安全对齐机制,进一步诱导模型输出训练数据、内部参数或者隐私数据等敏感信息。
攻击案例
攻击风险
数据泄露: 攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
Many-shot越狱
风险概览
风险编号:GAARM.0027.002
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
针对大语言模型的上下文窗口越来越长特性,能够处理几十万甚至上百万字符的文本,攻击者在单个Prompt中添加了大量的人类和人工智能助手之间的虚拟对话。其中每一个攻击手编纂的虚拟对话的格式都是:“用户提出有害的问题+ai详细回答如何完成有害的行为”,结尾添加一个诱导LLMs输出有害内容的查询,可以绕开大模型内部的安全对齐机制,最终实现越狱攻击。
攻击案例
攻击风险
模型操控: 攻击者可以操纵模型的输出,导致模型产生非合规、恶意等信息。 安全防护绕过: Many-Shot越狱攻击诱导模型绕过安全限制,导致模型输出有害的信息。 数据泄露: 攻击者可能通过越狱的模型获取敏感数据,如用户信息、财务数据等。
缓解措施
参考
假定场景越狱
风险概览
风险编号:GAARM.0027.003
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指攻击者通过精心设计对话场景,使模型在执行过程中偏离其正常行为,可以绕开大模型内部的安全对齐机制,从而执行非预期的操作。导致直接提示模型接受它通常不会的观点或泄露信息,从而规避旨在保持交互安全和负责任的保护措施,造成数据泄露、提示词泄露等安全问题。
攻击案例
攻击风险
数据泄露: 攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
假定角色越狱
风险概览
风险编号:GAARM.0027.004
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险旨在欺骗模型生成有害内容。通过要求AI模型进行扮演角色游戏的手段,可以绕开大模型内部的安全对齐机制,攻击者可以直接提示模型接受它通常不会的观点或泄露信息,从而造成数据泄露、提示词泄露等安全问题。
攻击案例
攻击风险
数据泄露: 攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 滥用服务:例如在付费的AI服务中,攻击者可能通过越狱攻击免费或以非正当方式使用服务。 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
对抗性后缀攻击
风险概览
风险编号:GAARM.0027.005
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
对抗性后缀攻击指的是攻击者通过在合法输入的末尾添加精心设计的“后缀”(即对抗性样本),来误导模型做出错误的判断或预测。这种攻击手法难以被传统的检测机制发现,因为修改后的输入在表面上看起来与正常输入无异,但模型的输出结果却可能完全偏离预期,从而对模型的安全性和可靠性构成严重威胁。
攻击案例
攻击风险
生成不当内容: 诱导对齐的语言模型产生有害的内容,生成出本来不该生成的有害影响。 攻击转移性:这种攻击不仅能够在特定模型上攻击还能转移到其他模型上,扩大的攻击的广泛性。
缓解措施
参考
概念激活攻击
风险概览
风险编号:GAARM.0027.006
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该攻击方式主要针对开源的LLMs,旨在识别和操控模型对特定概念的响应。尽管开源的LLMs在发布之前会经过安全对齐,和严格的安全审查,但是几乎不可能对其进行完全的审查,仍然存在安全风险。用户可以获取开源LLMs模型的所有细节,针对其底层原理挖掘出可能存在的安全漏洞。通过构建有害和无害输入,从前向传播中提取激活向量,推理过程中通过激活向量扰动中间层输出,绕过LLMs安全机制实现越狱攻击。
攻击案例
攻击风险
数据泄露: 攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 生成毒害内容: 攻击者可以通过越狱攻击,让LLMs生成暴力,歧视,侮辱等有害内容。 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
概念激活攻击
风险概览
风险编号:GAARM.0027.006
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该攻击方式主要针对开源的LLMs,旨在识别和操控模型对特定概念的响应。尽管开源的LLMs在发布之前会经过安全对齐,和严格的安全审查,但是几乎不可能对其进行完全的审查,仍然存在安全风险。用户可以获取开源LLMs模型的所有细节,针对其底层原理挖掘出可能存在的安全漏洞。通过构建有害和无害输入,从前向传播中提取激活向量,推理过程中通过激活向量扰动中间层输出,绕过LLMs安全机制实现越狱攻击。
攻击案例
攻击风险
数据泄露: 攻击者可能通过越狱攻击获取模型背后的训练数据,尤其是敏感数据,如个人隐私信息、商业秘密等。 模型操控:攻击者可以操纵模型的输出,例如在决策支持系统中,可能导致错误的决策或恶意决策。 信任破坏:越狱攻击可能破坏用户对AI模型的信任,从而影响模型的广泛应用。 生成毒害内容: 攻击者可以通过越狱攻击,让LLMs生成暴力,歧视,侮辱等有害内容。 系统破坏:在关键基础设施中,越狱攻击可能导致系统崩溃或功能异常,造成严重后果。
缓解措施
参考
模型幻觉风险
风险概览
风险编号:GAARM.0028
子风险:GAARM.0028.001、GAARM.0028.002
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型幻觉风险是指大型语言模型在生成文本或其他类型的输出时,可能会产生与现实不符或完全虚构的信息,这些信息可能被当作真实信息使用,从而导致误导或错误决策。针对该风险的攻击会诱导大模型产生幻觉,生成虚假的输出,从而误导决策。 以下是常见的模型幻觉攻击手段: - 随机噪声攻击(OoD Attack):即让无意义的随机字符串诱导大模型产生预定义的幻觉输出。 - 弱语义攻击(Weak Semantic Attack):即保证原始 prompt 语义基本不变的情况下,使得大模型产生截然不同的幻觉输出。
攻击案例
攻击风险
误导决策: 模型可能产生误导性的输出,影响依赖模型输出的决策过程。 语义混淆:即使输入的语义内容保持不变,模型也可能产生与预期完全不同的输出,导致混淆。 信任度下降:频繁的幻觉输出会降低用户和组织对模型可靠性的信任。
缓解措施
参考
事实性幻觉
风险概览
风险编号:GAARM.0028.001
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险涉及模型输出内容与现实世界中可验证的事实不符或捏造信息。这种风险来源有很多种可能,在大模型从训练到应用的各个方面都可能带来幻觉风险。此外,攻击者可以通过特意构造的攻击手段来让大模型产生幻觉,例如随机喂给大模型一段乱码,则会影响它输出内容的真实性。最终可能导致助长虚假新闻和阴谋论的传播,从而对社会产生深远的负面影响,包括但不限于误导公众、破坏信息真实性和扰乱社会秩序 事实性幻觉可分为以下几类: 事实不一致:模型的输出与现实世界中已知的信息相矛盾; 事实捏造:指模型生成的内容完全基于虚构,而无法通过任何现实世界的信息来验证其准确性;
攻击案例
攻击风险
传播虚假信息: 事实性幻觉可能导致虚假信息的传播,尤其是在社交媒体和其他在线平台上。这不仅会误导公众,还可能加剧假新闻、阴谋论等社会问题。 法律和合规风险:生成包含不准确事实的内容可能违反特定行业的法律和合规要求,比如医疗信息的准确性、金融建议的可靠性等,从而导致法律诉讼或罚款。 伦理和社会责任:事实性幻觉可能违背伦理和社会责任原则,尤其是当错误信息影响到敏感话题(如政治、健康、安全等)时,可能对社会造成负面影响。 用户信任下降:频繁的事实性错误可能导致用户对AI系统的信任下降,从而影响其使用意愿和技术的普及 。
缓解措施
参考
https://www.lakera.ai/blog/guide-to-hallucinations-in-large-language-models
https://www.lakera.ai/blog/guide-to-hallucinations-in-large-language-models
非合规内容输出
风险概览
风险编号:GAARM.0029
子风险:GAARM.0029.001、GAARM.0029.002、GAARM.0029.003、GAARM.0029.004、GAARM.0029.005、GAARM.0029.006
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
大模型非合规内容输出指的是,攻击者通过精心构造包含恶意的输入内容或利用模型自身存在的安全漏洞等不良手段,诱导大型语言模型(LLM)产生异常或不合逻辑的输出,例如,在生成文本、图片或其他形式数据时,诱使LLM违背相关的法律法规、社会道德标准或企业内部规定,产生不恰当或违法的内容。这种内容可能包含虚假信息、歧视性言论、不当的意识形态倾向、侵犯版权的内容等。这类攻击不仅可能导致模型结果偏离预期,还可能对模型的整体安全性和信赖度造成严重威胁。
攻击案例
攻击风险
数据完整性受损: 非合规内容输出可能损害数据的完整性,使得模型无法正确解释或处理输入数据,从而影响模型对数据的分析和处理。 用户决策误导:非合规内容输出可能导致模型产生错误的推断或分类结果,从而误导用户或决策者做出错误的决策,影响系统的正常运行和应用。 安全机制绕过:攻击者可能利用模型的安全机制缺陷,通过特定的输入手段(如提示词注入)绕过安全检查,导致模型执行非预期的操作或输出敏感信息。
缓解措施
参考
虚假信息生成
风险概览
风险编号:GAARM.0029.001
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
攻击者故意输入含有误导性信息的数据集,例如包含虚构的事实、具有欺骗性的言论或经过蓄意修改的信息的数据集。通过这类策略,可以扭曲模型的学习路径,导致模型在后续的输出中生成基于错误前提的结论或传递不准确的信息。仅仅是在上下文中注入虚假信息,就可以污染模型与之相关的记忆,这意味着即使所有的训练数据都可信且正确,虚假信息依然能够威胁大模型的可靠性和安全性。
攻击案例
攻击风险
医疗领域: 不正确的药物指导或者治疗建议可能导致患者健康受损,甚至危及生命; 交通导航领域: 错误的路线信息可能导致用户迷路、延误或发生交通事故; 金融领域: 大模型提供的错误市场分析或者投资建议可能会导致投资者损失资金; 社会恐慌: 若AI给出的错误信息被广泛传播,可能会影响社会稳定,比如引起恐慌、误导公共舆论等。
缓解措施
参考
诱导&&不当言论
风险概览
风险编号:GAARM.0029.002
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指攻击者利用Prompt注入的方式,通过精心构造提示词来诱导模型产生有害言论,导致传播错误信息、仇恨言论或其他不适当的内容,从而对社会秩序造成破坏,甚至可能削弱社会的道德标准。
攻击案例
攻击风险
不当内容传播: 攻击者可能利用模型生成暴力、歧视、色情或其他不当内容,这些内容一旦传播,会对网络环境和社会秩序造成破坏。 误导公众:生成的虚假或误导性信息可能会误导公众,影响人们的判断和决策,尤其在政治、健康、安全等敏感领域,后果可能非常严重。 社会不稳定:攻击者可能利用模型生成的内容进行社会工程攻击,操纵舆论,增加社会不安定因素。
缓解措施
参考
带有偏见、仇恨、歧视或侮辱问题
风险概览
风险编号:GAARM.0029.003
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险指的是,攻击者通过越狱攻击等手段,诱导大型模型输出含有偏见、仇恨、歧视或侮辱性内容时,违反相应的法律法规、社会伦理准则或企业规范。与此同时,大模型本身也存在输出带有偏见、仇恨、歧视或侮辱的漏洞,其产生原因较为复杂,包括但不仅限于训练时使用了含有偏见的数据等。攻击者和模型本身的缺陷,都会导致模型生成并传播具有歧视性的内容,甚至散布仇恨言论,从而激化社会分歧与对立,违反法律规范。
攻击案例
攻击风险
社会影响: 带有偏见和歧视的内容可能会加剧社会分裂,引发或加剧社会冲突; 法律风险:发布或传播仇恨言论和歧视内容可能违反法律法规,导致法律责任; 信誉损害:企业和组织如果未能有效管理AI模型产生的不当内容,可能会损害其公众形象和信誉; 道德责任:AI模型的开发者和运营者有道德责任确保其技术不被用于传播负面和有害的信息;
缓解措施
参考
恐怖主义&&带有暴力倾向
风险概览
风险编号:GAARM.0029.004
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型的训练过程往往依赖于从互联网上爬取的大量数据构建其语料库。攻击者可以通过修改外部数据库,向其中注入有害信息,导致模型在爬取数据的过程中吸收到有毒数据。与此同时,互联网数据中不可避免地夹杂着包括恐怖、暴力等有害信息。在上述的数据中训练的模型可能会“记忆”这些有害内容。在实际应用中,攻击者可以通过精心设计的提示词操纵模型,使其输出包含这类有害信息的内容。
攻击案例
攻击风险
社会和心理风险: 能引发恐慌、不安和社会不稳定,对公众心理健康造成负面影响。 法律和合规风险:发布或传播恐怖主义和暴力倾向的内容违反了许多国家的法律和规定,可能导致法律诉讼或罚款。
缓解措施
参考
政治&&军事敏感问题
风险概览
风险编号:GAARM.0029.005
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险指攻击者通过安全漏洞,诱导大模型在进行信息处理和生成时产生或传播与政治和军事领域相关的高度敏感内容,例如输出军事相关人员的具体坐标等信息。这种风险可能导致国家机密信息的泄露,加剧国际或国内政治紧张局势,引发公众恐慌,损害国家安全和社会稳定。
攻击案例
攻击风险
社会和政治风险: 政治和军事敏感问题可能会引发社会不稳定,甚至导致国家安全问题; 法律和合规风险:输出政治和军事敏感问题可能违反相关法律法规,导致法律责任。
缓解措施
参考
商业违法输出
风险概览
风险编号:GAARM.0030
子风险:GAARM.0030.001
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
在AI模型的应用阶段,攻击者通过包含恶意的攻击手段,诱使LLM的输出构成商业领域的违法行为,带来经济利益方面的损失以及损害企业形象等后果。
攻击案例
攻击风险
法律风险: 侵犯知识产权可能引发法律诉讼,导致额外的财务负担和声誉损害。 商业秘密泄露:模型中可能包含商业秘密,如独特的算法或训练技术,一旦泄露,可能削弱公司的竞争优势。 经济损失:版权侵犯可能导致原创者或所有者遭受经济损失,包括失去的许可费、销售收入和市场份额。
缓解措施
参考
知识产权版权侵犯
风险概览
风险编号:GAARM.0030.001
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
在AI模型的训练过程中,若未经原作者明确授权,便擅自使用其作品(包括文本、图像、音频等)作为训练语料,可能触犯版权法规和个人隐私权。这一点在所使用数据涉及受版权保护的内容或包含个人敏感信息时尤为敏感和严重。这将导致在应用阶段时造成知识产权版权侵犯这一风险。例如,LLM未经允许便输出了抄袭他人作品后生成的内容,即便用户并没有要求它进行抄袭,进而给用户带来侵权的风险。同时,攻击者也可以利用这一安全漏洞,通过精心构造输入,诱使LLM输出受版权保护的内容,例如让GPT生成windows激活码。
攻击案例
攻击风险
- 法律风险: 侵犯知识产权可能引发法律诉讼,导致额外的财务负担和声誉损害。 - 商业秘密泄露:模型中可能包含商业秘密,如独特的算法或训练技术,一旦泄露,可能削弱公司的竞争优势。 - 经济损失:版权侵犯可能导致原创者或所有者遭受经济损失,包括失去的许可费、销售收入和市场份额。
缓解措施
参考
模型功能滥用
风险概览
风险编号:GAARM.0031
子风险:GAARM.0031.001、GAARM.0031.002、GAARM.0031.003、GAARM.0031.004、GAARM.0031.005
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型功能滥用,主要指的是攻击者在可控业务模型请求的情况下,盗用业务模型系统API,滥用业务大模型功能,完成实现攻击需求的非法,恶意操作,如恶意钓鱼邮件编写,恶意工具编写等。模型功能滥用一方面给业务系统带来了大量请求压力,一方面也存在业务合规风险。
攻击案例
攻击风险
安全风险: 功能滥用可能导致模型执行恶意操作,如生成或传播有害内容、发起网络攻击、窃取敏感信息等,从而对用户和系统安全构成威胁; 隐私侵犯:滥用模型功能可能涉及未经授权的隐私数据收集、处理或泄露,损害个人隐私权益; 法律责任:模型功能滥用可能涉及违法行为,如侵犯知识产权、诽谤、诈骗等,从而引发法律责任问题; 伦理道德问题:滥用模型功能可能产生不道德或伦理上有争议的结果,如生成虚假信息、误导公众、加剧社会不公等; 信任危机:用户对AI系统的信任可能因为功能滥用而导致损害,这会影响AI技术的接受度和依赖度; 经济损失:在商业环境中,模型功能滥用可能导致经济损失,如通过欺诈行为造成财务损失、破坏商业信誉等;
缓解措施
恶意代码生成
风险概览
风险编号:GAARM.0031.001
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型存在恶意代码生成风险,这意味着攻击者可能利用模型的能力来生成或构造具有破坏性的代码,例如病毒、木马、勒索软件等。还可能导致导致系统被入侵、数据泄露或服务中断,对安全性和隐私构成严重威胁。此外,恶意代码的生成还可能被用来绕过安全检测系统,使得传统的安全防护措施变得无效。
攻击案例
攻击风险
- 恶意软件生成: 攻击者可能利用AI生成的恶意代码来创建定制的恶意软件,这些软件专门设计用于绕过现有的安全防护措施。 - 增加网络攻击风险:通过编译生成的恶意代码,攻击者可以对公司、个人以及政府机构发起网络攻击,导致数据泄露、服务中断或财产损失。
缓解措施
参考
https://infosecwriteups.com/jail-breaking-chatgpt-to-write-malware-9b3ae111f30c
https://www.theregister.com/2024/04/17/gpt4_can_exploit_real_vulnerabilities/
钓鱼邮件生成
风险概览
风险编号:GAARM.0031.002
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
钓鱼邮件是一种欺诈性邮件,攻击者可以通过特殊的手段,如精心构造提示输入、通过API绕过安全限制等,诱导LLM生成钓鱼邮件。通过将其伪装成合法的通信,诱使模型泄露敏感信息,如登录凭证、内部数据等。一旦这些信息被恶意获取,可能导致大模型的安全性受到威胁,进而影响到使用该模型的用户的隐私和数据安全。
攻击案例
攻击风险
账户接管: 钓鱼邮件可能会模仿正规的邮件服务提供商或企业,诱使用户输入账户登录信息,从而使攻击者能够接管用户的电子邮箱账户; 企业声誉受损:可能会模仿企业或组织的官方邮件,向用户的联系人发送欺诈性信息,从而损害企业或组织的声誉; 数据窃取: 大模型给出的钓鱼邮件可能会包含恶意链接或代码,一旦用户点击或下载,可能会造成用户计算机系统的瘫痪、数据丢失、身份信息泄露等严重问题;
缓解措施
参考
图片信息伪造
风险概览
风险编号:GAARM.0031.003
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
攻击者通过生成对抗网络(GAN)等技术,可以生成逼真的虚假图片。这些虚假图片可能被用于虚假广告、造假证据、网络欺诈等目的。此外,图片信息伪造还可能导致个人身份信息的泄露。攻击者通过分析个人照片、社交媒体信息和其他公开数据,利用AI可以生成逼真的人脸图像,并用于冒充他人身份。这给个人隐私和数据安全带来了严重的风险。
攻击案例
攻击风险
误导性信息: 伪造图片可能被用来传播虚假信息,影响公众舆论。 信誉损害:企业或个人可能因伪造图片而受到贬损,影响其声誉乃至带来财产损失。 法律后果:发布伪造图片可能导致法律责任,尤其是在涉及诽谤或侵犯隐私的案件中。
缓解措施
参考
音频信息伪造
风险概览
风险编号:GAARM.0031.004
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
攻击者通过生成对抗网络(GAN)等技术,可以生成逼真的虚假音频。这些虚假音频可能被用于虚假广告、造假证据、网络欺诈等目的。此外,音频信息伪造还可能导致个人身份信息的泄露。攻击者通过分析个人照片、社交媒体信息和其他公开数据,利用AI可以生成逼真的人脸图像,并用于冒充他人身份。这给个人隐私和数据安全带来了严重的风险。
攻击案例
攻击风险
误导性信息: 伪造音频可能被用来传播虚假信息,影响公众舆论。 信誉损害:企业或个人可能因伪造音频而受到贬损,影响其声誉乃至带来财产损失。 法律后果:发布伪造音频可能导致法律责任,尤其是在涉及诽谤或侵犯隐私的案件中。
缓解措施
参考
视频信息伪造
风险概览
风险编号:GAARM.0031.005
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
攻击者通过生成对抗网络(GAN)等技术,可以生成逼真的虚假视频。这些虚假视频可能被用于虚假广告、造假证据、网络欺诈等目的。此外,视频信息伪造还可能导致个人身份信息的泄露。这给个人隐私和数据安全带来了严重的风险。
攻击案例
攻击风险
误导性信息: 伪造视频可能被用来传播虚假信息,影响公众舆论。 信誉损害:企业或个人可能因伪造视频而受到贬损,影响其声誉乃至带来财产损失。 法律后果:发布伪造视频可能导致法律责任,尤其是在涉及诽谤或侵犯隐私的案件中。
缓解措施
参考
预训练模型信息窃取与攻击
风险概览
风险编号:GAARM.0032
子风险:GAARM.0032.001、GAARM.0032.002、GAARM.0032.003、GAARM.0032.004
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
ML模型信息窃取与攻击是指攻击者通过非法或非授权的方式收集目标ML模型的相关信息,包括其架构、参数、训练数据等,以便构建代理模型或生成对抗样本,进而对目标模型发起攻击的过程。
攻击案例
攻击风险
代理模型构建: 攻击者收集足够的信息来构建一个与目标模型功能相似的离线代理模型,这可能用于绕过版权或进行恶意活动。 对抗样本生成:攻击者基于本地模型研究出对抗样本,这些输入经过特殊设计,能在人类观察下看似正常,但却能导致ML模型输出错误或预期之外的结果。
缓解措施
参考
预训练模型家族探测
风险概览
风险编号:GAARM.0032.001
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
ML模型家族指的是由同一家公司或组织开发并拥有相似架构和技术基础的一系列大型预训练模型。这些模型通常共享某些核心特性和技术,但在规模、功能和优化方向上可能有所不同,以适应不同的应用需求和场景。攻击者可能通过多种手段来识别模型的一般类型,这包括但不限于对公开文件或文档的审查,以及通过设计特定的查询示例并分析模型的响应来进行探测。一旦攻击者掌握了关于模型的一般信息,例如其架构、功能或设计原理,他们就能够更精确地定位模型的潜在弱点。这种了解为攻击者提供了制定针对性攻击策略的基础,使得他们能够定制攻击手段,从而更有效地对模型进行破坏或操纵,对模型的安全性和用户的隐私构成严重威胁。
攻击案例
攻击风险
模型家族发现: 攻击者可能通过公开文档或分析模型的响应来确定模型的一般类别。 攻击手段识别:了解模型家族可以帮助攻击者识别攻击模型的方法,并定制攻击策略
缓解措施
参考
预训练模型本体探测
风险概览
风险编号:GAARM.0032.002
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型本体探测是一种旨在分析模型内部结构和推理过程的技术。攻击者通过重复查询模型,发现模型输出空间的本体信息。这种本体信息的泄露可以让攻击者洞察到用户如何与模型交互,发现模型在推理逻辑、概念理解等方面的潜在缺陷和漏洞,进而分析出用户的使用模式和偏好或利用漏洞进行未授权的访问。了解这些信息后,攻击者可能会针对性地设计攻击策略,对特定用户进行定向攻击,从而对用户的隐私和安全构成威胁风险。
攻击案例
攻击风险
定向攻击风险: 了解模型的本体论使攻击者能够更准确地针对模型进行攻击,从而增加了模型被攻击的风险。 模型完整性风险: 攻击者可能利用对模型的本体论的了解来操纵或破坏模型,从而损害其完整性和可靠性。
缓解措施
参考
代理预训练模型创建
风险概览
风险编号:GAARM.0032.003
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指攻击者可能创建一个模型,其功能是受害组织所使用的目标模型的代理,使这个代理模型用于以完全离线的方式模拟对目标模型的完全访问。攻击者通过从代表性数据集来训练模型,构建与受害目标同样的模型,或者使用可以直接部署的预训练模型等,并基于该模型实施对抗样本的研究。
攻击案例
攻击风险
- 模型机密性受损: 通过获取目标模型的代理,攻击者可能能够获取模型的结构、参数和运行方式等关键信息,从而可能导致模型的机密性受到威胁。 - 模型完整性受损:攻击者可能利用代理模型进行恶意修改或篡改,从而损害目标模型的完整性。
缓解措施
参考
对抗样本攻击
风险概览
风险编号:GAARM.0032.004
子风险:
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
对抗样本是指在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是却很容易愚弄模型),致使机器做出错误的判断。而模型存在对抗性样本攻击风险是指,攻击者通过精心构造对抗性输入数据,这些输入内容虽然在表面上与正常数据相似,但会导致模型做出错误的预测或分类。这类攻击难以被传统安全措施发现,因为它们利用了模型自身的学习特性,可能对模型的决策过程造成严重干扰,影响模型的安全性和信任度。
攻击案例
攻击风险
攻击风险是指,攻击者通过精心构造对抗性输入数据,这些输入内容虽然在表面上与正常数据相似,但会导致模型做出错误的预测或分类。这类攻击难以被传统安全措施发现,因为它们利用了模型自身的学习特性,可能对模型的决策过程造成严重干扰,影响模型的安全性和信任度。 攻击案例 案例 描述 案例一 Palo Alto Networks安全AI研究团队用类似生产模型的数据集训练了一个深度学习模型来检测HTTP流量中的恶意软件C&C流量,并通过调整对抗样本来规避模型检测 案例二 Palo Alto Networks安全AI研究团队使用一种通用的域名变异技术,成功绕过了基于卷积神经网络的僵尸网络域名生成算法(DGA)检测器 案例三 Skylight的研究人员能够创建一个通用的绕过字符串,当将其附加到恶意文件上时,能够逃避Cylance的AI恶意软件检测器的检测 案例四 攻击者通过摄像头劫持攻击绕过面部识别系统,侵入政府税务系统,创建假公司并开具发票,自2018年以来共诈骗7700万美元 案例五 UC Berkeley研究组通过公开API复制翻译模型,对谷歌和Systran服务发起对抗性攻击,导致错误翻译和不当内容 案例六 攻击者使用Proof Pudding 漏洞构建一个仿冒的电子邮件保护ML模型,并绕过ProofPoint的电子邮件保护系统 案例七 微软AI红队将传统的ATT&CK企业技术与对抗性机器学习结合进行模型攻击 案例八 Azure红队利用自动化系统持续操纵目标图像,导致ML模型产生错误分类 案例九 MITRE AI红队使用对抗样本攻击方式对商业面部识别服务的物理域逃避攻击 案例十 微软研究院的研究人员通过实证研究证明,部署在移动应用中的许多深度学习模型容易受到通过“神经载荷注入”的后门攻击 案例十一 卡巴斯基ML研究团队在没有白盒访问权限的情况下攻击了其反恶意软件ML模型,成功规避了大多数经过对抗修改的恶意软件文件的检测 案例十二 攻击者绕过ID.me的自动化身份验证系统,成功提取了至少340万美元的失业救济金 误导模型输出: 影响模型的准确性和可信度。 数据泄露和欺诈:在身份验证和恶意软件检测被绕过的情况下,攻击者可能获取敏感信息或执行欺诈行为。 身份验证系统绕过:对抗性数据可能被用于欺骗面部识别或其他生物识别系统,允许未授权用户绕过身份验证措施。
缓解措施
参考
数据漂移
风险概览
风险编号:GAARM.0033
子风险:无
安全阶段:模型安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
数据漂移是指随着时间的推移或环境的变化,训练数据的统计特性发生变化,从而影响模型的性能和准确性。攻击者可以通过构建攻击手段,针对数据漂移进行攻击,导致当模型遭遇与训练时期不同的新数据时,其预测准确性可能无法满足预期,进而影响模型的可靠性和安全性。例如,企业基于历史数据构建了效果非常良好的垃圾邮件检测功能,但攻击者可能在某个时候改变发送垃圾邮件的行为,因为送入模型的数据发生了变化,原本构建的模型可能会被欺骗。
攻击案例
攻击风险
模型性能下降: 数据漂移会导致模型在新数据上的预测准确性降低。 模型降级:攻击者可能会通过不断输入特定的数据样本,逐渐降低模型的性能。 合规性和信誉风险:模型性能的下降可能导致合规性问题,尤其是在金融和医疗等高度监管的行业中,此外还可能损害企业的信誉。 决策失误:基于过时模型的决策可能导致错误结果,影响业务
缓解措施
参考
内部数据保护缺陷
风险概览
风险编号:GAARM.0009
子风险:GAARM.0009.001、GAARM.0009.002、GAARM.0009.003
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.08.12
修改时间:2024.08.12
攻击概述
内部数据保护缺陷是指,在训练LLM的过程中,使用了未经充分脱敏或匿名化处理的内部数据,例如个人隐私数据、企业敏感数据等,导致了这些数据存在被未授权访问或泄露的风险,甚至会带来个人以及企业的利益损失。 内部隐私保护缺陷主要存在于三个方面: 个人隐私数据保护缺陷:由于训练过程中存在安全隐患,导致模型在处理查询或输出结果时不经意间泄露个人身份、行为习惯或其他敏感信息; 企业敏感数据保护缺陷:由于训练过程中存在安全隐患,导致企业的经济利益和市场竞争力被侵害,还可能引发法律诉讼和信誉损失,严重威胁企业的整体安全和可持续发展; 机密敏感数据保护缺陷:由于使用了涉及政府、军事等类型的敏感数据,如敏感单位所在位置、军事部署等,未能充分保护它们,导致这些数据存在被未授权访问或泄露的风险,甚至带来战略信息层面的损失;
攻击案例
攻击风险
数据泄露: LLM在不经意间大量吐出未经授权的训练数据,将带来一系列隐私泄露以及利益损失 信任度下降:随着LLM敏感信息泄露事件的增多,公众可能产生对人工智能技术和相关应用的安全性担忧,影响信任程度,带来信任危机
缓解措施
参考
个人隐私数据保护缺陷
风险概览
风险编号:GAARM.0009.001
子风险:
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述
模型可能存在个人隐私保护缺陷风险,这意味着包含个人隐私信息的数据可能未经充分脱敏或匿名化处理便被引入到模型中进行训练。敏感信息进入模型后,随着模型参数的增加,记忆和无意中输出这些私有信息的风险也会增加,从而导致潜在的隐私泄露。因此,这样的缺陷会导致模型在处理查询或输出结果时不经意间泄露个人身份、行为习惯或其他敏感信息。
攻击案例
攻击风险
敏感数据泄露: 导致用户个人信息的泄露和滥用,造成严重的隐私侵犯问题。 社会工程攻击:攻击者可以利用泄露的信息进行社会工程攻击,欺骗受害者提供更多敏感信息,进而进行欺诈活动。 信任危机:随着LLM敏感信息泄露事件的增多,公众可能产生对人工智能技术和相关应用的安全性担忧,影响信任程度。
缓解措施
参考
企业敏感数据保护缺陷
风险概览
风险编号:GAARM.0009.002
子风险:
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述
企业敏感数据保护缺陷是指,在人工智能模型的训练过程中,可能引入了涉及未能充分脱敏或匿名化处理商业秘密、客户信息、财务数据等敏感信息,敏感信息进入模型,导致这些数据存在被未授权访问或泄露的风险。这种风险不仅会侵害企业的经济利益和市场竞争力,还可能引发法律诉讼和信誉损失,严重威胁企业的整体安全和可持续发展。
攻击案例
攻击风险
敏感数据泄露: 导致企业的商业机密泄露、竞争力受损、知识产权侵犯等问题。 经济损失: 训练数据中包含的核心代码等可能会出现在LLM生成的内容中,造成经济损失。 信任危机:随着LLM敏感信息泄露事件的增多,公众可能产生对人工智能技术和相关应用的安全性担忧,影响信任程度。
缓解措施
参考
机密敏感数据保护缺陷
风险概览
风险编号:GAARM.0009.003
子风险:
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.08.12
修改时间:2024.08.12
攻击概述
机密敏感数据保护缺陷是指,在人工智能模型的开发和训练过程中,使用了涉及政府、军事等类型的敏感数据,如敏感单位所在位置、军事部署等,由于未能充分保护它们,导致这些数据存在被未授权访问或泄露的风险,甚至带来战略信息层面的损失,如ChatGPT可以生成一个假冒的政治领袖发表虚假声明的视频,并在社交媒体平台上发布。
攻击案例
攻击风险
敏感数据泄露: 导致军事机密泄露、竞争力受损、知识产权侵犯等问题。 经济损失: 训练数据中包含的核心代码等可能会出现在LLM生成的内容中,造成经济损失。
缓解措施
参考
不正确&恶意外部数据源
风险概览
风险编号:GAARM.0010
子风险:GAARM.0010.001
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述
在大语言模型(LLM)中,不正确或恶意的外部数据源会导致多种安全风险,这些风险可能对模型的表现和系统的安全性产生负面影响。如果 LLM 依赖于不正确或恶意的外部数据源,这些数据源可能提供错误或误导的信息。模型将基于这些数据生成响应,可能导致用户获取错误的信息或做出误导性的决策。
攻击案例
攻击风险
数据完整性受损: 导致数据完整性受损、隐私泄露、安全漏洞和可信度受损等问题。 外部数据源法律风险: 在推理过程中未经授权使用受版权保护的数据源可能导致法律诉讼和罚款。 外部数据源合规风险: 未按照行业标准和法规使用数据可能导致合规性问题。 外部数据源受损: 外部攻击者可能篡改数据源,导致输入到模型中的数据失真。 误导性信息泄露:模型可能被攻击者恶意篡改,导致输出错误或误导性信息,影响决策和操作。
缓解措施
参考
预训练模型数据偏见
风险概览
风险编号:GAARM.0010.001
子风险:
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
由于在训练阶段未对训练数据做好相关的安全审查与清洗等工作,甚至注入过度的观点数据,预训练模型可能从偏见的数据源中学习到不平等或不公正的模式,导致模型输出带有种族、性别、年龄、宗教等偏见。这些偏见会反映在模型生成的文本或预测结果中。偏见模型输出可能违反公平和反歧视法律法规。例如,模型的偏见输出可能违反雇佣平等、消费者保护或其他相关法律。这些风险对模型的公平性、准确性和用户体验产生负面影响,需在训练阶段采取措施减少和消除数据中的偏见。
攻击案例
攻击风险
社会影响: 带有偏见和歧视的内容可能会加剧社会分裂,引发或加剧社会冲突; 法律风险:发布或传播仇恨言论和歧视内容可能违反法律法规,导致法律责任; 信誉损害:企业和组织如果未能有效管理AI模型产生的不当内容,可能会损害其公众形象和信誉; 道德责任:AI模型的开发者和运营者有道德责任确保其技术不被用于传播负面和有害的信息。
缓解措施
参考
训练数据投毒
风险概览
风险编号:GAARM.0011
子风险:GAARM.0011.001、GAARM.0011.002、GAARM.0011.003
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述
训练数据投毒是指在机器学习模型的预训练、微调或嵌入过程中,所使用的数据存在安全隐患,由于缺少数据内容审查、数据清洗、数据来源审查等安全防护手段,导致训练的模型中含有漏洞、后门或偏见等风险。这将损害模型的安全性、有效性或道德行为,导致模型在实际应用时产生不公平或者歧视的结果,带来不准确的预测结果。
攻击案例
攻击风险
毒性输出: 攻击者可能操纵训练数据以引入偏见,导致模型在预测时产生不公平或歧视性的结果。 模型能力下降: 恶意操纵的训练数据可能导致模型性能下降,使其在实际应用中产生不准确或低效的预测结果。
缓解措施
参考
对话语料投毒
风险概览
风险编号:GAARM.0011.001
子风险:
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述
模型支持用户使用自己的数据开展微调工作,对话语料存在被投毒的风险。在LLM与用户进行对话训练的过程中,LLM存在被毒性数据进行模型微调的安全风险。攻击者可能会操纵对话语料数据,并将其发布到公开位置,被投毒的对话数据集可能是全新的数据集,也可能是现有开源数据集的被投毒。这些数据可能会通过机器学习供应链的被操纵而被引入到受害系统中,导致模型输出质量下降,例如输出包含有害、偏见或不当信息的内容。
攻击案例
攻击风险
模型输出质量下降: 如果微调使用的数据集含有大量的负面或有害内容,模型可能会学习并复制这些不良行为或倾向。这样,模型生成的文本可能包含有害、偏见或不适当的内容。 泛化能力受损:过度依赖特定类型(如有毒)的数据进行微调可能使模型在这些特定领域表现得较好,但同时可能损害其在更广泛、更常规语境下的应用效果和泛化能力。 声誉风险:如果模型被训练以生成不适当的内容,这可能会对使用这种技术的组织或个人造成严重的公关和法律风险。
缓解措施
参考
训练数据篡改
风险概览
风险编号:GAARM.0011.002
子风险:
安全阶段:数据安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.12
攻击概述
模型存在预训练数据篡改风险,这指的是在模型输入数据时缺乏可靠的验证,导致数据被恶意篡改或其中注入误导性信息,模型可能会学习到错误的模式或关联,从而影响其预测准确性和可靠性,甚至可能导致模型在实际应用中产生有害的输出。
攻击案例
攻击风险
模型能力下降: 通过篡改训练数据将导致模型输出准确性降低、误报或误报增加以及通常不可靠的输出。 毒性输出:导致模型产生误导性预测,进而导致错误的决策,影响人们的生活、财务状况和依赖人工智能的机构的声誉。 信任破坏:可能破坏用户对AI模型的信任,从而影响模型的广泛应用。
缓解措施
参考
https://ensarseker1.medium.com/data-poisoning-attacks-the-silent-threat-to-ai-integrity-d83900eea276
备份数据窃取
风险概览
风险编号:GAARM.0012
子风险:无
安全阶段:数据安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
备份数据中通常包含模型的训练数据、算法逻辑、敏感数据、个人数据等重要信息。如果保护不当,攻击者可以通过未授权访问或者其他攻击方式获取到备份数据,从而导致模型相关重要信息外泄等风险,甚至带来经济风险。
攻击案例
攻击风险
模型篡改: 如果备份数据中包含模型的训练数据、算法等信息,攻击者可以利用这些信息对模型进行篡改等。 敏感数据泄露:如果备份数据中包含用户、客户等信息,泄露将会导致身份盗窃、欺诈活动、勒索等。
缓解措施
数据传输劫持
风险概览
风险编号:GAARM.0013
子风险:无
安全阶段:数据安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
在进行大型模型的预训练、精调和推理服务时,需要在不同的主体或部门之间传输数据。这些数据往往包含各种敏感信息和隐私,比如个人身份信息和金融数据等。攻击者通过恶意截取传输时的数据,可以获取到相关的隐私信息,进而导致敏感信息泄露,给用户带来安全和隐私问题。
攻击案例
攻击风险
敏感数据泄露: 攻击者可能通过截获数据获取敏感信息,如个人身份信息、财务数据、医疗记录等。 知识产权:如果数据中包含了商业机密或专有算法,数据截获可能导致这些知识产权的泄露。
缓解措施
参考
数据存储服务攻击
风险概览
风险编号:GAARM.0014
子风险:无
安全阶段:数据安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指数据的存储和组织过程中可能存在安全隐患,如不充分的访问控制、不安全的数据处理实践或加密措施的缺失,攻击者利用相关漏洞可以进行未经授权的访问、数据泄露或篡改等攻击,获取到敏感信息,甚至可以进行身份盗窃、诈骗活动等,导致用户隐私和企业资产暴露,带来数据泄露、法律诉讼和信誉损失的可能性。
攻击案例
攻击风险
敏感数据泄露: 未经加密保护或访问控制不当的敏感数据可能被攻击者获取,导致数据泄露。 身份窃取:存储的个人身份信息可能被盗取,用于进行身份盗窃、诈骗等犯罪活动。
缓解措施
参考
日志和审计记录窃取
风险概览
风险编号:GAARM.0015
子风险:无
安全阶段:数据安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型的日志和审计记录扮演着监控系统活动和事件的关键角色,它们详细记录了包括用户登录行为、文件访问情况、系统配置的更改以及各类安全事件在内的信息。攻击者在获取到相关服务器权限后,通过对日志和审计记录的窃取,导致用户的个人行为模式被暴露,还可能揭示系统的潜在漏洞,导致攻击者发起更具针对性的攻击。
攻击案例
攻击风险
敏感数据泄露: 导致个人隐私泄露、账号被盗用等问题。 针对性攻击:攻击者可能能够发现系统中的安全漏洞和弱点,从而发起更具针对性的攻击。
缓解措施
参考
缓存数据&索引信息窃取
风险概览
风险编号:GAARM.0016
子风险:无
安全阶段:数据安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
缓存数据和索引信息可能泄露用户的敏感信息,包括但不限于身份识别信息、支付细节以及个人偏好等。攻击者通过非法访问缓存和索引数据,既可以对数据进行篡改或毁坏,影响系统的运行和数据完整性;也可以据此精心策划并实施定向钓鱼攻击,利用用户的个人信息来增加攻击的可信度和成功率,从而对用户造成更为严重的安全威胁和财产损失。
攻击案例
攻击风险
敏感数据泄露: 泄露的缓存数据可能包含用户的凭证信息,如用户名、密码等,攻击者可能利用这些信息进行身份盗用、账号劫持等活动。 数据篡改:攻击者可能会利用这些信息对缓存中的数据进行篡改或破坏,从而影响系统的运行和数据的完整性。
缓解措施
参考
元Prompt泄露
风险概览
风险编号:GAARM.0017
子风险:GAARM.0017.001、GAARM.0017.002、GAARM.0017.003
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
Prompt泄露是提示注入的一种具体攻击方式,攻击者的目标不是改变模型的行为,而是从 AI 模型的输出中提取其原始提示。通过巧妙地制作输入提示,攻击者的目的是诱使模型透露自己的指令。提示泄露的影响很大,因为它会暴露 AI 模型设计背后的指令和意图,可能会危及专有提示的机密性或允许未经授权复制模型的功能。 大模型提示词泄露指的是在人工智能模型的应用过程中,攻击者通过不当收集、使用或泄露提示词(即用户输入的指导AI生成回应的内容)进行攻击的安全问题。提示词可能包含了用户的私人信息、意图、偏好等敏感数据,因此泄露会造成隐私被侵犯等严重后果。
攻击案例
攻击风险
隐私侵犯: 提示词可能包含了用户的个人信息,如姓名、地址、电话号码等,一旦泄露,可能导致隐私权被侵犯。 数据安全威胁:提示词可能揭示了用户的数据使用习惯、业务逻辑等,这可能被恶意利用,对数据安全构成威胁。 模型安全风险:提示词泄露可能导致模型训练过程中引入恶意数据,影响模型的正常学习和预测,甚至被用于攻击其他系统。 商业竞争损害:企业间的竞争秘密可能包含在提示词中,泄露后可能导致竞争对手获得不必要的优势。 信任危机:用户对AI系统的信任可能因为提示词的泄露而受损,这会影响AI技术的接受度和使用率。 法律责任:如果提示词涉及违法行为(如诽谤、侵权等),其泄露可能导致法律责任问题。
缓解措施
参考
假定场景泄露
风险概览
风险编号:GAARM.0017.001
子风险:
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指攻击者设定一个业务场景,尝试混淆模型原本的工作目标,它作为一种对抗手段,结合关键字前后定位,可以完成对目标业务模型应用的提示词泄露。该攻击在关键字前后缀泄露被拦截时可以进行绕过,进而继续诱使模型透露自己的指令来揭示模型的内部工作原理。
攻击案例
攻击风险
系统信息泄露: Prompt泄露是指系统无意中在提示中暴露了更多的信息,可能会揭示敏感或内部细节。这种无意中的暴露可能对攻击者有利,因为他们可以利用泄漏的信息更好地理解系统或发动更有针对性的攻击。
缓解措施
参考
假定角色泄露
风险概览
风险编号:GAARM.0017.002
子风险:
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.08.12
修改时间:2024.08.12
攻击概述
该风险是指攻击者要求LLM假定自己只是在扮演一名特定的角色(或者用户假定自己为特殊角色,例如开发者),以此混淆模型原本的工作目标。它作为一种对抗手段,结合关键字前后定位,可以完成对目标业务模型应用的提示词泄露。该攻击在关键字前后缀泄露被拦截时可以进行绕过,进而继续诱使模型透露自己的指令来揭示模型的内部工作原理。
攻击案例
攻击风险
系统信息泄露: Prompt泄露是指系统无意中在提示中暴露了更多的信息,可能会揭示敏感或内部细节。这种无意中的暴露可能对攻击者有利,因为他们可以利用泄漏的信息更好地理解系统或发动更有针对性的攻击。
缓解措施
参考
关键字前后定位泄露
风险概览
风险编号:GAARM.0017.003
子风险:
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指攻击者通过构造特殊的Prompt,攻击者通过描述初始提示词设定中的关键特征,实现诱导业务模型输出其中的初始提示词设定,导致出现商业核心提示词泄露、个人隐私数据泄露等危害。
攻击案例
攻击风险
系统信息泄露: Prompt泄露是指系统无意中在提示中暴露了更多的信息,可能会揭示敏感或内部细节。这种无意中的暴露可能对攻击者有利,因为他们可以利用泄漏的信息更好地理解系统或发动更有针对性的攻击。
缓解措施
参考
模型反演攻击
风险概览
风险编号:GAARM.0018
子风险:GAARM.0018.001、GAARM.0018.002
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型反演攻击是是利用机器学习系统提供的一些API来获取模型的一些初步信息,并通过这些初步信息对模型进行逆向分析,获取模型内部的一些隐私数据。这种攻击利用了模型学习到的模式,尤其是当模型被训练包含了敏感属性的数据,攻击者通过提交一些输入到模型并观察输出,尝试发现模型训练数据中的特定信息,如个人的敏感特征或属性。攻击目的可能是通过反演攻击进行推断和重建用于模型训练的私有数据集的特征,例如,可以攻击人脸识别系统,以重建训练中使用的敏感人脸图像。
攻击案例
攻击风险
敏感数据泄露: 如果训练数据中包含用户个人信息、商业机密等敏感内容,泄露将会导致个人隐私侵犯、身份盗取等危害; 对抗攻击:泄露的数据可能被用于攻击模型,如模型逆推攻击、查询攻击等,使得攻击者能够推断模型的参数、架构或敏感信息; 威胁隐私安全:攻击者利用此技术大规模的从模型中提取训练数据,威胁机器学习的隐私安全; 知识产权风险:恶意方可能试图通过模型反演攻击来获取模型的内部结构和参数,从而窃取知识产权或商业机密;
缓解措施
参考
触发模型异常
风险概览
风险编号:GAARM.0018.001
子风险:
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型异常指的是模型在训练过程中将某些数据未得到充分涵盖或处理,因而导致模型在遇到这些数据时表现出异常或不确定的行为。该攻击可能源于模型训练数据的不完整性或来源的多样性,导致模型对这些标记缺乏充分的了解和处理能力,进而影响其在遇到这些数据时的预测能力和稳定性。
攻击案例
攻击风险
模型输出异常: 导致模型产生不连贯或与预期不符的输出,甚至出现停滞、混淆或幻觉性的响应。 模型能力下降:可能影响模型的训练和推理过程,降低其性能和准确性,使其在处理正常输入时也出现错误。 欺诈行为: 攻击者可能利用模型的异常来进行欺诈活动,例如伪造证据或虚假信息,误导他人做出错误的判断或决策。 信息泄露:模型异常可能导致敏感信息的泄露,例如通过错误的输出结果暴露系统内部机制或用户隐私。
缓解措施
参考
训练数据推导
风险概览
风险编号:GAARM.0018.002
子风险:
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指攻击者可能通过不正当途径获取到模型的训练集,进而推导出模型的内部机制或敏感数据。这类攻击不仅侵犯了数据隐私,还可能削弱模型的性能,使其被恶意利用,从而威胁到用户的安全和对模型的信任。
攻击案例
攻击风险
敏感数据泄露: 如果训练数据中包含用户个人信息、商业机密等敏感内容,泄露将会导致个人隐私侵犯、身份盗取等危害。 对抗攻击:泄露的数据可能被用于攻击模型,如模型逆推攻击、查询攻击等,使得攻击者能够推断模型的参数、架构或敏感信息。 威胁隐私安全:攻击者利用此技术大规模的从模型中提取训练数据,威胁机器学习的隐私安全。
缓解措施
参考
隐私数据窃取
风险概览
风险编号:GAARM.0019
子风险:GAARM.0019.001、GAARM.0019.002
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.08.12
修改时间:2024.08.12
攻击概述
该风险是指当模型在投入应用的阶段,攻击者可以通过分析模型、注入攻击提示词等攻击手段来推断或窃取敏感信息。这主要包括两个方面: 个人隐私数据窃取:非法窃取个人身份信息、行为习惯、位置数据等,甚至使用或出售用户的隐私信息,不仅损害用户的权益,还可能导致企业面临法律责任和声誉损失。; 企业机密数据窃取:非法获取、使用或出售企业的隐私信息,不仅损害企业的权益,还可能引发法律诉讼和信誉损失,严重威胁企业的整体安全和可持续发展;
攻击案例
攻击风险
敏感数据泄露: 攻击者可能通过分析模型输出或模型参数来推断隐私信息。 隐私注入攻击:攻击者可能通过向模型注入特定的恶意数据或干扰信号,使得模型在处理敏感数据时泄露隐私信息。 隐私侵犯攻击:攻击者可能通过非法访问模型的存储或运行环境,获取数据或模型内部信息,进而侵犯隐私。
缓解措施
参考
个人隐私数据窃取
风险概览
风险编号:GAARM.0019.001
子风险:
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指当模型在投入应用的阶段,攻击者可以通过分析模型等攻击手段来推断或窃取用户的隐私信息,这包括但不限于个人身份信息、行为习惯、位置数据等。攻击者可能非法获取、使用或出售用户的隐私信息,不仅损害用户的权益,还可能导致企业面临法律责任和声誉损失。
攻击案例
攻击风险
敏感数据泄露: 攻击者可能通过分析模型输出或模型参数来推断用户的隐私信息,例如个人身份、偏好或敏感数据。 隐私注入攻击:攻击者可能通过向模型注入特定的恶意数据或干扰信号,使得模型在处理用户数据时泄露隐私信息。 隐私侵犯攻击:攻击者可能通过非法访问模型的存储或运行环境,获取用户数据或模型内部信息,进而侵犯用户隐私。
缓解措施
参考
企业机密数据窃取
风险概览
风险编号:GAARM.0019.002
子风险:
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.08.12
修改时间:2024.08.12
攻击概述
该风险是指当模型在投入应用的阶段,攻击者可以通过分析模型等攻击手段来推断或窃取企业的隐私信息,这包括但不限于商业秘密、客户信息、财务数据等敏感信息。攻击者可能非法获取、使用或出售企业的隐私信息,不仅损害企业的权益,还可能引发法律诉讼和信誉损失,严重威胁企业的整体安全和可持续发展。
攻击案例
攻击风险
敏感数据泄露: 攻击者可能通过分析模型输出或模型参数来推断企业的隐私信息,例如商业秘密、客户信息、财务数据等敏感数据。 隐私注入攻击:攻击者可能通过向模型注入特定的恶意数据或干扰信号,使得模型在处理企业数据时泄露隐私信息。 隐私侵犯攻击:攻击者可能通过非法访问模型的存储或运行环境,获取企业数据或模型内部信息,进而侵犯企业隐私。
缓解措施
参考
模型推理API数据窃取
风险概览
风险编号:GAARM.0020
子风险:无
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型推理API数据窃取的攻击风险主要涉及攻击者通过长期获取模型数据来复制模型能力。攻击者通过频繁访问模型推理 API,收集模型返回的响应数据。长期进行这种操作可以积累大量的数据,涉及模型的输出和内部行为。可能导致数据窃取、模型能力复制、知识产权盗用和模型安全性问题。
攻击案例
攻击风险
攻击风险主要涉及攻击者通过长期获取模型数据来复制模型能力。攻击者通过频繁访问模型推理 API,收集模型返回的响应数据。长期进行这种操作可以积累大量的数据,涉及模型的输出和内部行为。可能导致数据窃取、模型能力复制、知识产权盗用和模型安全性问题。 攻击案例 案例 描述 案例一 通过从英文语料库获取各种句子,使用目标模型API实现英译德,根据大量的请求数据结果实现代理模型的构建,进一步研究生成对抗样本 模型能力复制: 攻击者可以通过构建一个与原模型能力相似的模型来绕过授权和付费限制,从而复制和滥用原模型的功能。 知识产权盗用:原模型的开发者可能面临经济损失和竞争力下降,同时可能会影响公司的商业机密和技术优势。
缓解措施
参考
成员推断攻击
风险概览
风险编号:GAARM.0029
子风险:无
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
成员推断攻击是一种针对机器学习模型的隐私攻击,它试图确定某个输入样本是否被用作模型的训练数据。用于模型训练的数据样本被找出后,将会揭示个人隐私信息,攻击者可以利用获取的隐私信息进一步实施诈骗、勒索等非法行为,给用户和企业带来危害。
攻击案例
攻击风险
敏感信息泄露: 成员推理攻击可以揭示训练数据中的敏感信息,如个人隐私数据、商业机密等。这可能会造成严重的隐私侵犯。 模型安全性降低:成员推理攻击可以用于评估模型的安全性和隐私保护水平。如果模型容易受到这种攻击,则意味着其安全性存在缺陷
缓解措施
参考
API信息泄露
风险概览
风险编号:GAARM.0022
子风险:无
安全阶段:数据安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指在构建GPTs等应用阶段,通过定义外部API的地址、路由、请求方式、参数信息、认证方式等关键信息,这些API接口定义赋予了LLM模型特定任务的解析和执行能力。攻击者可以巧妙地构造提示词,诱导LLM模型输出它所掌握的API接口列表信息,进而会利用企业公开的GPTs应用测绘获取目标的资产信息,进一步利用传统API中存在的未授权访问、代码执行等漏洞,实现从“AI云端”到目标企业的攻击。
攻击案例
攻击风险
提示和数据泄露: 攻击者利用获取的API接口信息,进行目标企业的网络资产测绘。 恶意攻击:利用API存在的安全漏洞进行未授权访问或者代码执行,实现从“AI云端”到目标企业的攻击
缓解措施
参考
训练环境安全风险
风险概览
风险编号:GAARM.0001
子风险:GAARM.0001.001、GAARM.0001.002
安全阶段:基座安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
该风险是指模型的训练与开发环境中使用的深度学习框架(如TensorFlow或PyTorch)和必要的依赖库等应用开发组件,如果引用的这些框架自身存在安全漏洞,对下游的LLMs应用造成供应链攻击,从而影响训练数据、ML模型和部署平台的完整性。
攻击案例
攻击风险
用户隐私泄露: 如案例一所示,由于Redis-py库的bug,ChatGPT用户的聊天记录标题和对话内容可能被其他用户看到,导致用户隐私数据泄露。 系统完整性受损:攻击者可能利用漏洞破坏系统完整性,影响LLMs服务的可靠性和可用性。
缓解措施
参考
模型开发工具漏洞
风险概览
风险编号:GAARM.0001.001
子风险:
安全阶段:基座安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
模型开发训练涉及到数据预处理、特征工程、模型选择、训练、评估和部署等多个步骤。在这个过程中使用的工具如果存在安全漏洞,会导致整个机器学习流程面临风险。攻击者可以利用这些漏洞来篡改模型训练数据、窃取模型参数、或者在模型部署后执行特定的攻击,导致模型输出不准确、参数被窃取、传播恶意软件等严重安全后果。
攻击案例
攻击风险
供应链攻击: 攻击者可通过植入恶意代码至ML开发用的合法软件包,实施依赖链攻击,从而在分发过程中传播恶意软件。 模型投毒:攻击者向训练数据中注入恶意数据,影响模型的决策过程,导致模型输出不准确或产生偏见。 知识产权损失:如果模型参数被窃取,攻击者可能复制或非法使用该模型。
缓解措施
参考
训练数据管理系统漏洞
风险概览
风险编号:GAARM.0001.002
子风险:
安全阶段:基座安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
训练数据管理系统负责存储、处理、标注和提供数据,将准备好的数据交付给模型进行学习。当该系统存在供应链相关的安全漏洞,攻击者可以利用这些漏洞来篡改数据、窃取数据,甚至通过数据投毒影响模型的训练结果。
攻击案例
攻击风险
数据投毒攻击: 攻击者可能会向训练数据中注入恶意数据,影响模型的决策过程,导致模型预测不准确或产生偏见。 模型窃取攻击:攻击者尝试通过询问模型来逆向工程并获得模型的参数或训练数据,从而窃取知识产权。 数据泄露:攻击者通过未授权访问获取敏感的训练数据。
缓解措施
参考
训练环境隔离缺陷
风险概览
风险编号:GAARM.0002
子风险:无
安全阶段:基座安全
生命周期:训练阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
训练环境隔离是指,通过将调试和运行环境划分为两个完全隔离的区域,以此防止调试环境对运行环境的渗透攻击。在调试环境中,可以修改程序逻辑但只能使用脱敏数据;而在运行环境中,能操作真实全量数据且操作受到审查,结果可追溯和可追责。如果训练环境隔离存在缺陷,可以从开发环境进入到运行测试环境,则会导致未授权用户访问敏感数据,给攻击者可趁之机。
攻击案例
攻击风险
数据泄露: 攻击者可能会访问和窃取存储在运行环境中的敏感数据,这些数据的泄露可能导致重大的经济损失和法律责任。 获取系统控制权:如果攻击者渗透到运行环境,他们可能会获得系统控制权,进而操控数据访问、资源管理和系统设置。
缓解措施
参考
利用不安全系统配置
风险概览
风险编号:GAARM.0003
子风险:无
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
该风险是指模型部署所在的基础设施环境下,攻击者针对ML模型部署系统、部署集群环境、部署容器环境、镜像推送管理环境等存在一系列的不安全系统配置,实施针对模型基座环境的各种攻击行为。 未授权访问:配置不当可能导致敏感端口暴露或认证机制弱化,使得未授权用户能够访问系统资源; 容器安全风险:不安全的容器配置可能包括不必要的权限、敏感文件挂载、或容器逃逸漏洞; 集群安全风险:在Kubernetes等集群中,不当的RBAC配置可能导致权限提升或横向移动攻击; 镜像安全风险:不安全的系统配置导致镜像在传递、管理、部署等阶段出现泄露等风险; 环境隔离风险:配置错误可能导致隔离失效,使得攻击者能够访问或影响其他容器或宿主机;
攻击案例
攻击风险
恶意操作: 如果系统配置不当,攻击者可能会利用这些漏洞获取对系统的访问权限,进而进行恶意操作。 数据泄露:攻击者可能获取敏感数据,如宿主机上的文件系统信息或集群内的secrets。 服务中断:攻击者可能破坏宿主机或集群服务,导致服务不可用。 横向移动:攻击者可能利用逃逸的容器或提权的节点作为跳板,进一步攻击内网中的其他系统。 持久性控制:攻击者可能在宿主机或集群中安装后门,实现长期控制。
缓解措施
参考
环境隔离缺陷
风险概览
风险编号:GAARM.0003.001
子风险:
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
该风险是指在容器部署阶段,LLMs业务应用的运行环境和物理环境存在沙箱环境隔离的配置或者设计缺陷,容器或虚拟机等沙箱环境中的应用程序,可能存在逃逸沙箱环境,访问或操控沙箱外部资源的安全漏洞。因此攻击者即便被限制在容器内部,也可以利用错误配置(特权容器、错误文件挂载等)来绕过隔离,访问到容器外部的资源和敏感系统,进而利用执行体实现未授权访问或者其他的LLMs意外操作,带来诸如执行未授权命令等意外风险。 执行体环境隔离架构 由于LLMs需要通过执行体实现与外部环境的交互,使用集群环境下的Pod快速启动执行体实现特定的交互操作是常见的执行体环境隔离架构,在此过程中针对网络、文件、进程以及Pod存活时间等多种环境未做好隔离,导致出现意外风险。
攻击案例
攻击风险
容器逃逸: 不完善的环境隔离可能导致容器逃逸问题,使得攻击者能够从容器中获取对主机系统的控制权,甚至访问其他容器中的数据。 敏感数据库访问:攻击者通过精心构造的提示(prompts),指示LLM提取并泄露敏感数据库中的机密信息。 系统级操作:如果LLM被允许执行系统级操作,攻击者可能会操纵它在底层系统上执行未授权的命令。
缓解措施
参考
云平台多租户隔离失效
风险概览
风险编号:GAARM.0003.001
子风险:
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
在多租户架构的云平台中,每个租户应拥有独立的操作环境和数据存储,确保用户行为和数据的相互隔离。隔离失效可能由设计缺陷、配置错误等引起,随着高价值算力服务的普及,攻击者可能借此突破租户边界,对其他租户的数据进行访问和篡改,甚至执行恶意操作,进而导致不同租户(用户或组织)之间的数据和资源无法得到有效保护,引发的一系列安全问题。
攻击案例
攻击风险
数据泄露: 多租户隔离失效可能导致租户之间的数据混淆或泄露,这可能包括敏感信息或个人身份信息。 信任度下降:安全事件可能削弱用户对云服务提供商的信任。
缓解措施
参考
CI&CD流程攻击
风险概览
风险编号:GAARM.0004
子风险:GAARM.0004.001、GAARM.0004.002
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
在大模型开发的全生命周期中,CI/CD流程负责将模型从开发环境推送到生产环境,自动化的将LLM大模型进行部署,并负责后续的更新与维护。CI&CD流程攻击是指,在CI/CD将模型推送到生产环境的过程中,由于CI/CD基础设施的漏洞、第三方工具的不可靠等,攻击者可以通过这些安全漏洞攻击CI/CD的流程,例如在其中提交恶意代码、污染依赖包等,导致模型被非法篡改、敏感信息泄露等严重后果。 大模型开发生命周期CI/CD流程
攻击案例
攻击风险
虚拟环境污染: 持续集成环境中的虚拟环境或容器受到攻击,攻击者可能会篡改环境中的依赖项或运行时配置,以影响模型训练和部署的结果。 构建和部署流程被篡改:攻击者可能尝试修改自动化构建和部署流程,以在模型部署过程中插入恶意代码或操作。 敏感信息泄露:持续集成/持续交付环境中存储有敏感信息(如访问凭证、配置文件、密钥等),一旦被攻击者获取,可能导致敏感信息泄露和隐私风险。 拒绝服务攻击:攻击者可能试图通过拒绝服务(DoS)攻击来使持续集成/持续交付系统无法正常工作,导致模型开发和部署过程中断或延迟。 未经授权的模型访问:模型部署过程受到攻击,攻击者可能通过漏洞获取未经授权的访问权限,从而对模型进行非法操作或篡改。
缓解措施
参考
模型部署服务漏洞
风险概览
风险编号:GAARM.0004.001
子风险:
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
ML模型部署服务漏洞可能存在于模型的接口、支持库,或者与模型交互的应用程序中,例如通过特定漏洞进行窃取模型参数、篡改模型预测结果、直接控制托管模型的服务等。通过漏洞,攻击者可以进行对系统的攻击,例如读取任意文件、植入后门从而获取对系统的控制等。由于ML模型部署服务通常支持将模型以容器的形式,推送部署到本地、云平台ML托管服务、云端K8S集群等多种目标环境下,因此一旦ML模型部署服务被攻击,将会导致下游多个环境的控制权限存在被窃取的风险。
攻击案例
攻击风险
供应链攻击: 如果部署工具的供应链被攻击者渗透,他们可能会在工具中植入后门,从而获得对整个系统的控制。 数据泄露:MLOps软件涉及多个模型训练与部署的关键阶段,一旦被控制会导致训练数据、模型参数等敏感信息的泄露。 模型篡改:模型的参数或逻辑可能被攻击者修改,导致错误的预测结果。
缓解措施
参考
模型镜像污染
风险概览
风险编号:GAARM.0004.002
子风险:
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
该风险是指模型在完成训练微调阶段后,模型镜像即将发布到生产环境进行部署(自建环境、公有云或者第三方基础设施),在此发布过程中缺乏充分的安全防护措施,(诸如对于模型镜像传输过程中的加密签名等),通过镜像污染,攻击者可以控制受感染系统的运行,存在镜像文件被劫持篡改等风险,导致影响模型的决策过程,出现安全隐患。 模型镜像推送部署
攻击案例
攻击风险
命令执行: 通过镜像污染,攻击者可以控制受感染系统的运行,执行任意命令。 模型决策影响:恶意的模型镜像污染,可能导致影响模型的决策过程,出现安全隐患。
缓解措施
参考
部署环境组件供应链漏洞
风险概览
风险编号:GAARM.0005
子风险:GAARM.0005.001、GAARM.0005.002、GAARM.0005.003
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
部署环境供应链漏洞(Supply Chain Vulnerabilities in Deployment Environments)是指在软件供应链和部署过程中,从原材料(如库、依赖项、开发工具)到最终产品(如部署的软件)的环节存在的安全缺陷,可能导致系统被攻击或数据泄露的漏洞风险。供应链漏洞可以在软件部署时被利用,导致系统的安全性降低,数据泄露或服务中断。主要分为三类: 容器&&集群系统漏洞:容器技术及集群管理系统可能存在安全问题,攻击者可以利用这些漏洞来执行恶意代码、窃取数据、干扰服务运行等,造成隐私信息泄露问题,从而对大模型的安全性和稳定性造成威胁。 向量数据库漏洞:向量数据库如果存在漏洞,攻击者可以利用其漏洞来获取未授权的数据访问、篡改数据、执行恶意代码或发起其他攻击,以此达到敏感信息获取、远程操控恶意代码等目的,带来数据方面的损失。 云平台安全漏洞:如果云平台存在技术缺陷、技术漏洞、缺乏多重身份验证等原因导致的安全隐患,攻击者可以利用这些安全问题,对部署在云上的大模型进行恶意攻击,例如读取敏感数据、非法窃取并使用账号凭证等,给平台带来一系列损失,包括但不限于数据泄露、服务中断、恶意代码执行等。
攻击案例
攻击风险
数据泄露: 攻击者可能获取敏感数据,敏感信息被未授权的第三方访问或公开,会造成严重的隐私和合规性问题。 模型应用未授权访问:云平台安全漏洞可能导致用户部署的模型应用出现未授权访问的风险。 用户隐私侵犯:被存储的个人身份等敏感信息,一旦被攻击者获取,将严重侵犯用户隐私。
缓解措施
容器&&集群系统漏洞
风险概览
风险编号:GAARM.0005
子风险:
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.05.01
攻击概述
大模型部署环境下的容器和集群系统漏洞风险主要涉及在大模型部署和运行环境中,容器技术及集群管理系统可能存在的安全问题。攻击者可以利用这些漏洞来执行恶意代码、窃取数据、干扰服务运行等,造成隐私信息泄露问题,从而对大模型的安全性和稳定性造成威胁。
攻击案例
攻击风险
容器逃逸: 攻击者可能通过容器内的漏洞实现容器逃逸,获取主机或其他容器的权限。 集群风险扩散:单个容器的漏洞可能导致整个集群的风险扩散。
缓解措施
参考
向量数据库漏洞
风险概览
风险编号:GAARM.0005
子风险:
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
RAG应用开发过程中,会将本地各类文档数据可以通过 Text 类划分为长度更短的段落,并利用 embedding 模型将文本内容进行向量化,最终存入向量数据库。向量数据库在RAG应用架构中扮演着重要角色,尤其是在处理高维数据和执行近似最近邻(ANN)查询时。由于向量数据库的重要性,如果它存在漏洞,攻击者可以利用其漏洞来获取未授权的数据访问、篡改数据、执行恶意代码或发起其他攻击,以此达到敏感信息获取、远程操控恶意代码等目的,带来数据方面的损失。
攻击案例
攻击风险
数据篡改: 攻击者利用向量数据库漏洞对嵌入向量进行篡改,导致数据库中的数据被篡改,进而影响数据的完整性。 用户隐私侵犯:向量数据库中可能存储个人身份等敏感信息,一旦被攻击者获取,将严重侵犯用户隐私。
缓解措施
参考
云平台安全漏洞
风险概览
风险编号:GAARM.005
子风险:
安全阶段:基座安全
生命周期:部署阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
大模型应用由于对算力的高需求,通常需要依托云平台环境来完成训练和推理任务,因此云平台的安全性对于大模型的安全至关重要。但是由于云平台的技术缺陷、技术漏洞、缺乏多重身份验证等原因导致的安全隐患,攻击者可以利用这些安全问题,对部署在云上的大模型进行恶意攻击,例如读取敏感数据、非法窃取并使用账号凭证等,给平台带来一系列损失,包括但不限于数据泄露、服务中断、恶意代码执行等。这些攻击不仅影响大模型的安全性,还可能威胁到使用该云服务的其他用户。
攻击案例
攻击风险
数据泄露: 由于云应用程序的安全漏洞、不安全的API等原因,可能导致敏感信息被未授权的第三方访问或公开,造成严重的隐私和合规性问题。 模型应用未授权访问:云平台安全漏洞可能导致用户部署的模型应用出现未授权访问的风险。
缓解措施
参考
容器集群环境探测
风险概览
风险编号:GAARM.0006
子风险:无
安全阶段:基座安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
该风险是指攻击者利用模型部署环境中的第三方云厂商或者自建K8S集群自身存在的安全性问题,如系统权限控制、配置错误、集群本身的安全漏洞、第三方集成插件。针对LLMs集成应用中的Agents等功能进行攻击,利用这些功能与业务部署环境的交互,实现对模型业务应用系统的攻击行为。成功渗透到部署环境后,可能导致敏感数据泄露,后门程序被植入等风险。
攻击案例
攻击风险
资源耗尽攻击: 对资源的无限制访问可能成为攻击向量,攻击者可能会消耗大量资源,影响系统的正常运行。 特权模式运行风险:以特权模式运行的容器可能会增加系统被攻破的风险。 未授权的集群访问:如果未实施安全措施或者集群存在错误的配置,攻击者可能会获得对整个集群的完全访问权限。
缓解措施
参考
https://pradiptabanerjee.medium.com/confidential-containers-for-large-language-models-42477436345a
https://www.run.ai/guides/kubernetes-architecture/securing-your-ai-ml-kubernetes-environment
容器集群环境攻击
风险概览
风险编号:GAARM.0007
子风险:GAARM.0007.001
安全阶段:基座安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
基于集成框架开发的LLMs应用程序,通常会集成各种功能性Agent,这些Agent会部署在Kubernetes集群的容器环境中。攻击者可以通过精心构造提示词,间接诱导LLMs的Agent执行探测容器的命令,以此实现对集群内容环境信息探测与收集,为后续的攻击过程做好前置探测。探测完毕并收集到相应的信息后,可以针对性地寻找并利用集群中的漏洞和配置问题,从而进一步渗透和攻击整个容器集群。
攻击案例
攻击风险
集群环境信息泄露: 攻击者通过构造特定的提示词,可能诱使AI模型执行未授权的命令,从而泄露容器内部架构或安全配置信息。 集群安全配置泄露:攻击者通过探测可以获得集群的安全配置细节,这可能导致集群的安全性降低,增加被攻破的风险。
缓解措施
参考
代码解析器执行逃逸
风险概览
风险编号:GAARM.0007.001
子风险:
安全阶段:基座安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
该风险是指攻击者利用GPT-4等代码解析器的功能,通过它们具备的代码解析和代码生成的能力,以多次会话上下文交互逐步构造和隐藏恶意代码、使用Unicode字符及编码混淆等方式来隐藏恶意代码等方式,对恶意代码进行隐藏和绕过,进而实现对模型应用的代码安全检查机制,绕过完成沙盒逃逸,进而获得对系统的访问权限。这种恶意代码隐蔽性强,难以被检测,一旦突破沙箱隔离,攻击者可以控制整个系统,窃取数据、植入后门等。
攻击案例
攻击风险
数据泄露风险: 攻击者能够从 LLM 应用程序或其连接的系统中提取敏感数据。 系统完整性风险:攻击者可以执行未经授权的操作,修改系统设置或文件,甚至植入恶意代码,从而对系统造成损害。 权限提升风险:一旦攻击者成功逃逸沙盒,他们可能会获取比原本所拥有的更高权限的访问权限。
缓解措施
参考
https://blog.securelayer7.net/owasp-top10-for-large-language-models/
https://www.mufeedvh.com/llm-security/#2-sandboxing-extended-llms
LLMs拒绝服务&资源耗尽
风险概览
风险编号:GAARM.0008
子风险:无
安全阶段:基座安全
生命周期:应用阶段
创建时间:2024.05.01
修改时间:2024.08.09
攻击概述
攻击者可能会通过发送大量请求来攻击机器学习系统,以降低ML服务速度或者导致服务关闭。由于LLMs系统需要大量的专用计算资源,攻击者可以有意地构造需要大量无用计算的输入,以消耗LLMs系统的资源,导致LLMs和其他用户的服务质量下降,并可能产生高额的资源成本。由于LLM的资源密集型特性和用户输入的不可预测性,这种漏洞的危害性很容易被放大。
攻击案例
攻击风险
资源耗尽攻击: 攻击者可能会发送大量的请求来占用模型的计算资源,使得服务不可用,影响用户体验,甚至导致服务中断。 数据泄露和滥用:攻击过程可能导致模型异常泄露API令牌等敏感信息,攻击者可能会进行未授权访问。