Meta 开源 LlamaFirewall 防护工具,助力构建安全 AI 智能体
GoodNav 5 月 9 日消息,Meta AI 推出 LlamaFirewall,旨在保障 AI 智能体在生产环境中的安全,应对其不断变化的潜在威胁。
随着大型语言模型(LLMs)广泛应用于 AI 智能体,并被赋予高权限,安全风险也随之增高。这些智能体具备读取邮件、生成代码、调用 API 等能力,一旦被恶意利用,后果严重。
传统安全措施,例如聊天机器人内容审核或模型硬编码限制,已无法应对能力强大的 AI 智能体。Meta AI 开发了 LlamaFirewall,以解决提示注入攻击、智能体行为与用户目标不一致以及不安全代码生成等核心安全挑战。
据介绍,LlamaFirewall 采用分层架构,包含三个防护模块:
-
PromptGuard 2 基于 BERT 架构,实时检测越狱行为和提示注入,支持多语言输入,86M 参数模型性能强劲,22M 轻量版本则适用于低延迟部署。
-
AlignmentCheck 是一种实验性审计工具,通过分析智能体推理过程,确保其行为符合预期。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...