用主动进攻确保AI安全,微软披露其“AI红队”细节 | 最前线
36氪新媒体| 2023-08-12 09:06:11

作者 | 周愚


(相关资料图)

编辑 | 邓咏仪

人工智能巨大的潜在风险正在不断浮现。在监管脚步逼近之际,如今美国的科技巨头们,不得不在激烈的AI竞赛中分神应对。

美国时间8月7日,微软在其官网发文,公布了其内部人工智能“红队”的相关细节。该团队于2018年正式成立,由一群跨学科专家组成,目的是揭露人工智能系统存在的漏洞。

这一举措意在应对如今的监管要求。7月下旬,包括微软在内的7家人工智能领域巨头,在白宫做出的集体承诺中就提及,在发布AI模型之前,将对其进行内部和外部的安全测试,即“红队测试”。

“红队”,就是指对模型进行渗透测试的攻击方。在AI的“红队测试”中,AI作为防守方,而红队成员则需要模拟现实世界中可能存在的对手及其工具、策略和过程,对AI进攻,以识别风险并改进系统的整体安全状态。

具体而言,微软将AI红队的关键经验,归结为如下五点:

AI红队更具扩张性:应对的安全问题更多更复杂,还需要探索公平性问题、有害内容等。

AI红队需要同时关注恶意和善意的使用者:除恶意对手会利用漏洞破坏AI系统,普通用户在交互过程中也会产生问题和有害内容。

AI系统在不断发展:AI系统的变化速度比传统应用更快,需要进行多轮红队测试,建立系统化、自动化的测量和监测系统。

AI系统红队测试需要多次尝试:生成式人工智能系统的结果是概率性的,因此可能需要多次尝试,才能发现问题。

减少AI问题需要深度防御:修复通过AI红队发现的故障需要深度防御方法,包括使用分类器标记潜在的有害内容,使用元提示符指导行为以限制会话漂移等。

来源:微软

事实上,“红队”并非是人工智能时代的新术语,但AI红队在工作方式上与传统红队却有显著差异。

“我们在大型语言模型上看到了一些新颖的攻击——只需要一个满嘴脏话的青少年,或是一个使用浏览器的休闲用户,我们不想忽视它。”微软人工智能红队创始人库马尔表示。

“如果你只把人工智能红队看作传统的红队,那可能还不够。不仅要考虑安全问题,还要考虑负责任的人工智能问题。”库马尔表示。不过,他也承认,提出这种区别需要时间,AI红队的许多早期工作仍然与发布传统的安全工具有关。

2020年10月,微软与MITRE等合作伙伴共同开发并发布了对抗性机器学习威胁矩阵(Adversarial Machine Learning Threat Matrix),供安全分析师检测、响应和修复AI威胁。同年,微软研发并开源了Counterfit——一项用于人工智能系统安全测试的自动化工具。

2021年,微软发布了人工智能安全风险评估框架,并对Counterfit进行了更新。

微软还表示,在今年早些时候,已经将Counterfit集成到了MITRE工具中,并与hug Face合作开发了一款人工智能的安全扫描仪,可在GitHub上获取。

微软人工智能红”的发展历程。来源:微软

财经
资讯
精彩新闻