研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容沧州市某某广告媒体专卖店便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功沧州市某某广告媒体专卖店实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:探索)
-
[环球网快讯]19日,俄罗斯总统普京在莫斯科举行2025年度记者会。据俄罗斯卫星通讯社报道,普京在记者会上表示,乌克兰武装部队几乎已耗尽战略储备。当地时间19日,普京在莫斯科举行2025年度记者会
...[详细]
-
香港警方今日12月1日)下午就大埔宏福苑五级火警会见传媒。警方介绍,过去两日警方已完成五栋大厦的搜索行动,剩余的两栋大厦搜索工作正在进行中。截至目前,大埔宏福苑五级火警已造成151人死亡。大湾区之
...[详细]
-
来源:参考消息 据共同社11月29日报道,原定28日至29日在中国浙江省杭州市举行的共3场日本人气动画《美少女战士》的音乐剧演出取消。其官网28日发布了上述消息,称因不可抗力而取消。 原定12
...[详细]
-
洛阳山寨版龙门石窟引关注,投资方回应:被叫停多年,获赔上亿元
原标题:洛阳山寨版龙门石窟引关注,投资方回应:被叫停多年,获赔上亿元) 大皖新闻消息,近段时间,多位网民发布视频称,河南洛阳亚龙湾游乐园内有一处山寨版的龙门石窟,
...[详细]
-
据中国海事局网站消息,三亚海事局发布航行警告,12月19日4时至14时,南海部分海域进行军事训练,禁止驶入。
...[详细]
-
来源:央视新闻客户端俄罗斯总统新闻秘书佩斯科夫资料图)俄罗斯总统新闻秘书佩斯科夫当地时间11月28日在简报中表示,美国已向俄罗斯转交了23日与乌克兰在日内瓦谈判中达成一致的计划细节,这些细节将在下周进
...[详细]
-
28日,爱达邮轮(Adora Cruises)宣布更改2026年第一季度航线计划,旗下爱达·魔都号与爱达·地中海号将聚焦韩国及东南亚热门目的地。据爱达邮轮2025年2月公布的2026年第一季度航线,2
...[详细]
-
身高1.38米女生找工作多次碰壁 当了50天话务员身陷电诈获刑3年2个月
封面新闻记者 石伟11月29日,河南平顶山康女士向记者反映了一件令人唏嘘的案件。她的外甥女小梅,家庭贫困,发育迟缓,身高只有一米三八,找工作多次碰壁。2023年,小梅在中介介绍下进入深圳某公司当话务员
...[详细]
-
厚底鞋受欢迎 医生提醒:不建议超过3.5厘米2025-12-15 15:32:24 来源:南昌晚报 作者:刘
...[详细]
-
女子注射医美针右眼失明索赔1100万,医院就给10万,女子提交鉴定申请
原标题:女子注射医美针右眼失明索赔1100万,医院就给10万,女子提交鉴定申请) 第一现场消息,爱美之心人皆有之。近年来,女生们除了日常护肤以外,也开始流行做医疗
...[详细]

封关后第一批通关零关税原辅料抵海南
哈马斯称加沙急需活动板房等冬季御寒物资