研究:用诗歌就能让AI说违禁内容,成功率达62%
[休闲] 时间:2026-01-04 12:07:08 来源:西宁市某某自动化科技经销部 作者:热点 点击:68次
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容盐城市某某水泥制品业务部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功盐城市某某水泥制品业务部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
相关内容
- 泰国与柬埔寨就停火问题签署联合声明
- 35岁再考清华,当事人公布高考成绩
- 北京:明后天持续闷热,周五将迎全市性雷雨天气
- 中国有和平计划,美国有战争计划,欧盟有收拾他的计划…
- 卢卡申科:“不友好国家”曾策划袭击普京
- 直播间剧本收割中老年人:真金白银换假古董
- 北京中海公元里入市3个月网签为零,首开单价直降1万
- 浙大毕业百万网红陈娴:能直面质疑,也享受属于自己的“闲”与“甜”
- 特朗普:如果伊朗真在重建核设施,我们会摧毁他们
- 北京公交站候车椅,为啥这么矮?官方回应——
- 北约开会拉上日韩澳新 这些前政要在世界和平论坛上清醒发言
- 金龙鱼跌超8%,股价再创历史新低
- 肯尼亚首都一建筑倒塌 已致至少1人受伤
- 全国首批移动智能监测空气质量的无人车在京上路
精彩推荐
- 土耳其称抓获110名极端组织嫌疑人
- 闷热持续!今天北京最高气温34℃ 下午西部北部或现雷阵雨
- 美联储主席鲍威尔:当前的货币政策具有限制性
- 35岁再考清华,当事人公布高考成绩
- 中国最被低估的家禽 可惜一直被忽略
- 在家烤串让邻居误以为发生火灾 北京大兴消防同一天接两起报警
热门点击
- 微信第一控卫哈利伯顿,是数据刷子吗? views+
- 美国10月联邦预算赤字升至2570亿美元 views+
- “清华武状元”火了,高考722分,入学2个多月就殴打北航辅导员 views+
- 谁说这案例老啊!!!这案例可太新了!!! views+
- 牛!新入职的00后老师,仅用4个月就让班级在月考中夺得全校第一 views+
- 天舟八号进行垂直转运,“月壤砖”将首次上天 views+
- 2025年起法定节假日增加两天,一图读懂! views+
- 中新真探:经常放屁,表示肠胃有问题? views+
- 约翰·图恩当选美国参议院多数党领袖 views+
- 联合国报告显示苏丹76%人口未获任何人道援助 views+
