研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容东方市某某医疗设备服务中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功东方市某某医疗设备服务中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
北京时间11月30日,英超第13轮的一场比赛,曼联在客场2-1逆转水晶宫,上半场约罗送点,下半场芒特的进球帮助曼联将比分反超为2-1。比赛第32分钟,约罗对马特塔犯规送点,马特塔点球罚进,曼联0-1落
...[详细]
-
此前8月份成都车展大家也看到了不少花活,但好像并没有对市场激起什么大水花,但都不要紧,因为近日工信部又公布了一批新车申报图,适逢传统的“金九银十”要来了,或许是个好机会。那事不宜迟,马上跟老司机来一睹
...[详细]
-
上周热盘榜TOP10出炉!单价1.5万/㎡起,2大纯新盘热度飙升!
相比周边项目,人气热搜楼盘往往具有更多的优势条件和升值空间...西安楼粉根据热门榜单、热搜情况等发现,整理出了上周最受关注的楼盘。从TOP10楼盘可以看到,城南作为置业热点区域,有6个楼盘入榜,莲湖、
...[详细]
-
版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车9月22日报道 就在一个半月之前,吉利银河E5参数丨图片)正式上市,价格区间为11.28-14.88万元,同时随着新车的发布,官方也带来了实惠
...[详细]
-
来源丨北美商业见闻据媒体报道,虽然英伟达季度业绩远超预期,但首席执行官黄仁勋内部的全体员工大会上遗憾地表示,“市场并未对此表示认可”。黄仁勋在周四的公司会议上表示,“市场没有意识到”该公司“令人难以置
...[详细]
-
今19)日凌晨2时7分至5时20分,在重庆江北国际机场新建第四跑道上,一架“波音空中巨无霸”B747-8型飞机用两次精彩的起降,检验了第四跑道仪表飞行程序、PBN导航数据库、导航设施信号、助航灯光系统
...[详细]
-
卖房高位套现,进入股市,赔得比房价跌得还多,房主后悔卖房了!
董哥在2022年5月卖了一套闲置房产,高位套现620万,如今房子跌到了430万左右,可是董哥却非常后悔卖房,还不如留着房子收租,每年还有7万租金。董哥卖完房,把所有资金都投入了股市,经过2年的操作,本
...[详细]
-
以色列国防军当地时间28日上午发布消息称,以军战机在“过去的两个小时内”对黎巴嫩境内的数十个目标发动了多轮空袭,袭击目标包括黎巴嫩真主党在贝卡谷地及黎南部地区的武器库和火箭弹发射器等。以军在消息中
...[详细]
-
中新经纬12月1日电 “国家邮政局”微信号1日消息,国家邮政局监测数据显示,截至2025年11月30日,我国快递年业务量首次突破1800亿件,新纪录标志着我国邮政快递业再次开启新的篇章。 据介绍
...[详细]
-
据央视新闻消息,根据白宫发布的一份声明,当地时间9月26日,美国总统拜登与乌克兰总统泽连斯基在白宫进行会面。双方就美国向乌克兰提供支持等问题进行了讨论。 在会面中,拜登表示他决定增加美国对乌克兰
...[详细]

美与俄乌分头谈“和平计划” 却缺席北约外长会
国务院安委会部署开展高层建筑重大火灾风险隐患排查整治行动