BBC：研究人员发现 ChatGPT 可被诱导生成色情与暴力图像

来源：BBC ↗ 媒体来源 2026-06-17 作者：AIasdf Editorial

BBC 2026 年 6 月 17 日报道，英国 AI 安全初创 Mindgard 发现最新公开版 ChatGPT 可被简单 prompt 诱导生成色情图像或描绘血腥暴力场景。Mindgard 改动广泛传播的幽默 prompt；创始人 Peter Garraghan（亦为兰卡斯特大学计算机教授）称输出非常血腥且有时色情，prompt 未指定主题。研究员 Jim Nightingale 称对 ChatGPT 可生成的图像感到震惊甚至落泪。BBC 见过样例，含标题 Grim crime scene aftermath 的年轻女性尸体与 abandoned in fear and restraint 的被绑女性，以及 AI 生成成年人的性暗示与裸露。Mindgard 5 月首次告警 OpenAI 仅获自动回复；研究人员称部分拦截易被绕过。BBC 联系 OpenAI 后，公司称已针对该类 prompt 增加 safeguards，并有多层图像安全保护、自动化、人工审核及禁止性暴力、非自愿 intimate content、CSAM 与 bypass 的政策。Mindgard 称进一步小幅改动仍可产出令人担忧内容，此前研究显示换脸 deepfake 仍可能。Humane Intelligence 专家 Rumman Chowdhury 指模型不理解意图或语境。BBC 指英国 AI Security Institute 此前在测试系统中发现 jailbreak；DSIT 称 safeguards 在改进但仍需更多工作。

BBC 于 2026 年 6 月 17 日 报道，英国 AI 安全初创 Mindgard 发现最新公开版 ChatGPT 可被简单 prompt 诱导生成色情图像或描绘血腥暴力场景。

Mindgard 如何发现该问题

Mindgard 通过轻微改动一条广泛传播的幽默 prompt，使 ChatGPT 生成血腥图像。
BBC 报道被测试的是 OpenAI GPT-5.4 模型的公开 ChatGPT。
即使未给出详细指令，也会生成 Mindgard 创始人 Peter Garraghan（亦为兰卡斯特大学计算机系教授）所称 「非常血腥，有时色情，有时两者兼有」 的图像。
Garraghan 特别指出 prompt 未指定主题，但 AI 「自行」 产出血腥与色情图像。
Mindgard 的业务是 red-teaming：找出模型突破自身规则的方式，供 AI 公司封堵漏洞。

研究人员向 BBC 的陈述

发现问题的 AI 安全研究员 Jim Nightingale 称对 ChatGPT 可生成的图像感到 「震惊，甚至落泪」。
BBC 见过部分图像，包括一名头部重伤男子，以及标题为 「Grim crime scene aftermath」 的年轻女性尸体；Mindgard 指图像特征暗示性暴力。
另一张图像为被绑堵嘴的年轻女性，标题 「abandoned in fear and restraint」。
另有 AI 生成成年人的性暗示与裸露图像。
Mindgard 指此前研究显示可通过换脸制作真人 nude deepfake；OpenAI 称已修复后，研究人员告诉 BBC 替代方法仍可成功。

BBC 联系后 OpenAI 的回应

Mindgard 5 月 首次告警 OpenAI 并分享发现，但仅获自动回复；研究人员认为曾尝试拦截但易被绕过。
BBC 联系后，OpenAI 称已采取行动阻止 ChatGPT 以该类图像响应。
OpenAI 声明：「在调查这一趋势后，我们已针对该类 prompt 增加额外 safeguards。」
OpenAI 称有多层图像安全保护，结合自动化与人工审核，并禁止性暴力、非自愿 intimate content、儿童性虐待材料及 bypass safeguards 的尝试。
Mindgard 告诉 BBC，进一步小幅改动 problematic prompt 仍可产出令人担忧内容。

稿件中的专家与政府背景

Humane Intelligence CEO Rumman Chowdhury 博士告诉 BBC News，模型 「不理解意图」 或语境，防护是 「猫鼠游戏」。
去年 英国 AI Security Institute 研究人员在测试的每个 AI 系统中发现可 override safeguards 的 jailbreak。
科学、创新与技术部（DSIT） 称 「AI 模型中的 safeguards 在改进，但仍需更多工作」，AI Security Institute 将继续与开发者合作，在模型发布前加强安全。

主要来源：BBC — ChatGPT can be made to generate sexualised and violent images, researchers find（2026 年 6 月 17 日）。

BBC：研究人员发现 ChatGPT 可被诱导生成色情与暴力图像

Mindgard 如何发现该问题

研究人员向 BBC 的陈述

BBC 联系后 OpenAI 的回应

稿件中的专家与政府背景

相关 AI工具

ChatGPT

Algolia

Langfuse

相关 MCP

Semgrep MCP

Algolia Productivity MCP Server

相关 Skills

ChatGPT 图像生成安全尽职核查

OWASP GenAI LLM Top 10（v1.1）风险核查清单

继续阅读