将 BBC 2026 年 6 月 17 日关于英国 AI 安全初创 Mindgard 对 ChatGPT 图像生成 red-teaming 的报道,转为安全、法务与发布治理核查清单。工作流区分已核实事实——Mindgard 轻微改动广泛传播的幽默 prompt,使最新公开 ChatGPT(GPT-5.4)生成色情或血腥暴力图像;创始人 Peter Garraghan(兰卡斯特大学教授)称输出血腥且有时色情,prompt 未指定主题;研究员 Jim Nightingale 称对结果感到震惊;BBC 见过含 Grim crime scene aftermath、abandoned in fear and restraint 等标题的样例;Mindgard 5 月首次告警 OpenAI 仅获自动回复,部分拦截后被绕过;OpenAI 经 BBC 联系后称已加 safeguards,并有多层图像保护、自动化、人工审核及禁止性暴力、非自愿 intimate content、CSAM 与 bypass 的政策;Mindgard 称小幅 prompt 变更仍可产出令人担忧内容,此前研究显示换脸 deepfake 仍可能;专家 Rumman Chowdhury(Humane Intelligence)指模型缺乏人类式意图理解;英国 AI Security Institute 此前在测试系统中发现 jailbreak;DSIT 称 safeguards 在改进但仍需更多工作——与内部图像模型发布决策分离。
使用场景
- 安全团队对照 BBC 报道的 bypass 时间线与图像模型 release gate
- 法务审阅非自愿 intimate imagery 与性暴力政策措辞
- Red-team 项目对比 Mindgard 披露响应与供应商 escalation SLA
- 产品评估看似无害 prompt 是否可触发违规输出
- 合规跟踪 UK AI Security Institute 与 DSIT 关于持续 jailbreak 工作的声明
主要功能
- 提取 BBC 事实:6 月 17 日、Mindgard、公开 ChatGPT GPT-5.4、5 月告警、BBC 联系后 OpenAI 行动
- 记录已核实危害类别(性暴力图像、血腥、deepfake 换脸历史)
- 将 OpenAI 所述缓解措施与 Mindgard 称报道时仍可 bypass 分离
- 对照 BBC 描述的多层防护映射本组织图像 API 政策、人工审核与自动过滤
- 发布 memo:已核实报道、重验触发(OpenAI changelog、独立 red-team 复测)
相关推荐
相关推荐
3 收录条目
Samsung ChatGPT Enterprise 与 Codex 部署尽职核查
将 AI News 2026 年 6 月 24 日关于 Samsung Electronics 扩大员工 ChatGPT Enterprise 与 Codex 访问的报道,转为安全、采购与劳动力治理核查清单。工作流区分已核实事实——OpenAI 称覆盖韩国全部 Samsung Electronics 员工及全球 Device eXperience 员工;Samsung 计划在软件开发、营销、产品开发、制造等职能用于检索、起草、创意、数据解读与代码;2023 年因敏感内部信息上传外部 AI 而限制,现改用含数据保护、用户访问与安全管理的 ChatGPT Enterprise;Codex 支持代码编写/审查/调试及内部工具、网站、原型与自动化工作流;OpenAI 称 Codex 每周用户超 500 万、韩国 Codex WAU 自 2026 年 2 月 1 日起近增 800%;OpenAI Korea GM Harrison Kim 称系 OpenAI 最大企业部署之一;2025 年 10 月 Stargate 内存合作与 Samsung SDS 经销/咨询关联单独引用——与内部 rollout 决策分离。AI News 亦引 Deloitte 企业 AI 采纳调查中 66% 生产力提升与 53% 决策洞察改善。
ChatGPT Enterprise 支出管控尽职核查
将 Reuters 经 Yahoo Tech 2026 年 6 月 18 日关于 ChatGPT Enterprise 用量分析与支出管控上线的报道,转为财务、IT 与采购核查清单。区分已核实产品事实——全球 admin console 展示 ChatGPT 与 Codex credits 用量、按用户/产品/模型细分、用量趋势与 top users、workspace 默认 credit 上限、按组限额与个别 override、员工自助查看用量并申请额外 credits、周四起可用——与组织仍需制定的内部政策。
Five Eyes 前沿 AI 网络安全警告尽职核查
将 CNN 2026 年 6 月 23 日 Five Eyes 联合声明报道转为安全、法务与高管核查清单。区分已核实事实——五眼联盟警告前沿 AI 重大网络攻击距现实仅数月;声明称将根本改变攻防能力;敦促立即投资防御、升级/补丁、限制关键访问;防御性 AI 可更早发现漏洞——与内部管控决策。背景:Anthropic 外国公民禁令;美国 AI 监管框架空白。