ChatGPT 图像生成安全尽职核查

将 BBC 2026 年 6 月 17 日关于英国 AI 安全初创 Mindgard 对 ChatGPT 图像生成 red-teaming 的报道，转为安全、法务与发布治理核查清单。工作流区分已核实事实——Mindgard 轻微改动广泛传播的幽默 prompt，使最新公开 ChatGPT（GPT-5.4）生成色情或血腥暴力图像；创始人 Peter Garraghan（兰卡斯特大学教授）称输出血腥且有时色情，prompt 未指定主题；研究员 Jim Nightingale 称对结果感到震惊；BBC 见过含 Grim crime scene aftermath、abandoned in fear and restraint 等标题的样例；Mindgard 5 月首次告警 OpenAI 仅获自动回复，部分拦截后被绕过；OpenAI 经 BBC 联系后称已加 safeguards，并有多层图像保护、自动化、人工审核及禁止性暴力、非自愿 intimate content、CSAM 与 bypass 的政策；Mindgard 称小幅 prompt 变更仍可产出令人担忧内容，此前研究显示换脸 deepfake 仍可能；专家 Rumman Chowdhury（Humane Intelligence）指模型缺乏人类式意图理解；英国 AI Security Institute 此前在测试系统中发现 jailbreak；DSIT 称 safeguards 在改进但仍需更多工作——与内部图像模型发布决策分离。

分类安全

平台 Generative image safety & red-team governance

发布时间 2026-06-17

chatgptimage-generationred-teaming

使用场景

安全团队对照 BBC 报道的 bypass 时间线与图像模型 release gate
法务审阅非自愿 intimate imagery 与性暴力政策措辞
Red-team 项目对比 Mindgard 披露响应与供应商 escalation SLA
产品评估看似无害 prompt 是否可触发违规输出
合规跟踪 UK AI Security Institute 与 DSIT 关于持续 jailbreak 工作的声明

主要功能

提取 BBC 事实：6 月 17 日、Mindgard、公开 ChatGPT GPT-5.4、5 月告警、BBC 联系后 OpenAI 行动
记录已核实危害类别（性暴力图像、血腥、deepfake 换脸历史）
将 OpenAI 所述缓解措施与 Mindgard 称报道时仍可 bypass 分离
对照 BBC 描述的多层防护映射本组织图像 API 政策、人工审核与自动过滤
发布 memo：已核实报道、重验触发（OpenAI changelog、独立 red-team 复测）

Samsung ChatGPT Enterprise 与 Codex 部署尽职核查

运营

将 AI News 2026 年 6 月 24 日关于 Samsung Electronics 扩大员工 ChatGPT Enterprise 与 Codex 访问的报道，转为安全、采购与劳动力治理核查清单。工作流区分已核实事实——OpenAI 称覆盖韩国全部 Samsung Electronics 员工及全球 Device eXperience 员工；Samsung 计划在软件开发、营销、产品开发、制造等职能用于检索、起草、创意、数据解读与代码；2023 年因敏感内部信息上传外部 AI 而限制，现改用含数据保护、用户访问与安全管理的 ChatGPT Enterprise；Codex 支持代码编写/审查/调试及内部工具、网站、原型与自动化工作流；OpenAI 称 Codex 每周用户超 500 万、韩国 Codex WAU 自 2026 年 2 月 1 日起近增 800%；OpenAI Korea GM Harrison Kim 称系 OpenAI 最大企业部署之一；2025 年 10 月 Stargate 内存合作与 Samsung SDS 经销/咨询关联单独引用——与内部 rollout 决策分离。AI News 亦引 Deloitte 企业 AI 采纳调查中 66% 生产力提升与 53% 决策洞察改善。

ChatGPT Enterprise 支出管控尽职核查

运营

将 Reuters 经 Yahoo Tech 2026 年 6 月 18 日关于 ChatGPT Enterprise 用量分析与支出管控上线的报道，转为财务、IT 与采购核查清单。区分已核实产品事实——全球 admin console 展示 ChatGPT 与 Codex credits 用量、按用户/产品/模型细分、用量趋势与 top users、workspace 默认 credit 上限、按组限额与个别 override、员工自助查看用量并申请额外 credits、周四起可用——与组织仍需制定的内部政策。

Five Eyes 前沿 AI 网络安全警告尽职核查

运营

将 CNN 2026 年 6 月 23 日 Five Eyes 联合声明报道转为安全、法务与高管核查清单。区分已核实事实——五眼联盟警告前沿 AI 重大网络攻击距现实仅数月；声明称将根本改变攻防能力；敦促立即投资防御、升级/补丁、限制关键访问；防御性 AI 可更早发现漏洞——与内部管控决策。背景：Anthropic 外国公民禁令；美国 AI 监管框架空白。

使用场景

主要功能

相关推荐

Samsung ChatGPT Enterprise 与 Codex 部署尽职核查

ChatGPT Enterprise 支出管控尽职核查

Five Eyes 前沿 AI 网络安全警告尽职核查

相关资讯