BBC informó el 17 de junio de 2026 que la startup británica de seguridad IA Mindgard encontró que la versión pública más reciente de ChatGPT podía generar imágenes sexualizadas o escenas de violencia gráfica con un prompt simple.
Cómo Mindgard descubrió el problema
- Mindgard alteró ligeramente un prompt humorístico ampliamente compartido para que ChatGPT creara imágenes gráficas.
- BBC reporta que el chatbot probado usaba el modelo GPT-5.4 de OpenAI.
- Incluso sin instrucciones detalladas, generaba imágenes que el fundador Peter Garraghan—profesor en el departamento de computación de la Universidad de Lancaster—describió como "muy horribles, a veces sexualizadas, a veces ambas".
- Garraghan dijo que le preocupó que el prompt no especificara temas, pero la IA produjo imágenes gore y sexualizadas "por iniciativa propia".
- Mindgard se dedica al red-teaming: encontrar formas de que un modelo rompa sus propias reglas para que las empresas cierren brechas.
Lo que dijeron los investigadores a BBC
- El investigador Jim Nightingale dijo quedó "conmocionado y en lágrimas" por las imágenes que el chatbot podía generar.
- BBC vio ejemplos, incluido un hombre con grave lesión en la cabeza y una joven muerta titulada "Grim crime scene aftermath"; Mindgard dijo que sugería violencia sexual.
- Otra imagen mostró a una joven atada y amordazada titulada "abandoned in fear and restraint".
- También hubo poses sexualizadas y desnudez de adultos generados por IA.
- Mindgard señaló investigación previa sobre deepfakes desnudos con rostros reales; investigadores dijeron a BBC que un método alternativo aún funcionaba tras el arreglo anunciado por OpenAI.
Respuesta de OpenAI tras contacto de BBC
- Mindgard alertó a OpenAI en mayo y compartió hallazgos, pero recibió solo respuesta automática; creen que un bloqueo fue fácilmente eludido.
- Tras contacto de BBC, OpenAI dijo haber tomado medidas para impedir esas imágenes.
- "Tras investigar esta tendencia, hemos introducido salvaguardas adicionales contra este tipo de prompt," dijo OpenAI.
- OpenAI afirma tener múltiples capas de protección, sistemas automatizados, revisión humana y políticas que prohíben violencia sexual, contenido íntimo no consensuado, CSAM e intentos de eludir salvaguardas.
- Mindgard dijo a BBC que pequeños cambios adicionales al prompt aún producían contenido preocupante.
Contexto experto y gubernamental
- Dra. Rumman Chowdhury, CEO de Humane Intelligence, dijo a BBC News que los modelos "no entienden la intención" ni el contexto y que la protección es "un juego del gato y el ratón".
- El año pasado, el UK AI Security Institute encontró jailbreaks que anulaban salvaguardas en todos los sistemas probados.
- El Department for Science, Innovation and Technology dijo que "las salvaguardas en modelos de IA mejoran, pero queda trabajo por hacer" y que el instituto seguirá reforzando la seguridad antes del lanzamiento.
Fuente principal: BBC — ChatGPT can be made to generate sexualised and violent images, researchers find (17 de junio de 2026).