El 22 de abril de 2026, OpenAI publicó Speeding up agentic workflows with WebSockets in the Responses API, presentando transporte WebSocket para la Responses API ya existente, orientado sobre todo a flujos agénticos con muchos ida y vuelta modelo–herramienta (el texto usa como ejemplo bucles tipo Codex).

Qué explica OpenAI

Según el artículo y la guía WebSocket mode en la documentación de la plataforma:

  • WebSocket persistente — el cliente mantiene la conexión a /v1/responses y, en cada turno, envía response.create con input incremental más previous_response_id.
  • Forma de petición familiar — la versión lanzada mantiene response.create y previous_response_id; el servidor puede cachear estado del response previo en el ámbito de la conexión para no reconstruir todo el historial en cada paso.
  • Motivación — el post argumenta que, al acelerarse la inferencia, la sobrecarga acumulada del servicio API en rollouts largos se vuelve más visible; WebSockets y optimizaciones relacionadas apuntan a ese cuello de botella.

Relación con los bucles de agente

OpenAI describe un patrón acción del modelo → ejecución de tools → devolución del resultado → repetición. Con HTTP cada continuación puede repetir trabajo de estado; con WebSocket, la guía vincula previous_response_id y caché en conexión a menos coste de continuación en cadenas largas.

Quién debería evaluarlo

  • Equipos con agents muy dependientes de tools sobre la Responses API.
  • Plataformas que deben respetar una respuesta en vuelo por conexión (sin multiplexión hoy).
  • Entornos con store=false o ZDR — la guía detalla reglas y errores cuando falta estado cacheado o persistido.

Lista de comprobación (según documentación)

  • Leer Connection behavior and limits: p. ej. tope de ~60 minutos, respuestas secuenciales, sin multiplexión en un socket; más conexiones si necesitas paralelismo.
  • Implementar Reconnect and recover ante cierre o límite; manejar previous_response_not_found y otros casos descritos.
  • Tratar errores documentados como websocket_connection_limit_reached sin asumir reintentos silenciosos.

Preguntas frecuentes

¿Qué es el modo WebSocket para la Responses API?

Un transporte opcional a /v1/responses donde cada turno usa response.create (payload alineado con el create HTTP salvo campos del transporte) y continúa con previous_response_id e input incremental.

¿Es otro producto?

No. OpenAI lo plantea como opción de transporte sobre la misma Responses API, manteniendo un modelo de integración reconocible.

¿Referencias oficiales?

Motivación y diseño en el artículo del 22-04-2026; detalles operativos en WebSocket mode (URL de conexión, eventos, límites, compactación y códigos de error).


Fuente primaria: OpenAI — Speeding up agentic workflows with WebSockets in the Responses API (detalle técnico: WebSocket mode).