N

AI Tool

NVIDIA NIM

Microservicios de inferencia en contenedores con APIs compatibles con OpenAI

NVIDIA NIM documenta microservicios en docs.api.nvidia.com/nim: APIs compatibles con OpenAI (/v1/chat/completions, /v1/completions, /v1/responses) y /v1/messages tipo Anthropic, contenedores con TensorRT-LLM, vLLM o SGLang. Autohospedaje en GPU o prototipos vía APIs alojadas del Developer Program. Sondas /v1/health/ready y métricas Prometheus.

Categoría Herramientas para desarrolladores
Precio Developer Program hosted APIs for prototyping; NVIDIA AI Enterprise for production self-host (see nvidia.com/nim)
Plataformas Web / API / Docker / Kubernetes
inferencegpucontainers

Casos de uso

  • OpenAI client con base_url local
  • Kubernetes + Prometheus
  • Prototipo antes de AI Enterprise
  • Clientes /v1/messages
  • Elegir motor TRT-LLM o vLLM

Funciones principales

  • Endpoints OpenAI-compatibles
  • /v1/messages Anthropic-compat
  • Health y readiness probes
  • Catálogo multimodal
  • APIs alojadas para prototipos

Relacionados

Relacionados

3 Entradas indexadas

Baseten

Herramientas para desarrolladoresUsage-based inference and training; see baseten.co/pricing

Baseten documenta en docs.baseten.co una plataforma de entrenamiento e inferencia: despliegues con el framework Truss o Model APIs alojadas sin infra propia. Despliegues solo con `config.yaml` apuntan a checkpoints de Hugging Face, GPUs y motores como TensorRT-LLM; `truss push` construye contenedores optimizados y expone APIs compatibles con OpenAI. Arquitecturas personalizadas usan la clase `Model` con `load` y `predict`. Model APIs permiten inferencia inmediata con `BASETEN_API_KEY`.

AssemblyAI

Herramientas para desarrolladoresPay-as-you-go per audio hour; enterprise plans (see assemblyai.com/pricing)

AssemblyAI documenta APIs en assemblyai.com/docs: REST en https://api.assemblyai.com y WebSocket wss://streaming.assemblyai.com (UE: api.eu.assemblyai.com). Cada POST /v2/transcript requiere speech_models; se recomienda universal-3-pro con fallback universal-2. Incluye Voice Agent API, Speech Understanding, Guardrails y LLM Gateway.

fal

Herramientas para desarrolladoresPer-second Serverless execution; Model APIs per call; Compute per GPU-hour (see fal.ai pricing)

fal documenta en fal.ai/docs apps `fal.App` con `@fal.endpoint` en runners H100/A100/B200 con autoscaling, o más de 1.000 Model APIs vía cliente unificado. Flujo: `fal run` para pruebas y `fal deploy` para endpoints persistentes (`fal_client.subscribe` o queue.fal.run). Incluye `setup()`, machine_type GPU, auth privada/pública, facturación por segundo vs Compute por hora y analíticas con métricas Prometheus.