NVIDIA acaba de estrenar DGX Cloud Lepton, un “Uber de GPUs” que reúne la potencia ociosa de nueve partners especializados —CoreWeave, Crusoe, Firmus, Foxconn, GMI Cloud, Lambda, Nebius Nscale, SoftBank y Yotta— y la ofrece a los desarrolladores a través de una sola API y un panel web tan simple como elegir zona, arquitectura y tarifa. Con miles de aceleradores Blackwell, Hopper y Ampere listos para reservar por hora o en contratos multianuales con garantías de soberanía de datos, Lepton pretende democratizar la IA allá donde los hyperscalers imponen listas de espera y precios inflados
Tu nueva puerta de entrada a decenas de miles de GPUs
El atractivo inmediato es la escala: los partners suman decenas de miles de GPUs repartidas en centros de datos de Norteamérica, Europa y Asia, todos interconectados con enlaces de 400 GbE y 800 GbE. Al integrarse en el marketplace, cada proveedor expone la capacidad “sobrante” que suele quedar subutilizada cuando los grandes contratos corporativos fluctúan. Para el desarrollador, esa ventana equivale a conseguir potencia Blackwell el mismo día sin pedir cupo a AWS o Azure
¿Cómo lo logra?
Lepton usa el SDK de DGX Cloud, el mismo que desplegaba clusters dedicados sobre Google Cloud y Oracle Cloud, ahora extendido a múltiples nubes y a entornos on-prem. El kit abstrae la autenticación, el aprovisionamiento de GPU y la facturación en una sola llamada REST, lo que permite mover entrenamientos entre proveedores con un comando dgxctl migrate y conservar checkpoints en buckets S3-compatibles.
Lo que hace diferente a DGX Cloud Lepton
Libertad de elección, no encerrona
Al reservar capacidad podés elegir zona geográfica, arquitectura (B200, H100, A100) y nivel de servicio; la hoja de SLA detalla tanto el uptime como los controles de residencia de datos que exige, por ejemplo, la legislación europea 🇪🇺 GDPR. Esta política de soberanía es posible porque Lepton mantiene los datos dentro del país anfitrión y replica sólo los modelos, nunca los datasets brutos.
Métricas al estilo FinOps
El panel de control expone tokens renderizados, house-kept memory y consumo eléctrico por job en tiempo real, algo que hasta ahora sólo ofrecían soluciones on-prem como Prometheus + DCGM. Esa granularidad habilita a los equipos de FinOps a comparar coste por token entre un Blackwell en Tokio y un Hopper en Texas antes de lanzar la siguiente tanda de fine-tuning.
Contratos modulares
Además del pago por hora, Lepton permite acuerdos de capacidad garantizada de 12, 24 o 36 meses. Los NCP (NVIDIA Cloud Partners) se comprometen a reservar bloques de GPUs aislados a cambio de tarifas reducidas, un esquema ideal para compañías que publican servicios públicos de IA y no pueden jugársela a la volatilidad de la nube pública.
Por qué esto cambia las reglas del juego
- Reducción de cola: muchos equipos esperan semanas para conseguir B200 GPUs en hyperscalers; con Lepton el “tiempo de arranque” baja a horas.
- Precios más agresivos: partners como Crusoe y Foxconn operan con energía renovable o excedentes de capacidad, lo que se traduce en tarifas hasta 30 % inferiores a los precios on-demand de los tres grandes clouds, según datos preliminares de NVIDIA.
- Multi-cloud real: la API única agrupa reservas; así, un mismo workflow puede arrancar el pre-procesado en GMI Cloud (India), entrenar en CoreWeave (EE. UU.) y servir inferencias en SoftBank (Japón) sin rescribir Terraform.
¿Y si ya tengo on-prem?
Lepton no sustituye tu sala de racks: el DGX Cloud SDK incluye conectores para clusters DGX A100/H100 locales vía NVLink-over-Ethernet; esto permite balancear cargas y mantener datos sensibles detrás de tu firewall, mientras usás la nube para picos de demanda. Para muchos bancos y gobiernos, esa mezcla es la única ruta aprobada por sus compliance officers.
Primeros pasos para reservar potencia Blackwell
- Solicitá acceso anticipado en lepton.nvidia.com (el registro exige una cuenta NVIDIA Developer).
- Define tu política de datos: subí los requisitos de residencia y Lepton filtra automáticamente proveedores elegibles.
- Prueba la API sandbox con 1 GPU Ampere gratuita durante 24 h para validar drivers y librerías.
- Escalá: cuando tu benchmark esté listo, subí el JSON manifest con la cantidad de GPUs, región y plazo; el clúster se aprovisiona en menos de 15 min según los partners pilot.
- Mide y ajusta: el panel FinOps exporta métricas Prometheus-ready; conéctalas a Grafana o Datadog para optimizar coste por token antes de tu siguiente ronda de inversión.
Con Lepton, NVIDIA apunta a un mercado intermedio entre los hyperscalers y los pequeños brokers de GPUs, ofreciendo la agilidad del primero y la cercanía del segundo. Para las startups que no pueden esperar ni sobrepagar, la promesa es clara: potencia petaflópica al alcance de una REST call.











