Dell e Intel sumaron el nuevo acelerador Intel Gaudi 3 a la propuesta Dell AI Factory, demostrando que entrenar y ejecutar grandes modelos de lenguaje (LLM) ya no es un lujo reservado a las GPU NVIDIA H100. Con redes Ethernet estándar de 800 Gb/s, librerías open-source validadas y un kit de ocho tarjetas por unos 125 000 USD, la plataforma recorta hasta un 70 % el presupuesto típico sin resignar velocidad: en pruebas internas, Gaudi 3 completa el entrenamiento de Llama 3 un 40 % antes y entrega 1,5 × más tokens por segundo en inferencia, con 2,3 × mejor eficiencia energética que su rival verde.
Adiós al dilema costo-potencia: Gaudi 3 llega a Dell AI Factory
Intel posiciona Gaudi 3 como “el acelerador de IA que cualquier empresa puede pagar” y Dell lo adopta como corazón de su AI Factory, un stack llave en mano que combina servidores PowerEdge XE9680, software Omnia y servicios profesionales.
Cada tarjeta Gaudi 3 integra 128 GB de HBM3 que entrega 3,7 TB/s de ancho de banda —la “tubería” que alimenta parámetros al chip— y veinticuatro enlaces de 200 Gb Ethernet con RDMA sobre Converged Ethernet (RoCE), lo que evita invertir en costosos switches InfiniBand propietarios.
Este detalle no es menor: el protocolo RoCE permite acceso remoto directo a memoria con latencias de microsegundos usando hardware de red estándar, por lo que ampliar el clúster es tan simple como apilar más switches, sin licencias cerradas.
Más allá del ecosistema CUDA: libertad open-source de punta a punta
Uno de los mayores puntos de fricción al evaluar GPUs de NVIDIA es la dependencia de CUDA. Gaudi 3 rompe ese cerco y llega con soporte validado para PyTorch, TensorFlow, Hugging Face Optimum Habana, Kubernetes y la distribución de red SONiC desde el primer arranque.
Esto significa que un científico de datos puede ejecutar pip install transformers optimum-habana y empezar a entrenar Falcon 180B o Llama 3 70B sin modificar el código —los kernels se compilan en segundo plano para la arquitectura Matrix Multiplication Engine del chip.
Tres razones para dar el salto hoy
Costos que cambian la conversación
Un kit de ocho Gaudi 3 con placa base OAM y cables de 800 GbE ronda los 125 000 USD, frente a más de 300 000 USDpor un servidor dual H100 equivalente.
Cuando la escala se multiplica —hasta 64 aceleradores por rack y 8 192 por clúster— la brecha de costo de red crece, porque Ethernet continúa siendo entre 30 % y 50 % más barato que InfiniBand a igualdad de caudal.
Rendimiento que compite y supera
Intel midió 40 % menos tiempo para entrenar Llama 3 80B y 1,5 × más tokens/s en inferencia comparado con H100, gracias al ancho de banda HBM y a la malla integrada de los dos dies del chip.
Además, la métrica “tokens por watt” muestra una ventaja del 2,3 ×, algo crítico en centros de datos donde la factura eléctrica duplica el gasto de hardware a cinco años.
Escalabilidad modular y gestión simplificada
Con Dell Omnia, los nodos se aprovisionan vía Ansible y Kubernetes en horas: la herramienta detecta los aceleradores, monta un clúster petaflópico y orquesta el scheduling con KubeFlow o Slurm sin scripts caseros.
El resultado es un tiempo-to-AI reducido de meses a días y una ruta de ampliación lineal: basta sumar más racks o cambiar cables DAC por ópticos si se supera el piso de 800 Gb/s.
Democratizar la IA de gran escala
Con Gaudi 3, Dell AI Factory ofrece a las empresas una rampa de acceso a la IA generativa que no colisiona con el presupuesto ni bloquea la arquitectura en un proveedor. Al combinar hardware competitivo, software abierto y redes estándar, la propuesta rebaja drásticamente el costo por parámetro entrenado y sienta las bases de clústeres verdaderamente modulares. Si tu estrategia de IA pide más potencia pero el excel grita “stop”, tal vez sea hora de que un acelerador distinto —y más accesible— marque el ritmo.











