Oracle Cloud Infrastructure amplía las instancias aceleradas por GPU NVIDIA para la IA, los gemelos digitales y mucho más

Detalles: Publicado: 02 Agosto 2024

Oracle Cloud Infrastructure amplía las instancias aceleradas por GPU NVIDIA

Las nuevas instancias de Oracle Cloud Infrastructure (OCI) Compute aceleradas por la GPU NVIDIA L40S ya están disponibles

Las empresas adoptan rápidamente la IA generativa, los grandes modelos de lenguaje (LLMs), los gráficos avanzados y los gemelos digitales para aumentar las eficiencias operativas, reducir los costos e impulsar la innovación.

No obstante, para adoptar estas tecnologías eficazmente, las empresas necesitan acceso a plataformas de computación acelerada, completas y de punta. Con el fin de responder a esta demanda, Oracle Cloud Infrastructure (OCI) anuncia la disponibilidad de las instancias bare-metal de GPU NVIDIA L40S, así como la disponibilidad próxima de una nueva máquina virtual acelerada por una sola GPU NVIDIA H100 Tensor Core. Esta nueva máquina virtual aumenta el portafolio existente de H100 de OCI, que incluye una instancia bare-metal de GPU NVIDIA HGX H100 8.

Combinadas con las redes NVIDIA y ejecutando el paquete de software NVIDIA, estas plataformas brindan un potente rendimiento y eficiencia, lo que permite que las empresas progresen con la IA generativa.

NVIDIA L40S ya está disponible para pedidos en OCI

La NVIDIA L40S es una GPU para centros de datos universal, diseñada para brindar aceleración revolucionaria en varias cargas de trabajo de aplicaciones gráficas, de video e IA generativa. Equipada con Tensor Cores de cuarta generación y compatibilidad con el formato de datos FP8, la GPU L40S sobresale en el entrenamiento y la optimización de LLM pequeños, medianos y en inferencias en una amplia gama de casos de uso de IA generativa.

Por ejemplo, una sola GPU L40S (FP8) puede generar hasta 1.4 veces más tokens por segundo que una sola GPU NVIDIA A100 Tensor Core (FP16) para Llama 3 8B con NVIDIA TensorRT-LLM a una longitud de secuencia de entrada y salida de 128.

La GPU L40S también cuenta con la mejor aceleración de medios y gráficos de su clase. Sus NVIDIA Ray Tracing Cores (RT Cores) de tercera generación y los múltiples motores de codificación/decodificación la vuelven ideal para aplicaciones de gemelos digitales y visualización avanzada.

La GPU L40S brinda hasta 3.8 veces más rendimiento en tiempo real para el trazado de rayos que su antecesora y admite NVIDIA DLSS 3 para obtener mejores frecuencias de cuadro y renderización acelerada. Por ello, resulta la GPU perfecta para el desarrollo de aplicaciones en la plataforma NVIDIA Omniverse, al permitir gemelos digitales aptos para la IA y simulaciones 3D fotorrealistas en tiempo real. Con Omniverse en la GPU L40S, las empresas pueden desarrollar proyectos y aplicaciones 3D avanzadas para la digitalización industrial que les permitirán diseñar, simular y optimizar productos, procesos e instalaciones en tiempo real, antes de entrar en producción.

Omniverse

OCI ofrecerá la GPU L40S en su unidad de computación bare-metal BM.GPU.L40S.4, con cuatro GPU NVIDIA L40S, cada una de ellas con 48 GB de memoria GDDR6. Esta unidad incluye unidades NVMe locales con capacidad de 7.38 TB, CPU Intel Xeon de cuarta generación con 112 núcleos y 1 TB de memoria del sistema.

Estas unidades eliminan la sobrecarga de cualquier virtualización en cargas de trabajo de aprendizaje automático o IA dependiente de la latencia y el alto rendimiento con la arquitectura de computación bare-metal de OCI. La unidad de computación acelerada cuenta con la DPU NVIDIA BlueField-3 para brindar una mayor eficiencia del servidor. De esta forma, descarga las tareas de centro de datos de las CPU y acelera las cargas de trabajo de redes, almacenamiento y seguridad. El uso de las DPU BlueField extiende la estrategia de OCI de la virtualización independiente en toda su flota.

El OCI Supercluster con NVIDIA L40S posibilita un rendimiento muy elevado con 800 Gbps de ancho de banda internodal y baja latencia para hasta 3840 GPU. La red del clúster de OCI usa NVIDIA ConnectX-7 NIC sobre RoCE v2 para admitir cargas de trabajo dependientes de la latencia y de alto rendimiento.

“Elegimos la infraestructura de IA de OCI con instancias bare-metal y GPU NVIDIA L40S para obtener codificación de video un 30 % más eficiente”, declara Sharon Carmel, CEO de Beamr Cloud. “Los videos procesados con Beamr Cloud en OCI tendrán un consumo de ancho de banda de red y almacenamiento hasta un 50 % menor, duplicando la aceleración de las transferencias de archivos y aumentando la productividad de los usuarios finales. Beamr les brindará a los clientes de OCI flujos de trabajo de IA para video, preparándolos para el futuro del video”.

VMs H100 con una sola GPU próximamente en OCI

La unidad de máquina virtual de computación VM.GPU.H100.1, acelerada por una sola GPU NVIDIA H100 Tensor Core, llegará pronto a OCI. Esto brindará acceso rentable a pedido para que las empresas usen la potencia de las GPU NVIDIA H100 en sus cargas de trabajo de IA generativa y HPC.

Una sola H100 brinda una plataforma adecuada para cargas de trabajo menores e inferencia de LLM. Por ejemplo, una GPU H100 puede generar más de 27 000 tokens por segundo para Llama 3 8B (hasta 4 veces más rendimiento que una sola GPU A100 con precisión de FP16) con NVIDIA TensorRT-LLM, a una longitud de secuencia de entrada y salida de 128 y precisión de FP8.
La unidad VM.GPU.H100.1 incluye 2×3,4 TB de capacidad de unidad NVMe, 13 núcleos de procesadores Intel Xeon de cuarta generación y 246 GB de memoria del sistema, lo que la convierte en una herramienta idónea para una amplia gama de tareas de IA.

“La computación bare-metal de Oracle Cloud con GPU NVIDIA H100 y A100, Supercluster de baja latencia y almacenamiento de alto rendimiento brinda una relación de precio-rendimiento hasta 20 % mejor para los solucionadores CAE de dinámica de fluidos computacional CFD y mecánica estructural de Altair”, afirma Yeshwant Mummaneni, ingeniero jefe de análisis de gestión de datos de Altair. “Esperamos aprovechar estas GPU con máquinas virtuales para el dispositivo virtual Altair Unlimited”.

Instancias bare-metal GH200 disponibles para validación

OCI también ha puesto a la disposición la unidad de computación BM.GPU.GH200 para las pruebas de los clientes. Cuenta con el superchip NVIDIA Grace Hopper y NVLink-C2C, una conexión de alto ancho de banda de 900 GB/s entre la CPU NVIDIA Grace y la GPU NVIDIA Hopper. Esto brinda más de 600 GB de memoria accesible, lo que posibilita un rendimiento hasta 10 veces más alto para las aplicaciones que ejecutan terabytes de datos, en comparación con la GPU NVIDIA A100.

Software optimizado para IA empresarial

Las empresas cuentan con una amplia variedad de GPU NVIDIA con el fin de acelerar sus cargas de trabajo de análisis de datos, IA y HPC en OCI. No obstante, la maximización de todo el potencial de estas instancias de computación aceleradas por la GPU requiere una capa de software optimizado.

NVIDIA NIM, parte de la plataforma de software empresarial de IA NVIDIA disponible en el OCI Marketplace, es un conjunto de microservicios de fácil uso, diseñados para la implementación segura y confiable de inferencia de modelos de IA de alto rendimiento para implementar aplicaciones de IA generativa de primer nivel.

Optimizados para las GPU NVIDIA, los contenedores NIM preconstruidos les ofrecen a los desarrolladores un mejor costo de propiedad, comercialización más rápida y seguridad. Los microservicios NIM para modelos de comunidad populares del catálogo de API NVIDIA se pueden desplegar fácilmente en OCI.

El rendimiento seguirá mejorando con el paso del tiempo gracias a las próximas instancias aceleradas por la GPU, incluidas las GPU NVIDIA H200 Tensor Core y las GPU NVIDIA Blackwell.

Fuente: NVIDIA y Oracle