Opciones de informática científica que maduran en la nube
Por Agam Shah
31 de agosto de 2023
La supercomputación sigue siendo en gran medida un asunto local por muchas razones que incluyen potencia, seguridad y gestión de sistemas. Las empresas necesitan más tiempo para trasladar cargas de trabajo a la nube, pero las opciones están aumentando. (Consulte el pronóstico HPC-AI publicado recientemente por Intersect 360 Research).
En agosto, Google Cloud y Amazon Web Services anunciaron máquinas virtuales informáticas de alto rendimiento, que efectivamente son versiones en línea de la informática proporcionada por los sistemas locales. Las máquinas virtuales HPC se basan en tecnología patentada de los proveedores de la nube, incluidos los últimos procesadores, interconexiones ultrarrápidas, funciones de seguridad y capacidad de memoria.
Las máquinas virtuales HPC admiten implementaciones híbridas, donde las empresas pueden dividir las cargas de trabajo entre sistemas locales y máquinas virtuales ofrecidas por AWS y Google. Algunos usuarios de HPC prefieren enviar cargas de trabajo de baja prioridad a la nube, lo que libera recursos informáticos locales para ejecutar cargas de trabajo más críticas.
La mayor desventaja de HPC en la nube sigue siendo las limitaciones del ancho de banda, dadas las bajas velocidades de la red en grandes distancias geográficas. Sin embargo, muchas empresas farmacéuticas y de ingeniería están recurriendo a la nube debido a las ricas herramientas de desarrollo, una larga lista de conjuntos de datos, herramientas analíticas y de bases de datos, y otro middleware disponible para los clientes. Integradores como Rescale y Altair brindan software y soporte para crear entornos híbridos compartidos para aplicaciones HPC.
Las nuevas máquinas virtuales de los proveedores de la nube se centran directamente en la informática científica convencional. Los sistemas no están dirigidos a la IA y no incluyen GPU. AWS y Google ofrecen instancias costosas de las GPU H100 de Nvidia, dirigidas a aplicaciones de computación paralela y de inteligencia artificial.
AWS anunció recientemente EC2 Hpc7, que es una máquina virtual basada en los chips Epyc de cuarta generación de AMD con nombre en código Genoa. Hpc7a es x86, una actualización de las recientes instancias EC2 Hpc6a basadas en los chips Epyc de la generación anterior de AMD con nombre en código Milan.
El Hpc7a tiene el doble de capacidad de memoria en sus configuraciones de VM completamente cargadas y un ancho de banda de red de 300 Gbps. Amazon afirmó que Hpc7a es 2,5 veces más rápido que las instancias Hpc6a. La instancia hpc7a.96xlarge más grande ofrece 192 núcleos de CPU y 768 GB de memoria DDR5. Las máquinas virtuales admiten Elastic Fiber Adapter y sistemas de archivos como Lustre, que son populares en HPC.
AWS ofrece otras máquinas virtuales HPC, incluida la Hpc7g basada en ARM, que se ejecuta en el chip Graviton3E de cosecha propia. El Centro Riken de Ciencias Computacionales ha construido un “Fugaku virtual” para Hpc7g, o una versión en la nube de la pila de software en Fugaku, la segunda supercomputadora más rápida del mundo, en AWS. Fugaku también se basa en procesadores ARM, lo que hace posible replicar el entorno de software.
Google anunció la instancia H3 VM para HPC en agosto, que equilibra el precio con el rendimiento con la ayuda de rápidas velocidades de red y una gran cantidad de núcleos de CPU.
Las configuraciones H3 se basan en las últimas CPU Sapphire Rapids de Intel, y cada nodo agrega 88 núcleos de CPU y 352 GB de memoria. Las máquinas virtuales están dirigidas a aplicaciones que no están paralelizadas y se ejecutan en entornos de un solo subproceso.
Las máquinas virtuales están construidas sobre el procesador de datos personalizado E2000 desarrollado conjuntamente por Intel y Google, cuyo nombre en código es Mount Evans. Los nodos H3 pueden comunicarse a velocidades de 200 Gbps y tienen 16 núcleos de CPU Neoverse N1 basados en ARM.
Los puntos de referencia de Google compararon el H3 con las máquinas virtuales C2 anteriores basadas en las CPU Cascade Lake de Intel, que están dos generaciones detrás de Sapphire Rapids. La máquina virtual H3 solo con CPU es tres veces más rápida en rendimiento por nodo y puede ahorrar a los clientes un 50 % en costos.
La comparación no es de manzanas con manzanas, ya que los chips de servidor generalmente se comparan con chips de generaciones anteriores, en este caso, Ice Lake. Pero la comparación de Google está más en línea con los ciclos de actualización del servidor, que ocurren cada dos o tres años.
En su reciente cumbre Google Cloud Next, la compañía amplió sus opciones informáticas de alto rendimiento para IA. La compañía anunció módulos con sus últimos chips TPU v5e AI y anunció la disponibilidad general de sus sistemas de supercomputación A3, que pueden albergar 26.000 GPU Nvidia y admitir computación paralela. Ambos chips están destinados al entrenamiento y la inferencia en aplicaciones de IA.
Hugo Saleh de Google Cloud, director de gestión de productos de HPC, respondió algunas preguntas de HPCwire sobre el H3 y su diseño.
Cable HPC: Como vista previa pública, ¿quién puede probar el H3? ¿Cuándo estará disponible públicamente?
Saleh: Hemos recibido comentarios valiosos de clientes y socios selectos durante las últimas semanas mientras H3 estaba en versión preliminar privada. Anunciamos el inicio de nuestro período de vista previa pública, donde cualquier cliente interesado puede acceder a las máquinas virtuales H3 de forma gratuita. Para comenzar a usar instancias H3, los clientes pueden seleccionar H3 en la familia de máquinas Compute Optimized al crear una nueva VM o un grupo de nodos GKE en la consola de Google Cloud. Las máquinas virtuales H3 están actualmente disponibles en las regiones central de EE. UU.1 (Iowa) y Europa occidental4 (Países Bajos). Después de la ventana de vista previa pública, la disponibilidad general se anunciará a finales de este año.
Cable HPC:¿Google proporciona ayuda para trasladar cargas de trabajo de HPC desde las instalaciones locales a las nuevas instancias?
Saleh: Hay varias opciones para ayudar a los clientes de HPC en su viaje a Google Cloud. Recomendamos conectarse con los especialistas en HPC de Google Cloud, quienes pueden ayudar con la mayoría de las preguntas y aportar recursos adicionales según sea necesario para ayudar con las migraciones. Para los clientes que necesitan soporte especializado, también contamos con una organización de servicios profesionales, así como una extensa lista de socios listos para ayudar a los usuarios de HPC a migrar sus cargas de trabajo desde las instalaciones u otras nubes.
Cable HPC: ¿Es el tiempo real una prioridad aquí? Los usuarios de HPC se preocupan por la velocidad, pero el ancho de banda para ofrecer resultados a través de Internet es un cuello de botella.
Saleh: Google invierte mucho para que el acceso a la nube sea fluido, seguro y confiable a escala mundial. El tiempo para obtener información y resultados es clave... por eso hemos diseñado la plataforma H3 con redes de baja latencia de 200 Gbps, el doble de ancho de banda que nuestras máquinas virtuales de la generación anterior. Las máquinas H3 también admiten ubicaciones compactas y se implementan en grupos grandes y densos para reducir la latencia y la fluctuación de la red, mejorando la escalabilidad de las aplicaciones HPC.
Cable HPC: ¿Por qué son importantes socios como Rescale.AI? ¿Cómo conectan la brecha entre los usuarios de HPC y Google Cloud?
Saleh: Los usuarios de PC y sus cargas de trabajo abarcan un amplio espectro de necesidades y tienden a tener un conjunto diverso de requisitos. Ya existe un ecosistema rico y bien establecido de empresas de software y servicios expertas en respaldar y ofrecer soluciones para abordar las necesidades de esos usuarios. Asociarse con empresas como Rescale, Altair y Parallel Works, entre otras, para respaldar soluciones personalizadas de extremo a extremo permite a los clientes utilizar mejor los productos de Google Cloud. En algunos casos, esto podría consistir en respaldar el traslado de un cliente a la nube, optimizarlo para un entorno híbrido o implementar aplicaciones específicas a escala. En otros casos, podría ser la necesidad de admitir un sistema operativo o programador específico que sea clave para la carga de trabajo y el entorno de un cliente.
Cable HPC:Saleh:Cable HPC:Saleh:Cable HPC:Saleh:Cable HPC:Saleh: