Crean una GPU que cuenta con 1.2 billones de transistores pensado para la Inteligencia Artificial

cerebras wse

Índice de contenido

Toggle

Una startup denominada Cerebras ha creado una GPU para Inteligencia Artificial del tamaño de una oblea y que cuenta con 1.2 billones de transistores

La inteligencia artificial y la supercomputación estan en auge en la actualidad y se necesitan soluciones especiales. Cerebras System, una startup poco conocida, ha mostrado el prototipo de un chip grafico que va más allá de lo que conocemos. Esta compañía ha creado el Cerebras Wafer Scale Engine (Cerebras WSE) que cuenta 5 600 veces más que la GPU de la NVIDIA V100 de 21 100 millones de transistores.

Tenemos ante nosotros la primera GPU del mundo a escala de oblea. El que no se haya hecho esto con anterioridad se debe a que refrigerar tanta superficie es un gran desafió técnico. Además, también existe el problema de la comunicación de líneas cruzadas que hasta el momento no se había conseguido superar.

Cerebras crea una GPU del tamaño de una oblea de silicio

Han desarrollado un sistema litográfico diseñado para grabar transistores en una oblea. Esto también supone un gran reto, ya que no se pueden grabar transistores en una única oblea. Se crean líneas de trazado dentro de la plataforma y se necesitan crear sistemas de comunicación entre los conjuntos. Cerebras lo ha conseguido solventar y así ha creado el procesador con mayor cantidad de transistores del mundo.

La superficie de este chip es de 46,225mm² y alberga 1.2 billones de transistores. Todos los núcleos han sido desarrollados específicamente para la Inteligencia Artificial y tiene un consumo de 15kW. Refrigerar el silicio es un problema importante y eso ha requerido desarrollar un sistema de disipación especial.

Se ha conseguido solucionar el problema térmico mediante un sistema de enfriamiento por inmersión usando freón como refrigerante. Adicionalmente se necesita un sistema energético que sea robusto, para evitar daños. Este procesador es como 1 000 veces más rápido que los sistemas tradicionales. Esto se debe a que la comunicación se realiza mediante líneas de escritura.

Especialmente desarrollada para la Inteligencia Artificial

WSE dispone de 400 000 núcleos de Algebra Lineal Dispersa. Esto permite núcleos flexibles, programables y optimizados para cálculos para las redes neuronales. Ofrece una gran capacidad de programación, que permite que los núcleos puedan ejecutar todos los algoritmos en el campo del Deep Learning.

Todos los núcleos WSE se comunican mediante un tejido de comunicación Swarm en una malla 2D con un ancho de banda de 100Pb/s. Swarm es un tejido de comunicación masivo de gran ancho de banda y cuenta con una baja latencia. Este sistema es altamente eficiente a nivel energético gracias a las técnicas utilizadas para agrupar las unidades de procesamiento gráfico. El software configura los núcleos WSE para soportar la comunicación precisa según las necesidades. Según las necesidades Swarm, permite crear una ruta de comunicación única y optimizada.

Además, este chip cuenta con 18GB de memoria integrada, accesible en un solo ciclo de reloj. Este ofrece un ancho de banda de memoria de 9PB/s. Se mejora la capacidad en 3 000 veces y un ancho de banda 10 000 veces superior con respecto a su competidor. Aumentar los núcleos y la memoria local, permite un cálculo rápido y flexible, reduciendo la latencia y consume menos energía.

Dicho chip ha sido fabricado en una oblea de 300mm de TSMC usando la litografía de 16nm. Este proceso litográfico no es el más moderno, pero está muy bien optimizado. Los 400 000 núcleos se engloban en 84 módulos interconectados.

Problemas a la hora de fabricación de este chip

Actualmente desconocemos el rendimiento y las frecuencias del Cerebras WSE. El chip permite obtener un rendimiento del 100% si es capaz de absorber los defectos. Los prototipos realizados cuentan con un diseño que permite absorber los defectos de diseño. El CEO de la compañía asegura que entre el 1-1.5% de los defectos del área superficial se pueden absorber.

Cuenta este chip con un diseño que permite absorber los núcleos defectuosos, reconfigurando los núcleos disponibles. El diseño además dispone de núcleos redundantes en el chip, permitiendo minimizar la perdida de rendimiento. No se han revelado las frecuencias de trabajo.

La compañía incluso ha tenido que desarrollar su propia ciencia de fabricación y su propio encapsulado. Han tenido que afrontar el reto de la falta de herramientas de diseño para manejar un procesador del tamaño de una oblea. Además, se ha tenido que modificar el software para que pueda producir más de 1 billón de transistores en un único procesador.

Fuente: wccftech