📵 👎🏿 🦎 Nvidia Streaming Multiprocessor History 🕴🏻 🚴🏾 📼

El fin de semana pasado pasé aprendiendo programación CUDA y SIMT. Este fructífero tiempo terminó con una aceleración de casi 700 veces de mi "corredor de tarjeta de visita" ^[1] - de 101 segundos a 150 ms.

Una experiencia tan agradable fue una buena excusa para seguir estudiando el tema y la evolución de la arquitectura de Nvidia. Debido a la gran cantidad de documentación publicada a lo largo de los años por el equipo "verde", logré retroceder en el tiempo y caminar brevemente a través de la sorprendente evolución de sus multiprocesadores de transmisión.

En este artículo consideraremos:

Año Generación Crystal Process Technology Series Tarjeta más potente
=================================================== ===========================
2006 Tesla GeForce 8 G80 90 nm 8800 GTX 
2010 Fermi GeForce 400 GF100 40 nm GTX 480
2012 Kepler GeForce 600 GK104 28 nm GTX 680
2014 Maxwell GeForce 900 GM204 28 nm GTX 980 Ti
2016 Pascal GeForce 10 GP102 16 nm GTX 1080 Ti
2018 Turing GeForce 20 TU102 12 nm RTX 2080 Ti

Callejón sin salida

Hasta 2006, la arquitectura de GPU de NVidia se correlacionó con las etapas lógicas de la representación API ^[2] . La GeForce 7900 GTX, controlada por el cristal G71, constaba de tres partes involucradas en el procesamiento de vértices (8 bloques), la generación de fragmentos (24 bloques) y la combinación de fragmentos (16 bloques).

Cristal G71. Presta atención a la optimización Z-Cull, que descarta un fragmento que no pasaría la prueba Z.

Esta correlación hizo que los diseñadores adivinaran la ubicación de los cuellos de botella del transportador para el equilibrio correcto de cada una de las capas. Con el advenimiento de otra etapa en DirectX 10, el sombreador geométrico, los ingenieros de Nvidia enfrentaron la difícil tarea de equilibrar el cristal sin saber qué tan activamente se usará esta etapa. Es hora de un cambio.

Tesla

Nvidia resolvió el problema de la creciente complejidad con la ayuda de la arquitectura Tesla "integrada", lanzada en 2006.

Ya no había ninguna diferencia entre las capas en el cristal G80. Debido a la capacidad de ejecutar vértices, fragmentos y "núcleos" geométricos, el multiprocesador de flujo (Multiprocesador de flujo, SM) ha reemplazado todos los bloques existentes anteriormente. El equilibrio de carga se realizó automáticamente, gracias al reemplazo del "núcleo" realizado por cada SM, dependiendo de los requisitos del transportador.

"De hecho, desechamos toda la arquitectura de sombreado NV30 / NV40 y desde cero creamos una nueva con una nueva arquitectura común para procesadores universales (SIMT), que también introdujo nuevas metodologías de diseño de procesador".

John Alben (entrevista extremetech.com)

Ya no puede ejecutar instrucciones SIMD, los "bloques de sombreado" se convierten en "núcleos", capaces de ejecutar una instrucción entera o una instrucción con float32 por ciclo. SM recibe hilos en grupos de 32 hilos, llamados warp. Idealmente, todos los hilos de la misma urdimbre ejecutan la misma instrucción al mismo tiempo, solo para diferentes datos (de ahí el nombre SIMT). La Unidad de Instrucción de múltiples subprocesos (MT) se dedica a habilitar / deshabilitar hilos en la urdimbre si su puntero de instrucción (Puntero de instrucción, IP) converge / rechaza.

Dos SFU lo ayudan a realizar cálculos matemáticos complejos, como la raíz cuadrada inversa, sin, cos, exp y rcp. Estos bloques también son capaces de ejecutar una instrucción por ciclo, pero como solo hay dos, la velocidad de la deformación se divide en cuatro. No hay soporte de hardware para float64, los cálculos se realizan mediante programación, lo que afecta en gran medida la velocidad de ejecución.

SM se da cuenta de su potencial máximo cuando puede ocultar latencias de memoria debido a la presencia constante de warp s despachables, pero también cuando el flujo en el warp no se desvía (la lógica de control lo mantiene en la misma ruta de ejecución de instrucciones). Los estados de flujo se almacenan en archivos de registro de 4 kilobytes (archivo de registro, RF). Los subprocesos que ocupan demasiado espacio en la pila reducen el número de subprocesos posibles que pueden ejecutarse al mismo tiempo, al tiempo que reducen el rendimiento.

El cristal insignia de la generación Tesla fue el G80 de 90 nm introducido en la GeForce 8800 GTX. Dos SM se combinan en un clúster de procesador de textura (TPC) junto con una unidad de textura y un caché Tex L1. Se prometió que el G80 con 8 TPC y 128 núcleos genera 345.6 gigaflops ^[3]. La tarjeta 8800 GTX fue extremadamente popular en un momento, recibió críticas maravillosas y se enamoró de aquellos que podían pagarla. Resultó ser un producto tan excelente que, trece meses después de su lanzamiento, siguió siendo una de las GPU más rápidas del mercado.

G80 instalado en 8800 GTX. Las unidades de salida de procesamiento (ROP) hacen el suavizado.

Junto con Tesla, Nvidia introdujo el lenguaje de programación C para Compute Unified Device Architecture (CUDA), un superconjunto del lenguaje C99. A los entusiastas de GPGPU, que agradecieron la alternativa de engañar a la GPU con texturas y sombreadores GLSL, les gustó esto.

Aunque principalmente hablo de SM en esta sección, era solo la mitad del sistema. En SM, es necesario transferir instrucciones y datos almacenados en la memoria de la GPU. Para evitar el tiempo de inactividad, las GPU no intentan minimizar las transferencias de memoria utilizando grandes cachés y prediciendo cómo funciona la CPU. Las GPU aprovechan la latencia, saturando el bus de memoria para satisfacer las necesidades de E / S de miles de subprocesos. Para esto, un chip (por ejemplo, G80) obtiene un gran ancho de banda de memoria utilizando seis buses de memoria DRAM de dos lados.

Las GPU aprovechan las latencias de memoria, mientras que las CPU las ocultan con una gran memoria caché y lógica de predicción.

Fermi

Tesla fue un movimiento arriesgado que resultó ser muy exitoso. Tuvo tanto éxito que se convirtió en la base de la GPU NVidia durante las próximas dos décadas.

« , , (Fermi , Maxwell ), , G80, [Pascal]».

( extremetech.com)

En 2010, Nvidia lanzó el GF100, basado en la nueva arquitectura Fermi. Los interiores de su último chip se describen en detalle en la documentación técnica de Fermi ^[4] .

El modelo de ejecución todavía se basa en la deformación de 32 hilos enviados a SM. NVidia logró duplicar / cuadruplicar todos los indicadores solo gracias a la tecnología de proceso de 40 nanómetros. Gracias a dos conjuntos de 16 núcleos CUDA, SM ahora pudo despachar simultáneamente dos semi-warp (16 hilos cada uno). A pesar del hecho de que cada núcleo ejecutó una instrucción por ciclo de reloj, SM pudo esencialmente excluir una instrucción warp por ciclo de reloj (cuatro veces más que la arquitectura Tesla SM).

El número de SFU también ha aumentado, pero no tanto, la capacidad solo se ha duplicado. Se puede concluir que las instrucciones de este tipo no se usaron muy activamente.

Hay soporte de semi-hardware para float64, que combina operaciones realizadas por dos núcleos CUDA. Gracias a la ALU de 32 bits (en Tesla era de 24 bits), el GF100 puede realizar multiplicación de enteros en un ciclo, y debido a la transición de IEEE 754-1985 a IEEE 754-2008, ha aumentado la precisión al trabajar con la tubería float32 usando Fused Multiply -Agregar (FMA) (más preciso que el utilizado en Tesla MAD).

Desde el punto de vista de la programación, el sistema de memoria integrado de Fermi hizo posible complementar CUDA C con características de C ++ como un objeto, métodos virtuales y excepciones.

Debido al hecho de que los bloques de textura ahora se han convertido en SM, el concepto de TPC ha sido abandonado. Ha sido reemplazado por clústeres de procesadores gráficos (GPC), cada uno con cuatro SM. Por último, pero no menos importante, SM ahora está dotado del motor Polymorph, que se ocupa de obtener vértices, transformar la ventana gráfica y la teselación. El buque insignia GeForce GTX 480 basado en el GF100 fue anunciado con 512 núcleos y capaz de proporcionar 1,345 gigaflops ^[5] .

GF100 instalado en la GeForce GTX 480. Tenga en cuenta los seis controladores de memoria que sirven al GPC.

Kepler

En 2012, Nvidia lanzó la arquitectura Kepler, llamada así por un astrólogo, mejor conocido por descubrir las leyes del movimiento planetario. Como de costumbre, la documentación técnica GK104 ^[6] nos permitió mirar dentro .

En Kepler, Nvidia mejoró significativamente la eficiencia energética del chip al reducir la velocidad del reloj y combinar la frecuencia central con la frecuencia de la tarjeta (anteriormente, su frecuencia se duplicaba).

Tales cambios deberían haber llevado a una disminución de la productividad. Sin embargo, gracias a una tecnología de proceso de reducción a la mitad (28 nanómetros) y al reemplazo del despachador de hardware por uno de software, Nvidia pudo no solo colocar más SM en el chip, sino también mejorar su diseño.

Next Generation Streaming Multiprocessor (SMX) es un monstruo, casi todos cuyos indicadores se han duplicado o triplicado.

Gracias a cuatro despachadores de urdimbre capaces de procesar una urdimbre completa en un ciclo de reloj (Fermi solo podía procesar la mitad de la urdimbre), SMX ahora contenía 196 núcleos. Cada despachador tenía un despacho doble, lo que permitía ejecutar la segunda instrucción en warp si era independiente de la instrucción ejecutable actual. La programación dual no siempre fue posible porque una columna de 32 núcleos era común a dos operaciones de programación.

Tal esquema complicó la lógica de programación (volveremos a esto más adelante), pero gracias a la ejecución de hasta seis instrucciones warp por ciclo, el SMX proporcionó el doble de rendimiento en comparación con el SM de arquitectura Fermi.

Se afirmó que el buque insignia NVIDIA GeForce GTX 680 con un cristal GK104 y ocho SMX tiene 1536 núcleos, alcanzando 3.250 gigaflops ^[7]. Los elementos del cristal se volvieron tan intrincados que tuve que eliminar todas las firmas del diagrama.

GK104 instalado en la GeForce GTX 680.

Preste atención a los subsistemas de memoria completamente rediseñados, trabajando con una frecuencia impresionante de 6 GHz. Permitieron reducir el número de controladores de memoria de seis a cuatro.

Maxwell

En 2014, Nvidia lanzó la GPU de décima generación llamada Maxwell. Como se indica en la documentación técnica del GM107 ^[8] , el lema de la primera generación de arquitectura era "Máxima eficiencia energética y rendimiento extraordinario por cada vatio consumido". Las tarjetas se colocaron para "entornos de energía limitada, como computadoras portátiles y PC con factor de forma pequeño (SFF)".

La decisión más importante fue abandonar la estructura Kepler con el número de núcleos CUDA en SM, que no es una potencia de dos: algunos núcleos se volvieron comunes y volvieron a funcionar en modo de media deformación. Por primera vez en la historia de la arquitectura, SMM tenía menos núcleos que su predecesor: "solo" 128 núcleos.

La coincidencia del número de núcleos y el tamaño de la urdimbre mejoró la segmentación de cristales, lo que resultó en un ahorro de espacio y energía.

Un SMM 2014 tenía tantos núcleos (128) como el GTX 8800 completo en 2006.

La segunda generación de Maxwell (descrita en la documentación técnica GM200 ^[9] ) aumentó significativamente la productividad, al tiempo que mantuvo la eficiencia energética de la primera generación.

La tecnología de proceso se mantuvo en 28 nanómetros, por lo que los ingenieros de Nvidia no pudieron recurrir a la miniaturización simple para aumentar la productividad. Sin embargo, una disminución en el número de núcleos SMM ha reducido su tamaño, debido a lo cual se podrían colocar más SMM en el chip. En comparación con Kepler, la segunda generación de Maxwell duplicó el número de SMM, al tiempo que aumentó su área de cristal en solo un 25%.

En la lista de mejoras, también puede encontrar una lógica de despacho simplificada, que permitió reducir la cantidad de redundancia redundante de despacho y el retraso de los cálculos, lo que garantizó un aumento en la optimización del uso de la deformación. Además, la frecuencia de la memoria se incrementó en un 15%.

Estudiar el diagrama de bloques Maxwell GM200 ya está empezando a cansar tus ojos. Pero aún lo examinamos cuidadosamente. La tarjeta insignia NVIDIA GeForce GTX 980 Ti con un cristal GM200 y 24 SMM prometió 3072 núcleos y 6.060 gigaflops ^[10] .

GM200 instalado en la GeForce GTX 980 Ti.

Pascal

En 2016, Nvidia presentó a Pascal. La documentación técnica GP104 ^[11] deja una sensación de déjà vu porque el Pascal SM se ve exactamente como el Maxwell SMM. La falta de cambios SM no estancó el rendimiento, porque la tecnología de proceso de 16 nanómetros nos permitió colocar más SM y duplicar el número de gigaflops nuevamente.

Entre otras mejoras importantes se encontraba un sistema de memoria basado en el nuevo GDDR5X. La interfaz de memoria de 256 bits, gracias a ocho controladores de memoria, proporcionó velocidades de transferencia de 10 gigaflops, aumentando el ancho de banda de la memoria en un 43% y reduciendo el tiempo de inactividad de las deformaciones.

El buque insignia NVIDIA GeForce GTX 1080 Ti con un chip GP102 y 28 TSM prometió 3584 núcleos y 11,340 gigaflops ^[12] .

GP104 instalado en la GeForce GTX 1080.

Turing

Con el lanzamiento de Turing en 2018, Nvidia hizo su "mayor paso arquitectónico en diez años" ^[13] . En Turing SM, no solo aparecieron núcleos Tensor especializados con inteligencia artificial, sino también núcleos para el trazado de rayos (rautracing, RT). Una estructura tan fragmentada me recuerda a la arquitectura en capas que existía antes de Tesla, y esto prueba una vez más que la historia ama la repetición.

Además de los nuevos núcleos, tres características importantes han aparecido en Turing. En primer lugar, el núcleo CUDA se ha convertido en superescalar, lo que permite la ejecución paralela de instrucciones con números enteros y de coma flotante. Si encuentra 1996, esto puede recordarle la arquitectura "innovadora" de Intel.

En segundo lugar, el nuevo subsistema de memoria en GDDR6X, compatible con 16 controladores, ahora puede proporcionar 14 gigaflops.

En tercer lugar, las transmisiones ahora no tienen punteros de instrucción (IP) comunes en warp. Gracias a la programación independiente de subprocesos en Volta, cada subproceso tiene su propia IP. Como resultado de esto, los SM pueden configurar de manera más flexible los flujos de despacho en urdimbre sin la necesidad de convergencia lo más rápido posible.

El buque insignia NVIDIA GeForce GTX 2080 Ti con cristales TU102 y 68 TSM tiene 4352 y alcanza 13 45 gigaflops ^[14] . No dibujé un diagrama de bloques porque se vería como una mancha verde borrosa.

Lo que nos espera a continuación

Según los rumores, la próxima arquitectura, llamada Ampere, se anunciará en 2020. Como Intel demostró con el ejemplo de Ice Lake que todavía existe el potencial de miniaturización utilizando la tecnología de proceso de 7 nanómetros, casi no hay duda de que Nvidia lo usa para reducir aún más SM y duplicar su rendimiento.

Teraflops / s para cada chip / tarjeta Nvidia (fuente de datos: techpowerup.com).

Será interesante ver cómo Nvidia continúa la evolución de la idea de los cristales que tienen tres tipos de núcleos que realizan diferentes tareas. ¿Veremos cristales, todo el estado de los núcleos tensoriales o los núcleos RT? Curioso.

Materiales de referencia

[1] Fuente: Revisiting the Business Card Raytracer
[2] Fuente: Fermi: la primera arquitectura de computación de GPU completa
[3] Fuente: NVIDIA GeForce 8800 GTX (techpowerup.com)
[4] Fuente: documento técnico de Fermi (GF100)
[5] Fuente: NVIDIA GeForce GTX 480
[6] Fuente: documento técnico de Kepler (GK104)
[7] Fuente: NVIDIA GeForce GTX 680
[8] Fuente: documento técnico de Maxwell Gen1 (GM107)
[9] Fuente: documento técnico de Maxwell Gen2 (GM200)
[10] Fuente: NVIDIA GeForce GTX 980 Ti
[11] Fuente: documento técnico de Pascal (GP102)
[12] Fuente:NVIDIA GeForce GTX 1080 Ti
[13] Fuente: documento técnico de Turing (TU102)
[14] Fuente: NVIDIA GeForce GTX 2080 Ti

Nvidia Streaming Multiprocessor History