Ayer el leaker Komachi_Ensaka filtro una información sobre Navi que posteriormente ha borrado bastante interesante que por el momento como no es oficial la cogeremos con pinzas.

  • Pasaríamos de 4 Shader/Compute Engines (tened en cuenta la nueva nomeclatura) a unos 8, esto significa que la cantidad de Geometry Engines (unidad de teselación) y de DSBR (unidad de rasterizado) va a pasar de 4 a 8 también.
  • La configuración parece ser de 40 CUs, teniendo en cuenta que tenemos unoas 8 Shader/Compute Engines entonces pasamos a tener unas 5 CUs por cada.
  • Dado que como mínimo ha de existir un RBE por Shader/Compute Engine hemos de suponer que el mínimo son 8 RBE que equivalen a 32 ROPS.

El segundo punto es sobre las Compute Units, se dice que han pasado de una configuración 4×16 a una configuración 2×32. Siendo la cantidad de ALUs la misma… ¿Pero que significa esto? Los Wavefronts en la arquitectura GCN son de 64 hilos y se asigna un hilo por cada ALU. Las CUs clásicas de la arquitectura GCN ejecutan 4 Wavefronts simultaneos, uno por cada unidad SIMD. Dependiendo del tipo de instrucción el tiempo minimo en solventar cada Wavefront es de 4 ciclos ya que tenemos 64 hilos y 16 ALUs por unidad SIMD.

El Planificador interno de cada CU suele enviar un Wavefront por unidad SIMD y por ciclo, de tal manera que la ejecución de los Wavefronts queda más o menos así:

Ahora bien… ¿Os acordáis del concepto de la unidad Super-SIMD? En ella se hablaba de acumular los hilos de la GPU en bloques de 2 de tal manera que podemos colocar unos 128 hilos en un Wavefront de 64 hilos VLIW2. Esto nos permitiría a nivel de Compute Unit hacer lo siguiente:

Es decir, el Wavefront con 64 hilos VLIW2 cuando llega a la Compute Unit es desglosado en 2 Wavefronts internos y enviados de manera simultanea a dos unidades SIMD. Esto implica además que el Export Bus de cada Compute Unit pasa de transmitir unos 8 bytes/ciclo a unos 16 bytes/ciclo por lo que pasamos de tener una configuración de hasta 4 CUs alrededor de la cache L1 de instrucciones a tener grupos de 2 CUs. Esto significa que con 5 CUs pasamos a tener una configuración de 2+2+1 por Shader/Compute Engine y dado que hay una correlación entre el número de grupos de CUs y de unidades RBE entonces puede que nos encontremos ante una configuración de de 3 RBE por Shader/Compute Engine y por tanto hasta un total máximo de 24 RBEs en total… ¡96 ROPS! Por otro lado la cache L2 podría ir de los 4MB a los 6MB. Se ha de tener en cuenta que AMD por limitaciones de espacio y ancho de banda podría terminar recortando la cantidad de RBEs y de la Cache L2.

Y digo puede porque en este último término puede que me equivoque por completo, por lo que estos rumores al no ser oficiales os pediría que los cogieséis con pinzas y sed completamente escépticos. Faltan pocos días para salir de dudas sobre esto y el cambio en la organización de la arquitectura no sería menor precisamente. Tened en cuenta que esta entrada es una reflexión rápida sobre los rumores que han aparecido estos días en este aspecto.

Esto es todo, como siempre tenéis el Discord y los comentarios de la misma entrada para comentar el contenido de la misma.