Comentario Original:

Urian parece que se filtra una supuesta rx5950xt con 5120 SP, 320 TMUs, 96 ROPs, 80 CU, 12 MB de caché L2, 24 GB de memoria HBM2E con un bus de 4096 bits y un ancho de banda de 2048 GB/s.

Bueno, no es otra cosa que…

La cantidad de cosas que no cuadran es cuanto menos sorprendente y lo peor de todo es que los expertillos de la prensa se la han comido doblada, ¡Bravo! ¡Se merecen todo un aplauso!

Para empezar nos hablan de un bus de 4096 bits HBM2e, lo que significan 4 pilas HBM2E, cada pila de este tipo de memoria tiene un bus de 1024 bits y una configuración 4-Hi que signfica que es una pila de 4 chips donde cada chip toma 2 de los 8 canales de 128 bits.

Pues bien, las actuales pilas de 4 para la memoria HBM son de unos 8GB cada una, con 2GB por chip en la pila. Esto significa que con un bus de 4096 bits tendríamos unos 32GB de memoria y no 24GB, para tener 24GB necesitaríamos un bus de 3072 bits en las especificaciones y esto rompería por completo la simetría de la GPU por lo que es imposible.

Lo que si que permite la HBM2E es tener una configuración de hasta 12 chips en pila, pero el problema de añadir un chip de más es que este aún hace más cara la memoria, a más chips en la pila más riesgos de defecto y por tanto de enviar toda la estructura a…

Además, que el pasar de 8 chips máximo a unos 12 chips significa pasar de un bus de 1024 bits a uno de 1536 por pila, sencillamente no cuadra.

Lo que tampoco cuadra es el ancho de banda, SK Hynix hablo que tenia una HBM2E pensada para este año con una velocidad máxima de 3.6 Gbps, haciendo un cálculo rapido:

3,6 Gbps*4096 bits= 14745.6 Gbps = 1843.2 GB/s = 1.8 TB/s

Es decir, ni la HBM2E más rápida llega a esa velocidad de 2TB/s del rumor

El segundo punto a tener en cuenta es la Cache L2, la cantidad depende directamente del ancho de banda externo. Dado que la GDDR6 y la HBM2 con bus de 2048 bits tienen anchos de banda en el mismo rango se les conecta la misma cantidad de memoria que son 4MB por lo que una versión con HBM2 y un bus de 4096 bits debería ser de unos 4MB, esto además ampliaría la cantidad de canales desde la Cache L2 al Shader Engine pudiendo duplicar estos respecto a la RX 5700 y poder colocar los 80 CUs en teoría.

Pero hemos de tener en cuenta lo que es cada Shader Array dentro de cada Shader Engine en RDNA.

Cada Shader Array esta conectado a la Cache L1, sus clientes son:

  • Los WGP/CU y se comunica con la Cache L1 a través del Export Bus de la Cache L0
  • La unidad de Rasterizado.
  • La unidades RB, llevando 4 ROPS en total cada una.

Por cierto, en el último articulo de Wikichip nos explican el motivo de la existencia de dicha cache intermedia entre la cache de datos de la CU y la Cache L2 y es un detalle sumamente interesante. Entre parentesis mis comentarios.

El subsistema de caché también fue rediseñado. En Navi, se ha agregado una nueva unidad L1 entre las Compute Units y la L2. Lo que antes era L1 (GCN) ahora se llama L0 (RDNA). La L1 es en realidad una memoria de lectura en la mayoría de casos . Cualquier escritura en la L1 (por parte de las Compute Units) invalida las líneas de caché en el L1 y se escribe en el L2. Por esa razón, las escrituras generalmente pasan por alto el L1 al L2 directamente. (Pero la L2 si que puede escribir en la L1).

Anteriormente, el L2 servía todos los Cache Miss de la L1 dentro de las Compute Units (recordad que AMD ha renombrado dicha memoria como L0). En Navi, gran parte de esa función se trasladó a L1, que centralizó todas las operaciones de almacenamiento en caché del Shader Array. El proceso de 7 nm castiga el envío de datos a través de cables largos y existe una creciente necesidad de reducir eso. La caché L1 también reduce la congestión en el L2 y simplifica su diseño general, pero realmente está ahí para combatir los parásitos provocados por el cable de 7 nanómetros

Pues bien, esta Cache L1 esta pensada para ser cliente de 4 unidades RB en total… Lo que son unos 16 ROPS, para tener una configuración de 96 ROPS necesitariamos por tanto 6 Shader Arrays con una cantidad simétrica de Compute Units… ¿Cuantas Compute Units han dicho que tiene el rumor? ¿80?

80/6= 13.33

No se pueden tener trozos de Compute Unit/WGP como ya sabéis, todo este rumor que se ha tragado la gente es cuanto menos ridículo y merece que la gente se ria de quien se lo ha tragado de mala manera.

¿Entonces como vendría a ser una posible Big Navi? Veamos lo que YO creo.

  • Configuración de 12 CUs, 6 WGP por Shader Array
  • 6MB de Cache L2
  • Bus de 384 bits GDDR6
  • Hasta 72 CUs/36 WGP en total

No agrego más, con que sepáis lo Fake que son esas especificaciones tengo bastante.

Esto es todo, como siempre tenéis el Discord y los comentarios de la misma entrada para comentar el contenido de la misma.