Hace poco escribí un artículo, muy corto por cierto, acerca de la eventual PS5 Pro o como SONY quiera llamarla y qué podéis encontrar aquí. Del cual lo que es realmente importante son las siguientes partes:

Lo primero a tener en cuenta es el tamaño de la APU y es que debido al creciente coste con cada nuevo nodo ha ocurrido un fenómeno curioso en las consolas PlayStation desde el lanzamiento de la PS4. Debido a esto todo nuevo modelo de APU que AMD ha diseñado para SONY ha tenido un área más pequeña que el anterior, algo que puede pasar desapercibido a simple vista, pero que tiene sentido si SONY quiere mantener unos costes constantes con su consola.

Esto es muy importante, dado que el nodo de 5 nm tiene un coste por oblea mucho más alto que el actual de 7 nm esto significa que el coste por milímetro cuadrado será a ser mucho más alto y SONY paga siempre lo mismo por chip en todas las consolas, lo que se traduce de entrada en que los sueños húmedos de muchos sobre una doble GPU y demás tonterías que se le ocurren a la gente no van a ocurrir, creedme que el salto de PS5 a PS5 «Pro» va a ser menor que de PS4 a PS4 Pro en lo que a potencia bruta de cálculo se refiere, pero con un matiz que explicaremos más tarde.

Luego más adelante he hablado de la lista de tecnologías viables en PS5 Pro, pero el punto más importante es el siguiente:

Llegados a este punto hemos de aclarar de que si se confirma que AMD rompe la compatibilidad con el modo Wave64 en RDNA 3 entonces no se podrá adoptar dicha tecnología en PS5 Pro por un motivo muy simple: perder este modo significa romper la compatibilidad con la arquitectura GCN y por tanto con los juegos con PS4 y PS4 Pro.

Para explicar este párrafo hemos de entender la evolución:

  • RDNA 1 y GCN comparten el mismo tipo de planificador, capaz de gestionar 40 olas de hilos de ejecución, 10 por unidad SIMD16. La diferencia es que en RDNA existe el modo WAVE32 que trabaja con un tamaño de 32 hilos de ejecución por hola.
  • RDNA 2 tiene un planificador renovado en PC, el cual trabaja con 32 olas de hilos de ejecución.

Es decir, AMD está cambiando con cada generación pequeñas piezas provenientes de GCN/Vega para colocar piezas nuevas que las reemplacen y hacer la arquitectura más eficiente y dentro de estos cambios de cara al PC se encuentra el reemplazo de todas las partes que hacen a las dos primeras generaciones de RDNA compatibles con las consolas.

¿La realidad? Pues bien, parece ser que tanto SONY como Microsoft tienen un elemento GCN en sus consolas, el planificador de cada Compute Unit, ya que ha de soportar todos los modos de funcionamiento para la compatibilidad hacia atrás con los juegos y la cosa se agrava si hablamos de los juegos Cross Gen que están en la rampa de lanzamiento.

¿Es mejor el planificador de RDNA 2 que el de RDNA? Realmente no, simplemente RDNA 2 utiliza una configuración de 32 hilos de ejecución por ola por el hecho que es más fácil de organizar y deja menos huecos libres, pero esto no se hace de forma automática, es escogido por el desarrollador.

La idea es muy simple, las Compute Units en GCN están la duración de 10 Wavefronts u olas ejecutando lo que haya en los registros en ese momento y hasta que no ocurra ese periodo dichos registros no se llenaran de nuevo. En cambio en RDNA 2 el cambio es que esto dura 8 olas en total. ¿La contrapartida del modo GCN? El nivel de ocupación marcado como GCN VGPR Count en la diapositiva es de 32, justo la cantidad de ALU por SIMD en RDNA, mientras que en GCN el modo 10 olas tiene una ocupación mucho más baja.

¿Y qué tiene que ver esto con PS5 Pro? Muchos juegos de PS4 utilizan el modo 10 Wavefronts dado que no están optimizados y cambiar el planificador rompería por completo la compatibilidad hacia atrás. En PC esto se puede hacer por el hecho que el driver se encarga de realizar esos ajustes de manera automática y muchos pensaréis que entonces tiene que existir un driver en PS5 para hacer lo mismo, pero en consolas esto es algo contraproducente y lo mejor es conseguir la total compatibilidad por hardware, con ello te olvidas de problemas y una forma de hacerlo es mantener ciertas piezas en el hardware.

Y con esto llegamos al primer punto, ya que es importante:

Las Matrix Core Units de CDNA o CDNA 2 en el interior de cada Compute Units, son el equivalente a los Tensor Cores de NVIDIA y serán clave para obtener más resolución o tasa de fotogramas en la nueva iteración.

Hemos de partir de la base que la nueva generación de consolas utiliza el mismo planificador por Compute Unit que GCN, ¿Y que es un derivado de GCN? CDNA que incluye las llamadas Matrix Core Units, un nombre para referirse al equivalente a los Tensor Cores de NVIDIA en las GPU de AMD. RDNA 3 tendrá otro tipo de Matrix Core Units más potentes que los de CDNA y adaptados a la longitud de sus registros, pero lo que nos interesa es la de CDNA o AMD Intinct MI100 portada a las Compute Unit de PS5 Pro.

En el Whitepaper de CDNA podemos encontrar lo siguiente:

Las CU se han ampliado con los nuevos Matrix Engine para manejar instrucciones del tipo MFMA y aumentar el rendimiento y la eficiencia energética. La unidad de ejecución matricial tiene varias ventajas sobre el pipeline de vectores tradicionales de GCN.

Primero, la unidad de ejecución reduce el número de lecturas de archivos de registro, ya que en una multiplicación de matrices se reutilizan muchos valores de entrada.

En segundo lugar, los tipos de datos más estrechos
crean una gran oportunidad para las cargas de trabajo que no requieren una precisión FP32 completa, por ejemplo, el aprendizaje automático.

En general, la energía
consumido por una operación de acumulación múltiple es el cuadrado de los tipos de datos de entrada, por lo que cambiar de FP32 a FP16 o bf16 puede ahorrar una tremenda cantidad de energía

Cada Compute Unit en CDNA tiene un Matrix Core Engine en su interior que al igual que los Tensor Core de NVIDIA comparte los registros con la unidad SIMD. Se trata de una unidad tensorial en una configuración de 16 x 16 ALU en FP32, lo que le permite otorgar 256 cálculos por ciclo en FP32, pero en IA se usan formatos más simples y gracias al llamado SIMD sobre registro pueden otorgar hasta 1024 operaciones por ciclo en FP16, FMADD.

Esto es clave para poder ejecutar la respuesta al NVIDIA DLSS, y no hablo del FSR actual, sino uno más avanzado que haga uso de este tipo de núcleos para la generación de imágenes a más resolución a partir de una más baja. Sobre eso también cubrí una noticia en HardZone.

Por lo que la forma de ganar rendimiento en PS5 «Pro» será a través de algo exactamente igual al DLSS de NVIDIA en PC. Es decir, renderizando nativamente a menor resolución que la de salida para ganar más calidad visual o fotogramas para que luego al algoritmo FSR 2.0 utilizando los Matrix/Tensor Cores que habrá en las Compute Units mejoradas reconstruya la imagen a mayor velocidad en tiempo récord.

Las unidades RB+ de RDNA 2 de PC y en las Xbox Series que le darán la capacidad para Variable Rate Shading, una función de RDNA 2 que carece PS5.

Estas unidades no se encuentran en PS5 por el hecho que el SoC se terminó antes que RDNA 2 y el de Xbox Series X, lo cual será una pequeña ayuda de rendimiento en muchos juegos. Sinceramente no me apetece entrar en polémicas respecto a esta diferencia ni a hablar de hardware mágico, simplemente la consola de SONY no soporta VRS por hardware.

La unidad de intersección que acelera el Ray Tracing será mejorada en RDNA 3, al ser una pieza autocontenida y viable en su implementación en PS5 Pro.

Los cambios en el Ray Tracing en RDNA 3 serán profundos y algunos implican el nuevo planificador que AMD está diseñando, pero como hemos dicho antes PS5 «Pro» continuará utilizando el planificador en cada Compute Unit de la primera RDNA. Técnicamente se puede decir que la GPU de PS5 es RDNA con las unidades de cálculo de intersección para el Ray Tracing de la segunda generación de la arquitectura.

Lo que vamos a ver mejorada es dicha Ray Accelerator Unit, la cual es una pieza que aunque se encuentra dentro de la Compute Unit, pero es autocontenida en sí misma. Hay que tener en cuenta que la unidad de intersección en RDNA 2 es mucho peor que su equivalente de NVIDIA al tener que tirar de programas shader para recorrer la estructura de datos BVH.

¿Veremos la Infinity Caché integrada en la APU del próximo modelo de SONY? Quien sabe, pero es clave para mantener altas velocidades de reloj de manera sostenida.

La GPU de PC más cercana a la de PS5 es la RX 6700 XT que tiene 96 MB de Infinity Cache, se ha de tener en cuenta que dicha cantidad depende del bus de memoria, al ser en la gráfica de PC de 192 bits y en PS5 de 256 bits la conclusión es que la Infinity Cache tendrá que ser de > 128 MB y pongo el «mayor que» por el hecho que el SoC se fabricará a 5 nm y es posible que veamos una configuración de 256 MB, pero dado que el área es algo crucial en el chip.

¿Las ventajas de la Infinity Cache? Pues son simples, se encarga de adoptar las líneas de caché y por tanto de datos que son descartados de la caché L2 de la GPU por falta de espacio en la misma, los cuales irían a la VRAM y tendrían un coste energético de recuperación entre 7 y 8 pJ/bit, mientras que si el dato está en la Infinity Caché el consumo es de 1.3 pJ/bit. Esto es clave para poder ejecutar las instrucciones de la GPU a mayor velocidad de reloj y que la velocidad base de la GPU en «PS5 Pro» sea más alta que en PS5.

No sabemos cuál es la velocidad de reloj base, pero la GPU en modo PS5 está fluctuando entre dicha velocidad y la de Boost que es la que SONY anuncio en el Road to PS5 de Mark Cerny. Por lo que la GPU de «PS5 Pro» será algo más rápida por esto incluso teniendo la misma configuración y esa velocidad extra será crucial para dar algunos milisegundos de ventaja de cara a implementar escalado a más resolución vía IA.

Es posible que veamos la implementación de núcleos Zen 4, dado que la consola estará fabricada a 5 nm, el nodo para el que se ha diseñado este procesador de AMD.

Aquí es muy sencillo, el SoC se fabricará a 5 nm al igual que las APU o SoC de AMD para PC que implementarán los núcleos Zen 4 y se sabe que la interconexión de los núcleos con el resto del procesador es la misma que tiene Zen 2 y Zen 3, por lo que conectarlos al diseño no será un problema. Aunque lo que nos esperamos es que nuevas funciones como las instrucciones AVX-512 por su alto consumo no estarán disponibles, pero estamos hablando de un aumento del rendimiento en CPU del 45% aproximadamente.

¿Su utilidad? Hace que la CPU tarde menos tiempo en calcular la escena para que así la GPU tenga más tiempo para generarla lo más rápidamente posible. Al final se trata de ganar milisegundos de tiempo para cada fotograma para implementar el escalado a través de la IA sin perdida de fotogramas a la resolución actual y perdón por repetirme, pero esa va a ser la forma en la que PS5 «Pro» va a obtener un mayor rendimiento que el modelo actual en los juegos.

Esto es todo, hay ideas que guardo en el tintero y algunas las podría extender más, pero no es plan de meteros exceso de las mismas y pienso que este es el escenario más realista.