Comentario#1:

¿Humo debido a accionistas?

En serio, es algo medio……como mucho serviria para subir de 1080p a 1440p, siendo MUY generosos. Lo uuuuuuuuuuuuuuuuunico a su favor seria el Tera por segundo de ancho de banda, que, bueno, es algo…

La realidad es que las Turing son Nvidia Quadro y no las clásicas Geforce, sus funciones adicionales como el Raytracing y los Tensor Cores son cosas que tienen sentido no en en el mercado de gaming sino en en el de creadores de contenido y están utilizando la gama GeForce para promocionarlo.

Es más, los muy listos antes de presentar las GeForce RTX 20×0 ya habían presentado el DLSS como DLAA durante la presentación de las Nvidia Quadro que para colmo utilizan lo mismo chips aunque con más densidad de memoria GDDR6 por utilizar esta en modo clamshell.

No se porque lo renombraron a Super Sampling cuando no tiene que ver con el clásico SSAA que consiste en renderizar la escena a más resolución de la de salida cuando el DLSS es justo lo contrario ya que se renderiza a menos resolución, aparte de utilizar varias muestras (fotogramas anteriores) para realizar la muestra por lo que es un tipo de Temporal Antialiasing.

En fin y sin irnos de las ramas, AMD no tiene un equivalente a las Nvidia Quadro y su presencia en dicho mercado es nula. En dicho mercado la forma en la que Nvidia diseño Volta y después Turing tiene sentido porque tanto los Tensor Cores como lo RT Cores tienen más utilidad que en una GeForce y sobretodo los ultimos, el motivo de ello es que hablamos de una tecnología en el caso del Raytracing que bien es un avance claro tiene por el momento que no es lo suficientemente buena para el tiempo real pero para por ejemplo otro tipo de aplicaciones audiovisuales es increible.

Pensad ahora alguien que quiera realizar una pelicula de animacíón haciendo uso del Raytracing, con Turing lo costes en hardware y energéticos se les han reducido enormemente. No solo eso, sino que las capacidades de los Tensor Cores son muy buena para la creación de contenido, por paradojico que parezca va a ser el mercado televisivo el que se vea más beneficiado por todo esto y eventualmente el mercado de los videojuegos, pero más adelante.

En el caso de AMD si van a colocar soporte para Machine/Deep Learning es por el DirectML y por el hecho que tiene un apoyo real por parte de los desarolladores. Los ingenieros tanto de AMD y Nvidia no pueden predecir, tienen que ir siempre al What If, la diferencia es que AMD ha ido siempre a coste y no coloca las tecnologías si ven que no están estandarizadas en los juegos porque esto les permite tener chips más baratos, tendencia que se ha roto por completo con Vega y que les ha resultado un fiasco enorme.

Y lo peor es el departamento de marketing de AMD eh…

Y digo que es lo peor porque Vega no es una GCN al uso ya que le han colocado cambios tan bestias que se podría considerar una arquitectura nueva sin problemas y con Navi han tenido que re-hacer por completo la GPU porque a partir de la ineficiente Vega no pueden hacer el camino hacía adelante. ¿Y como se esto? Pues porque si vamos a ver su GPU en una consola next gen no puede tener la ineficiencia energética de Vega y esto requiere un re-working completo de ciertos modulos de la arquitectura.

Curiosamente AMD queria meterse en el mercado del Machine/Deep Learning en el potencialmente mundo de los smartcars y entrar en conjunto con Intel. Este es el motivo del desarrollo de la unidad Super-SIMD por parte de AMD y es lo que permitio el acercamiento con Intel que ha dado como producto el Kaby Lake G.

El jefe del proyecto era Jim Keller quien abandono por completo a AMD este pasado mes de Septiembre. Con él dicho proyecto se ha ido por la puerta pero AMD ha conservado bajo su propiedad el diseño de la Compute Unit con unidad Super-SIMD que van a implementar a partir de Navi… ¿El motivo? Microsoft lo va a estandarizar via DirectML que no es otra cosa que una extensión de DirectX.

Y como se esta utilizando ya en varios juegos y más aún que el Raytracing lo que van a hacer es arrastrar dicha unidad hacía Navi reemplazando la NCU que hemos visto en Vega. Pero claro, de algunas cosas hablo de oidas y obviamente no tengo información privilegiada. Lo que si que es seguro es que si la CU con unidades Super-SIMD era para el mundo de lo smartcars que funcionan por lo general un consumo energético menor que un ordenador de sobremesa entonces tiene sentido que AMD cambie la ineficientes energeticamente NCUs de Vega por el nuevo tipo de unidad.

Comentario#2:

Por lo visto los tensor cores son sobre todo para entrenar la IA de forma rápida y eficiente.

Ejecutar un modelo previamente entrenado por los desarrolladores es muchisimo mas rápido.

El DLSS requiere el entrenamiento previo con el super ordenador Saturn de nvidia con imágenes de maxima calidad y resolución de las texturas que les pasan los desarrolladores que lo soportan.

Bueno, un 15% de uno 33.3 ms supone que el renderizado a 1440P son unos 28.3 ms en total, el DLSS es lo último de todo que se aplica cuando todo el pipeline gráfico ha sido completado y tienes la imagen RGB en el bufer de imagen. En todo caso lo que hay que tener en cuenta que una cosa e el training que es el hecho que la IA aprenda un patrón y lo otro es el intefering que es la aplicación de dicho patrón.

La idea de la la computación en la nube por GPU es algo que ya comente en el pasado y que se llama Grid Computing que consiste en dividir la carga de trabajo entre varios procesadores de una red, esto supone cambios en el procesador de comandos para que sea capaz de operar con varias listas de comandos gráficos en paralelo en vez de una sola. Nvidia lo aplico en Volta pero no le dieron tanta publicidad y es lo que utilizan en el Saturn V… En el caso de AMD es el unico cambio de Vega 14nm a Vega 7nm y lo que han hecho es que pueda gestionar 16 listas de comandos gráficos sin relación entre ellas en paralelo.

La idea de cara al superscaling en ambos casos no es la de renderizarte la escena a más resolución en la nube sino utilizar el Machine/Deep Learning para encontrar patrones comunes en las imagenes. Es decir, mientras juegas o mientras los desarrolladores prueban su juego van enviando muestras para el training y utiliza esos patrones para localizar artefactos y corregirlos. Pero una vez que el Training ha sido realizado el resultado se pasa en forma de programa para que la GPU que hay en cada sistema ya sea con unidades tensoriales o por Compute Shaders pueda realizar el trabajo.

Es más, en el caso del DirectML lo convierte a Compute Shaders, de ahí a que la Radeon VII (Vega20) sin Tensor Cores pueda…

Cada juego tiene un modelo entrenado personalizado para sus texturas.
Aún así dijiste que consume 6 ms en la 2080 ti desde 1440p a 4k… Eso no llega al 15% pero sin tensor cores es preocupante.

Sin embargo se parte desde mitad de resolución como con el checkerboard/temporal filter (no confundir con temporal AA)

Por eso no muestran absolutamente nada y por eso pienso que se van a esperar a Navi para mostrarlo.

En todo caso el 15% para renderizar de 1440P (2X respecto a 1080P) a 4K supone que el tiempo de escalado es un 30% de 1080P a 4k aunque me estoy adelantando mucho. Claro esta que si a 1080P el tiempo es en teoria de un 25% respecto a 4K, el hecho de añadir un 30% adicional hacen un 55% del tiempo para renderizar a 4K en forma nativa. Se quiera o no es una pequeña aceleración y va muy bien especialmente en el hardware donde las cosas van muy justas pero con el paso a los 7nm+ con Ampere vamos a ver la combo Raytracing+DLSS porque ese 15%-30% en realidad es negligible por el aumento de la velocidad de reloj que vamos a ver.

Utilizar el pipeline hibrido a 4K nativos en rendimiento es cuanto menos…

En cambio tiene sentido renderizar a menos resolución con el Raytracing y escalar via DLSS, igualmente los Tensor Cores son necesarios para el Denoising de la escena. Sinceramente pienso que Navi Lite carecerá de las unidades para el Ray Tracing pero la Full Navi que veremos en PC en 2020 estara completamente equipada con ello porque la demanda en cuanto a juegos habrá aumentado.

Tal vez sin tensor cores en vez de subir los frames se quede mas o menos igual pero en el proceso tienes definicion de imagen equivalente a no bajar la resolución y hacerle supersampling x4, como con el TAA, pero sin comerte ghosting.

Y digo sin tensors por lo de dar soporte de una imitación de DLSS a AMD con directML.

Algoritmicamente el proceso es el mismo, solo que un tipo de hardware es más rápido y eficiente que otro.

Y con esto terminamos, tenéis el Discord y los comentarios de la entrada para comentar.