En esta entrada os voy a dar una especulación realista de como creo yo que podría ser el hardware de la sucesora de Switch, por lo que aquí no vamos a tratar nada acerca de la inexistente Switch Pro. Y para ello voy a utilizar información por parte de una fuente confiable respecto a Switch 2. Nada de sujetos ignorantes glorificados en los foros de internet para crear una narrativa en los foros y las redes sociales que realmente no se sustenta en nada más que mentiras.

¿Por qué considero que la fuente es fiable? Por el hecho que Kopite7kimi hasta ahora ha ido filtrando de manera exacta y específica todas las especificaciones de las diferentes GPU de NVIDIA para PC con meses de antelación y con precisión quirúrgica. El problema es que muchos están ya malinterpretando su tweet, dado que la imagen que muestra es del chip T234 cuando el de Nintendo es el T239. E

La imagen que ha utilizado en el tweet corresponde al die del Tegra Orin que NVIDIA mostro hace unos meses y es importante remarcar este detalle antes que la gente se haga ilusiones con detalles como 12 núcleos Cortex-A78 o GPU de 2048 «núcleos» CUDA para la Switch 2, en concreto la imagen esta sacada de la siguiente diapositiva.

De las especificaciones técnicas quedaos con la información de 200 TOPS en INT8, va a ser importante para todo lo que voy a explicar aquí.

Como se puede ver, dicho SoC esta pensado para un sistema con 45 W de consumo. Switch en modo Dock consume 12.8 W y en modo portátil 9.8 W. Lo cual son consumos normales dado el tipo de dispositivo del que hablamos. En pocas palabras, no puedes poner un SoC de 45 W de consumo en un dispositivo tipo Switch y ya de entrada esto serviría ya para descartar este SoC como el de la Switch 2.

Se pueden ver 8 chips de memoria LPDDR5 o LPDDR5X, lo cual nos indica que estamos ante un chip muy grande. Muy posiblemente al estilo de su antecesor, el Tegra Xavier, el cual mide 360 mm^2. ¿Cuánto mide el de Tegra X1 de Switch? 120 mm^2, el cual es una cifra estándar entre los SoC de dispositivos PostPC que se pueden encontrar en tablets y smartphones, por lo que queda claro que este SoC no puede ir a un dispositivo que continúe con la filosofía de la Nintendo Switch que tenemos a día de hoy en el mercado.

¿Cuál puede ser entonces el T239 del que habla Kopite7Kimi? Pues esta claro que el T239 es el Orin-S que salió en el mapa de ruta de NVIDIA de hace ya un par de años.

Lo de los 100 TOPS para Orin en vez de los 200 TOPS lo explicaré a continuación, tiene que ver con la forma en la que NVIDIA cuanta la potencia de cálculo de los Tensor Cores a partir de la versión 3.0 de los mismos. El motivo de ello es que NVIDIA introdujo un sistema de poda en los Tensor Cores 3.0 de sus arquitectura Ampere.

De ahí a que de las especificaciones de 2019 a las de 2020 la cantidad de TOPS máximos se haya duplicado por completo en las especificaciones de NVIDIA. Por lo que esto se traduce en que el Orin-S con los datos actuales debería tener un rendimiento de 72 TOPS en total y no de 36 TOPS.

Ahora bien, el propio Kopite7Kimi hablo en su día que Orin no es Ampere, sino ADA en honor a Ada Lovelace, la siguiente arquitectura de NVIDIA.

La familia Orin se fabricará bajo el nodo de 8 nm de Samsung, el cual es utilizado en estos momentos por las RTX 30 y haciendo uso de la arquitectura ADA o Lovelace. Por otro lado, sabemos que NVIDIA llamada a ADA bajo la denominación «Ampere Next» en su mapa de ruta y es que apenas van a haber cambios de una arquitectura a otra, excepto en el detalle de los Tensor Cores.

¿Cómo lo sabemos? Cojamos por ejemplo las especificaciones de la NVIDIA RTX 3070 Ti, la cual lleva en su interior una configuración de 48 SM, 3 veces más que el Tegra Orin de 45 W. ¿Su potencia de cálculo? Pues derivando de la siguiente diapositiva oficial estaríamos hablando de 348 TOPS para 48 SM.

¿Cómo podemos saber la potencia en Int8? De cara al cálculo con menos precisión, NVIDIA utiliza el SIMD sobre registro en cada una de las ALUs que forman parte de la matriz que es el Tensor Core, por lo que bajo precisión de 8 bits pueden realizar el doble de operaciones que bajo precisión de 16 bits, de ahí que hablemos de 348 TOPS.

Recordemos que las especificaciones del Tegra Orin hablan de 200 TOPS para 16 SM, lo cual significa que de cara al Tegra Orin, NVIDIA ha implementado un nuevo tipo de Tensor Core con mayor capacidad de cálculo que el que su arquitectura Ampere.

Teniendo en cuenta que los 200 TOPS del Tegra Orin son debido al algoritmo de poda y que la potencia real es de 100 TOPS, si aplicamos una formula en concreto podremos saber la velocidad de reloj a la que deberían ir los Tensor Cores de las GeForce Ampere en el Tegra Orin para alcanzar dicha tasa de cálculo.

(100*10^12)/(16*1024)= 6.103.515.625 Hz

Esto son 6.1 GHz, es imposible esa velocidad de reloj.  Por lo que la deducción lógica es que NVIDIA en ADA ha integrado un Tensor Core aún más potente. Pero, ¿cómo podría ser dicha configuración? Antes de nada hagamos repaso a como esta configurada una unidad Tensor.

Las unidades Tensor son lo que llamamos arrays sistólicos, se llaman así por el hecho que están conectados entre si en una matriz cada unidad de cálculo. En una unidad Tensor cada unidad de la matriz tiene su propia memoria local o registro y sus datos de entrada provienen de la unidad anterior. Es decir los datos son bombeados entre unidades y de ahí que sean llamados también arrays sistólicos.

Son sumamente útiles para realizar operaciones matriciales a una velocidades mucho más altas que las unidades SIMD. Pero en especial tiene su utilidad en las redes neurales convolucionales que se utilizan para el tratamiento de la imagen, donde trabajamos con vectores de tres dimensiones. Siendo una matriz un vector de dos dimensiones y un Tensor una de tres dimensiones.

Las redes neurales convolucionales se utilizan especialmente en la visión por computador, esta es la que se utiliza en algoritmos como:

  • Super-resolución vía IA
  • Denoising.
  • Tracking de manos  para la realidad virtual.

¿Entonces? Simplemente NVIDIA en Lovelace va a aumentar el tamaño de la matriz de ALUs que forma parte de cada Tensor Core. ¿Cómo? Pues NVIDIA habría duplicado en ambas dimensiones de la matriz la cantidad de ALUs en cada Tensor Core respecto a los RTX 30, por lo que estaríamos hablando de 4 veces la capacidad de cálculo en los Tensor Cores. Mientras que el resto del SM no se vería afectado.

Por lo que la velocidad de reloj del Tegra Orin con 100 TOPS en denso y 200 TOPS en escaso, el de 45 W de consumo, pasaría a ser de 1526 MHz aproximadamente, una cifra totalmente acorde con la realidad.

Desglosando a Orin-S

Vale, no sabemos nada de Orin-S por lo que vamos a ir a la especulación en este caso. ¿Qué es lo que pienso? Pues dentro de la lógica creo que Orin-S va a tener la mitad de configuración que Orin estándar en cuanto a GPU se refiere. El motivo de ello es que no creo que tenga una configuración en SM peor que la del Tegra Xavier, la cual es de 8 SM.

Si hacemos una regla de tres para alcanzar los 36 TOPS entonces pasaríamos a 1098 MHz de velocidad de reloj con un hipotético Tegra Orin-S de 8 SM. ¿Cómo se compararía la GPU entonces con la de la Switch actual? Veamos:

CaracterísticaTegra X1Tegra Orin-S (Especulación)
Velocidad de reloj (MHz)7681098
SM48
ALUs FP32 x SM64128
TFLOPS (FP32)0,3932162,248704
Unidades de Textura 1632
Tasa de texturizado 1228835136
ROPS1632
Tasa de relleno1228835136
Unidades de rasterizado12
Triangulos rasterizados/ciclo7682196

Una de las cosas que he observado en el diagrama del Orin que se ha visto al principio de esta entrada es el hecho que esta compuesto por dos GPC, de ahí a que en la tabla yo haya puesto lo de los 32 ROPS en vez de 16 y la cantidad de triángulos rasterizados se haya duplicado. Creo tener solo 16 ROPS y 1 solo rasterizador sería un enorme cuello de botella para una Switch de siguiente generación.

¿En que nivel de potencia estaría? Pues un poco por encima del nivel de una PlayStation 4 estándar, lo cual es un salto considerable y haría que muchos juegos puedan ser fácilmente portados. En cuanto a la CPU pienso que vamos a ver una configuración de 8 núcleos, 4 menos que el Tegra Orin estándar. ¿Por qué creemos ques será de 8? Por los siguientes motivos:

  • Es la configuración del Tegra Xavier y ya hemos comentado que no creemos que el Orin-S tenga una configuración más baja que el Tegra Xavier.
  • 8 núcleos es la configuración de PS4 y Xbox One, tened en cuenta que Switch en potencia a nivel generacional esta al nivel de PS3 y 360. Algo por encima, pero se situaría en esa generación en lo que a terminos de potencia se refiere.

¿Qué hay del resto del SoC?

Debido a que los Tegra a día de hoy son SoCs para automoción inteligente tienen una serie de aceleradores para la visión por computador. Hemos de tener en cuenta que NVIDIA no suele crear chips semi-custom poniendo y quitando piezas con configuraciones varias. Al igual que el X1 tiene piezas que Switch no utiliza, Tegra Orin-S las tiene, pero dichas unidades esta vez si que tendrán utilidad. ¿En que sentido? Pues al hecho que la visión por computador son muy útiles de cara a la Realidad Virtual y ya hemos visto unidades similares al NVDLA y al CVA de NVIDIA siendo utilizadas para el tracking para la realidad virtual.

Y si, pienso que la Killer App de Switch 2 será la Realidad Virtual, sinceramente esperaba que Facebook/Oculus supiese de videojuegos y mostrase algo en su presentación del E3 de 2021, pero sinceramente ha sido vomitiva. Solo hace falta que Nintendo sepa orientar alguna de sus franquicias de éxito a la VR para vender cien veces más y comerse dicho mercado sin problemas a través de su propias franquicias.

Otra de las cosas que espero son unidades de compresión/descompresión de datos. El motivo de ello es que Switch para hacerlo tira de CPU, utilizando periodos en los que la GPU no ha de mostrar imágenes para subir temporalmente la velocidad de reloj y descomprimir los datos. En el caso de los juegos de Switch 2 esto lo haría una unidad de función fija que realizaría ese proceso ocupando muy poco espacio, en paralelo a la CPU y consumiendo una porción del total.

Memoria RAM y almacenamiento

Por el tiempo en el que saldrá la consola esta claro que esta será del tipo LPDDR5X. Hemos de tener en cuenta que vamos a ver un aumento enorme del ancho de banda necesario para no crear un cuello de botella tanto a la CPU como a la GPU.

El ancho de banda de la LPDDR5 es por el momento de 5.5 Gbps, pero puede alcanzar los 6.4 Gbps. Su versión X será una que alcanzará las mismas velocidades de reloj con menos voltaje. Por lo que en una configuración con dos chips de memoria como Switch estaríamos hablando de duplicar el ancho de banda.

Personalmente se me antoja insuficiente y creo que Switch 2 podría venir con un bus de 128 bits y 4 chips de memoria RAM integrados en placa de la consola. El otro tema es el almacenamiento donde en Switch se utiliza un chip de 32 GB eMMC, no solo se nos antoja insuficiente de cara al almacenamiento, sino también en cuanto al ancho de banda. ¿La solución más sencilla? Tirar de memoria eUFS en vez de eMMC, la cual no solo es más rápida, sino que además tiene un almacenamiento mayor en cada uno de sus chips. Claro esta que esta una actualización muy de Perogrullo y no es algo que sea nada difícil de acertar.

Esto es todo, ya si acaso ya haré una segunda entrada en semanas o incluso meses acerca del resto de detalles. Pero recordad, todo esto es especulación y no información oficial.