Nintendo va a presentar y lanzar la sucesora de Nintendo Switch el año que viene, pero no me voy a basar en conjeturas de foros sin sentido, sino por el hecho que tienen para 2022 una rampa de lanzamientos que es ideal para lanzar un hardware totalmente nuevo a la venta.

Hace un tiempo que tuve una charla con una persona muy cercana a NVIDIA, tampoco lo esta a la directiva y no es más que un «vulgar» ingeniero, pero me puso en situación y dado que no es una conversación con un contrato de no revelación puedo citar partes de memoria.

Urian: me tienes que hablar del tema de la compra de ARM por parte de NVIDIA, me parece un movimiento más bien político por parte de Jen Hsun Huang que no un movimiento estratégico a largo plazo.

Mr. X: es un poco de ambas cosas, en realidad el desarrollo de Grace, la CPU para centros de datos de NVIDIA empezó a realizarse mucho antes de que empezará a circular el rumor de la compra de ARM. Ten en cuenta que es un proyecto de cinco años que empezó en 2018.

Urian: eso es lo que quiero saber yo, ARM tiene como CPU para centros de datos sus Neoverse, pero me da la sensación que se han quedado muy atrás incluso dentro de la ISA que controlan y ahora sus principales clientes tienen hardware desarrollado más potente que el que han desarrollado.

Mr. X: ARM esta muy mal, una cosa es cobrar por el uso de la ISA y otra muy distinta hacerlo por el uso de los diseños de la propia ARM que es donde ha estado siempre el grueso de su dinero y adivina donde esta ARM ahora mismo de capa caída.

Urian: en el desarrollo de nuevas arquitecturas, donde supongo que todo el mundo ya ha superado a ARM en todos los aspectos.

Mr. X: te puedo hablar del desarrollo del llamarón Orin, ¿sabes el motivo por el cual NVIDIA no lo presenta y tienes un bonito rénder? Por el hecho que en vez de basarlo en los núcleos que hemos desarrollado internamente les ha dado por licenciar los núcleos a ARM. ¿Sabes lo que significa esto?

Urian: supongo que un rendimiento muy inferior al Tegra Xavier en elementos como la CPU y la interfaz con la memoria.

Mr. X: justo eso, imagínate la cara del chaquetas de cuero totalmente retorcida al ver como no puede presumir de tener la CPU más potente en un SoC de automoción por haber apostado por los núcleos de ARM.

Urian: a ese no le gusta perder en nada, ni a la canicas.

Mr. X: ya, pero era un chip interno de pruebas, pero nos sirvió para saber cuál era la situación de ARM y fue entonces cuando Jen Hsun hizo su movimiento maestro.

Urian: la oferta de compra de ARM

Mr. X: No, no, la oferta de compra de ARM no, licenciarle la tecnología de NVIDIA a ARM.

Urian: (risas)

Mr. X: (risas)

Urian: no jodas, así que el listo de Jen Hsun Huang acabo sabiendo que el A78 no estaba a la altura de o esperado y aprovechando la situación de ARM le ofreció sus núcleos.

Mr. X: no lo has entendido bien, NVIDIA le dijo a ARM que tenía planes para licenciar sus propios núcleos de los que ARM se llevaría la regalía solo por licenciar el set de registros e instrucciones que es muy poco. Lo peor es que esto significaba que todos los proyectos de ARM quedarían cancelados por falta de clientes.

Urian: me parece una guarrada épica por parte del chaquetas y su directiva. En serio, pero dice mucho de la situación de ARM a nivel competitivo. Hay algo que me gustaría preguntarte y es sobre la política de licenciamiento de ARM a terceros.

Mr. X: no se puede revocar, al menos hasta la versión ARMv8. Otra cosa es la ARMv9 que todavía no ha entrado en estado de licenciamiento. Desgraciadamente la situación de ARM en los centros de datos es muy mala y Neoverse es ahora mismo una CPU nada competitiva. En especial si tenemos en cuenta que el resto de participantes tienen procesadores mucho más potentes.

Urian: fuera de NVIDIA, ¿qué empresa es la que más ha jodido a ARM?

Mr. X: Qualcomm sin duda.

Urian: cuenta, cuenta.

Mr. X: en realidad debería haber dicho Nuvia, no se si sabrás que Apple tenía en desarrollo una CPU para centros de datos que Tim Cook cancelo por completo, lo que llevo a la amenaza de cierre de dicha subdivisión en Apple Silicon, una parte de los ingenieros que se fueron fundaron Nuvia y desarrollaron un núcleo para centros de datos con lo que sabían, obviamente Apple les demando.

Urian: si, parte de esta historia la conocía.

Mr. X: pues bien, ARM cometió el error de no comprar a la gente de Nuvia, en NVIDIA se les ignoró por el hecho que ya teníamos Grace en desarrollo. La única que no tenía un núcleo para centros de datos era Qualcomm, imagínate la cara de la directiva de ARM cuando tenían a tiro Nuvia y la compra Qualcomm.

Urian: eso fue después de la opa hostil de NVIDIA.

Mr X: el plan A de ARM era Nuvia, pero el CEO de NVIDIA es una persona muy inteligente y sabía todo lo que estaba ocurriendo. Sabía que si ARM compraba Nuvia entonces su farol no iba a funcionar, por eso hizo la oferta de compra, para evitar que se le escapará la presa.

Urian: supongo que todo el affair entre ARM y NVIDIA es un juego de ajedrez entre ambas bastante complejo, pero no entiendo cuando has dicho que Qualcomm es la que más ha perjudicado a ARM.

Mr. X: oh, perdona, te lo puedo resumir de la siguiente manera: la amenaza con la que Jen Hsun Huang apunto a ARM ahora la está ejecutando Qualcomm. La cantidad de contratos aún no revelados que ARM está perdiendo en estos momentos es enorme, todos sus futuros productos están parados a la espera de que se solucione la compra. Mientras tanto NVIDIA sigue trabajando.

Mr. X: y espera, la cosa no termina ahí. El Reino Unido dejo escapar a Imagination sin hacer nada de nada cuando ARM ha estado mal no ha querido invertir una mierda en una empresa que les es estratégica, ha sido cuando ha ocurrido todo el tema de la compra que ahora quieren deshacerla por completo. Lo que no entienden es que ya no queda talento en ARM y muchos ya han cruzado el puente.

Urian: entonces adivino que no cuesta lo que dicen que cuesta si ahora se hiciese una valoración.

Mr. X: peor aún, imagínate que las regulaciones rompen el acuerdo por completo y al final no se cumple. Lo que te queda es una ARM deshuesada, sin sustancia y sin nada. Todo el talento se ha ido, todos tus proyectos cancelados por qué no son competitivos. No puedes venderle un diseño a nadie y te tienes que quedar con las migajas de la regalía.

Urian: y no olvidemos de los China.

Mr. X: esa es otra, los chinos sentados con una gran cantidad de dólares en forma de deuda estadounidense. El movimiento de ARM China es otro farol ridículo, no han desarrollado nada importante por su parte durante años, son un conjunto de sujetos con traje que están vendiendo botellas llenas de aire.

Urian: pero están vendiendo procesadores sin licenciar la propiedad intelectual a ARM.

Mr. X: ¿te crees realmente la historia de los reguladores y lo de la guerra fría tecnológica entre los EEUU y China? ARM China se creo con la capacidad de licenciar la tecnología de los ARMv8 a empresas de China y lo que está ocurriendo estaba escrita con letras brillantes muy grandes en el cielo. ARM ha regalado su tecnología a China por cuatro duros. Lo peor es que tu puedes acusar a otra empresa de copiar tu diseño si, pero, ¿quién tiene el tiempo y los recursos para comprobarlo? Es más, si tu chip es diferente en un % mínimo ya no se considera una copia.

Urian: entonces buena parte de los smartphones que saldrán en el mercado en los próximos meses o años tienen chips licenciados a ARM China, los que al mismo tiempo no tienen capacidad para crear nada al ser un simple entramado burocrático.

Mr. X: y es ahí donde existe parte del problema, si el problema de occidente ha sido diseñar, pero no fabricar, el de china es al contrario. No han diseñado absolutamente nada y de cara al mundo ARM no tienen chips competitivos. Es más, dependían para un salto adelante de lo que estuviese desarrollando ARM.

Urian: entonces lo de NVIDIA les debe haber trastocado los planes.

Mr. X: al contrario, de cara al Tegra Orin ha ocurrido un fenómeno que no vas a leer ni a oír en los sitios web sobre hardware y es como NVIDIA ha ido perdiendo socios occidentales a medida que estos han ido creando sus propias soluciones. El caso más sonado ha sido Tesla Motors, pero no es el único socio que no ha renovado con NVIDIA, hasta ahora tenían colaboración con Mercedes Benz, Hyundai, Audi y Volvo, de todas ellas solo Volvo utilizará el siguiente SoC para automoción de NVIDIA.

Urian: y supongo que donde más han crecido es en China, es decir, NVIDIA perdiendo socios occidentales y ganando estos en china de cara a la automoción.

Mr. X: creo que tú disté hace poco una noticia sobre el chip ePAC que ha financiado la UE, y si te he de decir la verdad, buen ojo al decir que esto es para automoción. Es más, en los últimos años se ha hablado mucho de la computación de alto rendimiento para automoción, pero realmente todo esto es producto del ejercicio de humo más grande de la historia.

Urian: ¿cuál? No sé por donde vas

Mr. X: el Apple Car

Urian: (risas)

Mr. X: (risas)

Urian: es verdad, llevamos una década oyendo cosas del Apple Car como producto y al final nada de nada. Aunque no podemos negar que Apple ha hecho «avances» en ese aspecto.

Mr. X: el otro día vi una noticia de pura propaganda donde hablaban del Apple Car cómo vehículo totalmente autónomo. En Cupertino se creen que hacer un coche inteligente es algo fácil que pueden hacer sin ningún nivel de I+D por el medio cuando todo el mundo se está gastando en ese mercado cantidades de dinero que Apple no se va a gastar y se requiere un trabajo humano en forma de horas de trabajo acumuladas muy grande, en especial en colaboración con los fabricantes dado que el SoC para automoción es una parte integral e importante del vehículo. No es solo coger el ordenador con el SoC de automoción y conectarlo, es que toda la mecánica del coche eléctrico está sincronizada por esa pieza.

Urian: ¿es posible que Apple este haciendo un SoC HPC para automoción de alta gama?

Mr. X: un SoC para automoción necesita dos cosas, por un lado una cantidad enorme de hardware que te permita tratar las señales de los sensores lo más rápido posible. Por otro lado un potente motor tanto para entrenamiento como inferencia. Nuestros SoC tienen más de 300 mm y están pensados para funcionar a 30 W, el que ha desarrollado Tesla mide 260 mm con parámetros similares. Apple quiere meter su chip para móviles en todos sitios y cobrar el precio premium.

Urian: ya, pero eso no responde a la pregutna.

Mr. X: si que la responde, cuando trabajamos en el Tegra Parker creíamos que estábamos cerca de la automoción automática por una cosa: no teníamos datos previos. La respuesta fue no y el desarrollo de Xavier. ¿Cuántos TOPS tiene el A15 Bionic? Menos de 20 y aparte que carece de hardware similar al DLNA y al CVA. Apple es con sus SoC como Microsoft en su sistema operativo, quieren ponerlo en todas partes, pero cuando estos entran en un mercado donde es necesario algo más fuerte y robusto ya perdien la oportunidad. A día de hoy, una gran cantidad de sus socios potenciales ya tienen desarrollos internos mejores que los que les ofrece Apple.

Urian: sin salirnos del tema de los Tegra, hay una cosa que me «preocupa» que es el salto generacional de Switch a su sucesora. Estoy viendo en general como se ha conseguido llegar a niveles de potencia de cálculo en las GPU de smartphone muy altos, pero el ancho de banda externo es muy bajo y eso es un enorme cuello de botella.

Mr. X: y me quieres preguntar sobre la sucesora de Switch, te diré que me sorprende que nadie haya tenido en cuenta una solución que es típica de Nintendo y la llevan utilizando desde hace ya varias generaciones.

Urian: no quiero pensar ahora, dime cuál es.

Mr. X: cuando Nintendo licencio el X1 nos pidieron que colocásemos memoria embebida de alguna forma en el chip final, les respondimos que por agenda esto no era posible y podía suponer el retraso de como mínimo un año. El otro motivo es por la forma en la que funciona la arquitectura Maxwell con el Tiled Caching, tecnología que seguimos manteniendo incluso en Lovelace.

Urian: Si no ando errado, el A100 que es una GPU para HPC tiene ni más ni menos que 70 MB de caché L2, lo cual es una burrada.

Mr. X: el aumentar la cantidad de caché L2 significa tener que rediseñar el chip, dado que tienes que hacerle espacio y crear un nuevo floorplan y enrutarlo todo de nuevo. El problema es que Nintendo pedía poder utilizar la caché L2 como una especie de Scratchpad y por tanto que parte de la misma funcionase como la clásica memoria embebida, un cambio que ya hicimos al unir la L1 de dentro de cada SM con la memoria local en el mismo espacio, pero que nunca lo hemos hecho con la L2.

Urian: ahora que lo pienso, transformando la LLC en un Scratchpad también te aseguras de que la caché no envía a la VRAM las muestras escritas por los ROPS y demás información, lo que te permite tener casi un Tile Renderer.

Mr. X: una cosa que soportan las GPU actuales son los llamados Tiled Resources, lo que es texturizado virtual, consiste en dejar un atlas de texturas que contiene las texturas que requiere la escena en este momento junto a sus Mip Maps. Si tienes una caché de último nivel en la GPU lo suficientemente grande entonces te puedes asegurar reducir los accesos a la RAM de vídeo, que son lo que más consume.

Urian: supongo que todo esto viene de serie en la arquitectura por el soporte e DirectX 12 Ultimate, no es que Nintendo vaya a utilizar esta API. Supongo que también veremos una adaptación del Sampler Feedback.

Mr. X: en efecto.

Urian: ¿Es posible que al final la solución sea colocar RAM encima del SoC principal y utilizar una interfaz muy ancha pero a baja velocidad?

Mr. X: es que esa es la solución que se ha estado planteando, es justo lo mismo que ha hecho AMD con su V-Cache, colocar una gran cantidad de SRAM encima del SoC. La diferencia es que en nuestro caso dicha memoria adicional funciona como un nivel de caché adicional, el cual recoge las líneas de caché descartadas por la L2 de la GPU.

Urian: el mismo concepto que el de la Infinity Cache de AMD, solo que en vez de dentro del chip, estaría fuera del mismo pero interconectado verticalmente. ¿Cuánta caché L3 podemos esperar de un diseño de este tipo en un SoC como el de la Switch 2?

Mr. X: esa información no te la puedo dar, lo que sí que te puedo decir es que la solución de tener una caché L3 para la GPU tiene como ventaja de que al contrario de una eDRAM convencional donde las entradas y salidas a la misma se han de controlar manualmente por código, aquí los cambios que se han de hacer en los juegos es nulo y se obtiene es muy bueno. Es una solución que no solo elimina los cuellos de botella, sino que además te permite subir la velocidad de reloj medía del SoC al recortar el consumo energético del acceso a la memoria.

Urian: hablando de la velocidad el SoC, tenemos que el X1 de Switch es un diseño pensado para funcionar a 20 nm Bulk, el diseño del SoC de Switch 2 es «8 nm» FinFet. Además el departamento que ha diseñado las nuevas arquitecturas gráficas ha ido aumentando progresivamente la velocidad de reloj. ¿Hasta que punto nos podemos esperar un aumento en MHz?

Mr. X: no te lo puedo decir, el chip no se ha fabricado en masa todavía y no sabemos la velocidad de reloj a la que este funcionará. No te puedo dar una velocidad de reloj exacta por el hecho que hemos añadido elementos de cambio dinámico de velocidad que ya hemos utilizado en el mundo del PC y por tanto los presets de velocidad de la GPU que tiene Switch ya han sido descartados en su sucesora.

Urian: volviendo al tema de la memoria embebida en formato 3DIC, sé que es una idea que no es nueva, pero que SONY ya probo con Vita, el ancho de banda que obtuvieron a día de hoy resulta ridículo, ya que solo fueron 12.8 GB/s, pero era el doble que la RAM principal. Supongo que en el caso de Switch es el mismo, pero desde entonces ha llovido bastante y la densidad no es un problema, pero lo que más me preocupa es la temperatura entre los dos chips, las consecuencias de esto es que sueles necesitar reducir la velocidad de reloj. SONY tuvo el problema de que tuvo que recortar enormemente las velocidades de reloj de Vita en comparación con el SoC del iPhone 5S que utilizaba los mismos componentes. Al mismo tiempo sé que el uso de una SRAM o una DRAM apilada le permite a Nintendo aumentar el ancho de banda necesario para ciertas operaciones gráficas sin tener que aumentar el tamaño del chip principal. Además que le permite no tener que aumentar la cantidad de chips de RAM en el sistema, pero es precisamente la velocidad de reloj recortada lo que hace que yo lo vea inviable. ¿Cuál es la configuración de la RAM?

Mr. X: el doble de ancho de banda que la de Switch, hace uso de memoria LPDDR5-6400 en un bus de 64 bits. Aunque en este caso Nintendo ha utilizado memoria uMCP5, que engloba la RAM y el almacenamiento en un mismo encapsulado. Y aquí está lo sorprendente, si mirases la placa base de Switch 2 lo que verías sería un enorme chip encapsulado en la parte central y al lado absolutamente nada excepto las trazas hacia los puertos de salida, las radios bluetooth y wifi, así como un enorme espacio para la batería. El motivo es que para reducir la piratería respecto a Switch lo que ha hecho Nintendo es utilizar chips de memoria que encapsulan el almacenamiento y la RAM en solo chip. Esto además les permite reducir el espacio que ocupa el PCB para poder colocar una batería de gran tamaño.

Urian: lo que yo entiendo es que el hardware de Switch 2 esta montada como una sola pieza conjunta, en la LPDDR5+eUFS estan montadas sobre el mismo interposer que el SoC+SRAM 3D. ¿Me puedes decir cuál es la capacidad de almacenamiento que viene de serie?

Mr. X: no te lo puedo decir, depende de lo que Nintendo haya escogido colocar. Lo único que sabemos para el diseño del SoC y el PCB es que Nintendo ha escogido este tipo de configuración. Lo bueno del uMCP es que les permite reducir el tamaño que ocupa el PCB en el espacio y dejar al resto para la batería.

Urian: lo cual es algo que ya hicieron en Wii U al colocar la CPU y la GPU en un mismo sustrato o interposer común. No era una interconexión tan compleja como la que utilizan hoy en día los chips 2.5DIC y no había interconexión vertical con el interposer, pero consiguieron con eso ahorrar espacio en la placa.

Mr. X: si, básicamente es algo así. En Switch ellos tomaron un diseño ya hecho, pero en Switch 2 han dado su feedback para el desarrollo del hardware del sistema y han añadido sus conocimientos para el desarrollo de la Switch de siguiente generación.

Urian: vayamos a otro punto, la resolución de pantalla. ¿Sabes cuál es?

Mr. X: pues no sabemos que pantalla ha escogido Nintendo, no sabemos la batería, la cantidad de RAM, solo sabemos nuestra parte, pero te podemos decir que los juegos de Switch 2 se renderizan a 720p a nivel interno.Muchos de los juegos de Switch hacen uso de resolución variable, donde estos tienen una tasa de fotogramas fija, pero la resolución fluctúa según la carga computacional que puede soportar la máquina en cada momento. El problema de este método es que añadir más potencia sube la resolución más allá de lo necesario. Es por ello que hemos añadido una pieza de hardware que funciona por IA, la cual se encarga de medir la potencia que necesita un juego para renderizar cada fotograma en 14 ms y una resolución de 720p. La idea es dejar 2 ms de tiempo para aplicar el DLSS. El sistema mira los recursos necesarios y si se requiere una velocidad de reloj más baja entonces esta se reduce para ganar batería.

Urian: pero muchos juegos de Switch se quedan cortos incluso para llegar a 720p en modo portátil.

Mr. X: Switch 2 está pensada para ejecutar los juegos de Switch de manera directa en modo Dock, con la diferencia en que el sistema está pensado para renderizar a 720p sea cual sea la resolución de origen del juego en dicho modo.

Urian: es decir, que independientemente de la resolución que marque el juego, Switch 2 renderiza siempre a 720p cuando no está conectada al dock. Aunque eso que describes es una Switch Pro, no lo que esperaríamos de un salto generacional.

Mr. X: los juegos de Switch no tienen acceso a poder utilizar tecnologías como el VRS y el Ray Tracing.

Urian: ¿Ray Tracing? Me parece exagerado teniendo en cuenta los problemas que están teniendo Xbox Series X y PlayStation 5 en este aspecto, algunos desarrolladores quieren eliminarlo de sus juegos para que el rendimiento no se hunda en el barro.

Mr. X: para ello hemos añadido un procesador encargado de atravesar el BVH de la escena, el cual se ve ampliamente beneficiado por el uso de la DRAM embebida. No lo decimos nosotros, incluso la propia AMD reconoce que ayuda al Ray Tracing. Por desgracia su diseño con RDNA 2 le quita la potencia a los shaders para atravesar el BVH, el nuestro no y hace eso consumiendo muy poco en comparación, en paralelo y dejando a los SM para otras tareas. En conclusión, se trata de una mejor solución que la que plantea AMD.

(Por el momento dejaremos esto aquí, creo que la información es suficiente)