Escalado por IA: los gráficos de los videojuegos se vuelven neuronales (DLSS, FSR, XeSS)

Por: Gino Marín

Publicado el: 06 de junio de 2026

Colaboración Académica para la Universidad CENFOTEC.

En la primera entrada de esta serie, conversabamos de como la IA puede ayudarnos a reducir el coste computacional a la hora de simular física. El siguiente paso: Simular gráficos. Quiero hablarte de uno de los casos de IA más usados del mundo y, probablemente, uno de los que nadie llama «IA» cuando lo utiliza: el escalado neuronal en videojuegos. Si has jugado un título reciente en una RTX, una Radeon RDNA4 o una Arc, ya estás conviviendo con redes neuronales que reescriben tus píxeles varias docenas de veces por segundo.

Vamos por partes, porque debajo de las siglas (DLSS, FSR, XeSS) hay tres familias muy distintas de soluciones que comparten una idea elegante: en lugar de pelearse con la física del renderizado, le piden a una red que imagine los píxeles que faltan.

El reto

Los gamers quieren resolución 4K a más de 120 fotogramas por segundo. Pero renderizar cada píxel a 4K nativo en un juego gráficamente exigente como Cyberpunk 2077 requiere una GPU de 1500 dólares y aun así sufre para llegar a 60 fps. ¿El problema? El renderizado por fuerza bruta escala fatal: duplicar la resolución cuadruplica el cómputo.

El gran avance de la IA

El Deep Learning Super Sampling (DLSS), desarrollado por NVIDIA, le da la vuelta al problema. En lugar de renderizar a 4K, el juego renderiza a 1080p o 1440p (mucho más rápido) y una red neuronal entrenada en los Tensor Cores de NVIDIA reconstruye una imagen 4K que, en muchos casos, se ve mejor que el renderizado 4K nativo.

DLSS 4.5 (CES 2026)

– Estrena una arquitectura transformer de segunda generación, reemplazando el híbrido CNN/transformer anterior de DLSS 4.0.

– Introduce el Multi-Frame Generation (MFG) 6×: genera hasta 6 fotogramas de IA entre cada fotograma renderizado, reduciendo drásticamente la carga de la GPU en escenarios limitados por la CPU.

– MFG es exclusivo de las RTX serie 50; las RTX más antiguas conservan acceso a Super Resolution y DLAA.

Cómo funciona DLSS

1. El juego renderiza los fotogramas a baja resolución (por ejemplo, 1080p).

2. DLSS recibe la entrada cruda de baja resolución, los vectores de movimiento, los buffers de profundidad, los datos de exposición/brillo y los fotogramas anteriores.

3. El modelo transformer analiza estos datos e infiere los píxeles faltantes aprendiendo coherencia temporal: cómo se mueven y cambian los objetos entre fotogramas.

4. Resultado: una imagen 4K nítida con menos ghosting y mayor estabilidad que las antiguas técnicas TAA (Temporal Anti-Aliasing).

El panorama general

El escalado se ha convertido en una carrera de tres caballos:

– AMD FSR 4 (marzo de 2025): basado en machine learning, exclusivo de RDNA4, con un salto de calidad notable respecto al enfoque algorítmico de FSR 3.

– Intel XeSS 3 (febrero de 2026): hasta 4× de Frame Generation con interpolación por IA; funciona en cualquier GPU, pero brilla en el hardware Intel Arc.

Los resultados

Los juegos corren entre 2× y 3× más rápido con DLSS activado frente al renderizado 4K nativo. Un juego que apenas llegaba a 40 fps en 4K puede alcanzar 120 fps con DLSS, y a menudo se ve más nítido porque el modelo de IA reduce mejor el ruido y los artefactos que el escalado tradicional.

Por qué a un LLM le costaría esta tarea

Conviene preguntarse por qué un modelo de lenguaje no podría hacer este trabajo, ni de lejos. DLSS necesita inferir píxeles fotorrealistas en menos de 10 milisegundos por fotograma; los LLM, autoregresivos y enormes, no operan en ese régimen temporal: generan un token tras otro y son demasiado lentos para sostener 60 o 120 fotogramas por segundo. Pero la razón más profunda es otra: DLSS razona en el espacio de imágenes y movimiento, no en el de palabras. Aprende cómo los bordes reflejan luz, cómo se mueve una textura entre dos fotogramas consecutivos, cómo deberían verse píxeles que aún no se han renderizado. Un LLM podría escribirte un párrafo elocuente sobre cómo debería verse una escena, pero no podría dibujarla píxel a píxel en tiempo real ni mantener la coherencia temporal entre fotogramas sin colapsar en artefactos. La inferencia de imagen a esta velocidad y precisión exige redes especializadas que viven dentro de los Tensor Cores, no modelos genéricos de propósito conversacional.

—

Conviene detenerse un segundo aquí, porque hay un cambio conceptual muy bonito detrás de DLSS y compañía. Durante décadas el dogma del renderizado fue «calcula cada píxel con precisión y obtendrás una imagen fiel». El escalado neuronal propone otra cosa: calcula los píxeles que importan y deja que la red imagine los que faltan, basándose en lo que ha aprendido sobre cómo se comporta la luz, las texturas y el movimiento en miles de juegos. No es trampa; es una redefinición de qué significa «fiel». Y, como el modelo no quiere nada —solo resuelve el problema de «dar calidad 4K al coste de 1080p»—, lo bonito está en cómo, dada esa restricción, encuentra soluciones que sorprenden incluso a los ingenieros que lo entrenaron.