En el mundo tecnológico reciente, los VAE (Autoencodificadores Variacionales) están pasando por una situación embarazosa de ser gradualmente reemplazados. Con la colaboración entre la Universidad de Tsinghua y el equipo de Kuaishou Lingshen, se lanzó un nuevo modelo generativo llamado SVG (modelo de difusión en espacio latente sin VAE). Esta innovación no solo logró un sorprendente aumento del 6200% en la eficiencia de entrenamiento, sino que también alcanzó un salto del 3500% en la velocidad de generación.

El declive de los VAE en el campo de la generación de imágenes se debe principalmente al problema de "entrelazamiento semántico". Es decir, cuando intentamos cambiar solo una característica de la imagen (como el color de un gato), otras características (como el tamaño o la expresión) suelen verse afectadas, lo que hace que las imágenes generadas no sean precisas. Para resolver este problema, el modelo SVG de Tsinghua y Kuaishou adoptó una estrategia diferente, construyendo activamente un espacio de características que integra la semántica y los detalles.

image.png

En el diseño del modelo SVG, el equipo primero utilizó el modelo preentrenado DINOv3 como extractor de semántica. Este modelo, entrenado con aprendizaje no supervisado a gran escala, puede identificar y separar efectivamente las características de diferentes categorías, resolviendo así el problema de confusión semántica en los modelos VAE tradicionales. Además, para complementar los detalles, el equipo diseñó específicamente un codificador residual ligero, asegurando que la información detallada no entre en conflicto con las características semánticas. El mecanismo clave de alineación de distribuciones mejoró aún más la fusión de estos dos tipos de características, garantizando la alta calidad de las imágenes generadas.

image.png

Los resultados experimentales demuestran que el modelo SVG supera ampliamente las soluciones tradicionales de VAE en términos de calidad de generación y generalidad en múltiples tareas. En el conjunto de datos ImageNet, el modelo SVG alcanzó un valor FID (un indicador que mide la similitud entre las imágenes generadas y las reales) de 6,57 después de entrenarlo solo durante 80 ciclos, lejos por delante de los modelos VAE de tamaño similar; además, en términos de eficiencia de inferencia, el modelo SVG mostró un rendimiento excelente, generando imágenes claras con pocos pasos de muestreo. Además, el espacio de características del modelo SVG puede utilizarse directamente para tareas visuales como clasificación de imágenes y segmentación semántica, sin necesidad de ajuste fino adicional, lo que aumenta significativamente la flexibilidad de aplicación.

Esta nueva tecnología de Tsinghua y Kuaishou no solo trae cambios revolucionarios al campo de la generación de imágenes, sino que también tiene el potencial de mostrar una fuerza considerable en tareas de generación multimodal.

Enlace al artículo: https://arxiv.org/pdf/2510.15301