Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Oct 29, 2025

En el mundo tecnológico reciente, los VAE (Autoencodificadores Variacionales) están pasando por una situación embarazosa de ser gradualmente reemplazados. Con la colaboración entre la Universidad de Tsinghua y el equipo de Kuaishou Lingshen, se lanzó un nuevo modelo generativo llamado SVG (modelo de difusión en espacio latente sin VAE). Esta innovación no solo logró un sorprendente aumento del 6200% en la eficiencia de entrenamiento, sino que también alcanzó un salto del 3500% en la velocidad de generación.

El declive de los VAE en el campo de la generación de imágenes se debe principalmente al problema de "entrelazamiento semántico". Es decir, cuando intentamos cambiar solo una característica de la imagen (como el color de un gato), otras características (como el tamaño o la expresión) suelen verse afectadas, lo que hace que las imágenes generadas no sean precisas. Para resolver este problema, el modelo SVG de Tsinghua y Kuaishou adoptó una estrategia diferente, construyendo activamente un espacio de características que integra la semántica y los detalles.

En el diseño del modelo SVG, el equipo primero utilizó el modelo preentrenado DINOv3 como extractor de semántica. Este modelo, entrenado con aprendizaje no supervisado a gran escala, puede identificar y separar efectivamente las características de diferentes categorías, resolviendo así el problema de confusión semántica en los modelos VAE tradicionales. Además, para complementar los detalles, el equipo diseñó específicamente un codificador residual ligero, asegurando que la información detallada no entre en conflicto con las características semánticas. El mecanismo clave de alineación de distribuciones mejoró aún más la fusión de estos dos tipos de características, garantizando la alta calidad de las imágenes generadas.

Los resultados experimentales demuestran que el modelo SVG supera ampliamente las soluciones tradicionales de VAE en términos de calidad de generación y generalidad en múltiples tareas. En el conjunto de datos ImageNet, el modelo SVG alcanzó un valor FID (un indicador que mide la similitud entre las imágenes generadas y las reales) de 6,57 después de entrenarlo solo durante 80 ciclos, lejos por delante de los modelos VAE de tamaño similar; además, en términos de eficiencia de inferencia, el modelo SVG mostró un rendimiento excelente, generando imágenes claras con pocos pasos de muestreo. Además, el espacio de características del modelo SVG puede utilizarse directamente para tareas visuales como clasificación de imágenes y segmentación semántica, sin necesidad de ajuste fino adicional, lo que aumenta significativamente la flexibilidad de aplicación.

Esta nueva tecnología de Tsinghua y Kuaishou no solo trae cambios revolucionarios al campo de la generación de imágenes, sino que también tiene el potencial de mostrar una fuerza considerable en tareas de generación multimodal.

Enlace al artículo: https://arxiv.org/pdf/2510.15301

El Hospital de Tsinghua Changgeng colabora con Beijing Electronic Information para desarrollar el primer modelo de inteligencia artificial en farmacia en China: se enfoca en la evaluación de seguridad en el uso de medicamentos en grupos específicos

El Hospital de Tsinghua Changgeng en Beijing colabora con Beijing Electronic Information para desarrollar el primer modelo de gran tamaño especializado en farmacia en China, utilizando la inteligencia artificial para optimizar los procesos farmacéuticos, mejorando así la eficiencia y precisión en la evaluación de la seguridad en el uso de medicamentos en grupos específicos como ancianos, niños y mujeres embarazadas, abordando los desafíos de actualizaciones rápidas de información sobre medicamentos y diferencias individuales complejas.

Diario de IA: El modelo de código KAT-Dev de Kuaishou se abre a la comunidad y alcanza el primer lugar; se presenta el primer robot humano con protección IP66, DR02; Google Chrome pronto incorporará nuevas funciones de Gemini

El modelo KAT-Dev-72B-Exp de Kuaishou obtuvo la victoria en las pruebas SWE-Bench con una precisión del 74,6%, lo que marca un importante avance en el desarrollo de IA para programación nacional. Este modelo de código de código abierto demuestra una gran capacidad técnica, ofreciendo herramientas avanzadas a los desarrolladores y impulsando la innovación en la aplicación de la IA.

El modelo de código KAT-Dev de 72B de Kuaishou se abre al público y lidera: domina SWE-Bench, el avance del AI de fabricación nacional en programación

El modelo de código KAT-Dev-72B con 72 mil millones de parámetros de Kuaishou se ha hecho público, alcanzando una precisión del 74,6% en la prueba de referencia SWE-Bench, liderando la clasificación de modelos de código de código abierto, lo que marca un hito importante en la asistencia de programación de AI nacional.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Kuaishou lanza ecosistema de programación AI con herramientas + modelo + plataforma KAT-Coder-Air, gratuitamente accesible

El Hospital de Tsinghua Changgeng colabora con Beijing Electronic Information para desarrollar el primer modelo de inteligencia artificial en farmacia en China: se enfoca en la evaluación de seguridad en el uso de medicamentos en grupos específicos

Ant Group lanza un modelo de 1 billón de parámetros Ling-1T que supera a GPT-5 como nuevo estándar

Diario de IA: El modelo de código KAT-Dev de Kuaishou se abre a la comunidad y alcanza el primer lugar; se presenta el primer robot humano con protección IP66, DR02; Google Chrome pronto incorporará nuevas funciones de Gemini

El modelo de código KAT-Dev de 72B de Kuaishou se abre al público y lidera: domina SWE-Bench, el avance del AI de fabricación nacional en programación

El genio de Tsinghua Yao Shunyu renuncia y se va a DeepMind para iniciar una nueva era

Diario de IA: Veo 3.1 puede generar videos de 1 minuto; Ant Group lanza un modelo de lenguaje con 1 billón de parámetros, Ling-1T; Lovart puede jugar gratis con Sora2

Ant Financial lanza el modelo de lenguaje Ling-1T con 1 billón de parámetros, estableciendo un nuevo estándar en la industria en términos de velocidad y capacidad de razonamiento

El modelo Kuaishou Coling 2.5 Turbo lidera con fuerza la lista global de generación de videos

Diario de IA: Ant Group libera el modelo de pensamiento de alto rendimiento Ring-flash-2.0; 7 modelos de Tongyi dominan Hugging Face; La capacidad visual de Veo3 se mejora

Noticias de IA relacionadas recomendadas

Kuaishou lanza ecosistema de programación AI con herramientas + modelo + plataforma KAT-Coder-Air, gratuitamente accesible

El Hospital de Tsinghua Changgeng colabora con Beijing Electronic Information para desarrollar el primer modelo de inteligencia artificial en farmacia en China: se enfoca en la evaluación de seguridad en el uso de medicamentos en grupos específicos

Ant Group lanza un modelo de 1 billón de parámetros Ling-1T que supera a GPT-5 como nuevo estándar

Diario de IA: El modelo de código KAT-Dev de Kuaishou se abre a la comunidad y alcanza el primer lugar; se presenta el primer robot humano con protección IP66, DR02; Google Chrome pronto incorporará nuevas funciones de Gemini

El modelo de código KAT-Dev de 72B de Kuaishou se abre al público y lidera: domina SWE-Bench, el avance del AI de fabricación nacional en programación

El genio de Tsinghua Yao Shunyu renuncia y se va a DeepMind para iniciar una nueva era

Diario de IA: Veo 3.1 puede generar videos de 1 minuto; Ant Group lanza un modelo de lenguaje con 1 billón de parámetros, Ling-1T; Lovart puede jugar gratis con Sora2

Ant Financial lanza el modelo de lenguaje Ling-1T con 1 billón de parámetros, estableciendo un nuevo estándar en la industria en términos de velocidad y capacidad de razonamiento

El modelo Kuaishou Coling 2.5 Turbo lidera con fuerza la lista global de generación de videos

Diario de IA: Ant Group libera el modelo de pensamiento de alto rendimiento Ring-flash-2.0; 7 modelos de Tongyi dominan Hugging Face; La capacidad visual de Veo3 se mejora

GEO Services