Au cours des derniers temps, les VAE (Autoencodeurs Variationnels) traversent une situation embarrassante de déclin progressif. Grâce à la collaboration entre l'Université de Tsinghua et l'équipe Kuaishou de Ke Ling, un nouveau modèle de génération nommé SVG (Modèle de diffusion latent sans VAE) a été lancé. Cette innovation réalise une amélioration impressionnante de 6200 % en termes d'efficacité d'entraînement et un bond de 3500 % en vitesse de génération.

Le déclin des VAE dans le domaine de la génération d'images provient principalement du problème de « confusion sémantique ». Cela signifie que lorsqu'on tente de modifier uniquement une caractéristique spécifique d'une image (comme la couleur d'un chat), d'autres caractéristiques (comme la taille ou l'expression) sont souvent affectées, ce qui entraîne des images générées peu précises. Pour résoudre ce problème, le modèle SVG de l'Université de Tsinghua et de Kuaishou adopte une approche différente, en construisant activement un espace de caractéristiques qui intègre à la fois la sémantique et les détails.

image.png

Dans la conception du modèle SVG, l'équipe utilise d'abord le modèle DINOv3 pré-entraîné comme extracteur sémantique. Ce modèle, entraîné par apprentissage non supervisé sur une grande quantité de données, est capable de reconnaître et de séparer efficacement les caractéristiques de différentes catégories, résolvant ainsi la confusion sémantique des modèles VAE traditionnels. En outre, pour compléter les détails, l'équipe a spécialement conçu un encodeur résiduel léger, garantissant que les informations détaillées ne confluent pas avec les caractéristiques sémantiques. Le mécanisme d'alignement des distributions clé renforce davantage cette fusion de caractéristiques, assurant ainsi la qualité élevée des images générées.

image.png

Les résultats expérimentaux montrent que le modèle SVG dépasse largement les solutions traditionnelles VAE en termes de qualité de génération et de généralisation multi-tâches. Sur le jeu de données ImageNet, le modèle SVG atteint une valeur FID (un indicateur mesurant la similarité entre les images générées et les images réelles) de 6,57 après seulement 80 cycles d'entraînement, loin devant les modèles VAE de même taille ; quant à l'efficacité de la déduction, le modèle SVG présente également des performances exceptionnelles, permettant de générer des images nettes en peu d'étapes d'échantillonnage. De plus, l'espace de caractéristiques du modèle SVG peut directement être utilisé pour diverses tâches visuelles telles que la classification d'images ou la segmentation sémantique, sans nécessiter de micro-ajustement supplémentaire, ce qui augmente considérablement la flexibilité d'application.

Cette nouvelle technologie de l'Université de Tsinghua et de Kuaishou apporte non seulement un changement révolutionnaire au domaine de la génération d'images, mais promet également un grand potentiel dans les tâches de génération multimodale.

Lien vers la thèse : https://arxiv.org/pdf/2510.15301