Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Oct 29, 2025

Au cours des derniers temps, les VAE (Autoencodeurs Variationnels) traversent une situation embarrassante de déclin progressif. Grâce à la collaboration entre l'Université de Tsinghua et l'équipe Kuaishou de Ke Ling, un nouveau modèle de génération nommé SVG (Modèle de diffusion latent sans VAE) a été lancé. Cette innovation réalise une amélioration impressionnante de 6200 % en termes d'efficacité d'entraînement et un bond de 3500 % en vitesse de génération.

Le déclin des VAE dans le domaine de la génération d'images provient principalement du problème de « confusion sémantique ». Cela signifie que lorsqu'on tente de modifier uniquement une caractéristique spécifique d'une image (comme la couleur d'un chat), d'autres caractéristiques (comme la taille ou l'expression) sont souvent affectées, ce qui entraîne des images générées peu précises. Pour résoudre ce problème, le modèle SVG de l'Université de Tsinghua et de Kuaishou adopte une approche différente, en construisant activement un espace de caractéristiques qui intègre à la fois la sémantique et les détails.

Dans la conception du modèle SVG, l'équipe utilise d'abord le modèle DINOv3 pré-entraîné comme extracteur sémantique. Ce modèle, entraîné par apprentissage non supervisé sur une grande quantité de données, est capable de reconnaître et de séparer efficacement les caractéristiques de différentes catégories, résolvant ainsi la confusion sémantique des modèles VAE traditionnels. En outre, pour compléter les détails, l'équipe a spécialement conçu un encodeur résiduel léger, garantissant que les informations détaillées ne confluent pas avec les caractéristiques sémantiques. Le mécanisme d'alignement des distributions clé renforce davantage cette fusion de caractéristiques, assurant ainsi la qualité élevée des images générées.

Les résultats expérimentaux montrent que le modèle SVG dépasse largement les solutions traditionnelles VAE en termes de qualité de génération et de généralisation multi-tâches. Sur le jeu de données ImageNet, le modèle SVG atteint une valeur FID (un indicateur mesurant la similarité entre les images générées et les images réelles) de 6,57 après seulement 80 cycles d'entraînement, loin devant les modèles VAE de même taille ; quant à l'efficacité de la déduction, le modèle SVG présente également des performances exceptionnelles, permettant de générer des images nettes en peu d'étapes d'échantillonnage. De plus, l'espace de caractéristiques du modèle SVG peut directement être utilisé pour diverses tâches visuelles telles que la classification d'images ou la segmentation sémantique, sans nécessiter de micro-ajustement supplémentaire, ce qui augmente considérablement la flexibilité d'application.

Cette nouvelle technologie de l'Université de Tsinghua et de Kuaishou apporte non seulement un changement révolutionnaire au domaine de la génération d'images, mais promet également un grand potentiel dans les tâches de génération multimodale.

Lien vers la thèse : https://arxiv.org/pdf/2510.15301

L'hôpital de l'Université Tsinghua et BDI ont collaboré pour développer le premier grand modèle en pharmacie en Chine : se concentrer sur l'évaluation de la sécurité des médicaments chez les groupes spéciaux

L'hôpital de l'Université Tsinghua à Pékin et BDI ont collaboré pour développer le premier grand modèle spécialisé en pharmacie en Chine, utilisant l'IA pour optimiser les processus pharmaceutiques, améliorer l'efficacité et la précision de l'évaluation de la sécurité des médicaments chez les personnes âgées, les enfants et les femmes enceintes, afin de répondre aux défis liés à l'actualisation rapide des informations sur les médicaments et aux différences individuelles complexes.

Le responsable du département de recherche d'IA d'Apple, Ke Yang, quitte la société pour rejoindre Meta Platforms

Ke Yang, chef du département d'intelligence artificielle de Apple, quittera l'entreprise pour rejoindre Meta. Son équipe chargée des réponses, des connaissances et de l'information travaille actuellement à l'amélioration de Siri afin de lui permettre d'accéder au contenu en ligne comme ChatGPT. Cette mutation s'inscrit dans une période clé pour le renforcement de la gamme de produits d'IA d'Apple.

Journal de l'IA : le modèle de code KAT-Dev de Kuaishou est open source et remporte le premier prix ; le robot humanoïde DR02 avec protection IP66 est lancé en tant que premier dans le monde ; Google Chrome s'apprête à intégrer de nouvelles fonctionnalités Gemini

Le modèle KAT-Dev-72B-Exp de Kuaishou a remporté la compétition SWE-Bench avec une précision de 74,6 %, marquant un grand progrès dans l'intelligence artificielle de programmation nationale. Ce modèle open source démontre une grande force technologique, offrant aux développeurs des outils avancés et favorisant l'innovation des applications de l'IA.

Le modèle de code KAT-Dev de Kuaishou, ouvert au public, domine : la performance de KAT-Dev dépasse SWE-Bench, marquant une percée pour l'IA chinoise en programmation

Le modèle de code KAT-Dev-72B-Exp avec 72 milliards de paramètres, mis en open source par Kuaishou, obtient un taux d'exactitude de 74,6 % sur le benchmark SWE-Bench, se classant premier dans les modèles de code open source, ce qui marque une percée majeure pour l'IA chinoise dans le domaine des assistants de programmation.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Tsinghua et Kuaishou lancent un nouveau modèle de diffusion SVG, l'efficacité d'entraînement augmente de 6200%

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Kuaishou lance un écosystème de programmation AI composé d'outils, de modèles et de plateformes, KAT-Coder-Air gratuit

L'hôpital de l'Université Tsinghua et BDI ont collaboré pour développer le premier grand modèle en pharmacie en Chine : se concentrer sur l'évaluation de la sécurité des médicaments chez les groupes spéciaux

Le responsable du département de recherche d'IA d'Apple, Ke Yang, quitte la société pour rejoindre Meta Platforms

Ant Group lance un modèle Ling-1T de 10 milliards de paramètres, surpassant GPT-5 et devenant une nouvelle référence

Journal de l'IA : le modèle de code KAT-Dev de Kuaishou est open source et remporte le premier prix ; le robot humanoïde DR02 avec protection IP66 est lancé en tant que premier dans le monde ; Google Chrome s'apprête à intégrer de nouvelles fonctionnalités Gemini

Le modèle de code KAT-Dev de Kuaishou, ouvert au public, domine : la performance de KAT-Dev dépasse SWE-Bench, marquant une percée pour l'IA chinoise en programmation

Le prodige de Tsinghua Yao Shunyu démissionne pour rejoindre DeepMind et inaugurer une nouvelle ère !

Journal de l'IA : Veo 3.1 peut générer des vidéos de 1 minute ; Ant Group lance un modèle linguistique de 1 trillion de paramètres, Ling-1T ; Lovart permet de jouer gratuitement à Sora2

Ant Group lance un modèle de langage à plusieurs milliards de paramètres, Ling-1T, qui marque une nouvelle référence en termes de vitesse d'inférence et de compétences

Le modèle Kuaishou Coling 2.5 Turbo domine le classement mondial de génération de vidéos !

Recommandations d'actualités IA connexes

Kuaishou lance un écosystème de programmation AI composé d'outils, de modèles et de plateformes, KAT-Coder-Air gratuit

L'hôpital de l'Université Tsinghua et BDI ont collaboré pour développer le premier grand modèle en pharmacie en Chine : se concentrer sur l'évaluation de la sécurité des médicaments chez les groupes spéciaux

Le responsable du département de recherche d'IA d'Apple, Ke Yang, quitte la société pour rejoindre Meta Platforms

Ant Group lance un modèle Ling-1T de 10 milliards de paramètres, surpassant GPT-5 et devenant une nouvelle référence

Journal de l'IA : le modèle de code KAT-Dev de Kuaishou est open source et remporte le premier prix ; le robot humanoïde DR02 avec protection IP66 est lancé en tant que premier dans le monde ; Google Chrome s'apprête à intégrer de nouvelles fonctionnalités Gemini

Le modèle de code KAT-Dev de Kuaishou, ouvert au public, domine : la performance de KAT-Dev dépasse SWE-Bench, marquant une percée pour l'IA chinoise en programmation

Le prodige de Tsinghua Yao Shunyu démissionne pour rejoindre DeepMind et inaugurer une nouvelle ère !

Journal de l'IA : Veo 3.1 peut générer des vidéos de 1 minute ; Ant Group lance un modèle linguistique de 1 trillion de paramètres, Ling-1T ; Lovart permet de jouer gratuitement à Sora2

Ant Group lance un modèle de langage à plusieurs milliards de paramètres, Ling-1T, qui marque une nouvelle référence en termes de vitesse d'inférence et de compétences

Le modèle Kuaishou Coling 2.5 Turbo domine le classement mondial de génération de vidéos !

GEO Services