Tsinghua und Kuaishou präsentieren ein neues SVG-Verbreitungsmodell mit einer Verzehnfachung der Trainingsgeschwindigkeit

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Oct 29, 2025

Im technischen Bereich erlebt die VAE (Variational Autoencoder) in jüngster Zeit eine unangenehme Phase des Rückgangs. Mit der Zusammenarbeit zwischen der Tsinghua-Universität und dem Team von Kuaishou Ling, wurde ein neues Generativmodell namens SVG (VAE-freies latentes Diffusionsmodell) vorgestellt. Diese Innovation hat nicht nur eine beeindruckende Steigerung der Trainingseffizienz um 6200 % erzielt, sondern auch eine sprunghafte Verbesserung der Generierungszeit um 3500 %.

Der Rückgang der VAE im Bereich der Bildgenerierung geht hauptsächlich auf das Problem der „semantischen Verkettung“ zurück. Das bedeutet, dass bei Versuchen, lediglich eine bestimmte Eigenschaft eines Bildes (wie die Farbe einer Katze) zu verändern, andere Eigenschaften (wie Größe oder Ausdruck) oft ebenfalls beeinflusst werden, was zu ungenauen Bildern führt. Um dieses Problem zu lösen, hat das SVG-Modell der Tsinghua-Universität und Kuaishou Ling einen anderen Ansatz gewählt und aktiv einen Merkmalsraum geschaffen, der Semantik und Details kombiniert.

Bei der Gestaltung des SVG-Modells verwendete das Team zunächst den vortrainierten DINOv3-Modell als semantisches Extraktionswerkzeug. Dieser Modell wurde durch eine große Menge an selbstüberwachtem Lernen trainiert und kann verschiedene Merkmale effektiv erkennen und trennen, wodurch das semantische Chaos in traditionellen VAE-Modellen gelöst wird. Darüber hinaus entwarf das Team zusätzlich einen leichten Residual-Encoder, um Details zu ergänzen und sicherzustellen, dass Detailinformationen nicht mit semantischen Merkmalen konfliktieren. Die entscheidende Verteilungsausrichtungsmechanismus verstärkte zudem die Integration dieser beiden Merkmale und stellte die hohe Qualität der generierten Bilder sicher.

Die Experimente zeigten, dass das SVG-Modell in Bezug auf die Bildqualität und die Allgemeingültigkeit für mehrere Aufgaben das traditionelle VAE-Verfahren übertrifft. Auf dem ImageNet-Datensatz erreichte das SVG-Modell bei nur 80 Trainingsschritten einen FID-Wert (ein Maß für die Ähnlichkeit zwischen generierten und echten Bildern) von 6,57, weit über dem Wert ähnlicher VAE-Modelle; außerdem zeigte das SVG-Modell auch eine exzellente Leistung in Bezug auf die Inferenz-Effizienz und konnte bereits bei wenigen Abtast-Schritten klare Bilder generieren. Darüber hinaus kann der Merkmalsraum des SVG-Modells direkt für visuelle Aufgaben wie Bildklassifizierung und semantische Segmentierung verwendet werden, ohne dass zusätzliche Feinabstimmungen erforderlich sind, was die Anwendungsvielfalt stark erhöht.

Die neue Technologie der Tsinghua-Universität und Kuaishou bringt nicht nur revolutionäre Veränderungen im Bereich der Bildgenerierung, sondern verspricht auch große Potenzial in multi-modalen Generierungsaufgaben.

Paper-Link: https://arxiv.org/pdf/2510.15301

Tsinghua University und ByteDance präsentieren den MoGA-Modell für die Erstellung langer Videos: Ein-klick-Erstellung von Minuten-Szenenfilmen

Die Universität für Wissenschaft und Technologie China und ByteDance haben ein End-to-End-Modell zur Erstellung langer Videos entwickelt, das hochwertige Videos mit einer Länge von Minuten, Auflösung 480p und 24fps direkt generieren kann und mehrere Szenenwechsel unterstützt. Der Kerninnovation ist der unterliegende Algorithmus MoGA, eine neue Aufmerksamkeitsmechanik, die speziell für Probleme bei der Erstellung langer Videos konzipiert wurde und einen entscheidenden Durchbruch in der chinesischen Videoerstellungs-Technologie markiert.

Tsinghua Changgeng Krankenhaus und Beijing Electronics and Digital Intelligence kooperieren bei der Entwicklung eines nationalen ersten Pharmazie-Modells: Fokus auf die Bewertung der Medikamentensicherheit bei besonderen Bevölkerungsgruppen

Das Beijing Tsinghua Changgeng Krankenhaus hat mit Beijing Electronics and Digital Intelligence zusammen gearbeitet, um ein nationales erstes pharmazeutisches großes Modell zu entwickeln. Es nutzt KI, um pharmazeutische Prozesse zu optimieren und die Effizienz und Genauigkeit der Bewertung der Medikamentensicherheit bei älteren Menschen, Kindern und schwangeren Frauen zu verbessern, um Herausforderungen wie schnelle Updates von Arzneimittelinformationen und komplexe individuelle Unterschiede zu bewältigen.

AI-Tagesbericht: Kuaishou KAT-Dev-Code-Modell wird open source und erreicht die Spitze; weltweit erste humanoider Roboter mit IP66-Schutz DR02 vorgestellt; Google Chrome wird Gemini-Funktionen einführen

Das Modell KAT-Dev-72B-Exp von Kuaishou erzielte bei den SWE-Bench-Tests eine Genauigkeit von 74,6 % und gewann, was einen bedeutenden Durchbruch in der chinesischen AI-Programmierung darstellt. Das open-source Code-Modell zeigt starke technische Fähigkeiten und bietet Entwicklern fortgeschrittene Werkzeuge, um die Innovation in AI-Anwendungen zu fördern.

Kuaishou 72B-Code-Modell Open Source: KAT-Dev siegt in SWE-Bench, ein Durchbruch im Bereich der chinesischen AI-Programmierung

Kuaishou öffnete das 72-Billionen-Parameter-Code-Modell KAT-Dev-72B-Exp und erreichte eine Genauigkeit von 74,6 % bei der SWE-Bench-Benchmark-Tests, was es an die Spitze der Open-Source-Code-Modell-Rangliste brachte. Dies markiert einen Meilenstein im Bereich der chinesischen KI in der Bereich der Programmierassistenten.

Kuaishou veröffentlicht die KAT-Serie Agentic Coding-Modelle mit außergewöhnlicher Leistung bei der Codegenerierung

Das Kuaipilot-Team von Kuaishou hat zwei Code-Intelligenz-Modellserien, KAT-Dev-32B und KAT-Coder, veröffentlicht. KAT-Dev-32B ist ein Open-Source-Modell mit 3,2 Milliarden Parametern, das in Tests zur Softwareentwicklung eine Lösungsrate von 62,4 % erreicht hat und auf Platz fünf der Open-Source-Modelle rangiert. Es hilft Entwicklern dabei, ihre Effizienz zu steigern. Die beiden Modelle sind für unterschiedliche Szenarien optimiert und fördern die Entwicklung der Technologie der Code-Intelligenz.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Tsinghua und Kuaishou präsentieren ein neues SVG-Verbreitungsmodell mit einer Verzehnfachung der Trainingsgeschwindigkeit

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Tsinghua University und ByteDance präsentieren den MoGA-Modell für die Erstellung langer Videos: Ein-klick-Erstellung von Minuten-Szenenfilmen

Kuaishou lanciert ein AI-Programmierökosystem mit Werkzeugen, Modellen und Plattformen: KAT-Coder-Air wird kostenlos geöffnet

Sich durch die Schwierigkeiten arbeiten! Tsinghua University und das Shanghai AI Lab arbeiten zusammen, um die Reflexionsfähigkeit von multimodalen großen Modellen zu verbessern

Tsinghua Changgeng Krankenhaus und Beijing Electronics and Digital Intelligence kooperieren bei der Entwicklung eines nationalen ersten Pharmazie-Modells: Fokus auf die Bewertung der Medikamentensicherheit bei besonderen Bevölkerungsgruppen

AI-Tagesbericht: Kuaishou KAT-Dev-Code-Modell wird open source und erreicht die Spitze; weltweit erste humanoider Roboter mit IP66-Schutz DR02 vorgestellt; Google Chrome wird Gemini-Funktionen einführen

Kuaishou 72B-Code-Modell Open Source: KAT-Dev siegt in SWE-Bench, ein Durchbruch im Bereich der chinesischen AI-Programmierung

Tsinghua Genius Yao Shunyu Resigns and Joins DeepMind to Forge a New Era!

Kuaishou Colly 2.5Turbo-Modell dominiert weltweit die Videogenerierung!

Tageszeitung AI: Tencent präsentiert umfassend die Version 3.0 der Mixture Image; Kuaishou veröffentlicht die KAT-Serie Agentic Coding-Modell; Apple arbeitet diskret an einer ChatGPT-artigen Anwendung

Kuaishou veröffentlicht die KAT-Serie Agentic Coding-Modelle mit außergewöhnlicher Leistung bei der Codegenerierung

Empfohlene verwandte KI-Nachrichten

Tsinghua University und ByteDance präsentieren den MoGA-Modell für die Erstellung langer Videos: Ein-klick-Erstellung von Minuten-Szenenfilmen

Kuaishou lanciert ein AI-Programmierökosystem mit Werkzeugen, Modellen und Plattformen: KAT-Coder-Air wird kostenlos geöffnet

Sich durch die Schwierigkeiten arbeiten! Tsinghua University und das Shanghai AI Lab arbeiten zusammen, um die Reflexionsfähigkeit von multimodalen großen Modellen zu verbessern

Tsinghua Changgeng Krankenhaus und Beijing Electronics and Digital Intelligence kooperieren bei der Entwicklung eines nationalen ersten Pharmazie-Modells: Fokus auf die Bewertung der Medikamentensicherheit bei besonderen Bevölkerungsgruppen

AI-Tagesbericht: Kuaishou KAT-Dev-Code-Modell wird open source und erreicht die Spitze; weltweit erste humanoider Roboter mit IP66-Schutz DR02 vorgestellt; Google Chrome wird Gemini-Funktionen einführen

Kuaishou 72B-Code-Modell Open Source: KAT-Dev siegt in SWE-Bench, ein Durchbruch im Bereich der chinesischen AI-Programmierung

Tsinghua Genius Yao Shunyu Resigns and Joins DeepMind to Forge a New Era!

Kuaishou Colly 2.5Turbo-Modell dominiert weltweit die Videogenerierung!

Tageszeitung AI: Tencent präsentiert umfassend die Version 3.0 der Mixture Image; Kuaishou veröffentlicht die KAT-Serie Agentic Coding-Modell; Apple arbeitet diskret an einer ChatGPT-artigen Anwendung

Kuaishou veröffentlicht die KAT-Serie Agentic Coding-Modelle mit außergewöhnlicher Leistung bei der Codegenerierung

GEO Services