हाल के तकनीकी दुनिया में, VAE (परिवर्तनशील स्व-संकोडक) को धीरे-धीरे अस्पष्टता के लिए छोड़ दिया जा रहा है, चीन के ताइज़ी विश्वविद्यालय और क्विक लिंग टीम के सहयोग से, SVG (VAE बिना संभावना वाला मॉडल) के नाम से एक नया जनरेटिव मॉडल पेश किया गया है। इस नवाचार ने शिक्षण की दक्षता में 6200% की आश्चर्यजनक वृद्धि की है, और जनरेशन गति में 3500% की लंबी छलांग लगाई है।

चित्र उत्पादन के क्षेत्र में VAE के पतन का मुख्य कारण "अर्थ भंग" समस्या है। अर्थात, जब हम केवल चित्र के एक विशेषता (जैसे बिल्ली के रंग) को बदलने की कोशिश करते हैं, तो अन्य विशेषताओं (जैसे आकार, भाव) आमतौर पर प्रभावित हो जाती हैं, जिसके परिणामस्वरूप उत्पादित चित्र असटीक होते हैं। इस समस्या के समाधान के लिए, ताइजी विश्वविद्यालय और क्विक लिंग के SVG मॉडल ने अलग रणनीति का उपयोग किया, जो अर्थ और विवरण के साथ एक विशेषता स्थान बनाता है।

image.png

SVG मॉडल के डिजाइन में, टीम ने पहले DINOv3 पूर्व-प्रशिक्षित मॉडल का उपयोग अर्थ निकालने के लिए किया, जो बड़े पैमाने पर स्व-सीख के माध्यम से प्रशिक्षित है, जो विभिन्न श्रेणियों के विशेषताओं की पहचान और अलग करने में सक्षम है, जो पारंपरिक VAE मॉडल में अर्थ अस्पष्टता को हल करता है। इसके अलावा, विवरण के पूरक के लिए, टीम ने एक हल्का अवशिष्ट कोडर विशेष रूप से डिज़ाइन किया, जो विवरण जानकारी को अर्थ विशेषताओं के साथ टकराने से रोकता है। महत्वपूर्ण वितरण तुलना योजना दोनों विशेषताओं के संगम को आगे बढ़ाती है, जो उत्पादित चित्र की उच्च गुणवत्ता की गारंटी देती है।

image.png

प्रयोग परिणाम दर्शाते हैं कि SVG मॉडल जनरेशन गुणवत्ता और बहु-कार्य सामान्यता में पारंपरिक VAE समाधान से पूरी तरह से ऊपर है। ImageNet डेटासेट पर, SVG मॉडल केवल 80 चक्रों के साथ प्रशिक्षित होते हैं, FID मान (जो उत्पादित चित्र और वास्तविक चित्र के समानता के मापदंड के रूप में मापा जाता है) 6.57 तक पहुंच गए, जो समान आकार के VAE मॉडल से बहुत आगे है; और अनुमानन दक्षता में, SVG मॉडल भी अद्वितीय प्रदर्शन दिखाता है, जिससे कम नमूना चरणों में स्पष्ट चित्र उत्पन्न हो जाते हैं। इसके अलावा, SVG मॉडल के विशेषता स्थान का उपयोग सीधे चित्र वर्गीकरण, अर्थ विभाजन आदि विज़ुअल कार्यों में किया जा सकता है, बिना अतिसंवेदनशीलता के, जो अनुप्रयोग की लचीलापन को बहुत बढ़ाता है।

ताइजी विश्वविद्यालय और क्विक लिंग की यह नई तकनीक चित्र उत्पादन के क्षेत्र में क्रांतिकारी परिवर्तन लाई है और बहु-माध्यम उत्पादन कार्यों में बहुत बड़ी क्षमता के साथ दिखाई दे सकती है।

पेपर का पता: https://arxiv.org/pdf/2510.15301