
इस वर्ष, एजेंट ट्रैक के अलावा, वर्ल्ड मॉडल एआई उद्योग में एक नया प्रतिस्पर्धा का मैदान बन गया है। हाल ही में, फी-फी ली और ली-कुन यांग ने घोषणा की कि उन्हें 1 बिलियन डॉलर की फंडिंग मिली है, और वर्ल्ड मॉडल भी एक महत्वपूर्ण मोड़ पर आ गया है।
APPSO ने वर्तमान विश्व मॉडलों में पाँच प्रमुख विचारधाराओं का विश्लेषण किया है, जिनमें से प्रत्येक का तकनीकी दृष्टिकोण अलग-अलग है। उदाहरण के लिए, यांग लिकुन की JEPA विचारधारा अमूर्त प्रतिनिधित्व भविष्यवाणी पर केंद्रित है; फी-फी ली की स्थानिक बुद्धिमत्ता विचारधारा स्पष्ट 3D पुनर्निर्माण के लिए वर्ल्ड लैब्स के मार्बल का उपयोग करती है; और डीपमाइंड की लर्निंग सिमुलेशन विचारधारा ने इंटरैक्टिव वर्चुअल वातावरण बनाने के लिए जिनी को लॉन्च किया है।

▲ कृत्रिम बुद्धिमत्ता द्वारा निर्मित छवि
चैटजीपीटी से पहले आए एआई के इन विद्वानों, यहां तक कि एआई के जनक/जननी भी, सभी का कहना है कि बड़े भाषा मॉडल के टेक्स्ट ट्रेनिंग प्रतिमान में एक गतिरोध आ गया है। एआई को भौतिक दुनिया को समझने के लिए विश्व मॉडल पर निर्भर रहना होगा, लेकिन किस प्रकार का "विश्व मॉडल" बनाया जाए, इस पर कोई सहमति नहीं है।
हाल ही में, एआई कंपनी VAST ने अपने सीरीज A+ और A++ फंडिंग राउंड पूरे किए हैं, जिससे कुल मिलाकर लगभग 200 मिलियन डॉलर जुटाए गए हैं। यह VAST द्वारा इसी साल मार्च की शुरुआत में 50 मिलियन डॉलर के सीरीज A फंडिंग राउंड को पूरा करने के ठीक बाद हुआ है।
आप शायद VAST से परिचित न हों, लेकिन क्या Tripo 3D जनरेशन आपको जाना-पहचाना लगता है? Seedance 2.0 और GPT Image 2 मॉडल के संयोजन के बारे में हमारी पिछली जानकारी में, हमने कई बार बताया था कि Tripo AI का उपयोग करके GPT Image 2 द्वारा जनरेट की गई मल्टी-व्यू इमेज को 3D मॉडल में कैसे बदला जा सकता है ।

▲ ट्रिपो, VAST के अंतर्गत एक सामान्य प्रयोजन वाला 3D बड़े पैमाने का मॉडल है।
VAST के मुख्य वैज्ञानिक काओ यानपेई ने कहा कि पहले दिन से ही, VAST वास्तव में अगली पीढ़ी की इंटरैक्टिव सामग्री के लिए अंतर्निहित बुनियादी ढांचे को अनलॉक कर रहा है, और साथ ही सामान्य कृत्रिम बुद्धिमत्ता के लिए एक समर्पित वैश्विक आधार भी बना रहा है।
इस कार्य को दो चरणों में विभाजित किया गया था: पहला चरण " सब कुछ बनाना " था; दूसरा चरण गतिशील रूप से " दुनिया बनाना " था, जो उपयोगकर्ताओं और बुद्धिमान एजेंटों को एक विकसित और परीक्षण-और-त्रुटि-सक्षम पूर्ण आभासी वातावरण प्रदान करता है।
हर चीज का निर्माण करने में एआई 3डी का उपयोग करके ऐसे एसेट तैयार करना शामिल है जो पाइपलाइन मानकों को पूरा करते हैं; दूसरी ओर, दुनिया का निर्माण करना वह है जो विश्व मॉडल को करना चाहिए – बहु-उपयोगकर्ता इंटरैक्शन का समर्थन करने के लिए स्थानिक पैमाने और स्थिति विकास को समझना।
काओ यानपेई का मानना है कि साधारण 3डी स्थिर संरचनाएं एक इंटरैक्टिव दुनिया को सहारा नहीं दे सकतीं। संरचनाएं केवल "दुनिया की अंतर्निहित स्थिति" हैं और दुनिया को कार्यशील बनाने के लिए अभी भी नियमों का एक पूरा सेट मौजूद नहीं है।
पांच प्रमुख विश्व मॉडलों के विपरीत, अतीत का विश्व मॉडल भविष्यवाणी के लिए स्थिति और दृश्य को एक ही मॉडल में संयोजित करता है। VAST इन दोनों को अलग करता है, जिसमें निचली परत एक अलग विश्व स्थिति बनाए रखती है और ऊपरी परत मांग के अनुसार दृश्य प्रस्तुत करती है ।
ऐसा करने के फायदे यह हैं कि स्थिति स्वतंत्र रूप से मौजूद रहती है और कैमरे से बाहर निकलने पर वस्तुएं गायब नहीं होतीं; एक स्थिति एक ही समय में कई लोगों के लिए अलग-अलग दृष्टिकोण प्रस्तुत कर सकती है, और समवर्ती बहु-व्यक्ति अंतःक्रिया स्वाभाविक रूप से संभव है ; उपयोगकर्ताओं द्वारा दुनिया में किए गए परिवर्तन वास्तव में स्थिति में बने रहेंगे, और प्रवेश करने वाला अगला व्यक्ति वही परिणाम देखेगा।
VAST के प्रोजेक्ट ईडन ने इसी तर्क का उपयोग करके विश्व मॉडल का पुनर्निर्माण किया। यह दुनिया का पहला ऐसा विश्व मॉडल बन गया जो विश्व की स्थिति के स्वतंत्र रखरखाव और नियतात्मक नियंत्रण की अनुमति देता है।
फिर सवाल उठता है: विश्व मॉडल की स्थिति को दृश्यों से अलग क्यों किया गया, और VAST ने सबसे पहले इस दृष्टिकोण को क्यों अपनाया?
बेहतरीन दृश्य होने का मतलब यह नहीं है कि दुनिया सुचारू रूप से चल रही है।
एक सुगम वीडियो निर्माण प्रक्रिया को विश्व मॉडल कहा जा सकता है। गति की अनुमति देने वाला एक स्थिर 3डी दृश्य भी विश्व मॉडल कहलाता है। नियंत्रणीय दृष्टिकोण वाला दृश्य भी विश्व मॉडल कहलाता है।
"विश्व मॉडल" शब्द में लगभग सब कुछ समाहित प्रतीत होता है।
गूगल जीनियस के डेमो वीडियो में, खिलाड़ी एक किरदार को नियंत्रित करते हैं और आगे बढ़ते हैं, जिसके अनुसार दृश्य उत्पन्न होता है। लेकिन अगर आप पीछे मुड़ते हैं, तो आपके पीछे का दृश्य बदल सकता है, या कुछ ऐसा दिखाई दे सकता है जो पहले कभी मौजूद नहीं था, क्योंकि जीनियस पिछले कुछ फ्रेम की अपनी स्मृति के आधार पर हमारे पीछे क्या है इसका अनुमान लगाता है।

▲ जिनी और इसी तरह के विश्व मॉडल मूल रूप से एक दृश्य रूप से सुसंगत वीडियो उत्पन्न करते हैं।
हम इसे वीडियो जनरेशन कहते हैं। तकनीकी रूप से, वर्ल्ड मॉडल अगले फ्रेम का अनुमान लगाता है, मॉडल को मोशन इनपुट देता है, और फिर उसे अगला दृश्य उत्पन्न करने देता है। इस प्रक्रिया को दोहराकर एक दुनिया का अनुकरण किया जा सकता है।
काओ यानपेई इसे "वन-शॉट" कहते हैं, जिसमें स्थान, घटनाएँ, परिप्रेक्ष्य और स्वरूप सभी एक ही ऑटोरेग्रेसिव वीडियो फ्रेम में संकुचित हो जाते हैं। कैमरा हटते ही उस स्थान की स्थिति संरक्षित नहीं रहती; जब आप वापस देखते हैं, तो मॉडल को केवल ट्रांसफ़ॉर्मर में मौजूद केवी कैश का उपयोग करके ही पुनर्निर्मित किया जा सकता है।
सीधे शब्दों में कहें तो, इसे दुनिया याद नहीं रहती, बल्कि कुछ तस्वीरों के फ्रेम याद रहते हैं।
एक अन्य प्रकार के मॉडल हैं फी-फी ली की वर्ल्ड लैब्स और टेनसेंट की एचवाई वर्ल्ड, जिन्हें स्थानिक बुद्धिमत्ता का स्कूल कहा जा सकता है। इस प्रकार के मॉडल की सबसे आम विशेषता यह है कि यह पुन: उपयोग योग्य 3डी एसेट्स निर्यात कर सकता है।
उन्होंने सबसे पहले एक त्रि-आयामी स्थान बनाने की कोशिश की ताकि एआई किसी भी अन्य चीज़ पर चर्चा करने से पहले ज्यामितीय और भौतिक संबंधों को सही मायने में समझ सके।
उदाहरण के लिए, वर्ल्ड लैब्स का मार्बल एक परिमित दुनिया बना सकता है जिसे हम स्वतंत्र रूप से एक्सप्लोर कर सकते हैं। इस निर्मित, स्थिर दुनिया में, 3डी एसेट्स के स्थिर होने के कारण व्यूप्वाइंट की स्थिरता बनी रहती है। हालांकि, इस दुनिया में समय का आयाम भी खत्म हो जाता है; दृश्य निर्माण के क्षण में ही स्थिर रहता है, जिसमें कोई भौतिक परिवर्तन, कोई घटना या कोई कारण-कार्य संबंध नहीं होता।

▲ उत्पन्न की गई दुनिया स्थिर है; समय के साथ रोशनी नहीं बुझेगी और आकाश में प्रकाश नहीं बढ़ेगा।
हम अंदर तो जा सकते हैं, लेकिन हम कुछ भी नहीं बदल सकते, और हमारे कार्यों के कारण कुछ भी नहीं बदलेगा।
VAST के लिए, विश्व मॉडल केवल पिक्सेल उत्पन्न नहीं कर सकता है, न ही यह केवल एक स्थिर स्थान हो सकता है।
एक इंटरैक्टिव वर्ल्ड मॉडल में एक अंतर्निहित स्थिति होनी चाहिए जो समय के साथ बनी रहे, जिसे एक साथ कई दृष्टिकोणों से देखा और क्वेरी किया जा सके, और यह स्थिति लगातार अपडेट होती रहे।
विश्व मॉडल उसी तरह बनाएं जैसे आप किसी बड़े पैमाने के गेम का निर्माण करते हैं।
चूंकि स्थान, घटनाओं और दृष्टिकोण जैसी अवस्थाओं को एक ही दृश्य सूचना में संपीड़ित करना असंभव है, इसलिए आइए हम उन्हें पूरी तरह से अलग कर दें।
ठीक वैसे ही जैसे हम ओपन-वर्ल्ड गेम खेलते हैं, गेम सर्वर एक विश्व स्थिति बनाए रखता है: कौन कहाँ है, क्या नष्ट हो चुका है, कौन सा खजाना खोला जा चुका है। हमारी कंप्यूटर स्क्रीन बस इसी स्थिति के आधार पर, साथ ही हमारे लोकल फोल्डर में मौजूद सैकड़ों गीगाबाइट गेम फाइलों के साथ, वास्तविक समय में उसका प्रदर्शन करती है।

मानचित्र डेटा और स्क्रीन रेंडरिंग दो पूरी तरह से अलग प्रणालियाँ हैं। जब कोई हमारी दुनिया में प्रवेश करता है, तब भी सभी लोग स्थिर फ़ाइलों की एक ही अंतर्निहित दुनिया को साझा करते हैं, और प्रत्येक व्यक्ति की स्क्रीन अलग-अलग दृष्टिकोण से प्राप्त रेंडरिंग का ही परिणाम होती है।
VAST प्रोजेक्ट ईडन ने जनरेटिव एआई का उपयोग करके इस तर्क को फिर से लिखा। उन्होंने मॉडलों के पारंपरिक, एकात्मक ब्लैक-बॉक्स तर्क को त्याग दिया और एक त्रि-स्तरीय एल्गोरिदम संरचना तैयार की जो "स्टेट और रेंडरिंग के बीच स्वाभाविक रूप से अलग" है।
सबसे निचली परत एक संरचित अवस्था है जो इस दुनिया में मौजूद हर चीज़ और हर गतिविधि को नियंत्रित करती है—दृश्य की ज्यामिति, वस्तुओं की पहचान और घटना तर्क—जो कैमरे के परिप्रेक्ष्य से पूरी तरह स्वतंत्र है। जब कोई खिलाड़ी विश्व मॉडल के भीतर कोई क्रिया करता है, तो सिस्टम सबसे पहले इस अंतर्निहित अवस्था को अपडेट करता है।
मध्य में रूपांतरण परत है, जो "वर्तमान में कौन देख रहा है और किस परिप्रेक्ष्य से देख रहा है" के आधार पर दुनिया की स्थिति को स्थानीय सशर्त जानकारी के एक समूह में परिवर्तित करती है। उदाहरण के लिए, इस क्रिया को करने के बाद, इस परिप्रेक्ष्य से कौन सी वस्तुएँ देखी जा सकती हैं, उनके अनुमानित स्थानिक संबंध क्या हैं, और कौन सी घटनाएँ घटित हुई हैं और उनमें क्या परिवर्तन हुए हैं।
सबसे ऊपरी परत जनरेटिव रेंडरिंग है, जो इन स्थितियों के आधार पर, प्रकाश, सामग्री और गतिशील विवरणों को जोड़ते हुए, छवि को सही मायने में "बनाती" है।
इस पृथक्करण के साथ, वीडियो मॉडल की ज़िम्मेदारी केवल एक ही चीज़ तक सीमित हो जाती है: उच्च-गुणवत्ता वाला रेंडरर होना । इसे पूरी दुनिया को याद रखने या किसी वस्तु के अस्तित्व का अनुमान लगाने की आवश्यकता नहीं है; ये सभी कार्य अंतर्निहित स्थिति द्वारा नियंत्रित किए जाते हैं। इसकी मुख्य विशेषता सुंदर चित्र बनाना है, इसलिए अब यह सुंदर चित्र बनाने पर ध्यान केंद्रित कर सकता है।
एक बार जब विश्व मॉडल एक स्थिर अंतर्निहित स्थिति को बनाए रखना शुरू कर देता है, तो प्रशिक्षण डेटा भी बदल जाता है।
प्रोजेक्ट ईडन की परिभाषा के अनुसार, विश्व मॉडल को प्रशिक्षित करने के लिए वास्तव में उपयुक्त डेटा में सूचना की दो परतें होनी चाहिए: अंतर्निहित अनुमान स्थिति और उच्च-गुणवत्ता वाली दृश्य छवियां। यदि ये दोनों परतें संरेखित नहीं हैं, तो इसे "मूल डेटा" नहीं माना जाता है।
यह डेटा कहां से आता है?
VAST, Tripo की लंबे समय से संचित 3D बेसिक मॉडल क्षमताओं का लाभ उठाकर भारी मात्रा में 2D इंटरनेट वीडियो का रिवर्स-इंजीनियरिंग करता है, जिससे गहराई, कैमरा पोज और ज्यामितीय प्रक्षेपवक्र जैसी जानकारी प्राप्त होती है और अंतर्निहित स्थानिक स्थिति का पुनर्निर्माण होता है।
काओ यानपेई ने स्पष्ट रूप से कहा कि इस 3डी समझ और निर्माण क्षमता के बिना, "हम शायद विश्व मॉडल बनाना भी शुरू नहीं कर पाएंगे।"
दूसरी ओर, गेम इंजन से ऑब्जेक्ट कोऑर्डिनेट, टकराव संबंध और एक्शन इनपुट जैसे सिंथेटिक डेटा प्राप्त करके "स्थिति और परिणाम" के बीच एक पूर्ण पत्राचार स्थापित करने से, मॉडल यह सीख सकता है कि किसी क्रिया के घटित होने के बाद विश्व की स्थिति कैसे विकसित होगी।
इंटरनेट वीडियो सामान्यीकरण और व्यापकता के लिए जिम्मेदार है, जबकि इंजन डेटा सटीकता और नियंत्रण के लिए जिम्मेदार है; दोनों में से कोई भी दूसरे के बिना काम नहीं कर सकता।
यह एआई जगत का भविष्य हो सकता है।
जब विश्व की स्थिति एक स्थायी और स्वतंत्र प्रणाली बन जाती है, तो ये वास्तुशिल्पीय अंतर सीधे तौर पर क्षमताओं के स्तर में परिलक्षित होते हैं।
सबसे स्पष्ट बदलाव वातावरण की निरंतरता है। जब कोई उपयोगकर्ता प्रोजेक्ट ईडन में किसी दृश्य में प्रवेश करता है, आगे बढ़ता है या अन्य क्रियाएं करता है, तो वह मौजूदा दृश्य के भीतर ही ऐसा कर रहा होता है। मूल स्थिति अपरिवर्तित रहती है और कभी गायब नहीं होती, जिससे इसे ऐतिहासिक फ्रेम से पुनर्निर्मित करने की आवश्यकता समाप्त हो जाती है।
यह सुनने में मामूली लग सकता है, लेकिन यह वीडियो निर्माण प्रक्रिया में एक महत्वपूर्ण बाधा है जिसे दूर करना अभी भी मुश्किल है।
एक ही दुनिया को साझा करने वाले कई खिलाड़ियों पर भी यही सिद्धांत लागू होता है। जब दो खिलाड़ी एक ही मूल स्थिति में प्रवेश करते हैं, तो यदि खिलाड़ी A किसी बॉक्स को निर्दिष्ट बिंदु पर धकेलता है, तो खिलाड़ी B को भी वही बॉक्स स्थिति दिखाई देगी। इस वियुग्मित आर्किटेक्चर में, कई खिलाड़ी एक ही विश्व आधार को साझा करते हैं, केवल एक ही स्थिति का समूह होता है, और प्रत्येक खिलाड़ी अपना स्वयं का संस्करण प्रस्तुत करता है।

कुछ डेमो के आधार पर, VAST ने ऐसे परिदृश्यों को सफलतापूर्वक लागू किया है जहाँ दो खिलाड़ी मिलकर बक्से धकेलते हैं और दो कारें एक ही ट्रैक पर (अलग-अलग स्क्रीन पर) दौड़ लगाती हैं। विशुद्ध वीडियो फ्रेमवर्क के भीतर ऐसा करना लगभग असंभव है; इसके लिए एक एकल, वैश्विक स्थिति की आवश्यकता होगी।

निशानेबाजी का उदाहरण इस बात को और भी बेहतर ढंग से स्पष्ट करता है। जब कोई खिलाड़ी पानी की बंदूक से निशाना लगाता है, तो सिस्टम लक्ष्य की वर्तमान स्थिति और सापेक्षिक स्थान का सटीक रूप से पता लगा सकता है, सटीक रूप से गणना कर सकता है कि निशाना लगा है या नहीं, स्कोर दर्ज कर सकता है, और यह परिणाम सिस्टम की स्थिति में स्थायी रूप से संग्रहीत हो जाता है।


जब इसी घटना को वीडियो जनरेटर को दिया जाता है, तो वह "पानी की धार से लक्ष्य पर प्रहार" का वीडियो बना सकता है, लेकिन यह परिणाम को विश्वसनीय रूप से सहेज नहीं सकता है।
वीडियो जनरेशन मॉडल समानता में तो उत्कृष्ट होते हैं, लेकिन सटीकता में नहीं। दूसरी ओर, विश्व मॉडल के लिए सटीकता आवश्यक होती है। काओ यानपेई ने कहा कि यदि कोई मॉडल क्रियाओं के बारे में सटीक पूर्वानुमान और निष्कर्ष नहीं निकाल सकता, तो "उसे विश्व मॉडल कहना मुश्किल है।"
क्रियाओं के प्रकारों का सामान्यीकरण भी है। पहले, अधिकांश विश्व मॉडल केवल कुछ ही क्रियाओं का समर्थन कर सकते थे, मूल रूप से ऊपर, नीचे, बाएँ, दाएँ, साथ ही कूदना, जो दिशात्मक कुंजियों के साथ किया जा सकता था।
प्रोजेक्ट ईडन के डेमो में भेड़ चराना, आग बुझाना और नाव चलाना जैसी क्रियाएं भी शामिल हैं। यह भी डीकपल्ड आर्किटेक्चर द्वारा लाए गए प्रशिक्षण दक्षता लाभ के कारण है। स्टेट इन्फरेंस को केवल "इस क्रिया को देखते हुए, अगली स्थिति क्या है" सीखने की आवश्यकता होती है, साथ ही "यह प्रक्रिया कैसी दिखती है" सीखने की आवश्यकता नहीं होती है, जो कि एक साथ सब कुछ सीखने की तुलना में बहुत कम श्रमसाध्य है।



जब इन क्षमताओं को एक साथ जोड़ा जाता है, तो यह एक हाई-डेफिनिशन डायनामिक वीडियो के बजाय वास्तव में काम करने वाली दुनिया जैसा महसूस होता है।
ईडन की वास्तुकला विश्व के स्वरूपों के लिए नई संभावनाएं प्रस्तुत करती है।
हालांकि प्रोजेक्ट ईडन वीएएसटी टीम द्वारा प्रस्तावित विश्व मॉडल अनुसंधान का सिर्फ एक पूर्वावलोकन है, लेकिन इसके पीछे के वास्तुशिल्पीय विकल्प उद्योग को एक ऐसी दिशा प्रदान करते हैं जो दीर्घकालिक रूप से तलाशने योग्य है।
आजकल हर कोई "विश्व मॉडल" शब्द की चर्चा कर रहा है, लेकिन सभी का मतलब एक ही नहीं है। कौन निरंतरता हासिल कर सकता है, कौन कई उपयोगकर्ताओं को सपोर्ट कर सकता है, और कौन कुशलतापूर्वक विस्तार कर सकता है—कंप्यूटिंग क्षमता और फंडिंग जैसे कारकों के अलावा, अपनाया गया मार्ग भी खिलाड़ियों के चयन में महत्वपूर्ण भूमिका निभाता है।
केवल वीडियो पर आधारित एक विश्व मॉडल बनाने में सोरा वीडियो बनाने के लिए आवश्यक कंप्यूटिंग शक्ति से सैकड़ों गुना अधिक शक्ति की खपत हो सकती है, और सोरा की तरह, यह व्यावसायिक रूप से व्यवहार्य मार्ग नहीं हो सकता है।
हालांकि, अगर स्टेट मेंटेनेंस क्लाउड में किया जाता है और इमेज रेंडरिंग डिवाइस साइड पर की जाती है, ठीक वैसे ही जैसे लोकल ग्राफिक्स रेंडरिंग होती है, तो यूजर्स को हर फ्रेम के लिए भुगतान नहीं करना पड़ेगा, और स्थिति अलग होगी।
VAST ने बताया कि उनकी मौजूदा 3D जनरेशन तकनीक ही विश्व मॉडल को प्रशिक्षित करने के लिए डेटा का मूल स्रोत है। वे अपनी 3D मूलभूत मॉडल क्षमताओं का उपयोग करके इंटरनेट वीडियो की विशाल मात्रा का रिवर्स इंजीनियरिंग करते हैं, गहराई और ज्यामितीय प्रक्षेप पथ निकालते हैं, और साधारण वीडियो को स्थिति-आधारित प्रशिक्षण डेटा में परिवर्तित करते हैं।
जैसे-जैसे प्रोजेक्ट ईडन आगे बढ़ेगा, और इंजीनियरिंग स्तर पर मल्टी-यूजर कॉन्करेंसी के मुद्दों का और अधिक समाधान होगा, यह ब्लेंडर जैसे मौजूदा पारंपरिक डीसीसी टूल्स और यूई और यूनिटी जैसे गेम इंजनों को भी बाधित कर सकता है।
विश्व मॉडल के लिए अब पीढ़ी के हिसाब से शुल्क नहीं लिया जाएगा, बल्कि इसका उपयोग गेम इंजन या क्लाउड सेवा प्रदाताओं के सीट मॉडल की तरह ही सामग्री वितरण और रनटाइम में बुनियादी ढांचे के रूप में किया जाएगा।
एक ओर, यह एक एआई-आधारित सैंडबॉक्स प्लेटफॉर्म है जहां उपयोगकर्ता भौतिक तर्क के साथ इंटरैक्टिव डिजिटल दुनिया बना सकते हैं जिसे प्राकृतिक भाषा या सरल क्रियाओं का उपयोग करके केवल एक क्लिक से कई लोगों द्वारा साझा किया जा सकता है, जिससे सामग्री निर्माण की बाधा काफी कम हो जाती है।
VAST का उद्देश्य कल्पनाशील दुनियाओं के निर्माण को फ़ोटो खींचने के स्तर तक सरल बनाना है। UGC इंटरैक्टिव कंटेंट प्लेटफ़ॉर्म की तरह, ये दुनियाएँ लघु वीडियो के रूप में हमारे जीवन में प्रवेश कर सकती हैं, जिससे एक नया इंटरैक्टिव मनोरंजन पारिस्थितिकी तंत्र विकसित हो सकता है।
दूसरी ओर, वैज्ञानिक अनुसंधान और उद्योग के लिए, यह पूर्ण भौतिक नियमों, दीर्घकालिक लौकिक स्थिरता और मुक्त हस्तक्षेप के साथ एक अनुकरण वातावरण प्रदान कर सकता है, और यह मूर्त बुद्धिमत्ता प्रशिक्षण और प्रदर्शन मूल्यांकन के लिए अनुकूलित एक उच्च-गुणवत्ता वाला अनुकरण आधार बन सकता है।
इस प्रकार, वैश्विक मॉडल दुनिया के लिए वास्तव में टिकाऊ आधार के करीब पहुंचता जा रहा है।
काओ यानपेई ने आंतरिक रूप से रोडमैप को तीन महत्वपूर्ण चरणों में विभाजित किया:
पहला चरण यह सत्यापित करना है कि स्टेट सिमुलेशन और विज़ुअल प्रेजेंटेशन को पूरी तरह से अलग किया जा सकता है। प्रोजेक्ट ईडन द्वारा जारी किया गया डेमो इसी प्रश्न का उत्तर है।
दूसरा चरण राज्य पूर्वानुमान के सामान्यीकरण पर काबू पाना है, ताकि मॉडल "उंगली के एक झटके से दीवार को तोड़ देना" जैसी सामान्यीकृत क्रियाओं के लिए स्व-सुसंगत परिणाम निकाल सके।
तीसरे चरण में बहु-उपयोगकर्ता समवर्तीता और अनुमान लागतों की कठिन इंजीनियरिंग चुनौतियों से निपटना शामिल है। उनका अनुमान है कि वास्तविक व्यावसायीकरण एक बहुत ही मध्यम से लंबी अवधि की प्रक्रिया होगी।
जिस तरह पहले लोग एआई द्वारा निर्मित छवियों/वीडियो की वास्तविकता पर बहस करते थे, उसी तरह अब एआई एक ही बार में पोस्टर और प्रचार वीडियो तैयार कर सकता है। संभवतः विश्व का स्वरूप भी इसी राह पर अग्रसर है, अब यह इस बात से हटकर कि किसकी छवि अधिक यथार्थवादी है, इस बात पर केंद्रित हो रहा है कि किसकी दुनिया निरंतर रूप से संचालित हो सकती है, बहु-व्यक्ति अंतःक्रिया को अधिक स्थिरता से समर्थन दे सकती है और उपयोगकर्ता द्वारा निर्मित सामग्री को अधिकाधिक संचित कर सकती है।
अगले फ्रेम के पिक्सल की भविष्यवाणी करने से लेकर अगली स्थिति का अनुमान लगाने तक, विश्व मॉडल का अंतिम बिंदु स्पष्ट होने लगता है।
#iFanr के आधिकारिक WeChat अकाउंट को फॉलो करने के लिए आपका स्वागत है: iFanr (WeChat ID: ifanr), जहां आपको जल्द से जल्द और भी रोमांचक सामग्री प्रस्तुत की जाएगी।