सबसे शक्तिशाली वीडियो जेनरेशन मॉडल सोरा का खुलासा करते हुए, OpenAI एक मिनट में एक शॉट कैसे प्राप्त करता है?

आज सुबह-सुबह, OpenAI ने अपने "गोला-बारूद शस्त्रागार" से AI वीडियो जेनरेशन टूल सोरा को बाहर निकाल लिया, जो तुरंत प्रमुख समाचार सुर्खियों में आ गया।

यहां तक ​​कि मस्क, जो हमेशा ओपनएआई के साथ असहमत रहे हैं, सोरा की शक्ति को स्वीकार करने और इसकी प्रशंसा करने को तैयार हैं, "अगले कुछ वर्षों में, मनुष्य एआई की शक्ति की मदद से उत्कृष्ट कार्य करेंगे।"

सोरा की शक्ति पाठ विवरण के आधार पर 60 सेकंड तक के सुसंगत और सहज वीडियो उत्पन्न करने की क्षमता में निहित है, जिसमें नाजुक और जटिल दृश्य, ज्वलंत चरित्र अभिव्यक्ति और जटिल कैमरा गतिविधियां शामिल हैं।

अन्य वीडियो की तुलना में, जो केवल एकल अंक जितने छोटे वीडियो उत्पन्न कर सकते हैं, सोरा की एक मिनट की अवधि निस्संदेह तालिका को पलटने का प्रभाव रखती है।

इससे भी महत्वपूर्ण बात यह है कि सोरा ने वीडियो प्रामाणिकता, लंबाई, स्थिरता, स्थिरता, रिज़ॉल्यूशन या पाठ समझ के मामले में सर्वोत्तम स्तर दिखाया है। आइए पहले आधिकारिक तौर पर जारी प्रदर्शन वीडियो क्लिप का आनंद लें।

संकेत: सुंदर, बर्फीला टोक्यो शहर हलचल भरा है। कैमरा शहर की हलचल भरी सड़क से होकर गुजरता है, जिसमें कई लोग सुंदर बर्फीले मौसम का आनंद ले रहे हैं और पास के स्टालों पर खरीदारी कर रहे हैं। बर्फ के टुकड़ों के साथ खूबसूरत साकुरा पंखुड़ियाँ हवा में उड़ रही हैं।

इस वीडियो में, एक जोड़े को ड्रोन के नजरिए से शहर की एक व्यस्त सड़क से गुजरते हुए देखा जा सकता है, जिसमें खूबसूरत चेरी ब्लॉसम की पंखुड़ियाँ बर्फ के टुकड़ों के साथ हवा में नृत्य कर रही हैं।

जबकि अन्य उपकरण अभी भी एक लेंस को स्थिर रखने के लिए संघर्ष कर रहे हैं, सोरा ने कई लेंसों की निर्बाध स्विचिंग को आसानी से हासिल कर लिया है, और लेंस स्विचिंग की सुसंगतता और वस्तुओं की स्थिरता बहुत आगे है, जो एक वास्तविक आयामी कमी झटका है। 👇

▲@गैबोर से

अतीत में, इस तरह के वीडियो को शूट करने के लिए स्क्रिप्ट निर्माण और शॉट डिज़ाइन जैसे कठिन कार्यों की एक श्रृंखला में बहुत समय और ऊर्जा की आवश्यकता होती थी। अब, केवल एक साधारण पाठ विवरण के साथ, सोरा पूरी तरह से इतना बड़ा दृश्य उत्पन्न कर सकता है, और संबंधित अभ्यासकर्ता कांपने लगे होंगे।

नेटिजन @debarghya_das ने ओपनएआई सोरा एडिटिंग, इलेवन लैब्स पर डेविड एटनबरो की आवाज और आईमूवी पर यूट्यूब के कुछ प्राकृतिक संगीत नमूनों का उपयोग करके 15 मिनट में यह 20+ सेकंड का ट्रेलर बनाया।

सोरा अपने शक्तिशाली प्रभाव कैसे प्राप्त करता है?

ओपनएआई ने सोरा पर एक विस्तृत तकनीकी रिपोर्ट भी जारी की, जिसमें इसके पीछे के तकनीकी सिद्धांतों और अनुप्रयोगों का परिचय दिया गया।

तो, सोरा ने यह सफलता कैसे हासिल की? एलएलएम के सफल व्यावहारिक अनुभव से प्रेरित होकर, ओपनएआई ने विज़ुअल पैच एम्बेडिंग कोड (पैच) पेश किया है, जो एक अत्यधिक स्केलेबल और प्रभावी विज़ुअल डेटा प्रतिनिधित्व है जो विविध वीडियो और छवि डेटा को संभालने के लिए जेनरेटर मॉडल की क्षमता में काफी सुधार कर सकता है।

उच्च-आयामी स्थान में, OpenAI पहले वीडियो डेटा को निम्न-आयामी अव्यक्त स्थान में संपीड़ित करता है और फिर इसे स्पेटियोटेम्पोरल एम्बेडिंग में विघटित करता है, जिससे वीडियो को एन्कोडिंग ब्लॉक की एक श्रृंखला में परिवर्तित किया जाता है।

इसके बाद, OpenAI ने विशेष रूप से विज़ुअल डेटा की आयामीता को कम करने के लिए डिज़ाइन किए गए नेटवर्क को प्रशिक्षित किया। नेटवर्क एक कच्चे वीडियो को इनपुट के रूप में लेता है और एक अव्यक्त प्रतिनिधित्व को आउटपुट करता है जो समय और स्थान दोनों में संपीड़ित होता है। इस संपीड़ित अव्यक्त स्थान के भीतर ही सोरा को प्रशिक्षित किया जाता है और वह इस स्थान के भीतर वीडियो बनाता है।

इसके अतिरिक्त, OpenAI ने एक डिकोडर मॉडल को प्रशिक्षित किया जो इन अव्यक्त अभ्यावेदन को पिक्सेल-स्तरीय वीडियो छवियों में पुनर्स्थापित कर सकता है।

संपीड़ित वीडियो इनपुट को संसाधित करके, शोधकर्ता स्पेटियोटेम्पोरल पैच की एक श्रृंखला निकालने में सक्षम थे, जो मॉडल में ट्रांसफार्मर टोकन के समान भूमिका निभाते हैं।

पैच-आधारित प्रतिनिधित्व का उपयोग करके, सोरा विभिन्न रिज़ॉल्यूशन, अवधि और पहलू अनुपात के वीडियो और छवियों को अनुकूलित कर सकता है। नई वीडियो सामग्री बनाते समय, इन यादृच्छिक रूप से आरंभ किए गए पैच को आवश्यक आकार के अनुसार ग्रिड में व्यवस्थित किया जा सकता है। आकार को नियंत्रित करें और आपके अंतिम वीडियो का रूप.

हालाँकि उपरोक्त सिद्धांत काफी जटिल लगता है, वास्तव में, OpenAI द्वारा उपयोग की जाने वाली नई तकनीक – विज़ुअल ब्लॉक एम्बेडिंग कोड (विज़ुअल ब्लॉक के रूप में संदर्भित) – अव्यवस्थित बिल्डिंग ब्लॉकों के एक समूह को एक छोटे बॉक्स में व्यवस्थित करने जैसा है। इस तरह, भले ही कई बिल्डिंग ब्लॉक हों, जब तक आपको यह छोटा बॉक्स मिल जाता है, तब तक आप आसानी से अपनी ज़रूरत के बिल्डिंग ब्लॉक पा सकते हैं।

चूंकि वीडियो डेटा को छोटे वर्गों में परिवर्तित किया जाता है, जब ओपनएआई सोरा को एक नया वीडियो कार्य प्रदान करता है, तो वे पहले वीडियो से अस्थायी और स्थानिक जानकारी वाले कुछ छोटे वर्ग निकालेंगे। इस जानकारी के आधार पर नए वीडियो बनाने के लिए ये छोटे वर्ग सोरा को दिए जाते हैं।

इस तरह, वीडियो को एक पहेली की तरह वापस रखा जा सकता है। इसका लाभ यह है कि कंप्यूटर विभिन्न प्रकार के चित्रों और वीडियो को अधिक तेज़ी से सीख और संसाधित कर सकता है।

जैसे-जैसे सोरा को अधिक गहराई से प्रशिक्षित किया गया, ओपनएआई शोधकर्ताओं ने यह भी पाया कि प्रशिक्षण गणना की मात्रा बढ़ने के साथ-साथ नमूना गुणवत्ता में काफी सुधार हुआ। OpenAI ने पाया कि डेटा के मूल आकार पर सीधे प्रशिक्षण के कई फायदे हैं:

  • प्रशिक्षण के दौरान सोरा सामग्री को क्रॉप नहीं करता है, जिससे सोरा को विभिन्न उपकरणों के मूल पहलू अनुपात के अनुसार सीधे सामग्री बनाने की अनुमति मिलती है।
  • वीडियो के मूल पहलू अनुपात पर प्रशिक्षण से वीडियो की संरचना और लेआउट गुणवत्ता में काफी सुधार हो सकता है।

इसके अलावा, सोरा में निम्नलिखित विशेषताएं हैं:

टेक्स्ट-टू-वीडियो जेनरेशन सिस्टम को प्रशिक्षित करने के लिए टेक्स्टुअल कैप्शन के साथ बड़ी संख्या में वीडियो की आवश्यकता होती है। OpenAI DALL·E 3 में शुरू की गई री-एनोटेशन तकनीक को वीडियो पर लागू करता है।

DALL·E 3 के समान, OpenAI उपयोगकर्ता के संक्षिप्त संकेतों को लंबे विस्तृत निर्देशों में परिवर्तित करने के लिए GPT का उपयोग करता है और फिर उन्हें वीडियो मॉडल पर भेजता है, जिससे सोरा उच्च गुणवत्ता वाले वीडियो उत्पन्न कर सकता है।

टेक्स्ट से कनवर्ट करने के अलावा, सोरा छवियों या मौजूदा वीडियो से भी इनपुट स्वीकार कर सकता है। यह सुविधा सोरा को विभिन्न प्रकार के छवि और वीडियो संपादन कार्यों को पूरा करने की अनुमति देती है, जैसे निर्बाध लूप वीडियो बनाना, स्थिर छवियों में एनीमेशन प्रभाव जोड़ना, वीडियो के प्लेबैक समय को बढ़ाना आदि।

"सोरा" शब्द बनाने वाले बादलों की एक यथार्थवादी छवि।

एक समृद्ध रूप से सजाए गए ऐतिहासिक हॉल में, एक बड़ी लहर आने वाली है। दोनों सर्फ़रों ने मौके का फ़ायदा उठाया और कुशलता से लहरों पर सवार हुए।

सोरा बिना किसी पूर्व उदाहरण के किसी वीडियो में शैली और वातावरण बदल सकता है। यहां तक ​​कि पूरी तरह से भिन्न शैलियों वाले दो वीडियो भी आसानी से कनेक्ट किए जा सकते हैं।

सोरा छवियां भी उत्पन्न कर सकता है। अनुसंधान टीम केवल एक फ्रेम की समय सीमा के साथ एक स्थानिक ग्रिड में गॉसियन शोर ब्लॉकों को व्यवस्थित करके विभिन्न आकारों की छवियां बनाती है। अधिकतम रिज़ॉल्यूशन 2048×2048 तक पहुंचता है।

वास्तविक ओपनएआई ने भी सोरा की वर्तमान सीमाओं को स्पष्ट रूप से स्वीकार किया, जैसे कि जटिल दृश्यों के भौतिक प्रभावों का अनुकरण करने और कुछ विशिष्ट कारण संबंधों को समझने में असमर्थता। उदाहरण के लिए, यह कांच टूटने जैसी बुनियादी भौतिक अंतःक्रियाओं का सटीक अनुकरण नहीं कर सकता है।

▲विपरीत दिशा में दौड़ना

लेकिन OpenAI का दृढ़ विश्वास है कि सोरा की वर्तमान क्षमताएं दर्शाती हैं कि वीडियो मॉडल का निरंतर विस्तार सक्षम सिमुलेटर विकसित करने की दिशा में एक आशाजनक मार्ग है जो भौतिक और डिजिटल दुनिया और उनके भीतर वस्तुओं, जानवरों और मनुष्यों का अनुकरण कर सकता है।

विश्व मॉडल, एआई की अगली दिशा?

ओपनएआई ने पाया कि जब बड़े पैमाने पर प्रशिक्षित किया जाता है, तो सोरा उभरती क्षमताओं का एक सम्मोहक सेट प्रदर्शित करता है जो वास्तविक दुनिया के लोगों, जानवरों और पर्यावरण को एक निश्चित सीमा तक अनुकरण कर सकता है।

ये क्षमताएं त्रि-आयामी अंतरिक्ष या वस्तुओं के विशिष्ट प्रीसेट पर आधारित नहीं हैं, बल्कि बड़े पैमाने पर डेटा द्वारा संचालित होती हैं।

  • त्रि-आयामी अंतरिक्ष में सामंजस्य
    सोरा गतिशील परिप्रेक्ष्य परिवर्तनों के साथ वीडियो तैयार कर सकता है। जब कैमरे की स्थिति और कोण बदलता है, तो वीडियो में पात्र और दृश्य तत्व त्रि-आयामी स्थान में सुसंगत रूप से घूम सकते हैं।
  • लंबी दूरी की निरंतरता और वस्तु दृढ़ता सोरा लंबे समय तक वीडियो निरंतरता बनाए रखता है, तब भी जब लोग, जानवर या वस्तुएं अस्पष्ट हो जाती हैं या फ्रेम से बाहर चली जाती हैं। इसी तरह, यह एक ही वीडियो नमूने में एक ही चरित्र को कई बार दिखा सकता है और एक सुसंगत रूप सुनिश्चित कर सकता है।
  • डिजिटल दुनिया का अनुकरण
    सोरा अपनी संबंधित क्षमताओं को सक्रिय करने के लिए केवल "माइनक्राफ्ट" शब्दों का उल्लेख करके वीडियो गेम जैसी डिजिटल प्रक्रियाओं का अनुकरण भी कर सकता है।

ओपनएआई सोरा को "ऐसे मॉडलों की नींव मानता है जो वास्तविक दुनिया को समझ और अनुकरण कर सकते हैं" और उनका मानना ​​है कि इसकी क्षमताएं "एजीआई की प्राप्ति में एक महत्वपूर्ण मील का पत्थर होंगी।"

सोरा के आगमन के संबंध में NVIDIA के वरिष्ठ वैज्ञानिक जिम फैन ने कहा:

यदि आपको लगता है कि OpenAI का सोरा DALL·E की तरह रचनात्मक प्रयोग के लिए एक उपकरण है, तो आप पुनर्विचार करना चाह सकते हैं।

सोरा वास्तव में एक डेटा-आधारित भौतिकी सिमुलेशन इंजन है जो वास्तविक या काल्पनिक दुनिया का अनुकरण कर सकता है। यह सिम्युलेटर जटिल छवि प्रतिपादन, "सहज" शारीरिक व्यवहार, दीर्घकालिक योजना क्षमताओं और डीनोइज़िंग और ग्रेडिएंट गणनाओं के माध्यम से शब्दार्थ स्तर की समझ सीखता है।

इस मॉडल क्षमता का आधार विश्व सार्वभौमिक मॉडल है, जो एक कृत्रिम बुद्धिमत्ता प्रणाली है। इसका लक्ष्य एक तंत्रिका नेटवर्क मॉड्यूल का निर्माण करना है जो पर्यावरण को याद रखने और मॉडल करने के लिए राज्य को अद्यतन कर सकता है।

यह मॉडल वर्तमान अवलोकनों (जैसे छवियाँ, अवस्थाएँ, आदि) और आगामी क्रियाओं के आधार पर अगले संभावित अवलोकन की भविष्यवाणी करने में सक्षम है। यह दुनिया के कानूनों और सामान्य ज्ञान को सीखकर पर्यावरण में संभावित भविष्य की घटनाओं का अनुकरण करता है।

वास्तव में, विश्व मॉडल कोई नई अवधारणा नहीं है। पिछले साल दिसंबर की शुरुआत में, एआई वीडियो पीढ़ी में अग्रणी, रनवे ने आधिकारिक तौर पर घोषणा की थी कि वह एक अलग तरह का एलएलएम बनाने के उद्देश्य से एक सार्वभौमिक विश्व मॉडल का निर्माण करेगा। मौजूदा एलएलएम से और अधिक यथार्थवादी हो सकता है। कृत्रिम बुद्धिमत्ता प्रणाली जो वास्तविक दुनिया का अनुकरण करती है।

विशेष रूप से, विश्व मॉडल का मूल विचार यह सीखना है कि ऐतिहासिक अनुभव को याद करके दुनिया कैसे संचालित होती है, और फिर भविष्य में होने वाली घटनाओं की भविष्यवाणी करें। उदाहरण के लिए, किसी गिरती हुई वस्तु के वीडियो से, मॉडल वर्तमान तस्वीर के आधार पर अगले फ्रेम की भविष्यवाणी कर सकता है, जिससे वस्तु की गति के भौतिक नियम सीखे जा सकते हैं।

ट्यूरिंग पुरस्कार विजेता यान लेकुन ने भी इसी तरह की अवधारणा का प्रस्ताव रखा है और जीपीटी जैसे संभाव्य जनरेटिव ऑटोरेग्रेशन पर आधारित बड़े मॉडलों की आलोचना की है, उनका मानना ​​है कि ऐसे मॉडल मतिभ्रम की समस्या का समाधान नहीं कर सकते हैं। लेकुन और उनकी टीम का यह भी अनुमान है कि जीपीटी जैसे मॉडल अगले पांच वर्षों में अप्रचलित हो सकते हैं।

विश्व मॉडल को कृत्रिम बुद्धिमत्ता के क्षेत्र में एक शोध दिशा के रूप में देखा जा सकता है जो एआई को मानव बुद्धि के स्तर के करीब बनाने का प्रयास करता है। वास्तविक दुनिया के वातावरण और घटनाओं से अनुकरण और सीखकर, विश्व मॉडल में एआई को सिमुलेशन और भविष्यवाणी क्षमताओं के उच्च स्तर की ओर ले जाने की क्षमता है।

फरवरी में, प्रसिद्ध उद्यम पूंजी फर्म a16z के भागीदार जस्टिन मूर ने AI वीडियो पीढ़ी के क्षेत्र में वर्तमान स्थिति का गहन विश्लेषण किया। दो वर्षों में जब से जनरेटिव एआई धीरे-धीरे लोगों की नजरों में आया है, एआई वीडियो पीढ़ी के क्षेत्र ने एक समृद्ध दृश्य की शुरुआत की है जहां सैकड़ों फूल खिल रहे हैं और विचार के सौ स्कूल प्रतिस्पर्धा कर रहे हैं।

ओपनएआई सोरा के जुड़ने से, एआई वीडियो जेनरेशन के क्षेत्र में बड़ी लहरें पैदा होंगी और रनवे, पिका और स्टेबल वीडियो डिफ्यूजन जैसे मौजूदा मुख्यधारा के प्लेटफॉर्म प्रभावित हो सकते हैं।

साथ ही, स्वतंत्र रचनाकारों के लिए गेम के नियम पूरी तरह से बदल दिए जाएंगे। रचनात्मकता और विचारों वाला कोई भी व्यक्ति अपनी वीडियो सामग्री तैयार करने के लिए सोरा का उपयोग कर सकता है। सृजन की सीमा कम होने का मतलब यह भी है कि स्वतंत्र रचनाकार एक स्वर्ण युग की शुरुआत करेंगे।

जैसा कि "द थ्री-बॉडी प्रॉब्लम" में कहा गया है, "इससे कोई फर्क नहीं पड़ता।" वर्तमान प्रतिस्पर्धी स्थिति के बावजूद, एआई वीडियो पीढ़ी का क्षेत्र नई प्रौद्योगिकियों और नवाचारों से विकृत हो सकता है। और सोरा का प्रवेश केवल शुरुआत है, अंत से बहुत दूर।

# aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: aifaner (WeChat ID: ifanr)। जितनी जल्दी हो सके आपको अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो