30 सेकंड में मुफ़्त और असीमित समय में वीडियो बनाएं। OpenAI के “विज़डम स्पेक्ट्रम किंगयिंग” का चीनी संस्करण आज जारी किया गया है। अनुभव गाइड के साथ

पिछले छह महीनों में, घरेलू और विदेशी वीडियो जेनरेशन मॉडल ने तकनीकी विस्फोट के एक नए दौर की शुरुआत की है, और वे हमेशा पहले स्थान पर सोशल नेटवर्क पर लोकप्रिय रहे हैं।

हालाँकि, भाषा निर्माण मॉडल के "पिछड़ने" के विपरीत, हाल के रुझानों से पता चलता है कि वीडियो पीढ़ी मॉडल के क्षेत्र में घरेलू प्रगति अंतरराष्ट्रीय स्तर से काफी आगे निकल गई है। कई विदेशी नेटिज़न्स ने कहा कि "चीन का केलिंग एआई वीडियो" इंटरनेट पर धूम मचा रहा है, जबकि ओपनएआई का सोरा सो रहा है।

आज, प्रमुख घरेलू मॉडल निर्माता, झिपु एआई ने भी अपना एआई वीडियो जेनरेशन उत्पाद "क्विंगयिंग" जारी किया।

बेशक, देश और विदेश में कई एआई वीडियो मॉडल हैं, और उन सभी में बहुत सारी खामियां हैं, लेकिन "फ्यूचर्स" सोरा की तुलना में, ये एआई वीडियो उत्पाद दृश्यमान और मूर्त दोनों हैं, और अधिक से अधिक कुछ और प्रयासों की आवश्यकता हो सकती है गारंटीकृत राशि "आहरण" का वीडियो।

और यह अन्वेषण स्वयं तकनीकी प्रगति का हिस्सा है।

जिस तरह GPT-3 पर उसके जन्म की शुरुआत में सवाल उठाए गए और आलोचना की गई, और अंततः अतीत को आगे बढ़ाने और भविष्य को खोलने में अपने मूल्य को साबित करने के लिए समय का उपयोग किया गया, उसी तरह, अगर हम इन AI वीडियो जेनरेशन टूल को कुछ समय देते हैं, तो वे हो सकते हैं कुछ ही दिनों में खिलौनों से औज़ारों में बदल जाएँ।

क्विंगयिंग पीसी एक्सेस लिंक:
https://chatglm.cn/video?fr=opt_homepage_PC
क्विंगयिंग मोबाइल एक्सेस लिंक:
https://chatglm.cn/video?&fr=opt_888_qy3

आधे मिनट में 6s वीडियो बनाएं, "झिपु क्विंगयिंग" आधिकारिक तौर पर जारी किया गया है

आज जारी झिपु क्विंगयिंग की तुलना में, बहुत से लोग झिपु क्विंगयान से अधिक परिचित हो सकते हैं, लेकिन प्रभावकारिता देखने के लिए विज्ञापन देखने के बजाय, आप पहले "किंगयिंग" द्वारा बनाए गए डेमो पर भी नज़र डाल सकते हैं।

हरे-भरे जंगल में, कुछ सूरज की रोशनी पत्तियों के अंतराल से चमकती है, जिससे टिंडल प्रभाव पैदा होता है और रोशनी आकार लेती है।

जब सुनामी एक प्रचंड राक्षस की तरह गरजती थी, तो पूरा गाँव तुरंत समुद्र में समा जाता था, बिल्कुल किसी प्रलय के दिन की फिल्म के क्लासिक दृश्य की तरह।

चमकती नीयन रोशनी वाले शहर के रात के दृश्य में, यांत्रिक सुंदरता से भरा एक छोटा बंदर उच्च तकनीक वाले उपकरण पकड़ रहा है और उन्हीं चमकती, अति-भविष्यवादी इलेक्ट्रॉनिक उपकरणों की मरम्मत कर रहा है।

पेंटिंग शैली को फिर से बदलते हुए, बिल्ली के बच्चे ने अपना मुंह चौड़ा किया, जिसमें भ्रम की मानवीय अभिव्यक्ति दिखाई दी, जिसके पूरे चेहरे पर प्रश्न चिह्न लिखे हुए थे।

इसमें कोई महल की लड़ाई का नाटक नहीं है, कोई साज़िश नहीं है, समय और स्थान के पार जेन हुआन मीज़ुआंग का क्रॉस-स्क्रीन आलिंगन है, केवल ईमानदार बहन का प्यार है।

इसके अलावा, CogVideo के लिए धन्यवाद, एक बड़ा वीडियो जेनरेशन मॉडल जो स्वतंत्र रूप से Zhipu बड़ी मॉडल टीम द्वारा विकसित और कुशलतापूर्वक बनाया गया है, Qingying अब टेक्स्ट जेनरेशन वीडियो, इमेज जेनरेशन वीडियो सहित विभिन्न जेनरेशन विधियों का समर्थन करता है, और यहां तक ​​कि विज्ञापन उत्पादन में भी इसका उपयोग किया जा सकता है। और फिल्म संपादन, लघु वीडियो निर्माण और अन्य क्षेत्र।

क्विंगयिंग के पास कमांड फॉलो करने की मजबूत क्षमता है और वह उपयोगकर्ता द्वारा दिए गए निर्देशों को पूरी तरह से समझ और निष्पादित कर सकता है।

रिपोर्टों के अनुसार, झिपु एआई ने बड़े पैमाने पर वीडियो डेटा के लिए विस्तृत और सामग्री-अनुकूल विवरण तैयार करने के लिए एक एंड-टू-एंड वीडियो समझ मॉडल स्वयं विकसित किया है, जिससे मॉडल की पाठ समझ और निर्देश निम्नलिखित क्षमताओं को बढ़ाया जा सके, और उपयोगकर्ता की जरूरतों को पूरा करने वाली सामग्री तैयार की जा सके। । वीडियो।

सामग्री सुसंगतता के संदर्भ में, ज़ीपु एआई ने एक कुशल त्रि-आयामी वैरिएबल ऑटोएनकोडर संरचना (3 डी वीएई) विकसित की है, जो 3 डी RoPE स्थिति एन्कोडिंग मॉड्यूल के साथ मूल वीडियो स्थान को 2% आकार में संपीड़ित करता है, यह अधिक अनुकूल है समय आयाम में फ़्रेम कैप्चर करने के लिए उनके बीच का संबंध वीडियो में लंबी दूरी की निर्भरता स्थापित करता है।

उदाहरण के लिए, आलू को फ्रेंच फ्राइज़ में बदलने में कितने कदम लगते हैं? "आग लगाने" की कोई ज़रूरत नहीं है, बस एक सरल संकेत शब्द है, और आलू सुनहरे और आकर्षक फ्रेंच फ्राइज़ में बदल जाएंगे। अधिकारियों का कहना है कि आपके विचार चाहे कितने भी बेतुके क्यों न हों, यह उन्हें एक-एक करके हकीकत में बदल सकता है।

इसके अलावा, सोरा एल्गोरिदम के संदर्भ में डिज़ाइन किया गया CogVideoX भी एक DiT आर्किटेक्चर है जो टेक्स्ट, समय और स्थान के तीन आयामों को एकीकृत कर सकता है, तकनीकी अनुकूलन के बाद, CogVideoX ने पिछली पीढ़ी की तुलना में अपनी तर्क गति को 6 गुना बढ़ा दिया है (कॉगवीडियो)। सैद्धांतिक रूप से, मॉडल पक्ष को 6-सेकंड का वीडियो बनाने में केवल 30 सेकंड लगते हैं।

तुलना के लिए, केलिंग एआई, जो वर्तमान में पहले स्तर पर है, आम तौर पर एक 5एस वीडियो तैयार करने में 2 से 5 मिनट का समय लेता है।

आज की प्रेस कॉन्फ्रेंस में, झिपु एआई के सीईओ झांग पेंग ने किंगयिंग से अपने शरीर को थोड़ा लहराते हुए जमीन पर सोते हुए एक वीडियो बनाने के लिए कहा, इसे पूरा करने में लगभग 30 सेकंड लगे, हालांकि, एक स्थिर गुलाब को "खिलने" के लिए अधिक समय की आवश्यकता होती है।

इसके अलावा, क्विंगयिंग द्वारा उत्पन्न वीडियो का रिज़ॉल्यूशन 1440×960 (3:2) तक पहुंच सकता है, और फ्रेम दर 16fps है।

क्विंगयिंग सोच-समझकर एक साउंडट्रैक फ़ंक्शन भी प्रदान करता है, और उत्पन्न वीडियो को सीधे संगीत के साथ प्रकाशित किया जा सकता है।

मैंने मूल रूप से सोचा था कि गिटार बजाते हुए एक अंतरिक्ष यात्री की स्थिर तस्वीर अकल्पनीय होने के लिए पर्याप्त थी, लेकिन जब यह चलती थी और एक इत्मीनान की धुन के साथ जोड़ी जाती थी, तो ऐसा लगता था जैसे अंतरिक्ष यात्री अंतरिक्ष में एक संगीत कार्यक्रम आयोजित कर रहे थे।

"फ्यूचर्स" सोरा से अलग, "क्विंगयिंग" ऑनलाइन होते ही पूरी तरह से खुला हो जाएगा। कोई भी इसे अपॉइंटमेंट लिए बिना या कतार में लगे बिना आज़मा सकता है बाद के संस्करणों में उच्च दर और लंबी अवधि में वीडियो बनाने का कार्य।

झांग पेंग ने झिपु ओपन डे में यह भी कहा, "सभी उपयोगकर्ता यिंग के माध्यम से एआई की टेक्स्ट-आधारित वीडियो और चित्र-आधारित वीडियो क्षमताओं का अनुभव कर सकते हैं।"

अब, क्विंगयिंग अपने प्रारंभिक परीक्षण अवधि में है और सभी उपयोगकर्ता इसे मुफ्त में उपयोग कर सकते हैं। यदि आप एक सहज अनुभव चाहते हैं, तो आप 5 युआन के लिए एक दिन (24 घंटे) हाई-स्पीड लेन अधिकार अनलॉक कर सकते हैं। यदि आप 199 युआन का भुगतान करने को तैयार हैं, तो आप एक वर्ष के भुगतान किए गए हाई-स्पीड लेन अधिकार अनलॉक कर सकते हैं।

इसके अलावा, यिंग एपीआई को एक साथ बड़े मॉडल ओपन प्लेटफॉर्म bigmodel.cn पर भी लॉन्च किया गया है। एंटरप्राइज़ और डेवलपर्स एपीआई को कॉल करके वेन्शेंग वीडियो और तुशेंग वीडियो की मॉडल क्षमताओं का अनुभव और उपयोग कर सकते हैं।

आरंभ करने की सीमा कम है लेकिन आपको अभी भी "कार्ड बनाने" की आवश्यकता है, नौसिखियों को अब खराब निर्देश लिखने के बारे में चिंता करने की ज़रूरत नहीं है।

एपीपीएसओ ने भी पहली बार क्विंगयिंग का अनुभव किया। कुछ परिदृश्यों का परीक्षण करने के बाद, हमने क्विंगयिंग के उपयोग के बारे में कुछ अनुभवों का सारांश भी दिया:

  • वीडियो पीढ़ी "कीमिया" की तरह है, और आउटपुट अस्थिर है, इसे कुछ और बार आज़माने की अनुशंसा की जाती है।
  • प्रभाव की ऊपरी सीमा संकेत शब्द पर निर्भर करती है, और संकेत शब्द की संरचना यथासंभव स्पष्ट होनी चाहिए
  • लेंस का सबसे अच्छा प्रभाव क्लोज़-अप शॉट है, और अन्य शॉट बहुत स्थिर नहीं हैं।
  • इकाई प्रकार कार्यान्वयन छँटाई: पशु > पौधे > वस्तुएँ > इमारतें > लोग

एक वैज्ञानिक जो कला को नहीं समझता, वह अच्छा वैज्ञानिक नहीं है। आइंस्टीन ने पानी में मछली की तरह गिटार बजाया, अपना सिर अपनी ही लय में हिलाया, और ऐसा नहीं लगा कि वह अभिनय कर रहा था।

विशाल पांडा शैली और बहुमुखी प्रतिभा के साथ गिटार भी बजाता है।

तांग सेंग, जो आम तौर पर स्थिर रहता है, ने आपको नमस्ते कहा और लय में थिरकने लगा।

बेशक, उपरोक्त अभी भी कुछ अपेक्षाकृत अच्छे वीडियो हैं। वीडियो निर्माण की प्रक्रिया में, हमने बहुत सारे बेकार वीडियो भी जमा किए हैं।

उदाहरण के लिए, मैंने बिस्तर पर लेटे हुए सम्राट से अपने दाहिने हाथ से मुर्गे की टांग खाने के लिए कहा, और वीडियो के आखिरी सेकंड में एक अतिरिक्त हाथ बाहर आ गया, मुझे लगा कि सम्राट अपनी मादा को प्रकट करने वाला है मेकअप और बाल.

या शायद जिस क्षण लेस्ली चेउंग ने मेरी ओर देखा, उसके दिल में भाई "वह आदमी" बन गया था।

जटिल दृश्यों में, चरित्र आंदोलनों का संक्रमण अप्राकृतिक है, जटिल दृश्यों की भौतिक विशेषताओं का सटीक अनुकरण नहीं किया जा सकता है, उत्पन्न सामग्री की सटीकता अपर्याप्त है, आदि। ये कमियां क्विंगयिंग के "पेटेंट" नहीं हैं, बल्कि वीडियो पीढ़ी की वर्तमान सीमाएं हैं नमूना।

व्यावहारिक अनुप्रयोगों में, हालांकि उपयोगकर्ता त्वरित शब्दों को अनुकूलित करके वीडियो की गुणवत्ता में सुधार कर सकते हैं, "रोलओवर" भी आम है, स्वीकार्य गुणवत्ता के त्वरित शब्द काफी हद तक वीडियो पीढ़ी मॉडल की निचली सीमा को सुनिश्चित कर सकते हैं।

कुछ नौसिखिए खिलाड़ियों का ध्यान रखने के लिए, हमने विशेष रूप से त्वरित शब्दों के लिए कुछ युक्तियाँ भी तैयार की हैं:

  • सरल सूत्र: [कैमरा मूवमेंट] + [बिल्ड सीन] + [अधिक विवरण]
  • जटिल सूत्र: [लेंस की भाषा] + [प्रकाश और छाया] + [विषय (विषय विवरण)] + [विषय आंदोलन] + [दृश्य (दृश्य विवरण)] + [मूड/वातावरण]

कैमरा पैन (लेंस की गति) से पार्क की बेंच पर बैठे एक छोटे लड़के को दिखाता है (विषय विवरण), जिसके हाथ में कॉफी का गरम कप है (विषय क्रिया)। उसने नीली शर्ट पहनी हुई है और खुश दिख रहा है (विषय का विवरण), और पृष्ठभूमि एक पेड़-पंक्ति वाला पार्क है, जिसमें लड़के पर पत्तियों के माध्यम से सूरज की रोशनी चमक रही है (पर्यावरण का विवरण)।

यदि आपके पास अभी भी कोई सुराग नहीं है, तो मैं आपको वीडियो प्रॉम्प्ट शब्द लिखने में मदद करने के लिए झिपु क्विंगयान द्वारा प्रदान किए गए बुद्धिमान एजेंट का उपयोग करने की सलाह देता हूं, भले ही आप जीवन में सामान्य दृश्यों में प्रवेश करते हैं, आप तीन उच्च-गुणवत्ता वाले प्रॉम्प्ट शब्द प्राप्त कर सकते हैं।

उदाहरण के लिए, यदि आप बस कहते हैं "कॉर्गी समुद्र तट पर धूप सेंक रहा है", तो आपको चीनी और अंग्रेजी में निम्नलिखित प्राकृतिक दृश्य फोटोग्राफी शैली के संकेत शब्द मिलेंगे, और आपके लिए जल रंग पेंटिंग शैली, 3 डी एनीमेशन शैली और अन्य शैली के संकेत शब्द भी हैं। से चुनने के लिए:

अंग्रेज़ी: एक धूप वाले समुद्र तट पर, एक कॉर्गी समुद्र तट के तौलिये पर आराम से लेटा हुआ है, और गर्म धूप का आनंद ले रहा है। कैमरे को निचले कोण से शूट किया गया है। पृष्ठभूमि में विशाल नीला सागर और सफेद रेतीला समुद्र तट है। लहरें धीरे-धीरे किनारे पर टकरा रही हैं और तस्वीर की गुणवत्ता 4K अल्ट्रा-स्पष्ट है।

अंग्रेज़ी: एक धूप वाले समुद्र तट पर, एक कॉर्गी समुद्र तट के तौलिये पर आराम से लेटा हुआ है, गर्म धूप का आनंद ले रहा है, कैमरा एक निचले कोण से दृश्य को कैप्चर करता है, पृष्ठभूमि में विशाल नीला सागर और प्राचीन सफेद रेत दिखाई देती है, जिसमें हल्की लहरें आती हैं। किनारा। वातावरण शांत है, जिसे 4K अल्ट्रा-हाई डेफिनिशन में कैद किया गया है।

इतना संतोषजनक संकेत देखकर, हाँ, मैं वास्तव में उस समय यही लिखना चाहता था।

किंगयिंग प्रॉम्प्ट वर्ड एजेंट (वेनशेंग वीडियो) का पता संलग्न है: https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6

चित्रों से वीडियो बनाने के लिए भी यही बात लागू होती है, छवि का विषय दर्ज करें, छवि शैली का चयन करें, और झिपु क़िंगयान को संबंधित संकेत शब्द लिखने में आपकी सहायता करने दें। बिना किसी त्वरित शब्द के, "चश्मा पहनो", "तांग भिक्षु अपना हाथ बढ़ाता है और चश्मा पहनता है" तक के विकास का एक पूरी तरह से अलग प्रभाव पड़ता है।

किंगयिंग प्रॉम्प्ट वर्ड एजेंट पता (तुशेंग वीडियो) संलग्न है: https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903

यदि आप अपना काम अच्छी तरह से करना चाहते हैं, तो आपको पहले अपने टूल को तेज करना होगा और पैटर्न को थोड़ा और खोलना होगा। आप झिपु क्विंगयान में अधिक सामग्री निर्माण टूल का भी अनुभव कर सकते हैं।

विषय सामग्री के प्रारंभिक संग्रह से लेकर स्क्रिप्ट लेखन प्रक्रिया, चित्र और वीडियो निर्माण प्रक्रिया और फिर प्रमोशन कॉपी राइटिंग तक, यह लगभग स्पष्ट रूप से वीडियो निर्माण रचनात्मकता की पूरी श्रृंखला को खोल सकता है रचनात्मकता के बारे में सोचने की ज़रूरत है, और बाकी सब आप पर छोड़ दिया गया है।

हमने पाया है कि केलिंग सहित हाल ही में जारी एआई वीडियो उत्पाद पहले और आखिरी फ्रेम नियंत्रण जैसे तरीकों के माध्यम से नियंत्रणीयता में सुधार कर रहे हैं।

एआई निर्माता चेन कुन ने एक बार एपीपीएसओ को बताया था कि लगभग सभी एआई वीडियो जो व्यावसायिक रूप से वितरित किए जा सकते हैं वे तुशेंग वीडियो हैं, क्योंकि वेन्शेंग वीडियो अभी तक उपलब्ध नहीं हैं, और यह वास्तव में नियंत्रणीयता का मामला है।

झिपु एआई द्वारा आज जारी किया गया किंगयिंग टेक्स्ट-जनरेटेड वीडियो की नियंत्रणीयता को और बेहतर बनाता है। एपीपीएसओ के साथ एक साक्षात्कार में, झिपु एआई ने कहा कि टेक्स्ट-जनरेटेड वीडियो अधिक सार्वभौमिक नियंत्रणीयता को दर्शाते हैं।

एआई द्वारा उत्पन्न अधिकांश वीडियो अभी भी भाषा का उपयोग करके मनुष्यों द्वारा नियंत्रित किए जाते हैं। इसलिए, पाठ या सरल भाषा निर्देशों को कैसे पहचाना जाए यह नियंत्रण का एक उच्च स्तर है।

एआई वीडियो खिलौनों से क्रिएटर टूल की ओर बढ़ रहा है

यदि पिछला वर्ष बड़े मॉडलों के विस्फोट का पहला वर्ष था, तो यह वर्ष एआई वीडियो के अनुप्रयोग के लिए एक महत्वपूर्ण वर्ष है।

हालाँकि सोरा, जिसने यह सब शुरू किया, अभी तक ऑनलाइन नहीं हुआ है, लेकिन यह एआई वीडियो के लिए कुछ प्रेरणा लेकर आया है।

सोरा उचित विवरण डिजाइन के माध्यम से फ्रेम के बीच विस्तार की समस्या को हल करता है। साथ ही, उच्च-रिज़ॉल्यूशन (1080p) वीडियो छवियां सीधे उत्पन्न होती हैं, जो 60 सेकंड तक के शब्दार्थ रूप से समृद्ध वीडियो उत्पन्न कर सकती हैं, जो दर्शाता है कि इसके पीछे प्रशिक्षण अनुक्रम भी अपेक्षाकृत लंबा है।

पिछले दो महीनों में ही, कम से कम 10 कंपनियों ने नए AI वीडियो उत्पाद या प्रमुख अपडेट लॉन्च किए हैं।

झिपु क्विंगयिंग की रिलीज से कुछ ही दिन पहले, कुआइशौ के केलिंग एआई को दुनिया भर में आंतरिक परीक्षण के लिए खोला गया था, और एक अन्य पिक्सवर्स, जिसे सोरा के नाम से जाना जाता है, ने अपना वी 2 संस्करण जारी किया, जो 1-5 निरंतर वीडियो सामग्री की एक-क्लिक पीढ़ी का समर्थन करता है।

कुछ समय पहले, रनवे जेन 3 अल्फा ने भी भुगतान करने वाले उपयोगकर्ताओं के लिए सार्वजनिक बीटा परीक्षण शुरू किया था, और विवरणों की उत्कृष्टता और रेशमीपन में काफी सुधार किया गया है। मूवी-स्तरीय वीडियो जेनरेशन मॉडल ड्रीम मशीन, जिसे अभी पिछले महीने रिलीज़ किया गया था, को भी हाल ही में पहले और आखिरी फ्रेम फ़ंक्शन के साथ अपडेट किया गया है।

कुछ ही महीनों में, भौतिक सिमुलेशन, गति की सहजता और त्वरित शब्दों की समझ के मामले में एआई वीडियो पीढ़ी में काफी सुधार हुआ है। एआई फंतासी नाटकों के निदेशक चेन कुन इसके प्रति अधिक संवेदनशील हैं, उनका मानना ​​है कि एआई वीडियो पीढ़ी तकनीक कल्पना से कहीं अधिक तेजी से प्रगति कर रही है।

2023 में एआई वीडियो गतिशील पीपीटी की तरह हैं, जिसमें पात्र धीमी गति में प्रदर्शन करते हैं और अंक निकालने के लिए असेंबल संपादन पर निर्भर होते हैं। लेकिन अब, एआई वीडियो का "पीपीटी फ्लेवर" काफी फीका पड़ गया है।

निर्देशक चेन कुन का पहला घरेलू एआईजीसी तमाशा नाटक "माउंटेन एंड सीज़: मिरर्स ऑफ माउंटेन्स एंड सीज़: कटिंग द वेव्स" हाल ही में लॉन्च किया गया है। उन्होंने अतीत में एपीपीएसओ को पारंपरिक फिल्म और टेलीविजन शूटिंग के कई पहलुओं को बदलने के लिए उपयोग किया है समान फंतासी थीम बनाने के लिए कम से कम 100 लोगों की आवश्यकता थी, और टीम में केवल 10 से अधिक लोग हैं, जो उत्पादन चक्र और लागत को बहुत कम कर देता है।

पिछले छह महीनों में, हम देख सकते हैं कि अधिक पेशेवर फिल्म और टेलीविजन निर्माता एआई वीडियो के साथ प्रयोग करना शुरू कर रहे हैं। घरेलू कुआइशौ डॉयिन ने एआई लघु नाटक और पहली एआई फीचर-लेंथ फिल्म "अवर टी2 रीमेक" लॉन्च की है, जो 50 एआईजीसी रचनाकारों के बीच एक सहयोग है, जिसका प्रीमियर लॉस एंजिल्स में हुआ।

हालाँकि एआई वीडियो पीढ़ी में अभी भी चरित्र और दृश्य की स्थिरता, चरित्र प्रदर्शन, एक्शन इंटरैक्शन आदि के संदर्भ में सीमाएं हैं, लेकिन इस बात से इनकार नहीं किया जा सकता है कि एआई वीडियो धीरे-धीरे एक खिलौने से बदल रहा है जिसे पिछले साल रचनाकारों के लिए एक उपकरण में बदलने की कोशिश की गई थी।

यह भी एक महत्वपूर्ण कारण हो सकता है कि झिपु क्विंगयिंग, कुआइशौ केलिंग, लूमा ड्रीम मशीन और अन्य उत्पादों ने सदस्यता प्रणाली लॉन्च करना शुरू कर दिया है। आपको पता होना चाहिए कि सी-एंड के लिए अधिकांश घरेलू बड़े मॉडल उत्पाद मुफ़्त हैं, जो कि है घरेलू सदस्यता भुगतान आदतों और उपयोगकर्ता विकास रणनीतियों की खोज से संबंधित प्राथमिकताओं के अनुरूप, जिज्ञासु उपयोगकर्ताओं के अलावा, एआई वीडियो के लिए भुगतान को टिकाऊ होने के लिए अधिक सामग्री निर्माताओं द्वारा समर्थित किया जाना चाहिए।

बेशक, एआई वीडियो पीढ़ी अभी भी अपेक्षाकृत शुरुआती चरण में है। तथाकथित "एक वाक्य में एक फिल्म बनाना" सिर्फ एक भ्रामक शीर्षक है। भौतिक दुनिया को बेहतर ढंग से समझने के लिए वीडियो मॉडल में बेहतर कमांड-फ़ॉलोइंग क्षमताओं और नियंत्रणीयता की आवश्यकता होती है .

झिपु ने आज की प्रेस कॉन्फ्रेंस में यह भी उल्लेख किया कि मल्टी-मॉडल मॉडल की खोज अभी भी बहुत प्रारंभिक चरण में है।

उत्पन्न वीडियो के प्रभाव को देखते हुए, भौतिक दुनिया के नियमों की समझ, उच्च रिज़ॉल्यूशन, कैमरा आंदोलनों की निरंतरता और अवधि के संदर्भ में सुधार की बहुत गुंजाइश है।

मॉडल के दृष्टिकोण से, अधिक नवीन नवाचार के साथ एक नए मॉडल आर्किटेक्चर की आवश्यकता है, इसे वीडियो जानकारी को अधिक कुशलता से संपीड़ित करना चाहिए, पाठ और वीडियो सामग्री को पूरी तरह से एकीकृत करना चाहिए, और उपयोगकर्ता के निर्देशों के अनुरूप उत्पन्न सामग्री को अधिक यथार्थवादी बनाना चाहिए।

"हम सक्रिय रूप से मॉडल स्तर पर अधिक कुशल स्केलिंग तरीकों की खोज कर रहे हैं।" हालांकि, झांग पेंग मल्टी-मोडल मॉडल के विकास में भी आश्वस्त हैं "एल्गोरिदम और डेटा के निरंतर पुनरावृत्ति के साथ, मेरा मानना ​​है कि स्केलिंग कानून लागू रहेगा इसकी शक्तिशाली शक्ति।"

एआई निर्माता चेन कुन का मानना ​​है कि एआई द्वारा उत्पन्न शॉट्स बड़े स्क्रीन के लिए 100% उपयुक्त होने में केवल समय की बात है। इस समय में कितना समय लगता है यह सबसे महत्वपूर्ण बात नहीं है, लेकिन इस प्रक्रिया में भाग लेना अधिक महत्वपूर्ण है, जैसा कि झिपु एआई के सीईओ झांग पेंग ने एपीपीएसओ के साथ पिछले साक्षात्कार में उल्लेख किया था:

कई चीज़ों को एक के बाद एक तलाशने की ज़रूरत है, और यह प्रक्रिया बहुत महत्वपूर्ण है, केवल अंतिम परिणाम न देखें, बल्कि इससे भी महत्वपूर्ण बात यह है कि हम कार्रवाई करें, मुझे लगता है कि इस समय हर किसी को इस पर अधिक ध्यान देना चाहिए।

लेखक: ली चाओफ़ान, मो चोंगयु

# aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: aifaner (WeChat ID: ifanr) आपको जल्द से जल्द अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फ़ैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो