एक फिल्म और टेलीविजन स्तर की लघु फिल्म 10 सेकंड में तैयार की गई, और फैंसी कैमरा मूवमेंट का विषय अभी भी स्पष्ट है। यह नया घरेलू वीडियो मॉडल स्थिर है।

विंसेंट वीडियो का ट्रैक अधिक से अधिक जीवंत होता जा रहा है, इसे हर दो सप्ताह में अपडेट किया जाता है और एक मॉडल के रूप में इसे हर महीने दोहराया जाता है। इसे रोल करना वाकई आसान है. डौबाओ का वीडियो जेनरेशन मॉडल एक नया डिजाइन किया गया प्रसार मॉडल लाता है, जो फिल्म और टेलीविजन स्तर के यथार्थवाद और अत्यधिक गतिशील और जटिल दृश्यों के लिए यथार्थवादी विवरण दिखाता है। एक वाक्य में प्रभाव का वर्णन करें: बहुत तेज़, बहुत विस्फोटक, मुझे अपनी आँखों पर विश्वास नहीं हो रहा है।

24 सितंबर को, 2024 ज्वालामुखी इंजन एआई इनोवेशन टूर शेन्ज़ेन आया और एक नया वीडियो जेनरेशन मॉडल जारी किया, जिसने एक ही बार में पूरे एआई वीडियो ट्रैक के लिए दो बम गिराए: डौबाओ वीडियो जेनरेशन-पिक्सेलडांस, डौबाओ वीडियो जेनरेशन-सीवीड दो बड़े मॉडल।

एल्गोरिथम पंजीकरण पास करने वाले चीन के पहले बड़े पैमाने के बेस मॉडल निर्माताओं में से एक के रूप में, विंसेंट वीडियो के ट्रैक में प्रवेश करना कोई आश्चर्य की बात नहीं है। यह लोगों को इसके लिए उत्सुक भी बनाता है: इसे और कैसे रोल किया जा सकता है? इस शक्तिशाली घरेलू मॉडल के वास्तविक परीक्षण में भाग लेने के बाद, हमने पाया कि इसकी शक्ति निश्चित रूप से न केवल छवियां उत्पन्न करने में है, बल्कि एक बड़ी पारिस्थितिकी और दृष्टि भी है।

शब्दार्थ समझ और स्थिरता में महत्वपूर्ण सफलताएँ, लेंस भाषा में पूरी तरह से महारत हासिल करना

जेनरेटिव वीडियो का "जादू" "जादू" से आता है।

दूसरे शब्दों में, मॉडल की शब्दार्थ समझ क्षमता आधार है। केवल प्रॉम्प्ट की पाठ्य सामग्री को सटीक रूप से समझकर ही अपेक्षित चित्र को ठीक से प्रस्तुत किया जा सकता है – "पढ़ने की समझ" को पहले समझा जाना चाहिए।

इस बार एपीपीएसओ ने एक आंतरिक परीक्षण में भाग लिया और उल्लेखनीय परिणाम प्राप्त किए – फिर से, बहुत मजबूत और विस्फोटक।

▲ संकेत: एप्रन और दस्ताने पहने एक बिल्ली का बच्चा फोम से भरी बाल्टी में बर्तन धो रहा है। ऊपर एक नल है जो पानी दे रहा है।

प्रॉम्प्ट द्वारा इंगित प्रत्येक तत्व प्रतिबिंबित किया गया है, और कोई "लापता प्रश्न" नहीं है, एकमात्र समस्या यह है: यह बहुत सुंदर है – मेरी देशी बिल्ली का स्वभाव इतना उच्च नहीं है।

इसे भूल जाओ, एक बिल्ली का बच्चा क्या गलत कर सकता है? इमेजिंग के दृष्टिकोण से, फोम और पानी के प्रवाह का विवरण बहुत अद्भुत है, और बिल्ली की गर्वित अभिव्यक्ति भी बहुत ज्वलंत है।

एक छोटा विवरण: पानी बिल्ली के बच्चे के सिर के शीर्ष पर गिरता है, और फिर पीठ और ठुड्डी से गिरता है। यह विवरण भौतिकी के नियमों के अनुरूप है और मॉडल की शक्तिशाली समझने की क्षमता को दिखाने के लिए पर्याप्त है। ऐसा ही प्रदर्शन आधिकारिक प्रदर्शन में भी देखने को मिल सकता है.

▲आधिकारिक डेमो

हवा में उलझे बालों की बहाली न केवल लहराते बालों को दर्शाती है, बल्कि दिशा भी चरित्र की गति की लय के अनुरूप है, जो भौतिक तर्क के अनुरूप है।

यह उच्च-निष्ठा क्षमता डॉयिन और जियानयिंग द्वारा वीडियो निर्माण की समझ और तकनीकी संचय से आती है, स्व-विकसित उच्च संपीड़न अनुपात और उच्च पुनर्स्थापना वीडियो छिपे हुए राज्य एन्कोडिंग और डिकोडिंग मॉडल के माध्यम से, यह प्रसार मॉडल के कुशल एन्कोडिंग की दृढ़ता से गारंटी देता है संचालन।

▲ संकेत: घने पेड़ों वाले जंगल में, आकाश की ओर देखें। आकाश घने पत्तों से ढका हुआ है, और सूरज पत्तों के बीच के अंतराल से चमक रहा है। ऊपर की ओर शूटिंग कोण, प्रकाश और अंधेरे के बीच मजबूत कंट्रास्ट

हरा एक बहुत ही पेचीदा टोन है यदि आप इसे अच्छी तरह से समायोजित करते हैं, तो यह रेट्रो और ताजा दिखेगा, लेकिन यदि आप इसे गलत तरीके से समायोजित करते हैं, तो टोन खराब हो जाएगी। यहां, हरी पत्तियों और शाखाओं के माध्यम से प्रकाश के अपवर्तन द्वारा गठित एपर्चर प्रभाव को सटीक रूप से बहाल किया जाता है, जो लेंस के करीब है।

यह कहना होगा कि वीडियो संपादन और जिमेंग एआई जैसे व्यावसायिक परिदृश्यों को बार-बार चमकाने और निरंतर पुनरावृत्ति के बाद, डौबाओ वीडियो पीढ़ी मॉडल में वास्तव में पेशेवर स्तर की रोशनी और छाया लेआउट और रंग समायोजन क्षमताएं हैं, जो 3 डी एनीमेशन, 2 डी एनीमेशन, चीनी का समर्थन करती हैं। पेंटिंग, विभिन्न शैलियाँ जैसे कि ब्लैक एंड व्हाइट, इम्पैस्टो, और इससे भी महत्वपूर्ण बात – लेंस की भाषा में महारत हासिल करना।

बढ़िया कैमरा मूवमेंट, चाहे मूवमेंट कैसे भी बदले, नायक स्थिर रहता है

लेंस भाषा के महत्व को कई बार अधिक महत्व नहीं दिया जा सकता है। कोई भी केवल एक गतिशील पीपीटी बनाने में अपना लंबा समय व्यतीत नहीं करना चाहता।

हालाँकि, सामान्य उपयोगकर्ताओं के लिए, "लेंस भाषा" प्रशिक्षण कक्षा में जाने की आवश्यकता नहीं है: डौबाओ वीडियो जेनरेशन मॉडल ने ज़ूम, सराउंड, पैन, ज़ूम, टारगेट फॉलोइंग और अन्य सुपर मल्टी से लेंस ऑपरेशन समाधानों की एक श्रृंखला तैयार की है। -लेंस भाषा को परिप्रेक्ष्य के लचीले नियंत्रण को प्राप्त करने के लिए प्रॉम्प्ट का उपयोग करके पूरा किया जा सकता है।
यह आसान दिखता है, लेकिन इसे लागू करना आसान नहीं है: निरंतरता एक बड़ी चुनौती है।

मॉडल निर्देशों को समझता है, विषय उत्पन्न करता है, और फिर लेंस की आवश्यकताओं के अनुसार विषय के परिवर्तन और क्रिया प्रक्षेपवक्र को डिजाइन करता है। चरणों की इस श्रृंखला में, न केवल विषय का चेहरा "अपरिवर्तित" होना चाहिए, बल्कि विषय को भी "अपरिवर्तित" होना चाहिए आंदोलनों और कोणों के अनुसार उचित रूप से "परिवर्तनीय"।

▲प्रॉम्प्ट: स्पेससूट पहने एक बॉर्डर कॉली चंद्रमा की सतह पर दौड़ रही है, उछल रही है और हवा में एक उड़ने वाली डिस्क का पीछा कर रही है। चांदनी इसके फर को तिरछे कोण, निम्न कोण, 4k गुणवत्ता, धीमी गति से रोशन करती है

जब पिल्ला उछला, तो उसका सिर और हाथ-पैर ज्यादा विकृत नहीं थे, वह स्थिर था और आराम महसूस कर रहा था।

▲ संकेत: मस्क चावल के खेत में खड़े थे, चावल लगाने के लिए झुक रहे थे, सिर पर पुआल टोपी पहने हुए थे, सिर उठाने के बाद, उन्होंने कैमरे का स्वागत करने के लिए अपना हाथ उठाया।

दस सेकंड के दौरान जब उन्होंने कैमरे से बात की, तो मस्क की अभिव्यक्ति, हथियार और शरीर की मुद्राएं उनकी गतिविधियों के साथ बदल गईं, लेकिन पूरी चीज ढह नहीं गई, और आंदोलनों की श्रृंखला बहुत सहज थी।

"परिवर्तन" और "अपरिवर्तनीयता" की इस चुनौती से निपटने में, विषय की स्थिरता की लगभग पूरी तरह से गारंटी है, और प्रदर्शन वास्तव में शक्तिशाली है।

लेंस बदलने पर भी यही सिद्धांत लागू होता है। आधिकारिक डेमो में, एक अंडरवाटर खंड है जो प्रभावशाली है।

▲आधिकारिक डेमो

लेंस के एक साधारण ज़ूम के साथ, मॉडल को जो पूरा करने की आवश्यकता है वह है: सामने उत्कृष्ट विवरण होना चाहिए, फिर विषय एक नए विषय को प्रकट करने के लिए आगे बढ़ता है, और अंत में यह नए विषय पर स्थिर हो जाता है, और पूरी गतिविधि पूरी हो जाती है एक ही बार में।

अपने उत्कृष्ट सुसंगत प्रदर्शन और अद्भुत कैमरा मूवमेंट क्षमताओं के अलावा, यह स्वाभाविक रूप से विभिन्न प्रकार की शैलियों का भी समर्थन करता है, जैसे कि 3 डी, 2 डी एनीमेशन, इम्पैस्टो, कॉमिक्स इत्यादि, साथ ही विभिन्न प्रकार के अनुपात विकल्प, जिससे उपयोगकर्ताओं को बेहद मुफ्त विकल्प मिलते हैं। .

▲आधिकारिक डेमो

▲ शीघ्र: सुंदर, बर्फीला टोक्यो शहर हलचल भरा है। कैमरा शहर की एक हलचल भरी सड़क से गुजर रहा है, जिसमें कई लोग खूबसूरत बर्फीले मौसम का आनंद ले रहे हैं और पास के स्टालों पर खूबसूरत साकुरा की पंखुड़ियाँ बर्फ के टुकड़ों के साथ हवा में उड़ रही हैं

▲ संकेत: रात में हांगकांग के एक चौराहे पर, कारें और बसें तेजी से गुजरती हैं, जिससे बहने वाली लाइनें बन जाती हैं। वहां पैदल यात्री ट्रैफिक लाइट का इंतजार कर रहे हैं। पृष्ठभूमि में इमारतें धुंधली हैं, जिससे प्रकाश के धब्बे, कम कोण, 4k गुणवत्ता बन रही है

"हाई-एंड" से "कार्यान्वयन में आसान" तक

हालाँकि डौबाओ वीडियो जेनरेशन मॉडल अभी उपयोगकर्ताओं के लिए आया है, इसके पीछे की तकनीक को लंबे समय से पॉलिश किया गया है। पिछले साल नवंबर में बाइटडांस रिसर्च द्वारा जारी एक तकनीकी रिपोर्ट के अनुसार, बाइट टीम ने पहले और आखिरी फ्रेम छवि निर्देशों को टेक्स्ट निर्देशों के साथ जोड़ा था। अंतिम फ्रेम निर्देश जटिल दृश्यों या कार्यों को बनाने में एक महत्वपूर्ण घटक साबित हुआ।

इसके अलावा, उस समय, बाइट ने उच्च-स्थिरता चित्र प्रदर्शन क्षमताओं को प्राप्त करने के लिए पदानुक्रमित पद्धति के बजाय ऑटोरेग्रेसिव मार्ग को चुना। इसके पीछे विचार यह है कि मॉडल को यह सुनिश्चित करना चाहिए कि उत्पन्न सामग्री उपयोगकर्ता की अपेक्षाओं के अनुरूप है। केवल इस तरह से उपयोगकर्ता पीढ़ी प्रक्रिया में सक्रिय रूप से भाग लेंगे और "निर्देशक" की भूमिका निभाएंगे, ताकि शक्तिशाली मॉडल क्षमताओं को लागू किया जा सके। यथाशीघ्र व्यावहारिक अनुप्रयोग।

समान उत्पादों (वायदा को छोड़कर) की तुलना में, डौबाओ का वीडियो पीढ़ी मॉडल पूरी तरह से प्रथम श्रेणी के स्तर पर है। लूमा और रनवे जैसे विदेशी उत्पादों की तुलना में, यह चीनी और चीनी उपयोगकर्ताओं को बेहतर समझता है, और चीनी इंटरनेट पर रचनात्मक वर्कफ़्लो के लिए अधिक उपयुक्त है।

▲आधिकारिक डेमो

ऐसे उत्कृष्ट प्रदर्शन के साथ, अलग दिखना अपरिहार्य है। यह न केवल वीडियो जेनरेशन मॉडल को संदर्भित करता है, बल्कि पूरे डौबाओ बड़े मॉडल परिवार को संदर्भित करता है: एल्गोरिदम पंजीकरण को पारित करने वाले चीन के पहले बड़े मॉडलों में से एक के रूप में, डौबाओ बड़ा मॉडल ज्वालामुखी इंजन और ज्वालामुखी आर्क के माध्यम से उद्यमों को सेवाएं प्रदान करता है।

सितंबर तक, डौबाओ भाषा मॉडल का औसत दैनिक टोकन उपयोग 1.3 ट्रिलियन से अधिक हो गया, जो मई में पहली बार जारी होने की तुलना में दस गुना अधिक है।

सबसे मजबूत प्रदर्शन प्रदान करने के लिए, डौबाओ यूनिवर्सल मॉडल प्रो डिफ़ॉल्ट रूप से 800K के शुरुआती टीपीएम का समर्थन करता है। यह देखा जा सकता है कि यह संख्या उद्योग में सर्वोत्तम स्तर से कहीं अधिक है, और वास्तविक जरूरतों के अनुसार इसे और बढ़ाया जा सकता है, जिससे बड़े उद्यमों को मदद मिलेगी। उत्पादन परिवेश में बड़े पैमाने पर सुरक्षित रूप से संचालन के लिए।

जबकि इसकी तकनीकी क्षमताएं इतनी मजबूत हैं, विभिन्न बड़े मॉडलों के सबसे मजबूत संस्करणों की कीमत की तुलना में, डौबाओ का बड़ा मॉडल उद्योग की कीमत से 98% से अधिक कम है – एआई का उपयोग करने की सीमा पहले से भी कम हो गई है।

तकनीक जितनी अधिक उन्नत होगी, उसे दैनिक जीवन में लागू करने और एकीकृत करने की उतनी ही अधिक आवश्यकता होगी।

वास्तविक व्यावसायिक परिदृश्यों में, अच्छे परिणाम, तेज़ गति और उपयोग में आसान चीज़ की आवश्यकता होती है। एक उदाहरण के रूप में ई-कॉमर्स को लेते हुए, हमें मार्केटिंग नोड्स और विभिन्न प्लेटफार्मों के प्रदर्शन प्रभावों पर विचार करना चाहिए, एक लचीली और तेज़ उत्पादन पद्धति की आवश्यकता है।

चाहे वह विज्ञापन शूटिंग, लघु वीडियो, लाइव ई-कॉमर्स और अन्य क्षेत्र हों, मौजूदा उत्पादन प्रक्रिया में सरल और उपयोग में आसान टूल को शामिल करने की आवश्यकता है।

24 तारीख को प्रेस कॉन्फ्रेंस में, ज्वालामुखी इंजन के अध्यक्ष टैन दाई ने बड़े पैमाने पर मॉडल अनुप्रयोगों की एक श्रृंखला का प्रदर्शन किया, विशेष रूप से ऐसे मामले जो वास्तव में व्यावसायिक उपयोग परिदृश्यों में लागू किए गए थे।
पूर्ण-स्टैक बड़े मॉडल सेवाओं के माध्यम से, हुओशान इंजन वास्तव में डौबाओ बड़े मॉडलों की ताकत को वास्तविक व्यावसायिक परिदृश्यों में एकीकृत करता है। इस वर्ष से, ज्वालामुखी इंजन ने रिटेल लार्ज मॉडल इकोलॉजिकल एलायंस, ऑटोमोबाइल लार्ज मॉडल इकोलॉजिकल एलायंस और स्मार्ट टर्मिनल लार्ज मॉडल एलायंस की स्थापना की है, जिसमें विभिन्न प्रकार के व्यवसायों और परिदृश्यों को शामिल किया गया है।

मजबूत मॉडल, कम कीमतें और आसान कार्यान्वयन निस्संदेह बड़े बीन बैग मॉडल के महत्वपूर्ण फायदे हैं।

"मजबूत मॉडल" कहने की जरूरत नहीं है, डौबाओ बड़ा मॉडल हर दिन एक ट्रिलियन से अधिक टोकन के उपयोग का समर्थन कर सकता है, बाइटडांस की आंतरिक 50+ व्यावसायिक प्रथाओं और 30+ उद्योग ग्राहकों के अनुप्रयोगों के माध्यम से, कॉल की बढ़ती संख्या अधिक से अधिक दृश्य को कवर करती है। . उद्यमों से अधिक प्रतिक्रिया प्राप्त करने के साथ-साथ, यह बाओडा मॉडल को बेहतर और अधिक व्यापक बनने में भी मदद करता है।

प्रेस कॉन्फ्रेंस में, टैन दाई ने कहा, "बड़े मॉडलों की एप्लिकेशन लागत को अच्छी तरह से हल किया गया है। बड़े मॉडलों को बेहतर मॉडल क्षमताओं और सेवाओं के साथ वॉल्यूम मूल्य से वॉल्यूम प्रदर्शन की ओर बढ़ने की आवश्यकता है।"

"व्यावसायिक परिदृश्यों का अनुप्रयोग कुछ ऐसा है जिस पर डौबाओ·वीडियो जेनरेशन मॉडल शुरू से ही विचार कर रहा है। इसे बेहतर ढंग से लागू करने के लिए वाणिज्यिक मूल्य में एक सफलता की आवश्यकता है," टैन दाई ने कहा, "हमने विभिन्न परिदृश्यों में पर्याप्त काम किया है। अनुकूलन, यह हर किसी को कारोबारी माहौल में बीनबाओ वीडियो जेनरेशन मॉडल के माध्यम से वास्तव में नवाचार करने और व्यवसाय में तेजी लाने की अनुमति मिलती है।''

उत्साही लोग कम सीमा वाले सी-एंड उत्पादों के माध्यम से एआई दुनिया की खोज शुरू कर सकते हैं। डेवलपर्स एआई कार्य को सस्ते, अधिक विविध और अधिक लचीले तरीके से लागू करने के लिए ज्वालामुखी इंजन का उपयोग कर सकते हैं, और आगे की खोज के लिए नए उत्पादों और सामग्री के साथ व्यापक उपयोगकर्ता आधार प्रदान कर सकते हैं।

पत्रकारों के साथ बाद के प्रश्नोत्तर सत्र में, उन्होंने यह भी साझा किया कि जैसे-जैसे प्रौद्योगिकी लगातार दोहराई और आगे बढ़ रही है, जब एआई किसी समस्या को पूरी तरह से हल कर सकता है, तो toB और toC के बीच अंतर उतना बड़ा नहीं हो सकता है।

शायद एआई युग में यह सबसे शानदार दृश्य होगा: जो बाधाएं मूल रूप से पहुंच से बाहर थीं, उन्हें उलट दिया जा रहा है। इससे कोई फर्क नहीं पड़ता कि आपके पास अनुभव है या नहीं, चाहे वह व्यावसायिक सशक्तिकरण के लिए हो या अपने मनोरंजन के लिए, जब तक आप शुरुआत करेंगे, आप चमत्कार पैदा करेंगे।

# aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: aifaner (WeChat ID: ifanr) आपको जल्द से जल्द अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फ़ैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो