इसके कारण, मस्क और टेराकोटा सेना ने “विषय तीन” नृत्य किया

एक एकल तस्वीर मस्क, मेस्सी और अन्य मशहूर हस्तियों को जादुई रूप से नृत्य करने पर मजबूर कर सकती है, और यहां तक ​​कि विषय तीन को भी व्यवस्थित किया जा सकता है, जो पूरे इंटरनेट पर लोकप्रिय है।

यह कोई उन्नत एआई तकनीक नहीं है। मोबाइल टर्मिनल पर अलीबाबा टोंगयी कियानवेन का नया जोड़ा गया "नेशनल डांस किंग" फ़ंक्शन इसे साकार कर सकता है। विषय तीन, डीजे स्लो रॉकिंग, घोस्ट स्टेप डांस और ब्लिस डांस जैसे 12 लोकप्रिय डांस टेम्पलेट भी हैं। .आप अपना चयन करें.

टोंगयी कियानवेन में "नेशनल डांस किंग" और "टोंगयी डांस किंग" जैसे पासवर्ड दर्ज करें, फिर जंप इंटरफ़ेस में अपना पसंदीदा नृत्य चुनें और एक पूर्ण-शरीर फोटो अपलोड करें। एक नृत्य बनाने में केवल दस मिनट लगते हैं जो शारीरिक दोनों है और आध्यात्मिक। राजा बहुत भव्य "शीघ्र ही निपुण" था।

अप्रत्याशित रूप से, मोटी भौहें और बड़ी आंखों वाले आइंस्टीन एक पल में एक फैशनेबल आदमी में बदल सकते थे, और उनकी गतिविधियों की लय बहुत मजबूत नहीं थी।

▲ चित्र: साइमन_एवेन से

टेराकोटा योद्धाओं और नृत्य के राजा के बीच केवल एक तस्वीर है, और इस मुद्रा को नजरअंदाज नहीं किया जा सकता है।

मूर्ति की दुनिया में नृत्य के राजा का दबदबा है, वे मुझे, "एशियाई नृत्य राजा" निकोलस झाओ सी को कैसे नजरअंदाज कर सकते हैं?

▲ चित्र: गोंगफू फाइनेंस से

जिन छोटे पात्रों को मैंने चित्रित किया, वे सभी मुझसे अधिक खुशी से नृत्य कर रहे थे। ऐसा लगता है कि मुझे एक नृत्य कक्षा के लिए साइन अप करना होगा।

▲ चित्र: भाई दाओ हू कान

क्रेयॉन शिन-चान "अपना सिर खुजाता है और पोज़ बनाता है", और उसका बचपन एक पल में वापस आ जाता है।

▲ चित्र: पनहुआ कुत्ता

एआई जादू जो तस्वीरों को "जीवित" बनाता है

तो अलीबाबा की AI अनुसंधान टीम ने फ़ोटो को कैसे स्थानांतरित किया?

टोंगयी डांस किंग फ़ंक्शन की रिलीज़ वास्तव में AnimateAnyone तकनीक का एक विशिष्ट अनुप्रयोग और कार्यान्वयन है।

अलीबाबा एआई अनुसंधान टीम द्वारा जारी एक पेपर के अनुसार, दृश्य पीढ़ी अनुसंधान के क्षेत्र में प्रसार मॉडल वर्तमान में मुख्यधारा हैं। हालांकि, छवि-से-वीडियो पीढ़ी के क्षेत्र में, अभी भी स्थानीय विरूपण, धुंधले विवरण जैसी समस्याएं हैं , और फ़्रेम दर घबराना।

इस संबंध में, अलीबाबा की एआई अनुसंधान टीम ने प्रसार मॉडल के आधार पर एक नया एआई एल्गोरिदम एनिमेट एनीवन प्रस्तावित किया। इस एल्गोरिदम का कार्य एक स्थिर चरित्र छवि को एनिमेटेड वीडियो में परिवर्तित करना है, और साथ ही, मुद्राओं के अनुक्रम को इनपुट करके वीडियो में चरित्र आंदोलनों को सटीक रूप से नियंत्रित किया जा सकता है।

▲फ़्लिप बुक के सिद्धांत का प्रदर्शन। चित्र: @फ़्लिपिंग बुक एंडीमेशन

यह ध्यान दिया जाना चाहिए कि वीडियो उत्पादन में, विशेष रूप से एनीमेशन उत्पादन में, पात्रों की गतिविधियों को फ्रेम-दर-फ्रेम संक्रमण के माध्यम से पूरा किया जाता है। सिद्धांत फ्लिप-बुक के समान है जिसे मैं अक्सर तब खेलता था जब मैं बच्चा था। प्रत्येक पृष्ठ है एक स्थिर हाथ से खींचा गया ड्राफ्ट, जिसे तुरंत फ़्लिप किया जा सकता है। स्क्रीन को मानव आँख की "दृष्टि की दृढ़ता" बग के माध्यम से घुमाएँ।

किसी चित्र को आगे बढ़ाने में सबसे बड़ी कठिनाई अगले कार्यों और दृश्यों की "कल्पना" करना है, और पहले या बाद में कोई संदर्भ नहीं है। इसलिए, आधिकारिक तुलना प्रदर्शन में, आप देख सकते हैं कि पारंपरिक तकनीक "डिस्को" को बार-बार एक नकारात्मक शिक्षण सामग्री के रूप में उपयोग किया गया है। इसका गंभीर विरूपण प्रभाव केवल विषय को स्थानांतरित कर सकता है, लेकिन मुड़ शरीर का आकार और अजीब गति प्रभाव नहीं हैं बिल्कुल बुलाए जाने के योग्य। काम।

इसलिए, वीडियो चरित्र छवि स्थिरता की समस्या को हल करने के लिए, उन्होंने संदर्भ छवि नेटवर्क रेफरेंसनेट पेश किया, जो संदर्भ छवि में स्थानिक विवरण जानकारी को कैप्चर कर सकता है।

फिर, उन्होंने रेफरेंसनेट को यूनेट के साथ जोड़ दिया, जिससे यूनेट को यह समझने में मदद मिली कि लक्ष्य छवि बनाते समय कहां और क्या विवरण उत्पन्न किया जाना चाहिए, ताकि उत्पन्न छवि संदर्भ छवि में मुख्य विवरणों को बनाए रखते हुए समग्र रूप से शोर को दूर कर सके। चरित्र छवि की स्थिरता प्राप्त करें .

विवरण कैप्चर करने के अलावा, आसन की नियंत्रणीयता भी सुनिश्चित की जानी चाहिए। इस प्रयोजन के लिए, अलीबाबा एआई टीम ने एक हल्का पोज़ गाइडर, पोज़ गाइडर भी डिज़ाइन किया है, जो डीनोइज़िंग प्रक्रिया के दौरान पोज़ नियंत्रण संकेतों को एकीकृत करता है ताकि यह सुनिश्चित किया जा सके कि उत्पन्न एनीमेशन अनुक्रम निर्दिष्ट पोज़ के अनुरूप है।

वीडियो की स्थिरता को ध्यान में रखते हुए, उन्होंने मॉडल को फ़्रेम के बीच कनेक्शन सीखने की अनुमति देने के लिए एक टाइमिंग जेनरेशन मॉड्यूल भी पेश किया, ताकि उत्पन्न वीडियो खंडित होने के बजाय सुचारू और सुसंगत हो, जबकि उच्च रिज़ॉल्यूशन विवरण बनाए रखने से तस्वीर की गुणवत्ता बेहतर हो जाएगी और अधिक स्थिर.

पिछले तरीकों की तुलना में, यह विधि कपड़े के रंग को बदलने जैसी समस्याओं के बिना, वीडियो पात्रों की उपस्थिति की स्थिरता को प्रभावी ढंग से बनाए रख सकती है। साथ ही, वीडियो बिना झिलमिलाहट और घबराहट के, चिकनी और स्पष्ट है, और यह भी किसी भी चरित्र के गतिशील एनीमेशन का समर्थन करता है। परिवर्तन।

उदाहरण के लिए, मेस्सी शीर्ष शैली के साथ खेलते हैं जो मध्यम आयु वर्ग और बुजुर्ग लोगों को पसंद है और आपको नमस्ते कहने के लिए अपना हाथ उठाते हैं।

द्वि-आयामी पात्र स्थिर अवस्था में चलते हैं, और जब वे घरेलू नृत्य करते हैं, तो वे वास्तविक लोगों से कम प्रभावशाली नहीं होते हैं।

यहां तक ​​कि आयरन मैन भी मौज-मस्ती में शामिल हो गया, फिट रहा और अपनी मांसपेशियों को फैलाया, और इसमें कुछ भी गलत नहीं था।

एआई वीडियो जेनरेशन के क्षेत्र में, अलीबाबा के पीछे प्रौद्योगिकी संचय इससे कहीं आगे जाता है। उदाहरण के लिए, पिछले महीने, अलीबाबा ने एक और वीडियो जेनरेशन तकनीक, ड्रीममूविंग भी जारी की थी। यह उच्च गुणवत्ता वाले अनुकूलित पोर्ट्रेट वीडियो बनाने के लिए एक प्रसार-आधारित नियंत्रणीय वीडियो पीढ़ी ढांचा है।

इस तकनीक का लाभ यह है कि इसमें जटिल वीडियो उत्पादन तकनीकों के गहन ज्ञान की आवश्यकता नहीं होती है। उपयोगकर्ताओं को केवल कुछ मार्गदर्शन दिए जाने की आवश्यकता होती है, जैसे कि पाठ का एक टुकड़ा या एक संदर्भ छवि, और ड्रीमोविंग अत्यधिक यथार्थवादी वीडियो बना सकता है।

दूसरे शब्दों में, जब तक लक्ष्य पहचान और मुद्रा अनुक्रम दिया जाता है, ड्रीममूविंग मुद्रा अनुक्रम के आधार पर कहीं भी नाचते हुए किसी भी व्यक्ति/वस्तु का वीडियो तैयार कर सकता है।

इसे सीधे शब्दों में कहें तो, ड्रीमोविंग स्वचालित रूप से सरल इनपुट के माध्यम से विभिन्न अनुकूलित चरित्र वीडियो उत्पन्न कर सकता है, जैसे चेहरे की छवियां, एक्शन अनुक्रम और टेक्स्ट, वीडियो पीढ़ी पर सटीक नियंत्रण प्राप्त कर सकता है।

विशिष्ट पृथक्करण चरण: पहले वीडियो में व्यक्ति के पूरे शरीर की छवि उत्पन्न करने के लिए किसी व्यक्ति के चेहरे की छवि इनपुट करें, फिर वीडियो में चरित्र की गतिविधियों को सटीक रूप से नियंत्रित करने के लिए मुद्राओं के अनुक्रम को इनपुट करें, और अंत में वीडियो निर्माण को अधिक व्यापक रूप से नियंत्रित करने के लिए टेक्स्ट इनपुट करें प्रभाव.

उदाहरण के लिए, एक लड़की, हल्के पीले रंग की लंबी बाजू की पोशाक पहने हुए, समुद्र के किनारे खड़ी होकर मुस्कुरा रही है।

एक आदमी सूट और नीली टाई पहनकर मिस्र के पिरामिड के सामने नृत्य कर रहा है।

एक फ्रांसीसी शहर में हल्के नीले रंग की पोशाक में एक लड़की मुस्कुरा रही है और नृत्य कर रही है

एआई वीडियो जेनरेशन उद्योग पागल हो रहा है

वास्तव में, जेनरेटिव एआई के क्षेत्र में, एआई वीडियो जेनरेशन के क्षेत्र का शुरुआती बिंदु अभी देर नहीं हुई है। चैटजीपीटी के जन्म से पहले, कई निर्माताओं ने पहले ही इस ट्रैक पर दांव लगाया था, जैसे कि माइक्रोसॉफ्ट और गूगल। समान एआई वीडियो जेनरेशन उपकरणों का उपयोग किया गया है, लेकिन प्रभाव न्यूनतम है।

संपूर्ण उद्योग के दीर्घकालिक प्रौद्योगिकी संचय के आधार पर, प्रसार मॉडल का उद्भव निर्माताओं को एआई वीडियो पीढ़ी की संभावित संभावनाओं को देखने की अनुमति देता है। आरएनएन जैसे शुरुआती मॉडलों पर इसके स्पष्ट फायदे हैं। यह अधिक सुसंगत और स्पष्ट छवियां या वीडियो अनुक्रम उत्पन्न कर सकता है, जिससे वीडियो निर्माण की पुनरावृत्त प्रक्रिया तेज हो जाती है।

बाजार में मुख्यधारा के उपकरणों ने भी इस आधार पर शानदार वृद्धि की है, जिससे एआई वीडियो जेनरेशन ट्रैक एक बार फिर से धूम मचा रहा है, और वास्तव में एक अद्भुत विस्फोटक प्रवृत्ति दिखा रहा है।

पिछले साल के अंत में, रनवे जेन-2 को एक बड़ा अपडेट प्राप्त हुआ, जिसमें रिज़ॉल्यूशन 4K तक बढ़ गया और वीडियो जेनरेशन प्रभावों की निष्ठा और स्थिरता में एक बड़ी सफलता मिली। एक हफ्ते बाद, मोशन ब्रश फ़ंक्शन फिर से लॉन्च किया गया। एकल ब्रश, आप स्थिर चीजों को चला सकते हैं।

इसके तुरंत बाद, वेन्शेंगटू की "रीढ़" स्टेबिलिटी एआई ने भी स्टेबल वीडियो डिफ्यूजन जारी किया, जिससे एआई वीडियो पीढ़ी के क्षेत्र में एक और उछाल आया।

दूसरी ओर, पिका 1.0 ने अपनी सरल वीडियो पीढ़ी, समझने में आसान आंशिक वीडियो संपादन और उच्च गुणवत्ता वाली वीडियो पीढ़ी के कारण अपनी शुरुआत के बाद से कई सिलिकॉन वैली मालिकों का पक्ष जीता है। पीढ़ी से लेकर पोस्ट-प्रोडक्शन तक, आप स्वयं वन-स्टॉप ऑपरेशन पूरा कर सकते हैं।

Google के सहयोग से ली फेइफ़ी की टीम द्वारा लॉन्च किया गया WALT मॉडल प्राकृतिक भाषा/चित्र संकेतों के आधार पर यथार्थवादी 2D/3D वीडियो या एनिमेशन भी उत्पन्न कर सकता है, और पीढ़ी का प्रभाव रनवे, पिका और अन्य विशेषज्ञों के बराबर है।

इन एआई वीडियो जेनरेशन टूल्स ने मुख्य रूप से दो आयामों – गुणवत्ता और मात्रा – में काफी प्रगति की है। गुणवत्ता के संदर्भ में, ये एआई उत्पाद अधिक शक्तिशाली मॉडल आर्किटेक्चर पेश करना जारी रखते हैं और प्रशिक्षण के लिए बड़े पैमाने पर और उच्च गुणवत्ता वाले डेटा का उपयोग करते हैं, ताकि एआई-जनित वीडियो की छवि गुणवत्ता, प्रवाह और निष्ठा में सुधार जारी रहे।

मात्रा के संदर्भ में, उत्पन्न वीडियो की लंबाई भी लगातार शामिल हो रही है, लंबाई में दोहरे अंकों वाले सेकंड तक पहुंच रही है, और दृश्यों और घटनाओं का संयोजन तेजी से समृद्ध होता जा रहा है। भविष्य में, कंप्यूटिंग शक्ति में और सुधार के साथ, उच्च गुणवत्ता वाले वीडियो बनाना संभव होगा जो कई घंटों तक चलेंगे।

क्लाउड पर तैरती तकनीक अंततः जमीन पर लागू की जाएगी, और एआई वीडियो पीढ़ी के बढ़ने से एक विशाल नीला महासागर बाजार तैयार होगा। प्रौद्योगिकी के गहन संचय पर भरोसा करते हुए, टोंगयी कियानवेन का "नेशनल डांस किंग" इस व्यावसायिक तर्क पर आधारित एक और उत्पाद है।

इससे न केवल अलीबाबा और अन्य कंपनियों के साथ प्रतिस्पर्धा खुलेगी और पूरे उद्योग की प्रगति में तेजी आएगी, बल्कि हमें एआई वीडियो जेनरेशन तकनीक द्वारा लाई गई संभावनाओं का अधिक अनुभव करने का अवसर भी मिलेगा।

# aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: aifaner (WeChat ID: ifanr)। जितनी जल्दी हो सके आपको अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो