मुंह से वीडियो बनाओ सच में आ रहा है! यह नया ऐप, मेटा, भयानक है

यह वर्ष छवि और वीडियो उत्पादन के क्षेत्र में AI के लिए बहुत प्रगति का वर्ष है।

किसी ने एआई द्वारा उत्पन्न छवि के साथ डिजिटल कला पुरस्कार लिया और मानव कलाकारों के एक समूह को हराया; टिकटोक जैसे अनुप्रयोग हैं जो पाठ इनपुट के माध्यम से चित्र उत्पन्न करते हैं और उन्हें लघु वीडियो की हरी स्क्रीन पृष्ठभूमि में बदल देते हैं; ऐसे नए उत्पाद हैं जो कर सकते हैं पाठ करें सीधे वीडियो बनाएं, और सीधे "अपने मुंह से वीडियो बनाएं" के प्रभाव का एहसास करें।

इस बार उत्पाद मेटा से आता है, जो कई वर्षों से कृत्रिम बुद्धिमत्ता की गहराई से खेती कर रहा है, और कुछ समय पहले मेटावर्स के कारण पागलपन से उपहास किया गया था।

मेटा मेटावर्स का बेतहाशा उपहास किया गया है

केवल इस बार, आप इसका मज़ाक नहीं उड़ा सकते, क्योंकि इसमें वास्तव में एक छोटी सी सफलता है।

टेक्स्ट टू वीडियो, क्या किया जा सकता है

अब, आप वीडियो बनाने के लिए अपना मुंह घुमा सकते हैं।

हालांकि यह थोड़ा अतिरंजित है, इस बार मेटा का मेक-ए-वीडियो शायद इस लक्ष्य की ओर बढ़ रहा है।

मेक-ए-वीडियो वर्तमान में क्या कर सकता है:

  • टेक्स्ट-टू-वीडियो – अपनी कल्पना को वास्तविक, अद्वितीय वीडियो में बदलें
  • चित्रों को सीधे वीडियो में बदलें – एक चित्र या दो चित्रों को स्वाभाविक रूप से चलने दें
  • वीडियो जनरेटिंग एक्सटेंडेड वीडियो – वीडियो वैरिएंट बनाने के लिए एक वीडियो इनपुट करें

टेक्स्ट से सीधे वीडियो बनाने के मामले में, मेक-ए-वीडियो ने कई पेशेवर एनीमेशन डिजाइन छात्रों को हराया है। कम से कम यह कोई भी शैली कर सकता है, और उत्पादन लागत बहुत कम है।

हालांकि आधिकारिक वेबसाइट आपको सीधे वीडियो अनुभव उत्पन्न करने की अनुमति नहीं देती है, आप पहले अपनी व्यक्तिगत जानकारी जमा कर सकते हैं, और फिर मेक-ए-वीडियो पहले आपके साथ किसी भी विकास को साझा करेगा।

ऐसे कई मामले नहीं हैं जो अब तक देखे जा सकते हैं, और आधिकारिक वेबसाइट पर प्रदर्शित मामलों में अभी भी विवरण में कुछ अजीब स्थान हैं। लेकिन वैसे भी, यह तथ्य कि टेक्स्ट को सीधे वीडियो में बदला जा सकता है, अपने आप में एक सुधार है।

एक टेडी बियर एक स्व-चित्र बना रहा है, और आप कागज के छाया वाले हिस्से पर भालू के हाथ के अप्राकृतिक प्रक्षेपण को देख सकते हैं।

टाइम्स स्क्वायर में रोबोट नृत्य करते हैं।

बिल्ली चैनल बदलने के लिए टीवी रिमोट कंट्रोल पकड़ रही है। बिल्ली के पंजे इंसानों के हाथों से काफी मिलते-जुलते हैं, और कभी-कभी यह देखने में थोड़ा डरावना लगता है।

और एक नारंगी बुना हुआ टोपी में एक प्यारा आलस एक लैपटॉप, कंप्यूटर स्क्रीन से उसकी आंखों में प्रकाश के साथ फ़िदा हो जाता है।

उपरोक्त असली शैलियाँ हैं, और ऐसे मामले जो वास्तविकता से अधिक मिलते-जुलते हैं, पहनने में आसान होते हैं।

मेक-ए-वीडियो द्वारा दिखाए गए मामले अच्छे हैं यदि वे केवल स्थानीय क्षेत्रों पर ध्यान केंद्रित करते हैं, जैसे कि कैनवास पर कलाकार की पेंटिंग का क्लोज-अप, घोड़े के पीने का पानी, और छोटी मछलियां प्रवाल भित्तियों में तैरती हैं।

लेकिन भारी बारिश में चलते हुए थोड़ा और यथार्थवादी युवा जोड़ा बहुत अजीब है। ऊपरी शरीर ठीक है, लेकिन निचले शरीर के पैर टिमटिमाते हैं, कभी-कभी खिंचे हुए, भूत की फिल्म की तरह।

मंगल ग्रह पर अंतरिक्ष यान के उतरने के पेंटिंग-शैली के वीडियो भी हैं, बारिश में फंसे टक्सीडो में जोड़े, टेबल पर धूप, और चलती पांडा गुड़िया। विवरण के संदर्भ में, ये वीडियो सही नहीं हैं, लेकिन एआई टेक्स्ट-टू-वीडियो के अभिनव प्रभाव से, वे अभी भी अद्भुत हैं।

मेक-ए-वीडियो की मदद से स्थिर चित्रों को भी एनिमेटेड किया जा सकता है – नाव बड़ी लहरों में चल रही है।

कछुए समुद्र में तैर रहे हैं।शुरुआती तस्वीर बहुत स्वाभाविक है, लेकिन बाद में यह हरे रंग की स्क्रीन कटआउट की तरह हो जाती है, जो अप्राकृतिक है।

योग प्रशिक्षक उगते सूरज में अपने शरीर को फैलाता है, और वीडियो के परिवर्तनों के साथ योग चटाई बदल जाएगी – यह एआई फिल्म और टेलीविजन निर्माण का अध्ययन करने वाले छात्रों को हरा नहीं पाएगा, और नियंत्रण चर अच्छी तरह से नहीं किया जाता है।

अंत में वीडियो के प्रकार बनाने के लिए इसकी शैली की नकल करने के लिए एक वीडियो दर्ज करें 3 मामले भी हैं।

परिवर्तनों में से एक अपेक्षाकृत कम परिष्कृत है। अंतरिक्ष यात्रियों के अंतरिक्ष में फड़फड़ाते हुए वीडियो को वीडियो के 4 मोटे संस्करणों के थोड़े कम सौंदर्य संस्करण में बदल दिया गया।

नन्हे भालू के नाचते हुए वीडियो में काफी चौंकाने वाले बदलाव देखने को मिले हैं, कम से कम डांस का पोस्चर तो बदल ही गया है.

जहां तक ​​घास खाने वाले खरगोश के आखिरी वीडियो की बात है, तो यह सबसे "एनंग मुझे नर और मादा के रूप में अलग करता है" है। यह पहचानना मुश्किल है कि पिछले 5 वीडियो में शुरुआती वीडियो कौन है, और यह बहुत सामंजस्यपूर्ण दिखता है।

जैसे ही चित्रों का पाठ आगे बढ़ा, वीडियो यहाँ है

" अल्फागो के बाद, यह पूरी तरह से मानव संज्ञान को फिर से बदल देता है " में, हमने एक बार छवि निर्माण एप्लिकेशन DALL·E को पेश किया था। किसी ने इसका उपयोग मानव कलाकारों के साथ प्रतिस्पर्धा करने और अंततः जीतने के लिए चित्र बनाने के लिए किया है।

अब हम जो मेक-ए-वीडियो देखते हैं, उसे DALL·E (प्राथमिक संस्करण) का वीडियो संस्करण कहा जा सकता है – यह 18 महीने पहले DALL·E की तरह है, एक बड़ी सफलता के साथ, लेकिन वर्तमान प्रभाव शायद नहीं बना पाए लोग संतुष्ट हैं।

DALL·E . द्वारा बनाई गई विस्तारित पेंटिंग

यह भी कहा जा सकता है कि यह एक ऐसा उत्पाद है जो विशाल DALL·E के कंधों पर खड़ा है और उपलब्धियां हासिल करता है। टेक्स्ट-जेनरेट की गई छवियों की तुलना में, मेक-ए-वीडियो ने बैकएंड में बहुत अधिक नए बदलाव नहीं किए हैं।

"हमने देखा कि पाठ-जनित चित्रों का वर्णन करने वाले मॉडल भी लघु वीडियो बनाने में आश्चर्यजनक रूप से प्रभावी थे," शोधकर्ताओं ने अपने पेपर में कहा।

पाठ्य-निर्मित छवियों का वर्णन करने वाले पुरस्कार विजेता कार्य

वर्तमान में, Make-A-Video द्वारा निर्मित वीडियो के 3 फायदे हैं:

  1. T2V मॉडल का त्वरित प्रशिक्षण (पाठ से वीडियो तक)
  2. टेक्स्ट-टू-वीडियो डेटा को युग्मित करने की कोई आवश्यकता नहीं है
  3. परिवर्तित वीडियो को मूल छवि/वीडियो की शैली विरासत में मिली है

इन छवियों में निश्चित रूप से कमियां हैं, और उपरोक्त अप्राकृतिकता सभी वास्तविक है। और वे इस युग में पैदा हुए वीडियो की तरह नहीं हैं, तस्वीर की गुणवत्ता धुंधली है, गति कठोर है, ध्वनि मिलान समर्थित नहीं है, वीडियो की लंबाई 5 सेकंड से अधिक नहीं है, और रिज़ॉल्यूशन 64 x 64px है।

▲इस वीडियो में कुत्ते की जीभ और हाथों के कुछ फ्रेम हैं जो बहुत ही अजीब हैं

पहला CogVideo मॉडल जो सीधे टेक्स्ट से वीडियो को संश्लेषित कर सकता है, कुछ महीने पहले सिंघुआ विश्वविद्यालय और ज़ियुआन रिसर्च इंस्टीट्यूट (BAAI) के एक शोध दल द्वारा जारी किया गया था, इसमें भी ऐसी ही समस्या है। बड़े पैमाने पर पूर्व-प्रशिक्षित ट्रांसफार्मर वास्तुकला के आधार पर, यह एक बहु-फ्रेम दर पदानुक्रमित प्रशिक्षण रणनीति का प्रस्ताव करता है, जो पाठ और वीडियो क्लिप को कुशलता से संरेखित कर सकता है, लेकिन यह जांच में खड़ा नहीं हो सकता है।

लेकिन 18 महीने बाद कौन कहेगा, Make-A-Video और CogVideo सबसे बेहतर वीडियो नहीं बना रहे होंगे?

▲ CogVideo द्वारा निर्मित वीडियो – यह वर्तमान में केवल चीनी पीढ़ी का समर्थन करता है

हालांकि कई टेक्स्ट-टू-वीडियो टूल जारी नहीं किए गए हैं, लेकिन कई सड़क पर हैं। मेक-ए-वीडियो जारी होने के बाद, स्टार्ट-अप स्टेबिलिटीएआई के डेवलपर्स ने सार्वजनिक रूप से कहा: "हमारा (टेक्स्ट-टू-वीडियो एप्लिकेशन) तेज और बेहतर होगा, और अधिक लोगों के लिए लागू होगा।"

प्रतिस्पर्धा बेहतर है, और तेजी से यथार्थवादी टेक्स्ट-टू-इमेज फ़ंक्शन सबसे अच्छा प्रमाण है।

न ज्यादा दिलचस्प, न ज्यादा आशावादी।

#Aifaner के आधिकारिक WeChat खाते पर ध्यान देने के लिए आपका स्वागत है: Aifaner (WeChat: ifanr), अधिक रोमांचक सामग्री जल्द से जल्द आपके लिए लाई जाएगी।

लव फैनर | मूल लिंक · टिप्पणियां देखें · सिना वीबो