AI में OpenAI का नवीनतम उद्यम अब तक का सबसे प्रभावशाली उद्यम हो सकता है। "सोरा" नामक इस नए टेक्स्ट-टू-वीडियो एआई मॉडल ने अभी सीमित संख्या में उपयोगकर्ताओं के लिए अपने दरवाजे खोले हैं, जिन्हें इसका परीक्षण करने का मौका मिलेगा। कंपनी ने इसे पूरी तरह से AI द्वारा बनाए गए कई वीडियो दिखाकर लॉन्च किया, और अंतिम परिणाम चौंकाने वाले यथार्थवादी हैं।
ओपनएआई ने सोरा का परिचय यह कहकर दिया कि यह टेक्स्ट संकेतों के आधार पर यथार्थवादी दृश्य बना सकता है, और इसकी वेबसाइट पर साझा किए गए वीडियो इसे साबित करने का काम करते हैं। संकेत वर्णनात्मक हैं, लेकिन संक्षिप्त हैं; मैंने व्यक्तिगत रूप से ChatGPT के साथ इंटरैक्ट करते समय लंबे संकेतों का उपयोग किया है। उदाहरण के लिए, ऊपर चित्रित ऊनी मैमथों का वीडियो तैयार करने के लिए, सोरा को 67-शब्दों के प्रॉम्प्ट की आवश्यकता थी जिसमें जानवरों, परिवेश और कैमरा प्लेसमेंट का वर्णन हो।
पेश है सोरा, हमारा टेक्स्ट-टू-वीडियो मॉडल।
सोरा अत्यधिक विस्तृत दृश्यों, जटिल कैमरा गति और जीवंत भावनाओं वाले कई पात्रों को प्रदर्शित करते हुए 60 सेकंड तक के वीडियो बना सकता है। https://t.co/7j2JN27M3W
संकेत: “सुंदर, बर्फीला… pic.twitter.com/ruTEWn87vf
— ओपनएआई (@OpenAI) 15 फरवरी, 2024
ओपनएआई ने अपनी घोषणा में कहा, "सोरा दृश्य गुणवत्ता और उपयोगकर्ता के संकेत का पालन करते हुए एक मिनट तक के वीडियो तैयार कर सकता है।" एआई कई पात्रों, दृश्यों और सटीक गति से भरे जटिल दृश्य उत्पन्न कर सकता है। उस अंत तक, ओपनएआई का कहना है कि सोरा आवश्यकतानुसार भविष्यवाणी करता है और लाइनों के बीच पढ़ता है।
ओपनएआई ने कहा, "मॉडल न केवल यह समझता है कि उपयोगकर्ता ने प्रॉम्प्ट में क्या मांगा है, बल्कि यह भी समझता है कि भौतिक दुनिया में वे चीजें कैसे मौजूद हैं।" मॉडल केवल पात्रों, कपड़ों या पृष्ठभूमि से ही नहीं निपटता, बल्कि "आकर्षक चरित्र भी बनाता है जो जीवंत भावनाओं को व्यक्त करते हैं।"
सोरा किसी मौजूदा वीडियो में कमियों को भर सकता है या उसे लंबा कर सकता है, साथ ही एक छवि के आधार पर एक वीडियो भी तैयार कर सकता है, इसलिए यह सब केवल टेक्स्ट संकेत नहीं है।
जबकि वीडियो स्क्रीनशॉट के रूप में अच्छे दिखते हैं, वे गति में आश्चर्यजनक हैं। ओपनएआई ने नई तकनीक को दिखाने के लिए वीडियो की एक विस्तृत श्रृंखला पेश की, जिसमें साइबरपंक-एस्क टोक्यो सड़कों और गोल्ड रश के दौरान कैलिफोर्निया के "ऐतिहासिक फुटेज" शामिल हैं। इसमें और भी बहुत कुछ है, जिसमें मानव आँख का अत्यधिक क्लोज़-अप भी शामिल है। संकेतों में कार्टून से लेकर वन्यजीव फोटोग्राफी तक कुछ भी शामिल है।
सोरा ने फिर भी कुछ गलतियाँ कीं। उदाहरण के लिए, करीब से देखने पर पता चलता है कि भीड़ में से कुछ आकृतियों के सिर नहीं हैं या उनकी चाल अजीब है। कुछ नमूनों में अजीब हरकत पहली नज़र में सामने आई, लेकिन सामान्य अजीबता को पहचानने के लिए कई बार देखना पड़ा।
OpenAI द्वारा सोरा को आम जनता के लिए खोलने में कुछ समय लग सकता है। अभी, मॉडल का परीक्षण रेड टीमर्स द्वारा किया जाएगा जो संभावित जोखिमों का आकलन करेंगे। कुछ निर्माता अभी इसका परीक्षण भी शुरू करेंगे, जबकि यह अभी भी विकास के प्रारंभिक चरण में है।
एआई अभी भी अपूर्ण है, इसलिए मैं कुछ गड़बड़ की उम्मीद में गया था। चाहे यह कम उम्मीदें हों या सोरा की क्षमताएं, मैं प्रभावित होकर जा रहा हूं, लेकिन थोड़ा चिंतित भी हूं। हम पहले से ही एक ऐसी दुनिया में रह रहे हैं जहां किसी असली चीज़ को नकली से अलग करना मुश्किल है, और अब, केवल छवियां ही खतरे में नहीं हैं – वीडियो भी खतरे में हैं। हालाँकि, सोरा शायद ही पहला टेक्स्ट-टू-वीडियो मॉडल है जिसे हमने देखा है, जैसे कि पिका ।
अन्य लोग भी झंडा उठा रहे हैं, जैसे कि लोकप्रिय टेक यूट्यूबर, मार्केस ब्राउनली , जिन्होंने सोरा वीडियो के जवाब में ट्वीट किया कि "अगर यह आपको थोड़ा सा भी चिंतित नहीं करता है, तो कुछ भी नहीं होगा"।
इनमें से हर एक वीडियो AI-जनरेटेड है, और अगर यह आपको थोड़ा सा भी चिंतित नहीं करता है, तो कुछ भी नहीं होगा
नवीनतम मॉडल: https://t.co/zkDWU8Be9S
(याद रखें विल स्मिथ स्पेगेटी खा रहे हैं? मेरे पास बहुत सारे सवाल हैं) pic.twitter.com/TQ44wvNlQw
— मार्क्स ब्राउनली (@MKBHD) 15 फरवरी, 2024
यदि ओपनएआई का सोरा अब इतना अच्छा है, तो यह कल्पना करना कठिन है कि कुछ वर्षों के आगे के विकास और परीक्षण के बाद यह क्या करने में सक्षम होगा। यह उस प्रकार की तकनीक है जो कई नौकरियों को विस्थापित करने की क्षमता रखती है – लेकिन, उम्मीद है, चैटजीपीटी की तरह, यह मानव पेशेवरों के साथ मिलकर अस्तित्व में रहेगी।