OpenAI के नए AI-निर्मित वीडियो लोगों के होश उड़ा रहे हैं

एक AI छवि जिसमें दो विशाल जीवों को बर्फ के बीच चलते हुए दिखाया गया है, पृष्ठभूमि में पहाड़ और एक जंगल है।
ओपनएआई

AI में OpenAI का नवीनतम उद्यम अब तक का सबसे प्रभावशाली उद्यम हो सकता है। "सोरा" नामक इस नए टेक्स्ट-टू-वीडियो एआई मॉडल ने अभी सीमित संख्या में उपयोगकर्ताओं के लिए अपने दरवाजे खोले हैं, जिन्हें इसका परीक्षण करने का मौका मिलेगा। कंपनी ने इसे पूरी तरह से AI द्वारा बनाए गए कई वीडियो दिखाकर लॉन्च किया, और अंतिम परिणाम चौंकाने वाले यथार्थवादी हैं।

ओपनएआई ने सोरा का परिचय यह कहकर दिया कि यह टेक्स्ट संकेतों के आधार पर यथार्थवादी दृश्य बना सकता है, और इसकी वेबसाइट पर साझा किए गए वीडियो इसे साबित करने का काम करते हैं। संकेत वर्णनात्मक हैं, लेकिन संक्षिप्त हैं; मैंने व्यक्तिगत रूप से ChatGPT के साथ इंटरैक्ट करते समय लंबे संकेतों का उपयोग किया है। उदाहरण के लिए, ऊपर चित्रित ऊनी मैमथों का वीडियो तैयार करने के लिए, सोरा को 67-शब्दों के प्रॉम्प्ट की आवश्यकता थी जिसमें जानवरों, परिवेश और कैमरा प्लेसमेंट का वर्णन हो।

ओपनएआई ने अपनी घोषणा में कहा, "सोरा दृश्य गुणवत्ता और उपयोगकर्ता के संकेत का पालन करते हुए एक मिनट तक के वीडियो तैयार कर सकता है।" एआई कई पात्रों, दृश्यों और सटीक गति से भरे जटिल दृश्य उत्पन्न कर सकता है। उस अंत तक, ओपनएआई का कहना है कि सोरा आवश्यकतानुसार भविष्यवाणी करता है और लाइनों के बीच पढ़ता है।

ओपनएआई ने कहा, "मॉडल न केवल यह समझता है कि उपयोगकर्ता ने प्रॉम्प्ट में क्या मांगा है, बल्कि यह भी समझता है कि भौतिक दुनिया में वे चीजें कैसे मौजूद हैं।" मॉडल केवल पात्रों, कपड़ों या पृष्ठभूमि से ही नहीं निपटता, बल्कि "आकर्षक चरित्र भी बनाता है जो जीवंत भावनाओं को व्यक्त करते हैं।"

सोरा किसी मौजूदा वीडियो में कमियों को भर सकता है या उसे लंबा कर सकता है, साथ ही एक छवि के आधार पर एक वीडियो भी तैयार कर सकता है, इसलिए यह सब केवल टेक्स्ट संकेत नहीं है।

जबकि वीडियो स्क्रीनशॉट के रूप में अच्छे दिखते हैं, वे गति में आश्चर्यजनक हैं। ओपनएआई ने नई तकनीक को दिखाने के लिए वीडियो की एक विस्तृत श्रृंखला पेश की, जिसमें साइबरपंक-एस्क टोक्यो सड़कों और गोल्ड रश के दौरान कैलिफोर्निया के "ऐतिहासिक फुटेज" शामिल हैं। इसमें और भी बहुत कुछ है, जिसमें मानव आँख का अत्यधिक क्लोज़-अप भी शामिल है। संकेतों में कार्टून से लेकर वन्यजीव फोटोग्राफी तक कुछ भी शामिल है।

सोरा ने फिर भी कुछ गलतियाँ कीं। उदाहरण के लिए, करीब से देखने पर पता चलता है कि भीड़ में से कुछ आकृतियों के सिर नहीं हैं या उनकी चाल अजीब है। कुछ नमूनों में अजीब हरकत पहली नज़र में सामने आई, लेकिन सामान्य अजीबता को पहचानने के लिए कई बार देखना पड़ा।

OpenAI द्वारा सोरा को आम जनता के लिए खोलने में कुछ समय लग सकता है। अभी, मॉडल का परीक्षण रेड टीमर्स द्वारा किया जाएगा जो संभावित जोखिमों का आकलन करेंगे। कुछ निर्माता अभी इसका परीक्षण भी शुरू करेंगे, जबकि यह अभी भी विकास के प्रारंभिक चरण में है।

एआई अभी भी अपूर्ण है, इसलिए मैं कुछ गड़बड़ की उम्मीद में गया था। चाहे यह कम उम्मीदें हों या सोरा की क्षमताएं, मैं प्रभावित होकर जा रहा हूं, लेकिन थोड़ा चिंतित भी हूं। हम पहले से ही एक ऐसी दुनिया में रह रहे हैं जहां किसी असली चीज़ को नकली से अलग करना मुश्किल है, और अब, केवल छवियां ही खतरे में नहीं हैं – वीडियो भी खतरे में हैं। हालाँकि, सोरा शायद ही पहला टेक्स्ट-टू-वीडियो मॉडल है जिसे हमने देखा है, जैसे कि पिका

अन्य लोग भी झंडा उठा रहे हैं, जैसे कि लोकप्रिय टेक यूट्यूबर, मार्केस ब्राउनली , जिन्होंने सोरा वीडियो के जवाब में ट्वीट किया कि "अगर यह आपको थोड़ा सा भी चिंतित नहीं करता है, तो कुछ भी नहीं होगा"।

यदि ओपनएआई का सोरा अब इतना अच्छा है, तो यह कल्पना करना कठिन है कि कुछ वर्षों के आगे के विकास और परीक्षण के बाद यह क्या करने में सक्षम होगा। यह उस प्रकार की तकनीक है जो कई नौकरियों को विस्थापित करने की क्षमता रखती है – लेकिन, उम्मीद है, चैटजीपीटी की तरह, यह मानव पेशेवरों के साथ मिलकर अस्तित्व में रहेगी।