Google का नया वीडियो-टू-ऑडियो जनरेटर साउंडट्रैक बनाने के लिए पिक्सेल देखता है

एक एआई ने भेड़िये की गरजना उत्पन्न की
गूगल डीप माइंड

डीप माइंड ने मंगलवार को अपने जेनरेटिव एआई वीडियो-टू-ऑडियो शोध के नवीनतम परिणाम दिखाए। यह एक अनोखी प्रणाली है जो किसी दिए गए वीडियो क्लिप के लिए सिंक किए गए ऑडियो साउंडस्केप बनाने के लिए उपयोगकर्ता के लिखित संकेत के साथ स्क्रीन पर जो कुछ भी देखती है उसे जोड़ती है।

डीप माइंड की जेनरेटिव ऑडियो टीम ने एक ब्लॉग पोस्ट में लिखा है कि वी2ए एआई को वीओ जैसे वी-जेनरेशन मॉडल के साथ जोड़ा जा सकता है, और यह ऑन-स्क्रीन एक्शन के लिए साउंडट्रैक, ध्वनि प्रभाव और यहां तक ​​कि संवाद भी बना सकता है। इसके अलावा, डीप माइंड का दावा है कि उसका नया सिस्टम मॉडल को सकारात्मक और नकारात्मक संकेतों के साथ ट्यून करके "किसी भी वीडियो इनपुट के लिए असीमित संख्या में साउंडट्रैक" उत्पन्न कर सकता है जो क्रमशः किसी विशेष ध्वनि के उपयोग को प्रोत्साहित या हतोत्साहित करता है।

सिस्टम पहले वीडियो इनपुट को एन्कोडिंग और संपीड़ित करके काम करता है, जिसे प्रसार मॉडल उपयोगकर्ता के वैकल्पिक टेक्स्ट प्रॉम्प्ट और विज़ुअल इनपुट के आधार पर पृष्ठभूमि शोर से वांछित ऑडियो प्रभावों को पुनरावृत्त रूप से परिष्कृत करने के लिए उपयोग करता है। इस ऑडियो आउटपुट को अंततः डिकोड किया जाता है और एक तरंग के रूप में निर्यात किया जाता है जिसे फिर वीडियो इनपुट के साथ पुनः संयोजित किया जा सकता है।

सबसे अच्छी बात यह है कि उपयोगकर्ता को ऑडियो और वीडियो ट्रैक को मैन्युअल रूप से सिंक करने की ज़रूरत नहीं है, क्योंकि V2A सिस्टम स्वचालित रूप से ऐसा करता है। डीप माइंड टीम ने लिखा, "वीडियो, ऑडियो और अतिरिक्त एनोटेशन पर प्रशिक्षण देकर, हमारी तकनीक एनोटेशन या ट्रांसक्रिप्ट में दी गई जानकारी का जवाब देते हुए विशिष्ट ऑडियो घटनाओं को विभिन्न दृश्य दृश्यों के साथ जोड़ना सीखती है।"

हालाँकि, सिस्टम अभी भी पूर्ण नहीं हुआ है। एक के लिए, आउटपुट ऑडियो गुणवत्ता वीडियो इनपुट की निष्ठा पर निर्भर होती है और जब इनपुट में वीडियो कलाकृतियाँ या अन्य विकृतियाँ मौजूद होती हैं तो सिस्टम खराब हो जाता है। डीप माइंड टीम के अनुसार, संवाद को ऑडियो ट्रैक के साथ समन्वयित करना एक सतत चुनौती बनी हुई है।

टीम ने समझाया, "V2A इनपुट ट्रांस्क्रिप्ट से भाषण उत्पन्न करने और इसे पात्रों के होंठ आंदोलनों के साथ सिंक्रनाइज़ करने का प्रयास करता है।" “लेकिन युग्मित वाइड-जेनरेशन मॉडल को प्रतिलेखों पर अनुकूलित नहीं किया जा सकता है। यह एक बेमेल बनाता है, जिसके परिणामस्वरूप अक्सर अस्वाभाविक लिप-सिंकिंग होती है, क्योंकि वीडियो मॉडल प्रतिलेख से मेल खाने वाली मुंह की गतिविधियों को उत्पन्न नहीं करता है।

टीम द्वारा इसे जनता के लिए जारी करने पर विचार करने से पहले सिस्टम को अभी भी "कठोर सुरक्षा मूल्यांकन और परीक्षण" से गुजरना होगा। इस सिस्टम द्वारा उत्पन्न प्रत्येक वीडियो और साउंडट्रैक को डीप माइंड के सिंथआईडी वॉटरमार्क के साथ चिपका दिया जाएगा। यह प्रणाली वर्तमान में बाज़ार में मौजूद एकमात्र ऑडियो-जनरेटिंग एआई से बहुत दूर है। स्टेबिलिटी एआई ने पिछले हफ्ते ही इसी तरह का एक उत्पाद जारी किया था जबकि इलेवनलैब्स ने पिछले महीने अपना ध्वनि प्रभाव उपकरण जारी किया था