फिल्म इतिहास के सबसे प्रसिद्ध खलनायकों में से एक भविष्य में “मानव शब्द नहीं बोलेंगे”

एंग ली की एक्शन साइंस-फिक्शन फिल्म जेमिनी मैन में, सरकारी एजेंट हेनरी सेवानिवृत्त होने वाला है, जब वह खुद को 23 साल छोटे क्लोन द्वारा शिकार करता हुआ पाता है।

इस प्रभाव को प्राप्त करने के लिए, एंग ली ने मानव चेहरे को नाजुक रूप से बहाल करने के लिए मोशन कैप्चर स्पेशल इफेक्ट्स का इस्तेमाल किया, जिससे विल स्मिथ "कायाकल्प" हो गया। "सही 23 वर्षीय त्वचा" वाले एक युवक ने भी क्लोन में अपने डेटा का योगदान दिया।

कोई हमेशा जवान नहीं होता, और कोई हमेशा जवान रहता है।

लेकिन "डिजिटल डबल्स" अधिक लालची हो सकता है। अजेय खाल होने के अलावा, उनके पास व्यग्र आवाज भी हो सकती है।

टाइम मशीन को बुलाओ

"स्टार वार्स" के डार्थ वाडर, जो अपने शारीरिक और मानसिक विनाश के कारण फोर्स के अंधेरे पक्ष में गिर गए, मूल त्रयी में नंबर एक खलनायक है, और स्टार वार्स श्रृंखला में सबसे विरोधाभासी और दुखद भी है। .

2003 में, अमेरिकन फिल्म इंस्टीट्यूट ने डार्थ वाडर को सदी के तीसरे सबसे महान फिल्म खलनायक के रूप में स्थान दिया, जो हैनिबल ऑफ साइलेंस ऑफ द लैम्ब्स और नॉर्मन बेट्स ऑफ साइको के पीछे था।

जब से लुकास ने 1977 में पहला "स्टार वार्स" रिलीज़ किया, तब से जेम्स अर्ल जोन्स डार्थ वाडर की आवाज़ रहे हैं, और उनकी आवाज़ एक व्यक्ति के जीवन के लगभग आधे हिस्से के लिए एक चरित्र बन गई है। की आवाज।

चित्र से: स्क्रीनरेंट

डार्थ वाडर की शक्तिशाली लेकिन थोड़ी दबी हुई आवाज, गहरी सांस लेने की आवाज के साथ, रीढ़ को ठंडक पहुंचाती है।

लेकिन मनुष्य अंततः बूढ़ा हो जाएगा, और जोन्स इस वर्ष 91 वर्ष के हैं, और यह उनके आवाज अभिनय करियर को समाप्त करने पर विचार करने का समय है। उन्होंने यूक्रेनी स्टार्टअप रेस्पीकर को आवाज का लाइसेंस देने का फैसला किया।

पिछली रिकॉर्डिंग और मालिकाना एआई एल्गोरिदम का उपयोग करके, रेस्पीकर पुरानी आवाज़ों से नई लाइनें बना सकता है।

रेस्पीचर। छवि से: उलटा

नवीनतम उपलब्धि स्टार वार्स स्पिन-ऑफ "ओबी-वान केनोबी" है, जो इस साल जून में समाप्त हुई।

शो में, रेस्पीकर ने 2019 के स्टार वार्स: द राइज़ ऑफ़ स्काईवॉकर में उम्र के साथ अपनी असली आवाज़ के बजाय, दशकों पहले की जोन्स की आवाज़ को फिर से बनाया।

डार्थ वाडर जैसे चरित्र के लिए, 50 लाइनों को आगे और पीछे स्विच करने के लिए लगभग 10,000 फाइलों की आवश्यकता हो सकती है, और अधिकांश काम संवाद परिवर्तन और फाइन ट्यून ऑन पर खर्च किया जाता है।

एक दिलचस्प विवरण यह है कि डार्थ वाडर के ओबी-वान केनोबी एपिसोड 3 में, रेस्पीकर को भी श्रेय दिया गया था

चित्र से: लुकासफिल्म

यह पहली बार नहीं है जब रेस्पीकर ने लुकासफिल्म के साथ मिलकर काम किया है, यह स्टार वार्स स्पिनऑफ "द मंडलोरियन" और "द बुक ऑफ बोबा फेट" में ल्यूक स्काईवॉकर के एक छोटे संस्करण को "आवाज" भी देता है।

1977 से 1983 तक चली स्टार वार्स ट्रायोलॉजी में ल्यूक स्काईवॉकर की भूमिका निभाने वाले मार्क हैमिल भी इस साल 70 साल के हो गए।

"द मंडलोरियन" के दूसरे सीज़न की आखिरी कड़ी में, ल्यूक स्काईवॉकर, जो 20 साल से कम उम्र का था, दिखाई दिया। छवि दृश्य प्रभाव कंपनी लोला वीएफएक्सद्वारा डीपफेक और डबल्स के साथ बनाई गई थी, और आवाज "क्लोन" थी रेस्पीकर द्वारा।

"द बुक ऑफ़ बोबा फेट" ल्यूक स्काईवॉकर CGI.

1983 "स्टार वार्स VI" ल्यूक स्काईवॉकर।

रेस्पीकर जो करता है वह उच्च-गुणवत्ता वाली रिकॉर्डिंग के इनपुट घंटे है और एआई भाषण संश्लेषण सॉफ़्टवेयर और ऑडियो सुपर-रिज़ॉल्यूशन एल्गोरिदम के साथ भाषण का विश्लेषण करता है जब तक कि सिस्टम "क्लोन" करने में सक्षम न हो।

जैसे भेड़ की क्लोनिंग के लिए डीएनए की आवश्यकता होती है, और क्लोन की आवाज में आउटपुट से पहले इनपुट होता है, वैसे ही बोलने की शैली और रिकॉर्डिंग के उतार-चढ़ाव जैसे विवरण बहुत महत्वपूर्ण हैं।

इसलिए, यह कार्य अभी भी लोगों के लिए अत्यधिक प्रासंगिक है। "प्रौद्योगिकी अभी तक प्रदर्शन नहीं बना सकती है।" पिछले लाइव-एक्शन प्रदर्शनों के बिना, रेस्पीकर असहाय होगा।

इस दृष्टिकोण से, रेस्पीकर का एआई टाइम मशीन में एक साउंडिंग डिवाइस की तरह है – यह किसी के अतीत में एक विशिष्ट क्षण को फिर से बनाता है

द मंडलोरियन में ल्यूक स्काईवॉकर।

युवा स्काईवॉकर को वापस जीवन में लाने के लिए, रेस्पीचर ने मार्क हैमिल के वॉयसओवर, साक्षात्कार, संवाद पूरक, रेडियो प्रसारण, और बहुत कुछ, लगभग 1983 एकत्र किया है।

यहां एक और कठिनाई है: लगभग 40 वर्षों के डेटा को ऐसा बनाना जैसे कल रिकॉर्ड किया गया था।

अंत में, ल्यूक स्काईवॉकर ने दो स्पिनऑफ़ में केवल कुछ पंक्तियाँ ही कही। हालांकि, यह सुनिश्चित करते हुए कि संश्लेषित भाषण मूल भाषण से अप्रभेद्य है, छोटे और लंबे समय की मात्रा निर्धारित करने की कोई आवश्यकता नहीं है, और दर्शकों को इस बात से पूरी तरह अनजान है कि यह वास्तविक है या नहीं, जो कि रेस्पीकर चाहता है।

2018 में स्थापित स्टार्टअप का एक सरल लक्ष्य है: बिना सोचे-समझे मानव भाषण का क्लोन बनाना।

दर्द और जीवन और मृत्यु को पार करना

मनुष्य सीमित पैदा होता है और बुढ़ापे, बीमारी और मृत्यु से बच नहीं सकता, लेकिन तकनीक भौतिक शरीर की सीमाओं का विस्तार कर सकती है।

यह पहली बार नहीं है और किसी सेलिब्रिटी की आवाज का क्लोन बनाने का यह आखिरी मौका नहीं है।

"टॉप गन: द लोन रेंजर" की 2022 की रिलीज़ 1986 की "टॉप गन" की अगली कड़ी है, जिसमें "आइसमैन" कज़ांस्की को एक बार फिर 62 वर्षीय वैल किल्मर द्वारा पर्दे पर लाया गया था।

लेकिन वापस आना आसान नहीं था, और 2014 में गले के कैंसर के इलाज के बाद से किल्मर ने हमेशा के लिए अपनी आवाज खो दी।

इसलिए, "टॉप गन: द लोन रेंजर" की स्क्रिप्ट किल्मर के वास्तविक जीवन पर आधारित है, "आइसमैन" भी कैंसर से पीड़ित है और टाइप करके संचार करता है , और फिल्म में केवल एक छोटी लाइन बोलता है।

▲ तस्वीर से: पेजसिक्स

वास्तविक जीवन में, किल्मर की आवाज एआई द्वारा "पुनर्प्राप्त" की गई है। 2020 में, किल्मर ने AI वॉयस कंपनी Sonantic के साथ काम करना शुरू किया

घंटों पुराने फ़ुटेज प्राप्त करने के बाद, Sonantic पहले वाक् सामग्री को नष्ट किए बिना पृष्ठभूमि के शोर को हटाता है, फिर ऑडियो से एक स्क्रिप्ट तैयार करता है, ऑडियो और टेक्स्ट को टुकड़ों में जोड़ता है, और स्पीच इंजन इस डेटा का उपयोग भाषण मॉडल को प्रशिक्षित करने के लिए करता है।

कठिनाई यह है कि किल्मर ने अपनी पिछली परियोजनाओं की तुलना में लगभग 10 गुना कम डेटा प्रदान किया। इसके लिए, सोनैन्टिक ने नए एल्गोरिदम पर काम किया, अंततः 40 से अधिक विभिन्न भाषण मॉडल तैयार किए, और सर्वश्रेष्ठ को किल्मर को सौंप दिया।

तस्वीर से: वैनिटीफेयर

एक कस्टम स्पीच मॉडल के साथ, किल्मर और उनकी टीम टेक्स्ट दर्ज करती है, उपयुक्त मोड का चयन करती है, और आजीवन संचार प्राप्त करने के लिए पिच, रिदम आदि जैसे मापदंडों को समायोजित करती है।

यह सिर्फ एक तकनीकी उपलब्धि नहीं है, यह मानव संचार और कनेक्शन के बारे में है। किल्मर ने खुद एक बयान में उल्लेख किया:

मनुष्य के रूप में, संवाद करने की क्षमता हमारे अस्तित्व के केंद्र में है, और गले के कैंसर के प्रभाव ने दूसरों के लिए मुझे समझना मुश्किल बना दिया। अपनी कहानी को प्रामाणिक और जानी-पहचानी आवाज में बताने का अवसर मिलना एक बहुत ही खास उपहार था।

देश में भी ऐसे उदाहरण हैं। 2021 में, हिमालय ने दिवंगत मास्टर शान तियानफैंग को "फिर से बात करने" देने के लिए भाषण संश्लेषण तकनीक का उपयोग किया; 2018 में, वृत्तचित्र "इनोवेटिव चाइना" ने डबिंग मास्टर ली यी की आवाज को बहाल करने के लिए एआई का उपयोग किया

इसलिए जब आप दुनिया में निशान छोड़ गए हैं, तो आप आसानी से "अपने कपड़े नहीं हटा सकते हैं और अपनी खूबियों और प्रसिद्धि को छिपा सकते हैं"।

मशहूर हस्तियों के लिए जिन्हें अभी भी जीवित रहना है, क्लोन आवाजें "आसमान का रास्ता" हो सकती हैं। यदि एआई चेहरा बदलने वाला मॉडल डीपफेक मशहूर हस्तियों को अपने चेहरे "किराए पर" लेने की अनुमति देता है, तो यह बहुत पैसा कमा सकता है, और आवाज मॉडल तुलनीय हैं।

सोनाटिक, जो किल्मर की आवाज़ को "पुनर्स्थापित" करता है, का एक और व्यवसाय है: सामान्य आवाज़ वाले अभिनेताओं के लिए ध्वनि मॉडल बनाना।

तस्वीर से: द वर्ज

प्लेटफ़ॉर्म पहले सेटिंग स्क्रिप्ट प्रदान करता है, अभिनेता इन लिपियों के प्रदर्शन को रिकॉर्ड करते हैं, और फिर रिकॉर्ड किए गए ऑडियो को स्पीच इंजन में इनपुट करते हैं, और एआई मॉडल को प्रशिक्षित करने के लिए इंजन का उपयोग करते हैं। अंत में, जब सिंथेटिक ध्वनि का व्यावसायीकरण किया जाता है, तो अभिनेता लेटते समय लाभ का हिस्सा प्राप्त कर सकते हैं, बिना इसे स्वयं किए या अक्षम होने की चिंता किए बिना।

मई 2021 में अमेरिकी AI टेक्नोलॉजी कंपनी Veritone ने भी ऐसा ही एक प्लेटफॉर्म Marvel.AI लॉन्च किया था । कंपनी का मानना ​​है कि "एथलीटों, अभिनेताओं और प्रभावशाली लोगों के लिए, आवाज उनके व्यक्तिगत ब्रांड के लिए एक बड़ी संपत्ति है"।

▲ चित्र से: वेरिटोन

लेकिन यह आलसी होने के लिए अपरिहार्य है यदि मशहूर हस्तियां खुद का समर्थन करने के इच्छुक नहीं हैं, तो उपभोक्ताओं को उनके लिए भुगतान क्यों करना चाहिए? वेरिटोन उद्योग मानकों को बनाने की सिफारिश करता है, जैसे श्रोताओं को पहले से सूचित करना कि यह सिंथेटिक भाषण है, यानी, "कोई लड़ने को तैयार है और कोई पीड़ित है।"

प्रौद्योगिकी और प्लेटफार्मों के साथ, सेलिब्रिटी क्लोनिंग और किराये की आवाज एक उद्योग श्रृंखला हो सकती है, जो भौतिक और समय-स्थान की बाधाओं से परे प्रौद्योगिकी की अभिव्यक्ति भी है।

क्या हर किसी का भविष्य "वॉयस स्टैंड-इन" दूर है?

दी, वॉयस क्लोनिंग कोई नई बात नहीं है, लेकिन इसके लिए अभी भी एक वास्तविक, आसान प्रक्रिया की आवश्यकता है, और यह अंत से बहुत दूर है।

वॉयस क्लोन उन कोनों में अधिक से अधिक लोकप्रिय हो रहे हैं जिन्हें हम देख सकते हैं या नहीं देख सकते हैं, न कि केवल कुछ लोगों जैसे कि मशहूर हस्तियों, सितारों आदि के लिए एक खेल।

2017 में, कनाडाई एआई स्टार्टअप लियरबर्ड ने एक भाषण संश्लेषण तकनीक विकसित की, जिसमें दावा किया गया कि उनका एल्गोरिदम 1 मिनट के नमूना ऑडियो के साथ किसी की आवाज को क्लोन कर सकता है।

लाइरेबर्ड।

1 मिनट एक अद्भुत संख्या है। Adobe के प्रोजेक्ट VoCo को उस समय कम से कम 20 मिनट के सैंपल ऑडियो की आवश्यकता होती है।

लियरबर्ड द्वारा दिए गए उदाहरण में, हिलेरी, क्लिंटन और ट्रम्प ने एक साथ बात की और हँसे, लिरेबर्ड को एक साथ उज्ज्वल भविष्य की कामना की। उनकी आवाज और स्वर अभी भी वास्तविक लोगों से कुछ अलग हैं, और यांत्रिक भावना थोड़ी भारी है, लेकिन लोगों की आंखों को चमकने के लिए पर्याप्त है।

लाइरेबर्ड का कहना है कि वॉयसप्रिंट बनाने के लिए काफी कंप्यूटिंग शक्ति की आवश्यकता होती है, लेकिन एक बार ऐसा करने के बाद, भाषण देना आसान हो जाता है, आधे सेकंड से भी कम समय में एक हजार वाक्य बनाना।

यह एक भविष्यवाणी की तरह है: वास्तविकता और मशीनरी की दहलीज को पार करें, और फिर सब कुछ सुचारू हो जाएगा।

कम नमूना ऑडियो की आवश्यकता के अलावा, वॉयस क्लोनिंग पहले से ही रचनात्मक टूल में आपकी उंगलियों पर बनाया गया है।

विवरण।

डिस्क्रिप्ट, एक अमेरिकी ऑडियो और वीडियो संपादन कंपनी, ने एक पॉडकास्ट संपादन फ़ंक्शन "ओवरडु" विकसित किया है, जो निर्माता की आवाज़ को क्लोन कर सकता है, और निर्माता उन शब्दों को इनपुट कर सकता है जिनकी उन्हें मूल आवाज़ के साथ नया ऑडियो उत्पन्न करने की आवश्यकता होती है, जो जल्दी से सुविधाजनक है पॉडकास्ट को संशोधित करना।

लेकिन यह भी परिपूर्ण से बहुत दूर है। द वर्ज के एक रिपोर्टर ने पाया कि एक ओर, एआई को प्रशिक्षित करने के लिए, बहुत सारे ऑडियो को पूर्व-रिकॉर्ड करने की आवश्यकता होती है, दूसरी ओर, उत्पन्न ऑडियो में भावना और ताल का अभाव होता है, लेकिन यह खुद की तरह लगता है, जो अजीब और बेवजह परिचित है।

जहां स्टार्टअप हर जगह पॉप अप कर रहे हैं, वहीं बड़ी टेक कंपनियों ने बहुत कुछ जमा किया है।

जून में अमेज़ॅन के री: एमएआरएस सम्मेलन में, अमेज़ॅन के मुख्य वैज्ञानिक रोहित प्रसाद ने कहा कि अमेज़ॅन ऐसी तकनीक विकसित कर रहा है जो अपने स्मार्ट सहायक एलेक्सा को एक मिनट से भी कम ऑडियो के साथ किसी की आवाज की नकल करने की अनुमति देगा।

तस्वीर से: टेकक्रंच

बेशक, किसी में भी मृतक रिश्तेदार शामिल हैं। अमेज़ॅन ने एक संबंधित प्रदर्शन भी किया: एक बच्चे ने एलेक्सा को सोने की कहानी "द विजार्ड ऑफ ओज़" सुनने के लिए कहा, और स्पीकर से निकलने वाली आवाज़ सामान्य यांत्रिक ध्वनि नहीं थी, बल्कि एक दिवंगत दादी की आवाज़ थी।

अमेज़ॅन ने एलेक्सा की नई सुविधाओं के बारे में अधिक जानकारी नहीं दी, लेकिन अंतर्निहित तकनीक कई सालों से आसपास रही है।

यह अनुमान लगाया जा सकता है कि यद्यपि वॉयस क्लोन वास्तव में मानव आवाजों को प्रतिस्थापित नहीं कर सकते हैं, लेकिन उनका व्यापक रूप से उपयोग किया जाएगा, जैसे ऑडियोबुक, वॉयस असिस्टेंट, वीडियो गेम आदि।

सोनैटिक ने एक बार कहा था : "सीजीआई (कंप्यूटर जनित इमेजरी) दृष्टि के लिए जो करता है वह सोनैटिक ऑडियो के लिए करता है।" हर किसी की अपनी "वॉयस डबल" होती है, और यह हाथ में हो सकती है।

सिक्के के दूसरी तरफ, हम "वॉयस डबल्स" को लेकर सतर्क हैं।

तस्वीर से: Face2Face

आखिरकार, डीपफेक के राजनीतिक झूठ और पोर्नोग्राफी ने बहुत सारे नकारात्मक प्रभाव डाले हैं, इसलिए यह कल्पना करना मुश्किल नहीं है कि आवाज मॉडल का उपयोग किस लिए किया जाएगा। अनियंत्रित छोड़ दिया, हमारे पास एक भविष्य होगा जहां तस्वीरें नकली हो सकती हैं और ऑडियो रिकॉर्डिंग अविश्वसनीय हो सकती हैं।

कुछ महीने पहले, माइक्रोसॉफ्ट ने नए एआई नैतिकता नियम जारी किए जो गंभीर रूप से प्रतिबंधित करेंगे कि कौन सिंथेटिक आवाज बना सकता है, उनका उपयोग कैसे किया जा सकता है, और कृत्रिम आवाजों को "वॉटरमार्क" के साथ ओवरले करें जो दुरुपयोग को रोकता है।

रेस्पीचर, जो "स्टार वार्स" को समर्पित है, ने एक बार "1969" लघु फिल्म जारी की जिसमें राष्ट्रपति ने चंद्रमा पर बड़े पैमाने पर आपदा की घोषणा की। यह बहुत "वास्तविक" लगता है, लेकिन सब कुछ नकली है।

क्लिप एक रिमाइंडर के साथ समाप्त होती है: "यह प्रोजेक्ट कई तरह की तकनीकों का उपयोग करता है, जिसमें वीडियो डायलॉग रिप्लेसमेंट, वॉयस-ओवर सिस्टम और अधिक पारंपरिक वीडियो एडिटिंग शामिल हैं, यह दिखाने के लिए कि गलत सूचना कैसी दिख सकती है। कृपया अपने स्रोतों को सत्यापित करें।"

इसलिए, रेस्पीचर यह साबित करने की कोशिश नहीं कर रहा है कि समाचार और इतिहास में हेरफेर किया जा सकता है।

इसके विपरीत, वे लोगों को प्रौद्योगिकी के अस्तित्व और उपयोगिता के साथ-साथ इसकी सीमाओं और दुर्भावना से अवगत कराना चाहते हैं। अब जब पहिया आगे की ओर लुढ़क गया है और अधिक देखा गया है, तो इसे बेहतर विनियमित और उपयोग किया जा सकता है।

ली Ruoqiuhuang, बुराई को भगाने के लिए। कार्य ईमेल: [email protected]

#Aifaner के आधिकारिक WeChat खाते पर ध्यान देने के लिए आपका स्वागत है: Aifaner (WeChat: ifanr), अधिक रोमांचक सामग्री जल्द से जल्द आपके लिए लाई जाएगी।

लव फैनर | मूल लिंक · टिप्पणियां देखें · सिना वीबो