घबराएं नहीं, एआई पेंटिंग कला को खत्म नहीं कर सकती

एआई पेंटिंग का एक दिन पृथ्वी पर एक वर्ष के बराबर है।

Dall-E 2 और Midjourney, जो साल की पहली छमाही में लोकप्रिय हुए, साल की दूसरी छमाही में पूरी तरह से Stable Diffusion से ढक गए।

हाल के गर्म ड्राइंग उत्पादों में उनके नाम में "प्रसार" है, और वे सभी कृत्रिम बुद्धि "प्रसार" एल्गोरिदम से लाभान्वित हैं। यह एल्गोरिथम एआई पेंटिंग के एप्लिकेशन क्रिटिकल पॉइंट से टूटता है, जो उपयोग में आसान और प्रभाव में बेहतर है।

मशीन पेंटिंग का आधा शताब्दी का इतिहास है, और दो साल के भीतर, एआई पेंटिंग अचानक "आक्रमणकारी विशाल" बन गई। अधिक से अधिक दस सेकंड घंटी के लिए वर्ष की शुरुआत में घंटे।

एआई पेंटिंग तकनीक में महत्वपूर्ण प्रगति ने "रचनात्मक एआई" में रुचि जगाई है – एआई उपकरणों की एक श्रृंखला जो ललित कला से लेकर कविता तक मानव रचनात्मकता की नकल करती है। लेकिन वास्तव में किसी को घबराहट महसूस नहीं हुई।

कुछ समय पहले, कई लोगों ने अनुमान लगाया था कि यान निंग, एक जीवविज्ञानी, संयुक्त राज्य अमेरिका छोड़कर चीन लौट आया था क्योंकि अल्फाफोल्ड आर्टिफिशियल इंटेलिजेंस सिस्टम प्रोटीन की संरचना की भविष्यवाणी कर सकता था और उसकी नौकरी छीन ली गई थी। वास्तव में, समाचार सूचना लिखने वाला सॉफ्टवेयर लंबे समय से अस्तित्व में है, और इसकी वजह से किसी भी पत्रकार की नौकरी नहीं गई है। एआई उन लोगों की जगह भी नहीं ले सकता जो टोफू क्यूब्स लिखते हैं, शीर्ष वैज्ञानिकों की तो बात ही छोड़िए।

डिफ्यूजन एल्गोरिथम क्या है

वर्तमान आर्टिफिशियल इंटेलिजेंस मॉडल डीप लर्निंग न्यूरल नेटवर्क का उपयोग करते हैं। स्व-शिक्षण मॉडल, जैसे GPT-3 इन मॉडलों में सबसे प्रसिद्ध है, जो लगभग 45TB टेक्स्ट डेटा के तंत्रिका नेटवर्क पर "सीखेंगे" और ऐसे कार्य उत्पन्न करेंगे जो लगभग मानव आउटपुट के समान हैं।

स्टेबल डिफ्यूजन डीप लर्निंग फैमिली का हिस्सा है। विशेष रूप से, स्थिर प्रसार एक अव्यक्त प्रसार मॉडल के माध्यम से छवियों और पाठ के बीच संबंध सीखता है। यह छवि डेटा लेकर और उसमें "शोर" जोड़कर काम करता है। शोर, जिसे शोर भी कहा जाता है, डिजिटल फोटोग्राफी उपकरण द्वारा कैप्चर की गई छवियों में खुरदरे धब्बे को संदर्भित करता है, जो आमतौर पर इलेक्ट्रॉनिक हस्तक्षेप द्वारा निर्मित होते हैं।

शोर के साथ एक तस्वीर धीरे-धीरे जोड़ी जाती है जब तक कि पूरी तस्वीर सफेद शोर न बन जाए। मॉडल इस प्रक्रिया को रिकॉर्ड करता है और एआई को सीखने के लिए इसे उलट देता है।

एआई के नजरिए से, पहली चीज जो आप देखते हैं वह शोर से भरी तस्वीर है, फिर आप देखते हैं कि तस्वीर साफ हो जाती है, और अंत में यह एक पेंटिंग बन जाती है। एआई जो सीखता है वह पूरी डीनोइज़िंग प्रक्रिया है, विशेष रूप से गॉसियन शोर से कैसे निपटें, और अंत में पेंटिंग कैसे बनाएं।

गॉसियन शोर एक प्रकार के शोर को संदर्भित करता है जिसका प्रायिकता घनत्व फ़ंक्शन गॉसियन वितरण (यानी, सामान्य वितरण) का पालन करता है। प्रसार एल्गोरिथ्म गॉसियन शोर जोड़ता है। एक "वास्तविक" छवि की वैधता को सत्यापित करना है, क्योंकि उपयोग के वातावरण में छवियां सभी शोर कर रहे हैं एक सीखने की सुविधा के लिए है, जब तक कि शोर मानक सामान्य वितरण के अनुरूप नहीं है, यह अमान्य होगा।

स्थिर प्रसार के मूल डेटाबेस को लायन-सौंदर्यशास्त्र कहा जाता है, जिसमें चित्रों के साथ चित्र होते हैं, और "सौंदर्य शैली" के अनुसार फ़िल्टर भी किया जाता है। अन्य प्रशिक्षित आर्टिफिशियल इंटेलिजेंस मॉडल ने भी कुछ अश्लील सामग्री को खत्म करने के लिए "आपको यह पेंटिंग कितनी पसंद है" रेटिंग का अनुमान लगाने के लिए डेटाबेस को "सही" किया।

यह "पूर्ववर्तियों" से कैसे भिन्न है

स्थिर प्रसार डल-ई 2 और मिडजर्नी के समान है जिसमें यह छवियों को उत्पन्न करने के लिए "पाठ विवरण" पर निर्भर करता है।

हालाँकि, स्थिर प्रसार खुला स्रोत है और इसका अंतर्निहित कोड सार्वजनिक रूप से उपलब्ध है। न तो ओपन एआई और न ही गूगल ने अपने एआई मॉडल जारी किए हैं।

स्थिरता एआई में अमेज़ॅन क्लाउड (एडब्ल्यूएस) में चल रहे 4,000 से अधिक एनवीडिया ए100 जीपीयू शामिल हैं। रिपोर्टों के अनुसार, Stability AI की परिचालन और क्लाउड खर्च लागत $50 मिलियन से अधिक है।

कंपनी का दावा है कि यह "गति और गुणवत्ता में सफलता" प्रदान कर सकता है, और 10G से कम मेमोरी वाले जीपीयू भी चल सकते हैं। वे AMD, Apple M1/M2 चिप्स पर चलने वाले संस्करण भी प्रदान करेंगे।

वर्तमान में, स्थिर प्रसार का कार्य यह है कि यह पाठ को कुछ सेकंड में 512 × 512 पिक्सेल छवि में परिवर्तित कर सकता है; छवि को रूपांतरित, बड़ा, संशोधित और प्रतिस्थापित किया जा सकता है; GFP-GAN मॉडलिंग का उपयोग करके, उपयोगकर्ताओं को धुंधली चेहरे की छवियों को अपलोड करने की अनुमति देता है ज़ूम इन या मूल स्वरूप को पुनर्स्थापित करने के लिए।

पिछले महीने, स्थिरता एआई ने $101 मिलियन जुटाए। सीईओ एमाद मोस्ताक ने गणित और कंप्यूटर विज्ञान में मास्टर डिग्री के साथ ऑक्सफ़ोर्ड विश्वविद्यालय से स्नातक किया, और पहले विभिन्न हेज फंडों में एक विश्लेषक के रूप में काम किया। वर्तमान में, कंपनी का मूल्य $ 1 बिलियन है। स्टेबल डिफ्यूजन के अलावा, डांस डिफ्यूजन-म्यूजिक एडिटिंग भी है।

स्थिरता एआई की पैसा बनाने की योजना "निजी" मॉडल और ग्राहकों के लिए सामान्य-उद्देश्य वाले बुनियादी ढांचे के प्लेटफार्मों को प्रशिक्षित करना है। इसका एक प्लेटफॉर्म है, ड्रीमस्टूडियो, जो व्यक्तिगत उपयोगकर्ताओं के लिए भी सुलभ है। आज ड्रीमस्टूडियो के 1.5 मिलियन से अधिक उपयोगकर्ता हैं जिन्होंने लगभग 200 मिलियन चित्र बनाए हैं। सभी चैनलों की गिनती करते हुए, स्टेबल डिफ्यूजन के 10 मिलियन से अधिक उपयोगकर्ता हैं।

कंपनी ने Google वैज्ञानिक और भविष्यवादी डेनियल जेफ़्रीज़ की हाई-प्रोफाइल हायर भी की।

क्या यह कला है?

विभिन्न आर्टिफिशियल इंटेलिजेंस की घोषणा के साथ, संबंधित नैतिक और कानूनी मुद्दे भी बढ़ रहे हैं। स्थिर प्रसार वास्तविक जीवन की छवियों की पीढ़ी की अनुमति देता है, और समस्या अधिक "गंभीर" हो जाती है।

बहुत सारी संवेदनशील सामग्री बनाने के लिए उपयोगकर्ताओं द्वारा स्थिर प्रसार का उपयोग किया गया है, और नकली सेलिब्रिटी तस्वीरें हर जगह उड़ रही हैं। Getty Images ने बौद्धिक संपदा चिंताओं के कारण स्थिर प्रसार द्वारा उत्पन्न छवियों के अपलोड पर प्रतिबंध लगा दिया है।

यू.एस. हाउस ऑफ़ रिप्रेजेंटेटिव्स रेप. अन्ना जी. एशू ने हाल ही में एक पत्र प्रकाशित किया जिसमें इन "असुरक्षित मॉडलों" को संबोधित करने के लिए यू.एस. राष्ट्रीय सुरक्षा सलाहकार और विज्ञान और प्रौद्योगिकी नीति के कार्यालय से आग्रह किया गया था।

रिलीज की घोषणा में, स्थिरता एआई ने "वाणिज्यिक और गैर-वाणिज्यिक उपयोग की अनुमति देने वाले ढीले लाइसेंस" की घोषणा की, जो वास्तव में उपयोगकर्ताओं के साथ एक समझौता है। यह उम्मीद करता है कि उपयोगकर्ता अपने व्यवहार को स्व-विनियमित करें और "सही काम" करें और नियमों का पालन नहीं करने वाले उपयोगकर्ताओं को दंडित करने में इसका बहुत कम प्रभाव पड़ता है।

कानूनी मुद्दों के अलावा, आर्टिफिशियल इंटेलिजेंस द्वारा उत्पन्न कार्य भी संदेह के अधीन हैं।

वैसे भी, यू.एस. कॉपीराइट कार्यालय इन छवियों को "कला नहीं" मानता है। फरवरी में, कॉपीराइट कार्यालय के समीक्षा बोर्ड ने कृत्रिम बुद्धिमत्ता द्वारा उत्पन्न छवियों के दावों को खारिज कर दिया।

समीक्षा बोर्ड ने जोर देकर कहा कि "मानव लेखकत्व कॉपीराइट सुरक्षा के लिए एक शर्त है" और इसके लिए "मानव विचार और रचनात्मक अभिव्यक्ति के बीच संबंध" की आवश्यकता होती है। अमेरिकी संघीय अदालत ने भी हाल के एक फैसले में कहा था कि कृत्रिम बुद्धिमत्ता को पेटेंट के "आविष्कारक" के रूप में नहीं गिना जा सकता है।

आर्टिफिशियल इंटेलिजेंस कला बहुत ही आकर्षक है।यद्यपि इसे कानूनी रूप से मान्यता प्राप्त नहीं है, यह बाजार द्वारा मान्यता प्राप्त है। 2018 में, क्रिस्टी ने 435,000 डॉलर में एक आर्टिफिशियल इंटेलिजेंस पेंटिंग बेची। इसके अलावा, अधिकांश उपभोक्ता एआई पेंटिंग्स और मानव चित्रकारों के कार्यों के बीच अंतर नहीं बता सकते हैं।

सबसे विवादास्पद इस साल सितंबर में कोलोराडो स्टेट फेयर की कला प्रतियोगिता है। आर्टिफिशियल इंटेलिजेंस वर्क "थिएटर डी'ओपेरा स्पैटियल" ने पहला पुरस्कार जीता। इसका निर्माण मिडजर्नी द्वारा किया गया था और ऑपरेटर जेसन एलन ने कहा "आर्ट इज डेड, एआई जीतता है, इंसान हारता है"।

वास्तव में, सामान्यीकरण करने की कोई आवश्यकता नहीं है।कृत्रिम बुद्धिमत्ता के निर्माण में, अत्यधिक आशावादी या अतिशयोक्तिपूर्ण निराशावादी होने की आवश्यकता नहीं है।

कृत्रिम बुद्धिमत्ता की कलात्मक रचना मानव के "तर्क" के अनुसार निर्मित होती है। स्वाभाविक रूप से, यह मानव अभिजात वर्ग के रूप में अच्छा नहीं है, लेकिन यह उनके बीच औसत दर्जे को पार करने के लिए पर्याप्त से अधिक है।

#Aifaner के आधिकारिक WeChat सार्वजनिक खाते पर ध्यान देने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr), जितनी जल्दी हो सके आपके लिए अधिक रोमांचक सामग्री प्रस्तुत की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो