Google ने Pixel 5 पर पोर्ट्रेट लाइट प्रभाव कैसे बनाया?

हमने पिछले दो वर्षों में कई बार कम्प्यूटेशनल फोटोग्राफी शब्द सुना है।

जब कम्प्यूटेशनल फोटोग्राफी की बात आती है, तो लोग स्वाभाविक रूप से मोबाइल फोन की Google की Pxiel श्रृंखला के बारे में सोचते हैं। इस श्रृंखला को कम्प्यूटेशनल फोटोग्राफी के लिए एक मिसाल बनाने के लिए कहा जा सकता है। यह कम्प्यूटेशनल फोटोग्राफी की शक्ति और आकर्षण को दर्शाता है।

यह ठीक है क्योंकि कम्प्यूटेशनल फोटोग्राफी की शक्ति इतनी अद्भुत है कि मोबाइल फोन निर्माता जो पिछले दो वर्षों में धीरे-धीरे याद दिलाते हैं, आखिरकार इसमें डूब गए। इस समय, Google पहले से ही अधिक फूल खेल रहा है।

"पोर्ट्रेट लाइट इफ़ेक्ट" मूल रूप से Google की इस वर्ष अक्टूबर में Pixel 4a और Pixel 5 की रिलीज़ के साथ लॉन्च किया गया था, जो कि Pixel की इस पीढ़ी की विशिष्ट विशेषता है। लेकिन कुछ दिन पहले, Google ने कैमरा और फोटो एल्बम एप्लिकेशन के लिए एक अपडेट किया, जो पिक्सेल 2 के बाद उपयोगकर्ताओं को इस फ़ंक्शन को दर्शाता है।

चित्र फोटोग्राफरों द्वारा उपयोग की जाने वाली फोटोग्राफी लाइट्स से प्रेरित होकर, "पोर्ट्रेट लाइट इफ़ेक्ट" प्रकाश स्रोत का स्थान बदल सकता है और मॉडल बना सकता है, और फिर फोटो दृश्य में नए प्रकाश स्रोत को जोड़ सकता है। यह प्रारंभिक प्रकाश की दिशा और तीव्रता की पहचान भी कर सकता है, और फिर स्वचालित रूप से प्रकाश की स्थिति को पूरक कर सकता है।

इस तरह के एक शक्तिशाली कम्प्यूटेशनल फोटोग्राफी फ़ंक्शन तंत्रिका नेटवर्क की मशीन सीखने की क्षमताओं से स्वाभाविक रूप से अविभाज्य है। मोबाइल फोन पोर्ट्रेट लाइट इफेक्ट मोड द्वारा ली गई तस्वीरों के बाद प्रशिक्षण के लिए एक डेटाबेस के रूप में उपयोग किया जाता है, "पोर्ट्रेट लाइट प्रभाव" की बाद की क्षमताओं ने दो नए एल्गोरिदम:

  • स्वचालित रूप से सिंथेटिक प्रकाश स्रोत जोड़ें: किसी दिए गए पोर्ट्रेट फोटो के लिए, एल्गोरिथ्म बाहरी प्रकाश स्रोत को संश्लेषित और जोड़ देगा, और फोटोग्राफर का प्रकाश और प्रकाश वास्तविकता में सुसंगत होगा।
  • रचना के बाद फिर से प्रकाश व्यवस्था: एक दिए गए प्रकाश दिशा और चित्र फोटो के लिए, सबसे प्राकृतिक तरीके से समग्र प्रकाश जोड़ें।

मैं पहले समस्या के बारे में बात करता हूं, जो कि प्रकाश स्रोत की स्थिति निर्धारित करना और इसे जोड़ना है। वास्तव में, फोटोग्राफर्स आमतौर पर विषय के चेहरे पर पड़ने वाले प्रकाश की तीव्रता और स्थिति को देखकर, और फिर यह निर्धारित करते हैं कि इसे कैसे प्रकाश में लाया जाए। लेकिन एआई के लिए, मौजूदा प्रकाश स्रोत की दिशा और स्थिति को कैसे निर्धारित किया जाए, यह आसान नहीं है।

इस उद्देश्य के लिए, Google ने एक नई मशीन प्रशिक्षण मॉडल-सर्वदिशात्मक प्रकाश आकृति को अपनाया। यह नया प्रकाश गणना मॉडल सभी रोशनी से दिशा, सापेक्ष तीव्रता और प्रकाश स्रोत के रंग का अनुमान लगाने के लिए एक प्रकाश डिटेक्टर के रूप में मानव चेहरे का उपयोग कर सकता है, और यह एक और चेहरे के एल्गोरिथ्म के माध्यम से फोटो में सिर की मुद्रा का अनुमान भी लगा सकता है।

यद्यपि यह बहुत लंबा लगता है, वास्तविक प्रशिक्षण मॉडल का प्रतिपादन प्रभाव काफी प्यारा है। यह मानव सिर को तीन गोल चांदी की गोलाकार वस्तुओं के रूप में मानेगा, और शीर्ष गेंद "बनावट" सबसे कठिन है, जिसका उपयोग अनुकरण करने के लिए किया जाता है। प्रकाश का विसरित प्रतिबिंब। बीच में गेंद भी मैट है, जिसका उपयोग अधिक केंद्रित प्रकाश स्रोत को अनुकरण करने के लिए किया जाता है। नीचे की गेंद दर्पण "सामग्री" है, जिसका उपयोग एक चिकनी दर्पण प्रतिबिंब को अनुकरण करने के लिए किया जाता है।

इसके अलावा, प्रत्येक क्षेत्र अपनी विशेषताओं के अनुसार परिवेश प्रकाश की रंग, तीव्रता और दिशा को प्रतिबिंबित कर सकता है।

इस तरह, Google को पोस्ट-कम्पोजिट प्रकाश स्रोत की दिशा मिल सकती है। उदाहरण के लिए, क्लासिक पोर्ट्रेट लाइट स्रोत दृष्टि की रेखा से 30 ° ऊपर और कैमरा अक्ष के साथ 30 ° और 60 ° के बीच स्थित होता है। Google भी इस क्लासिक नियम का पालन करता है।

चित्र में प्रकाश स्रोत जोड़ने की दिशा सीखने के बाद, अगली बात यह है कि अतिरिक्त प्रकाश स्रोत को और अधिक प्राकृतिक कैसे बनाया जाए।

पिछला प्रश्न "दुगु नाइन तलवार" जैसा है। इसे सीखने के बाद, मैं कुछ निश्चित प्रश्न करूंगा। बाद की समस्या को हल करने के लिए, विभिन्न वास्तविक स्थितियों को एकीकृत करने के लिए "ड्यूग नाइन तलवार" को यथासंभव वास्तविक मुकाबला बनाना आवश्यक है, और फिर दुनिया की मार्शल आर्ट को क्रैक करना सीखें।

इस समस्या को हल करने के लिए, Google ने मूल तस्वीर में जोड़े जाने वाले स्व-दिशात्मक प्रकाश स्रोत को निर्धारित करने के लिए एक और नया प्रशिक्षण मॉडल विकसित किया है। सामान्य परिस्थितियों में, इस मॉडल को मौजूदा डेटा के साथ प्रशिक्षित करना असंभव है, क्योंकि यह लगभग अनंत प्रकाश जोखिम का सामना नहीं कर सकता है, और इसे मानव चेहरे से पूरी तरह से मेल खाना चाहिए।

इस कारण से, Google ने प्रशिक्षण मशीन लर्निंग के लिए एक बहुत ही विशेष उपकरण बनाया है-एक गोलाकार "केज"। इस डिवाइस में अलग-अलग व्यूइंग एंगल और 331 व्यक्तिगत रूप से प्रोग्राम करने योग्य एलईडी लाइट सोर्स के साथ 64 कैमरे हैं।

यदि आप डॉल्बी सिनेमा के लिए गए हैं, तो डॉल्बी सिनेमा के प्री-स्क्रीनिंग शो में एक लिंक है जहां वास्तविकता में लगभग अनंत दिशा का अनुकरण करने के लिए ध्वनि एक गोलार्द्ध के गुंबद में चलती है। Google डिवाइस वास्तव में एक समान सिद्धांत है।

रोशनी की दिशा और तीव्रता को लगातार बदलते रहने और जटिल प्रकाश स्रोतों का अनुकरण करने से, आप मानव बाल, त्वचा और कपड़ों से परावर्तित प्रकाश का डेटा प्राप्त कर सकते हैं, ताकि रोशनी को जटिल प्रकाश स्रोतों के तहत प्राप्त किया जा सके।

Google ने 70 अलग-अलग लोगों को अलग-अलग चेहरे के आकार, हेयर स्टाइल, त्वचा के रंग, कपड़े, सामान और अन्य विशेषताओं के साथ इस मॉडल को प्रशिक्षित करने के लिए आमंत्रित किया। यह सुनिश्चित करता है कि संश्लेषित प्रकाश स्रोत वास्तविकता से अधिकतम से मेल खाता है।

इसके अलावा, Google सीधे तंत्रिका नेटवर्क मॉडल के माध्यम से अंतिम छवि का उत्पादन नहीं करता है, लेकिन तंत्रिका नेटवर्क मॉडल को कम रिज़ॉल्यूशन उद्धरण छवि को आउटपुट करने की अनुमति देता है।

यहाँ एक व्याख्या है कि एक भागफल छवि क्या है। एक तस्वीर को दो परतों में तोड़ा जा सकता है: नीचे की परत और विस्तार की परत। नीचे की परत में छवि की कम आवृत्ति जानकारी शामिल होती है, जो बड़े पैमाने पर छवि की तीव्रता में परिवर्तन को दर्शाती है; विस्तार परत में छवि की उच्च आवृत्ति जानकारी शामिल होती है, जो छोटे पैमाने पर छवि के विवरण को दर्शाती है। नीचे की परत को विस्तार परत से गुणा किया जाता है, जो स्रोत की छवि है, और विस्तार परत को भागफल छवि भी कहा जा सकता है।

फिर मूल छवि की निचली परत के माध्यम से, नमूना के दौरान इनपुट भागफल छवि के डेटा में अतिरिक्त प्रकाश स्रोतों को जोड़कर, आप एक अंतिम आउटपुट छवि प्राप्त कर सकते हैं।

अंतिम प्रक्रिया इस तरह है। सबसे पहले, एक चित्र दिया, फिर चित्र में चरित्र के सामान्य सतह की गणना करें, फिर चित्र में दृश्य प्रकाश स्रोत की गणना करें, और निम्न रिज़ॉल्यूशन भागफल छवि को आउटपुट करने के लिए अतिरिक्त प्रकाश स्रोत का अनुकरण करने के लिए तंत्रिका नेटवर्क मॉडल का उपयोग करें, और फिर इसका उपयोग करें। डिटेल लेयर को मूल फोटो की निचली परत से गुणा किया जाता है, और अंत में अतिरिक्त प्रकाश स्रोतों के साथ एक पोर्ट्रेट फोटो प्राप्त की जाती है।

Google ने पाइपलाइन पर बहुत सारे अनुकूलन किए हैं ताकि मोबाइल फोन पर नकली प्रकाश प्रभाव को वास्तविक समय में बातचीत की जा सके, जबकि पूरे मॉडल का आकार केवल 10MB है।

Pixel 5 के पोर्ट्रेट लाइटिंग प्रभाव को Google की कम्प्यूटेशनल फोटोग्राफी में एक विशिष्ट मामला कहा जा सकता है। तंत्रिका नेटवर्क मॉडल के निरंतर प्रशिक्षण के माध्यम से, मोबाइल फोन वास्तविक पोर्ट्रेट की रोशनी का अनुकरण कर सकता है। कम्प्यूटेशनल फोटोग्राफी के एक नए अनुप्रयोग परिदृश्य को पूरा किया।

कुछ लोग कहते हैं कि फ़ोटोग्राफ़ी एक कला है, और कम्प्यूटेशनल फ़ोटोग्राफ़ी मूल रूप से फ़ोटोग्राफ़ी का अपमान है। लेकिन जब से 1839 में फ्रेंचमैन डागुएरे ने पहला व्यावहारिक कैमरा बनाया, कैमरा 100 से अधिक वर्षों से उपयोग में है। आला से लेकर आम जनता तक, मोबाइल फोन के कैमरे के जन्म तक, हर किसी के पास तस्वीरें लेने का लगभग समान अवसर है। और लोगों की आंतरिक अभिव्यक्तियों ने भी धीरे-धीरे फोटोग्राफी की कला को समृद्ध किया है।

यह सही, कम्प्यूटेशनल फोटोग्राफी "फोटोग्राफी" और "कंप्यूटिंग छाया" के रूप में एक ही समय में है, लेकिन एल्गोरिदम लंबे समय से मोबाइल फोटोग्राफी का एक अविभाज्य हिस्सा रहा है। पीछा अभी भी प्रभाव है जो नकली वास्तविकता में प्राप्त किया जा सकता है। आखिरकार, कोई भी नहीं होगा। "मैजिक चेंज" को कम्प्यूटेशनल फोटोग्राफी कहा जाता है।

जब Apple और Google कम्प्यूटेशनल फोटोग्राफी में और आगे बढ़ गए, तो हमने पाया कि एल्गोरिदम वास्तव में हार्डवेयर की तुलना में एक मजबूत अवरोधक है।

# Aifaner के आधिकारिक WeChat खाते का अनुसरण करने का स्वागत करें: Aifaner (WeChat ID: ifanr), जितनी जल्दी हो सके आपको अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियां देखें · सिना वीबो