ओपनएआई रोबोट घटनास्थल पर फट गया! चैटजीपीटी के पास अंततः एक निकाय है, वह बोल सकता है, पढ़ सकता है और घर का काम कर सकता है

GPT-4 द्वारा दर्शाए गए बड़े मॉडलों में मस्तिष्क का निर्माण किया गया है, और अगला कदम एक रोबोट शरीर की आवश्यकता है जो इस मस्तिष्क को ले जा सके।

कल देर रात, ह्यूमनॉइड रोबोट स्टार कंपनी फिगर एआई ने चौंकाने वाला एक वीडियो जारी किया जिसमें ओपनएआई के शक्तिशाली मॉडल के समर्थन से उनके रोबोट फिगर 01 द्वारा की गई बातचीत की एक श्रृंखला दिखाई गई।

वीडियो में रोबोट लचीली संचालन प्रतिक्रियाएँ दिखाता है, और मनुष्यों के साथ संचार करने में इसका प्रवाह वास्तविक लोगों के लगभग तुलनीय है।

चित्रा एआई को ओपनएआई, माइक्रोसॉफ्ट, एनवीआईडीआईए और अन्य कंपनियों से निवेश प्राप्त होने के आधे महीने से भी कम समय हुआ है। इसने मुझे यह देखने की भी अनुमति दी कि OpenAI का सबसे शक्तिशाली मल्टी-मॉडल बड़ा मॉडल बॉडी के साथ कैसा दिखेगा।

चित्र 01, वह ह्यूमनॉइड रोबोट जो आपको सबसे अच्छी तरह समझता है?

ओपनएआई के मल्टी-मोडल बड़े मॉडल के शक्तिशाली समर्थन के लिए धन्यवाद, चित्रा 01 अब टेबल पर ऑब्जेक्ट पहचान में एक विशेषज्ञ है। सेब, ड्रेनर, कप और प्लेटें सभी इसके लिए आसान हैं!

जब आपको भूख लगती है और आप चाहते हैं कि वह पूरा कौर खा जाए, तो यह तुरंत आपके विचारों को समझ जाएगा और आपको आसानी से एक सेब थमा देगा।

इसके अलावा, यह आपके द्वारा फेंके गए कूड़े को भी उठा सकता है और आपको समझा सकता है कि उसने आपको सेब क्यों दिया। बड़े मॉडलों की मदद से, चित्र 01 मेज पर एकमात्र भोजन – सेब को समझ सकता है।

मानव के आदेश पर, चित्र 01 घर का काम भी कर सकता है और बर्तन भी हटा सकता है। यह रोबोट पारिवारिक जीवन में सबसे अच्छा साथी है।

इस हैरतअंगेज वीडियो को देखने के बाद नेटिजन्स की तरह-तरह की प्रतिक्रियाएं आईं.

नेटिज़न्स चित्र 01 पर कार्य सौंपने के लिए इंतजार नहीं कर सकते। कार्य सूची में रोबोट पूर्ववर्तियों के बारे में फिल्में कैसे मिश्रित हो गईं।

क्या प्रतियोगी इसे देखकर डर गए हैं, मन ही मन चिंतित हैं, गुप्त रूप से एक बड़ी तकनीकी प्रतियोगिता के लिए तैयारी कर रहे हैं?

अधिक उत्साहित नेटिज़न्स ने कहा कि एजीआई की सुबह अब बहुत करीब लगती है।

बेशक, हमेशा कुछ आलोचनात्मक आवाज़ें होती हैं। कुछ नेटीजनों ने शिकायत की, यह रोबोट हकला क्यों रहा है?

नेटिज़न्स ने भी चुटकुले बनाने का मौका नहीं छोड़ा।

फिगर एआई के प्रमुख ब्रेट एडॉक अकेले रहने को तैयार नहीं थे और एक अद्भुत व्याख्या देने के लिए एक्स पर कूद पड़े।

वीडियो एंड-टू-एंड न्यूरल नेटवर्क के अनुप्रयोग को प्रदर्शित करता है। इस प्रक्रिया के दौरान किसी रिमोट कंट्रोल (टेलीओप) का उपयोग नहीं किया जाता है। वीडियो वास्तविक गति (1.0x गति) पर शूट किया गया है और निरंतर है।

जैसा कि आप वीडियो में देख सकते हैं, रोबोट की गति में काफी सुधार हुआ है और हम धीरे-धीरे इंसानों के समान गति तक पहुंच रहे हैं।

किसी रिमोट कंट्रोल की आवश्यकता नहीं, स्व-सिखाया गया

तो चित्र 01 यह कैसे करता है?

फिगर एआई टीम लीडर कोरी लिंच ने इसे एक्स पर समझाया।

विशेष रूप से, वीडियो में दिखाए गए सभी व्यवहार सीखे गए (दूर से नियंत्रित नहीं) और यथार्थवादी गति (1.0x गति) पर निष्पादित किए गए।

फिगर एआई रोबोट के कैमरे द्वारा कैप्चर की गई छवियों और ऑनबोर्ड माइक्रोफोन के माध्यम से रिकॉर्ड किए गए वॉयस-ट्रांसक्राइब्ड टेक्स्ट को ओपनएआई द्वारा प्रशिक्षित मल्टीमॉडल मॉडल में फीड करता है जो छवि और टेक्स्ट जानकारी दोनों को समझ सकता है।

मॉडल मौखिक प्रतिक्रिया उत्पन्न करने और टेक्स्ट-टू-स्पीच के माध्यम से मानव से बात करने के लिए पिछली छवियों सहित संपूर्ण वार्तालाप इतिहास को संसाधित करता है। वही मॉडल यह तय करने के लिए भी जिम्मेदार है कि किसी दिए गए कमांड के जवाब में कौन सा सीखा हुआ बंद-लूप व्यवहार निष्पादित करना है। यह विशिष्ट तंत्रिका नेटवर्क भार को GPU पर लोड करता है और संबंधित नीति को निष्पादित करता है।

चित्र 01 को एक बड़े पूर्व-प्रशिक्षित मल्टी-मोडल मॉडल से जोड़ने से इसमें कई दिलचस्प नई सुविधाएँ आती हैं।

अब, चित्र 01 + OpenAI यह कर सकता है:

इसके परिवेश का विवरण दीजिए।
निर्णय लेते समय सामान्य ज्ञान तर्क का प्रयोग करें। उदाहरण के लिए, "मेज पर मौजूद वस्तुएं, जैसे कि प्लेट और कप, संभवतः अगले सुखाने वाले रैक पर रखी जाएंगी।"
अस्पष्ट उच्च-स्तरीय निर्देशों, जैसे "मुझे भूख लगी है" को स्थितिजन्य रूप से उपयुक्त व्यवहार में बदलें, जैसे "उस व्यक्ति को एक सेब दें।"
स्पष्ट अंग्रेजी में बताएं कि यह एक विशिष्ट कार्य क्यों करता है। उदाहरण के लिए, "यह एकमात्र खाद्य वस्तु है जिसे मैं टेबल से पेश कर सकता हूं।"

जब चित्र 01 में सीखने के माध्यम से हासिल किए गए उत्कृष्ट व्यावहारिक कौशल की बात आती है, तो इसके पीछे वास्तव में जटिल और सूक्ष्म सिद्धांतों की एक श्रृंखला होती है।

सभी व्यवहार तंत्रिका नेटवर्क की विज़न-टू-मोटर कनवर्टर रणनीति द्वारा संचालित होते हैं, जो सीधे छवि पिक्सेल को क्रियाओं में मैप करता है। ये नेटवर्क प्रति सेकंड 10 फ्रेम की दर से रोबोट में निर्मित छवियां प्राप्त करते हैं और प्रति सेकंड 200 बार 200 24-डिग्री-स्वतंत्रता गति (कलाई मुद्रा और उंगली संयुक्त कोण सहित) उत्पन्न करते हैं।

ये गतिविधियाँ उच्च गति वाले फुल-बॉडी नियंत्रकों द्वारा ट्रैकिंग के लिए उच्च गति वाले "सेट पॉइंट" के रूप में काम करती हैं, जिससे गतिविधियों का सटीक निष्पादन सुनिश्चित होता है।

यह डिज़ाइन चिंताओं का प्रभावी पृथक्करण प्राप्त करता है:

इंटरनेट पूर्व-प्रशिक्षित मॉडल उच्च-स्तरीय योजना तैयार करने के लिए छवियों और पाठ पर सामान्य ज्ञान तर्क करते हैं।
सीखी गई विज़ुओ-मोटर रणनीति इस योजना को क्रियान्वित करती है, तेज़, प्रतिक्रियाशील व्यवहार करती है जिसे मैन्युअल रूप से निर्दिष्ट करना मुश्किल होता है, जैसे किसी भी स्थिति में विकृत बैग में हेरफेर करना।
साथ ही, फुल-बॉडी कंट्रोलर आंदोलनों की सुरक्षा और स्थिरता सुनिश्चित करने के लिए जिम्मेदार है, उदाहरण के लिए, रोबोट का संतुलन बनाए रखना।

चित्र 01 द्वारा की गई महान प्रगति के संबंध में, कोरी लिंच ने खेद व्यक्त किया:

बस कुछ साल पहले, मैंने सोचा था कि स्वायत्त रूप से योजना बनाने और सीखे गए व्यवहारों को क्रियान्वित करने में सक्षम ह्यूमनॉइड रोबोट के साथ पूरी बातचीत करना भविष्य में दशकों का होगा। जाहिर है, कई चीजें नाटकीय रूप से बदल गई हैं।

क्या यह ह्यूमनॉइड रोबोट का GPT क्षण हो सकता है?

यह कहना होगा कि चित्र 01 की विकास गति त्वरक पर कदम रखने और सभी तरह से दौड़ने जैसी है।

इस साल जनवरी में, चित्रा 01 ने कॉफी बनाने के कौशल में महारत हासिल की। यह उपलब्धि एंड-टू-एंड न्यूरल नेटवर्क की शुरुआत के कारण थी, जिससे रोबोट को केवल 10 घंटे के प्रशिक्षण के साथ, स्वायत्त रूप से सीखने और त्रुटियों को ठीक करने की अनुमति मिली।

एक महीने बाद, चित्र 01 ने बक्सों को उठाने और उन्हें कन्वेयर बेल्ट तक पहुंचाने का नया कौशल सीख लिया था, भले ही वह मनुष्यों की गति से केवल 16.7% था।

इस प्रक्रिया के दौरान, फिगर एआई के व्यावसायीकरण की गति नहीं रुकी है। इसने ऑटोमोबाइल उत्पादन लाइन में एआई और रोबोटिक्स प्रौद्योगिकी को एकीकृत करने के लिए बीएमडब्ल्यू विनिर्माण कंपनी के साथ एक वाणिज्यिक समझौते पर हस्ताक्षर किए हैं और बीएमडब्ल्यू के कारखाने में बस गए हैं।

फिर, केवल दो सप्ताह पहले, फिगर ने $675 मिलियन सीरीज बी दौर के वित्तपोषण को पूरा करने की घोषणा की, जिससे कंपनी का मूल्यांकन $2.6 बिलियन तक बढ़ गया।

निवेशक सिलिकॉन वैली के लगभग आधे हिस्से को कवर करते हैं – माइक्रोसॉफ्ट, ओपनएआई वेंचर फंड, एनवीआईडीआईए, जेफ बेजोस, पार्कवे वेंचर कैपिटल, इंटेल कैपिटल और एलाइन वेंचर्स, आदि।

उस समय, ओपनएआई और फिगर ने यह भी घोषणा की कि वे संयुक्त रूप से अगली पीढ़ी के ह्यूमनॉइड रोबोट एआई मॉडल का विकास करेंगे। ओपनएआई के मल्टी-मोडल मॉडल को रोबोट धारणा, तर्क और बातचीत तक बढ़ाया जाएगा।

अब, चित्र 01 से, हम भावी जीवन की एक झलक देखने में सक्षम प्रतीत होते हैं।

वास्तव में, बड़े मॉडलों से पहले, रोबोट विशेष उपकरण थे। अब बड़े मॉडलों की सामान्य क्षमताओं के साथ, सामान्य रोबोट दिखाई देने लगे हैं। अब हमें न केवल चैटजीपीटी की जरूरत है, बल्कि वर्कजीपीटी की भी।

ये विकास अप्रत्यक्ष रूप से स्पष्ट रूप से दिखाई देने वाले मार्ग की पुष्टि करते हैं: बड़े एआई मॉडल के जड़ जमाने के बाद, यह अंततः वास्तविक दुनिया में प्रवेश करेगा, और सन्निहित बुद्धिमत्ता सबसे अच्छा मार्ग है।

एनवीडिया के संस्थापक जेन्सेन हुआंग, जो एआई की अग्रिम पंक्ति में सक्रिय रहे हैं, ने एक बार कहा था: "सन्निहित बुद्धिमत्ता कृत्रिम बुद्धिमत्ता की अगली लहर का नेतृत्व करेगी।"

बड़े OpenAI मॉडल को चित्र 01 में एकीकृत करना भी एक जानबूझकर रणनीतिक लेआउट है।

परिपक्व एआई बड़े मॉडल कृत्रिम मस्तिष्क के रूप में कार्य करते हैं, मानव मस्तिष्क के जटिल तंत्रिका नेटवर्क का अनुकरण करते हैं, भाषा समझ, दृश्य पहचान और स्थितिजन्य तर्क जैसे संज्ञानात्मक कार्यों को साकार करते हैं, और रोबोट के लिए उच्च-स्तरीय संज्ञानात्मक और निर्णय लेने की समस्याओं को हल करते हैं।

साथ ही, पर्यावरण के साथ धारणा और बातचीत का एहसास करने के लिए विभिन्न सेंसर, एक्चुएटर्स और कंप्यूटिंग इकाइयों को रोबोट बॉडी में एकीकृत किया जाता है। उदाहरण के लिए, दृष्टि प्रणालियाँ छवियों और वीडियो को कैप्चर कर सकती हैं, और स्पर्श सेंसर वस्तुओं के आकार और बनावट को समझ सकते हैं।

फिगर एआई के संस्थापक ब्रेट एडकॉक ने पहले एक साक्षात्कार में कहा था कि अगले 1-2 वर्षों में, फिगर एआई ऐतिहासिक उत्पादों को विकसित करने पर ध्यान केंद्रित करेगा और अगले एक या दो वर्षों में ह्यूमनॉइड रोबोट के अनुसंधान और विकास परिणामों को जनता के सामने प्रदर्शित करने की उम्मीद करता है। एआई सिस्टम, निम्न-स्तरीय नियंत्रण इत्यादि को कवर करते हुए, और अंत में एक रोबोट उभरता है जो दैनिक जीवन में अपनी प्रतिभा दिखा सकता है।

उन्होंने यह भी खुलासा किया कि लागत के संदर्भ में, एक ह्यूमनॉइड रोबोट में लगभग 1,000 हिस्से होते हैं और इसका वजन लगभग 150 पाउंड (68 किलोग्राम) होता है, जबकि एक इलेक्ट्रिक कार में लगभग 10,000 हिस्से हो सकते हैं और इसका वजन 4,000-5,000 पाउंड (1,800-2,250 किलोग्राम) हो सकता है। इसलिए, लंबी अवधि में, एक्ट्यूएटर्स, मोटर घटकों, सेंसर और कंप्यूटिंग लागत की लागत के आधार पर, ह्यूमनॉइड रोबोट की लागत सस्ती इलेक्ट्रिक कारों की तुलना में कम होने की उम्मीद है।

रोबोट विशेषज्ञ एरिक जैंग ने एक बार अपनी अंतर्दृष्टि सामने रखी थी: "हालांकि कई एआई शोधकर्ताओं का मानना है कि सार्वभौमिक रोबोट को लोकप्रिय होने में दशकों लगेंगे, यह मत भूलिए कि चैटजीपीटी का जन्म लगभग रातोंरात हुआ था।"

आज से एक साल पहले, OpenAI ने दुनिया के सामने बड़े मॉडलों की ताकत साबित करते हुए GPT-4 जारी किया था।

आज, एक साल बाद, हमने GPT-5 का इंतजार नहीं किया, बल्कि हमने चित्र 01 का भी स्वागत किया। क्या यह ह्यूमनॉइड रोबोट के लिए GPT-4 क्षण होगा?

# aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: aifaner (WeChat ID: ifanr)। जितनी जल्दी हो सके आपको अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो