क्या होता है जब बोस्टन डायनेमिक्स रोबोट कुत्ते पर चैटजीपीटी स्थापित किया जाता है?

बोस्टन डायनेमिक्स का "बिग येलो डॉग" स्पॉट इंटरनेट सेलिब्रिटी रोबोट का एक मॉडल कहा जा सकता है।

स्पॉट गश्त कर सकता है, ईंटों को हिला सकता है और नृत्य कर सकता है। अपने जन्म के बाद से, स्पॉट ने दुनिया भर के रोबोट प्रेमियों का ध्यान आकर्षित किया है। लचीली चाल, सरल और ईमानदार मुद्रा और क्यूटनेस वाले ऐसे रोबोट कुत्ते को कौन मना कर सकता है।

विकास के वर्षों के बाद, प्यारा होना अब स्पॉट का "मुख्य व्यवसाय" नहीं है। बोस्टन डायनेमिक्स के अनुसार, स्पॉट अब मनुष्यों को विशिष्ट परिदृश्यों में कार्यों को पूरा करने में मदद कर सकता है, जैसे कि ट्रांसोसेनिक जहाजों पर उपकरणों का पता लगाना और जटिल इलाके के सर्वेक्षणों में भाग लेना। या बचाव कार्य और जल्दी।

यदि आप Spot को ऐसा लचीला शरीर और ChatGPT जैसा स्मार्ट दिमाग दे दें तो क्या होगा?

आर्टिफिशियल इंटेलिजेंस विशेषज्ञ सैंटियागो वलदाररामा ने वास्तव में "सबसे मजबूत दिमाग" के साथ ऐसा स्पॉट बनाया है।

मानव-कंप्यूटर इंटरैक्शन को बहुत आसान बनाने के लिए चैटजीपीटी का उपयोग करें

सैंटियागो ने ट्विटर पर स्पॉट के एक संशोधित संस्करण के साथ बातचीत करते हुए उसका एक वीडियो साझा किया, संभवतः पहला बात करने वाला, चैटिंग करने वाला रोबोट कुत्ता।

जैसा कि प्रदर्शन वीडियो में देखा जा सकता है, स्पॉट "सिरी" स्थापित करने जितना आसान नहीं है। जब यह मानवीय प्रश्नों का उत्तर देता है, तो इसका शरीर भी वाक्य की सामग्री और टोन के साथ झूलेगा, जो वॉल-ई की तरह दिखता है। विज्ञान कथा वास्तविकता में आ गई है।

जब आप "हां या ना" के कुछ सरल प्रश्न पूछते हैं, तो यह आपको आवाज के बजाय "सिर हिलाना" और "सिर हिलाना" जैसी शारीरिक भाषा से भी जवाब देगा। इससे पता चलता है कि स्पॉट एक निर्मित होने के समान सरल होने से बहुत दूर है -स्मार्ट स्पीकर में।

ChatGPT को एक्सेस करने के बाद, Spot में सबसे बड़ा बदलाव यह है कि यह इंसानों की बोली को समझ सकता है और प्राकृतिक भाषा में उपयोगकर्ताओं के साथ संवाद कर सकता है।

सैंटियागो ने एक दृश्य दिखाया। उसने स्पॉट को बताया कि कमरे में बहुत भीड़ थी क्योंकि वह बहुत रास्ते में था। उसे थोड़ा पीछे जाने दो। जैसे ही आवाज गिरी, स्पॉट ने सैंटियागो का मतलब समझा और कुछ कदम पीछे हट गया।

इसके बारे में कैसा है, क्या यह साइंस फिक्शन फिल्मों में काम करने के लिए रोबोट को बुलाने जैसा है?

अतीत में, ऑपरेटिंग स्पॉट को जटिल कमांड इनपुट करने के लिए एक बड़े ड्रोन-जैसे रिमोट कंट्रोल या एक कंप्यूटर की आवश्यकता होती थी, लेकिन अब चैटजीपीटी के जुड़ने से स्पॉट को एक शक्तिशाली प्राकृतिक भाषा समझने की क्षमता मिल गई है, और यह आपके मुंह को हिलाकर रोबोट के साथ बातचीत कर सकता है।

इस प्रक्रिया में, चैटजीपीटी मनुष्यों और रोबोटों के बीच एक अनुवादक के रूप में कार्य करता है, मनुष्यों द्वारा "मानव शब्द" इनपुट को उन निर्देशों में बदल देता है जो मशीनें समझ सकती हैं, और फिर रोबोट की प्रतिक्रिया को वास्तविक व्यवहार या "मानव शब्दों" में व्यक्त करती हैं।

सैंटियागो ने पेश किया कि वे स्पॉट फाइल को चैटजीपीटी में इनपुट करते हैं, और फाइल की संरचना और फाइल को पढ़ने के तरीके के बारे में बताते हैं, इस प्रकार स्पॉट के साथ वॉयस डायलॉग और ऑपरेशन को साकार करते हैं।

ऑपरेटर और स्पॉट के बीच बातचीत को बहुत सरल कर दिया गया है। लोग इसे सीधे पूछ सकते हैं: "आपके पास कितनी शक्ति है?" फिर स्पॉट एक आवाज में जवाब देगा, जो Google टेक्स्ट-टू-स्पीच तकनीक का उपयोग करता है। चैट जीपीटी के जवाब के माध्यम से बोलें स्पॉट का "मुंह"।

स्पॉट (या बिल्ट-इन चैटजीपीटी) वास्तविक स्थिति के अनुसार प्रश्नों का उत्तर देगा, उदाहरण के लिए, जब आप उससे पूछते हैं कि आगे कौन सा कार्य पूरा करना है, तो वह निर्धारित कार्य सूची के अनुसार उत्तर देगा, जो बड़े पैमाने पर तथ्यों को गढ़ने वाली चैटजीपीटी स्थितियों से बचता है।

जब ऑपरेटर 90 डिग्री मुड़ने और 1 मीटर आगे बढ़ने जैसे स्पॉट कमांड देता है, तो स्पॉट आंतरिक सेंसर और पोजिशनिंग सिस्टम को इन कमांड का सटीक जवाब देने के लिए लिंक करेगा, और यह नहीं कहेगा कि यह नियंत्रण से बाहर है क्योंकि "मस्तिष्क बहुत अधिक है विकसित"।

दिलचस्प बात यह है कि जब आप उससे सवाल पूछते हैं "आप कौन हैं?", तो वह जवाब देगा "मैं OpenAI हूं।", रोबोट डॉग स्पॉट नहीं।

सैंटियागो की कंपनी, लेवाटास, एक एआई कंपनी है जो बोस्टन डायनेमिक्स के साथ सहयोग करती है ताकि कंपनियों को यह पता लगाने में मदद मिल सके कि व्यावहारिक समस्याओं को हल करने के लिए रोबोट का उपयोग कैसे किया जाए।

सैंटियागो का मानना ​​है कि चैटजीपीटी ऑन स्पॉट स्थापित करने का सबसे बड़ा व्यावहारिक महत्व जटिल डेटा को बदलना है जिसे केवल तकनीशियन ही एक प्राकृतिक भाषा में संभाल सकते हैं जिसे कोई भी समझ और समझ सकता है।

हर बार जब कोई रोबोट कोई कार्य करता है, तो उसे निर्देशों का एक लंबा सेट इनपुट करना पड़ता है, काम पूरा करने के बाद, यह बड़ी मात्रा में डेटा भी उत्पन्न करेगा, और केवल सबसे अधिक पेशेवर तकनीशियन ही इन डेटा से समस्याओं का विश्लेषण कर सकते हैं।

लेकिन अब चैटजीपीटी के जरिए दो आसान वाक्यों से इसे पूरा किया जा सकता है।

जब रोबोट का ऑपरेटिंग थ्रेशोल्ड कम हो जाता है, तो रोबोट का उपयोग परिदृश्य समृद्ध हो जाएगा।

बड़े एआई मॉडल की क्षमता को कम करके नहीं आंका जा सकता है

स्पॉट का "सबसे शक्तिशाली मस्तिष्क" संस्करण रातोंरात हासिल नहीं किया गया है। एक महीने पहले, सैंटियागो ने एक स्पॉट पेश करने वाला एक वीडियो जारी किया जो "मानव भाषण को समझ सकता है", जो ओपनएआई के एक अन्य महत्वपूर्ण एआई मॉडल व्हिस्पर का उपयोग करता है।

इस "प्रथम संस्करण" स्मार्ट स्पॉट में, सैंटियागो सिद्धांतों को अधिक विस्तार से समझाता है:

कानाफूसी वास्तविक समय में कुशलता से भाषण को पाठ में परिवर्तित कर सकती है, और रूपांतरण की सटीकता और गति बहुत प्रभावशाली है। व्हिस्पर को स्पॉट के एसडीके के साथ जोड़कर, यह मानव भाषण से महत्वपूर्ण शब्द निकाल सकता है, और फिर एसडीके के माध्यम से स्पॉट को आदेश भेज सकता है।

आपको केवल एक शब्द कहने की आवश्यकता है, आप चार्जिंग डॉक को स्पॉट छोड़ सकते हैं, यह जांचने के लिए उठ सकते हैं कि क्या मीटर में कोई समस्या है, जो मनुष्यों की परिचालन लागत को बहुत कम कर देता है।

सैंटियागो का अभ्यास एक अच्छे परिप्रेक्ष्य से व्यापक रूप से चर्चा किए गए प्रश्न का उत्तर देता है: चैटजीपीटी जैसे बड़े भाषा मॉडल का क्या महत्व है?

शुरुआत में, लोगों ने सोचा कि चैटजीपीटी विशुद्ध रूप से टेक्स्ट-जनरेटिंग एआई था। इसमें अपेक्षाकृत मजबूत प्राकृतिक भाषा समझने की क्षमता थी, और यह लेख और रिपोर्ट लिख सकता था। हालांकि यह इतना विश्वसनीय नहीं था, फिर भी यह आश्चर्यजनक था।

बाद में, लोगों ने पाया कि जब तक चैटजीपीटी को उचित निर्देश दिए जाते हैं, यह प्राकृतिक भाषा पर आधारित कंप्यूटर की तरह ही मानव के बजाय स्वचालित रूप से प्रोग्रामिंग या वर्ड प्रोसेसिंग को पूरा कर सकता है।

OpenAI द्वारा प्लग-इन फ़ंक्शन जारी करने के बाद, ChatGPT को कई इंटरनेट अनुप्रयोगों के साथ जोड़ा जा सकता है, संवादों के साथ कई क्रॉस-प्लेटफ़ॉर्म संचालन को एकीकृत किया जा सकता है, और इंटरनेट का एक नया प्रवेश द्वार बन सकता है।

Microsoft द्वारा जारी Copilot ने मानव-कंप्यूटर इंटरैक्शन के अगले चरण की लोगों की कल्पना को प्रेरित किया है: ग्राफिकल ऑपरेशन इंटरफ़ेस हमेशा एक उचित प्रतिमान नहीं होता है, और हम जिन कई ऑपरेशनों के आदी हैं, उन्हें संवाद द्वारा प्रतिस्थापित किया जा सकता है।

जब हम वापस स्पॉट पर जाते हैं, तो हम बड़े भाषा मॉडल के महत्व को स्पष्ट रूप से देख सकते हैं: मानव-कंप्यूटर इंटरैक्शन को आसान बनाने और रोबोट को अधिक उन्नत बुद्धि देने के लिए।

चाहे ChatGPT का उपयोग एक नए इंटरनेट पोर्टल के रूप में किया जाए या सीखने, समस्याओं का विश्लेषण करने और उच्च-परिशुद्धता संचालन करने की क्षमता वाले औद्योगिक रोबोटों को नियंत्रित करने के लिए रिमोट कंट्रोल के रूप में किया जाए, यह अनिवार्य रूप से जटिल निर्देश सेट को प्राकृतिक भाषा में बदल देता है, जिससे परिचालन लागत कम हो जाती है।

यह सशक्तिकरण भविष्य के औद्योगिक रोबोटों को न केवल कमांड निष्पादन के लिए उपकरण बनने में सक्षम करेगा, बल्कि मानव मस्तिष्क की तुलना में बुद्धि का स्तर भी होगा।

जिस तरह ग्राफिकल इंटरफ़ेस जटिल कमांड लाइन को सहज आइकन में बदल देता है, और अब विभिन्न आइकन पर क्लिक करने का जटिल ऑपरेशन एक सरल वाक्य बन गया है, मनुष्य ग्राफिकल यूजर इंटरफेस से एक नए चरण में जा रहे हैं: प्राकृतिक भाषा यूजर इंटरफेस।

इस स्तर पर, बड़े भाषा का मॉडल औद्योगिक रोबोटों की प्रमुख तकनीक बन जाएगा, जो मानव-कंप्यूटर संपर्क को सरल करेगा, उत्पादन क्षमता में सुधार करेगा और मानव समाज के तकनीकी विकास को और बढ़ावा देगा।

और कुछ मामलों में, भाषा समझने में भाषा मॉडल मनुष्यों से बेहतर प्रदर्शन भी कर सकते हैं। प्रिंसटन यूनिवर्सिटी के प्रोफेसर अरविंद नारायणन ने अपने ब्लॉग में एक निजी मामले का जिक्र किया है।

अरविंद नारायणन ने अपनी लगभग चार साल की बेटी के लिए चैटजीपीटी को वॉयस इंटरेक्शन से जोड़ा। सभी बच्चों की तरह, उनकी बेटी भी जिज्ञासा से भरी है और अक्सर चैटजीपीटी के विभिन्न प्रश्न पूछती है।

अपने आश्चर्य के लिए, जब उन्होंने चैटजीपीटी को बताया कि यह एक बच्चे से बात कर रहा था, तो चैटजीपीटी सहानुभूति व्यक्त करने में बहुत अच्छा हो गया।

बेटी: "जब लाइट बंद हो जाती है तो क्या होता है?"

चैटजीपीटी: "लाइट बंद होने से, यह बहुत अंधेरा होगा और थोड़ा डरावना हो सकता है। लेकिन चिंता न करें! ऐसी कई चीजें हैं जो आपको अंधेरे में सुरक्षित और आरामदायक महसूस करने में मदद कर सकती हैं।"

"ब्लूमबर्ग" स्तंभकार पार्मी ओल्सन ने बताया कि माइक्रोसॉफ्ट और Google सर्च इंजन पर बड़े मॉडल का उपयोग करने में व्यस्त हैं, लेकिन वे यह नहीं देखते हैं कि चैटजीपीटी एक तथ्य प्रदाता की तुलना में एक भावनात्मक साथी के रूप में अधिक उपयुक्त है।

ओल्सन ने चैटजीपीटी को एक भावनात्मक बुद्धिमत्ता परीक्षण लेने के लिए भी कहा, जो खुद और उनके सहयोगियों दोनों से बेहतर निकला। सिर्फ इसलिए कि चैटजीपीटी को इंटरनेट पर पाठ्य सामग्री के साथ प्रशिक्षित किया जाता है, डेटा में बहुत सारी गलत जानकारी होगी, लेकिन यह समानुभूति की नकल करने में भी बेहतर बनाता है।

इन मामलों ने पूरी तरह से प्रदर्शित किया है कि बड़े भाषा मॉडल की प्राकृतिक भाषा को समझने की क्षमता वास्तव में महान अनुप्रयोग क्षमता है।

इतनी शक्तिशाली समझने की क्षमता के साथ, हम मानव-कंप्यूटर इंटरैक्शन में एक और नवाचार को वास्तव में महसूस करने के लिए बड़े भाषा मॉडल का उपयोग कर सकते हैं। साथ ही, बड़े भाषा मॉडल के उद्भव ने रोबोट के विकास के लिए नई संभावनाएं लाई हैं।

बड़े भाषा मॉडल रोबोट को निर्देशों को बेहतर ढंग से समझने और संसाधित करने और नए कार्यों और परिवेशों को तेज़ी से सीखने और अनुकूलित करने की अनुमति देते हैं।

"द न्यू यॉर्कर" ने कवर लेख "डार्क फैक्ट्री" (डार्क फैक्ट्री) में उल्लेख किया है कि वर्तमान में औद्योगिक रोबोटों में एक आम कठिनाई मानव हाथ की तरह "एंड इफेक्टर" डिजाइन करना है, ताकि रोबोट अलग-अलग ग्रैस्प ऑब्जेक्ट्स का उपयोग कर सके। बड़ी ताकत के साथ विभिन्न आकार और आकार।

यदि यह तकनीकी समस्या हल हो जाती है, तो रोबोट अधिक नाजुक काम कर सकते हैं, और कई क्षेत्रों में स्वचालन की डिग्री में काफी सुधार होगा। उदाहरण के लिए, विभिन्न फलों को चुनना स्वचालित हो सकता है, और फॉक्सकॉन की असेंबली लाइन को अब इतने अधिक श्रमिकों की आवश्यकता नहीं है।

भविष्य के औद्योगिक रोबोट न केवल कमांड निष्पादन के लिए एक उपकरण होना चाहिए, बल्कि सीखने, समस्याओं का विश्लेषण करने और उच्च-परिशुद्धता संचालन करने की क्षमता के साथ मानव मस्तिष्क की तुलना में एक खुफिया स्तर भी होना चाहिए।

औद्योगिक उत्पादन लाइन पर, "पेशी" औद्योगिक रोबोट अधिक लचीले और कुशल हैं, जो विभिन्न उत्पादन समस्याओं से बेहतर तरीके से निपटने और उत्पादन क्षमता और गुणवत्ता में सुधार करने में सक्षम हैं। उदाहरण के लिए, ऑटोमोबाइल निर्माण के क्षेत्र में, बड़े भाषा मॉडल रोबोट को मजबूत बुद्धि और संज्ञानात्मक क्षमता प्रदान कर सकते हैं, जिससे वे विविध कार्यों को बेहतर ढंग से पूरा कर सकते हैं।

मेडिकल रोबोटिक्स के क्षेत्र में, रोबोट बेहतर चिकित्सा सेवाएं प्रदान करने के लिए प्राकृतिक भाषा प्रसंस्करण प्रौद्योगिकी के माध्यम से डॉक्टरों और रोगियों के साथ संवाद कर सकते हैं।

बड़े भाषा मॉडल ने रोबोट उद्योग के लिए एक शक्तिशाली मस्तिष्क लाया है और रोबोटों के लिए एक अधिक सामान्यीकृत अनुप्रयोग परिदृश्य बनाया है, जो कि चौथी औद्योगिक क्रांति का तकनीकी कोर बनने की संभावना है। "आवाज संस्करण" स्पॉट इस तकनीकी परिवर्तन की पहली चिंगारी है।

बकवास काटो।

#Aifaner के आधिकारिक WeChat सार्वजनिक खाते पर ध्यान देने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr), जितनी जल्दी हो सके आपके लिए अधिक रोमांचक सामग्री प्रस्तुत की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो