GPT-4 “स्काईनेट” बनने से कितनी दूर है? Microsoft के नवीनतम शोध से पता चला: यह आकार लेना शुरू कर चुका है

कई विज्ञान-फाई फिल्मों में, हम अक्सर एआई सिस्टम या बुद्धिमान रोबोट के पात्रों को देखते हैं जो स्वतंत्र रूप से सोच सकते हैं और कार्यों को स्वचालित रूप से कर सकते हैं।

उदाहरण के लिए, "2001: ए स्पेस ओडिसी" ने अंतरिक्ष यात्रियों के कार्यों का प्रबंधन करने के लिए एक सुपर इंटेलिजेंट कंप्यूटर एचएएल 9000 डिज़ाइन किया; "टर्मिनेटर" ने स्व-शिक्षण कृत्रिम बुद्धिमत्ता प्रणाली स्काईनेट को आकार दिया, जिसका उद्देश्य अमेरिकी परमाणु हथियारों और रक्षा प्रणालियों को नियंत्रित करना सुनिश्चित करना है। कि देश की सुरक्षा।

ये AI सिस्टम जो इंसानों की तरह सोच और तर्क कर सकते हैं और संज्ञानात्मक कौशल और क्षमताओं की एक विस्तृत श्रृंखला भी AGI (आर्टिफिशियल जनरल इंटेलिजेंस) कहलाती है।

AGI की बुद्धिमत्ता विशिष्ट क्षेत्रों या कार्यों तक ही सीमित नहीं है, बल्कि तर्क, योजना, समस्या समाधान, अमूर्त सोच, जटिल विचारों को समझना, तेजी से सीखने और अनुभवात्मक सीखने की क्षमता आदि भी है।

उदाहरण के लिए, हालांकि अल्फा गो दुनिया का एकमात्र खेल है, यह एजीआई नहीं है। इसके विपरीत, "रोबोट स्टोरी" में वॉल-ई मानव एजीआई की परिभाषा के अनुरूप है।

AGI की अवधारणा दशकों से कृत्रिम बुद्धिमत्ता के क्षेत्र में मौजूद है, और कई शोधकर्ता नए एल्गोरिदम, मॉडल और तरीके विकसित करके AGI को साकार करने की कोशिश कर रहे हैं। हम एजीआई हासिल करने से कितनी दूर हैं?

माइक्रोसॉफ्ट रिसर्च द्वारा हाल ही में जारी एक पेपर में बताया गया है कि OpenAI के नवीनतम बड़े भाषा मॉडल GPT-4 में पहले से ही AGI का प्रोटोटाइप है।

GPT-4 की व्यापक क्षमताएं कई क्षमताओं के साथ डोमेन और मानव-स्तर के प्रदर्शन की एक विस्तृत श्रृंखला को कवर करती हैं और कार्यों की एक विस्तृत श्रृंखला पर हमें सुरक्षित रूप से यह कहने की अनुमति देती है कि GPT-4 AGI की दिशा में एक महत्वपूर्ण कदम है।

आर्टिफिशियल इंटेलिजेंस की चिंगारी

माइक्रोसॉफ्ट रिसर्च द्वारा इस पेपर के पूरे पाठ में 154 पृष्ठ हैं, और यह जीपीटी-4 पर शोधकर्ताओं के लिए परीक्षण प्रश्नों से भरा है।

▲ चित्र: YouTube@AI समझाया गया

पूर्ण पाठ की लंबाई के कारण, YouTube ब्लॉगर एआई एक्सप्लेन्ड ने पूर्ण पाठ का चयन और संघनित किया है, आइए हम GPT-4 की क्षमताओं को सहजता से समझने के लिए उनके दृष्टिकोण का अनुसरण करें।

यह ध्यान दिया जाना चाहिए कि Microsoft के इन शोधकर्ताओं को GPT-4 के प्रारंभिक विकास चरण में मॉडल से अवगत कराया गया है और लगभग 6 महीने तक प्रयोग किए गए हैं।

उन्होंने अप्रतिबंधित विकास संस्करण का उपयोग किया, अंतिम संस्करण का नहीं जिसे अब सुरक्षा प्रतिबंधों के साथ संसाधित किया जाता है, इसलिए लेख में प्रस्तावित निष्कर्ष केवल मूल GPT-4 मॉडल के लिए हैं।

चलो पहले कारोबार करें। लेख बताता है कि GPT-4 की एक महत्वपूर्ण नई क्षमता उपकरण का सही ढंग से उपयोग करने की क्षमता है, जिसमें कम निर्देश या कोई प्रदर्शन नहीं है, जैसे कि कैलकुलेटर का उपयोग करना, जो कि ChatGPT के GPT-3.5 संस्करण के साथ संभव नहीं है (इसके बाद के रूप में संदर्भित) ChatGPT का पुराना संस्करण) आ गया।

टिप्स: बाएं से दाएं बहने वाली एक नदी है, नदी के बगल में पिरामिड के साथ एक रेगिस्तान है, स्क्रीन के नीचे 4 बटन हैं, रंग हरे, नीले, भूरे और लाल हैं

शोधकर्ताओं ने पाया कि GPT-4 को स्टेबल डिफ्यूजन के साथ जोड़ा जा सकता है ताकि टेक्स्ट प्रॉम्प्ट के अनुसार एक विस्तृत तस्वीर का उत्पादन किया जा सके और टेक्स्ट प्रॉम्प्ट के अनुसार वस्तुओं को व्यवस्थित किया जा सके, जिससे उपयोग की दक्षता में सुधार होता है।

मनुष्य और अन्य जानवरों के बीच एक महत्वपूर्ण अंतर यह है कि मनुष्य औजारों की खोज और उपयोग करेगा, और अब एआई धीरे-धीरे इस दिशा में विकसित हो रहा है।

शोधकर्ताओं ने LeetCode पर सॉफ्टवेयर इंजीनियरों के लिए GPT-4 की मॉक परीक्षा भी ली।

एक नमूने के रूप में पाँच परीक्षाओं के सर्वोत्तम परिणामों को लेते हुए, GPT-4 ने आसान, मध्यम और कठिन परीक्षाओं के तीन स्तरों में क्रमश: 86.4%, 60% और 14.3% अंक प्राप्त किए।

कागज विनम्रता से कहता है कि GPT-4 का एन्कोडिंग स्तर मानव स्तर के करीब है, तो मानव प्रदर्शन कैसा है?

LeetCode के डेटाबेस से पता चलता है कि सरल, मध्यम और कठिन परीक्षाओं के तीन स्तरों में मनुष्यों का औसत स्कोर क्रमशः 72.2%, 38.7% और 7% है। यह उन लोगों का डेटा है जो एक भी प्रश्न का उत्तर नहीं दे सकते हैं।

यह कहा जा सकता है कि प्रोग्रामिंग क्षमता के मामले में GPT-4 पहले से ही कई सॉफ्टवेयर इंजीनियरों से बेहतर है।

GPT-4 न केवल साधारण प्रोग्रामिंग कार्य को पूरा कर सकता है, बल्कि जटिल 3D गेम विकास के लिए भी सक्षम हो सकता है।

पेपर में उल्लेख किया गया है कि GPT-4 ने शून्य नमूनों के मामले में HTML में एक बाधा परिहार गेम डेमो उत्पन्न करने के लिए जावास्क्रिप्ट का उपयोग किया।

जब तक इसे इस आधार पर थोड़ा अनुकूलित किया जाता है, तब तक यह डेमो पूरी तरह से गेम उत्पाद में बदल सकता है। और जब शोधकर्ताओं ने समान संकेतों के साथ चैटजीपीटी के पुराने संस्करण का परीक्षण किया, तो बाद वाले ने कहा कि यह नहीं हो सकता।

इसके तर्क कौशल का परीक्षण करने के लिए, शोधकर्ताओं ने इसे 2022 अंतर्राष्ट्रीय गणितीय ओलंपियाड से एक प्रश्न दिया।

▲ आप इसे ~ चुनौती भी दे सकते हैं

चूंकि GPT-4 डेटाबेस केवल 2021 तक अपडेट किया गया है (हालांकि यह एक विकास संस्करण है, यह अभी भी इंटरनेट से जुड़ा नहीं है), इस प्रश्न का उत्तर इसके डेटाबेस में नहीं है, इसलिए इसे पूरी तरह से गणितीय तार्किक तर्क द्वारा पूरा किया जाना चाहिए .

GPT-4 ने एक सही समस्या-समाधान तर्क का उत्तर दिया, लेकिन विशिष्ट उत्तर में एक त्रुटि थी। शोधकर्ताओं ने कहा कि यह एक बुनियादी गणना त्रुटि थी (जैसे एक व्यक्ति जिसने परीक्षा के दौरान गुणन की गणना विभाजन के रूप में की थी), जबकि ChatGPT यह केवल एक तार्किक रूप से असंगत उत्तर उत्पन्न करें, और स्तर कहीं अधिक खराब है।

जब कुछ कठिन प्रश्न पूछे जाते हैं जैसे "तरणताल में कितनी गोल्फ गेंदें रखी जा सकती हैं", GPT-4 भी तार्किक तरीके से उत्तर दे सकता है।

फिर शोधकर्ताओं ने पाया कि GPT-4 उपयोगकर्ता के ईमेल, कैलेंडर, निर्देशांक आदि को पुनः प्राप्त करने जैसे कार्यों को पूरा करने के लिए अन्य अनुप्रयोगों के एपीआई को कॉल कर सकता है, ताकि लोगों को भोजन ऑर्डर करने, टिकट बुक करने और ईमेल और अन्य सहायक कार्यों का जवाब देने में मदद मिल सके।

यह OpenAI द्वारा हाल ही में घोषित किए गए ChatGPT प्लगइन सेट के कार्यों में परिलक्षित हुआ है। GPT-4 मॉडल जो कर सकता है वह निश्चित रूप से केवल टेक्स्ट जेनरेशन नहीं है। अन्य एप्लिकेशन API के साथ संयोजन करके, यह एक सिस्टम जैसा अस्तित्व बन सकता है।

शोधकर्ताओं ने एक ऐसे कार्य की भी खोज की जिस पर आपने शायद ही ध्यान दिया होगा, यानी GPT-4 मानव मानसिक मॉडल का निर्माण कर सकता है।

शोधकर्ताओं ने इसके लिए एक दृश्य स्थापित किया, और GPT-4 ने दृश्य में लोगों की मनोवैज्ञानिक प्रक्रियाओं और संबंधित क्रियाओं का विश्लेषण किया।

दूसरे शब्दों में, GPT-4 केवल क्रिया को देखने के बजाय मानव व्यवहार और मनोविज्ञान के बीच संबंध की व्याख्या कर सकता है, जो कि AI के लिए एक बड़ी उन्नति है।

एक और बात?

यह पेपर दस अध्यायों में विभाजित है, जो GPT-4 की मल्टीमॉडल क्षमताओं (दृष्टि से उत्पन्न सामग्री से संबंधित), कोड क्षमताओं की पीढ़ी और समझ, गणितीय क्षमताओं, दुनिया के साथ बातचीत क्षमताओं, मनुष्यों के साथ बातचीत क्षमताओं, भेदभाव और GPT-4 का परिचय देता है। सीमाएं, सामाजिक प्रभाव, भविष्य की दिशाएं।

पूरा पाठ कोकून को अलग करने के तरीके में GPT-4 की क्षमताओं की पूरी तरह से व्याख्या करता है। एक बार इसे जारी करने के बाद, इसने व्यापक ध्यान प्राप्त किया और लोकप्रिय हो गया।

दिलचस्प बात यह है कि कुछ नेटिज़न्स ने पाया कि लेखक ने पेपर के LaTeX स्रोत कोड टिप्पणियों में कुछ जानकारी छिपाई थी।

▲ नोटों से देखते हुए, DV-3 Davinci 3 (दा विंची 3) होना चाहिए

उदाहरण के लिए, GPT-4 का आंतरिक नाम वास्तव में DV-3 है। साथ ही, यह इस लेख का "तीसरा लेखक" भी है। शायद गोपनीयता के मुद्दों पर विचार करते हुए, यह जानबूझकर लेखक द्वारा छिपाया गया था।

नेटिज़ेंस ने यह भी पाया कि लेखक GPT-4 की वास्तविक लागत के बारे में बहुत स्पष्ट नहीं है, और गलती से GPT-4 को मल्टीमॉडल मॉडल के बजाय एक सादा पाठ मॉडल के रूप में संदर्भित करता है।

जहरीली सामग्री से संबंधित कागज का हिस्सा भी प्रकाशित होने पर हटा दिया गया था, शायद यह OpenAI पर अनावश्यक नकारात्मक प्रभाव से बचने के लिए है।

सामान्य तौर पर, यदि आप रुचि रखते हैं कि GPT-4 क्या कर सकता है, वर्तमान सीमाएँ क्या हैं, या AI की प्रगति क्या है, तो आप इस लेख के माध्यम से सबसे शक्तिशाली बड़े भाषा मॉडल के बारे में अधिक जान सकते हैं।

मूल पता यहाँ है: https://arxiv.org/pdf/2303.12712.pdf

इसका आनंद लें।

बकवास काटो।

#Aifaner के आधिकारिक WeChat सार्वजनिक खाते पर ध्यान देने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr), जितनी जल्दी हो सके आपके लिए अधिक रोमांचक सामग्री प्रस्तुत की जाएगी।

ऐ फैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो