पहला रिलीज अनुभव एआई ने लाल लिफाफे भेजना सीखा! घरेलू एजेंट सिर्फ एक वाक्य से मोबाइल फोन और कंप्यूटर को नियंत्रित करता है, मुझे “मछली पकड़ने की आजादी” का भविष्य दिखता है

2024 में AI सर्कल में सबसे लोकप्रिय कीवर्ड कोई और नहीं बल्कि एजेंट है।

ओपनएआई के सरल जीपीटी से लेकर एंथ्रोपिक के कंप्यूटर उपयोग तक, जो स्वायत्त रूप से कार्य कर सकता है, इसके एजेंट ऑपरेटिंग सिस्टम के साथ हाल ही में एआई स्टार्टअप /डेव/एजेंट के यूएस $500 मिलियन के मूल्यांकन तक, निर्माता एआई के लिए अगली स्पष्ट दिशा खोजने की कोशिश कर रहे हैं।

चीन में, पिछले महीने ज़ीपु एआई ने अपना स्वयं का उत्तर-ऑटोजीएलएम भी लाया।

यदि आप अपना फोन निकालते हैं, एक ऐप खोलते हैं, खोज पर क्लिक करते हैं, कीवर्ड दर्ज करते हैं…इन कार्यों को पूरा करने में आमतौर पर चार या पांच चरण लगते हैं, लेकिन एआई के साथ, ये ऑपरेशन केवल एक वाक्य का मामला बन जाते हैं।

आज, झिपु एआई ने बीजिंग में कई टर्मिनलों को कवर करने वाले एजेंट उत्पादों की एक श्रृंखला भी लॉन्च की है।

उपयोगकर्ताओं को केवल निर्देशों को इनपुट करने की आवश्यकता है, और जीएलएम निर्देशों को समझ सकता है, कार्यों की योजना बना सकता है, और फिर इंटरफ़ेस में विंडोज़, ग्राफिक्स, टेक्स्ट इत्यादि की पहचान कर सकता है, और स्वचालित संचालन का एहसास कर सकता है, जैसे नेविगेशन के युग में प्रवेश करना जब एआई उपकरण लेता है .

एजेंट ओपनडे में, झिपू एआई के सीईओ झांग पेंग ने आमने-सामने समूह स्थापित करने के लिए ऑटोजीएलएम का उपयोग किया और सैकड़ों उपस्थित लोगों को वीचैट लाल लिफाफे और ऑनलाइन पासवर्ड लाल लिफाफे भेजे। यदि आपके कोई मित्र हैं जिन्हें लाल लिफाफे मिले हैं, तो कृपया टिप्पणी क्षेत्र में अपनी खुशी साझा करें।

  • ऑटोजीएलएम: मोबाइल टर्मिनल (एंड्रॉइड के लिए अस्थायी रूप से खुला), स्वतंत्र रूप से 50 से अधिक चरणों के लंबे-चरणीय संचालन कर सकता है, जो मूल्य तुलना, नेविगेशन और सुपर कॉलिंग जैसे जटिल संचालन के लिए उपयुक्त है।
  • जीएलएम-पीसी: पीसी संस्करण (मैक सिस्टम के लिए अस्थायी रूप से खुला), श्रमिकों के हाथों को मुक्त करने के लिए उपयुक्त एक उत्पादकता उपकरण मोबाइल फोन कंप्यूटर को दूर से भी संचालित कर सकता है।
  • ऑटोजीएलएम-वेब: वेब संस्करण, Baidu सर्च, झिहू, जीथब इत्यादि जैसी दर्जनों वेबसाइटों पर स्वायत्त ड्राइविंग का समर्थन करता है।

सबसे ज्वलंत फ़ुटनोट शायद यह है कि चैट से लेकर एक्ट तक, एआई हर जगह है, लेकिन एजेंट भी हर जगह है। दूसरे शब्दों में, हमारे लिए "सोचने" से लेकर हमारे लिए "करने" तक, एजेंट स्मार्ट उपकरणों को फिर से परिभाषित कर रहा है।

अनुभव जंप लिंक संलग्न है:

  • ऑटोजीएलएम: https://agent.aminer.cn/
  • जीएलएम-पीसी: https://cogagent.aminer.cn/home
  • ऑटोजीएलएम-वेब: https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

अन्य लोगों के एआई सिर्फ चैटिंग कर रहे हैं, लेकिन ये एआई मुझे मछली पकड़ने में मदद कर सकते हैं।

AI मुझे मछली पकड़ने में मदद करता है? ऑटोजीएलएम मुझे लेटने और सुपर कॉल का उपयोग करने और कॉफी खरीदने की अनुमति देता है

पिछले लेखों में, हमने अनुभव किया है कि कैसे ऑटोजीएलएम हमारे मोबाइल फोन पर कब्जा कर लेता है।

पूरी तरह से स्वचालित रूप से WeChat संदेश भेजें, Taobao ब्राउज़ करें… जो चीज़ें हमें पहले स्वयं करनी होती थीं वे अब AutoGLM द्वारा कवर की जाती हैं। इसके अलावा, इस एआई कार्यकर्ता को आज अपग्रेड किया गया है और वह अपने काम में बहुत अच्छा है।

हमने इन नवीनतम AI टूल का भी पहले से अनुभव किया है।

उपभोग के बारे में हमारी अवधारणा यह है कि आप महंगी चीजें खरीद सकते हैं, लेकिन आप उन्हें महंगा नहीं खरीद सकते।

उदाहरण के लिए, कुछ समय पहले, "ए ब्रीफ हिस्ट्री ऑफ ह्यूमनकाइंड" के लेखक युवल हरारी ने अपनी नवीनतम पुस्तक "बियॉन्ड होमो सेपियंस" प्रकाशित की थी, फिर मैं एआई को पिंडुओदुओ और ताओबाओ को ब्राउज़ करने में मदद क्यों नहीं करने देता, यह देखने के लिए कि मैं कहां कर सकता हूं उन्हें खोजें? एक अच्छा सौदा।

मुझे बस अपना मुंह हिलाने की जरूरत है, और एआई मुझे दौड़ने और मेरे पैरों को तोड़ने में मदद करेगा, हालांकि, अगर आप ध्यान से देखें, तो किताब के शीर्षक को भ्रमित करने में अभी भी थोड़ी खामी है।

अगर शोर-शराबे वाले माहौल में बोलना मुश्किल हो तो चिंता न करें।

AutoGLM एक "साइलेंट मोड" से भी सुसज्जित है, जो आपको टाइप करके ऑर्डर देने की अनुमति देता है, और किसी कार्य को निष्पादित करने से पहले, AutoGLM उपयोगकर्ता के लिए 3-सेकंड का "अफसोस का समय" भी छोड़ता है, जिससे आप निष्पादन को रोक और समायोजित कर सकते हैं। किसी भी समय कार्य.

स्टार-चेज़र्स के लिए अच्छी खबर है, नया अपग्रेड किया गया ऑटोजीएलएम चेक-इन और क्लॉक-इन को भी समझ सकता है।

एक उदाहरण के रूप में ली ज़िंगलियांग के सुपर कॉल चेक-इन को लें। मुझे केवल ऑटोजीएलएम फ्लोटिंग विंडो में अपने निर्देश दर्ज करने की आवश्यकता है, और एआई मेरे लिए पूरी प्रक्रिया करेगा, मुझे संवेदनशील जानकारी का सामना करने पर केवल "दिखाने" की आवश्यकता है , और एक क्लिक से "मिस्ड चेक-इन" चिंता को अलविदा कहें।

वैसे, आप इन दैनिक कार्यों के लिए शॉर्टकट कमांड भी सेट कर सकते हैं और उन्हें एक क्लिक से पूरा कर सकते हैं।

इस फ़ंक्शन को कम न समझें। एक दैनिक कार्यकर्ता के रूप में, आप जो कॉफी नियमित रूप से दोपहर में ऑर्डर करते हैं उसे "जीवन-निर्वाह उपकरण" कहा जा सकता है। आपको इसे हर दिन बार-बार सेट करने की आवश्यकता नहीं है कॉफ़ी ऑर्डर करने के लिए निर्देशों को ध्यान में रखना आवश्यक है, जिससे काफ़ी मेहनत बच जाती है।

कैज़ुअल मोड चुनें और ब्लाइंड कॉफ़ी बॉक्स खोलकर AI को आपके लिए सभी निर्णय लेने दें, हालाँकि, जब भेजने, ऑर्डर देने और भुगतान करने जैसे महत्वपूर्ण कार्यों की बात आती है, तो AutoGLM सक्रिय रूप से आपको विकल्प सौंप देगा।

क्रॉस-एप्लिकेशन सहयोग इस अपग्रेड का एक प्रमुख आकर्षण है।

Apple AI ने हमें एप्लिकेशन वॉल को तोड़ने के लिए सिस्टम-स्तरीय AI का महत्व दिखाया है, और अब AutoGLM की मदद से, हम समान प्रभाव भी प्राप्त कर सकते हैं, उदाहरण के लिए, मैंने AI से लहसुन पर एक ट्यूटोरियल खोजने के लिए कहा ज़ियाहोंगशू में गोभी, और यह क्षणों में सफल रही।

नया AI नेविगेशन फ़ंक्शन भी बहुत उपयोगी है। कैंटन टॉवर जाना चाहते हैं? बस AutoGLM से धीरे से बात करें, और AI आपके लिए इसे स्पष्ट रूप से व्यवस्थित कर देगा।

दुर्भाग्य से, AutoGLM केवल Android सिस्टम का समर्थन करता है।

हालाँकि, Zhipu अब से AutoGLM का उपयोगकर्ता आंतरिक परीक्षण कोटा भी जारी करेगा, और कार्यों और उपयोगकर्ता अनुभव को और अधिक अनुकूलित करेगा। यह जल्द से जल्द लॉन्च होने और एक ऐसा उत्पाद बनने की उम्मीद है जो वास्तव में अधिकांश C-एंड उपयोगकर्ताओं के लिए खुला है .

झिपु क्विंगयान के प्लग-इन ऑटोजीएलएम-वेब ने अब से ऑटोजीएलएम फ़ंक्शन भी लॉन्च किया है।

बताया गया है कि ऑटोजीएलएम-वेब Baidu सर्च, वीबो, झिहू और जीथब जैसी दर्जनों वेबसाइटों पर स्वायत्त ड्राइविंग का समर्थन करता है।

आधिकारिक डेमो में, ऑटोजीएलएम-वेब स्वचालित रूप से "Baidu पर मैंगो टीवी की खोज, अलविदा प्रेमी खोलें, नवीनतम एपिसोड चलाएं, और टिप्पणियां पोस्ट करें" पूरा करता है। पूरी प्रक्रिया में उपयोगकर्ता का कोई हस्तक्षेप नहीं है।

▲ छवि विवरण। चित्र: xxx

मोबाइल फोन से लेकर कंप्यूटर तक, AI मेरे लिए एक कार्यकर्ता के रूप में काम करे

ऑटोजीएलएम की तुलना में, जीएलएम-पीसी कंप्यूटर पक्ष पर कार्यस्थल परिदृश्यों के लिए अधिक कार्यात्मक अनुभव प्रदान करता है।

जीएलएम-पीसी वर्तमान में एम सीरीज चिप्स से लैस मैक कंप्यूटरों के लिए डिज़ाइन किया गया है, जिसमें एम1 और एम3 सीरीज डिवाइस सबसे अधिक अनुशंसित हैं। संवाद बॉक्स में वह क्रिया दर्ज करें जो आप करना चाहते हैं, और जीएलएम-पीसी टूल का मूल्यांकन करेगा और एक कार्य योजना पर निर्णय लेगा।

बेशक, संवेदनशील संचालन का सामना करते समय, जीएलएम-पीसी स्वचालित रूप से रुक जाएगा और उपयोगकर्ता संचालन या पुष्टि के लिए प्रतीक्षा करेगा।

स्टेशन बी पर लोकप्रिय सामग्री जानना चाहते हैं? जीएलएम-पीसी आपको तीन बार, पांच बार और दो बार उपयोग करके "वेबसाइट में प्रवेश करते समय पहले ब्रश करना चाहिए" ढूंढने में मदद करेगा, और आपका बहुत सारा लक्ष्यहीन पैडलिंग समय बचाएगा।

क्या आप झांग सैन से मीटिंग के लिए पूछना चाहते हैं? WeChat संदेशों को AI पर भेजने की बात छोड़ दें। यहां तक ​​कि जब पृष्ठ अवरुद्ध हो, तब भी इसे WeChat खोज बॉक्स में सटीक रूप से स्थित किया जा सकता है।

यह आपको Tencent मीटिंग बुक करने और प्रतिभागियों को मीटिंग निमंत्रण भेजने में भी मदद कर सकता है। यह अनुशंसा की जाती है कि काम खत्म करने के बाद, वर्कफ़्लो के माध्यम से कार्य कुशलता में सुधार करने के लिए "ऑपरेशन चीट्स" के इस सेट को इकट्ठा करें।

एक संपादक के रूप में, मेरा व्यक्तिगत पसंदीदा कार्य विदेशी एआई समाचारों को सुलझाने में मेरी मदद करना है। कमांड देने के बाद एआई ब्राउज़र खोलेगा, यूआरएल दर्ज करेगा और समाचार का स्पष्ट सारांश प्राप्त करेगा।

वैसे, यदि आप एक नवागंतुक हैं जिसने अभी-अभी विन से मैक सिस्टम पर स्विच किया है, तो आप सिस्टम परिवर्तनों के कारण कुछ हद तक भ्रमित होंगे।

अब जीएलएम-पीसी आपका "जीवन रक्षक स्ट्रॉ" है, चाहे वह डिस्प्ले मोड या अन्य सेटिंग्स को समायोजित करना हो, अपनी सभी मांगें उस पर छोड़ दें। परेशानी वाली चीजों को एआई पर छोड़ दें और खुशियों को अपने पास रखें। यही जीवन में जीतने का सही तरीका है।

जीएलएम-पीसी में एक फ़ंक्शन भी है जिसे "किंग बम" कहा जा सकता है।

सबसे पहले जीएलएम-पीसी सेटिंग्स में "सस्पेंड मोड" चालू करें, और फिर अपने मोबाइल फोन पर सत्यापन कोड के माध्यम से "https://cogagent.aminer.cn/m" पर लॉग इन करें। आपका मोबाइल फोन कंप्यूटर को दूर से भी नियंत्रित कर सकता है .

विशेष रूप से, आप दूरस्थ रूप से जीएलएम-पीसी को कमांड संदेश भेज सकते हैं और जीएलएम-पीसी को कंप्यूटर संचालन करने दे सकते हैं। हर बार जब जीएलएम-पीसी कोई कदम उठाता है, तो यह ऑपरेशन का एक स्क्रीनशॉट लौटाएगा। यदि कोई संवेदनशील ऑपरेशन है, तो यह संचालन से पहले उपयोगकर्ता की पुष्टि की प्रतीक्षा करेगा।

ऑन-साइट प्रदर्शन के दौरान, झांग पेंग ने अपने मोबाइल फोन पर जीएलएम-पीसी वेब पेज के माध्यम से कोगजेंट को निर्देश भी जारी किए और कंप्यूटर पर वीचैट के माध्यम से सफलतापूर्वक फाइलें भेजीं।

वास्तव में, जब एआई केवल "बात करने" के बजाय वास्तव में "काम" करना शुरू कर देता है, तो यह भी चिह्नित करता है कि एआई अनुप्रयोग "डाउन-टू-अर्थ" व्यावहारिक चरण में प्रवेश कर चुके हैं। यह कहा जा सकता है कि जब एआई वास्तव में दैनिक कार्यों को हल करना शुरू कर देगा, तो यह एक खिलौने से वास्तविक उत्पादकता उपकरण में बदल जाएगा।

एआई तकनीक ऐसी ही होनी चाहिए।

फ़ोन उपयोग का समय

पिछले दो महीनों में, मोबाइल फोन उद्योग ने कई नए उत्पादों को गहनता से जारी किया है। हालांकि एआई मोबाइल फोन को अभी तक उपभोक्ताओं द्वारा व्यापक रूप से मान्यता नहीं दी गई है, लेकिन सिस्टम-स्तरीय एआई मुख्य आकर्षण बन गया है विभिन्न निर्माताओं के ओएस वास्तव में, यह एजेंट की लोकप्रियता का एक अग्रदूत भी है।

चाहे वह विवो का ब्लू हार्ट वी और "फोन जीपीटी" हो, जिसका उपयोग प्रेस कॉन्फ्रेंस में एआई ऑर्डरिंग के लिए किया जा सकता है, हुआवेई हॉन्गमेंग का ज़ियाओयी और इंटेंट फ्रेमवर्क, या ऑनर का योयो इंटेलिजेंट एजेंट, वे सभी संक्षेप में एजेंट द्वारा जारी किए गए समान हैं। झिपु आज:

एआई को इंसानों की तरह उपकरण संचालित करने के लिए मानव प्लान-डू-चेक-एक्ट (योजना-करो-चेक-एक्ट) चक्र की नकल करने दें।

जैसा कि ज़ीपु एआई के सीईओ झांग पेंग ने आज की प्रेस कॉन्फ्रेंस में उल्लेख किया है, वर्तमान एजेंट क्षमताएं सभी एप्लिकेशन और यहां तक ​​कि सभी डिवाइसों को लिंक करने के लिए उपयोगकर्ताओं और एप्लिकेशन के बीच एक बुद्धिमान शेड्यूलिंग परत जोड़ने की तरह हैं।

इसे बड़े मॉडल सामान्य ऑपरेटिंग सिस्टम एलएलएम-ओएस के प्रोटोटाइप के रूप में देखा जा सकता है। झिपु एजेंट इंटरैक्शन के इस सेट को जीएलएम-ओएस का निर्माण भी कहता है, जिसका मानव-कंप्यूटर इंटरैक्शन के रूप पर बहुत प्रभाव पड़ेगा।

ओपनएआई के संस्थापक सदस्य और एआई टेक्नोलॉजी गुरु आंद्रेज कारपैथी ने भी कई बार बड़े भाषा मॉडल ऑपरेटिंग सिस्टम (एलएलएम ओएस) के बारे में बात की है। उनका मानना ​​है कि बड़ा मॉडल कुछ हद तक एक नया कंप्यूटर और ऑपरेटिंग सिस्टम है, जो विभिन्न सॉफ्टवेयर और हार्डवेयर को कनेक्ट कर सकता है , साथ ही सभी मोडल सूचनाओं से बने परिधीय, फ़ंक्शन कॉल के माध्यम से विभिन्न कार्य करते हैं।

एक पारंपरिक ऑपरेटिंग सिस्टम में, आपको सीपीयू के चारों ओर माउस और कीबोर्ड, डिस्क स्टोरेज और कैशे स्पेस जैसे परिधीय उपकरणों का एक समूह बनाने की आवश्यकता होती है।

एलएलएम ओएस में बड़ा मॉडल ही सेंट्रल प्रोसेसिंग यूनिट होता है। I/O परिधीय अब माउस और कीबोर्ड नहीं हैं, क्योंकि एलएलएम डेटा इनपुट और आउटपुट के अधिक तरीकों के साथ संगत हो सकता है। साथ ही, बड़े मॉडलों द्वारा बुलाए गए बाहरी टूल को भी पारंपरिक सॉफ्टवेयर से इंटेलिजेंट एजेंट टूल में अपग्रेड किया जाएगा।

उनमें से, क्रॉस-एप्लिकेशन ऑपरेशन एक बहुत ही महत्वपूर्ण लिंक है, जिसका अर्थ है कि एजेंट अधिक जटिल स्वायत्त और सुसंगत संचालन प्राप्त कर सकता है, और वास्तविक व्यावसायीकरण की ओर भी बढ़ सकता है।

वर्ष की शुरुआत में, हमने अनुमान लगाया कि बड़ा मॉडल स्मार्टफोन के लिए नया ऑपरेटिंग सिस्टम बन जाएगा, और प्राकृतिक यूजर इंटरफेस (एनयूआई) धीरे-धीरे मौजूदा ग्राफिकल यूजर इंटरफेस (जीयूआई) की जगह ले लेगा।

जहां तक ​​यह सवाल है कि क्या विभिन्न इंटरनेट कंपनियों द्वारा प्रदान की जाने वाली सेवाओं को जोड़ा जा सकता है, तो यह भविष्य में इस तरह की बातचीत को साकार करने में सबसे बड़ी बाधा हो सकती है। लेकिन चाहे वह स्मार्टफोन हो या एप्लिकेशन, यह अंततः मानव विकास के इतिहास में एक चरणबद्ध उत्पाद होगा।

वर्तमान एजेंट इंटरैक्शन अभी भी अपने प्रारंभिक चरण में है, स्केलिंग कानून के उद्योग में बाधाओं का सामना करने के संदर्भ में, एजेंट एक वास्तविक उत्पादकता उपकरण कैसे बन सकता है और कार्य निर्णयों का उच्च अनुपात कैसे ले सकता है?

ऑटोजीएलएम के तकनीकी निदेशक लियू जिओ ने एपीपीएसओ के साथ एक साक्षात्कार में कहा कि प्री-ट्रेनिंग निश्चित रूप से जारी रहेगी, लेकिन एल्गोरिदम और डेटा प्रशिक्षण के लिए तर्क का एक नया सेट होगा।

झिपु एआई के सीईओ झांग पेंग ने एपीपीएसओ को यह भी बताया कि टीम स्केलिंग कानूनों के स्थान के बारे में अपेक्षाकृत आशावादी है और नए प्रतिमान और पारिस्थितिकी तंत्र में अधिक संभावनाएं तलाशने की उम्मीद करती है।

इस वर्ष, कई निर्माताओं ने एआई टर्मिनलों की बुद्धिमत्ता का वर्णन करने के लिए हमेशा स्वायत्त ड्राइविंग का उपयोग किया है, ओपनएआई ने एआई को पांच स्तरों में विभाजित किया है: एल1-एल5।

OpenAI से अलग, Zhipu बड़े मॉडल विकास के पांच चरणों को परिभाषित करता है: L1 भाषा क्षमता, L2 तार्किक क्षमता (मल्टीमॉडल क्षमता), L3 उपकरण का उपयोग करने की क्षमता, L4 स्व-सीखने की क्षमता, और L5 वैज्ञानिक कानूनों की खोज।

झांग पेंग का मानना ​​है कि बड़े मॉडलों में शुरू में मनुष्यों के लिए वास्तविक भौतिक दुनिया के साथ बातचीत करने की कुछ क्षमता होती है। "एजेंट उपकरणों का उपयोग करने की L3 की क्षमता में काफी सुधार करेगा, और साथ ही L4 की स्व-सीखने की क्षमता की खोज को खोल देगा।"

फोन के उपयोग, कंप्यूटर के उपयोग, कार के उपयोग से लेकर सभी डिवाइस के उपयोग तक, बड़े मॉडलों की सोचने की क्षमता और एजेंट की बातचीत धीरे-धीरे हमारे स्मार्ट उपकरणों के उपयोग के तरीके को प्रभावित करती है।

AI को WeChat संदेश और लाइक भेजने की अनुमति देना अब सीमित व्यावहारिक महत्व रखता है, लेकिन AlphaGo की तरह, यह शतरंज में कितना भी अच्छा क्यों न हो, इसका समाज पर अधिक प्रभाव नहीं पड़ेगा, Google DeepMind का AlphaFold लगभग सभी प्रोटीनों की संरचना की भविष्यवाणी कर सकता है। बड़ी संख्या में बीमारियों के उपचार और अनुसंधान में मदद करना।

इसके पीछे प्रतिमान परिवर्तन वह लीवर है जो मानव जीवनशैली के नवीनीकरण का लाभ उठाता है, एजेंट बड़े मॉडल को चैट से एक्ट की ओर बढ़ने की अनुमति देता है, और तथाकथित एआई टर्मिनल का रूप केवल नामकरण में बदलाव के बजाय धीरे-धीरे उभरता है।

लेखक: ली चाओफ़ान, मो चोंगयु

# Aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr) आपको जल्द से जल्द अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फ़ैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो