मस्क ने एक बात समझने के लिए 10 अरब डॉलर खर्च किए: कोडिंग एजेंट न बनना मौत का इंतजार करने के बराबर है।

1.

ओपनएआई के दो कट्टर प्रतिद्वंद्वी, एंथ्रोपिक और मस्क ने आखिरकार महीने की शुरुआत में अपने पूर्वाग्रहों को दरकिनार करते हुए एक गठबंधन बना लिया।

इससे पहले, एंथ्रोपिक और मस्क के बीच संबंध तनावपूर्ण थे: इस साल फरवरी में, मस्क ने अपने एक्स अकाउंट पर एंथ्रोपिक पर "जागरूक", "दुष्ट" और "मानवद्वेषी" होने का आरोप लगाते हुए कहा था कि कंपनी "सभ्यता विरोधी" है।

पीछे मुड़कर देखें तो, यह हमला मस्क के अपरंपरागत व्यक्तित्व के कारण नहीं था, बल्कि इसलिए हुआ क्योंकि एंथ्रोपिक द्वारा की गई किसी बात ने उन्हें आहत कर दिया था, और इसके पीछे एक कारण था।

इससे पहले, xAI आंतरिक रूप से कर्सर का उपयोग करता था, लेकिन इस वर्ष की शुरुआत में, कर्मचारियों ने पाया कि xAI के कर्सर कॉर्पोरेट खाते में क्लाउड मॉडल अचानक अनुपयोगी हो गया था।

उस समय xAI में काम कर रहे सह-संस्थापक वू युहुआई ने सभी कर्मचारियों को भेजे गए एक ईमेल में कहा: "एंथ्रोपिक ने अपनी नीति को अपडेट किया है, जिसके तहत कर्सर को अपने मुख्य प्रतिस्पर्धियों को क्लाउड मॉडल को कॉल करने की क्षमता प्रदान नहीं करनी होगी।"

उस समय, वू युहुआई ने अपने पत्र में एक काफी दिलचस्प वाक्य लिखा था:

"यह बुरी खबर भी है और अच्छी खबर भी। हमारी उत्पादकता प्रभावित होगी, लेकिन यह हमें अपने स्वयं के कोडिंग उत्पाद और मॉडल विकसित करने के लिए भी प्रेरित करती है।"

उस समय xAI के शीर्ष प्रबंधन का मानना ​​क्यों था कि अपने स्वयं के कोडिंग उत्पादों को विकसित करना महत्वपूर्ण था?

आगे क्या हुआ, यह तो सभी जानते हैं। xAI की पूरी संस्थापक टीम भाग गई, और मस्क ने गुस्से में आकर अपनी वित्तीय शक्ति का इस्तेमाल कर कर्सर को अंतिम झटका दिया:

पिछले महीने के अंत में, स्पेसएक्स और कर्सर ने प्रोग्रामिंग और ज्ञान-आधारित नौकरियों के लिए एआई मॉडल को प्रशिक्षित करने के लिए एक अभूतपूर्व रणनीतिक साझेदारी की संयुक्त रूप से घोषणा की; इसके अलावा, स्पेसएक्स ने 60 अरब डॉलर में कर्सर का अधिग्रहण करने या सहयोग शुल्क के रूप में 10 अरब डॉलर का भुगतान करने का अधिकार भी हासिल कर लिया।

मुख्य विशेषण " प्रोग्रामिंग " पर ध्यान दें, जिसका उपयोग बाद में कॉल-बैक अनुभाग में किया जाएगा।

2.

हाल ही में, मैंने थियो ब्राउन का एक वीडियो देखा, जो कर्सर के शुरुआती निवेशकों में से एक हैं, एंथ्रोपिक के मुखर आलोचक हैं और टी3 के संस्थापक हैं।

मैंने शुरू में एस्ट्राजेनेका और स्पेसएक्स के कुकर्मों की आलोचना देखने के लिए क्लिक किया था, लेकिन अप्रत्याशित रूप से, मुझे स्पेसएक्स + कर्सर सहयोग के बारे में एक अनूठा लेकिन बेहद तर्कसंगत विश्लेषण मिला:

60 अरब के अधिग्रहण को छोड़ दें, तो केवल 10 अरब के सहयोग शुल्क पर विचार करते हुए – थियो ने वीडियो में कहा कि उनका मानना ​​है कि "भले ही यह केवल कर्सर के उपयोगकर्ता डेटा का आदान-प्रदान हो, यह 10 अरब इसके लायक है।"

तो यह कौन सा डेटा है? अगर आप थियो का वीडियो देखेंगे, तो वह इसे बहुत स्पष्ट रूप से समझा देंगे। लेकिन समय बचाने के लिए, हम इसे यहां संक्षेप में बता देते हैं:

एआई के साथ हमारा संवाद एक पारस्परिक प्रक्रिया है: आप प्रश्न पूछते हैं/अनुरोध करते हैं, और यह उत्तर प्रदान करता है; कोडिंग एजेंट भी इसी तरह काम करता है, सिवाय इसके कि यह कोड लौटाता है।

उच्च गुणवत्ता वाला संवाद, जिसमें उपयोगकर्ता के संकेत, मॉडल की सोच, एजेंट की योजना, कोड आउटपुट और सत्यापन सहित संपूर्ण प्रक्रिया शामिल है —इन सभी को मिलाकर एक पूर्ण एजेंटिक लूप कहा जा सकता है —उच्च मूल्य का प्रशिक्षण डेटा बन जाता है। इस डेटा को सुदृढ़ीकरण अधिगम के लिए मॉडल में फीड करने से वास्तविक दुनिया के परिदृश्यों में मॉडल के प्रदर्शन में और सुधार हो सकता है।

कर्सर के पास वह डेटा है, और स्पेसएक्स को ठीक यही डेटा चाहिए।

लेकिन यह डेटा कहां से आता है?

इसका उत्तर सरल है: एक मॉडल विक्रेता के रूप में, इस उच्च-गुणवत्ता वाले डेटा का सबसे प्रत्यक्ष स्रोत केवल आपका अपना कोडिंग एजेंट उत्पाद हो सकता है – अर्थात्, एंथ्रोपिक का क्लाउड कोड, ओपनएआई का कोडेक्स और किमी का किमी कोड।

अब आपको समझ आ गया होगा कि एंथ्रोपिक द्वारा "प्रतिबंधित" किए जाने के बाद, वू युहुआई ने सभी कर्मचारियों को भेजे गए एक ईमेल में xAI के अपने कोडिंग उत्पादों और मॉडलों को विकसित करने का प्रस्ताव क्यों रखा। xAI उस समय इस बात को स्पष्ट रूप से समझ चुका था:

अपने स्वयं के कोडिंग उत्पादों के बिना, हमारे पास उच्च-गुणवत्ता वाले रीइन्फोर्समेंट लर्निंग डेटा की कमी है; उच्च-गुणवत्ता वाले डेटा के बिना, हम वास्तव में व्यावहारिक कोडिंग मॉडल को प्रशिक्षित नहीं कर सकते।

हालांकि यह थोड़ा अतिवादी लग सकता है, लेकिन अब हम मुद्दे पर आते हैं: मॉडल निर्माताओं के लिए वास्तव में प्रतिस्पर्धी प्रोग्रामिंग मॉडल बनाने का एकमात्र तरीका अपने स्वयं के कोडिंग एजेंट उत्पादों को विकसित करना है।

3.

बड़े भाषा मॉडल एक तरह से भविष्य बताने वाली गेंद की तरह होते हैं, जिन्हें पूरे इंटरनेट से लिए गए डेटा का उपयोग करके प्रशिक्षित किया जाता है, और वे हर चीज का जवाब देने में सक्षम प्रतीत होते हैं, लेकिन इसका मतलब यह नहीं है कि वे सभी सवालों के उच्च-गुणवत्ता वाले जवाब प्रदान कर सकते हैं।

GitHub पर मौजूद करोड़ों कोड एंट्रीज़ के साथ ट्रेनिंग करने से कोडिंग मॉडल को प्रशिक्षित किया जा सकता है। यही "लर्निंग रिजल्ट्स" के पीछे का तर्क है, और यह सही भी है। आखिर कोडिंग टास्क के परिणाम सत्यापित किए जा सकते हैं: कोड चलता है या टेस्ट पास करता है, यही इसका प्रमाण है।

हालांकि, परिणाम तक पहुंचने की प्रक्रिया एक जटिल श्रृंखला है जिसमें कई चरणों में निर्णय लेना, त्रुटियों को सुधारना और उद्देश्य का सामंजस्य स्थापित करना शामिल है। उपयोगकर्ता द्वारा स्वीकृति, अस्वीकृति, पूर्णता, वापसी, अनुवर्ती प्रश्न पूछना, या मॉडल के कई बार विफल होने या पूरी तरह से गलती करने पर मौखिक दुर्व्यवहार जैसे सभी उदाहरण इस श्रृंखला में प्रक्रिया के संकेत हैं।

रीइन्फोर्समेंट लर्निंग में दो प्रकार की सुपरविज़न होती है। एक को आउटकम सुपरविज़न कहा जाता है, जो केवल यह जाँचता है कि अंत में कोड सफलतापूर्वक चलता है या नहीं। हालाँकि, आउटकम सुपरविज़न "हैकर्स को पुरस्कृत करने" की घटना को जन्म दे सकता है: कोड को चलाने के लिए, मॉडल अनावश्यक, कमज़ोर और तार्किक रूप से त्रुटिपूर्ण कोड लिख सकता है, लेकिन क्योंकि इसका परीक्षण किया जा चुका है, मॉडल सोचता है कि उसने सही ढंग से सीखा है।

एक अन्य प्रकार को प्रोसेस सुपरविज़न कहा जाता है, जो अनुमान पथ के प्रत्येक चरण को स्कोर करता है। ये प्रोसेस सिग्नल केवल कोडिंग एजेंट के रनटाइम वातावरण में ही उत्पन्न किए जा सकते हैं। GitHub रिपॉजिटरी में केवल परिणाम होते हैं; यहां तक ​​कि व्यक्तिगत कमिट इतिहास या पुल रिक्वेस्ट देखने से भी कोई वैध प्रोसेस सिग्नल नहीं मिलेगा।

जब प्रभावी और स्वतंत्र रूप से प्राप्त किए जा सकने वाले प्रक्रिया संकेतों की कमी होती है, तो कुछ मॉडल निर्माता "आसवन" विधि का उपयोग करेंगे, जिसके बारे में आपको पहले से ही पता होना चाहिए।

आसवन का तर्क सरल है: समान इनपुट दिए जाने पर, शिक्षक मॉडल जो भी आउटपुट देता है, छात्र मॉडल वही आउटपुट देना सीख जाता है। हालांकि, आसवन विचार प्रक्रिया को पकड़ सकता है, फिर भी जो परिणाम मिलता है वह अंतिम परिणाम के अधिक निकट होता है, बजाय इसके कि आसुत शिक्षक मॉडल के भीतर संभाव्यता वितरण प्राप्त हो।

यदि कोई छात्र शिक्षक के तर्क से विचलित हो जाता है, तो एक भी गलत टोकन विचलन का कारण बन सकता है।

यह सुदृढ़ीकरण अधिगम की एक मूलभूत सीमा से उत्पन्न होता है: नीति प्रवणता प्रमेय के अनुसार, अनुकूलन नमूने आदर्श रूप से उस मॉडल द्वारा उत्पन्न किए जाने चाहिए जिसका वर्तमान में अनुकूलन किया जा रहा है। इस प्रकार के डेटा को ऑन-पॉलिसी डेटा कहा जाता है। अन्य मॉडलों के उत्पादों (अन्य मॉडलों से प्राप्त) से उत्पन्न डेटा का उपयोग करके अपने स्वयं के मॉडल को प्रशिक्षित करना ऑफ-पॉलिसी डेटा की श्रेणी में आता है। यद्यपि मॉडल निश्चित रूप से इस ऑफ-पॉलिसी डेटा से सीख सकता है, लेकिन यह मूल मॉडल के भीतर संभाव्यता वितरण संबंधी जानकारी नहीं सीख सकता है।

कर्सर जैसी कंपनियां, जो स्वयं कोडिंग एजेंट उत्पाद हैं, सबसे प्रामाणिक, प्रभावी और उच्च गुणवत्ता वाला प्रशिक्षण डेटा रखती हैं। कर्सर उत्पाद स्वयं वास्तविक दुनिया के वातावरण में कोडिंग मॉडल के लिए सर्वोत्तम प्रशिक्षण मंच है।

हम इस तर्क को साबित करने के लिए साल की शुरुआत में कर्सर के "क्रैश" होने का उदाहरण इस्तेमाल कर सकते हैं।

4.

APPSO के पाठकों को शायद याद होगा कि कर्सर ने साल की शुरुआत में कंपोज़र 2 जारी किया था, जिसे "अगली पीढ़ी का समर्पित प्रोग्रामिंग मॉडल" बताया गया था। इस पर तकनीकी रिपोर्टें अपेक्षाकृत रूढ़िवादी थीं और उन्होंने अंतर्निहित मॉडल के बारे में विशिष्ट जानकारी प्रदान नहीं की थी।

इसके तुरंत बाद, नेटिज़न्स ने सार्वजनिक रूप से उपलब्ध कोड स्निपेट्स में किमी की मॉडल आईडी का पता लगाया और स्क्रीनशॉट डेवलपर समुदाय में फैल गए, जिससे कर्सर के उपाध्यक्ष ली रॉबिन्सन को स्पष्टीकरण देना पड़ा: "कंपोज़र 2 वास्तव में एक ओपन-सोर्स प्लेटफ़ॉर्म से उत्पन्न हुआ था। अंततः, मॉडल की कंप्यूटिंग शक्ति का लगभग 1/4 हिस्सा ही प्लेटफ़ॉर्म से आया, जबकि शेष 3/4 को हमने प्रशिक्षित किया।"

कुछ घंटों बाद, कर्सर के सह-संस्थापक अमन संगर ने भी माफी मांगते हुए लिखा: "शुरुआत में किमी बेस का जिक्र न करना एक गलती थी।"

पांच दिन बाद, कर्सर ने कंपोजर 2 की पूरी तकनीकी रिपोर्ट जारी की, जिसमें दिखाया गया कि आधार वास्तव में किमी K2.5 था, लाइसेंसकर्ता फायरवर्क्स एआई था, और सामान्य प्रक्रिया K2.5 पर प्रशिक्षण देना और फिर बड़े पैमाने पर सुदृढीकरण शिक्षण (RL) के साथ आगे बढ़ना था।

मुख्य बात यह है कि कंपोजर 2 का आरएल एक वास्तविक कर्सर सेशन में चलता है, जिसमें प्रोडक्शन डिप्लॉयमेंट के समान ही टूल्स और हार्नेस का उपयोग किया जाता है।

कर्सर इस प्रक्रिया को "रीयल-टाइम रीइन्फोर्समेंट लर्निंग" कहता है, जिसका अर्थ है मॉडल के चेकपॉइंट को सीधे कर्सर प्रोडक्शन एनवायरनमेंट में तैनात करना ताकि उपयोगकर्ता की प्रतिक्रियाओं का अवलोकन किया जा सके, डेटा एकत्र किया जा सके और उसे रिवार्ड सिग्नल में एकत्रित किया जा सके – यह मॉडल के संस्करण को हर 5 घंटे में तेजी से दोहरा सकता है, और फिर इसे कर्सर में तैनात करना जारी रख सकता है, जिससे चक्र दोहराया जाता है।

इसका सबसे चरम उदाहरण कर्सर का टैब फीचर है, जो स्वचालित कोड पूर्णता के लिए प्रतिदिन 4 करोड़ से अधिक अनुरोधों को संसाधित करता है। जब भी कोई उपयोगकर्ता अक्षर दर्ज करता है या कर्सर को स्थानांतरित करता है, तो मॉडल अगली क्रिया का अनुमान लगाता है। यदि अनुमान की सटीकता अधिक होती है, तो यह सुझाव प्रदर्शित करता है, और उपयोगकर्ता स्वचालित पूर्णता को स्वीकार करने के लिए टैब दबाता है।

यह फ़ीचर ऑनलाइन रीइन्फोर्समेंट लर्निंग का उपयोग करता है, जो उद्योग में एक अनूठी विशेषता है। कर्सर, टैब के मॉडल की क्षमताओं को उपयोगकर्ताओं के लिए अत्यंत उच्च आवृत्ति (लगभग डेढ़ से दो घंटे) पर अपडेट कर सकता है, और प्रशिक्षण के लिए उत्पाद के भीतर ही नीति-संबंधी डेटा एकत्र कर सकता है।

यह उच्च आवृत्ति वाला, लगभग वास्तविक समय का फीडबैक लूप टैब को उपयोगकर्ता के सूक्ष्म इरादों को समझने में सक्षम बनाता है। कर्सर के शोध से पता चला कि इस विधि से टैब की अस्वीकृति दर में 21% की कमी आई और स्वीकृति दर में 28% की वृद्धि हुई।

कंपोजर मॉडल पर वापस आते हुए, स्थिति स्पष्ट होने के बाद, किमी के कुछ कर्मचारियों ने अपने पिछले व्यंग्यात्मक ट्वीट हटा दिए, और किमी के आधिकारिक खाते ने बधाई संदेश पोस्ट किया।

मस्क के आंकड़ों के आधार पर, 60 अरब डॉलर की कीमत वाली एक कोडिंग एजेंट एप्लिकेशन लेयर कंपनी, जो अपना खुद का मॉडल बेस नहीं बनाती है, फिर भी अपने डेटा फ्लाईव्हील का उपयोग करके ऐसे मालिकाना प्रोग्रामिंग मॉडल निकाल सकती है जो बेस मॉडल से आगे जाते हैं।

इसलिए, कर्सर क्रैश हो गया कहने के बजाय, यह कहना अधिक सटीक होगा कि यह एजेंट उत्पादों की कोडिंग के महत्व का एक उत्तम उदाहरण है।

रियल-टाइम आरएल के बारे में एक अन्य लेख में, कर्सर ने लिखा: "(प्रोग्रामिंग मॉडल को प्रशिक्षित करना) सबसे बड़ी चुनौती उपयोगकर्ता का मॉडल बनाने में निहित है। कंपोज़र के उत्पादन वातावरण में, न केवल एक कंप्यूटर कमांड निष्पादित करता है, बल्कि ऐसे लोग भी होते हैं जो इसकी निगरानी और मार्गदर्शन करते हैं। कंप्यूटर का अनुकरण करना आसान है, लेकिन इसका उपयोग करने वाले लोगों का अनुकरण करना कठिन है।"

प्रोग्रामिंग मॉडल के क्षेत्र में अग्रणी मॉडल विक्रेताओं के बीच यह कथन धीरे-धीरे सर्वसम्मत होता जा रहा है। यदि आप बेंचमार्क सूचियों और सामान्य उपयोगकर्ता समीक्षाओं पर नज़र डालें, तो पाएंगे कि शीर्ष विक्रेता अपने स्वयं के कोडिंग एजेंटों/प्रोग्रामिंग उत्पादों में भारी निवेश कर रहे हैं। अंतर केवल इस बात में है कि कौन उपयोगकर्ता के सबसे करीब है।

SWE-bench और LLM-Stats जैसी अपेक्षाकृत विश्वसनीय रैंकिंग सूचियों को उदाहरण के तौर पर लें, तो क्लाउड, GPT, जेमिनी और किमी जैसे मॉडल शीर्ष दस में प्रमुखता से शामिल हैं। ये सभी मॉडल विक्रेता हैं जिन्होंने अपने स्वयं के कोडिंग एजेंट उत्पाद विकसित किए हैं (जिनमें CLI, IDE और डेस्कटॉप क्लाइंट शामिल हैं जो कोडिंग एजेंटों को एकीकृत करते हैं)।

कुछ सूचियों में कुछ विपरीत उदाहरण दिखाई देते हैं, जैसे मेटा ( म्यूज स्पार्क) और डीपसीक, जिन्होंने अपना खुद का कोडिंग एजेंट विकसित नहीं किया है।

हालांकि, आप पाएंगे कि ये काउंटरएग्जांपल मॉडल वास्तविक दुनिया के परिदृश्यों के करीब और संदूषण से मुक्त अधिक प्रामाणिक बेंचमार्क पर रैंकिंग हासिल करने में संघर्ष करते हैं। उदाहरण के लिए, डीपसीक केवल SWE-bench बैश पर 70% स्कोर करता है और नौवें स्थान पर आता है, लेकिन SWE-bench प्रो पर इसका स्कोर लगभग 15% तक गिर जाता है।

ओपनराउटर के वास्तविक दुनिया के ट्रैफ़िक डेटा से इस विसंगति को समझाया जा सकता है: प्लेटफ़ॉर्म की 2025 की रिपोर्ट से पता चलता है कि क्लाउड टोकन की खपत का 80% से अधिक हिस्सा प्रोग्रामिंग और तकनीकी कार्यों के लिए इस्तेमाल किया गया था, जबकि डीपसीक टोकन की खपत मुख्य रूप से अनौपचारिक बातचीत और रोल-प्लेइंग पर केंद्रित थी।

जिन विक्रेताओं के पास अपने स्वयं के कोडिंग उत्पाद नहीं हैं, वे कुछ कोडिंग कार्य बेंचमार्क पर उच्च रैंक प्राप्त करने में सक्षम हो सकते हैं, लेकिन वे अधिक चुनौतीपूर्ण वास्तविक दुनिया के इंजीनियरिंग बेंचमार्क और वास्तविक दुनिया के ट्रैफ़िक में अक्षम साबित होंगे जहां उपयोगकर्ता वोट देने के लिए टोकन का उपयोग करते हैं।

कर्सर ही नहीं, बल्कि एंथ्रोपिक ने भी नवंबर 2025 में प्रकाशित एक शोध पत्र में स्पष्ट रूप से बताया कि वह भी ठीक यही कर रहा था: "हम एंथ्रोपिक के अपने वास्तविक उत्पादन प्रोग्रामिंग वातावरण पर प्रशिक्षण देते हैं।" यानी, एंथ्रोपिक प्रशिक्षण के लिए क्लाउड कोड का उपयोग करके अपने कर्मचारियों के इंटरैक्शन डेटा को क्लाउड मॉडल को वापस भेजता है।

5.

कृत्रिम बुद्धिमत्ता के विकास में, उत्पादन कारकों की परिभाषा में गहरा बदलाव आया है। यद्यपि तीन पारंपरिक मूल तत्व—गणना शक्ति, अनुसंधान और प्रशिक्षण डेटा—कुल मात्रा में लगातार बढ़ रहे हैं, लेकिन उनकी संरचना में गंभीर असंतुलन आ गया है।

आज की प्रमुख एआई कंपनियों ने कंप्यूटिंग शक्ति पर अपने पूंजीगत व्यय (कैपेक्स) में उल्लेखनीय वृद्धि की है, जिससे कंप्यूटिंग अवसंरचना वर्तमान सार्वजनिक चर्चा का प्रमुख विषय बन गई है। हालांकि, वास्तविकता में, विशेष रूप से प्रोग्रामिंग के क्षेत्र में, मॉडल विक्रेता इंटरनेट पर सार्वजनिक रूप से उपलब्ध कोड डेटा, जैसे कि गिटहब रिपॉजिटरी और स्टैक ओवरफ्लो, का इस तरह से उपयोग कर रहे हैं जैसे "तालाब को सुखाकर सारी मछलियाँ पकड़ ली जाएँ", जिससे कोड निर्माण और तार्किक तर्क में मॉडलों की सीमाएँ धीरे-धीरे स्पष्ट होती जा रही हैं।

यही कारण है कि उद्योग जगत में आम सहमति धीरे-धीरे एक उभरते हुए नए रणनीतिक उच्च स्तर की ओर बढ़ रही है:

किसी भी मॉडल विक्रेता के लिए जो शीर्ष-स्तरीय कोडिंग क्षमताओं में महारत हासिल करना चाहता है, अपना खुद का कोडिंग एजेंट उत्पाद बनाना अब एक वैकल्पिक व्यावसायिक मार्ग नहीं है, बल्कि अंतर्निहित मॉडल के निरंतर विकास को सुनिश्चित करने के लिए एक मुख्य जीवन रेखा है।

जैसा कि APPSO ने पहले तर्क दिया था, सार्वजनिक रूप से उपलब्ध डेटा से सीखना सफल लोगों के परिणामों को जानने जैसा है, सफलता के मार्ग को समझे बिना। सफलता की सही समझ निश्चित रूप से यह नहीं है। वास्तविक प्रोग्रामिंग वातावरण में, यह जानना कि क्या त्रुटियाँ हुईं, वे कैसे हुईं, और आवश्यकताओं को सही ढंग से कैसे समझा जाए और कुशलतापूर्वक कैसे लागू किया जाए—सही प्रक्रिया को समझना—सही परिणाम प्राप्त करने से कहीं अधिक मूल्यवान है।

केवल अपने स्वयं के कोडिंग उत्पादों के होने से ही मॉडल विक्रेता उच्च-गुणवत्ता वाले "प्रक्रिया पर्यवेक्षण" संकेत प्राप्त कर सकते हैं, जिससे यह सुनिश्चित होता है कि वे कोडिंग/अनुमान क्षमताओं में प्रतिस्पर्धा के अगले चरण में एक तकनीकी बढ़त बनाए रखें।

अन्यथा, उन्हें वही करना होगा जो SpaceXAI ने किया और कोडिंग एजेंट उत्पाद कंपनियों के साथ साझेदारी करने के लिए पैसा खर्च करना होगा।

हालांकि, सभी मॉडल निर्माता मस्क जितने धनी नहीं हैं, और 2026 से शुरू होने वाले दिग्गजों के बीच सत्ता का विभाजन, गठबंधन और क्षेत्रीय संघर्ष और भी तीव्र हो जाएंगे। जब कोई मॉडल निर्माता, जिसके पास अपने स्वयं के कोडिंग उत्पाद नहीं हैं, अंततः इस बात को समझेगा, तो उसके पास चुनने के लिए पर्याप्त साझेदार नहीं होंगे, और सहयोग की कीमत भी उसी अनुपात में बढ़ जाएगी।

प्रमुख अमेरिकी मॉडल निर्माताओं की स्थिति आम तौर पर सर्वविदित है, इसलिए हम यहां विस्तार से चर्चा नहीं करेंगे। APPSO ने यह भी पाया है कि अधिकांश मुख्यधारा के घरेलू मॉडल निर्माता और एआई दिग्गज पहले ही कोडिंग एजेंट उत्पादों के क्षेत्र में प्रवेश कर चुके हैं।

घरेलू दिग्गज कंपनियां मुख्य रूप से नेटिव एआई आईईडी या आईईडी प्लगइन्स पर काम कर रही हैं: बाइटडांस ने पिछले साल की शुरुआत में ही TRAE लॉन्च किया था, अलीबाबा के पास Qoder है, टेनसेंट के पास CodeBuddy है और Baidu के पास Comate है, आदि।

एआई कंपनियों में, मून की डार्क साइड स्वतंत्र कोडिंग एजेंट उत्पाद विकसित करने वाली पहली कंपनी थी, मुख्य रूप से सीएलआई इंटरफेस के साथ किमी कोड। हालांकि, किमी ने पहले ही खुलासा कर दिया था कि सीएलआई नेटिव प्रोग्रामिंग उत्पादों का अंतिम रूप नहीं होगा

एक अन्य तरीका यह है कि मॉडल विक्रेता अपनी खुद की एपीआई सेवाएं और कोडिंग योजनाएं प्रदान करें। इस तरह, उपयोगकर्ता द्वारा उपयोग किए जाने वाले एआई विकास वातावरण की परवाह किए बिना, मॉडल विक्रेता सर्वर-साइड एपीआई रिकॉर्ड के माध्यम से मूल कोडिंग उत्पाद के लगभग समान प्रक्रिया डेटा प्राप्त कर सकता है।

हालांकि, यह केवल एक निकट अनुमान है, सटीक समानता नहीं। मूल समस्या यह है कि सर्वर-साइड एपीआई के अनुरोध-प्रतिक्रिया लॉग, उत्पाद के अंतर्निहित अंतःक्रिया पैटर्न से काफी भिन्न हैं।

कर्सर, क्लाउड डेस्कटॉप और कोडेक्स जैसे अपने स्वयं के अंतर्निहित उत्पादों वाले विक्रेताओं के पास सबसे प्रत्यक्ष और स्पष्ट प्रतिक्रिया संकेत होते हैं, जबकि एपीआई पक्ष अपेक्षाकृत अस्पष्ट अप्रत्यक्ष अनुमान प्रदान करता है। सरल शब्दों में कहें तो, एपीआई पक्ष उपयोगकर्ता के अनुरोधों और प्रतिक्रियाओं को देख सकता है, लेकिन उसे इस बात का कोई अंदाजा नहीं होता कि उपयोगकर्ता ने अंततः कोड को अपनाया या नहीं, कोड सफलतापूर्वक चला या नहीं, या इससे क्या त्रुटियाँ उत्पन्न हुईं। वे उपयोगकर्ता के अंतिम व्यवहार के इस महत्वपूर्ण संकेत को नहीं समझ पाते, जिसके परिणामस्वरूप वे उच्चतम गुणवत्ता वाले सुदृढ़ीकरण शिक्षण को प्राप्त करने में विफल रहते हैं।

दार्शनिक दृष्टि से, भाषा ही संसार है और कोड ही समाधान है। कोड इस संसार के अधिकांश कार्यों को व्यक्त कर सकता है, और यह एक प्रवर्धक के रूप में भी कार्य करता है, जिससे प्रतिभाशाली लोग अपनी उत्पादकता को कई गुना बढ़ा सकते हैं।

केवल सर्वश्रेष्ठ कोडिंग मॉडल ही सर्वश्रेष्ठ प्रतिभा के हकदार हैं। यदि प्रमुख मॉडल विक्रेता कोडिंग को महत्व नहीं देते हैं, तो वे अनिवार्य रूप से शीर्ष श्रेणी से बाहर हो जाएंगे।

बेशक, वास्तविकता में, हर मॉडल निर्माता कोडिंग को महत्व देगा – लेकिन नए प्रतिमान के तहत, जिन उत्पादों में अपना स्वयं का नियंत्रणीय मूल कोडिंग एजेंट नहीं होता है, उनके ऐसे उत्पादों वाले निर्माताओं से धीरे-धीरे पिछड़ने की संभावना बहुत अधिक होती है।

कुछ ही दिन पहले, मिनीमैक्स ने अपने डेस्कटॉप क्लाइंट उत्पाद के लिए एक बड़ा अपडेट भी जारी किया: मेविस फीचर जिसमें एक बिल्कुल नया मल्टी-एजेंट ऑर्केस्ट्रेशन आर्किटेक्चर है, जो कोडिंग कार्यों के लिए क्लाइंट के समर्थन में भी काफी सुधार करता है।

इससे पहले, मिनीमैक्स ने केवल डेस्कटॉप संस्करण लॉन्च किया था, लेकिन इसमें नेटिव कोडिंग और एजेंट सुविधाएँ शामिल नहीं थीं।

इसके बाद, 15 मई को, अलीबाबा ने आधिकारिक तौर पर Qoder 1.0 जारी किया – इस उत्पाद को आधिकारिक तौर पर एक IDE से एक पूर्ण एजेंट उत्पाद में अपग्रेड किया गया (अलीबाबा का आधिकारिक नाम इंटेलिजेंट एजेंट सेल्फ-डेवलपमेंट वर्कबेंच है)।

इसी बीच, xAI का Grok Build CLI आखिरकार आधिकारिक तौर पर लॉन्च हो गया है।

जी हां, यह वही कोडिंग एजेंट है जिसे xAI ने खुद विकसित किया था, जब इस साल की शुरुआत में Anthropic और Cursor द्वारा उनके खातों पर प्रतिबंध लगा दिया गया था।

और अब, कई और तैयार उदाहरण मौजूद हैं।

ऐसा लगता है कि सभी इस बात से सहमत हैं कि कर्सर, कोडक्स और क्लाउड डेस्कटॉप क्लाइंट सही दिशा में आगे बढ़ रहे हैं।

6.

यही बात तब भी लागू होती है जब हम चर्चा को कोडिंग से आगे बढ़ाकर एजेंट तक ले जाते हैं।

हालांकि कोडिंग कार्यों के लिए कुछ प्रक्षेपवक्र डेटा सार्वजनिक रूप से उपलब्ध संग्रहों (जैसे कि GitHub कमिट रिकॉर्ड/PR, हालांकि गुणवत्ता उच्च नहीं है) में पाया जा सकता है, लेकिन एजेंट कार्यों के लिए प्रक्षेपवक्र डेटा, जिसमें माउस को हिलाना और क्लिक करना, टचस्क्रीन का उपयोग करना और इनपुट बॉक्स भरना शामिल है, लेकिन इन्हीं तक सीमित नहीं है, सार्वजनिक रूप से उपलब्ध संग्रहों में नहीं पाया जा सकता है।

इसलिए, हम देखते हैं कि एजेंट संचालन के सबसे छोटे कार्यान्वयन पथ में भी – ब्राउज़र प्लगइन, जो बिल्कुल भी उच्च-स्तरीय नहीं लगता – लगभग हर मॉडल विक्रेता अपना खुद का प्लगइन बनाता है।

OpenAI ने जनवरी 2025 में ऑपरेटर लॉन्च किया था – इसे "एआई-स्वचालित ब्राउज़र" कहने के बजाय, यह मूल रूप से एक बड़े पैमाने पर डेटा संग्रह उपकरण है। ऑपरेटर का उपयोग करने वाला प्रत्येक उपयोगकर्ता OpenAI को नीति संबंधी डेटा निःशुल्क प्रदान करता है।

इसके बाद, OpenAI ने ChatGPT एजेंट और Codex डेस्कटॉप एप्लिकेशन का एक नया संस्करण बनाया; Anthropic के साथ भी ऐसा ही हुआ; हाल ही में, Kimi ने चुपचाप WebBridge नामक एक प्रोजेक्ट बनाया, जो मूल रूप से एक ब्राउज़र प्लगइन है।

यहां तक ​​कि चीनी मॉडल कंपनी डीपिन, जिसने पिछले दो वर्षों में अपनी गतिविधियों में सबसे संयम बरता है, ने भी हाल ही में एजेंट्स में रुचि दिखाना शुरू कर दिया है।

एक पिछले साक्षात्कार में, सीईओ लियांग वेनफेंग ने उल्लेख किया था कि गणित और कोड एजीआई के लिए स्वाभाविक परीक्षण मैदान हैं, कुछ हद तक गो की तरह, एक बंद और सत्यापन योग्य प्रणाली जिसमें स्व-शिक्षा के माध्यम से उच्च बुद्धिमत्ता प्राप्त करने की क्षमता है।

इस कथन का अंतर्निहित अर्थ यह है कि डीपसीक ने हमेशा कोडिंग और एजेंटों को व्यावसायीकरण के बजाय अनुसंधान और परीक्षण के क्षेत्र के रूप में माना है।

हालांकि, इस साल मार्च में, डीपसीक ने एक साथ एक दर्जन से अधिक एजेंट-संबंधित पदों की घोषणा की, जिसमें पहली बार मॉडल स्ट्रैटेजी प्रोडक्ट मैनेजर (एजेंट-केंद्रित) का पद भी शामिल था। उस समय नौकरी के विवरण में "एजेंट मूल्यांकन प्रणालियों और प्रशिक्षण डेटा समाधानों के डिजाइन का नेतृत्व करना" शामिल था और इसके लिए "क्लाउड कोड और मैनस जैसे उत्पादों का गहन उपयोग" आवश्यक था।

APPSO ने बताया कि DeepSeek ने हाल ही में एजेंट प्रोडक्ट मैनेजर और हार्नेस प्रोडक्ट मैनेजर जैसे पदों के लिए नौकरी के अवसर पोस्ट किए हैं – स्पष्ट रूप से, DeepSeek एक स्वतंत्र, नेटिव कोडिंग/एजेंट उत्पाद बनाने जा रहा है।

पिछली रिपोर्टों से पता चला था कि DeepSeek V3.2 ने अपने प्रशिक्षण प्रक्रिया के दौरान लगभग दो हज़ार कृत्रिम एजेंट प्रशिक्षण वातावरण और अस्सी हज़ार से अधिक जटिल निर्देशों को शामिल किया था। हालांकि, ऐसा लगता है कि कृत्रिम प्रशिक्षण डेटा DeepSeek को केवल यहीं तक सीमित रख सकता है; शेष भाग—वास्तविक दुनिया के वातावरण में वास्तविक उपयोगकर्ताओं की वास्तविक सफलताएँ और विफलताएँ—केवल उनके अपने एजेंट उत्पादों के माध्यम से ही प्राप्त की जा सकती हैं।

डीपसीक पिछले तीन वर्षों से अपने मॉडल और उत्पादों को अत्यंत संयम से विकसित कर रहा है ( इसने अपनी आधिकारिक वेबसाइट पर मल्टीमॉडल क्षमताएं पिछले महीने ही जोड़ी हैं)। हालांकि, आज डीपसीक के लिए कोडिंग कार्यों में अत्याधुनिक (SOTA) प्रदर्शन हासिल करना तेजी से कठिन होता जा रहा है , और यहां तक ​​कि जो प्रदर्शन उसने पहले हासिल किया था, वह भी जल्द ही पीछे छूट जाता है।

जब मुख्य बल अनुसंधान पर निर्भर रहकर फ्लाईव्हील को सहारा देने में सक्षम नहीं रह गया, तब अंततः डीपसीक ने कार्रवाई की।

7.

अंत में, आइए शुरुआत की कहानी पर वापस लौटते हैं।

द इंफॉर्मेशन के अनुसार, मामले से परिचित सूत्रों का हवाला देते हुए, मस्क के 60 अरब डॉलर के अधिग्रहण प्रस्ताव/10 अरब डॉलर के सहयोग प्रस्ताव को स्वीकार करते हुए, कर्सर ने कहा कि वह नए मॉडल विकसित करने के लिए xAI के साथ सहयोग नहीं करेगा, बल्कि इसके बजाय अपने स्वयं के कंपोजर मॉडल को अनुकूलित करने पर ध्यान केंद्रित करेगा।

इसका मतलब यह हो सकता है कि अगर कर्सर को मस्क द्वारा खरीदा या अधिग्रहित कर लिया जाता है, तब भी उसे अपने डेटा फ्लाईव्हील के मूल को बनाए रखने की आवश्यकता होगी।

डेटा का स्वामित्व ही विवाद का सबसे महत्वपूर्ण छिपा हुआ मुद्दा है।

जब सभी शीर्ष मॉडल निर्माताओं ने अपने स्वयं के उत्पाद बना लिए हैं, और सभी शीर्ष उत्पाद निर्माताओं ने अपने स्वयं के मॉडलों को प्रशिक्षित करना शुरू कर दिया है, तो "मॉडल कंपनियों" और "उत्पाद कंपनियों" के बीच पहले से ही धुंधली हो चुकी रेखा और भी अधिक लुप्त होती प्रतीत हो रही है…

यह खेल अभी शुरू ही हुआ है।

#iFanr के आधिकारिक वीचैट अकाउंट को फॉलो करने के लिए आपका स्वागत है: iFanr (वीचैट आईडी: ifanr), जहां आपको जल्द से जल्द और भी रोमांचक सामग्री प्रस्तुत की जाएगी।