
GPT-5.5, Gemini 3.5 Flash और DeepSeek V4 Pro को पीछे छोड़ते हुए, अलीबाबा के नवीनतम फ्लैगशिप मॉडल, Qwen3.7 Max ने प्रोग्रामिंग प्रतियोगिता के लीडरबोर्ड में दूसरा स्थान हासिल किया, जो केवल Claude Opus 4.7 से पीछे रहा।

▲26 मई की रैंकिंग का स्क्रीनशॉट
वास्तविक दुनिया के परिदृश्यों में उपयोगकर्ता चयन के अलावा, Qwen3.7 Max ने टर्मिनल बेंच और SWE बेंच जैसी पारंपरिक बड़े पैमाने पर मॉडल मूल्यांकन सूचियों में घरेलू मॉडलों के बीच चैम्पियनशिप भी जीती।

हालांकि हमने पिछले चार वर्षों में इन लीडरबोर्डों को बार-बार अपडेट होते देखा है, फिर भी हम Qwen मॉडल का अनुभव करने के लिए उत्सुक हैं, जो GPT 5.5 को भी पीछे छोड़ सकता है, और यह देखना चाहते हैं कि यह वास्तव में कैसा प्रदर्शन करता है।
यह उल्लेखनीय है कि इस समय सबसे लोकप्रिय कोडिंग एजेंट संयोजन कोडेक्स है, जिसे जीपीटी 5.5 के साथ जोड़ा गया है।
यदि हम कोडेक्स में डिफ़ॉल्ट मॉडल को क्वेन 3.7 मैक्स में बदल दें और फिर कुछ दैनिक कार्यों को पूरा करने के लिए कोडेक्स का उपयोग करें, तो क्या यह जीपीटी 5.5 से भी बेहतर होगा?
Qwen 3.7 Max प्राप्त करें
विभिन्न कंपनियों द्वारा वर्तमान में पेश किए जा रहे विभिन्न टोकन प्रमोशनों का लाभ उठाते हुए, अलीबाबा क्लाउड भी मुफ्त उपयोग के लिए 1 मिलियन टोकन प्रदान कर रहा है, जिनका उपयोग अलीबाबा क्लाउड हंड्रेड रिफाइनमेंट्स प्लेटफॉर्म पर किया जा सकता है।

Qwen3.7 Max फिलहाल अलीबाबा क्लाउड वेबसाइट पर सीमित समय के लिए 50% की छूट पर उपलब्ध है। 6 येन प्रति मिलियन टोकन डालने पर 18 येन प्रति मिलियन टोकन मिलेंगे। नए उपयोगकर्ता 50% की छूट वाले रिचार्ज बचत प्लान का भी लाभ उठा सकते हैं, जिसके तहत उन्हें 10 येन प्रति माह में 20 येन मूल्य के टोकन मिलेंगे, जबकि स्टैंडर्ड टोकन प्लान की कीमत फिलहाल 198 येन प्रति माह है।

कुल मिलाकर, बड़े मॉडल एग्रीगेशन प्लेटफॉर्म ओपनराउटर के आंकड़ों के अनुसार, क्वेन 3.7 मैक्स की कीमत मध्यम श्रेणी में है। यह निश्चित रूप से डीपसीक की भारी छूट वाली कीमतों से प्रतिस्पर्धा नहीं कर सकता, लेकिन फिर भी यह ओपस 4.7 और जीपीटी 5.5 से काफी सस्ता है।


हमने सीधे "बिगिनर्स चॉइस" प्लान को रिचार्ज किया, जिसमें सभी मॉडलों पर 20 युआन की छूट मिलती है। हालांकि, कृपया ध्यान दें कि 50% की छूट केवल एक प्लान पर लागू होती है। यानी, अगर आप 10 युआन वाला प्लान खरीदते हैं, तो आप 50 युआन या 250 युआन वाले आधे दाम के प्लान नहीं खरीद सकते।

आइए DeepSeek, Claude, GPT, Gemini और Qwen का एक साथ परीक्षण करें।
एपीआई कुंजी और लाखों मुफ्त उपयोग टोकन प्राप्त करने के बाद, हमने सबसे पहले अलीबाबा क्लाउड के बैलियन प्लेटफॉर्म और कियानवेन की आधिकारिक वेबसाइट पर क्वेन 3.7 मैक्स का उपयोग करके कुछ सामान्य फ्रंट-एंड वेब पेज डिजाइन तैयार किए ताकि इसकी विकास क्षमताओं का परीक्षण किया जा सके।
भौतिक अनुकरण परीक्षणों के लिए जहां अंतर अधिक स्पष्ट रूप से दिखाई देते हैं, हम एक सरल निर्देश का उपयोग करते हैं: "HTML+CSS+JS का उपयोग करके एक एनीमेशन बनाएं जो एक कंटेनर में तरल के छलकने का अनुकरण करे; कंटेनर को खींचने से झुकाव कोण बदल जाएगा।"

▲ Qwen3.7-Max, आधिकारिक Qwen वेबसाइट द्वारा जनरेट किया गया
Qwen3.7 Max ने सिमुलेशन चुनौती को सफलतापूर्वक पूरा किया, और इसमें रंग अनुकूलन, हिलाने और तरल मात्रा समायोजन जैसी सुविधाएँ भी जोड़ी गईं।
डीपसीक अपेक्षाकृत सरल है, लेकिन इसमें कोई त्रुटि नहीं थी।

▲ DeepSeek V4, आधिकारिक वेबसाइट से जनरेट किया गया
जीपीटी-5.5 द्वारा उत्पन्न तरल पदार्थ थोड़ा विचित्र है। हालांकि कोण बदलने पर यह संबंधित दिशा में प्रवाहित होता है, लेकिन समग्र तरंग काफी अटपटी होती है।

▲ कोडेक्स द्वारा जनरेट किया गया GPT-5.5 अल्ट्रा हाई
जेमिनी 3.5 फ्लैश-जनरेटेड वेबपेजों में एक बग प्रतीत होता है; बोतल का आइकन कंट्रोल पैनल के पीछे छिप जाता है और आपको इसे मैन्युअल रूप से बाहर निकालना पड़ता है। हालांकि, उसी प्रॉम्प्ट संदेश के लिए, यह बोतल के प्रकार, तरल रंग और कई अन्य सेटिंग्स सहित कई अनुकूलन विकल्प प्रदान करता है।

▲जेमिनी 3.5 फ्लैश, आधिकारिक वेबसाइट से जनरेट किया गया, कैनवास विकल्प चुनें।
क्लाउड ओपस 4.7 की बोतल बहुत ही साधारण है, और जब यह ज़ोरदार होती है तो नकली तरल के छलकने का प्रभाव ध्वनि तरंगों के कंपन जैसा दिखता है।

▲ क्लाउड ओपस 4.7, क्लाउड कोड एप्लिकेशन का उपयोग करके जनरेट किया गया
इसके बाद, हमने इससे एक छोटा गेम बनाने की कोशिश की। हालाँकि पिछले साल वाइब कोडिंग के लिए गेम टेस्टिंग एक आम परीक्षण था, लेकिन इस बार हम चाहते थे कि AI छह-वर्ग ग्रिड वाला 2048 गेम बनाए। इनपुट प्रॉम्प्ट था, "एक खेलने योग्य 2048 गेम बनाओ, लेकिन ग्रिड षट्भुजाकार हो।"
Qwen3.7 Max द्वारा जनरेट किया गया पेज काफी अच्छा दिखता है। आप देख सकते हैं कि 10 संदर्भ स्रोतों में से अधिकांश CSDN के 2048 गेम जनरेशन ट्यूटोरियल से लिए गए हैं।
खेल अभी भी खेलने योग्य है, लेकिन कभी-कभी ऐसे क्षण आते हैं जब चीजें योजना के अनुसार नहीं होती हैं, जैसे कि जब समान संख्याएँ एक ही दिशा में व्यवस्थित होती हैं लेकिन अपनी सही स्थिति में नहीं होती हैं।

▲ Qwen3.7 Max, आधिकारिक वेबसाइट से जनरेट किया गया
DeepSeek V4 ने पिछले दौर के समान ही प्रदर्शन किया, लेकिन षट्भुज होने के बावजूद, इसमें स्लाइडिंग के लिए केवल WASD कुंजी ही उपलब्ध थी।

▲DeepSeek V4, आधिकारिक वेबसाइट द्वारा जनरेट किया गया
इस दौर में सबसे बेहतरीन प्रदर्शन शायद क्लाउड के ओपस 4.7 का रहा। इसने खेल की सही रणनीति को बखूबी समझा। ग्रिड की गति मधुकोश के नियमों के अनुरूप थी, इसलिए खिलाड़ियों को भ्रमित होने का कोई आसार नहीं था।

▲ क्लाउड ओपस 4.7, क्लाउड कोड एप्लिकेशन का उपयोग करके जनरेट किया गया
कोडेक्स की क्षमताओं का लाभ उठाते हुए, GPT 5.5 जनरेट किए गए गेम का ब्राउज़र में स्वचालित रूप से पूर्वावलोकन कर सकता है ताकि समस्याओं की जाँच की जा सके और प्रोजेक्ट कोड को ठीक करने के लिए कंसोल जानकारी प्राप्त की जा सके। जनरेट किया गया वेबपेज भी उत्कृष्ट है; हालाँकि, स्क्रीन पर माउस की गतिविधि की निगरानी करने में इसका प्रदर्शन Opus 4.7 जितना अच्छा नहीं है।

▲GPT-5.5 अल्ट्रा हाई, कोडेक्स द्वारा जनरेट किया गया
जेमिनी 3.5 फ्लैश ने हमेशा की तरह कई नए फीचर्स जोड़े। इसमें तीन गेम थीम शामिल थे: साइबर, डार्क गोल्ड और मैकरॉन, और साथ ही इसमें "उच्च गुणवत्ता वाले अंतर्निर्मित संगीत" भी शामिल थे।
गेमप्ले में नेटिव वेब ऑडियो द्वारा उत्पन्न रेट्रो 8-बिट स्पेस साउंड इफेक्ट्स (मर्ज, स्लाइड, पास लेवल, डाई) शामिल हैं, जो इमर्सिव अनुभव को तुरंत अधिकतम करते हैं।

▲जेमिनी 3.5 फ्लैश, आधिकारिक वेबसाइट से जनरेट किया गया, कैनवास विकल्प चुनें।
कुछ साधारण वेब पेजों के डिजाइन पर लौटते हुए, हमने उनसे एक सबवे संग्रहालय के लिए एक वेबसाइट बनाने को कहा, और इनपुट प्रॉम्प्ट केवल एक वाक्य था: "सबवे संग्रहालय नामक एक थीम वाली वेबसाइट डिजाइन करें, जिसमें गहन तल्लीनता की भावना की आवश्यकता हो।"
हमारा मूल उद्देश्य इन बड़े मॉडलों के माध्यम से विभिन्न शहरों से मेट्रो संबंधी अधिक से अधिक जानकारी, दुनिया भर की मेट्रो के लोगो को सूचीबद्ध करना और वेबसाइट की समग्र शैली को कलात्मक रूप से, एक विशिष्ट शैली और पर्याप्त विशेष प्रभावों के साथ प्रस्तुत करना था।
चलिए पहले Qwen3.7 Max को देखते हैं। सच कहें तो, इसका मूल्यांकन करना थोड़ा मुश्किल है। टेक्स्ट की ऊर्ध्वाधर व्यवस्था किसी मेट्रो ट्रेन जैसी दिखती है, लेकिन कुल मिलाकर वेबसाइट बहुत अव्यवस्थित लगती है।

▲ Qwen3.7-Max, आधिकारिक Qwen वेबसाइट द्वारा जनरेट किया गया
जेमिनी ने एक कदम और आगे बढ़ते हुए, ध्वनि प्रभावों का पुनः उपयोग किया। दिलचस्प बात यह है कि उन्होंने मेट्रो-थीम पर आधारित एक सांस्कृतिक और रचनात्मक उत्पाद भी बनाया: एक कस्टम स्मारक टिकट जनरेटर। उपयोगकर्ता अपना नाम दर्ज कर सकते हैं, एक स्टेशन चुन सकते हैं और तुरंत एक उच्च-गुणवत्ता वाला, रेट्रो-शैली का मेट्रो स्मारक टिकट प्राप्त कर सकते हैं।

▲ जेमिनी 3.5 फ्लैश, आधिकारिक वेबसाइट से जनरेट किया गया, कैनवास विकल्प चुनें।
डीपसीक द्वारा चुना गया प्रोजेक्ट जेमिनी के प्रोजेक्ट के समान था, जिसमें टिकट स्मारिका और ड्राइविंग अनुभव शामिल थे, लेकिन ये विशेषताएं अंतिम परिणाम में प्रस्तुत नहीं की गईं।

▲ DeepSeek V4, आधिकारिक वेबसाइट से जनरेट किया गया
GPT 5.5 अब काफी अच्छी शैली वाली वेबसाइटें बनाता है। हालांकि टेम्पलेट के उपयोग के कुछ स्पष्ट उदाहरण हैं, लेकिन कुल मिलाकर डिज़ाइन ऑनलाइन के लिए उपयुक्त है। एकमात्र कमी जानकारी का अभाव है। ऐसा लगता है कि यह इस बात को गलत समझता है कि एक सबवे संग्रहालय एक ऐसी वेबसाइट होनी चाहिए जो सबवे के बारे में जानकारी दे।

▲GPT-5.5 अल्ट्रा हाई, कोडेक्स का उपयोग करके जनरेट किया गया
पिछली बार दिए गए निर्देश के अनुसार, जैसे कि macOS/Windows ऑपरेटिंग सिस्टम बनाने के लिए कहना, इस बार हम "HTML के साथ एक पूर्ण ब्राउज़र ऑपरेटिंग सिस्टम बनाएं" दर्ज करते हैं।
DeepSeek V4 का प्रदर्शन काफी सरल है, जैसा कि Qwen3.7 Max का है, सिवाय इसके कि Qwen3.7 Max में एक अच्छी डेस्कटॉप पृष्ठभूमि छवि शामिल है।

▲ DeepSeek V4, आधिकारिक वेबसाइट से जनरेट किया गया

▲ Qwen3.7-Max, आधिकारिक Qwen वेबसाइट द्वारा जनरेट किया गया
लेकिन इस परीक्षण में मुझे सबसे ज्यादा प्रभावित करने वाले फोन जेमिनी 3.5 फ्लैश और जीपीटी 5.5 थे।
▲ जेमिनी 3.5 फ्लैश, आधिकारिक वेबसाइट से जनरेट किया गया, कैनवास विकल्प चुनें।
जेमिनी 3.5 फ्लैश की तरह, जीपीटी 5.5 में भी पूरे ऑपरेटिंग सिस्टम के लिए एक विस्तृत डिजाइन है, जिसमें एक विशिष्ट शैली है।
▲ GPT-5.5 अल्ट्रा हाई, कोडेक्स का उपयोग करके जनरेट किया गया
कोडेक्स में Qwen 3.7 Max का उपयोग करना
परीक्षण के एक दौर के बाद, ऐसा लगता है कि संवाद के माध्यम से छोटे वेब पेज प्रोजेक्ट बनाने में Qwen3.7 Max का प्रदर्शन हर बार Gemini और GPT 5.5 से बेहतर है, ऐसा कहना मुश्किल है, लेकिन अपने पूर्ववर्ती की तुलना में, मेरा मानना है कि इसमें काफी सुधार हुआ है।
कियानवेन की आधिकारिक वेबसाइट पर, हमने 3डी पृथ्वी, खाद्य श्रृंखला वर्गीकरण, विज़ुअलाइज़ेशन और व्यक्तिगत ब्लॉग जैसे कुछ कोड उदाहरण देखे। हालाँकि, इन वेब प्रोजेक्ट्स के लिए निर्देश काफी लंबे थे, जबकि हमने जिन प्रोजेक्ट्स का परीक्षण किया, वे सरल वाक्यों वाले थे।

▲सुझाव वाले शब्द दर्ज करने के बाद, कियानवेन "ऑप्टिमाइज़ेशन कमांड" का विकल्प भी प्रदान करता है।
हमने डीपसीक वी4 और जेमिनी 3.5 फ्लैश पर 3डी अर्थ प्रोजेक्ट के लिए भी उन्हीं टूलटिप्स का उपयोग किया, और परिणाम क्वेन 3.7 मैक्स के साथ प्राप्त परिणामों के लगभग समान थे।



इसका अर्थ यह है कि वर्तमान चरण में, Qwen3.7 Max अपनी क्षमताओं का पूरी तरह से उपयोग कर सकता है या नहीं, इसमें प्रॉम्प्ट अभी भी एक महत्वपूर्ण भूमिका निभाते हैं।
सुझाव शब्दों को अनुकूलित करने के लिए उपयोगकर्ताओं पर पड़ने वाले दबाव को कम करने का एक तरीका एजेंट उत्पादों के साथ एकीकृत करना और मॉडल की वास्तविक शक्ति को उजागर करने के लिए उनके कौशल और एजेंट सहयोग क्षमताओं का लाभ उठाना है।
अलीबाबा क्लाउड के आधिकारिक ट्यूटोरियल का अनुसरण करते हुए, हमने कोडेक्स टर्मिनल असिस्टेंट में क्वेन 3.7 मैक्स को सफलतापूर्वक एकीकृत कर लिया।

हालांकि, इसमें बग होने की संभावना है, क्योंकि कोडेक्स आपको लगातार "CODEX Missing environment variable" की याद दिलाता रहेगा।
आधिकारिक ट्यूटोरियल के अनुसार, ~/.codex/config.toml कॉन्फ़िगरेशन फ़ाइल को संशोधित करने के बाद, हमें कंप्यूटर के पर्यावरण चर को भी संशोधित करने की आवश्यकता होती है।
मॉडल की एपीआई कुंजी की जानकारी कंप्यूटर के पर्यावरण चर में संग्रहीत होती है (आपको अपने कंप्यूटर के शेल प्रकार की जांच करनी होगी और संबंधित पर्यावरण चर फ़ाइल, जैसे कि .bash_profile या .zshrc को संशोधित करना होगा), न कि कोडेक्स की config.toml कॉन्फ़िगरेशन फ़ाइल में।

परिवर्तन करने के बाद, टर्मिनल में Codex टाइप करें और आपको Qwen3.7 Max दिखाई देगा। Codex ऐप को दोबारा खोलें, और मुख्य इंटरफ़ेस पर मॉडल पिछले GPT-5.5 से बदलकर कस्टम मॉडल हो जाएगा।

इसी विधि का उपयोग करके, हम डीपसीक, मिनीमैक्स, किमी और ज़िपू जैसे मॉडलों को कोडेक्स में एकीकृत कर सकते हैं।
कुछ समय पहले, GitHub पर एक फ्रंट-एंड स्किल को 20,000 से अधिक स्टार मिले थे। यह AI द्वारा जनरेट किए गए फ्रंट-एंड इंटरफेस को बेहतर बनाने पर केंद्रित है, जो Qwen3.7 Max के लीडरबोर्ड पर दूसरे स्थान पर रहे टास्क के समान है।
हम पहले इस कौशल को कोडक्स में स्थापित करेंगे, और फिर इसे अन्य कौशलों के साथ मिलाकर देखेंगे कि क्या इसका बेहतर प्रभाव पड़ता है।

▲ पता: https://github.com/Leonxlnx/taste-skill
वही प्रॉम्प्ट दर्ज करें, और कोडेक्स फ्रंट-एंड डिज़ाइन और ब्रेनस्टॉर्मिंग जैसी स्किल्स का उपयोग करके डिज़ाइन पोजिशनिंग और कॉन्सेप्शन को पूरा करेगा, और कोडेक्स के प्रोसेस कंट्रोल के अनुसार प्रोजेक्ट जेनरेशन की कड़ी निगरानी करेगा।

अंत में, वही मॉडल कियानवेन की आधिकारिक वेबसाइट पर सीधे उपलब्ध होने की तुलना में कोडेक्स में काफी बेहतर प्रदर्शन करता है।
हालाँकि, यहाँ अभी भी एक समस्या उत्पन्न हो सकती है: "पूर्ण होने से पहले स्ट्रीम डिस्कनेक्ट हो गई: <400> InternalError.Algo.InvalidParameter: कोड मॉडल का "फ़ंक्शन.आर्गुमेंट्स" पैरामीटर JSON प्रारूप में होना चाहिए।"

जब मॉडल को विशेष टूल का उपयोग करने की आवश्यकता होती है, तो मॉडल से कनेक्ट करना असंभव हो जाता है। हमें ऑनलाइन इससे संबंधित केस स्टडी मिलीं, और इसका कारण यह बताया जा सकता है कि "मॉडल डिप्लॉयमेंट वेंडर को स्ट्रीमिंग आउटपुट फॉर्मेट में समस्या आ रही है, जो मानक OpenAI प्रोटोकॉल नहीं है, इसलिए यह API कॉल को सपोर्ट नहीं करता है, जिसके परिणामस्वरूप 400 एरर आता है।"
जब इस समस्या को समझाने के लिए कहा गया, तो कोडेक्स ने मॉडल में मौजूद एक समस्या की ओर भी इशारा किया।
ऐसा नहीं है कि आपने इसे गलत तरीके से कॉन्फ़िगर किया है; बल्कि, Qwen 3.7 Max / Bailian Responses API द्वारा Codex एजेंट टूल को किए जाने वाले कॉल अभी तक पर्याप्त रूप से स्थिर नहीं हैं। संचार सक्षम होना स्थिर Codex संचालन की गारंटी नहीं देता है। लंबे कार्यों, कोड संशोधनों और बार-बार फ़ाइल पढ़ने के लिए, आधिकारिक OpenAI मॉडल पर वापस जाना कहीं अधिक स्थिर होगा।
इसलिए यदि आपको भी यह समस्या आती है, तो शायद आपके पास Qwen टीम द्वारा इसे ठीक करने का इंतजार करने के अलावा कोई विकल्प नहीं है, या आप एक नया सत्र खोलने का प्रयास कर सकते हैं।

▲ अलीबाबा क्लाउड विभिन्न त्रुटि कोडों के लिए आधिकारिक समाधान दिशानिर्देश प्रदान करता है।
पिछले साल हम कह रहे थे कि मॉडल एक उत्पाद है, और एक अच्छा मॉडल एक अच्छा उत्पाद है। अब ऐसा लगता है कि केवल मॉडल होना ही पर्याप्त नहीं है।
जैसे-जैसे मॉडल की क्षमताएं बढ़ती हैं, वैसे-वैसे यह आर्किटेक्चर भी विस्तारित होता जाता है, जिसमें मेमोरी, हार्नेस, एजेंट ऑर्केस्ट्रेशन, वैलिडेशन और इन्फरेंस की स्थिरता शामिल हैं। लेकिन जब ये सभी चीजें ठीक से हो जाती हैं, तभी हम कह सकते हैं, "यह एक अच्छा मॉडल है।"
#iFanr के आधिकारिक WeChat अकाउंट को फॉलो करने के लिए आपका स्वागत है: iFanr (WeChat ID: ifanr), जहां आपको जल्द से जल्द और भी रोमांचक सामग्री प्रस्तुत की जाएगी।


