एक चीनी एआई कंपनी ने आखिरकार 60 अरब मापदंडों वाले विशाल मॉडल को मोबाइल फोन में फिट करने की बाधा को दूर कर लिया है।

8 बिलियन पैरामीटर वाले एक बड़े मॉडल को आमतौर पर लगभग 16 जीबी वीडियो मेमोरी की आवश्यकता होती है। पैरामीटर जितने अधिक होंगे, उतनी ही अधिक वीडियो मेमोरी की खपत होगी, यही कारण है कि मेमोरी की कीमतें प्रतिदिन बढ़ रही हैं।

अब एक ऐसी विधि उपलब्ध है जिससे मॉडल के प्रदर्शन को प्रभावित किए बिना वीडियो मेमोरी को 6 गुना तक बचाया जा सकता है।

पिछले दो वर्षों में, इस प्रतीत होने वाले चरम दृष्टिकोण के इर्द-गिर्द एक वैश्विक तकनीकी प्रतिस्पर्धा आकार ले रही है। और इसी राह पर, पूरी तरह से घरेलू स्तर पर विकसित कंप्यूटिंग शक्ति पर आधारित एक समाधान ने अपना पहला जवाब दे दिया है।

इस मॉडल को 3 बाइट्स से भी कम में संपीड़ित किया गया है, जबकि इसकी 97% या उससे भी अधिक क्षमता बरकरार रखी गई है। MoE आर्किटेक्चर के साथ संयोजन करने पर, भविष्य में 8GB रैम वाले मोबाइल फोन पर 60 अरब पैरामीटर वाले एक बड़े मॉडल को सीधे चलाना संभव हो सकेगा।

यह अविश्वसनीय लगता है, उन्होंने यह कैसे किया?

क्या तीन मानों का उपयोग करके एक बड़ा मॉडल चलाया जा सकता है?

परंपरागत बड़े मॉडल अत्यंत सटीक संख्यात्मक भंडारण का उपयोग करते हैं, जिसका अर्थ है कि प्रत्येक भार हजारों भिन्न मान ले सकता है। यह अत्यधिक सटीक है लेकिन साथ ही मेमोरी की भी अधिक खपत करता है। त्रिगुणीय परिमाणीकरण एक विपरीत प्रक्रिया है: यह संभावित मानों की संख्या को हजारों से घटाकर तीन कर देता है। तकनीकी रूप से, इसे 1.58-बिट कहा जाता है क्योंकि तीन मानों को एन्कोड करने के लिए लगभग 1.58 बिट्स की आवश्यकता होती है।

यह संपीड़न कितना चरम है? एक उदाहरण देने के लिए: यदि एक पारंपरिक बड़े मॉडल का भार एक पूर्ण-रंगीन तस्वीर की तरह है, तो त्रिगुणीय परिमाणीकरण इसे केवल काले, सफेद और भूरे रंगों वाले एक न्यूनतम ग्राफिक में संपीड़ित करने जैसा है।

सहज रूप से, आपको लग सकता है कि इससे काफी नुकसान होगा। हालांकि, पिछले दो वर्षों के शोध ने बार-बार यह दिखाया है कि मॉडल के भार में बड़ी मात्रा में अनावश्यक जानकारी मौजूद है। यदि तीन मानों को ठीक से आवंटित किया जाए, तो वे मॉडल की अधिकांश क्षमताओं को संभालने के लिए पर्याप्त हैं।

यह कोई नया कॉन्सेप्ट नहीं है। 2024 में, माइक्रोसॉफ्ट रिसर्च ने BitNet b1.58 जारी किया, जो पहला व्यवस्थित प्रदर्शन था जिससे यह साबित हुआ कि एक बड़ा टर्नरी मॉडल फुल-प्रिसिजन मॉडल के प्रदर्शन के लगभग बराबर प्रदर्शन कर सकता है। इसके बाद माइक्रोसॉफ्ट ने पिछले साल BitNet b1.58 2B4T जारी किया, जो 2 अरब पैरामीटर और 4 ट्रिलियन टोकन के साथ प्रशिक्षित एक ओपन-सोर्स टर्नरी मॉडल है। पिछले महीने, अमेरिकी कंपनी PrismML ने टर्नरी बोन्साई सीरीज़ जारी की, और दावा किया कि यह व्यावसायिक रूप से उपलब्ध पहले 1.58-बिट मॉडलों में से एक है।

ऊपर: लामा FP16 आर्किटेक्चर; नीचे: माइक्रोसॉफ्ट रिसर्च द्वारा विकसित बिटनेट आर्किटेक्चर।

शैक्षणिक समुदाय भी इसी राह पर चल रहा है: टेकीला ने त्रिगुणीय परिमाणीकरण में "डेड वेट ट्रैप" को हल करने के लिए एक नई विधि प्रस्तावित की, और टर्नरीएलएम ने शुरू से ही मूल त्रिगुणीय प्रशिक्षण की खोज की।

एक वैश्विक रेसिंग ट्रैक आकार ले रहा है। लेकिन एक अहम सवाल का जवाब अभी तक नहीं मिला है:

क्या घरेलू स्तर पर उत्पादित कंप्यूटिंग क्षमता पर एक त्रिगुणीय बड़े मॉडल का प्रशिक्षण सफलतापूर्वक चलाया जा सकता है?

एसेन्ड पर पहली बार

इस बार, हुआवेई कुनपेंग एसेंड डेवलपर कॉन्फ्रेंस (केएडीसी 2026) में, मियानबी एआई ने इसका जवाब दिया।

BitCPM-CANN वॉलफेसर द्वारा सिंघुआ विश्वविद्यालय और ओपनबीएमबी ओपन-सोर्स समुदाय के सहयोग से जारी किए गए त्रिगुणीय बड़े पैमाने के मॉडलों की एक श्रृंखला है। इसका महत्व केवल "एक और त्रिगुणीय मॉडल जारी करने" से कहीं अधिक है। वैश्विक स्तर पर, BitCPM-CANN ने तीन ऐसी उपलब्धियाँ हासिल की हैं जो पहले किसी ने नहीं की थीं।

पहली बार, हुआवेई के एसेंड प्लेटफॉर्म पर एक बड़े टर्नरी मॉडल का एंड-टू-एंड प्रशिक्षण पूरा किया गया। इससे पहले, सार्वजनिक रूप से उपलब्ध सभी टर्नरी मॉडल प्रशिक्षण एनवीडिया जीपीयू पर किए जाते थे। यह पहली बार है जब चीन के घरेलू चिप उद्योग के पास अपनी खुद की टर्नरी मॉडल प्रशिक्षण क्षमता है।
पहली बार, स्केल को एक ही बार में 8B तक बढ़ाया गया है। इससे पहले, एसेंड पर लो-बिट ट्रेनिंग छोटे पैमाने के सत्यापन तक सीमित थी। BitCPM-CANN ने सीधे चार स्तर जारी किए हैं: 0.5B, 1B, 3B और 8B, जो मोबाइल फोन से लेकर पीसी तक के सभी एज सिनेरियो को कवर करते हैं।
पहली बार, पूर्ण परिशुद्धता मॉडल के साथ एक संपूर्ण तुलनात्मक मूल्यांकन किया गया। 11 कार्यों और मूल्यांकन की चार श्रेणियों (सामान्य ज्ञान, पठन बोध, विषय ज्ञान और गणितीय तर्क) ने 1B से 8B कौशल स्तरों में 95.7% से 97.2% की प्रतिधारण दर प्रदर्शित की।

97.2% क्षमता प्रतिधारण दर का क्या अर्थ है? ARC, CMMLU और GSM8K जैसे प्रमुख बेंचमार्क में, समान आकार के BitCPM-CANN टर्नरी मॉडल और MiniCPM4 फुल-प्रिसिजन मॉडल के बीच प्रदर्शन का अंतर अब कई फुल-प्रिसिजन मॉडलों के बीच के अंतर से भी कम है। इनमें से, 3B स्तर की प्रतिधारण दर सबसे अधिक है, जो 97.2% तक पहुँचती है।

इसके अलावा, ये केवल एक शोध पत्र में दिए गए आंकड़े नहीं हैं; ये ऐसे परिणाम हैं जिन्हें वास्तव में सीधे उपयोग में लाया जा सकता है। BitCPM-CANN के सभी आकार ओपन सोर्स हैं, और 0.5B से 8B तक के सभी चार आकार सीधे डाउनलोड और पुनरुत्पादित किए जा सकते हैं।

MiniCPM श्रृंखला से परिचित डेवलपर्स के लिए, BitCPM-CANN MiniCPM परिवार का त्रिगुणित संस्करण है, और साथ ही एक इकोसिस्टम भी है। इसी GitHub समुदाय में, परिवार के पूर्ववर्तियों ने 30,000 स्टार प्राप्त किए हैं और Hugging Face के कुल डाउनलोड 30 मिलियन से अधिक हैं, और अब एक नई दिशा उभर रही है।

वीडियो मेमोरी में 6 गुना वृद्धि के साथ, सर्वर से लेकर मोबाइल फोन तक सभी को लाभ मिल रहा है।

BF16 फुल-प्रिसिजन मॉडल की तुलना में, BitCPM-CANN लगभग 6 गुना वीडियो मेमोरी बचाता है। यह अंतर डेवलपर्स को सबसे अधिक स्पष्ट रूप से दिखाई देता है: एक 8-बिट फुल-प्रिसिजन मॉडल के लिए लगभग 16GB वीडियो मेमोरी की आवश्यकता होती है, जबकि BitCPM-CANN के टर्नरी संस्करण को 3GB से कम मेमोरी की आवश्यकता होती है, जो मोबाइल फोन पर आसानी से चल सकता है। MoE और एक्टिवेशन रेंज की सीमाओं को ध्यान में रखते हुए, 60-बिट मॉडल टर्मिनल उपकरणों में आसानी से फिट हो सकता है।

हार्डवेयर भी तैयार है। क्वालकॉम के नवीनतम फ्लैगशिप चिप्स, 8850 और 8397, 2-बिट नेटिव इन्फरेंस का समर्थन करते हैं, और BitCPM-CANN कम बिट वेट प्रदान करता है जिसे सीधे इनपुट के रूप में दिया जा सकता है।

चिप निर्माता आपूर्ति का इंतजार कर रहे हैं, और मॉडल निर्माता चिप्स का इंतजार कर रहे हैं। अब जब दोनों पक्ष तैयार हैं, तो क्या यह "दोतरफा होड़" नहीं है?

स्मार्टफोन निर्माता कंपनियां बड़े पैमाने पर ऑन-डिवाइस मॉडल में अपना निवेश बढ़ा रही हैं। पिछले सप्ताह Google I/O में, Gemini Intelligence ने फोन से लेकर घड़ियों और वाहन प्रणालियों तक, सभी Android उपकरणों पर अपना नियंत्रण स्थापित कर लिया; Apple भी जून में WWDC में Apple Intelligence की अगली पीढ़ी के एक बड़े अपग्रेड का प्रदर्शन करेगा।

दो प्रमुख मोबाइल ऑपरेटिंग सिस्टमों के एक साथ किए गए प्रयास एक आम सच्चाई की ओर इशारा करते हैं: मोबाइल उपकरणों पर अधिक शक्तिशाली एआई चलाने के लिए मेमोरी सबसे बड़ी बाधा है। जो भी कम मेमोरी में अधिक शक्तिशाली मॉडल चला सकेगा, वह प्रतियोगिता के अगले दौर में बढ़त हासिल करेगा।

दरअसल, अगर हम पूरी एआई इंडस्ट्री में मौजूदा समय में चल रही शुरुआती दिक्कतों पर विचार करें, तो इसका मूल्य और भी बढ़ जाएगा: अप्रैल में, गोल्डमैन सैक्स ने अपने पूरे साल के डीआरएएम मूल्य वृद्धि पूर्वानुमान को बढ़ाकर 280% कर दिया, और बैंक ऑफ अमेरिका ने अनुमान लगाया कि वैश्विक एचबीएम बाजार 54.6 बिलियन डॉलर तक पहुंच जाएगा।

एआई इंफ्रास्ट्रक्चर में सबसे दुर्लभ संसाधन मेमोरी है। जीपीयू मेमोरी में 6 गुना वृद्धि का मतलब है कि भौतिक मेमोरी बढ़ाए बिना मॉडल की क्षमताओं को कई गुना बढ़ाया जा सकता है। मेमोरी की कीमतें लगातार बढ़ रही हैं, इसलिए यह सिर्फ एक अनुकूलन नहीं बल्कि एक आवश्यकता है।

त्रिगुणीय परिमाणीकरण "परिशुद्धता के बदले मेमोरी का त्याग" करने का समझौता नहीं है। जब 97% क्षमता बरकरार रहती है, तो यह दर्शाता है कि पारंपरिक 16-बिट मॉडल में परिशुद्धता की एक बड़ी मात्रा अनावश्यक हो सकती है। एक बड़े मॉडल में अधिकांश जानकारी को संभालने के लिए तीन मान ही पर्याप्त हैं। कम बिट गहराई अब इंजीनियरिंग में बचत का उपाय नहीं है, बल्कि भारित जानकारी को संभालने का एक नया तरीका है।

दीवार की ओर मुख करके काम करने वाली बुद्धिमत्ता क्यों? और अभी क्यों?

जैसे-जैसे एआई क्लाउड से एज कंप्यूटिंग की ओर बढ़ रहा है, एज मॉडल व्यक्तिगत स्मार्ट उपकरणों की एक प्रमुख क्षमता बनते जा रहे हैं। स्मार्टफोन, कंप्यूटर, वाहन प्रणाली—उपयोगकर्ता के सामने आने वाला हर उपकरण एक ऐसे मॉडल की प्रतीक्षा कर रहा है जो पर्याप्त रूप से छोटा, पर्याप्त रूप से शक्तिशाली और मेमोरी-कुशल हो। इस प्रतिस्पर्धा में सफलता की कुंजी उन टीमों के पास नहीं होगी जो केवल बड़े मॉडल बनाती हैं, बल्कि उनके पास होगी जो छोटे, हल्के और वास्तव में कार्यात्मक मॉडल बना सकती हैं।

वॉलफेसर एआई ही बड़े पैमाने पर एज मॉडल के क्षेत्र में अग्रणी क्यों रहा है? इस प्रश्न का उत्तर बिटसीपीएम-सीएएनएन में नहीं, बल्कि उस चीज़ में निहित है जो कंपनी पिछले कुछ वर्षों से कर रही है और जो कुछ हद तक "अपरंपरागत" प्रतीत होती है।

वॉलफेसर एआई ने शुरुआत से ही दक्षता पर ध्यान केंद्रित किया है। जहां चीन की अधिकांश टीमें बड़े मॉडल बनाने में लगी थीं, वहीं उन्होंने "कम संसाधनों के साथ पर्याप्त रूप से अच्छा मॉडल कैसे प्रशिक्षित किया जाए" की समस्या को हल करने के लिए अंतर्निहित प्रशिक्षण ढांचा बीएम-ट्रेन विकसित करने में काफी समय व्यतीत किया। यही बुनियादी ढांचा आगे आने वाली हर चीज का आधार बना।

वॉलफेसर का 1.58-बिट दिशा का आकलन उद्योग में आम सहमति से पहले का है। जबकि कई टीमें अभी भी अत्यंत कम बिट गहराई की व्यवहार्यता के बारे में संशय में थीं, वॉलफेसर ने यह मार्ग चुना, पहले जीपीयू पर संपूर्ण प्रशिक्षण प्रक्रिया और कार्यप्रणाली को सफलतापूर्वक लागू किया और फिर पूरे सिस्टम को एसेंड प्लेटफॉर्म पर स्थानांतरित कर दिया । संक्षेप में, बिटसीपीएम-सीएएनएन ने केवल एक मॉडल को घरेलू स्तर पर निर्मित चिप पर स्थानांतरित नहीं किया; बल्कि, इसने एक सिद्ध प्रशिक्षण कार्यप्रणाली, दक्षता दृष्टिकोण और इंजीनियरिंग प्रणाली को घरेलू कंप्यूटिंग शक्ति की नींव में एकीकृत किया।

मॉडल स्तर पर, वॉलफेस की मिनीसीपीएम श्रृंखला के एज मॉडल ने गिटहब पर 30,000 से अधिक स्टार अर्जित किए हैं, और हगिंग फेस को 30 मिलियन से अधिक बार डाउनलोड किया गया है, जिससे यह बड़े एज मॉडल के क्षेत्र में सबसे लोकप्रिय चीनी ओपन-सोर्स मॉडल परिवार बन गया है।

BitCPM-CANN, MiniCPM परिवार का त्रिगुणीय क्वांटाइजेशन में विस्तार है; यह महज एक प्रदर्शनात्मक "पावरपॉइंट मॉडल" से कहीं अधिक है; यह वास्तव में पुन: प्रयोज्य इंजीनियरिंग आधार है। इसके पीछे की प्रशिक्षण प्रणाली को Ascend लो-बिट प्रशिक्षण के बुनियादी ढांचे में शामिल किया गया है , जिससे Ascend पर लो-बिट प्रशिक्षण करने की इच्छुक कोई भी टीम एक ही प्लेटफॉर्म से शुरुआत कर सकती है।

यह उल्लेखनीय है कि BitCPM-CANN ने Huawei Ascend पर संपूर्ण चरणबद्ध प्रशिक्षण सफलतापूर्वक पूरा किया है, जिससे पारंपरिक आधारभूत दक्षता का 95% प्रशिक्षण दक्षता प्राप्त हुई है। इससे यह सिद्ध होता है कि यह पद्धति किसी विशिष्ट हार्डवेयर प्लेटफॉर्म पर निर्भर नहीं है और इसे घरेलू कंप्यूटिंग क्षमता का उपयोग करके सफलतापूर्वक कार्यान्वित किया जा सकता है।

हार्डवेयर के मॉडल के अनुकूल होने के लिए पर्याप्त शक्तिशाली बनने का इंतजार करने के बजाय, हमें मॉडल को हार्डवेयर के अनुकूल होने के लिए पर्याप्त स्मार्ट बनाने की आवश्यकता है।

प्रशिक्षण के लिए Huawei Ascend से लेकर अनुमान के लिए टर्मिनल चिप्स तक, और फिर ओपन-सोर्स मॉडल और प्रशिक्षण स्क्रिप्ट तक, यह एक पूर्ण घरेलू बंद चक्र है: घरेलू ढांचा, घरेलू चिप्स, घरेलू मॉडल और स्वतंत्र कार्यप्रणाली। Wallfacer का अगला कदम स्पष्ट है: मॉडल की क्षमता प्रतिधारण दर को और बेहतर बनाना, MoE आर्किटेक्चर का उपयोग करके बड़े पैमाने के मॉडलों की क्षमता का विस्तार करना, और तैनाती में 6x GPU मेमोरी के लाभ का पूरी तरह से उपयोग करना। दीर्घकालिक लक्ष्य पूर्व-प्रशिक्षण से लेकर संरेखण तक की पूरी प्रक्रिया को कम बिट डेप्थ के साथ कवर करना है।

बुनियादी प्रशिक्षण फ्रेमवर्क BM-Train से लेकर एज मॉडल परिवार MiniCPM और फिर BitCPM-CANN तक, Wallfacer AI ने कई वर्षों में एक संपूर्ण एज-साइड लार्ज मॉडल प्रौद्योगिकी प्रणाली विकसित की है। वैश्विक स्तर पर, Microsoft और PrismML जैसी कंपनियों के सामने, Wallfacer AI ने अपनी अनूठी क्षमताओं का प्रदर्शन किया है, क्योंकि इसने फ्रेमवर्क, कार्यप्रणाली और मॉडल से लेकर चिप अनुकूलन तक, एक संपूर्ण एज-साइड प्रौद्योगिकी रोडमैप तैयार किया है।

जब एआई की प्रतिस्पर्धा "किसके पास सबसे बड़ा मॉडल है" से बदलकर "कौन वास्तव में हर डिवाइस पर बुद्धिमत्ता को चला सकता है" की ओर मुड़ जाएगी, तो अत्याधुनिक तकनीकों पर चर्चा को नियंत्रित करने वाले लोग सबसे अधिक लाभप्रद स्थिति में होंगे।

#iFanr के आधिकारिक वीचैट अकाउंट को फॉलो करने के लिए आपका स्वागत है: iFanr (वीचैट आईडी: ifanr), जहां आपको जल्द से जल्द और भी रोमांचक सामग्री प्रस्तुत की जाएगी।