iPad GPT-4o स्तर के मॉडल भी चला सकता है। घरेलू छोटी स्टील तोप का नया मॉडल AI हार्डवेयर को अब बेकार नहीं बना सकता है।

हाल ही में समाप्त हुई सीईएस 2025 प्रदर्शनी में, हजारों एआई हार्डवेयर उत्पादों ने एक अटूट उद्योग प्रवृत्ति की पुष्टि की, यानी, एआई क्लाउड से हमारे आस-पास के हर डिवाइस में जबरदस्त गति से आगे बढ़ रहा है, और प्रत्येक लहर बड़ी और ऊंची होती जा रही है।

यह कहा जा सकता है कि AI अब उत्पादों के लिए प्लस पॉइंट नहीं है, बल्कि उत्पाद क्षमताओं की आधार रेखा है।

पारंपरिक निर्माताओं के लिए जिन्होंने हार्डवेयर में बहुत प्रयास किया है, छोटे टर्मिनल उपकरणों में एआई स्थापित करना आसान नहीं है। सौभाग्य से, AI मॉडल सेवा उद्योग धीरे-धीरे दो स्पष्ट मार्गों में विभेदित हो गया है: क्लाउड AI और ऑन-डिवाइस AI।

पूर्व क्षेत्र में, OpenAI द्वारा प्रतिनिधित्व किए गए निर्माताओं को हर कोई लंबे समय से जानता है, और जब बाद वाले की बात आती है, तो एक कंपनी विशेष रूप से आंख को पकड़ने वाली होती है – दीवार-सामना करने वाली बुद्धिमत्ता। वे शुरू से ही डिवाइस-साइड एआई रूट पर दांव लगा रहे हैं और अब वे एक महत्वपूर्ण खिलाड़ी बन गए हैं जिन्हें इस क्षेत्र में नजरअंदाज नहीं किया जा सकता है।

आज, फेस वॉल इंटेलिजेंस ने आधिकारिक तौर पर एक नया मॉडल MiniCPM-o 2.6 भी जारी किया।

केवल 8बी मापदंडों के साथ, यह वीडियो देख सकता है, ध्वनि सुन सकता है, पाठ पढ़ सकता है और इंसानों की तरह वाक्पटुता से बोल सकता है। इसके अलावा, इसकी प्रतिक्रिया मनुष्यों जितनी तेज़ है, लगभग कोई अंतराल नहीं है। अधिक लोकप्रिय शब्दों में, यह एक इंसान की तरह अपनी आंखों से देख सकता है, अपने कानों से सुन सकता है, अपने मुंह से बोल सकता है और अपने दिमाग से सोच सकता है।

मिनीसीपीएम-ओ 2.6 खुला स्रोत पता:
GitHub  https://github.com/OpenBMB/MiniCPM-o
गले मिलता हुआ चेहरा  :https://huggingface.co/openbmb/MiniCPM-o-2_6

असली वीडियो, फ़ोटो मॉकअप नहीं

जब हम कहते हैं कि MiniCPM-o 2.6 एक "वास्तविक वीडियो मॉडल" है, तो यह खोखली बात नहीं है। GPT-4o स्तर तक पहुंचने वाले दुनिया के पहले स्थानीय AI के रूप में, यह क्लाउड मॉडल से परे सर्वांगीण धारणा क्षमताओं को प्रदर्शित करता है।

आधिकारिक डेमो में, "थ्री इम्मोर्टल्स रिटर्न टू द केव" गेम खेलते समय, यह मेमोरी कार्ड गेम खेलते समय दर्शकों के प्रश्न पूछने से पहले गेंद की स्थिति को ट्रैक कर सकता है, यह प्रत्येक कार्ड के पैटर्न और स्थिति को सटीक रूप से याद रख सकता है .

बाजार में मौजूद कुछ मॉडलों या उत्पादों की तुलना में, जो वास्तविक समय में स्ट्रीमिंग वीडियो को समझने का समर्थन करने का दावा करते हैं, MiniCPM-o 2.6 उपयोगकर्ता द्वारा प्रश्न पूछने से पहले छवियों और ध्वनियों को समझ सकता है, जिससे उन्हें सुनने, देखने और महसूस करने की अनुमति मिलती है, और यह उनके करीब है। मानव आँख की प्राकृतिक दृश्य अंतःक्रिया।

निरंतर अवलोकन और वास्तविक समय को समझने की यह क्षमता कुछ ऐसी है जिसे अन्य बड़े फोटो मॉडल हासिल नहीं कर सकते हैं।

आइए ध्वनियों के बारे में बात करते हैं। MiniCPM-o 2.6 न केवल मानव भाषण को समझ सकता है, बल्कि मानव आवाजों के अलावा पृष्ठभूमि ध्वनियों को भी अलग कर सकता है, जैसे कागज फाड़ना, पानी डालना, धातु का टकराना और अन्य ध्वनियाँ। और यहां तक ​​कि GPT-4o भी ऐसा नहीं कर सकता.

अलग-अलग स्वरों में कहा गया एक ही "हैलो" एक गर्मजोशी भरा अभिवादन या ठंडी प्रतिक्रिया हो सकता है।

इंसानों और एआई के बीच संचार इतना स्वाभाविक होना चाहिए।

पारंपरिक एआई मॉडल प्रक्रिया कुछ हद तक "अनुवाद" के दूसरे रूप की तरह लगती है, पहले ध्वनियों को पाठ में बदलना, और फिर पाठ को वापस ध्वनियों में बदलना। इस तरह, वक्ता के उच्चारण और भावना जैसी सूक्ष्म विशेषताएं खो जाती हैं।

लेकिन MiniCPM-o 2.6 अलग है।

मानव कान की तरह, यह ध्वनि के विभिन्न विवरणों को सीधे पकड़ और समझ सकता है। इतना ही नहीं, बल्कि यह ध्वनि की भावना और शैली को आवश्यकतानुसार समायोजित कर सकता है, और विशिष्ट ध्वनियों की नकल भी कर सकता है या विवरण के आधार पर पूरी तरह से नई ध्वनियाँ बना सकता है।

वास्तविक जीवन में MiniCPM-o 2.6 के उत्कृष्ट प्रदर्शन को बेंचमार्क परीक्षण सूची में भी अच्छी तरह से निर्धारित किया गया है, और इसने दृश्य-श्रव्य "ट्रायथलॉन" में सभी SOTA हासिल किए हैं:

MiniCPM-o 2.6 ने रियल-टाइम स्ट्रीमिंग फुल-मोडल ओपन सोर्स मॉडल SOTA हासिल किया है, और इसका प्रदर्शन GPT-4o और क्लाउड-3.5-सॉनेट के बराबर है, जो आवाज के मामले में दुनिया के उच्चतम स्तर का प्रतिनिधित्व करते हैं, इसने समझ हासिल की है और ओपन सोर्स डुअल SOTA की पीढ़ी, दृष्टि के क्षेत्र में सबसे मजबूत ओपन सोर्स वॉयस यूनिवर्सल मॉडल के लिए प्रयास कर रही है, जहां फायदे हमेशा प्रमुख रहे हैं, यह मजबूती से सबसे मजबूत एंड-टू-साइड विजन सामान्य मॉडल के रूप में स्थापित है।

स्ट्रीमिंगबेंच पर, वास्तविक समय स्ट्रीमिंग वीडियो समझने की क्षमताओं की एक प्रतिनिधि सूची, MiniCPM-o 2.6 का प्रदर्शन भी GPT-4o और क्लाउड 3.5 Somnnet के बराबर है। यह ध्यान देने योग्य है कि GPT-4o API एक ही समय में आवाज और वीडियो इनपुट नहीं कर सकता है, वर्तमान में मात्रात्मक मूल्यांकन टेक्स्ट और वीडियो इनपुट करता है।

भाषण समझ के मामले में, यह Qwen2-ऑडियो 7B से आगे निकल जाता है और सामान्य मॉडल ओपन सोर्स SOTA (ASR, भाषण विवरण और अन्य कार्यों सहित) का एहसास करता है, MiniCPM-o 2.6 GLM-4-वॉयस 9B से आगे निकल जाता है और एहसास करता है; सामान्य मॉडल खुला स्रोत SOTA।

"उपयोग योग्य" से "उपयोग में आसान" तक, हमने दीवार का सामना किया और अपना रास्ता खुद बनाया

MiniCPM-o 2.6 का लॉन्च मॉडल कंप्रेशन, हार्डवेयर अनुकूलन और पूर्ण-मोडल स्ट्रीमिंग आर्किटेक्चर में इसकी तकनीकी सफलताओं से अविभाज्य है।

  1. एंड-टू-एंड फुल-मोडल स्ट्रीमिंग आर्किटेक्चर: मिनीसीपीएम 3.0 के 4बी मॉडल के आधार पर, मॉड्यूलर डिजाइन के माध्यम से दृष्टि और आवाज की एकीकृत प्रसंस्करण हासिल की जाती है। मल्टी-मोडल जानकारी के दोषरहित प्रसारण को सुनिश्चित करने और उत्पन्न सामग्री की स्वाभाविकता में सुधार करने के लिए मॉड्यूल एंड-टू-एंड तरीके से जुड़े हुए हैं।
  2. कम-विलंबता मोडल समवर्ती प्रौद्योगिकी: समानांतर प्रसंस्करण के लिए इनपुट सिग्नल को समय स्लाइस में विभाजित करने के लिए समय विभाजन मल्टीप्लेक्सिंग तकनीक का नवीन रूप से उपयोग करता है। उपयोगकर्ता इनपुट के अंतिम समय को निर्धारित करने के लिए बुद्धिमान शब्दार्थ का उपयोग किया जाता है, जिससे सिस्टम प्रतिक्रिया देरी को प्रभावी ढंग से कम किया जा सकता है।
  3. एंड-टू-एंड पूर्ण-मोडल प्रवाह सीखना: भाषण व्यवहार सिद्धांत के आधार पर, मॉडल केवल जानकारी को संसाधित नहीं करता है, बल्कि वक्ता के सामाजिक इरादों को समझता है। मल्टी-मॉडल पर्यावरण सीखने और भूमिका-निभाने के माध्यम से, अधिक उन्नत अर्थ संबंधी समझ हासिल की जाती है, जो भविष्य में सन्निहित रोबोट अनुप्रयोगों की नींव रखती है।

वास्तव में, जब हम अपना ध्यान इन चकाचौंध तकनीकी उपलब्धियों से हटाकर एंड-साइड मॉडल के वास्तविक परिचालन वातावरण की ओर मोड़ते हैं, तो हमें एक वस्तुनिष्ठ वास्तविकता का सामना करना पड़ता है। टर्मिनल उपकरणों पर मॉडल परिनियोजन को अभी भी तीन प्रमुख चुनौतियों का सामना करना पड़ता है: मेमोरी, बिजली की खपत और कंप्यूटिंग शक्ति।

ऐप्पल ने अपने पेपर "एलएलएम इन ए फ्लैश" में बताया कि 7 बिलियन अर्ध-सटीक मापदंडों वाले एक भाषा मॉडल को टर्मिनल में पूरी तरह से लोड करने के लिए 14 जीबी से अधिक डीआरएएम स्पेस की आवश्यकता होती है; मेटा ने अपने मोबाइल एलएलएम मॉडल पेपर में बताया कि एक पूर्ण शक्ति लगभग 5,000 जूल का मॉडल iPhone के लिए, केवल 7B मॉडल 10 टोकन/सेकंड की AI पीढ़ी दर पर 2 घंटे से कम बातचीत का समर्थन करता है।

रेफ्रिजरेटर में एक हाथी को फिट करने के लिए, मोबाइल फोन चिप निर्माताओं ने उन्नत विनिर्माण प्रक्रियाओं, मेमोरी क्षमता और बैंडविड्थ, और सीपीयू और जीपीयू प्रदर्शन पर ध्यान केंद्रित करते हुए एआई चिप्स के अनुसंधान और विकास को तेज कर दिया है। समग्र टर्मिनल हार्डवेयर क्षमताओं में सुधार और एआई मॉडल को बेहतर समर्थन देने के लिए मोबाइल फोन ब्रांड उच्च-प्रदर्शन बैटरी और कूलिंग घटकों से भी लैस होंगे।

हालाँकि, हार्डवेयर सुधार समाधान का केवल एक हिस्सा है। वास्तविक बाधा यह है कि कम मापदंडों के साथ अधिक बुद्धिमत्ता कैसे लाई जाए। .

वॉलफेस टीम के शोध से पता चलता है कि डेटा, कंप्यूटिंग शक्ति और एल्गोरिदम की सहयोगात्मक प्रगति के साथ, कम मापदंडों के साथ समान स्तर की बुद्धिमत्ता हासिल की जा सकती है। उदाहरण के लिए, GPT-3 की क्षमताएं, जिसके लिए 2020 में 175 बिलियन मापदंडों की आवश्यकता थी, फरवरी 2024 तक केवल 2.4 बिलियन मापदंडों के साथ हासिल की जाएगी।

इस खोज के आधार पर, वॉल-फेसिंग टीम ने पिछले साल की शुरुआत में बड़े मॉडल घनत्व कानून (डेंसिंग कानून) का प्रस्ताव रखा था।

मॉडल क्षमता घनत्व समय के साथ तेजी से बढ़ता है, और समान क्षमता प्राप्त करने वाले मॉडल पैरामीटर हर 3.3 महीने (लगभग 100 दिन) में आधे से कम हो जाते हैं, समय के साथ मॉडल अनुमान ओवरहेड तेजी से घट जाता है, और मॉडल प्रशिक्षण ओवरहेड समय के साथ तेजी से घट जाता है।

मॉडल को कुशलतापूर्वक संपीड़ित किया जाता है और अंततः टर्मिनल हार्डवेयर के लिए अनुकूलित किया जाता है, और परिणामस्वरूप उद्योग की प्रगति स्वाभाविक रूप से आएगी।

उपभोक्ता इलेक्ट्रॉनिक्स में अगले मोड़ का आगमन अब एक साधारण हार्डवेयर अपग्रेड नहीं है, बल्कि उत्पादों के उपयोग के तरीके और अंतर्निहित तर्क से उपयोगकर्ता अनुभव में बदलाव है, जो बाजार में नए अवसर और विकास बिंदु भी लाता है।

ऑन-डिवाइस एआई उत्पादों के लिए उपभोक्ताओं की मांग लगातार बढ़ रही है, और वे स्मार्ट और अधिक सुविधाजनक उत्पादों के लिए अधिक कीमत चुकाने को तैयार हैं। इससे कंपनियों को ऑन-डिवाइस एआई प्रौद्योगिकी अनुसंधान और विकास और उत्पाद नवाचार में निवेश बढ़ाने के लिए प्रेरित किया जाएगा।

आईडीसी की भविष्यवाणियों के अनुसार, 2024 में, चीन के टर्मिनल उपकरण बाजार में आधे से अधिक उपकरणों में हार्डवेयर स्तर पर एआई कंप्यूटिंग कार्यों के लिए कंप्यूटिंग पावर फाउंडेशन होगा, यह अनुपात बढ़कर लगभग 80% हो जाएगा।

CES 2025 प्रदर्शनी में, हमने यह भी देखा है कि डिवाइस-साइड मॉडल और हार्डवेयर के एकीकरण ने AIPC, AIPhone, AI स्मार्ट ग्लास, AI साथी खिलौने आदि सहित इलेक्ट्रॉनिक उत्पादों की एक श्रृंखला को जन्म दिया है।

वॉल-फेसिंग इंटेलिजेंस का विकास पथ भी इस प्रवृत्ति की पुष्टि करता है।

पिछले साल की दूसरी छमाही में ही, वॉल-फेसिंग इंटेलिजेंट मिनीसीपीएम एंड-साइड मॉडल को त्वरित गति से लॉन्च किया गया था, इसने हुआवेई क्लाउड, एक्सेलेरेटेड इवोल्यूशन रोबोट, एलिफेंट रोबोट, वुटोंग टेक्नोलॉजी, ग्रेट वॉल मोटर्स के साथ क्रमिक रूप से सहकारी संबंध स्थापित किए हैं। मीडियाटेक, Baidu स्मार्ट क्लाउड और इंटेल, और इसका व्यावसायिक क्षेत्र इंटेलिजेंट कॉकपिट, रोबोट, डिवाइस-क्लाउड सहयोग और अन्य क्षेत्रों तक फैल गया है।

वॉल-फेसिंग इंटेलिजेंस के सीईओ ली दहाई ने एपीपीएसओ के साथ एक साक्षात्कार में कहा कि मिनीसीपीएम-ओ 2.6 मजबूत सन्निहित विशेषताओं वाले उपकरणों पर ध्यान केंद्रित करेगा। वर्तमान में, वॉल-फेसिंग इंटेलिजेंस ने अपने विकास में तेजी लाने के लिए ह्यूमनॉइड रोबोट निर्माताओं के साथ एक गहन सहकारी संबंध स्थापित किया है।

उनकी राय में, यह पूर्ण-मोडल एंड-साइड मॉडल रोबोट के "मस्तिष्क" कार्य में सुधार कर सकता है और रोबोट की ऑन्टोलॉजी प्रणाली के लिए महत्वपूर्ण तकनीकी सहायता प्रदान कर सकता है। वह इसे अधिक रोबोट निर्माताओं, ऑटोमोबाइल, मोबाइल फोन के साथ एकीकृत करने के लिए भी तत्पर है। आदि। विशिष्ट विशेषताओं वाले उपकरण निर्माताओं के साथ सहयोग करें।

मिनीसीपीएम के विकास के इतिहास को देखते हुए, पहली पीढ़ी के मिनीसीपीएम 1.0 फ्लैगशिप क्लाइंट-साइड मॉडल की रिलीज से लेकर मिनीसीपीएम 3.0 की पुनरावृत्ति तक, हमने क्लाइंट-साइड चैटजीपीटी क्षण की शुरुआत की। मिनीसीपीएम ने हमेशा "छोटी और व्यापक + उच्च दक्षता और कम लागत" की लाइन का अभ्यास किया है।

साथ ही, वॉल-फ़ेसिंग इंटेलिजेंस हमेशा चीन में ओपन सोर्स बड़े पैमाने के मॉडल के चलन पर खड़ा रहा है।

फरवरी 2024 में रिलीज़ होने के बाद से, एंड-साइड मॉडल की मिनीसीपीएम श्रृंखला को 4 मिलियन से अधिक बार डाउनलोड किया गया है, जिससे यह हगिंग फेस 2024 में दुनिया में सबसे लोकप्रिय चीनी मॉडल बन गया है।

एआई प्रौद्योगिकी की समग्रता विकास के तीन चरणों से गुजर रही है: पहला, इसे सभी के उपयोग के लिए किफायती बनाना, फिर इसे उपयोग में सुविधाजनक बनाना, और अंत में इसे उपयोग में आरामदायक बनाना।

दीवार-सामना करने वाली बुद्धिमत्ता इस अंतिम मील के परिवर्तन को तेज कर रही है।

# Aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr) आपको जल्द से जल्द अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फ़ैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो