घरेलू “छोटी स्टील तोप” जिसने रातोंरात GPT-4V को पलट दिया, AI iPhone के खिलाफ लड़ने के लिए Huawei और Xiaomi के लिए प्रमुख हथियार हो सकता है

एक बड़े मॉडल को मोबाइल फोन में डालने में कितने कदम लगते हैं?

यदि 2023 जेनरेटिव एआई के विस्फोट का पहला वर्ष है, तो विभिन्न निर्माता इस वर्ष एक दुर्लभ आम सहमति पर पहुंचे हैं – पूरी तरह से बड़े एंड-साइड मॉडल पर दांव लगा रहे हैं।

"कुशल बड़े मॉडल" में विशेषज्ञता वाली एक नई एआई कंपनी के रूप में, वॉलफेस इंटेलिजेंस आज सबसे शक्तिशाली एंड-साइड मल्टी-मोडल ओपन सोर्स मॉडल MiniCPM-Llama3-V 2.5 लॉन्च करके फिर से अपनी ताकत बढ़ा रहा है।

  • सबसे मजबूत एंड-साइड मल्टी-मोडल व्यापक प्रदर्शन: मल्टी-मोडल दिग्गज जेमिनी प्रो और जीपीटी-4वी को पीछे छोड़ना
  • OCR क्षमताएँ SOTA! 9 गुना अधिक स्पष्ट पिक्सेल, जिससे लंबी छवियों और लंबे टेक्स्ट को सटीक रूप से पहचानना मुश्किल हो जाता है
  • छवि एन्कोडिंग 150 गुना तेज है! पहला एंड-साइड सिस्टम-स्तरीय मल्टी-मोडल त्वरण

घरेलू "छोटी स्टील तोप" की तीसरी गोली GPT-4V को पछाड़ते हुए यहाँ है

जिस तरह मनुष्य दुनिया का पता लगाने के लिए अपनी पांच इंद्रियों पर भरोसा करते हैं, उसी तरह एआई के विकास में मल्टी-मोडल क्षमताएं एक आवश्यक पाठ्यक्रम हैं।

केवल 8B एंड-साइड मॉडल के साथ, MiniCPM-Llama3-V 2.5, जो "छोटे के साथ बड़ा" है, ने मूल्यांकन प्लेटफ़ॉर्म OpenCompass पर 65.1 स्कोर किया, न केवल यह क्लोज्ड-सोर्स मॉडल Qwen-VL-Max से तुलनीय है समग्र प्रदर्शन हेवीवेट खिलाड़ी GPT- 4V और जेमिनी प्रो को भी मात देता है।

OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) के व्यापक बेंचमार्क परीक्षण में, MiniCPM-Llama3-V 2.5 ने 725 अंक का स्कोर हासिल किया, जो GPT-4V से काफी बड़े अंतर से आगे था, और क्लाउड 3V ओपस जैसे लीपफ्रॉग मॉडल को पीछे छोड़ दिया।

मतिभ्रम करने की क्षमता सबसे बड़ी जिद्दी समस्या है जो कम समय में बड़े मॉडलों को परेशान करती है। MiniCPM-Llama3-V 2.5 ने इस समस्या में भी सुधार किया है।

ऑब्जेक्ट हेलबेंच बेंचमार्क परीक्षण में प्रतिबिंबित, इसकी मतिभ्रम दर MiniCPM-V 2.0 (2B) में 14.5 से तेजी से गिरकर 10.3 हो गई, जो एक बार फिर GPT-4 V और LLaVA-NeXT-34B से आगे निकल गई।

RealWorldQA बेंचमार्क एक मॉडल की वास्तविकता की समझ का परीक्षण है।

MiniCPM-Llama3-V 2.5 ने 63.5 की उत्तर पुस्तिका प्रदान की, जो इंटर्नवीएल-चैट-V1.5 (26B) के बाद दूसरे स्थान पर है, लेकिन फिर भी GPT-4V और जेमिनी प्रो से आगे है।

स्व-विकसित हाई-डेफिनिशन छवि कुशल एन्कोडिंग तकनीक पर भरोसा करते हुए, MiniCPM-Llama3-V 2.5 1.8 मिलियन हाई-डेफिनिशन पिक्सेल छवियों की कुशल एन्कोडिंग और दोषरहित पहचान का समर्थन करता है, और किसी भी पहलू अनुपात का समर्थन करता है, यहां तक ​​कि 1:9 की चरम अनुपात वाली छवि का भी समर्थन करता है। इसके लिए, यह सिर्फ केक का एक टुकड़ा है।

"देखने में सक्षम होना" केवल शुरुआत है, इससे भी अधिक महत्वपूर्ण यह जानना है कि "कैसे सोचें" MiniCPM-Llama3-V 2.5 जटिल तर्क क्षमताओं को एक नए स्तर पर ले जाता है।

अधिकारियों ने कहा कि "द थ्री-बॉडी प्रॉब्लम" के प्रसिद्ध उद्धरणों से उकेरी गई एक कलात्मक इमारत का उदाहरण देते हुए, एक सामान्य बड़ा मॉडल केवल छवि के मॉडल का मोटे तौर पर वर्णन कर सकता है, लेकिन MiniCPM-Llama3-V 2.5 इसे "द थ्री-बॉडी प्रॉब्लम" के साथ जोड़ सकता है। थ्री-बॉडी प्रॉब्लम" मान्यता प्राप्त जानकारी पर आधारित है। "किताबें।

▲MiniCPM-Llama3-V 2.5

▲GPt-4V

आप अपनी अंतर्दृष्टि भी दे सकते हैं – इन इमारतों को संभवतः उपन्यास और चीनी विज्ञान कथा साहित्य में इसके योगदान को मनाने के लिए डिजाइन किया गया था।

या इसे एशियाई आहार पिरामिड का अंग्रेजी संस्करण दें, और यह तुरंत एक व्यक्तिगत पोषण विशेषज्ञ बन सकता है और सप्ताह के लिए व्यंजनों को अनुकूलित कर सकता है।

यदि आप लंबे लेख पढ़ने में बहुत आलसी हैं, तो इसे MiniCPM-Llama3-V 2.5 पर छोड़ दें, और फिर प्रश्न पूछें, यह यथासंभव शीघ्र उत्तर देगा।

अब, MiniCPM-Llama3-V 2.5 30+ भाषाओं का समर्थन करता है, जिसमें जर्मन, फ्रेंच, स्पेनिश, इतालवी, रूसी और अन्य मुख्यधारा की भाषाएँ शामिल हैं, बेल्ट एंड रोड के किनारे के देशों की भाषाएँ मूल रूप से आपकी उंगलियों पर हैं।

यह ध्यान दिया जाना चाहिए कि MiniCPM-Llama3-V 2.5 वास्तव में ओपन सोर्स मॉडल Llama3-8B-Instruct पर आधारित एक फाइन-ट्यून मॉडल है।

अतीत में, एआई को एक ही समय में छवियों और पाठ जैसी विभिन्न सूचनाओं को तेज गति से संसाधित करने देना एक बड़ी समस्या थी, हालांकि, वॉल-फेसिंग इंटेलिजेंस एक एनपीयू त्वरण ढांचे को अपनाता है, जिसे विशेष रूप से गति देने के लिए डिज़ाइन किया गया है छवियों के प्रसंस्करण, मोबाइल फोन पर एआई को अधिक कुशलता से काम करने को बढ़ावा देना।

आधिकारिक परिचय के अनुसार, वॉल-फेसिंग केवल पहली बार एंड-साइड सिस्टम त्वरण कर सकती है, वर्तमान में, MiniCPM-Llama3-V 2.5 को मोबाइल फोन पर कुशलतापूर्वक तैनात किया गया है और छवि एन्कोडिंग में 150 गुना त्वरण हासिल किया है।

उदाहरण के लिए, मोबाइल फोन पर लामा 3 भाषा मॉडल की डिकोडिंग गति लगभग 0.5 टोकन/सेकेंड है, जबकि मल्टी-मोडल मॉडल MiniCPM-Llama3-V 2.5 ने कई अनुकूलन के माध्यम से मोबाइल फोन पर भाषा डिकोडिंग गति को 3 तक सुधार दिया है। सीपीयू -4 टोकन/एस जैसी विधियाँ।

MiniCPM-Llama3-V 2.5 खुला स्रोत पता संलग्न है:
 https://github.com/OpenBMB/MiniCPM-V

डिवाइस-साइड मॉडल, मोबाइल फ़ोन निर्माताओं के लिए युद्ध का मैदान

पिछले दो वर्षों में, डिवाइस-साइड मॉडल अक्सर प्रमुख टर्मिनल निर्माताओं के स्पीच पीपीटी में दिखाई दिए हैं।

तथाकथित एंड-साइड मॉडल वे कृत्रिम बुद्धिमत्ता मॉडल हैं जो टर्मिनल उपकरणों पर चलते हैं। इन मॉडलों को आम तौर पर अंतिम डिवाइस की कंप्यूटिंग शक्ति और संसाधन बाधाओं को समायोजित करने के लिए पर्याप्त हल्के वजन के लिए डिज़ाइन किया गया है।

GPT-4 के ऑनलाइन होने के बाद, "एआई गॉडफादर" जेफ्री हिंटन ने एक बार बताया था कि मुझे लगता है कि एक ऐसा चरण होगा जहां हम बड़ी कंप्यूटिंग शक्ति वाले कंप्यूटरों पर प्रशिक्षण लेंगे। एक बार मॉडल प्रशिक्षित हो जाने के बाद, इसे कम-शक्ति वाले उपकरणों पर चलाया जा सकता है। .

एंड-साइड मॉडल की विशेषता यह है कि यह डेटा को रिमोट सर्वर पर भेजे बिना डेटा को संसाधित करने और निर्णय लेने के लिए डिवाइस साइड (जैसे स्मार्टफोन, एम्बेडेड सिस्टम इत्यादि) पर चल सकता है।

उपरोक्त शब्दों को अलग करके, हम एंड-साइड मॉडल के फायदों की खोज कर सकते हैं:

  • स्थानीय रनिंग: मॉडल रिमोट सर्वर पर निर्भर हुए बिना डिवाइस पर स्थानीय रूप से चलता है।
  • वास्तविक समय प्रसंस्करण: डिवाइस पर वास्तविक समय में डेटा संसाधित करने की क्षमता, तेजी से प्रतिक्रिया प्रदान करती है।
  • कम विलंबता: चूंकि डेटा को डिवाइस और सर्वर के बीच स्थानांतरित करने की आवश्यकता नहीं होती है, इसलिए इसकी विलंबता कम होती है।
  • गोपनीयता सुरक्षा: डेटा को स्थानीय रूप से संसाधित किया जाता है, जिससे डेटा रिसाव का खतरा कम हो जाता है और गोपनीयता सुरक्षा बढ़ जाती है।
  • नेटवर्क स्वतंत्रता: एंड-साइड मॉडल नेटवर्क कनेक्टिविटी के बिना भी काम करता है।
  • संसाधन अनुकूलन: टर्मिनल डिवाइस के सीमित कंप्यूटिंग संसाधनों और भंडारण स्थान के अनुकूल होने के लिए एंड-साइड मॉडल को आमतौर पर अनुकूलित करने की आवश्यकता होती है।
  • विभिन्न उपकरणों पर लागू: क्लाइंट-साइड मॉडल को विभिन्न प्रकार के टर्मिनल उपकरणों पर तैनात किया जा सकता है, जिनमें स्मार्टफोन, स्मार्ट होम डिवाइस, पहनने योग्य डिवाइस आदि शामिल हैं, लेकिन यह इन्हीं तक सीमित नहीं है।
  • लघुकरण और अनुकूलन: मॉडल के आकार को कम करने और परिचालन दक्षता में सुधार करने के लिए मॉडल को संपीड़न, छंटाई, परिमाणीकरण और अन्य तकनीकी प्रक्रियाओं से गुजरना पड़ सकता है।

बेशक, क्लाइंट-साइड बड़ा मॉडल और क्लाउड बड़ा मॉडल सहक्रियात्मक हैं, विरोध का उत्पाद नहीं।

तो हम देखते हैं कि जबकि लामा 3 और क्लाउड जैसे बड़े मॉडल पूरे जोरों पर विकसित हो रहे हैं, एंड-साइड मॉडल पर शोध पीछे नहीं रहा है।

NVIDIA के वैज्ञानिक JImFan ने बताया कि नवीनतम GPT-4o संभवतः एक डिस्टिल्ड छोटा मॉडल है, और लाभ स्पष्ट हैं – अधिक परिष्कृत और अधिक कुशल।

चाहे वह माइक्रोसॉफ्ट द्वारा पिछले महीने जारी किया गया Phi-3 हो, वॉलफेस इंटेलिजेंस द्वारा जारी की गई प्रदर्शन छोटी स्टील तोप श्रृंखला, या हाल ही में Apple द्वारा ओपन सोर्स के रूप में घोषित मॉडल की OpenELM श्रृंखला, नए छोटे आकार के मॉडल लगातार लॉन्च किए जा रहे हैं।

एआई अनुप्रयोगों के कार्यान्वयन के लिए 2024 एक महत्वपूर्ण वर्ष है, और डिवाइस-साइड मॉडल भी इस वर्ष गति प्राप्त कर रहे हैं और चमकने की तैयारी कर रहे हैं।

एक निर्विवाद तथ्य यह है कि अधिकांश मौजूदा टर्मिनल नवाचार बाधा अवधि तक पहुंच गए हैं। उदाहरण के तौर पर हमारे शरीर पर "बढ़ने" वाले मोबाइल फोन को लें, जब स्टीव जॉब्स ने आईफोन निकाला तो आश्चर्य और नवीनता की भावना समय की लंबी नदी में खो गई है।

एआई-संचालित टर्मिनल नवाचार का प्रस्ताव, भले ही यह वास्तविकता से अधिक नौटंकी हो या वर्तमान में "पैसा देने" के लिए भविष्य की तकनीक का उपयोग कर रहा हो, वास्तव में मोबाइल फोन जैसे उपकरणों की कल्पना को और अधिक उजागर कर सकता है और तोड़ने का एक महत्वपूर्ण बिंदु बन सकता है। खेल।

यह इस प्रवृत्ति के तहत है कि डिवाइस-साइड मॉडल अब केवल एक अवधारणा नहीं है जो सैद्धांतिक चर्चाओं या निर्माता ब्रोशर में बनी हुई है, यह धीरे-धीरे हमारे दैनिक जीवन में प्रवेश करना शुरू कर दिया है।

पिछले साल अगस्त में HamonyOS 4 सम्मेलन में, यू चेंगडोंग ने बड़े एआई मॉडल तक पहुंचने के लिए स्मार्ट सहायक ज़ियाओयी की क्षमता की घोषणा की थी। इसके तुरंत बाद, लेई जून ने खुलासा किया कि Xiaomi ने अपने मोबाइल फोन पर 1.3B पैरामीटर के साथ एक बड़ा मॉडल चलाया है, और कुछ दृश्यों के प्रभाव क्लाउड के प्रभाव के बराबर हैं।

"युवुजिया" घरेलू मोबाइल फोन में से कोई भी पीछे नहीं रहा। एंडर्सजीपीटी पर आधारित ओप्पो जियाबू असिस्टेंट, 7बी टर्मिनल-साइड एआई बड़े मॉडल से लैस ऑनर मैजिक 6 और ब्लू हार्ट बड़े मॉडल मैट्रिक्स से लैस विवो की भी एक के बाद एक आधिकारिक घोषणा की गई है।

आज सुबह के शुरुआती घंटों में, ब्लूमबर्ग के रिपोर्टर मार्क गुरमन ने खबर दी कि ऐप्पल सिरी के वॉयस फ़ंक्शन को और अधिक संवादी बनाने के लिए इसमें सुधार करेगा और उपयोगकर्ताओं को दैनिक जीवन से निपटने में मदद करने के लिए फ़ंक्शन जोड़ देगा, जिसमें शामिल हैं:

  • iPhone सूचनाओं को स्वचालित रूप से सारांशित करें
  • समाचार लेखों का सारांश प्रस्तुत करें
  • वॉइस मेमो ट्रांसक्राइब करें
  • ऑटोफ़िलिंग कैलेंडर और ऐप्स की अनुशंसा के लिए मौजूदा सुविधाओं में सुधार करें
  • एआई फ़ोटो संपादन

जहां तक ​​कोर वॉयस असिस्टेंट सिरी का सवाल है, भविष्य में इसके ओपनएआई या जेमिनी के डिवाइस-साइड मॉडल के साथ निकटता से जुड़े होने की संभावना है।

हालांकि लोकप्रिय एआई हार्डवेयर रैबिट आर1 को एंड्रॉइड शेल के रूप में सवाल उठाया गया है, लेकिन प्रेस कॉन्फ्रेंस में इसने जो दिखाया वह एआई फोन की आदर्श स्थिति का एक प्रोफ़ाइल भी है – एक ऐसी प्रणाली जिसमें अनुप्रयोगों और सुचारू इंटरैक्शन के बीच कोई बाधा नहीं है।

हालाँकि, यह स्थिति रातोरात नहीं बनती है। यदि एआई वॉयस असिस्टेंट वास्तव में उपयोगकर्ताओं को समझ सकता है और उम्मीद के मुताबिक एप्लिकेशन शेड्यूल कर सकता है, तो यह न केवल उपयोगकर्ता अनुभव को पूरी तरह से नष्ट कर देगा, बल्कि मोबाइल फोन निर्माताओं और तीसरे के बीच संबंध भी बदलने की उम्मीद है। -पार्टी एप्लिकेशन डेवलपर्स।

उदाहरण के लिए, ऐसी खबर आई है कि Apple, जो हमेशा बंद रहता था, ने तकनीकी परिवर्तन की इस धार के सामने सक्रिय रूप से खुलेपन को अपनाना शुरू कर दिया है।

मेलियस रिसर्च के बेन रेइट्ज़ के अनुसार, Apple को आगामी WWDC में AI अनुप्रयोगों के लिए समर्पित एक स्टोर लॉन्च करने की उम्मीद है। यह न केवल Apple की खुली रणनीति में एक महत्वपूर्ण मोड़ है, बल्कि AI युग में इसके रणनीतिक परिवर्तन का एक स्पष्ट संकेत भी है।

इससे यह भी पता चलता है कि ऐप्पल एक ओपन एआई इकोसिस्टम का निर्माण करके डेवलपर्स और उपयोगकर्ताओं के लिए अधिक मूल्य बनाने की कोशिश कर रहा है, साथ ही अपने लिए एक व्यापक बाजार स्थान भी जीत रहा है।

घर के करीब, MiniCPM-Llama3-V 2.5 जैसे एंड-साइड मॉडल ने अपनी ताकत साबित की है – मॉडल में न केवल "जितने बड़े पैरामीटर, उतना बेहतर प्रदर्शन" है, बल्कि यह सबसे छोटे पैरामीटर के साथ सबसे मजबूत प्रदर्शन का लाभ उठा सकता है!

साथ ही, जीवन में प्रवेश केवल पहला कदम है जब डेटा की यात्रा को शून्य तक छोटा कर दिया जाता है, डिवाइस-साइड मॉडल एआई को मानव सोच की तुलना में एक कदम तेजी से प्रतिक्रिया करने की अनुमति देता है, जिसका मतलब यह हो सकता है कि टर्मिनल उपकरणों का अगला वसंत आ गया है। सचमुच आ गया.

तब तक, उपयोगकर्ताओं और अंतिम उत्पादों के बीच प्रत्येक बातचीत से एक अनैच्छिक "वाह" ध्वनि उत्पन्न हो जाएगी।

# Aifaner के आधिकारिक WeChat सार्वजनिक खाते का अनुसरण करने के लिए आपका स्वागत है: Aifaner (WeChat ID: ifanr) आपको जल्द से जल्द अधिक रोमांचक सामग्री प्रदान की जाएगी।

ऐ फ़ैनर | मूल लिंक · टिप्पणियाँ देखें · सिना वीबो