iFlytek के पहले AI चश्मे ने AI वर्कफ़्लो में क्रांति लाने के लिए केवल 40 ग्राम वजन का उपयोग किया है।

2026 अभी आधा भी नहीं बीता है, और 30 से अधिक एआई चश्मे पहले ही लॉन्च हो चुके हैं।

हुआवेई, अलीबाबा की कियानवेन, रोकिड, थंडरबर्ड और श्याओमी जैसे स्थापित खिलाड़ियों के अलावा, रोबाम अप्लायंसेज ने भी एआई कुकिंग ग्लासेस लॉन्च किए हैं, और बीओई ने साइक्लिंग ग्लासेस बनाए हैं… बाजार में इतने सारे अलग-अलग उत्पादों के साथ, वे सभी मूल रूप से तीन चीजों पर केंद्रित हैं: कौन इसे हल्का बना सकता है, किसका कैमरा बेहतर है, और किसके लेंस बड़े और बेहतर डिस्प्ले स्क्रीन के लिए उपयुक्त हैं।

इस उत्साह के बीच, एक आंकड़े को अक्सर नजरअंदाज कर दिया जाता है।

वर्तमान में, मुख्यधारा के ई-कॉमर्स प्लेटफॉर्म पर एआई चश्मे की वापसी दर चिंताजनक रूप से उच्च है, आमतौर पर लगभग 30% । लाइव-स्ट्रीमिंग चैनलों पर, जहां आवेगपूर्ण खरीदारी की संख्या अधिक होती है, वापसी दर 40% से 50% तक भी पहुंच सकती है।

उपयोगकर्ता नवीनता के चलते ऑर्डर देते हैं, कुछ दिनों तक पहनते हैं और फिर चुपचाप लौटा देते हैं। शुरुआती उच्च बिक्री के बाद गिरावट, और लगातार उच्च वापसी दर, कई एआई चश्मों के विशिष्ट "जीवनचक्र" का निर्माण करती है।

सीधे शब्दों में कहें तो, एक बार जब इसका नयापन खत्म हो जाता है, तो उपभोक्ता सोचने लगेंगे: इसे पहनने के बाद वास्तव में इससे मुझे क्या फायदा होगा?

आज, iFlytek ने मकाऊ में अपने पहले AI चश्मे लॉन्च किए। 40 ग्राम के इन चश्मों में प्रभावशाली पिक्सल संख्या, फुल-कलर स्क्रीन या फैशनेबल डिज़ाइन जैसी कोई खास बात नहीं है; बल्कि, इनकी मुख्य क्षमता एक सामान्य से दिखने वाले कार्य – अनुवाद – पर केंद्रित है।

लेकिन अनुवाद तो सिर्फ शुरुआत है, अंतिम बिंदु नहीं।

प्रेस कॉन्फ्रेंस से पूर्व संध्या पर, APPSO ने iFlytek के उपाध्यक्ष वांग वेई और वियरेबल डिवाइसेस बिजनेस यूनिट के महाप्रबंधक लिन हुईजी से बातचीत की। बातचीत के उत्तरार्ध में, विषय विशिष्ट उत्पाद प्रौद्योगिकियों से हटकर एक व्यापक मुद्दे पर केंद्रित हो गया: क्या एआई ग्लासेस के अगले चरण की कुंजी हार्डवेयर स्तर पर है या एआई वर्कफ़्लो में?

एआई चश्मों की "विशिष्टता" यह है कि लोग इन्हें लगातार पहनना चाहेंगे।

स्मार्ट ग्लास निर्माताओं के बीच कड़ी प्रतिस्पर्धा के बाद, मौजूदा आपूर्ति श्रृंखला के भीतर स्मार्ट ग्लास उत्पाद का निर्माण करना मुश्किल नहीं है; शेन्ज़ेन का एक प्रमुख इलेक्ट्रॉनिक्स बाज़ार हुआकियांगबेई केवल दो सप्ताह में एक प्रोटोटाइप तैयार कर सकता है। असली चुनौती उपयोगकर्ताओं को इसे लगातार पहनने का कारण देने में है।

पहली बार एआई चश्मे बनाने वाली कंपनी आईफ्लाईटेक के लिए यह एक अपरिहार्य बाधा थी।

जब वांग वेई ने APPSO से iFlytek के AI ग्लास प्रोजेक्ट के आरंभिक बिंदु के बारे में बात की, तो वास्तव में इसकी जड़ें एक विशिष्ट परिदृश्य में थीं: ज़रा सोचिए, प्रदर्शनियों और छोटे व्यापारिक सौदों जैसे परिदृश्यों में अनुवाद मशीनें बहुत उपयोगी होती हैं, और यहां तक ​​कि एक कंपनी भी एक मशीन साझा कर सकती है। लेकिन कई बार ऐसा होता है जब आप विदेश यात्रा कर रहे होते हैं या कुछ खास मौकों पर, अपने डिवाइस को निकालकर स्क्रीन पर देखना असुविधाजनक होता है, और आप नहीं चाहते कि अनुवाद परिणाम की प्रतीक्षा करते समय आपकी बातचीत की स्वाभाविक लय बाधित हो।

आप चाहते हैं कि संचार "इमर्सिव" हो, जिसमें लगातार आई कॉन्टैक्ट हो, सहज संवाद हो और अनुवाद ऐसा लगे जैसे वह अदृश्य हो। इन चश्मों का आधार उपयोगकर्ता की उस "अनदेखे" अनुभव की अपेक्षा है।

यह "भौतिक व्यवधान" एक ऐसी समस्या है जिसे iFlytek ने अनुवाद मशीन उपयोगकर्ताओं से मिली अनगिनत वास्तविक प्रतिक्रियाओं की समीक्षा करने के बाद पहचाना है। एआई चश्मे बनाने वाली कंपनियां रातोंरात उभर सकती हैं, लेकिन अनुवाद की नींव रखने में जल्दबाजी नहीं की जा सकती।

आईफ्लाईटेक की अनुवाद मशीन की 10 लाख इकाइयाँ बिक चुकी हैं और इसने 1 अरब बार अनुवाद किया है। आईफ्लाईटेक की एक साथ व्याख्या सेवा ने 420,000 अंतरराष्ट्रीय सम्मेलनों को कवर किया है, जो 50 से अधिक देशों और 40 करोड़ दर्शकों तक पहुँच चुकी है, और इसने राष्ट्रीय जन कांग्रेस और चीनी जन राजनीतिक परामर्श सम्मेलन को लगातार आठ वर्षों तक अपनी सेवाएं प्रदान की हैं।

ये आंकड़े न केवल एल्गोरिदम को दर्शाते हैं, बल्कि वास्तविक दुनिया के परिदृश्यों की बारीकियों की समझ को भी दर्शाते हैं: उपयोगकर्ता अनुवाद को कब धीमा पाते हैं, किन स्थितियों में हैंडहेल्ड डिवाइस असुविधाजनक होते हैं, और किन शोरगुल वाली स्थितियों में सटीकता में भारी गिरावट आती है…

पिछले अक्टूबर में, iFlytek ने एक अनुवाद हेडसेट लॉन्च किया। इस हेडसेट ने दो बातें साबित कीं: उपयोगकर्ताओं को हैंड्स-फ्री वियरेबल ट्रांसलेशन की आवश्यकता है; और एंड-टू-एंड साइमल्टेनियस इंटरप्रिटेशन वियरेबल डिवाइस पर संभव है, जिसकी प्रतिक्रिया अवधि 2 सेकंड से भी कम है।

हालांकि, हेडफ़ोन केवल कानों के लिए होते हैं। लिन हुईजी के अनुसार, हेडफ़ोन की सीमा यह है कि वे एक "श्रवण" उपकरण हैं (और अब उनमें कैमरे भी जोड़े जा रहे हैं)। दूसरी ओर, चश्मे एक दृश्य माध्यम भी प्रदान करते हैं। कई माध्यमों के संयोजन से, विभिन्न भाषाओं के बीच संचार के लिए सूचना का स्रोत कहीं अधिक समृद्ध हो जाता है।

सरल शब्दों में कहें तो, इन चश्मों में एक कैमरा है जो तस्वीरें खींच सकता है और उनका अनुवाद कर सकता है, एक डिस्प्ले है जो उपशीर्षक दिखा सकता है ताकि आपको अपने फोन पर नीचे न देखना पड़े, और दिशात्मक शोर को कम करने के लिए इसमें और भी माइक्रोफोन लगाए जा सकते हैं।

वांग वेई के शब्दों में, "चश्मा किसी व्यक्ति की आंखों, कानों और मुंह के सबसे करीब होता है। यह भौतिक दुनिया और डिजिटल दुनिया के बीच एक प्राकृतिक सेतु है, जो सांस लेने की तरह ही स्वाभाविक रूप से अनुवाद की अनुमति देता है।"

2026 तक, आपूर्ति श्रृंखला की लागत कम होने लगी थी, और राष्ट्रीय सब्सिडी कार्यक्रम में पहली बार स्मार्ट ग्लास को शामिल किया गया था। इसके अलावा, स्पार्क X2 बड़े मॉडल की बेहतर क्लाउड अनुवाद क्षमताओं ने सही समय और परिस्थितियों का भरपूर लाभ उठाया।

लिन हुइजी ने साफ-साफ कहा: "हमने यह समय इसलिए चुना क्योंकि हमने देखा कि विकास दर अभी शुरू ही हुई थी।" वांग वेई ने तो और भी सीधे शब्दों में कहा: "हम 'आईफोन मोमेंट' शब्द का इस्तेमाल नहीं करना चाहते, लेकिन असल में इसका यही मतलब है। हम चरम सीमा तक पहुँचने वाले हैं।"

40 ग्राम, एक सिस्टम इंजीनियरिंग समस्या

iFlytek के AI चश्मों को देखकर मेरा पहला अनुभव यह रहा कि ये मेरी उम्मीद से कहीं ज़्यादा हल्के हैं। इनमें एक छोटा डिस्प्ले, कैमरा, 5+1 माइक्रोफ़ोन मैट्रिक्स और स्पीकर लगे हैं, फिर भी इनका कुल वज़न मात्र 40 ग्राम है।

यह संख्या शायद कई लोगों को स्पष्ट न हो, इसलिए आइए एक क्षैतिज तुलना करें:

  • मेटा रे-बैन का वजन 49 ग्राम है, लेकिन इसमें डिस्प्ले स्क्रीन नहीं है;
  • रोकिड ग्लासेस का वजन भी 49 ग्राम है और इसमें डिस्प्ले भी है, लेकिन यह आईफ्लाईटेक से लगभग 25% अधिक भारी है।
  • हुआवेई के एआई चश्मे वास्तव में हल्के हैं, जिनका वजन केवल 35.5 ग्राम है, लेकिन उनमें डिस्प्ले स्क्रीन नहीं है।

डिस्प्ले वाले स्मार्ट ग्लास के क्षेत्र में, iFlytek ने वर्तमान में उद्योग में सबसे हल्का ग्लास बनाने में सफलता हासिल की है।

आखिर 40 ग्राम ही क्यों? लिन हुइजी ने बताया कि यह आंकड़ा गहन शोध और सिमुलेशन का परिणाम है। यूरोपीय और अमेरिकी लोगों के सिर का आकार और शरीर की बनावट आमतौर पर अधिक सहनशील होती है, इसलिए वे मेटा के 50 ग्राम से अधिक वजन को स्वीकार्य मानते हैं। हालांकि, एशियाई लोगों की खोपड़ी की संरचना और नाक की हड्डी की ऊंचाई अलग होने के कारण वे वजन के प्रति बेहद संवेदनशील होते हैं।

चीनी उपयोगकर्ताओं के लिए, 45 ग्राम एक महत्वपूर्ण बिंदु है; इस वजन से अधिक होने पर लंबे समय तक पहनने पर काफी दबाव महसूस होगा। 40 ग्राम लंबे समय तक पहनने के लिए "आराम की सीमा" है।

उन कुछ ग्राम वजन को कम करने के लिए, टीम ने इंजीनियरिंग पक्ष में आपूर्ति श्रृंखला के साथ बातचीत करने में काफी समय बिताया। सबसे महत्वपूर्ण कदम पारंपरिक कांच के लेंस को राल के लेंस से बदलना था।

पारंपरिक चश्मों में लंबे समय से रेज़िन का ही इस्तेमाल होता रहा है, लेकिन स्मार्ट चश्मों में इसका उपयोग क्यों नहीं किया गया? इसका कारण है निर्माण प्रक्रिया की जटिलता। स्मार्ट चश्मों के लेंसों के लिए "पूर्ण लेमिनेशन" की आवश्यकता होती है, जिसमें डिस्प्ले लेयर और लेंस को एक साथ दबाया जाता है। रेज़िन सामग्री मोल्डिंग और हीटिंग के दौरान छोटे-छोटे हवा के बुलबुले बनाने के लिए अत्यंत प्रवण होती है। यदि चिपकने वाले पदार्थ में जरा सा भी गैप रह जाए, तो प्रकाश के अपवर्तन का वक्र बिगड़ जाएगा, जिससे पूरा लेंस बेकार हो जाएगा। उत्पादन नियंत्रण कांच की तुलना में कहीं अधिक कठिन है।

लिन हुइजी ने बताया कि iFlytek संभवतः उद्योग की पहली कंपनी है जिसने डिस्प्ले वाले स्मार्ट ग्लास में फुल-लेमिनेशन रेज़िन प्रक्रिया को सफलतापूर्वक लागू किया है। इस शोध और विकास प्रक्रिया में कई परीक्षण और असफलताएँ शामिल थीं, जिसके बाद अंततः डिस्प्ले लेंस में रेज़िन सामग्री का उपयोग करने में सफलता मिली। हालांकि, इसके परिणाम बहुत ही शानदार रहे हैं; अकेले लेंस ही कांच के लेंसों की तुलना में 30% से 40% हल्के हैं।

इसके अलावा, विशेष रूप से डिज़ाइन किया गया 0.15 सीसी का लघु ऑप्टिकल इंजन और लघु कैमरा मॉड्यूल का उपयोग किया गया है, और फ्रेम और टेम्पल्स को एक इकाई के रूप में ढाला गया है। चिप का चयन और एल्गोरिदम आपस में गहराई से जुड़े हुए हैं: समान कार्य के लिए, अन्य कंपनियों को 100mAh बैटरी की आवश्यकता हो सकती है, जबकि iFlytek को केवल 50mAh की आवश्यकता होती है।

इसलिए, अंत में हमें जो iFlytek AI ग्लास देखने को मिलते हैं, वे कुल मिलाकर हल्के हैं, लेकिन बैटरी लाइफ से कोई समझौता नहीं किया गया है।

यह एक सिस्टम इंजीनियरिंग समस्या है जिसका कोई शॉर्टकट नहीं है। उत्पादन दर को बेहतर बनाने के लिए आपूर्ति श्रृंखला के प्रत्येक चरण में बार-बार समायोजन की आवश्यकता होती है। रेज़िन लेंस, माइक्रो-ऑप्टिकल इंजन, कम-शक्ति वाले चिप्स और एल्गोरिदम-हार्डवेयर युग्मन—यदि इनमें से कोई भी चरण विफल हो जाता है, तो वजन को 50 ग्राम से अधिक पर वापस लाना होगा।

होंठों की हलचल को पहचानकर शोर कम करना: कानों को सुनने में मदद करने के लिए आंखों का उपयोग करना।

अनुवाद करना निस्संदेह iFlytek का पसंदीदा क्षेत्र है, लेकिन इन चश्मों में, iFlytek ने एक तरह की भविष्यवादी तकनीक – होंठों की हलचल को पहचानने वाली शोर कम करने की तकनीक – का भी अनावरण किया है, जो मल्टीमॉडल शोर कम करने वाली प्रणाली का मुख्य हिस्सा है।

यह पहली बार है जब होंठ की हलचल को पहचानने और उससे उत्पन्न ध्वनि को कम करने की तकनीक को एआई चश्मों में एकीकृत किया गया है । इसके पीछे तर्क यह है कि चश्मों पर लगा सामने वाला कैमरा बोलने वाले व्यक्ति के होंठों पर फोकस करता है। साथ ही, चश्मों पर लगे पांच वायु संचार माइक्रोफ़ोन और एक अस्थि संचार माइक्रोफ़ोन मिलकर छह-चैनल ऑडियो स्ट्रीम बनाते हैं।

यह प्रणाली "किसके मुंह हिल रहा है" के वास्तविक समय के अवलोकन का उपयोग करके "किसकी आवाज सुननी है" यह निर्धारित करने में मदद करती है, इस प्रकार कई आवाजों के शोरगुल भरे मिश्रण से लक्षित व्यक्ति की आवाज को सटीक रूप से अलग करती है।

इससे "यह देखने का प्रभाव प्राप्त होता है कि कौन किसका अनुवाद कर रहा है"; जिस पर भी आपका ध्यान केंद्रित होगा, आपके कानों और लेंस पर दिखाई देने वाले अनुवादित उपशीर्षक उन्हीं के होंगे।

कई परिस्थितियों में यह तकनीक सीधे तौर पर अनुवाद की गुणवत्ता निर्धारित करती है, क्योंकि अनुवाद की सटीकता इस बात पर निर्भर करती है कि ऑडियो स्पष्ट रूप से सुनाई देता है या नहीं।

एक शांत मीटिंग रूम में, मौजूदा अनुवाद सॉफ़्टवेयर और हार्डवेयर संचार को काफी अच्छे से संभाल सकते हैं। हालांकि, iFlytek AI ग्लासेस का एक प्रमुख उपयोगकर्ता समूह व्यावसायिक पेशेवर हैं। उनकी वास्तविक अनुवाद ज़रूरतें क्या हैं? उन्हें इसकी आवश्यकता प्रदर्शनियों, व्यावसायिक समारोहों और हवाई अड्डों में होती है, जहाँ परिवेशीय शोर का स्तर आसानी से 80 से 90 डेसिबल तक पहुँच सकता है। ऐसे वातावरण में, पारंपरिक अनुवाद उपकरणों की सटीकता में भारी गिरावट आती है।

शोरगुल वाले वातावरण में, होंठों की हलचल को पहचानने में शोर कम करने की तकनीक से पहचान की सटीकता में 50% से अधिक सुधार होता है। लिन हुईजी ने बताया कि यह केवल होंठों की हलचल को देखने तक सीमित नहीं है; इसमें ध्वनि स्रोत की स्थिति का पता लगाने और लक्षित व्यक्ति को लॉक करने सहित एक संपूर्ण मल्टीमॉडल शोर कम करने वाली प्रणाली शामिल है, और वास्तविक उपयोग में सभी सिग्नल स्वचालित रूप से समन्वित होते हैं।

यह क्षमता अचानक से विकसित नहीं हुई। iFlytek कई वर्षों से बड़े पैमाने पर सम्मेलन प्रणालियों और बुद्धिमान ऑटोमोटिव कॉकपिट में मल्टी-चैनल स्पीच सेपरेशन और मल्टी-मोडल नॉइज़ रिडक्शन पर काम कर रहा है, और CHiME इंटरनेशनल स्पीच सेपरेशन प्रतियोगिता में लगातार छह चैंपियनशिप जीत चुका है।

वांग वेई ने कुछ साल पहले का एक आंतरिक डेमो भी साझा किया: कई शोधकर्ता एक ही समय में बोल रहे थे, और मानव कान उन्हें बिल्कुल भी अलग नहीं कर सकता था। सिस्टम ने प्रत्येक व्यक्ति की आवाज़ को स्पष्ट और सटीक रूप से अलग किया, और यह स्पष्ट था कि किसने क्या कहा।

दिलचस्प बात यह है कि पहले, जब बड़े सम्मेलन आयोजित किए जाते थे, तो माइक्रोफोन, सर्वर की कंप्यूटिंग क्षमता और बिजली के आउटलेट लगाने के लिए पर्याप्त जगह होती थी। अब, इस जटिल दृश्य-श्रव्य संलयन एल्गोरिदम को बेहद सीमित कंप्यूटिंग क्षमता और बिजली की खपत वाले 40 ग्राम के चश्मे में समाहित करना पड़ता है।

वांग वेई का मानना ​​है कि हार्डवेयर के मामले में आईफ्लाईटेक की यही वह "क्षमता" है जो वह दिखा रही है: बड़े उपकरणों पर मुख्य एल्गोरिदम को उच्च दर पर संपीड़ित करना और उन्हें छोटे, हल्के मोबाइल उपकरणों में पोर्ट करना, और साथ ही वास्तविक समय में ऑफ़लाइन कई ध्वनि डेटा को संसाधित करना।

iFlytek का हार्डवेयर विकास पथ "बड़े पैमाने पर डिवाइस सत्यापन, छोटे पैमाने पर डिवाइस माइग्रेशन" पर आधारित है। कॉन्फ्रेंसिंग सिस्टम और ऑटोमोबाइल में सफल साबित हो चुके एल्गोरिदम को चश्मे के डिवाइस में समाहित किया गया है। होंठ की गति पहचान में शोर कम करने के लिए दृश्य-श्रव्य युग्मित डेटा, डिवाइस पर वास्तविक समय प्रसंस्करण क्षमता और मल्टी-माइक्रोफ़ोन हार्डवेयर का संयुक्त अनुकूलन आवश्यक है, जिसे केवल मौजूदा एल्गोरिदम को एकीकृत करके प्राप्त करना मुश्किल है।

शोर कम करने की सटीकता सीधे तौर पर अनुवाद की सटीकता को निर्धारित करती है, जो पूरी कार्यप्रणाली में पहली बाधा है।

"ऑल-इन-वन ट्रांसलेशन" के पीछे का बुनियादी ढांचा

एक बार जब आप इसे स्पष्ट रूप से सुन लेते हैं, तो सवाल यह उठता है कि इसका सटीक अनुवाद कैसे किया जाए।

iFlytek AI ग्लासेस 122 भाषाओं के रियल-टाइम अनुवाद को सपोर्ट करते हैं और इन्हें चार मोड में बांटा गया है: एक साथ अनुवाद (भाषण सुनना), आमने-सामने अनुवाद (व्यापारिक बातचीत), कॉल अनुवाद (अंतर्राष्ट्रीय फोन कॉल) और ऑनलाइन एक साथ अनुवाद (टेनसेंट मीटिंग या ज़ूम से जुड़ना)। कैमरा सीधे PPT की तस्वीरें भी ले सकता है और विदेशी भाषा के दस्तावेज़ों का अनुवाद कर सकता है।

ऑनसाइट अनुभव के दौरान मुझे सबसे दिलचस्प बात कॉल ट्रांसलेशन लगी।

यह शायद बाज़ार में मौजूद एकमात्र ऐसा चश्मा है जो एक साथ सीमा पार अनुवाद कर सकता है और आपकी फ़ोन कॉल रिकॉर्ड कर सकता है। यह इस तरह काम करता है: चश्मा ब्लूटूथ के ज़रिए आपके फ़ोन से कनेक्ट होता है, दूसरी तरफ़ बोली जा रही अंग्रेज़ी को कैप्चर करता है, पूरी तरह से स्वचालित अनुवाद के लिए एंड-टू-एंड साइमल्टेनियस इंटरप्रिटेशन मॉडल का उपयोग करता है, और फिर आपके चीनी जवाब को कुछ ही सेकंड में अंग्रेज़ी में अनुवाद कर देता है।

दूसरे शब्दों में कहें तो, जब आप फोन पर चीनी भाषा में बात करते हैं, तो दूसरी तरफ मौजूद विदेशी को आपकी आवाज की नकल की हुई अंग्रेजी सुनाई देती है। फोन रखने के बाद, ये चश्मे आपको मीटिंग का पूरा ब्यौरा भी भेज सकते हैं।

अतीत में, पारंपरिक अनुवाद प्रणालियों में तीन मुख्य चरण शामिल थे: स्वचालित वाक् पहचान (एएसआर) → पाठ अनुवाद (एमटी) → पाठ-से-वाक् (टीटीएस)। इस दृष्टिकोण की सबसे बड़ी समस्या उच्च विलंबता थी, और प्रत्येक चरण के साथ सूचना का अर्थगत नुकसान बढ़ता जाता था।

इस बार, iFlytek ने चश्मों को एक संपूर्ण ध्वनि समकालिक व्याख्या मॉडल से लैस किया है, जिससे मध्यवर्ती पाठ अनुवाद चरण को छोड़ दिया गया है और सीधे "आवाज इनपुट, आवाज आउटपुट" की सुविधा मिलती है, जिससे पहले शब्द की प्रतिक्रिया का समय घटकर 2 सेकंड हो जाता है। क्लाउड सपोर्ट के लिए स्पार्क X2 मॉडल (293 बिलियन पैरामीटर वाला MoE आर्किटेक्चर, जिसे Huawei Ascend पर प्रशिक्षित किया गया है) का उपयोग किया गया है।

लिन हुइजी ने कहा कि उन्होंने अनुवाद परिदृश्यों को बेहद सूक्ष्म भागों में विभाजित किया है क्योंकि विभिन्न परिदृश्यों में आवश्यक उद्योग ज्ञान आधार और शोर कम करने के तरीके पूरी तरह से अलग हैं।

इस चश्मे के ट्रांसलेशन फंक्शन को विकसित करने में iFlytek ने जो प्रयास किया है, वह कुछ हद तक मोबाइल फोन उद्योग के इमेजिंग दृष्टिकोण के समान है। हर किसी के पास कैमरा फंक्शन होता है, लेकिन इसमें 20 करोड़ पिक्सल, 10x टेलीफोटो, 4K लाइव इमेज और यहां तक ​​कि प्रोफेशनल फोटोग्राफी की सभी जरूरतों को पूरा करने की क्षमता है।

अनुवाद के बाद ही एआई की कार्यप्रणाली शुरू होती है।

इस बिंदु पर, आपको एहसास होगा कि iFlytek की महत्वाकांक्षाएं केवल एक "अनुवाद उपकरण" बनाने तक ही सीमित नहीं हैं। शायद यही कारण है कि इसे "अनुवाद चश्मा" नहीं कहा जाता, बल्कि इसे "आपके सामने मौजूद एक सुपर एआई सहायक" के रूप में देखा जाता है।

लिन हुइजी का मानना ​​है कि " ये चश्मे आंखों के सामने पहने जाने वाले सुपरकंप्यूटर की तरह हैं, जिनमें डिस्प्ले, कैमरा और आवाज की क्षमताएं हैं; इनका कॉन्फ़िगरेशन मूल रूप से मोबाइल फोन या पीसी जैसा ही है। "

इस क्षमता स्तर को iFlytek के GlassClaw द्वारा समर्थित किया जाता है। यह एजेंट बड़े मॉडल की क्षमताओं का उपयोग कर सकता है, इकोसिस्टम सेवाओं तक पहुंच सकता है और बहुआयामी समझ विकसित कर सकता है, जिससे समझने से लेकर कार्य करने तक की पूरी प्रक्रिया आपस में जुड़ जाती है। यह OpenClaw जैसे तृतीय-पक्ष एजेंटों की पहुंच का भी समर्थन करता है।

आपने बिल्कुल सही पढ़ा, ये अभी भी "लॉबस्टर" ग्लास ही हैं।

लिन हुइजी ने ग्लासक्लॉ का उपयोग करके अपने दैनिक कार्य करने के तरीके के बारे में बताया: अब उन्हें बाहर जाते समय बार-बार अपना फोन निकालने की ज़रूरत नहीं पड़ती। चलते-फिरते, वे सीधे अपनी आवाज़ से ग्लासक्लॉ को सक्रिय कर सकते हैं और अपने फोन के संपर्कों तक पहुँच सकते हैं, ग्राहकों को खोज सकते हैं और उन्हें डायल कर सकते हैं; कॉल कनेक्ट होते ही अनुवाद स्वचालित रूप से शुरू हो जाता है।

किसी ग्राहक से आमने-सामने बातचीत करते समय, यदि आपको अचानक पिछले अनुबंध के सारांश की समीक्षा करने की आवश्यकता हो, तो आप बस अपने चश्मे को निर्देश दे सकते हैं, और चश्मा आपके कंप्यूटर में मुख्य बिंदुओं की खोज करेगा और उन्हें लेंस के साथ सिंक्रनाइज़ कर देगा।

मीटिंग खत्म होने के बाद भी, चश्मे ने स्वचालित रूप से मल्टीमॉडल भूमिका विभेदन (किसने क्या कहा) किया और एक संरचित सारांश प्रस्तुत किया। फिर उन्होंने सीधे आवाज में कहा: "सारांश को ईमेल के माध्यम से प्रोजेक्ट टीम को भेजें और अगले बुधवार की ब्रीफिंग मीटिंग को कैलेंडर में सिंक्रनाइज़ करें।"

अगर आपने कभी झींगा पाला है, तो आप शायद इन विशेषताओं से परिचित होंगे, सिवाय इसके कि इस बार यह बातचीत आपके चेहरे पर होती है।

एआई ग्लासेस को शुरू में लोकप्रिय बनाने वाले टेलीप्रॉम्प्टर फंक्शन को भी इस जोड़ी के ग्लासेस में अपग्रेड किया गया है।

iFlytek AI ग्लासेस का इंटेलिजेंट टेलीप्रॉम्प्टर फ़ंक्शन अर्थ को समझने में सक्षम है, यानी यह बोले गए शब्दों पर सटीक प्रतिक्रिया देता है, न कि मशीनी तरीके से तेज़ी से स्क्रॉल करता है। यह स्वाभाविक रूप से अर्थ को समझ सकता है और उसका अनुसरण कर सकता है। साथ में दिए गए चार्जिंग कैप्सूल को रिमोट कंट्रोल के रूप में भी इस्तेमाल किया जा सकता है, जिसमें टेक्स्ट को स्विच और पॉज़ करने के लिए बटन दिए गए हैं।

यह "डिवाइस-एज-क्लाउड" त्रिस्तरीय सहयोग है जिसे एस्ट्रॉनक्लॉ आर्किटेक्चर मूलभूत स्तर पर निभाता है: ग्लास का डिवाइस पक्ष पर्यावरणीय धारणा और प्रीप्रोसेसिंग के लिए जिम्मेदार है, एज पक्ष निर्णय लेता है, और जटिल अनुमानों को क्लाउड में स्पार्कएक्स2 द्वारा संभाला जाता है। ग्लासक्लॉ आईफ्लाईटेक की स्वयं विकसित एजेंट क्षमताओं पर आधारित है, और ओपनक्लॉ जैसे तृतीय-पक्ष एजेंटों की पहुँच का भी समर्थन करता है।

वांग वेई का मानना ​​है कि भविष्य में चश्मा केवल एक साधारण चश्मा नहीं रह जाएगा, बल्कि एक सुविधाजनक व्यक्तिगत सहायक बन जाएगा

बाजार में ऐसे कई उत्पाद हैं जो केवल अनुवाद करते हैं या केवल एआई सहायक का काम करते हैं, लेकिन "अनुवाद + रिकॉर्डिंग + सारांश + क्रॉस-प्लेटफ़ॉर्म निष्पादन" को एक सुचारू कार्यप्रवाह में जोड़ने के लिए, चार मूलभूत क्षमताएं – आवाज, अनुवाद, बड़ा मॉडल और बुद्धिमान एजेंट – एक साथ ऑनलाइन और परस्पर जुड़ी होनी चाहिए।

आईफ्लाईटेक की संपूर्ण तकनीकी क्षमताओं को चश्मे के माध्यम में एक उपयुक्त क्लोज्ड लूप मिल गया है।

एआई चश्मे के युग के उत्तरार्ध में सफलता की कुंजी क्या होगी?

पिछले दो वर्षों में, एआई की लहर ने तथाकथित "नेक्स्ट जेन" प्रवेश बिंदु की तलाश में पूरे हार्डवेयर उद्योग को अपनी चपेट में ले लिया है।

एआई पिन असफल रहा है, और कई स्मार्ट पेंडेंट भी नाकाम साबित हुए हैं। हालांकि एआई हार्डवेयर उत्पाद और प्रौद्योगिकियां अलग-अलग हैं, लेकिन उद्योग धीरे-धीरे इस बात पर सहमत हो रहा है: एआई को देखने की क्षमता चाहिए ; इसे वास्तविक समय में उस त्रि-आयामी भौतिक दुनिया को समझने में सक्षम होना चाहिए जिसमें मनुष्य रहते हैं।

एआई ग्लासेस शायद अंतिम रूप न हों, लेकिन वर्तमान में वे एकमात्र ऐसे उपकरण हैं जो चौबीसों घंटे प्रथम-व्यक्ति परिप्रेक्ष्य में दृश्य और श्रव्य इनपुट प्रदान कर सकते हैं।

एक साक्षात्कार में वांग वेई ने एक दिलचस्प भविष्यवाणी की: "भविष्य के डिजिटल जीवन की तीन सबसे आवश्यक चीजें संभवतः कंप्यूटर, मोबाइल फोन और चश्मा होंगी। चश्मा केवल मोबाइल फोन के लिए सहायक उपकरण नहीं है; यह स्वतंत्र कंप्यूटर इकाइयाँ हैं जो आपकी नाक के ऊपर टिकी रहती हैं।"

चश्मे स्वाभाविक रूप से भौतिक और डिजिटल दुनिया को जोड़ने वाले उपकरण हैं। इसके अलावा, हार्डवेयर में सुधार की अपार संभावनाएं हैं: डिस्प्ले मोनोक्रोम से फुल कलर में, 2K से 4K में विकसित होंगे; कैमरे और माइक्रोफोन AI-आधारित टोकन एन्कोडिंग विधियों में अपग्रेड होंगे। वांग वेई ने कहा कि ये तकनीकी मार्ग पहले से ही अपेक्षाकृत स्पष्ट विकास दिशाएँ दिखा रहे हैं।

लिन हुइजी ने खुलासा किया कि आईफ्लाईटेक के दूसरी पीढ़ी के एआई चश्मे पहले से ही योजना के चरणों में हैं और 2026 के पतझड़ तक देखे जा सकते हैं, जो लोगों के एक व्यापक वर्ग को लक्षित करते हैं और कुछ विशिष्ट क्षेत्रों के लिए भी उपयुक्त हैं।

पिछले एक वर्ष में, APPSO ने कई AI चश्मों का परीक्षण और विकास किया है। AI चश्मों के निर्माताओं के बीच कड़ी प्रतिस्पर्धा को देखते हुए, उद्योग वास्तव में दो अलग-अलग रास्तों में बंट गया है:

एक दृष्टिकोण यह है कि " सर्वोत्तम चश्मे बनाएं और एआई को एक बोनस के रूप में पेश करें ।" मेटा रे-बैन इसी तर्क का अनुसरण करता है: फैशनेबल डिज़ाइन और ब्रांड संस्कृति का उपयोग करके एआई क्षमताओं के लिए उपयोगकर्ताओं की कम आवृत्ति वाली, लेकिन अनिवार्य आवश्यकता को संतुलित करना।

दूसरा रास्ता है "गहन एआई वर्कफ़्लो बनाना और चश्मों को नए कंप्यूटर में बदलना"। यही रास्ता iFlytek ने चुना है। ये दोनों रास्ते प्रतिस्पर्धा के अलग-अलग आयामों की ओर ले जाते हैं, लेकिन दूसरा रास्ता अधिक कठिन है क्योंकि इसके लिए हार्डवेयर इंजीनियरिंग क्षमताओं और पूर्ण-स्टैक एआई क्षमताओं दोनों की आवश्यकता होती है—इनमें से किसी की भी कमी नहीं होनी चाहिए।

एआई चश्मे के युग के दूसरे भाग में असली निर्णायक मोड़ इस बात में निहित है कि कौन एआई को अत्यधिक खंडित वास्तविक दुनिया के परिदृश्यों में एकीकृत कर सकता है और उपयोगकर्ताओं के लिए रोजमर्रा के कार्यों को संभाल सकता है।

चश्मे को चश्मा ही रहने दें, और एआई को ईमानदारी से एक "कर्मठ उपकरण" के रूप में अपनी भूमिका निभाने दें।

मुझे लगता है कि जो उपकरण अंततः आपके पास रहेगा, वह कुछ इस तरह का होगा: जब आप इसे उतारेंगे, तो आपको अचानक महसूस होगा कि आपके आसपास की दुनिया भारी और अक्षम हो गई है।

#iFanr के आधिकारिक WeChat अकाउंट को फॉलो करने के लिए आपका स्वागत है: iFanr (WeChat ID: ifanr), जहां आपको जल्द से जल्द और भी रोमांचक सामग्री प्रस्तुत की जाएगी।