मशीन लर्निंग प्लेटफॉर्म, हगिंग फेस ने एक आईओएस ऐप जारी किया है जो आपके आईफोन के कैमरे द्वारा देखी गई आपके आस-पास की दुनिया को समझेगा। बस इसे एक दृश्य पर इंगित करें, या एक तस्वीर पर क्लिक करें, और यह इसका वर्णन करने, वस्तुओं की पहचान करने, अनुवाद करने, या पाठ-आधारित विवरण खींचने के लिए एआई तैनात करेगा।
HuggingSnap नामक यह ऐप एक इनपुट के रूप में आपके आस-पास के दृश्य को समझने के लिए एक मल्टी-मॉडल दृष्टिकोण अपनाता है, और यह अब ऐप स्टोर पर मुफ्त में उपलब्ध है। यह SmolVLM2 द्वारा संचालित है, एक खुला AI मॉडल जो टेक्स्ट, छवि और वीडियो को इनपुट प्रारूप के रूप में संभाल सकता है।
ऐप का व्यापक लक्ष्य लोगों को पौधों और जानवरों की पहचान सहित उनके आसपास की वस्तुओं और दृश्यों के बारे में जानने देना है। यह विचार iPhones पर विज़ुअल इंटेलिजेंस से बहुत अलग नहीं है, लेकिन HuggingSnap के पास अपने Apple प्रतिद्वंद्वी पर एक महत्वपूर्ण बढ़त है।
इसे काम करने के लिए इंटरनेट की आवश्यकता नहीं है
इसके लिए बस iOS 18 पर चलने वाला iPhone चाहिए और आप तैयार हैं। हगिंगस्नैप का यूआई विज़ुअल इंटेलिजेंस के साथ आपको मिलने वाले यूआई से बहुत अलग नहीं है। लेकिन यहां एक बुनियादी अंतर है.
विज़ुअल इंटेलिजेंस के काम करने के लिए Apple ChatGPT पर निर्भर है । ऐसा इसलिए है क्योंकि सिरी वर्तमान में चैटजीपीटी या गूगल के जेमिनी जैसे जेनरेटिव एआई टूल की तरह काम करने में सक्षम नहीं है, दोनों के पास अपना स्वयं का ज्ञान बैंक है। इसके बजाय, यह ऐसे सभी उपयोगकर्ता अनुरोधों और प्रश्नों को ChatGPT पर अपलोड कर देता है।
इसके लिए इंटरनेट कनेक्शन की आवश्यकता है क्योंकि चैटजीपीटी ऑफ़लाइन मोड में काम नहीं कर सकता है। दूसरी ओर, हगिंगस्नैप बिल्कुल ठीक काम करता है। इसके अलावा, ऑफ़लाइन दृष्टिकोण का मतलब है कि कोई भी उपयोगकर्ता डेटा आपके फ़ोन को नहीं छोड़ेगा, जो गोपनीयता के दृष्टिकोण से हमेशा एक स्वागत योग्य बदलाव है।
आप हगिंगस्नैप के साथ क्या कर सकते हैं?

HuggingSnap, Hugging Face द्वारा विकसित SmolVLM2 मॉडल द्वारा संचालित है। तो, इस ऐप के पीछे शो चलाने वाला यह मॉडल क्या हासिल कर सकता है? ख़ैर, बहुत कुछ। iPhone के कैमरे के माध्यम से यह जो देखता है उसके आधार पर सवालों के जवाब देने के अलावा, यह आपके फोन की गैलरी से ली गई छवियों को भी संसाधित कर सकता है।
उदाहरण के लिए, उसे किसी ऐतिहासिक स्मारक की तस्वीर दिखाएं और उससे आपको यात्रा संबंधी सुझाव देने के लिए कहें। यह ग्राफ़ पर दिखाई देने वाली सामग्री को समझ सकता है, या बिजली बिल की तस्वीर को समझ सकता है और दस्तावेज़ से उठाए गए विवरणों के आधार पर प्रश्नों का उत्तर दे सकता है।
इसका आर्किटेक्चर हल्का है और यह एआई के ऑन-डिवाइस अनुप्रयोगों के लिए विशेष रूप से उपयुक्त है। बेंचमार्क पर, यह Google के प्रतिस्पर्धी ओपन पालीजेम्मा (3बी) मॉडल से बेहतर प्रदर्शन करता है और दृष्टि क्षमताओं के साथ अलीबाबा के प्रतिद्वंद्वी क्वेन एआई मॉडल के साथ कंधे से कंधा मिलाकर चलता है।

सबसे बड़ा फायदा यह है कि इसे चलाने के लिए कम सिस्टम संसाधनों की आवश्यकता होती है, जो स्मार्टफोन के संदर्भ में विशेष रूप से महत्वपूर्ण है। दिलचस्प बात यह है कि लोकप्रिय वीएलसी मीडिया प्लेयर भी वीडियो विवरण प्रदान करने के लिए उसी SmolVLM2 मॉडल का उपयोग कर रहा है, जिससे उपयोगकर्ता प्राकृतिक भाषा संकेतों का उपयोग करके वीडियो खोज सकते हैं।
यह किसी वीडियो से सबसे महत्वपूर्ण हाइलाइट क्षणों को भी समझदारी से निकाल सकता है। ऐप के GitHub रिपॉजिटरी का कहना है , "दक्षता के लिए डिज़ाइन किया गया, SmolVLM छवियों के बारे में सवालों के जवाब दे सकता है, दृश्य सामग्री का वर्णन कर सकता है, कई छवियों पर आधारित कहानियां बना सकता है, या दृश्य इनपुट के बिना शुद्ध भाषा मॉडल के रूप में कार्य कर सकता है।"