
1968 में सैन फ्रांसिस्को में, कंप्यूटर वैज्ञानिक डगलस एंगेलबर्ट ने एक लॉन्च इवेंट में दुनिया के सामने एक नई प्रजाति का परिचय कराया, जिसे बाद में "सभी डेमो की जननी" के रूप में जाना गया, जिसमें उन्होंने दो धातु के पहियों वाला एक छोटा लकड़ी का बक्सा पकड़ा हुआ था।
यह पहली बार था जब मनुष्यों ने सार्वजनिक रूप से स्क्रीन पर डिजिटल कर्सर को निर्देशित करने के लिए माउस का उपयोग किया। इसके बाद के दशकों में, यह छोटा सा तीर लगभग सर्वव्यापी हो गया। इसने ऑफिस सॉफ्टवेयर, गेम इंटरफेस, ब्राउज़र विंडो और अनगिनत स्प्रेडशीट पर अपना प्रभाव जमाया, और डिजिटल दुनिया में प्रवेश करते ही मानवता का सबसे परिचित लेकिन मौन मार्गदर्शक बन गया।

हालांकि, पिछली आधी सदी में, कंप्यूटर की गणना शक्ति, स्वरूप और अनुप्रयोग परिदृश्य लगभग बदल गए हैं, लेकिन माउस कर्सर का मूल तत्व शायद ही बदला है: यह जानता है कि यह स्क्रीन पर किन निर्देशांकों पर है, X और Y को जानता है, लेकिन यह नहीं जानता कि आप कोड की एक पंक्ति, एक बिल या एक लैंडस्केप फोटो की ओर इशारा कर रहे हैं।
लगातार चमकते पिक्सल का सामना करते हुए, यह केवल बहुत ही बुनियादी काम कर सकता है: क्लिक करना, खींचना और अगले क्लिक की प्रतीक्षा करना।
आज गूगल जेमिनी के साथ माउस कर्सर को पूरी तरह से नया रूप देने जा रहा है।

हाल ही में संपन्न हुए एंड्रॉयड शो में, गूगल ने एंड्रॉयड, एआई और हार्डवेयर इकोसिस्टम से जुड़ी अपनी लगभग सभी योजनाओं का खुलासा किया। इनमें से एक नई सुविधा, जिसे "मैजिक पॉइंटर" कहा जाता है, पुराने माउस कर्सर को "आंखें" और "दिमाग" प्रदान करती है।
गूगल का इरादा स्पष्ट है: भविष्य में एआई इंटरैक्शन लंबी-चौड़ी हिदायतों पर निर्भर नहीं होना चाहिए, बल्कि वास्तविक जीवन की तरह स्क्रीन पर माउस कर्सर को इंगित करके बस इतना कहना चाहिए, "इसे वहां ले जाओ।" तो सवाल यह है कि जब माउस कर्सर आखिरकार स्क्रीन को "समझना" सीख जाएगा, तो यह मानव-कंप्यूटर इंटरैक्शन को किस दिशा में ले जाएगा?

आंखें खुली होने पर यह एआई तीर आखिर क्या कर सकता है?
इस तकनीक के महत्व को समझने के लिए, हमें सबसे पहले वर्तमान एआई उपकरणों के सबसे असुविधाजनक पहलू को देखना होगा: अंतःक्रिया लागत।
पिछले कुछ वर्षों में, बड़े भाषा मॉडलों की क्षमताओं में अभूतपूर्व वृद्धि हुई है, लेकिन इनका उपयोग करना अभी भी बेहद कठिन है। कृत्रिम बुद्धिमत्ता (AI) द्वारा इरादे को सटीक रूप से समझने के लिए, उपयोगकर्ताओं को जटिल "संकेत शब्द अभियांत्रिकी" सीखनी पड़ती है: भूमिकाएँ निर्धारित करना, पृष्ठभूमि जानकारी जोड़ना और आउटपुट प्रारूप को सीमित करना। एक साधारण आवश्यकता के लिए कुछ सौ शब्दों के छोटे निबंध लिखना आम बात है।
इसके अलावा, आम तौर पर इस्तेमाल होने वाले AI टूल अलग-अलग वेब पेज या एप्लिकेशन विंडो में चलते हैं, जिससे उपयोगकर्ता के काम में अक्सर रुकावट आती है। उदाहरण के लिए, जब आप 50 पेज की PDF पढ़ रहे हों और AI से चार्ट बनवाना चाहते हों, तो आमतौर पर आपको ये चरण करने पड़ते हैं: स्क्रीनशॉट लें -> सेव करें -> अपना ब्राउज़र खोलें -> AI वेबपेज पर जाएं -> इमेज अपलोड करें -> दिए गए शब्द दर्ज करें।

गूगल इस जटिल क्रॉस-एप्लिकेशन प्रक्रिया को "एआई डायवर्स" कहता है। इस तरह की स्विचिंग न केवल अक्षम है, बल्कि यह लोगों के एकाग्र ध्यान, जिसे "फ्लो" अवस्था कहा जाता है, को भी आसानी से बाधित कर सकती है।
इस उद्देश्य को ध्यान में रखते हुए, Google का पहला अंतःक्रिया सिद्धांत "प्रवाह" है। उनके प्रायोगिक AI कर्सर प्रोटोटाइप में, AI की क्षमताएं अब किसी विशिष्ट ऐप या वेबपेज तक सीमित नहीं हैं, बल्कि माउस कर्सर से जुड़ी हुई हैं, जो किसी भी समय उपयोग के लिए तैयार हैं।
इसे शुरू करने का तरीका भी सरल रखा गया है: किसी कीबोर्ड शॉर्टकट को याद करने की ज़रूरत नहीं है; बस माउस को हिलाएं, और वर्तमान में माउस के ऊपर रखे कंटेंट के आधार पर AI इंटरफ़ेस अपने आप प्रकट हो जाएगा और संदर्भ के अनुसार सुझाव देगा। किसी इमेज को चुनने पर पूछा जाएगा कि क्या आप उसकी तुलना करना चाहते हैं; किसी पैराग्राफ पर माउस ले जाने पर उसे बेहतर बनाने के सुझाव अपने आप मिल जाएंगे।

इस पूरी प्रक्रिया में किसी निर्देश की आवश्यकता नहीं होती और यह पूरी तरह से अंतर्ज्ञान द्वारा निर्देशित होती है। आइए कुछ अत्यंत सहज परिदृश्यों पर नज़र डालें:
सबसे पहले, चित्र वर्णन का अंतिम रूप।
कार्टून शैली में किसी शहर का दृश्य देखते समय, पारंपरिक माउस से आप केवल क्लिक करके ज़ूम इन कर सकते हैं। लेकिन अब, आप बस फोटो के बैकग्राउंड में किसी इमारत पर एआई कर्सर को घुमाकर माइक्रोफोन में कह सकते हैं, "छवि के इस हिस्से को यहाँ ले जाएं।"

यह बताने की कोई ज़रूरत नहीं है कि "यह जगह" कौन सी है, या इमारत की बनावट का वर्णन करने की भी ज़रूरत नहीं है। एआई कर्सर सीधे आपके द्वारा इंगित किए गए पिक्सेल को समझता है, संबंधित तत्व की पहचान करता है और सफलतापूर्वक आगे बढ़ता है।
पहले, माउस सिस्टम को केवल यह बता सकता था कि "मैंने कहाँ क्लिक किया"; अब, यह सिस्टम को यह भी बताने लगा है कि "मैं किस चीज़ का जिक्र कर रहा हूँ"।
दूसरा, कम परिचयात्मक शब्दों का प्रयोग करें और अधिक स्वाभाविक संदर्भों का उपयोग करें।
जब आपको किसी वेबपेज पर कोई बेहद जटिल बेकिंग रेसिपी दिखे, तो आपको उसे कॉपी-पेस्ट करने की ज़रूरत नहीं है, न ही आपको यह लिखने की ज़रूरत है कि "कृपया नीचे दी गई रेसिपी में सभी सामग्रियों की मात्रा को दो से गुणा करें।" आपको बस अपने कर्सर से टेक्स्ट को हाईलाइट करना है और सहजता से कहना है, "इन सामग्रियों की मात्रा को दोगुना कर दें।"

पलक झपकते ही, एआई ने आपके लिए वहीं पर एक नई रेसिपी लिख डाली।
तीसरा, पिक्सेल को इंटरैक्टिव एंटिटी में परिवर्तित करें।
कंप्यूटर के लिए, स्क्रीन कुछ मिलियन चमकते पिक्सल का समूह मात्र है। लेकिन एक एआई कर्सर उन स्थिर पिक्सल को सजीव इकाइयों में बदल सकता है।
उदाहरण के लिए, मान लीजिए आप कोई ट्रैवल व्लॉग देख रहे हैं और वीडियो में एक शानदार रेस्टोरेंट नज़र आता है। आप वीडियो को पॉज़ करते हैं, कर्सर को उस रेस्टोरेंट पर ले जाते हैं, और पहले का बेजान वीडियो तुरंत एक वास्तविक, इंटरैक्टिव जगह में बदल जाता है, जिसके बगल में रेस्टोरेंट के लिए रिज़र्वेशन लिंक दिखाई देने लगता है।

उदाहरण के लिए, मान लीजिए आप यूं ही कुछ लिखे हुए स्टिकी नोट की तस्वीर खींचते हैं, और माउस के एक क्लिक से स्याही एक चेक मार्क वाली टू-डू लिस्ट में बदल जाती है। क्या आपने कुछ गौर किया? पहले आपको AI को ढूंढना पड़ता था; अब AI आपके माउस को फॉलो करता है और आपकी उंगली के इशारे पर अपने आप काम करने लगता है।
एआई प्रॉम्प्ट्स को खत्म करें, मानवीय सहज ज्ञान पर लौटें
गहन विश्लेषण करने पर पता चलता है कि मानव जाति के लिए सबसे शक्तिशाली संचार उपकरण वास्तव में सर्वनाम ही हैं।
जब आप और आपके सहकर्मी स्क्रीन के सामने बैठकर किसी डिज़ाइन को संशोधित कर रहे हों, तो आप कभी भी स्पष्ट और सुस्पष्ट आवाज़ में यह नहीं कहेंगे, "कृपया स्क्रीन के ऊपरी बाएँ कोने (X:120, Y:350) पर स्थित नीले आयत को 50 पिक्सेल दाईं ओर खिसकाएँ।" आप बस स्क्रीन की ओर इशारा करते हुए कहेंगे:
"इसे थोड़ा दाईं ओर खिसकाएं और थोड़ा पतला करें।"
"वह रेस्टोरेंट अच्छा दिख रहा है, हम वहां कैसे पहुंचेंगे?"
कोड में इस त्रुटि संदेश का क्या अर्थ है?
हमारे दैनिक जीवन में, हम काफी हद तक "यह" और "वह" पर निर्भर रहते हैं। कम से कम बोली जाने वाली भाषा के साथ हावभाव ही मनुष्यों के लिए सबसे कारगर संचार माध्यम है। इसका कारण यह है कि हम एक ही भौतिक स्थान में रहते हैं और एक ही दृश्य संदर्भ साझा करते हैं।

गूगल ने इस बात को बखूबी समझा और इसे एक उत्पाद सिद्धांत में बदल दिया: "इस" और "उस" की शक्ति को अपनाएं।
मनुष्यों को जटिल संकेत शब्द संरचनाओं को सीखने के लिए मजबूर करने के बजाय, हमें इसके विपरीत करना चाहिए: इरादों को व्यक्त करने का कठिन काम हमसे हटा देना चाहिए और मशीनों को मनुष्यों के सबसे आलसी और सबसे सहज "इशारों" के अनुकूल होने देना चाहिए।
अच्छी खबर यह है कि यह इंटरैक्शन विधि पहले से ही लागू की जा रही है। क्रोम ब्राउज़र में जेमिनी आज से इसका समर्थन करने वाला पहला ब्राउज़र है; गूगल की हाल ही में लॉन्च की गई गूगलबुक लैपटॉप श्रृंखला में "मैजिक पॉइंटर" सीधे ऑपरेटिंग सिस्टम में एकीकृत है, जो सभी एप्लिकेशन को कवर करता है।
गूगलबुक की महत्वाकांक्षाएं सिर्फ माउस तक सीमित नहीं हैं। गूगल इस उत्पाद श्रृंखला को "एंड्रॉइड फोन का आदर्श साथी" बताता है।

Apple के iPhone मिररिंग की तरह ही, उपयोगकर्ता Android ऐप्स को अपने Googlebook डेस्कटॉप पर आसानी से प्रोजेक्ट कर सकते हैं, उन्हें मूल आस्पेक्ट रेशियो में चला सकते हैं और फ़ाइल मैनेजर में डिवाइसों के बीच आसानी से नेविगेट कर सकते हैं, जिससे फ़ोन, टैबलेट और लैपटॉप के बीच की सभी बाधाएं पूरी तरह से खत्म हो जाती हैं। इसके अलावा, Gemini ज़रूरत के अनुसार डेस्कटॉप पर कस्टम डायनामिक विजेट्स (जैसे किसी यात्री का रीयल-टाइम फ़्लाइट कार्ड) भी जेनरेट कर सकता है।
हार्डवेयर डिजाइन के मामले में, सभी Googlebook मॉडल में बॉडी पर एक "ग्लोबार" लाइट स्ट्रिप लगी होती है, जिससे आप इसे पारंपरिक क्रोमबुक या विंडोज लैपटॉप से एक नजर में अलग पहचान सकते हैं।

गूगलबुक के पहले बैच का निर्माण एसर, आसुस, डेल, एचपी और लेनोवो द्वारा किया जाएगा और इनके इस शरद ऋतु में उपलब्ध होने की उम्मीद है।
दिलचस्प बात यह है कि इस सूची में सैमसंग का नाम नहीं है। हाल की खबरों के अनुसार, सैमसंग गूगल के नए ऑपरेटिंग सिस्टम पर चलने वाला गैलेक्सी लैपटॉप तैयार कर रहा है और अफवाहों के मुताबिक इसका अगला अनपैक्ड इवेंट 22 जुलाई को होने वाला है।
जहां तक इसके मूल प्रेरक तत्व की बात है, हालांकि गूगल ने इसका नाम नहीं लिया, लेकिन पूरे लेख में "बुद्धि के लिए निर्मित एक आधुनिक ऑपरेटिंग सिस्टम" पर जोर और एंड्रॉइड और क्रोमओएस का गहरा एकीकरण, ये सभी लंबे समय से चर्चित "एल्युमिनियम" सिस्टम की ओर इशारा करते हैं।
इसका अर्थ यह है कि एआई ऑपरेटिंग सिस्टम स्तर पर एक बुनियादी ढांचा बनने लगा है। और जब एआई सचमुच आपके माउस कर्सर की तरह काम करने लगेगा, तो उसे हर चीज में हस्तक्षेप करने का अधिकार मिल जाएगा—जो आप देखते हैं वही आपको मिलेगा, जिस पर आप इशारा करते हैं वही आपके नियंत्रण में होगा।
कृत्रिम बुद्धिमत्ता और मानव-कंप्यूटर के बीच परस्पर क्रिया एक महत्वपूर्ण मोड़ पर है।
1968 की बात करें तो, दुनिया को चकित कर देने वाले पहले माउस का काम बेहद सरल था: स्थिति का पता लगाना। पिछले पचास वर्षों में, माउस को स्क्रॉल व्हील, साइड बटन और यहां तक कि पंखे और वज़न जैसी सुविधाओं से भी बेहतर बनाया गया है, लेकिन इसका मूल स्वरूप अपरिवर्तित रहा है: यह निर्देशांकों को सटीक रूप से चिह्नित करता है, फिर भी उन निर्देशांकों के पीछे छिपे अर्थ को कभी नहीं समझ पाता।
गूगल के एआई कर्सर ने इंटरैक्शन के इतिहास में एक अभूतपूर्व विकास हासिल किया है: यह न केवल यह जानता है कि आप कहां हैं, बल्कि यह भी जानता है कि आप क्या हैं।
पिछले एक साल में, फंडिंग हासिल करने वाले अनगिनत स्टार्टअप "एआई युग के लिए अगला सुपर गेटवे" बनाने की होड़ में जुट गए हैं। हर कोई डायलॉग बॉक्स की यथार्थता और एजेंट वर्कफ़्लो की जटिलता पर बेतहाशा ध्यान केंद्रित कर रहा है। लेकिन अब गूगल ने पूरे उद्योग को एक कड़ा सबक दिया है:
सबसे अच्छी तकनीक क्या है? यह सूक्ष्म, व्यापक प्रभाव है। चैटबॉक्स कभी भी एआई का अंतिम रूप नहीं होते; वे केवल एक संक्रमणकालीन अवधि के दौरान एक समझौता मात्र हैं। सबसे अच्छा एआई पृष्ठभूमि में समाहित हो जाना चाहिए, आपके दैनिक कार्यों में अंतर्निहित बुनियादी ढांचा बन जाना चाहिए, न कि केवल एक अलग एप्लिकेशन जिसे खोलने की आवश्यकता हो।

सफेद पृष्ठभूमि पर काले टेक्स्ट वाले कमांड-लाइन इंटरफेस (CLI) से लेकर माउस क्लिक वाले ग्राफिकल यूजर इंटरफेस (GUI) और फिर मोबाइल युग में टचस्क्रीन स्वाइपिंग (NUI) तक, बड़े भाषा मॉडलों ने पिछले कुछ वर्षों में हमें संक्षेप में टाइपिंग संचार के युग में वापस ले लिया है, जिससे अनगिनत लोग प्रॉम्प्ट चिंता से पीड़ित हैं।
लेकिन आज के बाद, हम जानते हैं कि यह भोर से पहले का एक छोटा सा मोड़ मात्र था। वास्तव में उपयोगी कृत्रिम बुद्धिमत्ता को अंततः मनुष्यों की तरह सोचना सीखना होगा: आपकी हर नज़र को समझना और आपके द्वारा कहे गए हर "इसे यहाँ रखो" वाक्य को समझना।
अठ्ठावन साल पहले, जब डगलस एंगेलबर्ट ने उस साधारण लकड़ी के चूहे को अपने हाथों में लिया था, तब उनका अंतिम सपना "मानव बुद्धि को बढ़ाना" था।
अठ्ठावन साल बाद, जैसे-जैसे एआई इस प्राचीन पॉइंटर में एकीकृत हो रहा है, मशीनें आखिरकार दुनिया को सही मायने में "समझना" शुरू कर रही हैं। त्वरित इंजीनियरों का युग समाप्त हो रहा है, और मानव-कंप्यूटर अंतःक्रिया का अंतिम बंद चक्र प्रत्येक अस्पष्ट "यह" और "वह" के साथ एक ऐतिहासिक छलांग लगाएगा।
इसे अनुभव करने के लिए यह लिंक है:
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&showAssistant=true&fullscreenApplet=true
https://aistudio.google.com/apps/bundled/ai-pointer-find?showPreview=true&showAssistant=true&fullscreenApplet=true
लेखक: मो चोंगयु
#iFanr के आधिकारिक वीचैट अकाउंट को फॉलो करने के लिए आपका स्वागत है: iFanr (वीचैट आईडी: ifanr), जहां आपको जल्द से जल्द और भी रोमांचक सामग्री प्रस्तुत की जाएगी।