गूगल डीपमाइंड जेमिनी एआई-एकीकृत स्मार्ट रोबोट बना रहा है

TechUncategorized
Views: 32
गूगल-डीपमाइंड-जेमिनी-एआई-एकीकृत-स्मार्ट-रोबोट-बना-रहा-है

गूगल डीपमाइंड गुरुवार को रोबोटिक्स और विज़न लैंग्वेज मॉडल (वीएलएम) के क्षेत्र में की गई नई प्रगति को साझा किया। तकनीकी दिग्गज का कृत्रिम बुद्धिमत्ता (एआई) अनुसंधान प्रभाग रोबोट में नई क्षमताओं को विकसित करने के लिए उन्नत विज़न मॉडल के साथ काम कर रहा है। एक नए अध्ययन में, डीपमाइंड ने इस बात पर प्रकाश डाला कि जेमिनी 1.5 प्रो और इसकी लंबी संदर्भ विंडो का उपयोग करने से अब प्रभाग नेविगेशन और अपने रोबोट की वास्तविक दुनिया की समझ में सफलता हासिल करने में सक्षम हो गया है। इस साल की शुरुआत में, एनवीडिया ने भी अनावरण किया नई एआई तकनीक जो मानव रोबोटों में उन्नत क्षमताओं को शक्ति प्रदान करती है।

गूगल डीपमाइंड रोबोट को बेहतर बनाने के लिए जेमिनी एआई का उपयोग कर रहा है

में एक डाक एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर, गूगल डीपमाइंड ने खुलासा किया कि वह अपने रोबोटों को प्रशिक्षित कर रहा है मिथुन राशि 1.5 प्रो की 2 मिलियन टोकन संदर्भ विंडो। संदर्भ विंडो को AI मॉडल के लिए दृश्यमान ज्ञान की विंडो के रूप में समझा जा सकता है, जिसका उपयोग करके यह पूछे गए विषय के आसपास स्पर्शरेखा जानकारी को संसाधित करता है।

उदाहरण के लिए, यदि कोई उपयोगकर्ता AI मॉडल से “सबसे लोकप्रिय आइसक्रीम फ्लेवर” के बारे में पूछता है, तो AI मॉडल उस प्रश्न की जानकारी प्राप्त करने के लिए कीवर्ड आइसक्रीम और फ्लेवर की जाँच करेगा। यदि यह सूचना विंडो बहुत छोटी है, तो AI केवल विभिन्न आइसक्रीम फ्लेवर के नामों के साथ ही जवाब दे पाएगा। हालाँकि, यदि यह बड़ी है, तो AI प्रत्येक आइसक्रीम फ्लेवर के बारे में लेखों की संख्या भी देख पाएगा ताकि पता लगाया जा सके कि किसका सबसे अधिक उल्लेख किया गया है और “लोकप्रियता कारक” का अनुमान लगाया जा सके।

डीपमाइंड अपने रोबोट को वास्तविक दुनिया के वातावरण में प्रशिक्षित करने के लिए इस लंबी संदर्भ विंडो का लाभ उठा रहा है। इस प्रभाग का उद्देश्य यह देखना है कि क्या रोबोट किसी वातावरण के विवरण को याद रख सकता है और जब संदर्भगत या अस्पष्ट शब्दों में पर्यावरण के बारे में पूछा जाता है तो वह उपयोगकर्ताओं की सहायता कर सकता है। Instagramएआई प्रभाग ने दिखाया कि जब कोई उपयोगकर्ता रोबोट से चित्र बनाने के लिए स्थान पूछता है, तो वह उसे व्हाइटबोर्ड तक ले जाने में सक्षम होता है।

गूगल डीपमाइंड ने एक पोस्ट में कहा, “1.5 प्रो की 1 मिलियन टोकन संदर्भ लंबाई के साथ संचालित, हमारे रोबोट मानव निर्देशों, वीडियो टूर और सामान्य ज्ञान तर्क का उपयोग करके किसी स्थान पर सफलतापूर्वक अपना रास्ता ढूंढ सकते हैं।”

में एक अध्ययन arXiv (एक गैर-सहकर्मी-समीक्षित ऑनलाइन जर्नल) पर प्रकाशित, डीपमाइंड ने सफलता के पीछे की तकनीक के बारे में बताया। जेमिनी के अलावा, यह भी है का उपयोग करते हुए अपना खुद का रोबोटिक ट्रांसफॉर्मर 2 (RT-2) मॉडल। यह एक विज़न-लैंग्वेज-एक्शन (VLA) मॉडल है जो वेब और रोबोटिक्स डेटा दोनों से सीखता है। यह वास्तविक दुनिया के वातावरण को संसाधित करने और डेटासेट बनाने के लिए उस जानकारी का उपयोग करने के लिए कंप्यूटर विज़न का उपयोग करता है। इस डेटासेट को बाद में जनरेटिव AI द्वारा प्रासंगिक आदेशों को तोड़ने और वांछित परिणाम उत्पन्न करने के लिए संसाधित किया जा सकता है।

वर्तमान में, Google DeepMind इस आर्किटेक्चर का उपयोग अपने रोबोट को मल्टीमॉडल इंस्ट्रक्शन नेविगेशन (MIN) नामक एक व्यापक श्रेणी पर प्रशिक्षित करने के लिए कर रहा है, जिसमें पर्यावरण अन्वेषण और निर्देश-निर्देशित नेविगेशन शामिल है। यदि विभाग द्वारा साझा किया गया प्रदर्शन वैध है, तो यह तकनीक रोबोटिक्स को और आगे बढ़ा सकती है।

Tags: Tech, Uncategorized

You May Also Like

जेएसडब्ल्यू एमजी मोटर 2025 तक भारत में 3,000 करोड़ रुपये का निवेश करेगी, पांच नई कारें लॉन्च करेगी
रिटेलर द्वारा सूचीबद्ध सोनी एक्सपीरिया 5 VI के कथित केस से डिज़ाइन का पता चलता है

Author

Must Read

keyboard_arrow_up