يمكن الآن لنموذج Genie العالمي من Google محاكاة الشوارع الحقيقية باستخدام ميزة التجوّل الافتراضي

لقد قمنا جميعًا بإظهار ميزة Street View على خرائط Google لنظهر لصديق كيف كان يبدو منزل طفولتنا، أو أسقطنا رمز الشخص الصغير هذا في شوارع باريس لمعرفة ما إذا كنا قد حجزنا فندقًا في حي رائع. تخيل أنك قادر على القيام بذلك، ولكن بطريقة أكثر غامرة وتفاعلية تسمح لك بمحاكاة الشارع وضواحيه، وحتى القيام بأشياء مثل ضبط الطقس أو رؤية كيف سيبدو في سيناريو “بعد غد”.

وهذا أحد أهداف التكامل الأخير لـ Google. بدءًا من اليوم، يقوم Google DeepMind بربط Street View بمشروع Project Genie، وهو النموذج العالمي للأغراض العامة للشركة والذي يمكنه إنشاء بيئات تفاعلية متنوعة. تم إطلاق الميزة الجديدة خلال مؤتمر مطوري Google I/O.

تقول أنثروبيك إن التصوير "الشرير" للذكاء الاصطناعي كان مسؤولاً عن محاولات ابتزاز كلود: تقول أنثروبيك إن التصوير "الشرير" للذكاء الاصطناعي كان مسؤولاً عن محاولات ابتزاز كلود

“إنها قوية حقًا لكلا الوكيل [and robotics] وقال جاك باركر هولدر، عالم الأبحاث في فريق DeepMind المفتوح، لـ TechCrunch: “حالة الاستخدام واللعب مع البشر، كانت هذه دائمًا أطروحة الجني”.

وضرب مثالا بالروبوت الجديد الذي يتم نشره في لندن، والذي نادرا ما يرى الشمس. يقول باركر هولدر إن جيني يمكنها محاكاة تلك المناسبات النادرة التي تلمع فيها الشمس من على المسكن الفيكتوري، بحيث لا تصدم الأشعة الروبوت عند حدوث ذلك.

وتابع: “في الوقت نفسه، قد تقول: “سأذهب إلى مدينة نيويورك، ولكن ليس في هذا الوقت من العام”. “سوف تتساقط الثلوج. أريد أن أرى كيف تبدو هذه الكتلة في الثلج.”

أصبحت حوكمة الذكاء الاصطناعي الآن منتجًا. هل الشركات جاهزة؟: أصبحت حوكمة الذكاء الاصطناعي الآن منتجًا. هل الشركات جاهزة؟

تقوم جوجل بجمع بيانات التجوّل الافتراضي منذ 20 عامًا عبر السيارات المزودة بكاميرات والأفراد المربوطين بـ “حقائب الظهر المتعقبة”. جمعت شركة التكنولوجيا العملاقة شمالًا 280 مليار صورة عبر 110 دولة وسبع قارات.

قال جاك: “مع ميزة التجوّل الافتراضي، لدينا صور من كمية كبيرة من العالم”. “يمكنك أن تتخيل مدى قوة الجمع بين هذا المصدر الغني للمعلومات والبيانات الواقعية مع القدرة على محاكاة العوالم.”

أصدرت Google أحدث نموذج عالمي لها Genie 3 للمعاينة البحثية في أغسطس الماضي وفتحت الوصول إلى الأداة لمشتركي Google AI Ultra في الولايات المتحدة في يناير، مما يسمح للعملاء بإنشاء عوالم ألعاب تفاعلية من المطالبات النصية أو الصور. الهدف هو استخدام Genie في التجارب التعليمية والألعاب والتدريب على الروبوتات.

تطلق OpenAI ChatGPT للتمويل الشخصي، وستتيح لك ربط الحسابات المصرفية: تطلق OpenAI ChatGPT للتمويل الشخصي، وستتيح لك ربط الحسابات المصرفية

تساعد Genie 3 بالفعل في تشغيل أحد أجهزة محاكاة Waymo لتدريب سياراتها ذاتية القيادة على “الأحداث النادرة للغاية” مثل الأعاصير أو لقاءات الأفيال غير الرسمية. يمكن أن تساعد إضافة بيانات Street View إلى ذلك Waymo على الاستعداد لإطلاقه في المزيد من المدن حول العالم.

لدى Waymo جهاز محاكاة خاص بها يعتمد عليه لتوسيع نطاقه ليشمل 11 مدينة أمريكية واختبار برنامج تشغيل الذكاء الاصطناعي الخاص به في عدة مدن أخرى. يقول باركر هولدر إن الفرق مع جيني هو أن هذه كلها من وجهة نظر السيارة. لا تسمح ميزة Street View بمحاكاة عالم مرتبط بمكان حقيقي فحسب، بل تسمح أيضًا بتحويل وجهة النظر إلى أنواع أخرى من العملاء، مثل الإنسان أو الروبوت.

تطلق Google ميزة Street View في Genie لبعض مستخدمي Ultra في الولايات المتحدة بدءًا من اليوم، مع إمكانية الوصول إليها على نطاق واسع بمرور الوقت. سيتمكن مستخدمو Global Ultra من الوصول خلال الأسابيع القليلة المقبلة، وفقًا للشركة.

هدف الباحثين هو وضع هذه الإمكانية الجديدة في متناول أكبر عدد ممكن من الأيدي، وفقًا لدييجو ريفاس، مدير المنتج في DeepMind. وحذر من أن ميزة Street View بشكل خاص وGenie بشكل عام لا تزال بمثابة تجربة، لذلك هناك الكثير مما يجب تحسينه من حيث الدقة.

في العينات التي عرضها علي فريق جوجل – بما في ذلك محاكاة تحت الماء لحي كنت أعيش فيه – كانت النتائج مثيرة للإعجاب ويمكن التعرف عليها، ولكنها لا تزال بجودة ألعاب الفيديو وليست واقعية. كما أن النماذج ليست مدركة للفيزياء بعد، مما يعني أنها لا تفهم السبب والنتيجة بعد. على سبيل المثال، في محاكاة لامرأة تجري عبر شجرة جوشوا المغطاة بالثلج، ركضت مباشرة عبر الصبار والشجيرات.

قارن ذلك، على سبيل المثال، بمولد الصور Nano Banana من Google – والذي يمكنه الآن إنشاء نص مثالي في الرسوم البيانية – أو مولد الفيديو الخاص به Veo – الذي يفهم أن القوارب الورقية تنجرف مع تيارات المياه، وينتشر الدخان في الهواء، وينسدل القماش على الأشكال.

لم يتم ترميز الفيزياء في هذه النماذج؛ إنهم يتعلمونها بشكل حدسي مع مرور الوقت من خلال الملاحظة السلبية، كما يفعل كائن حي.

وقال باركر هولدر: “أعتقد أنه بالنسبة لهذا النوع من النماذج، قد يستغرق الفيديو ما بين ستة إلى 12 شهرًا من حيث الدقة والجودة، لذلك أعتقد أنه شيء سنحله”.

قال جوناثان هربرت، مدير خرائط Google والذي بدأ عضوًا في فريق Street View كمتدرب منذ 12 عامًا، إن شركة Genie لا يمكنها حتى الآن إنشاء عملية إعادة بناء حقيقية للشارع. وهو يعتقد أن الاختراق الحقيقي هو الاستمرارية المكانية للذكاء الاصطناعي. إذا قمت بالتدوير 360 درجة، فإن الذكاء الاصطناعي يتذكر بشكل صحيح ويحاكي البيئة خلفك. ومن تلك النقطة فصاعدًا، يمكن للنموذج بناء بيئة جديدة فوق ذلك.

وقال هربرت: “لقد فكرنا منذ فترة طويلة في كيفية بناء أفضل وأغنى نموذج للعالم على رأس بيانات التجوّل الافتراضي”. “لقد كانت بالتأكيد فكرتنا لاستخدام بيانات الخرائط بطرق جديدة ولأنواع جديدة من أبحاث الذكاء الاصطناعي لفترة طويلة جدًا.”

عندما تقوم بالشراء من خلال الروابط الموجودة في مقالاتنا، قد نكسب عمولة صغيرة. هذا لا يؤثر على استقلالنا التحريري.

المصدر