يدرِّب العلماء تقنيات الذكاء الاصطناعي على إدراك البيئة المحيطة من خلال أعين البشر، باستخدام لقطات فيديو تم تصويرها بنظارات ذكية من «منظور الشخص-الأول» first-person perspective، مما سيجعل الذكاء الاصطناعي أكثر نفعًا مما هو عليه الآن، وبخاصة حين يجتمع ذلك مع الاستعانة بالكاميرات القابلة للارتداء. وبالرغم من أن غالبية أنظمة الرؤية الحاسوبية في الوقت الراهن تستخدم المواد البصرية المعتمِدة على «منظور الشخص-الثالث»third-person perspective ، فإننا، نحن البشر، نستشعر العالم من خلالها وكأننا في قلب الحدث. ولكن هذا النوع الجديد من الإدراك «المتمركز حول الذات» يختلف اختلافًا جوهريًا، ولهذا تحاول أنظمة الرؤية الحاسوبية فهمه.
والرؤية الحاسوبية هي أحد مجالات علم الحاسوب، وشكل من أشكال الذكاء الاصطناعي، وتهدف إلى بناء تطبيقات ذكية قادرة على تحليل البيانات المرئية مثل الصور ومقاطع الفيديو، وفهمها كما يفهمها البشر، ومن تطبيقاتها في الحياة العملية المركبات ذاتية القيادة.
وقد شارك باحثون من جامعة الملك عبد الله للعلوم والتقنية (كاوست) ضمن ثلاث عشرة جامعة ومختبرًا من تسع دول في تأسيس مشروع «إيجو فور دي»Ego4D ، العام الماضي، والممول من قِبل منصة «فيسبوك»، والذي يهدف إلى تخطي الصعوبات التي تواجه أبحاث «الإدراك المتمركز حول الذات» egocentric perception. حيث يهتم المشروع بخمسة محاور تشمل المساعدة في المهام المتعلقة بالذاكرة، والتنبؤ، والتحكم في اليدين والأشياء، والتسجيل الصوتي-المرئي، والتعاملات الاجتماعية.
وقد ساهم فريق «كاوست» بقرابة 450 ساعة من تسجيلات الفيديو من «منظور الشخص الأول»، ضمن أكثر من 3000 ساعة من تسجيلات الفيديو مجَهَّلة الهوية التي صنعها أكثر من 700 مشارك استخدموا كاميرات قابلة للارتداء ليسجلوا ما يرونه في حياتهم اليومية. وقد نتج عن ذلك قاعدة بيانات متاحة للجميع، يفوق حجمها أكبر مصادر هذه الفئة من المواد البصرية بأكثر من 20 مرة.
يقول برنارد غانم، كبير باحثي الحوسبة البصرية في «كاوست»: "نظرًا لخبراتنا في مجال الفهم الحاسوبي للأنشطة البشرية في مقاطع الفيديو الطويلة، فقد عُني فريقي بمحور «الذاكرة العرَضية»، الذي يسعى لتحديد اللحظات أو الأشياء التي تنتمي للماضي، أو الردود على استعلامات لغوية وقعتْ في الماضي"، مضيفًا: "بعبارة أخرى، فقد قمنا بتطوير وتقييم وسائل أوَّليَّة يمكنك من خلالها أن تعثر على اللحظات أو الاستعلامات اللغوية التي تريدها في فيديو مأخوذ من «منظور الشخص الأول»".
جدير بالذكر أن تقنيات الذكاء الاصطناعي ساهمتْ أيضًا في تمييز الكلام وتحويله إلى نصوص في تطوير برمجيات المساعد الافتراضي تطويرًا كبيرًا، وسوف يساهم تدريب الذكاء الاصطناعي على استخدام الفيديوهات المتمركزة حول الذات في إحداث نقلة أكبر في برمجيات المساعد الافتراضي.
تقول كريستين جراومان، كبيرة الباحثين العلميين في منصة «فيسبوك»: "يساعد «إيجو فور دي» الذكاء الاصطناعي في الحصول على المعرفة الموغلة في العالَم الحسي والاجتماعي، المأخوذة من «منظور الشخص الأول» لمن يعيشون في ذلك العالَم. لن يتوقف الذكاء الاصطناعي عند فهم العالَم المحيط به فهمًا أفضل، بل قد يصبح يومًا ما قادرًا على فهم كل إنسان على حدة؛ فيعرف مثلًا شكل فنجال القهوة المفضل لديك، أو خط سير رحلتك العائلية القادمة. ونحن الآن نعكف على إنتاج نماذج بحثية أولية مستوحاة من تقنيات المساعد الافتراضي، قادرة على أداء تلك المهام".