في خطوة مثيرة نحو تحسين أداء نماذج الرؤية واللغة (Vision-Language Models - VLMs)، قام فريق من الباحثين بتقديم إطار جديد يسمى GASP (Geometric-Aware Spatial Priors)، الذي يعد بنقل هذه النماذج إلى آفاق جديدة من خلال تعزيز فهمها للأبعاد الثلاثية.

تواجه النماذج التقليدية تحديات كبيرة في معالجة الأفكار الهندسية الثلاثية الأبعاد، وغالبًا ما تعتمد على تحسينات مرتبطة ببيانات أسئلة وأجوبة بصرية ثلاثية الأبعاد، مما قد يؤدي إلى انحياز تجاه مجموعة البيانات التي تم استخدامها.

مقابل ذلك، يقدم إطار GASP رؤى جديدة بتعليمه الأساسيات الهندسية بدلاً من الاعتماد فقط على إشراف الأسئلة والأجوبة، حيث يتم حقن معارف هندسية مباشرة في طبقات المحولات (Transformers) في نموذج اللغة الكبير (Large Language Model). يوفر هذا الإطار إشارات إشراف عميقة عبر جميع الطبقات، مما يعزز من دقة التطابق الداخلي.

أثبتت التحليلات أن النماذج التقليدية تعاني من دقة مطابقة داخلي منخفضة، وغالبًا ما تقل عن 5%. ومع تطبيق GASP، تحسن الأداء بشكل كبير، حيث زادت دقة التطابق إلى أكثر من 70% مع الحفاظ على متانة زمنية تتجاوز 85%، في حين بقيت النماذج التقليدية دون 5%.

كما أظهرت النتائج في الاختبارات المكانية تحسنًا ملحوظًا، حيث حقق الإطار الجديد زيادة بنسبة 18.2% في All-Angles Bench وزيادة بنسبة 29.0% في VSI-Bench، وكل ذلك بدون الاعتماد على بيانات أسئلة وأجوبة بصرية ثلاثية الأبعاد.

تعد هذه النتائج شهادة على أن التعلم من المعارف الهندسية الأساسية يمثل طريقًا واعداً نحو تعزيز قدرة VLMs على إجراء عمليات التفكير الهندسي ثلاثي الأبعاد بشكل أكثر موثوقية وفعالية. فهل تعتقد أن هذا الابتكار يمكن أن يحدث ثورة في مجال الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!