في عالم النماذج متعددة الوسائط (Multimodal Models)، يواجه الكثير من الباحثين تحديات كبيرة في التفكير الهندسي بسبب الهلاوس البصرية ونقص البيانات الرياضية الدقيقة. ولكن يبدو أن الأمور ستتغير بفضل ابتكار جديد يحمل عنوان GeoSym.

يقدم هذا الابتكار، المعروف باسم GeoSym Engine، إطار عمل عصبي-رمزي (neuro-symbolic framework) قابل للتطوير، مما يتيح له استنتاج حقائق رمزية دقيقة من معلومات معقدة. يعتمد النظام على نحو قواعد التحقق المشروطة وأداة SymGT التحليلية، ما يجعله يحقق دقة عالية في إنتاج الرسوم البيانية الهندسية وفقًا لمعايير دقيقة.

تأسيسًا على هذا الإطار، تم إنشاء مجموعة بيانات GeoSym127K، التي تحتوي على 51,000 صورة عالية الدقة، و127,000 سؤال مع حقائق رمزية موثوقة، و55,000 زوج من الأسئلة والأجوبة التي تم التحقق منها. بالإضافة إلى ذلك، تم تقديم GeoSym-Bench، مجموعة مختارة بعناية من 511 عينة معقدة للتقييم الدقيق.

من خلال عملية تحسين مشرف مكثفة (Supervised Fine-Tuning) على النموذج Qwen3-VL-8B، أظهرت الدراسة أن GeoSym يحقق تحسنًا ملحوظًا، خاصة في المهام الهندسية متعددة الخطوات. حيث حقق النموذج معدل تحسين بنسبة 22.21% على مجموعة MathVerse Vision-Only، و61.52% (+6.19% تحسن) على WeMath، مما يساعد على معالجة الانفصال المنطقي الطويل الأمد.

عند تطبيق تقنيات التعلم المعزز مع مكافآت يمكن التحقق منها (Reinforcement Learning with Verifiable Rewards)، أظهرت النتائج أن بدء التحسين من نقاط تفتيش SFT الهيكلية يعزز من الأداء بصورة كبيرة مقارنة بالأساليب التقليدية.

يمكن الاطلاع على البيانات والشيفرة المصدرية على صفحات Hugging Face وGitHub.

هل تعتقد أن هذه التطورات ستحدث تغييرًا جذريًا في مجال الذكاء الاصطناعي والتفكير الهندسي؟ شاركونا آراءكم في التعليقات!