تشكل مشكلة حل الهندسة الطائرة (Plane Geometry Problem Solving - PGPS) محورًا لمهام التفكير المتعدد الأشكال، حيث تهدف إلى تحليل مشاكل هندسية استنادًا إلى الرسوم البيانية التوضيحية ووصف نصي للمشكلة. على الرغم من أن نماذج اللغات الكبيرة (Large Language Models - LLMs) تتمتع بقدرات تفكير قوية، إلا أن تطبيقها المباشر في PGPS كان محدودًا بسبب عدم قدرتها على معالجة الرسوم البيانية المرئية.
تعمل الأبحاث الحالية عادةً على تحسين نماذج اللغات متعددة الأشكال (Multimodal LLMs - MLLMs) من خلال تقنيات متقدمة، مما يعزز من قدرتها على فهم الصور والتفكير بشكل متزامن. ومع ذلك، قد يعيق تداخل هذه العمليات قدرة نماذج اللغات الكبيرة الأساسية على الاحتفاظ بقدرتها على التفكير.
في هذه الدراسة الجديدة، نلاحظ أن LLM يمكن أن يكون حلاً قويًا لمشاكل PGPS عندما يتم صياغة المعلومات البصرية بشكل مناسب كأوصاف نصية. نقترح تدريب مُفسر MLLM لتوليد أوصاف هندسية للمخططات المرئية، حيث يتم استخدام LLM متاح لأداء عمليات التفكير.
الاختيار هنا وقع على لغة التصريح الشرطي (Conditional Declaration Language - CDL) كأفضل وسيلة للتعبير عن الأوصاف الهندسية، حيث إن اختصارها يسهل تدريب مُفسر MLLM بشكل فعال. يتم تحسين مُفسر MLLM عبر تقنيات Chain-of-Thought (CoT) المساعدة، يليها تدريب GRPO لتعزيز قدرات CDL.
بدلاً من استخدام نظام مكافآت تقليدي يعتمد على مقارنة النتائج بالتخمين الصحيح، قمنا بتصميم مكافآت مطابقة CDL لتسهيل تدريب GRPO بشكل أكثر فعالية، مما يوفر إرشادات مباشرة وكثيفة لتوليد CDL.
ولدعم عملية التدريب، قمنا بإنشاء مجموعة بيانات جديدة تُعرف باسم Formalgeo7k-Rec-CoT، والتي تم تطويرها من خلال مراجعة يديوية لمجموعة البيانات Formalgeo7k v2 وإدماج تعليقات CoT.
تظهر التجارب الواسعة على مجموعات البيانات Formalgeo7k-Rec-CoT، Unigeo، وMathVista أن طريقتنا (التي تم تحسينها على فقط 5.5k بيانات) تقدم أداءً ممتازًا مقارنة بأفضل نماذج MLLMs المفتوحة والمغلقة.
تحويل الوصف الهندسي إلى جسر: كيف يفتح نماذج اللغات الكبيرة (LLM) آفاق جديدة لحل مشاكل الهندسة الطائرة؟
تقدم الدراسة الجديدة أسلوبًا مثيرًا لتحسين قدرات نماذج اللغات الكبيرة (LLM) في حل مشاكل الهندسة الطائرة عبر تحويل المعلومات البصرية إلى أوصاف نصية. النتائج تبشر بقدرات غير مسبوقة في معالجة مثل هذه المهام المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
