في عالم البرمجة المرئية، تسعى نماذج اللغة والرؤية (Vision-language models) إلى إنتاج شفرات برمجية لحل المهام البصرية، ولكن كيف يمكن لهذه النماذج أن تؤدي بشكل فعال في السياقات التعليمية؟ مع بروز TurtleAI، يُطرح سؤال مهم حول قدرة النماذج الحالية على تحقيق نتائج إيجابية.
تحتوي TurtleAI على 823 مهمة مُعَدَّة بعناية تستند إلى مهام برمجة مرئية في مجال Turtle Graphics، ما يتطلب من النماذج تصور الأنماط الهندسية واستنتاج العلاقات المكانية، وأيضًا صياغة شفرات بلغة بايثون (Python) تعيد إنتاج الأنماط الهندسية بدقة. لقد تم تقييم أكثر من 20 نموذج من نماذج اللغة والرؤية، مثل GPT-5 وGPT-4o وQwen2-VL-72B، ولكن النتائج أظهرت أن معظمها يحقق معدلات نجاح أقل من 30%، مما يسطر على التحديات الكبيرة التي تواجه هذه التقنيات في سياقات التعليم.
لتجاوز هذه العقبات، اقترحت الدراسة تقنية جديدة لتوليد البيانات تحتاج فقط إلى مجموعة صغيرة من العينات الأولية. وقد أظهرت النتائج أن تحسين نموذج Qwen2-VL-72B باستخدام هذه البيانات المُصنَّعة أدى إلى تحسين أداء يصل إلى 20% في المهام الواقعية. علاوة على ذلك، كشفت التحليلات عن أن GPT-4o يعاني من صعوبات في التفكير المكاني والاستنساخ البصري الدقيق، في حين أن التغذية الراجعة تؤدي إلى تحسين التنسيق بين التفكير البصري وتنفيذ الشيفرة البرمجية.
من الواضح أن TurtleAI ليست مجرد أداة برمجية، بل هي تجربة تهدف إلى تطوير الطريقة التي نتفاعل بها مع البرمجة المرئية، مما يفتح الأبواب أمام مستقبل مشرق لعالم التعليم البرمجي.
TurtleAI: كيف تُحدث نماذج الذكاء الاصطناعي ثورة في البرمجة المرئية؟
تقدم TurtleAI مقياسًا جديدًا لتقييم نماذج اللغة والرؤية في البرمجة المرئية، حيث تكشف النتائج عن تحديات كبيرة في الأداء. التحليل يكشف عن نقاط ضعف رئيسية، مما يستدعي تحسينات جذرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
