في عالم تكنولوجيا الذكاء الاصطناعي (AI)، تتجلى أحلام الروبوتات القادرة على قراءة التصاميم المختلفة وبناء كائنات حقيقية من قطع البناء القابلة لإعادة الاستخدام. مشروع Brick-Composer يمثل خطوة جديدة نحو تحقيق هذا الحلم، حيث يدرس استخدام نماذج اللغات متعددة الوسائط (Multimodal Large Language Models) لجعل هذه الإمكانية واقعًا.

يتناول البحث تجميع قطع البناء كمسألة اتخاذ القرار التتابعي، حيث تتطلب كل خطوة مهمتين: اختيار القطعة المناسبة من بين الخيارات المتاحة وتحديد موضعها وطريقة وضعها. ولتيسير هذه الدراسة، تم تقديم مقياس BC-Bench (Brick Construction Benchmark) الذي يعد الأول من نوعه لتقييم أداء نماذج اللغات متعددة الوسائط في تجميع قطع البناء المتنوعة.

أظهرت التجارب أن النماذج الحالية تفتقر إلى الكفاءة، حيث تعاني من صعوبة في اختيار القطع بدقة وتقدير الوضع الصحيح لها. لسد هذه الفجوة، تم طرح Brick-Composer، وهو إطار تعلم يعمل على تعزيز قدرات النماذج عبر ثلاث إشارات تكاملية:
1. الشرارات التصميمية البشرية (Human Design Sparks)، والتي توفر عروض بناء غنية تتسم بالقدرة على العمل.
2. التغذية الراجعة العالمية (World Feedback)، التي تربط الإجراءات المتوقعة بالعواقب البصرية والمادية.
3. الخبرة الاصطناعية (Synthetic Experience)، التي توسع نطاق التعلم بعيدًا عن التصاميم الموجودة.

تظهر نتائج Brick-Composer تحسينًا كبيرًا في دقة اختيار القطع، حيث زادت عن ثلاثة أضعاف، بينما انخفضت أخطاء تقدير الوضع بشكل كبير. كما ارتفعت نسبة نجاح التجميع إلى حوالي 15%. بعد فترة التدريب، نجحت نموذج Qwen-3-8B في تجميع 42% من الخطوات المطلوبة لبناء كائن كامل، مما يشير إلى إمكانيات هائلة لاستحواذ نماذج اللغات متعددة الوسائط على مهارات التجميع من خلال التعلم المبني على أسس فيزيائية.

إن Brick-Composer ليس مجرد مشروع بحثي، بل يمثل قوة دافعة نحو تحقيق تطورات مدهشة في الذكاء الاصطناعي، حيث يفتح آفاق جديدة للإبداع والهندسة. هل تتوقع أن نحقق المزيد من الإنجازات في هذا المجال؟ شاركونا آراءكم في التعليقات!