في عالم الذكاء الاصطناعي، يشهد تطوير نماذج التدريب على المهام المعقدة تقدمًا هائلًا. أحدثت منصة VLA Foundry نقلة نوعية من خلال تقديم إطار مفتوح المصدر يجمع بين تدريب نماذج اللغة الكبيرة (Large Language Models)، ونماذج الرؤية (Vision Models)، ونماذج العمل (Action Models) ضمن قاعدة شفرة واحدة.
تقليديًا، كانت جهود التدريب المفتوح المصدر تركز على مرحلة تدريب العمل، مما أدى إلى تداخل غير متوافق بين مسارات التدريب المسبق. لكن VLA Foundry تغيير هذا الاتجاه من خلال توفير بيئة تدريب موحدة تسمح بالتحكم الكامل من مرحلة التدريب المسبق على اللغة إلى ضبط نماذج العمل المتخصصة.
يدعم VLA Foundry كلًا من التدريب من البداية واستخدام النماذج المدربة مسبقًا من منصة Hugging Face. للتأكيد على فعالية إطار العمل الجديد، تم تدريب وإصدار نوعين من النماذج: الأولى تم تدريبها بالكامل من البداية عبر خط أنابيب LLM إلى VLM إلى VLA، والثانية تعتمد على الهيكل المدرب مسبقًا Qwen3-VL.
قامت الاختبارات بتقييم أداء استراتيجيات العمل لكل من النموذجين على محاكي مفتوح المصدر LBM Eval. النتيجة كانت مثيرة، حيث أظهر النموذج المدرب بالكامل نتائج مماثلة لأداء المشاريع السابقة المغلقة. وعند الاستعانة بالهيكل المدرب مسبقًا Qwen3-VL، حقق نموذج معايير متعددة تفوقًا كبيرًا على معايير أخرى.
يمكنكم استكشاف قاعدة الشفرة الخاصة بـ VLA Foundry عبر هذا الرابط [VLA Foundry على GitHub](https://github.com/TRI-ML/vla_foundry) وكذلك كافة أوزان النماذج متعددة المهام على [Hugging Face](https://huggingface.co/collections/TRI-ML/vla-foundry). لمزيد من المحتوى المرئي، يمكنكم زيارة موقع المشروع [هنا](https://tri-ml.github.io/vla_foundry). ما رأيكم في هذا التطور؟ شاركونا آرائكم في التعليقات.
VLA Foundry: الإطار الثوري لتدريب نماذج اللغة والرؤية والعمل
أطلق فريق البحث VLA Foundry إطارًا مفتوح المصدر يدمج تدريب نماذج اللغة والرؤية والعمل في قاعدة شفرة واحدة. هذا الإطار يوفر تحكمًا كاملاً في مراحل التدريب ويعزز من أداء النماذج بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
