في عالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) الحديث، تُعتبر [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) من [الأدوات](/tag/الأدوات) الفعالة في معالجة مشاكل [التحسين التوافقي](/tag/[التحسين](/tag/التحسين)-التوافقي). ومن خلال [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) مثيرة، يسعى الباحثون إلى استخدام [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) ([Reinforcement Learning](/tag/reinforcement-learning)) لتخفيف عبء تكلفة [التفكير](/tag/التفكير) عن طريق [بناء](/tag/بناء) حل قابل لإعادة الاستخدام لمجموعة كاملة من المشكلات.
تتركز [الدراسة](/tag/الدراسة) حول اختيار التبعية المتكاملة (Synergistic Dependency Selection - SDS)، وهو [نموذج](/tag/نموذج) محكوم من مُشكلة الحقيبة التربيعية المقيدة، مصممًا للكشف عن أنواع معينة من [الأخطاء](/tag/الأخطاء). تشير النتائج الأولية إلى أن [نماذج](/tag/نماذج) البايس التقليدية تواجه صعوبة في [تحقيق](/tag/تحقيق) الفعالية التامة، حيث تصل [الفجوة](/tag/الفجوة) بينها وبين أفضل حل افتراضي (Virtual Best Solver - VBS) إلى حوالي 28.7%. في هذه الحالة، تظهر التحليلات أنّ [نموذج](/tag/نموذج) البايس غالبًا ما يسترجع قوالب التبريد المحاكي (Simulated Annealing) ولكنه يخطئ في [تنفيذ](/tag/تنفيذ) قاعدة قبول ميتروبوليس (Metropolis acceptance rule).
لمعالجة هذه التحديات، استخدم الباحثون [نموذج](/tag/نموذج) Qwen2.5-Coder-14B-Instruct، معززين إياه باستخدام [تقنيات](/tag/تقنيات) [تحسين السياسات](/tag/[تحسين](/tag/تحسين)-[السياسات](/tag/السياسات)) النسبية (Group Relative [Policy Optimization](/tag/policy-optimization) - [GRPO](/tag/grpo)) مع [مكافآت](/tag/مكافآت) تستند إلى إمكانية التنفيذ. وقد أظهر النموذج الجديد [كفاءة](/tag/كفاءة) مذهلة، حيث كان قادرًا على الوصول إلى قوالب تبريد محاكي تأخذ في اعتبارها [القيود](/tag/القيود) في 99.8% من المخرجات الممكنة، مع [تحقيق](/tag/تحقيق) فجوة قدرها 5.0% فقط مع VBS، مما يجعل [تكاليف التنفيذ](/tag/[تكاليف](/tag/تكاليف)-التنفيذ) أقل بمقدار 91 مرة مقارنة بالطريقة التقليدية.
أثبتت الاختبارات الإضافية أن الحل الناجح يبقى تنافسيًا حتى عند استخدامه بشكل ثابت [عبر](/tag/عبر) مجموعة اختبار SDS، مما يدل على إمكانية تطبيق النتائج في مجالات أخرى مثل [جدولة](/tag/جدولة) ورش العمل (Job Shop Scheduling). ومع ذلك، تكشف التحليلات السلبية أن استخدام مثبتات معيارية قد يؤثر سلبًا على الأداء، وأن التصميمات تعتمد على [المعايير](/tag/المعايير) قد تحتاج إلى تعديلات دقيقة لتحقيق أفضل النتائج.
هذا [البحث](/tag/البحث) يجعلنا نتساءل: هل نحن على أبواب ثورة جديدة في [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي)؟ ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
ثورة في الذكاء الاصطناعي: التعلم المعزز يبتكر حلولا قابلة لإعادة الاستخدام!
تقدم الأبحاث الجديدة رؤية مبتكرة لاستخدام التعلم المعزز في توليد حلول مستدامة لمشكلات التعزيز، مما يقلل من تكلفة معالجة البيانات بشكل كبير. يفتح هذا الاتجاه آفاقًا جديدة لنماذج اللغة الكبيرة (LLMs).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
