في خطوة جديدة نحو فهم أعمق لتقنيات الذكاء الاصطناعي، سلطت دراسة حديثة الضوء على مفهوم 'التراجع الجاذبي' (Gravitational Interpretation) في الضبط الدقيق (Fine-Tuning) للأنظمة التدريبية. تشير النتائج إلى أن الضبط الدقيق على بيانات غير ضارة يمكن أن يعيد بعض السلوكيات التي تم اكتسابها سابقًا خلال دورات التدريب.

تظهر الدراسة أن السلامة قد تتآكل تحت تحديثات غير ضارة بعد التوافق، وقد تعود قدرات غير مكتسبة مرة أخرى، حيث تنتقل الصفات الكامنة عبر إشراف غير مرتبط بشكل مباشر. وتعكس هذه الظواهر نطاقًا كبيرًا من القابلية الهشة بعد مرحلة التوافق، مما يُبرز الحاجة إلى فهم عميق لتاريخ التدريب (Training History) قد يساهم في ضبط هذه الأنظمة بطريقة أكثر أمانًا.

افترض الباحثون أن المراحل الكبيرة المبكرة من التدريب تحدث مسارات سلوكية سائدة، بينما تعتبر مراحل التوافق أو التخصص اللاحقة عبارة عن تحولات أقل عمقًا منها. لذا، فإن الضبط الدقيق يمكن أن يرث عنصر التراجع الدائم الذي يعود إلى 'الشاهد' على المسار السلوكي السائد. من خلال تحليلهم، تمكّن الباحثون من إثبات أن الانجراف التمثيلي (Representational Drift) يتجه بسرعة نحو اتجاه تراجع محدد، يشار إليه بالرمز (v_rev).

يتمثل التحدي في تحسين النظام من خلال فهم كيفية منع الحركة على هذا الاتجاه التراجعي، مما ينتج عنه تقليل الضرر الناتج دون تأثير كبير على أداء المهام. وتظهر النتائج أن تقييد الحركة على الاتجاه (v_rev) قد أدى إلى تقليل الضرر من 19.0% إلى 8.5% مع الحفاظ على نتائج فعّالة.

ما يعنيه كل هذا للمستقبل هو ضرورة تطوير آليات جديدة لتحسين أمان الأنظمة الذكية، بحيث يظل الفهم العميق للسلوكيات المتراكمة جزءًا لا يتجزأ من عملية التصميم والتطوير.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات.