في عالم الذكاء الاصطناعي سريع التطور، تظهر أهمية كيفية إدارة سلوك الوكلاء المستقلين المعززين بنماذج اللغات الضخمة (Large Language Models) بشكل واضح. مؤخرًا، تم اقتراح إطار عمل مبتكر يُعرف بتحليل التسلسل الأساسي (Base Sequence Analysis) والذي يهدف إلى ترميز سلوكيات هذه الوكلاء إلى تسلسلات رمزية باستخدام أبجدية مكونة من أربع حروف: X (استكشاف)، E (تنفيذ)، P (تخطيط)، وV (تحقق).

يمثل هذا الإطار تشبيهًا مثيرًا لتحليل التسلسل الجينومي، حيث تم تطبيق تقنيات استخراج أنماط n-gram، ومصفوفات الانتقال ماركوف، والارتباط الثنائي النقطي على 347 تتبع تنفيذ حقيقي تم جمعه من نظام وكيل ReAct على مدى ثمانية أيام. تكشف النتائج عن أن نموذج trigram (P-X-P) هو النمط الوحيد المحفوف بالمخاطر، حيث يُظهر انخفاضًا في معدل النجاح بنسبة 10.4%.

ما هو أكثر إثارة هو أن نسبة P تُعتبر أقوى مؤشرات السلبية للنجاح، مع معامل ارتباط قدره -0.256، في حين أن احتمالية الانتقال إلى V لا تتجاوز 2.1%، مما يدل على وجود نقص ممنهج في التحقق. من هذه الاكتشافات، تم تصميم نظام الحوكمة (Governor)، والذي يتكون من ثلاث طبقات للتدخل التلقائي، بما في ذلك محرك القواعد ومجمع إحصائي ومكيف عتبة يعتمد على مربع كاي.

عند تقييمه في سياق طبيعي (N=101 مقابل N=246)، حقق نظام Governor زيادة بنسبة 6.2% في معدل نجاح المهام مع تقليل استهلاك الرموز بمتوسط يبلغ 44%. ولتعزيز نتائج الدراسة، تم تطبيق تشفير XEPV على 2000 مسار لوكيل برمجي عام على SWE-bench، مؤكدا أن حلقات الاستكشاف وعيوب التحقق (E->V) تمثل تحديًا أيضًا في نظام مستقل.

تتضمن الأبحاث المستقبلية التي تم وضعها في اعتبارنا نماذج لغوية تعتمد على تسلسل القواعد، وبصمات سلوكية بين الوكلاء، بالإضافة إلى تشكيل المكافآت. علاوة على ذلك، تم إطلاق مجموعة أدوات مفتوحة المصدر لتحقيق إمكانية التكرار، مما يمهد الطريق لمزيد من التطورات في هذا المجال المثير.

ما رأيكم في هذه التطورات الثورية في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!