في عالم مليء بالتكنولوجيا والتطورات السريعة، تبرز أنظمة البحث المدعومة بالذكاء الاصطناعي (AI-Driven Research Systems - ADRS) كأدوات قوية تعتمد على نماذج اللغات الضخمة (Large Language Models - LLMs) والتقييم التلقائي لاكتشاف الخوارزميات، والبراهين، والتصاميم. لكن رغم هذا التقدم، لا تزال أدوات تحليل أداء هذه الأنظمة متخلفة عن الركب.

يعتمد أداء أنظمة ADRS على التفاعلات بين مكوناتها، وهذا ما يجعل فهمها أمراً معقداً ويعتمد على استكشافات مكلفة. وللأسف، فإن الضمانات التقليدية التي تقيس التوافقية في هذه الأنظمة لا تنطبق على العملية التي نقوم بتحديدها.

لذا، نُقدِّم لكم إطار GAMBLe الذي يتيح لنا تحليل سلوك أنظمة ADRS من خلال تقسيمه إلى أربعة معايير رئيسية: مولد (Generator - G)، مُقيم (Assessor - A)، آلية اكتشاف (Discovery Mechanism - M)، وميزانية (Budget - B). ومن خلال هذا الإطار، يمكننا إنشاء منظر فعال (Effective Landscape - L_eff) يكشف أن أزواج المولد والمقيم تتسبب في خلق مشاهد تحسينية ذات بنية مختلفة حسب المشكلة.

قمنا بإجراء تجارب واسعة تشمل أكثر من 760 جولة مكررة (أكثر من 46,000 تكرار) مع مولدات تتنوع من LLMs الفردية إلى مجموعات ديناميكية، وميكانيكيات متنوعة من اختيار طموح إلى بحث مشترك تطوري. ووجدنا أن هناك لا ترتيب شامل للمولدات أو الآليات، حيث يمكن أن تتفوق النماذج الحديثة أحياناً على البدائل مفتوحة المصدر، وأن أبسط الآليات قد تتفوق على أحدث تقنيات البحث المتطورة.

وأظهرت النتائج أن الخيارات الصحيحة للمكونات يمكن أن تحسن الأداء بنسبة تتراوح بين 13% إلى 67% وكفاءة البحث بنسبة 6-39 مرة حتى مع ميزانيات محدودة (60 تكرار لكل جولة). إن هذه النتائج تفتح الأفق أمام إمكانية تحسين أنظمة البحث المدعومة بالذكاء الاصطناعي بصورة فعالة وبطرق غير تقليدية.