تدخلنا الذكاء الاصطناعي (AI) في مرحلة جديدة من التطور مع ظهور تطبيقات تفاعلية يُطلق عليها اسم التطبيقات الصغيرة (MiniApps)، التي تعتمد على نماذج اللغات الضخمة (LLMs). هذه النقلة النوعية التي نشهدها اليوم تنقل التفاعل بين الإنسان والآلة من مجرد ردود نصية ثابتة إلى تجارب غنية وتفاعلية.

من خلال تطوير MiniAppBench، حصلنا على مقياس شامل مصمم خصيصاً لتقييم قدرة النماذج على توليد تطبيقات تفاعلية تراعي المبادئ الواقعية. يجمع هذا المقياس بيانات من تطبيقات حقيقية وصلت إلى أكثر من 10 ملايين توليد ويستخلص 500 مهمة عبر ستة مجالات متنوعة مثل الألعاب، العلوم، والأدوات.

ولمعالجة التحديات المتعلقة بتقييم التفاعلات المفتوحة، حيث لا توجد حقيقة واحدة ثابتة، تم تقديم إطار التقييم MiniAppEval. يستفيد هذا الإطار من أتمتة المتصفح لإجراء اختبارات استكشافية شبيهة بتلك التي يقوم بها الإنسان، مما يتيح تقييم التطبيقات على ثلاثة أبعاد رئيسية: النية، الثبات، والديناميكية.

أظهرت تجاربنا أن النماذج الحالية تواجه تحديات كبيرة في توليد تطبيقات MiniApps عالية الجودة. ومع ذلك، يُظهر MiniAppEval توافقاً عالياً مع أحكام البشر، مما يضع معياراً موثوقاً للأبحاث المستقبلية.

إذا كنت مهتماً في كيفية إعادة تشكيل الذكاء الاصطناعي لتجاربنا الرقمية، فنحن نرحب بتفاعلاتكم وأفكاركم حول هذا الموضوع في التعليقات.