OracleProto: إطار مبتكر لتقييم قدرات التنبؤ في نماذج اللغة الكبيرة

تتجه نماذج اللغة الكبيرة (LLMs) نحو التحول من كونها مولدات نصوص ثابتة إلى أنظمة دعم قرارات حقيقية تُستخدم في مجموعة متنوعة من المجالات، بما في ذلك التمويل وصنع السياسات والأبحاث العلمية. أحد الجوانب المهمة لهذه الأنظمة هو القدرة على التنبؤ، وهي مهارة تتطلب جمع المعلومات، دمج الأدلة، اتخاذ القرارات في سياقات معينة. رغم الطلب الواسع على هذه القدرة، إلا أن تقييمها يظل تحديًا كبيرًا.

لطالما كانت المقاييس الحية أكثر طرق التقييم دقة، ولكنها تفقد فعاليتها بمجرد أن تُحلّ الأحداث المتوقعة. في المقابل، تتيح المقاييس الاسترجاعية تقييمًا موثوقًا، لكنها قد لا تستطيع التفرقة بين التنبؤات الحقيقية والمعرفة التي اكتسبتها النماذج مسبقًا أثناء مرحلة التدريب.

للتغلب على هذه التحديات، تم تقديم إطار عمل جديد يطلق عليه اسم OracleProto، والذي يعمل على إعادة بناء الأحداث المحلولة إلى عينات تنبؤ زمنية من خلال دمج تقنيات متقدمة مثل التقطيع المعرفي، والتشفير الزمني على مستوى الأداة، واكتشاف تسرب المحتوى.

تم تطبيق OracleProto على مجموعة بيانات مشتقة من FutureX-Past مع ستة نماذج حديثة من LLMs، حيث يميز بين جودة التنبؤ، واستقرار العيّنات، وكفاءة التكلفة تحت حدود معلوماتية خاضعة للتحكم. بفضل هذا الإطار، أصبح بالإمكان تحويل قدرة التنبؤ في LLMs من تقييم فردي إلى قدرة قابلة للتدقيق، وقابلة لإعادة الاستخدام، وقابلة للتدريب، مما يوفر واجهة موحدة للمقارنة العادلة بين النماذج ويعتبر مصدر إشارة خاضع للتحكم للاستخدام المستقبلي.

للمزيد من المعلومات، يمكنكم زيارة [رابط GitHub](https://github.com/MaYiding/OracleProto) و[رابط Hugging Face](https://huggingface.co/datasets/MaYiding/OracleProto).

OracleProto: إطار مبتكر لتقييم قدرات التنبؤ في نماذج اللغة الكبيرة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

خمسة معمارين للاقتصاد الرقمي: أين تتعثر العجلة في عالم الذكاء الاصطناعي؟

إطلاق CreativityBench: معيار جديد لتقييم الإبداع في الذكاء الاصطناعي من خلال إعادة استخدام الأدوات!

ابتكارات جديدة في الدفاع السيبراني: كيف تتحكم الأنظمة الذكية في التهديدات بفاعلية متزايدة!