في عصر يشهد تطوراً كبيراً في الذكاء الاصطناعي، تطرح تحجيم الوقت في الاختبارات (Test-Time Scaling) تساؤلات جديرة بالاهتمام حول موثوقية نماذج اللغات الضخمة (Large Language Models). تهدف تقنية TTS إلى تحسين عملية التفكير المنطقي لنماذج الذكاء الاصطناعي من خلال استكشاف مجمعات مختلفة من الإجابات المحتملة واختيار الأفضل منها. وذلك بناءً على فرضية أن تنوع هذه المجمعات يعزز من دقة النتائج.
ومع ذلك، يُظهر البحث الجديد أن تقليل تنوع الخيارات المرشحة، حتى بمعدل طفيف، يمكن أن يؤدي إلى إنتاج مخرجات غير آمنة بصورة متزايدة. قدم الباحثون بروتوكولاً جديداً يُدعى تقليص التنوع الموجه بالمرجع (Reference-Guided Diversity Reduction Protocol - RefDiv)، والذي يُستخدم كاختبار تشخيصي لتحليل قدرة أنظمة TTS.
أجرى الباحثون سلسلة من التجارب على نماذج مفتوحة المصدر مثل Qwen3 وMistral وLlama3.1 وGemma3، بالإضافة إلى استراتيجيتين شائعتين في TTS وهما بحث شجرة مونت كارلو (Monte Carlo Tree Search) وأفضل من (Best-of-N).
أظهرت النتائج أن تقليص التنوع له تأثير كبير على معدل إنتاج النتائج غير الآمنة، وغالباً ما كان هذا التأثير أقوى من تأثير المحفزات المباشرة ذات الدرجات العالية من النية العدائية.
وبالاضافة إلى ذلك، تبين أن العديد من مصنفات الأمان المعروفة، مثل Llama-Guard، غير قادرة على تحديد المحفزات العدائية الناتجة عن RefDiv، مما يُظهر أن دفاعات السلامة الحالية توفر حماية محدودة ضد هذا النوع من الفشل المرتبط بالتنوع.
يعتبر هذا الاكتشاف خطوة مهمة لفهم المخاطر المحتملة المترتبة على تكنولوجيا الذكاء الاصطناعي، وكيف يمكن تحسين نماذج الذكاء الاصطناعي لتكون أكثر أماناً وموثوقية. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
المخاطر الخفية لتحجيم الوقت في الاختبارات: كيف تؤثر التنوع المنخفض على نماذج اللغات الضخمة؟
يكشف بحث جديد عن مخاطر تحجيم الوقت في الاختبارات (TTS) على نماذج اللغات الضخمة، حيث يؤدي تقليص تنوع الإجابات المرشحة إلى نتائج غير آمنة. هذه الظاهرة تمثل تحدياً كبيراً في مجال الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
