في عالم الذكاء الاصطناعي، تواجه النماذج الصغيرة (Small Models) تحديات كبيرة عند محاولة كتابة نصوص طويلة. فالكثير منها إما لا يستطيع تحقيق الطول المطلوب، أو تتراجع جودته بشكل ملحوظ مع زيادة طول النصوص. لكن، مع ظهور نموذج POLARIS، يبدو أن الوضع سيتغير!

**POLARIS**، أو تحسين السياسات باستخدام نماذج اللغات الكبيرة (LLMs) كمرجع، هو وصفة ثورية تعتمد على نوعين أساسيين من المكونات:
1. **قاضي LLM متقدم** مع مقياس جودة قصصي هيكلية كحافز عبر الإنترنت.
2. **حقن مراجع بشرية (HRI)**، حيث يتم استخدام قصة مكتوبة بدقة كمرجع عالي الجودة داخل كل مجموعة من GRPO.

بمساعدة مجموعة بيانات تشمل حوالي 1.4 ألف مجموعة من الأزواج بين العناوين والقصص، وعبر استغلال 4 وحدات معالجة رسومات A100، تم تطوير POLARIS-9B.

لقد أظهرت الاختبارات أن هذا النموذج يتفوق على العديد من النماذج الأكبر حجمًا، وتمكن من الالتزام بطلبات طول النصوص بشكل أكبر. حيث أظهرت التقييمات البشرية العمياء أن POLARIS-9B يفضل على النموذج الأساسي Qwen3.5-9B، ويتمتع بمستوى أداء مماثل لـ Qwen3.5-27B.

وعلى الرغم من تدريبه فقط على قصص تصل حتى 4 آلاف كلمة، فإنه يحافظ على الجودة عندما يُطلب منه إنتاج نصوص تصل إلى ثلاثة أضعاف طول التدريب. ويشير هذا النجاح إلى أن اختبار الطول يعد مقياسًا مهمًا لتقييم جودة النماذج الإبداعية

في الختام، يوفر POLARIS رؤية جديدة لكتابة القصص الإبداعية باستخدام الذكاء الاصطناعي، ويعد بمستقبل واعد في هذا المجال.