تشهد تقنيات نماذج الصوت الكبيرة (Large Audio-Language Models) تقدماً ملحوظاً، مما يجعل التفاعل الصوتي الفوري أكثر عملية من أي وقت مضى. في هذا السياق، يتضح أن جودة التفكير واستجابة النظام ترتبطان بشكل وثيق؛ حيث إن تأخير التفكير حتى انتهاء الكلام قد يحسن من جودة الإجابات، لكنه يتسبب في تأخير واضح في ردود الفعل من قبل المستخدم. وبالمقابل، فإن الرد مبكراً قد يؤدي إلى اتخاذ قرارات غير صحيحة قبل وصول الأدلة الحاسمة.

للتغلب على هذه المعضلة، تم تقديم صياغة تحكم تعلمية تحت مسمى "انتظر - فكر - أجب" (wait-think-answer) لنماذج الصوت الكبيرة. تستند هذه الصياغة إلى الطبيعة الشاملة للمحادثات البشرية، حيث يتخذ المتحكم القرار بشأن متى ينبغي الانتظار، ومتى يتم تقديم تحديث تفكير مختصر، ومتى يتم تقديم الإجابة.

باستخدام نموذج Qwen2.5-Omni-7B كأساس، تم بناء تتبع متسق لتقنية "انتظر - فكر - أجب" من بيانات التفكير الصوتي، وتدريب المتحكم باستخدام أسلوب التحسين الدقيق تحت الإشراف (Supervised Fine-Tuning). تم تطبيق أساليب مثل تحسين سياسة تزامن التقسيم الديناميكي (DAPO).

تجمع مكافآت النظام بين دقة الإجابة، صلاحية الإجراءات، توقيت التحديث، التزامن الزمني، جودة التفكير، وثبات السلسلة، مما يضمن تحسين المسار الكلي لـ"انتظر - فكر - أجب" وليس الإجابة النهائية فقط.

على معيار أسئلة الإجابة على الأسئلة المنطوقة، ازدادت دقة النظام من 67.6% إلى 70.3% مع تقليص زمن التفكير اللاحق بنسبة 14% بدون التأثير على الأداء. وفي اختبار آخر استخدم 186 عنصراً من تسجيلات بشرية، ثبت أن عائلة المتحكمات لا تزال فعالة، حيث حقق أسلوب التحسين الدقيق أقوى دقة، بينما كانت سلالة المتحكم DAPO الوحيدة التي تتباين فيها زمن التفكير النهائي عن الأساس.

تشير هذه النتائج إلى ضرورة تعلم النموذج الجري في الأوقات المناسبة لتوضيح التفكير المتعلق بالاستماع الصوتي. هل تتوقعون أن يساعد هذا النهج في تحسين تفاعلنا مع أنظمة الذكاء الاصطناعي في المستقبل؟