في عصر تتزايد فيه الحاجة لتحسين كفاءة نماذج الذكاء الاصطناعي، برزت مشكلة تكاليف التوكن (token cost) كأحد التحديات الرئيسية. خاصةً في المجال السريري، حيث المدخلات طويلة ومتنوعة وغالبًا ما تحتوي على تكرارات غير ضرورية. هل يمكن تجاوز هذه التحديات؟

في دراسة جديدة، تم تناول مسألة اختيار السياق متعدد الاستخدامات، بحيث يتم اختيار مجموعة فرعية من وحدات الوثائق دون تجاوز ميزانية محددة من التوكنات. وقد تم تصنيف ذلك على أنه مشكلة اختيار مجموعة ذات قيود كيس الظهر (knapsack problem) التي تتطلب قرارات دقيقة فيما يتعلق بتقسيم الوثائق واختيار الوحدات التي ستبقى.

تقدم الدراسة نموذج extbf{RCD}، الذي يوازن بين ثلاثة عوامل رئيسية: الصلة (relevance)، والتغطية (coverage)، والتنوع (diversity). بعد إجراء تجارب على ملاحظات خروج المرضى من قاعدة بيانات MIMIC وغيرها، تبين أن الاستراتيجيات المثلى تعتمد على طبيعة الإعداد التجريبي. إذ أثبتت أدوات الاختيار المعتمدة على التنوع أنها تعزز من جودة الجيل اللغوي لنماذج الذكاء الاصطناعي.

لذا، متى ستقوم بتطبيق هذه الاستراتيجيات في مجالك الخاص؟ ما الذي تعتقده حول تأثير ذلك على الأبحاث المستقبلية؟ نحن في انتظار آرائكم ومشاركاتكم حول هذا الموضوع الشيق.