في عالم الذكاء الاصطناعي، يُعد [تدريب](/tag/تدريب) [وكلاء](/tag/وكلاء) [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)) على المهام الطويلة أمرًا معقدًا، وذلك بسبب صعوبة الحصول على [مكافآت](/tag/مكافآت) دقيقة تعكس نتائج المهام البعيدة. في هذا السياق، تم [اقتراح](/tag/اقتراح) إطار [عمل](/tag/عمل) [جديد](/tag/جديد) يُعرف باسم HINT-SD، والذي يُعد تطويرًا مبتكرًا يعالج مشكلات [الاستدلال](/tag/الاستدلال) الذاتي خلال فترة [التدريب](/tag/التدريب).

تواجه الأساليب الحالية [تحديات](/tag/تحديات) عند محاولة تقديم [مكافآت](/tag/مكافآت) أو تلميحات نصية استنادًا إلى نتائج [الأعمال](/tag/الأعمال) في كل خطوة من [العملية](/tag/العملية). فالكثير من الخطوات قد تكون ناجحة أو محايدة، مما يجعل تقديم ملاحظات حول كل خطوة غير فعّال. لكن [HINT-SD](/tag/hint-sd) يقترح حلاً من خلال التركيز على [استدلال](/tag/استدلال) [ذاتي](/tag/ذاتي) مستهدف، مما يعني أنه يستخدم [معلومات](/tag/معلومات) تاريخية عن المسارات الكاملة لتحديد الأفعال ذات الصلة بالفشل ويطبق [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) فقط على تلك الأفعال.

تم اختبار هذا النموذج على [أنظمة](/tag/أنظمة) BFCL v3 وAppWorld، وكانت النتائج مذهلة. فقد أظهرت [التجارب](/tag/التجارب) أن [HINT-SD](/tag/hint-sd) يحسن من [الأداء](/tag/الأداء) بزيادة تصل إلى 18.80% على المقاييس المتعلقة بالتغذية الراجعة مقارنة بالأسلوب التقليدي، مع تقليل الوقت المستغرق لكل خطوة تدريبية بنسبة 2.26$. هذه النتائج تشير إلى أن تحديد الأفعال المستهدفة التي تحتاج إلى [تحسين](/tag/تحسين) هو عنصر أساسي لتحقيق [تدريب](/tag/تدريب) فعّال وذو [كفاءة](/tag/كفاءة) لوكلاء [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).

إن [تطور](/tag/تطور) [HINT-SD](/tag/hint-sd) باعتباره نهجًا جديدًا واستراتيجيًا يقدم الأمل في [تحسين](/tag/تحسين) تدريبات [نماذج الذكاء الاصطناعي](/tag/[نماذج](/tag/نماذج)-الذكاء-الاصطناعي) على المدى الطويل. ما رأيكم في هذه [التقنية](/tag/التقنية)؟ هل تعتقدون أنها ستحدث ثورة في مجال [تدريب](/tag/تدريب) [وكلاء الذكاء الاصطناعي](/tag/[وكلاء](/tag/وكلاء)-الذكاء-الاصطناعي)؟ شاركونا في [التعليقات](/tag/التعليقات)!