في خطوة مبتكرة نحو تحسين الرعاية الغذائية، تم الكشف عن نموذج NutriMLLM الجديد، الذي يعد ردًا قويًا للتحديات التي تواجه نماذج اللغة متعددة الوسائط (Multimodal Large Language Models) في تقدير المغذيات الدقيقة من الصور الغذائية. أظهرت الأبحاث الحالية أن النماذج القائمة لم تكن موثوقة بما يكفي لأداء هذه المهمة بدقة، حيث تم تقييم خمس عائلات من النماذج عبر أربعة معايير مستقلة، مما أظهر عدم قدرة هذه النماذج على توفير نتائج دقيقة وموثوقة.

لتجاوز هذه الفجوة، اتبع الباحثون أسلوبًا مبتكرًا عبر إعادة استخدام مجموعة بيانات كبيرة من استدعاءات غذائية على مدار 24 ساعة كموجهات هيكلية لتوليد نصوص وصور. من خلال هذا الإجراء، تم إنشاء قاعدة بيانات ضخمة تضم حوالي 1.1 مليون صورة غذائية مع وصفات تفصيلية تشمل 65 مغذٍ دقيق. هذا يجعلها أكبر مجموعة بيانات اصطناعية تمتلك علامات دقيقة للمغذيات، والتي من المقرر إصدارها للجمهور بعد نشر النتائج.

بمجرد تعديل النموذج Qwen3-VL وأيضًا GLM-4.6V-Flash على هذه البيانات، تم الوصول لنموذج NutriMLLM، الذي يعد أول مجموعة من نماذج الرؤية واللغة المتخصصة في تقدير المغذيات الدقيقة الغذائية الشاملة. تم تقييم أداء هذه النماذج بناءً على أربعة محتويات فرعية منفصلة لتحديد مدى الامتناع، والتضليل، وقابلية الاستخدام، ودقة الأرقام لكل مغذٍ.

أظهرت النتائج أن كل نموذج من نماذج NutriMLLM سجل تغطية شبه كاملة لجميع المغذيات البالغ عددها 65، حيث تمكن النموذج الأكبر من التنافس مع المعايير المعروفة (مثل GPT-5 وGemini 3) في دقة معظم المغذيات. تشير هذه النتائج إلى أن إشراف توليد البيانات المدفوع بالاستدعاء يمكن أن يحول مشكلة تقدير المغذيات الدقيقة المعتمدة على الصور إلى تحدٍ قابل للحل، مما يفتح المجال لتقييم التغذية، وتوجيه التغذية الشخصية، والرصد على مستوى السكان للمغذيات الدقيقة.