في عالم التكنولوجيا المتقدم، تُعتبر نماذج اللغة الضخمة (LLMs) أدوات تغيير حقيقية، خاصة في مجالات جديدة ومبتكرة مثل إصلاح الأجهزة الاستهلاكية. ومع ذلك، يعتبر مجال إصلاح هذه الأجهزة اختبارًا مهماً ولكنه غير مستغل بشكل كافٍ لهذه النماذج. فإصلاح الأجهزة يتطلب من النماذج التفكير في أوصاف المشكلات غير المكتملة، وإجراء تشخيصات خاصة بالأجهزة، وتقديم حلول فعالة ، بالإضافة إلى اتخاذ قرارات تتعلق بالسلامة حيث أن تقديم مشورة غير دقيقة قد يؤدي إلى تلف الأجهزة أو مخاطر البطارية أو فقدان البيانات بشكل دائم.

لإلقاء الضوء على فعالية هذه النماذج، تم تقديم مجموعة بيانات تتضمن 991 سؤالًا في مجال الإصلاح تم تجميعها من موقع Reddit، تغطي مواضيع من إصلاح الهواتف إلى إصلاح الحواسيب واستعادة البيانات. هذه الأسئلة تم مرافقتها بحلول مرجعية كتبها فنيو إصلاح محترفون، كما تم توفير ترجمات باللغة البنغالية لتقييم الأداء عبر اللغات.

تم تقييم ستة نماذج LLMs متقدمة باستخدام أربعة معايير محددة في مجال الإصلاح: الدقة، والكمال، والعملية، والسلامة. تشير النتائج إلى أن نماذج اللغة الضخمة يمكن أن تقدم مساعدات مفيدة في مجال الإصلاح، لكنها لا تزال غير موثوقة في المهام عالية المخاطر دون تقييم صارم وتدابير سلامة واضحة. كان إصلاح الهواتف هو المجال الأكثر صعوبة وحساسية للسلامة، حيث ارتكبت جميع النماذج أخطاء كبيرة في تشخيص مستوى اللوحة، وأولوية الإصلاح، وإجراءات الاستعادة الآمنة.

وعلى الرغم من ذلك، تبين أن الردود باللغة البنغالية تؤدي بشكل مستمر أسوأ من تلك باللغة الإنجليزية. وفي ختام التقييمات، برز نموذج GPT-5.4 كالأفضل أداءً بين النماذج المعنية. وبالتالي، هناك حاجة ماسة للعمل نحو تحسين دقة وموثوقية هذه النماذج لضمان أمان وفعالية المساعدة الفنية المقدمة للمستخدمين.