تُعتبر دراسة سلوك الطلاب في الصفوف الدراسية من أهم العناصر لمعرفة كيفية تحسين جودة التعليم وتعزيز تفاعل الطلاب. ومع ذلك، تكمن التحديات في الأساليب الحالية التي غالبًا ما تتطلب بيانات معقّدة وموثوقة لتوقع سلوك الطلاب، وهو ما قد يتعذر بسبب مخاوف تتعلق بالخصوصية.

استجابة لهذه التحديات، تم تقديم إطار عمل جديد يتكون من ثلاث مراحل لقياس تفاعل الطلاب بالاستناد إلى فيديوهات الصفوف الدراسية. المرحلة الأولى تشمل تكيف نموذج الرؤية واللغة (Vision-Language Model - VLM) مع عدد قليل من العينات التدريبية للتعرف على أفعال الطلاب. أما المرحلة الثانية، فتستفيد من تقنية نافذة الزمن المتحرك لتقسيم فيديو الطالب إلى مقاطع غير متداخلة، حيث يتم تصور وتصنيف كل مقطع بناءً على الأفعال المحددة.

في المرحلة النهائية، يتم استخدام نموذج لغة كبير (Large Language Model - LLM) لتصنيف التسلسل الكامل من الأفعال مع الأخذ بعين الاعتبار السياق الصفّي. هذا النهج يجمع بين تفصيل تصرفات الطلاب وتفاعلهم مع البيئة المحيطة بهم، مما يسهم في تحديد مدى انخراط الطالب.

أظهرت النتائج التجريبية فعالية هذا الإطار في التعرف على تفاعل الطلاب، مما قد يمثل خطوة مهمة نحو تحسين أساليب التعليم ومساعدة المعلمين في فهم سلوك طلابهم بشكل أفضل. يمكنكم الاطلاع على الشيفرة المصدرية على [GitHub](https://github.com/ahmed-nady/context_aware_student_engagement).