في عالم الذكاء الاصطناعي المتطور، تواجه نماذج اللغات الضخمة (Large Language Models) خطرًا متزايدًا من الانهيار بسبب عملية التعلم الذاتي، المعروفة باسم "التغذية الذاتية للذكاء الاصطناعي" (AI autophagy). يُعتبر هذا الإشكال تحديًا حقيقيًا، خصوصًا مع تزايد المحتوى المُنتَج بواسطة الذكاء الاصطناعي على الويب.

تسلط دراسة جديدة الضوء على هذا الموضوع من خلال إجراء محاكاة شاملة عبر عدة مجموعات بيانات ونماذج لغوية ضخمة، للتعامل مع الثغرات الرئيسية في فهم ظاهرة الانهيار.

تمثل النتائج المقدمة أهمية كبيرة، حيث تم تقديم مقاييس داخلية للنموذج بناءً على توزيعات احتمالية الرموز التالية، مما يدل على أن انهيار النموذج يحدث نتيجة زيادة تركيز كتلة الاحتمالات على مجموعة صغيرة من الرموز. وهذا يعكس فقدان التنوع في المحتوى المُنتج.

علاوة على ذلك، أظهرت الدراسة أن انهيار النموذج يرتبط أيضًا بفقدان الحاسة العامة، كما يتضح من انخفاض دقة استدلال الحاسة العامة. أحد الاكتشافات الأساسية هنا هو أن الازدواجية (perplexity) - وهي مقياس لمدى "المفاجأة" التي يواجهها النموذج - تلعب دورًا فعّالًا في هذا الانهيار.

من خلال تقديم استراتيجية تصفية تعتمد على الازدواجية، تركز الدراسة على الوثائق ذات المفاجآت العالية خلال عملية ضبط النموذج، متجنبًا الحاجة إلى التمييز بين المحتوى الذي كتبه البشر والمحتوى المُنتَج بواسطة الذكاء الاصطناعي.

وقد أظهرت هذه الاستراتيجية، عبر مجموعات البيانات وعائلات النماذج اللغوية الضخمة، قدرةً مستمرة على الحد من انهيار النموذج، مما يحقق أداءً يقارن أو يتفوق في بعض الحالات على المعايير المستندة إلى البيانات البشرية، مع تقليل تركيز احتمالات الرموز التالية بشكل كبير.

تقدم هذه النتائج فهماً موحدًا ومركزيًا لنموذج الانهيار، مما يُشير إلى استراتيجيات قابلة للتطبيق وقابلة للتوسع لتدريب أنظمة الذكاء الاصطناعي المُنتَجة ضمن بيئات تكون فيها البيانات اصطناعية بشكل متزايد.

ما هي آراؤكم حول هذه الابتكارات في عالم الذكاء الاصطناعي؟ شاركونا أفكاركم في التعليقات!