في عالم البحث العلمي، يواجه العلماء تحديًا كبيرًا هو فوضى المعلومات الناتجة عن التقسيمات القطاعية والمصطلحات المتخصصة التي تعيق فهم العلاقات بين مجالات المعرفة المختلفة. وفي إطار السعي لحل هذه المشكلة، أطلقت دراسة جديدة تقنية مبتكرة تعتمد على نماذج اللغات الضخمة (Large Language Models) لرسم خريطة الأدب العلمي من منظور نمذجة المواضيع.

تقوم هذه التقنية على نموذج يعتمد على بيانات تاريخية تمتد على 20 عامًا، تضم أكثر من 1500 مقال متعلق بالهندسة تم نشرها في مجلة "إجراءات الأكاديمية الوطنية للعلوم" (PNAS). يتضمن الإطار المتبع عملية تصنيف ذات مرحلتين، حيث يتم في المرحلة الأولى تخصيص فئة موضوعية رئيسية لكل مقال بناءً على ملخصه، تليها مرحلة تحليل النص الكامل لتحديد التصنيفات الثانوية التي تكشف عن الروابط الخفية بين المواضيع.

على عكس النماذج التقليدية. يقدم الإطار القائم على نماذج اللغات الضخمة مواضيع يمكن تفسيرها دلاليًا بينما يحافظ على أداء كمي قوي. تشير التقييمات المقارنة ضد أساليب نمذجة المواضيع المعروفة إلى تنوع أكبر في الموضوعات وانخفاض في التداخل بين المقاييس التنافسية.

علاوة على ذلك، أثبتت التحقق اليدوي على عينة عشوائية من الملخصات دقة بنسبة تصل إلى 75.9%، بينما أكدت تحليلات معالجة اللغة الطبيعية التقليدية أن المواضيع المتولدة تتوافق مع أنماط لغوية ذات مغزى في النص.

إن الشبكة الثنائية التي تربط التصنيفات الرئيسية والثانوية تكشف أيضًا عن العلاقات الموضوعية الضمنية التي قد لا تكون واضحة من خلال الملخصات أو أنظمة الكلمات الرئيسية فقط. هذه النتائج تشير إلى أن الإطار قادر على استعادة الكثير من هيكل التصنيف الثنائي الخاص بالمجلة دون معرفة مسبقة بنظامها.

بشكل عام، توفر هذه التقنية أداة قوية لرسم خريطة العلوم وتحديد الروابط المتداخلة الناشئة بين المواضيع البحثية، ما يفتح آفاقًا جديدة لفهم الديناميات المتطورة في مختلف مجالات البحث.