تواجه المؤسسات التي تبحث عن [معلومات](/tag/معلومات) [حساسة](/tag/حساسة) في المستندات [تحديات](/tag/تحديات) عديدة في عالم [الأمن المعلوماتي](/tag/[الأمن](/tag/الأمن)-المعلوماتي). في حين أن [الخدمات السحابية](/tag/الخدمات-السحابية) تتطلب إرسال [البيانات](/tag/البيانات) إلى بنى تحتية خارجية، فإن [الأدوات](/tag/الأدوات) المعتمدة على القواعد غالبًا ما تفشل في [اكتشاف](/tag/اكتشاف) التهديدات التي تعتمد على [السياق](/tag/السياق). هنا يظهر [الابتكار](/tag/الابتكار) الجديد:

نظام TorchSight، وهو نظام [مفتوح المصدر](/tag/مفتوح-المصدر) مصمم لتصنيف المستندات الأمنية. هذا النظام يرتكز على [نموذج لغوي](/tag/[نموذج](/tag/نموذج)-لغوي) محلي تم تعديله بدقة، وهو [نموذج [Qwen](/tag/qwen) 3.5](/tag/[نموذج](/tag/نموذج)-qwen-35) الذي يضم 27 مليار معلمة. تم [تدريب](/tag/تدريب) هذا النموذج على 78,358 [عينة](/tag/عينة) من 13 مصدرًا مرخصًا، بالإضافة إلى [بيانات صناعية](/tag/[بيانات](/tag/بيانات)-صناعية) اصطناعية من [نموذج GPT](/tag/[نموذج](/tag/نموذج)-gpt)-4، حيث تغطي هذه [البيانات](/tag/البيانات) سبع فئات أمنية و51 فئة فرعية.

أظهرت [التقييمات](/tag/التقييمات) الرئيسية على 1,000 مستند أن النموذج حقق [دقة](/tag/دقة) تصل إلى 95.0% على مستوى الفئة (مع فاصل [ثقة](/tag/ثقة) بنسبة 95% من 93.5 إلى 96.2). بينما كانت [النماذج](/tag/النماذج) التجارية التي تم اختبارها تحت نفس البروتوكول قد حققت [دقة](/tag/دقة) تتراوح بين 75.4% و79.9%.

علاوة على ذلك، في اختبار منفصل على 500 [عينة](/tag/عينة) محفوظة، وصلت [دقة النموذج](/tag/[دقة](/tag/دقة)-النموذج) إلى 93.8%، مما يشير إلى أن [الأداء](/tag/الأداء) يتجاوز معيار [التقييم](/tag/التقييم) الرئيسي، رغم أن الهامش يعتمد على تكوين [مجموعة البيانات](/tag/مجموعة-[البيانات](/tag/البيانات)) وصعوبة الحالات الحدودية.

تظهر هذه النتائج أن نموذجًا محليًا تم تعديله بدقة يمكن أن يدعم تصنيفًا دقيقًا للمستندات الأمنية، مع المحافظة على [معالجة الوثائق](/tag/معالجة-الوثائق) تحت السيطرة المحلية. في ختامنا، يبشر هذا [الابتكار](/tag/الابتكار) بتطور كبير في كيفية تعامل المؤسسات مع [الأمان](/tag/الأمان) المعلوماتي، حيث يلغي الحاجة إلى الاعتماد على الخدمات الخارجية ويضمن [سرية البيانات](/tag/سرية-[البيانات](/tag/البيانات)).