تعتبر عملية تصنيف أنواع الملفات من الأساسيات في العديد من workflows بما في ذلك تقييم البرمجيات الضارة (malware triage)، واستعادة البيانات الجنائية (forensic carving)، وفحص الحزم (packet inspection)، وفهرسة التخزين (storage indexing). عادةً ما تعتمد الأنظمة المدربة مثل Magika من Google على وصول الملف بالكامل من موقع معروف، مما يجعلها تعاني من الفشل عند التعامل مع المدخلات التي تنتجها العديد من المهام، مثل الحمولة الفردية لحزمة، أو جزء مقطوع بلا رأس، أو كتلة عشوائية من القرص، أو تحميل مقطع من البيانات.
هنا يأتي دور MimeLens، وهي عائلة من مشفرات BERT الصغيرة المدربة مسبقاً على المحتوى الثنائي من أنظمة ويندوز، مع أخذ عينة من مكان عشوائي داخل كل ملف، ودون الحاجة لموقع محدد في مقدمة الملف، مما يتيح لها تقديم نتائج دقيقة في تصنيف البيانات. تقوم MimeLens بتحويل أي جزء بايت يدخل من أي مكان في الملف، دون الحاجة إلى رأس أو حجم ثابت، لتخرج بما يصل إلى 125 تسمية MIME من libmagic.
في اختبارات الأداء، يتفوق MimeLens على Magika v1.1 بفارق ±10.7 نقطة مئوية عندما يتعلق الأمر بالبيانات المعلمة من libmagic. وعندما يحين الوقت لتحليل الملفات بشكل جزئي أو عشوائي، تظل MimeLens قادرة على التصنيف بفعالية حيث تفشل Magika، بما في ذلك حزمة UDP وسط تدفق البيانات، وبنسبة دقة تزيد عن ضعف دقة libmagic وMagika في تحليل الكتل المتوسطة من البيانات.
ومع ذلك، فإن التكلفة المصاحبة لذلك هي زمن الانتظار، حيث تعمل MimeLens بشكل أبطأ بمقدار مرة إلى مرتين لكل عينة على معالج CPU مقارنةً بـ Magika، على الرغم من أنها تتطابق في الأداء على معالجات الرسوميات الاستهلاكية (consumer GPUs) أو عند معالجة دفعات عديدة من البيانات. تم إصدار جميع نقاط التحقق المدربة على منصة Hugging Face لتكون متاحة للجمهور، مما يتيح الفرصة للباحثين والمطورين استكشاف هذه التكنولوجيا المستحدثة.
MimeLens: ثورة في تحديد نوعية المحتوى بصرف النظر عن الموقع
تقدم تقنية MimeLens نهجاً مبتكراً لتصنيف أنواع الملفات، مع الأداء المتفوق في تحليل أجزاء البيانات العشوائية. اكتشف كيف تحقق MimeLens نتائج مذهلة في ظل الظروف المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
