ابتكار جديد من DeepSeek يحل “كابوس” تدريب نماذج الذكاء الاصطناعي

جابر بوذيبة
23 مشاهدات
3 دقيقة للقراءة
أبرز النقاط
  • تقديم تقنية "الربط التشعبي المقيد" (mHC) لمعالجة عدم استقرار تدريب النماذج الضخمة.
  • التركيز على تقليل الهدر في الطاقة وساعات عمل المعالجات بدلاً من مجرد رفع الأداء الخام.
  • حل مشكلة "إعادة التشغيل" المكلفة التي تواجه الشركات عند فشل التدريب في منتصف العملية.

لم يعد تدريب نماذج الذكاء الاصطناعي الكبيرة (Large AI Models) مجرد تحدٍ تقني يتعلق بالتعقيد البرمجي فحسب، بل تحول إلى معضلة اقتصادية وبيئية كبرى بسبب التكاليف الباهظة، واستهلاك الطاقة الهائل، والموارد المهدرة.

وفي هذا السياق، نشرت شركة ديب سيك (DeepSeek) ورقة بحثية جديدة تقترح نهجاً مبتكراً قد يساهم في تخفيف هذه الضغوط بشكل ملموس، مغيرًا قواعد اللعبة في كيفية بناء العقول الرقمية.

ما هي تقنية mHC الجديدة؟

تتمحور الورقة البحثية حول طريقة جديدة تُطلق عليها الشركة اسم “الربط التشعبي المقيد” (Manifold-constrained hyperconnection – mHC).

تركز هذه التقنية بشكل أساسي على جعل عملية تدريب النماذج الضخمة أسهل وأكثر موثوقية. فبدلاً من السعي وراء مكاسب الأداء الخام فقط، تهدف الفكرة إلى تقليل “عدم الاستقرار” (Instability) أثناء التدريب، وهي مشكلة شائعة تجبر الشركات غالباً على إعادة عمليات التدريب المكلفة من نقطة الصفر.

المشكلة: لماذا تفشل النماذج؟

ببساطة، تتعرض العديد من نماذج الذكاء الاصطناعي المتقدمة للفشل أو الانهيار في منتصف عملية التدريب. وعندما يحدث ذلك، تضيع أسابيع من العمل الشاق، وكميات هائلة من الكهرباء، وآلاف الساعات من عمل وحدات المعالجة الرسومية (GPUs).

نهج DeepSeek الجديد يهدف إلى منع حالات الفشل هذه من خلال جعل سلوك النموذج أكثر قابلية للتنبؤ (Predictable)، حتى مع ازدياد حجم النموذج وتعقيده.

الكفاءة بدلاً من “القوة الغاشمة”

تكتسب هذه التقنية أهميتها من حقيقة أن تدريب الذكاء الاصطناعي اليوم يستهلك كميات فلكية من الطاقة.

ورغم أن تقنية mHC لا تجعل المعالجات نفسها تستهلك طاقة أقل لحظياً، إلا أنها تقلل من “الطاقة المهدرة” بشكل كبير، وذلك عبر ضمان إنهاء النماذج لتدريبها بنجاح دون توقفات مفاجئة أو الحاجة لإعادة التشغيل المتكررة.

وداعاً للأساليب التقليدية المكلفة

عندما يكون التدريب أكثر استقراراً، لن تضطر الشركات للاعتماد بشكل كبير على أساليب “القوة الغاشمة” (Brute Force)، مثل إضافة المزيد من المعالجات، أو زيادة الذاكرة، أو تمديد جداول التدريب الزمنية فقط لإنجاح الأمر. وهذا بحد ذاته يقلل من إجمالي الطاقة المستخدمة طوال دورة التدريب الكاملة.

نظرة للمستقبل

لا يزعم بحث DeepSeek أنه سيحل مشاكل نقص الأجهزة أو تحديات الطاقة بين عشية وضحاها. بدلاً من ذلك، هو يمثل تحسيناً هادئاً ولكنه حيوي: “الاستخدام الأمثل للموارد المتاحة بالفعل”.

مع استمرار نمو النماذج اللغوية، قد يصبح تقليل انعدام الكفاءة بنفس أهمية السعي وراء الأداء العالي، وهنا تكمن القيمة الحقيقية التي قد تحدثها هندسة الذكاء الاصطناعي الجديدة من DeepSeek.

📡 للمزيد من التغطيات اليومية، استكشف قسم الأخبار عبر موقعنا.

ابقَ دائماً في قلب الحدث التقني! 🔍
انضم الآن إلى نخبة متابعينا على تيليجرام و واتساب لتصلك أهم الأخبار والحصريات فور حدوثها! 💡

مقالات ذات صلة:

شارك هذه المقالة
تابع:
تقني سامي في إدارة وأمن الشبكات المعلوماتية ، مطور ويب ومؤسس موقع MJB Tech Tips ، مهتم بمواضيع اﻷمن المعلوماتي وأنظمة لينكس.

التعليقات

PNFPB Install PWA using share icon

Install our app using add to home screen in browser. In phone/ipad browser, click on share icon in browser and select add to home screen in ios devices or add to dock in macos

إدارة الإخطارات

notification icon
اشترك للحصول على آخر أخبار وجديد عالم التقنية من تطبيقات إلى أحدث اﻷجهزة من مختلف الشركات الكبرى.
notification icon
أنت مشترك في الإخطارات
notification icon
اشترك للحصول على آخر أخبار وجديد عالم التقنية من تطبيقات إلى أحدث اﻷجهزة من مختلف الشركات الكبرى.
notification icon
أنت مشترك في الإخطارات