أعلنت شركة DeepSeek الصينية عن الإصدار 3.1 من نموذجها اللغوي الكبير، والذي يأتي بترقية لافتة مع زيادة حجم السياق إلى 128 ألف توكن ورفع عدد المعاملات إلى 685 مليار. وجاء الإعلان بهدوء عبر مجموعة المستخدمين على WeChat بتاريخ 19 أغسطس، دون أي منشورات على القنوات الرسمية للشركة.
مميزات الإصدار الجديد
أبرز تحديث في DeepSeek V3.1 هو مضاعفة طول السياق، ما يمكّن النموذج من معالجة محتوى بحجم كتاب من 300 إلى 400 صفحة. هذا التطوير يعزز أداءه في إنشاء المحتوى الطويل، تحليل الوثائق التقنية، وإدارة المحادثات المتعددة الأدوار.
الشركة أوضحت أن هذه الميزة كانت مدعومة داخلياً في الإصدار السابق V3، لكنها أصبحت متاحة الآن عبر جميع الواجهات.
هندسة Mixture-of-Experts والأداء
يحافظ DeepSeek V3.1 على بنية Mixture-of-Experts، مع تفعيل 37 مليار معلمة لكل توكن فقط. كما يدعم صيغ متعددة للدقة مثل BF16 وFP8 وF32، ما يمنح مرونة أكبر لبيئات النشر المختلفة.
المطورون يمكنهم الوصول إلى النموذج عبر واجهة API أو تحميله من Hugging Face بترخيص مفتوح المصدر MIT.
نتائج الاختبارات
في الاختبارات المبكرة، حقق النموذج نتيجة 71.6% في اختبار Aider للبرمجة، متفوقاً على Claude Opus 4 ليصبح من أقوى النماذج مفتوحة المصدر في البرمجة. كما أظهر تحسناً في مهام الرياضيات والمنطق، رغم ملاحظات بعض المستخدمين حول غياب قفزة واضحة في قدرات الاستدلال مقارنة بالإصدار السابق R1-0528.
تغيير في الاستراتيجية
أزالت الشركة جميع الإشارات إلى نموذج R1 من واجهة الدردشة، ما يعكس تحولها نحو نموذج هجين موحد. يبدو أن قدرات الاستدلال قد دُمجت داخل V3.1 بدلاً من تطوير نموذج منفصل.
لم تكشف DeepSeek عن تكلفة تدريب الإصدار الجديد، لكن تقارير سابقة أشارت إلى أن تدريب الإصدار V3 الأصلي استهلك 2.788 مليون ساعة GPU باستخدام شرائح Nvidia H800 بتكلفة تقديرية بلغت 5.6 مليون دولار.
تأجيل R2 ومشاكل الرقائق المحلية
كان من المتوقع أن تكشف الشركة عن النموذج R2 لتعزيز قدرات الاستدلال. إلا أن ظهوره تأخر بسبب مشكلات تقنية مرتبطة بشرائح Huawei Ascend. ورغم الدعم الفني من هواوي، فشل التدريب على هذه الرقائق بسبب قيود التوافق والأداء، ما أجبر الشركة على العودة إلى شرائح Nvidia للتدريب مع الاستمرار في استخدام Ascend للاستدلال.
هذا النهج تسبب في تعقيدات إضافية وتأجيلات طويلة، بجانب بطء عمليات وسم البيانات، وهو ما أبدى مؤسس الشركة ليانغ وينفنغ استياءه منه.
منافسة قوية وتحديات محلية
في الوقت الذي تأخرت فيه DeepSeek، مضت شركات مثل Alibaba قدماً مع نموذجها Qwen3 الذي يقدم أداءً أكثر كفاءة. هذا الموقف أبرز محدودية البنية التحتية المحلية للرقائق في الصين والتحديات التي تواجهها الشركات الناشئة في التوفيق بين المتطلبات التقنية والسياسية.
الخلاصة
رغم غياب R2 حتى الآن، يظل DeepSeek V3.1 هو النموذج الرئيسي للشركة، حيث يجمع بين قدرات الاستدلال والمعالجة العامة ضمن إطار واحد. ومع المنافسة المتزايدة، ستخضع أي إصدارات مستقبلية لمزيد من التدقيق سواء على الصعيد التقني أو الاستراتيجي.
📡 لمزيد من التحديثات اليومية، تفضل بزيارة قسم الأخبار على موقعنا.
ابقَ في صدارة المشهد التقني! 🔍
انضم إلى مجتمعنا على تيليغرام لتصلك أبرز الأخبار أولاً بأول! 💡
ابدأ المناقشة في forum.mjbtechtips.com