
كشفت شركة OpenAI مؤخرًا عن أحدث نماذجها الذكية o3 و o4-mini، والتي تمثل قفزة في مجالات مثل البرمجة والرياضيات. ومع ذلك، تواجه هذه النماذج مشكلة متزايدة: معدل الهلوسة أعلى من النماذج السابقة، أي أنها تميل إلى اختراع معلومات أو تقديم إجابات غير دقيقة، مما يثير القلق حول مدى موثوقيتها.
هلوسة أكثر رغم التطور في الأداء
على عكس التوقعات، أظهرت اختبارات داخلية أجرتها OpenAI أن o3 و o4-mini، وهما من فئة “نماذج الاستدلال” (reasoning models)، تُهلوس بمعدل أكبر من النماذج السابقة مثل o1، o1-mini، وo3-mini. بل إنها أيضًا تُهلوس أكثر من بعض النماذج التقليدية مثل GPT-4o.
وما يزيد من خطورة هذا الأمر هو أن OpenAI نفسها لا تعرف السبب حتى الآن، فقد ذكرت الشركة في تقريرها التقني أن هناك حاجة للمزيد من الأبحاث لفهم سبب ازدياد الهلوسات مع تطوير نماذج الاستدلال.
أرقام مقلقة في اختبارات الدقة
في اختبار داخلي يُعرف بـ PersonQA – مخصص لتقييم دقة معلومات النماذج حول الأشخاص – أظهر النموذج o3 معدل هلوسة بنسبة 33%، أي أكثر من ضعف معدل النماذج السابقة o1 وo3-mini التي سجلت 16% و14.8% على التوالي. أما النموذج o4-mini فسجل نتيجة أسوأ، حيث بلغت نسبة الهلوسة 48%.
نتائج اختبار خارجية تؤكد المشكلة
مختبر Transluce غير الربحي المتخصص في أبحاث الذكاء الاصطناعي أجرى أيضًا اختبارات مستقلة، ووجد أن o3 يختلق أحيانًا خطوات مزعومة في عملية الاستدلال. في إحدى الحالات، زعم النموذج أنه شغّل كودًا على جهاز MacBook Pro لعام 2021 خارج ChatGPT، ثم نسخ النتائج – وهذا غير ممكن لأن النموذج لا يمتلك تلك القدرات!
آراء الخبراء: أداء مذهل ولكن…
قال Neil Chowdhury، الباحث في Transluce وموظف سابق في OpenAI، إن استخدام تقنيات تعزيز التعلم (reinforcement learning) في نماذج o-series قد يكون سببًا في تضخيم مشكلة الهلوسة بدلاً من الحد منها.
وأشارت Sarah Schwettmann، المؤسِّسة المشاركة لـ Transluce، إلى أن معدل الهلوسة العالي قد يجعل من o3 أقل فائدة في بعض الحالات العملية.
من جهته، أوضح Kian Katanforoosh، أستاذ مشارك في جامعة ستانفورد والرئيس التنفيذي لشركة Workera الناشئة، أن فريقه يستخدم o3 في أعمال البرمجة ووجده متفوقًا على النماذج المنافسة، إلا أن النموذج يقدم أحيانًا روابط وهمية لمواقع غير موجودة.
التفكير الإبداعي أم المعلومات الخاطئة؟
رغم أن الهلوسة قد تمنح النماذج بعض الإبداع، إلا أنها تشكل مشكلة حقيقية في الاستخدامات الحساسة، مثل العقود القانونية أو المعلومات الطبية، حيث لا مجال للأخطاء.
هل البحث عبر الإنترنت هو الحل؟
إحدى الحلول الواعدة التي تقترحها OpenAI هي دمج نماذج الاستدلال مع قدرات البحث عبر الإنترنت. على سبيل المثال، سجل GPT-4o المزود بإمكانية البحث نسبة دقة بلغت 90% في اختبار SimpleQA. وربما يكون هذا النهج هو المفتاح لتقليل الهلوسة في المستقبل.
البحث مستمر لحل المشكلة
أكد المتحدث باسم OpenAI، Niko Felix، أن مشكلة الهلوسة لا تزال قيد البحث النشط، وأن الشركة تواصل العمل على تحسين الدقة والموثوقية في جميع نماذجها.
النماذج القائمة على الاستدلال: نقلة نوعية أم مشكلة قادمة؟
تحول اهتمام قطاع الذكاء الاصطناعي خلال العام الأخير إلى نماذج الاستدلال كبديل أكثر فاعلية وأقل اعتمادًا على البيانات الضخمة. لكن رغم فوائدها، يبدو أنها تأتي مع تحدٍ جديد: الهلوسة المتزايدة، والتي قد تُعقّد مسيرة تطوير الذكاء الاصطناعي في المستقبل القريب.
ابدأ المناقشة في forum.mjbtechtips.com