تم تدريب نموذج GPT-4 الذي طورته OpenAI باستخدام مقاطع فيديو من يوتيوب، وقد أعلنت منصة يوتيوب أن هذا كان مخالفًا لسياساتها.
في تقرير جديد من صحيفة نيويورك تايمز، تم الكشف عن استخدام OpenAI “أكثر من مليون ساعة” من نصوص مقاطع فيديو على يوتيوب لتدريب GPT-4، أحدث نموذج للذكاء الاصطناعي الإنشائي لديها.
تم ذلك باستخدام أداة داخلية تدعى “Whisper”، التي كانت قادرة على تحويل الصوت من مقاطع فيديو على يوتيوب إلى نصوص يمكن تغذيتها في تدريب ما سيصبح GPT-4. وفقًا للتقرير، كان الرئيس التنفيذي لـ OpenAI، جريج بروكمان، مشاركًا شخصيًا في اختيار مقاطع الفيديو المستخدمة لتدريب الذكاء الاصطناعي، على الرغم من تعبير بعض موظفي OpenAI عن قلقهم من أن مثل هذا الإجراء قد يكون مخالفًا لقواعد يوتيوب.
يبدو أن OpenAI كانت تعتقد أن هذا كان “استخدامًا عادلًا” لمقاطع الفيديو المتاحة للجمهور، لكن يوتيوب قالت في بيان لـ The Verge أن “كل من ملفات robots.txt لدينا وشروط الخدمة تحظر الحصول غير المصرح به أو تنزيل محتوى يوتيوب”.
الرئيس التنفيذي لـ YouTube، نيل موهان، أعرب عن نفس النقطة خلال نقاش أجرته معه وكالة Bloomberg بخصوص نموذج الفيديو الخاص بـ OpenAI، Sora، الذي من المقرر إطلاقه في وقت لاحق هذا العام. ولا يُسمح لـ OpenAI بموجب شروط الخدمة ليوتيوب بالحصول على مقاطع الفيديو بشكل غير مصرح به من أجل تدريب ذكاءها الاصطناعي.
ومع ذلك، يشير التقرير أيضًا إلى أن جوجل قامت بنفس العملية في تدريب نماذجها للذكاء الاصطناعي المستخدمة في Gemini.
من المعروف أيضًا أن الشركة استخدمت نصوص الفيديوهات على YouTube لتدريب الذكاء الاصطناعي. يشير هذا التقرير أيضًا إلى أن التغييرات التي طرأت على شروط خدمة جوجل قد سمحت للشركة بجمع بيانات التدريب من نقاط البيانات العامة الأخرى على خدماتها، بما في ذلك الملفات العامة على Google Docs وSheets وحتى التقييمات التي تُركت على Maps. ومن المعروف أن جوجل كانت على علم بأن OpenAI كانت تجمع البيانات من يوتيوب، لكن الشركة لم تتخذ أي إجراءات بشأن ذلك حتى الآن لتجنب ردود الفعل السلبية نتيجة للقيام بنفس العملية.